现在位置: 首页 > 搜索技术 > 文章
2017年10月02日 搜索技术 ⁄ 共 915字 评论关闭
                 Solr是一个基于Lucene的全文搜索引擎,提供了更丰富的搜索语言,更灵活的配置,更高的查询效率。一句话,与Lucene相比,有过之而无不及。这一节里, 主要谈论两个知识点:Jdk的安装和Tomcat的安装。 Solr服务器端使用的是JAVA,所以我们需要安装这两个软件。 有朋友可能说,安装这两个软件就不用讲了吧,其实不然, 对于.NET的同学来说,他们对这两个软件比较陌生。                 首先要安装JDK,然后再安...
阅读全文
2017年09月30日 搜索技术 ⁄ 共 3338字 评论关闭
一致性hash和solr千万级数据分布式搜索引擎中的应用 2013/08/31 | 分类: IT技术 | 0 条评论 | 标签: 分布式, 大数据, 服务器 分享到:3 原文出处: 严澜(@观澜而索源) 互联网创业中大部分人都是草根创业,这个时候没有强劲的服务器,也没有钱去买很昂贵的海量数据库。在这样严峻的条件下,一批又一批的创业者从创业中获得成功,这个和当前的开源技术、海量数据架构有着必不可分的关系。比如我们使用mysql、ngi...
阅读全文
2017年09月29日 搜索技术 ⁄ 共 4038字 评论关闭
分类: 架构设计 架构升级 搜索引擎2013-10-23 20:38 319人阅读 评论(0) 收藏 举报 spider搜索引擎linuxsocketepoll 本文将介绍epoll的概念,原理, 优点,及使用接口,同时结合作者在搜索引擎spider开发中epoll使用方式的代码向大家具体介绍epoll的使用方式。 P.S. 笔者08年曾有使用epoll编写未考虑压力控制的crawler,将国内著名票务网站压垮并在boss的带领下登门道歉的经历:) 足见epoll的强悍! epoll是什么 按...
阅读全文
2017年05月14日 搜索技术 ⁄ 共 1696字 评论关闭
对于许多人来说,谷歌已经成为他们在互联网上进行搜索的主要工具。但是在谷歌统治互联网搜索之前,雅虎Yahoo Directory才是主流搜索引擎。 可是现在,Yahoo Directory即将被关闭。雅虎今天宣布,Yahoo Directory将与Yahoo Education、视频分享Qwiki等服务一起被关闭。 雅虎发文称:“20年前,雅虎推出Yahoo Directory作为网站目录,帮助用户在互联网上搜索。虽然我们依然致力于连接用户与他们感兴趣的信息,但我们的业务...
阅读全文
  robots.txt是一种存放于网站根目录下的文本文件,用于告诉搜索引擎的爬虫(spider),此网站中的哪些内容是不应被搜索引擎的索引,哪些是可以被索引。通常认为,robots.txt文件用来搜索引擎对目标网页的抓取。 robots.txt协议并不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个文件,但也有一些特殊情况。 对于Google来说,使用robots也未必能阻止Google将网址编入索引,如果有其他网站链接到该网页的话,Google...
阅读全文
2017年01月04日 搜索技术 ⁄ 共 1936字 评论关闭
                   接上篇,Solr的准备工作完成后,本节主要介绍Solr的安装,其实Solr不需要安装.直接下载就可以了                   1.Solr配置                       下载地址 :http://lucene.apache.org/solr/                           1.在D盘下创建目录 D:\Server\Solr                           2.解压solr-4.8.0文件,我这里下载的是这个4.8版本,将example文件夹下的Solr文件夹中的所有文件拷贝到D:\Server\Solr...
阅读全文
2016年07月20日 搜索技术 ⁄ 共 1056字 评论关闭
在大学期间,有段时间对搜索还是比较感兴趣的,就研究了几天。后来,发现搜索引擎太难搞了,分词啥的,好多都是纯算法。感觉没啥意思,so就半途而废,玩别的技术领域去了。  大学毕业加入秒针,对广告和监测有了一定的兴趣。so又想搞搜索引擎了,大概的目标就是,从网上爬去内容,建立索引,网友搜索、点击、广告点击等监测统计,存到数据库。  这个项目,还真是做了,做完了一个Demo版。借助jsoup和自己写几行代码爬网页, 然...
阅读全文
2016年06月24日 搜索技术 ⁄ 共 2604字 评论关闭
1、http://scholar.google.com/ 这个不多讲了. 3、http://www.scirus.com Scirus是目前互联网上最全面、综合性最强的科技文献搜索引擎之一,由Elsevier科学出 版社开发,用于搜索期刊和专利,效果很不错!Scirus覆盖的学科范围包括:农业与生物 学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理 科学,工程、能源与技术,环境科学,语言学,法学,生命科学,材料科学,数学,医学 ,神经系...
阅读全文
2016年06月05日 搜索技术 ⁄ 共 1998字 评论关闭
 一、环境准备: 系统环境:CentOS-7.0.1406         tomcat-7.0.29         jdk-7u9         solr-4.7.0 首先将软件包上传到/tmp目录下 1、  jdk安装 [root@svn-server /]# cd /tmp/ [root@svn-server /]#tar zxvf jdk-7u9-linux-x64.tar.gz [root@svn-server /]#mv jdk1.7.0_09 /usr/ [root@svn-server /]#vi /etc/profile 在最后一行复制以下代码添加如下内容: JAVA_HOME=/usr/jdk1.7.0_09/ CLASSPATH=...
阅读全文
2016年06月05日 搜索技术 ⁄ 共 2358字 评论关闭
 Solr是一个基于Lucene的全文搜索引擎,提供了更丰富的搜索语言,更灵活的配置,更高的查询效率。一句话,与Lucene相比,有过之而无不及。这一节里, 主要谈论两个知识点:Jdk的安装和Tomcat的安装。 Solr服务器端使用的是JAVA,所以我们需要安装这两个软件。 有朋友可能说,安装这两个软件就不用讲了吧,其实不然, 对于.NET的同学来说,他们对这两个软件比较陌生。                 首先要安装JDK,然后再安装Tomcat,按...
阅读全文