现在位置: 首页 > 搜索技术 > 文章
2017年05月14日 搜索技术 ⁄ 共 1696字 评论关闭
对于许多人来说,谷歌已经成为他们在互联网上进行搜索的主要工具。但是在谷歌统治互联网搜索之前,雅虎Yahoo Directory才是主流搜索引擎。 可是现在,Yahoo Directory即将被关闭。雅虎今天宣布,Yahoo Directory将与Yahoo Education、视频分享Qwiki等服务一起被关闭。 雅虎发文称:“20年前,雅虎推出Yahoo Directory作为网站目录,帮助用户在互联网上搜索。虽然我们依然致力于连接用户与他们感兴趣的信息,但我们的业务...
阅读全文
  robots.txt是一种存放于网站根目录下的文本文件,用于告诉搜索引擎的爬虫(spider),此网站中的哪些内容是不应被搜索引擎的索引,哪些是可以被索引。通常认为,robots.txt文件用来搜索引擎对目标网页的抓取。 robots.txt协议并不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个文件,但也有一些特殊情况。 对于Google来说,使用robots也未必能阻止Google将网址编入索引,如果有其他网站链接到该网页的话,Google...
阅读全文
2017年01月04日 搜索技术 ⁄ 共 1936字 评论关闭
                   接上篇,Solr的准备工作完成后,本节主要介绍Solr的安装,其实Solr不需要安装.直接下载就可以了                   1.Solr配置                       下载地址 :http://lucene.apache.org/solr/                           1.在D盘下创建目录 D:\Server\Solr                           2.解压solr-4.8.0文件,我这里下载的是这个4.8版本,将example文件夹下的Solr文件夹中的所有文件拷贝到D:\Server\Solr...
阅读全文
2016年07月20日 搜索技术 ⁄ 共 1056字 评论关闭
在大学期间,有段时间对搜索还是比较感兴趣的,就研究了几天。后来,发现搜索引擎太难搞了,分词啥的,好多都是纯算法。感觉没啥意思,so就半途而废,玩别的技术领域去了。  大学毕业加入秒针,对广告和监测有了一定的兴趣。so又想搞搜索引擎了,大概的目标就是,从网上爬去内容,建立索引,网友搜索、点击、广告点击等监测统计,存到数据库。  这个项目,还真是做了,做完了一个Demo版。借助jsoup和自己写几行代码爬网页, 然...
阅读全文
2016年06月24日 搜索技术 ⁄ 共 2604字 评论关闭
1、http://scholar.google.com/ 这个不多讲了. 3、http://www.scirus.com Scirus是目前互联网上最全面、综合性最强的科技文献搜索引擎之一,由Elsevier科学出 版社开发,用于搜索期刊和专利,效果很不错!Scirus覆盖的学科范围包括:农业与生物 学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理 科学,工程、能源与技术,环境科学,语言学,法学,生命科学,材料科学,数学,医学 ,神经系...
阅读全文
2016年06月05日 搜索技术 ⁄ 共 1998字 评论关闭
 一、环境准备: 系统环境:CentOS-7.0.1406         tomcat-7.0.29         jdk-7u9         solr-4.7.0 首先将软件包上传到/tmp目录下 1、  jdk安装 [root@svn-server /]# cd /tmp/ [root@svn-server /]#tar zxvf jdk-7u9-linux-x64.tar.gz [root@svn-server /]#mv jdk1.7.0_09 /usr/ [root@svn-server /]#vi /etc/profile 在最后一行复制以下代码添加如下内容: JAVA_HOME=/usr/jdk1.7.0_09/ CLASSPATH=...
阅读全文
2016年06月05日 搜索技术 ⁄ 共 2358字 评论关闭
 Solr是一个基于Lucene的全文搜索引擎,提供了更丰富的搜索语言,更灵活的配置,更高的查询效率。一句话,与Lucene相比,有过之而无不及。这一节里, 主要谈论两个知识点:Jdk的安装和Tomcat的安装。 Solr服务器端使用的是JAVA,所以我们需要安装这两个软件。 有朋友可能说,安装这两个软件就不用讲了吧,其实不然, 对于.NET的同学来说,他们对这两个软件比较陌生。                 首先要安装JDK,然后再安装Tomcat,按...
阅读全文
2015年10月30日 搜索技术 ⁄ 共 3441字 评论关闭
人物介绍 姓名:DougCutting 个人名望:开发出开源全文检索引擎工具包Lucene。 个人简介/主要荣誉:除了 Lucene,还开发了著名的网络爬虫工具 Nutch,分布式系统基础架构Hadoop,这些大师级作品都是开源的。目前任职 Apache 软件基金会主席。 网络上对 Doug Cutting 的评价:“他开发出卓越超群的全文检索引擎工具包(Lucene/Solr)以及为世界打开了一扇通往大数据的大门。”“开源的Lucene 以及 Hadoop 为全球创造了无数的财富以...
阅读全文
2015年07月21日 搜索技术 ⁄ 共 1376字 评论关闭
搜索引擎作为所有互联网应用里技术含量最高的一种,包含了丰富的架构和算法知识。出于对网络爬虫的兴趣,现就对搜索引擎的相关技术进行学习。 1、搜索引擎的演变 搜索引擎的技术发展可以概括为“更全、更快、更准”,其在信息的相关性、可信赖度以及用户的真正需求这几个因素上不断发展壮大。从最早的人工分类目录,主要关注信息的可信赖度,但缺乏丰富的信息和关联;到文本检索,重点关注查询关键词和网页内容的相关性,但难以...
阅读全文
2015年04月19日 搜索技术 ⁄ 共 666字 评论关闭
一、 百度产品里面发布 百度产品非常多,常见的可以给我们留下链接的大概有这么几个:百度知道、百度贴吧、百度空间,百度经验、智联文库等等,我的建议是做贴吧,相对来说是非常容易留下网站链接的,做长期打算的话可以注册博客圈子平台。 二、权重高的论坛顶贴发帖 这个大家都懂,我一般的做法是等新站上线准备工作完成后,然后去相关权重比较高的论坛去注册一个账号,在个性签名里面带上网站的地址,现在一般的论坛也有...
阅读全文