robots.txt是一种存放于网站根目录下的文本文件,用于告诉搜索引擎的爬虫(spider),此网站中的哪些内容是不应被搜索引擎的索引,哪些是可以被索引。通常认为,robots.txt文件用来搜索引擎对目标网页的抓取。
robots.txt协议并不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个文件,但也有一些特殊情况。
对于Google来说,使用robots也未必能阻止Google将网址编入索引,如果有其他网站链接到该网页的话,Google...
阅读全文
接上篇,Solr的准备工作完成后,本节主要介绍Solr的安装,其实Solr不需要安装.直接下载就可以了
1.Solr配置
下载地址 :http://lucene.apache.org/solr/
1.在D盘下创建目录 D:\Server\Solr
2.解压solr-4.8.0文件,我这里下载的是这个4.8版本,将example文件夹下的Solr文件夹中的所有文件拷贝到D:\Server\Solr...
阅读全文
在大学期间,有段时间对搜索还是比较感兴趣的,就研究了几天。后来,发现搜索引擎太难搞了,分词啥的,好多都是纯算法。感觉没啥意思,so就半途而废,玩别的技术领域去了。 大学毕业加入秒针,对广告和监测有了一定的兴趣。so又想搞搜索引擎了,大概的目标就是,从网上爬去内容,建立索引,网友搜索、点击、广告点击等监测统计,存到数据库。 这个项目,还真是做了,做完了一个Demo版。借助jsoup和自己写几行代码爬网页, 然...
阅读全文
一、环境准备:
系统环境:CentOS-7.0.1406
tomcat-7.0.29
jdk-7u9
solr-4.7.0
首先将软件包上传到/tmp目录下
1、 jdk安装
[root@svn-server /]# cd /tmp/
[root@svn-server /]#tar zxvf jdk-7u9-linux-x64.tar.gz
[root@svn-server /]#mv jdk1.7.0_09 /usr/
[root@svn-server /]#vi /etc/profile
在最后一行复制以下代码添加如下内容:
JAVA_HOME=/usr/jdk1.7.0_09/
CLASSPATH=...
阅读全文
Solr是一个基于Lucene的全文搜索引擎,提供了更丰富的搜索语言,更灵活的配置,更高的查询效率。一句话,与Lucene相比,有过之而无不及。这一节里,
主要谈论两个知识点:Jdk的安装和Tomcat的安装。 Solr服务器端使用的是JAVA,所以我们需要安装这两个软件。 有朋友可能说,安装这两个软件就不用讲了吧,其实不然,
对于.NET的同学来说,他们对这两个软件比较陌生。
首先要安装JDK,然后再安装Tomcat,按...
阅读全文
人物介绍
姓名:DougCutting
个人名望:开发出开源全文检索引擎工具包Lucene。
个人简介/主要荣誉:除了 Lucene,还开发了著名的网络爬虫工具 Nutch,分布式系统基础架构Hadoop,这些大师级作品都是开源的。目前任职 Apache 软件基金会主席。
网络上对 Doug Cutting 的评价:“他开发出卓越超群的全文检索引擎工具包(Lucene/Solr)以及为世界打开了一扇通往大数据的大门。”“开源的Lucene 以及 Hadoop 为全球创造了无数的财富以...
阅读全文
一、 百度产品里面发布
百度产品非常多,常见的可以给我们留下链接的大概有这么几个:百度知道、百度贴吧、百度空间,百度经验、智联文库等等,我的建议是做贴吧,相对来说是非常容易留下网站链接的,做长期打算的话可以注册博客圈子平台。
二、权重高的论坛顶贴发帖
这个大家都懂,我一般的做法是等新站上线准备工作完成后,然后去相关权重比较高的论坛去注册一个账号,在个性签名里面带上网站的地址,现在一般的论坛也有...
阅读全文
各大搜索引擎收录各种主流域名收录量分析
baidu#google#360#sogou(soso)
.com#>1亿#252.7亿#>1亿#>1亿
.net#>1亿#92.6亿#>1亿#>1亿
.org#=99,300,000#53亿#>1亿#>1亿
.cn#>1亿#36.7亿#>1亿#>1亿
.com.cn#>1亿#17.8亿#>1亿#=10,861,979
.net.cn#=47,300,000#=54,900,000#=82,900,000#=13,305,867
.org.cn#=22,800,000#=61,500,000#=40,100,000#=4,884,365
.cc#=61,800,000#3.98亿#...
阅读全文