现在的位置: 首页 > 综合 > 正文

简单谈谈baidu google yahoo对新站抓取的看法

2012年02月07日 ⁄ 综合 ⁄ 共 1346字 ⁄ 字号 评论关闭

(本文尚在更新中....)
小站是8.26开的,二级域名,虽然是用div+css但是没达到网站标准。不过全部静态页面,文件名称都是拼音的,没有按照数字编号产生,不知道这样是否有助于搜索引擎收录。

说到抓取首先应该说到google,它是最快的(Mediapartners-Google),大概2小时后就开始抓了。google adsense的爬虫,不过这个对于搜索来说应该不算,因为它对收录到索引库用处不大,抓取纯粹是因为网站上放了google的广告代码。

最稳重的是yahoo了,8小时后就开始抓了(有提交过的),不过是index.htm(首页)和robot.txt,之后几天都是抓这两个文件。

 FeedsSpider第二天开始抓了,因为提交过rss的

第二天提交了google 的sitemap,不过当时主要是抓了首页
一个小时后才抓4个页面,估计应该是在分析站点地图。7小时后又抓了站点地图,之后的日子好象这个文件是比较平凡的抓,当然还有rss.xml文件

接下来就是号称中文搜索老大的baidu 了,最贪婪的也是它了,不过开始还是只抓了首页

28号
yahoo再次来也是只抓取了那两个文件,2小时后再次试探
不过google和baidu已经开始较多的抓取了(第二天我去baidu上开也只收录了首页和几个目录)
有个疑问:此时为什么google连续4次抓首页,相隔时间不到10秒。
google抓取了没有连接到的目录(/html/tag/),不知问什么。
baidu 开始大量抓取了,yahoo还是蜻蜓点水的抓个吧页面(死不放的bot.txt)
29号:
baidu大量抓,google 和yahoo只抓了几个页面
30号:
和昨天一样,不过google注重rss.xml和sitemap.xml
31号:
yahoo开始比较大量的抓了。不过太规矩了,还是先抓bot.txt
(今天的日志暂时就记录到这里了)

不知道这个是干什么的:
2006-08-28 09:35:52 222.73.4.242 OPTIONS /sitemap.xml - 80 - 61.174.192.26 Microsoft+Data+Access+Internet+Publishing+Provider+Protocol+Discovery 200 0 0
还有:
2006-08-31 00:33:33 222.73.4.242 GET /robots.txt - 80 - 202.160.181.124 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) 200 0 0
2006-08-31 00:33:41 222.73.4.242 GET /html/item/CuoJinXiongBuCeng_104.htm - 80 - 202.160.181.123 Mozilla/5.0+(compatible;+Yahoo!+Slurp;+http://help.yahoo.com/help/us/ysearch/slurp) 200 0 0
这里为什么yahoo的网址会不一样?

感想:
做搜索优化还是要静态,这个是雷打不变的。
站点要提交、要有连接,这样才容易收录。
站点要用div+css,套用一句广告词:用了都说好!

抱歉!评论已关闭.