简单谈谈baidu google yahoo对新站抓取的看法

现在的位置: 首页 > 综合 > 正文

简单谈谈baidu google yahoo对新站抓取的看法

2012年02月07日 ⁄ 综合 ⁄ 共 1346字 ⁄ 字号小中大 ⁄ 评论关闭

(本文尚在更新中....)
小站是8.26开的，二级域名，虽然是用div+css但是没达到网站标准。不过全部静态页面，文件名称都是拼音的，没有按照数字编号产生，不知道这样是否有助于搜索引擎收录。

说到抓取首先应该说到google，它是最快的（Mediapartners-Google）,大概2小时后就开始抓了。google adsense的爬虫，不过这个对于搜索来说应该不算，因为它对收录到索引库用处不大，抓取纯粹是因为网站上放了google的广告代码。

最稳重的是yahoo了，8小时后就开始抓了（有提交过的），不过是index.htm(首页)和robot.txt，之后几天都是抓这两个文件。

FeedsSpider第二天开始抓了，因为提交过rss的

第二天提交了google 的sitemap，不过当时主要是抓了首页
一个小时后才抓4个页面，估计应该是在分析站点地图。7小时后又抓了站点地图，之后的日子好象这个文件是比较平凡的抓，当然还有rss.xml文件

接下来就是号称中文搜索老大的baidu 了，最贪婪的也是它了，不过开始还是只抓了首页

28号
yahoo再次来也是只抓取了那两个文件,2小时后再次试探
不过google和baidu已经开始较多的抓取了（第二天我去baidu上开也只收录了首页和几个目录）
有个疑问：此时为什么google连续4次抓首页，相隔时间不到10秒。
google抓取了没有连接到的目录(/html/tag/),不知问什么。
baidu 开始大量抓取了，yahoo还是蜻蜓点水的抓个吧页面（死不放的bot.txt）
29号：
baidu大量抓，google 和yahoo只抓了几个页面
30号：
和昨天一样，不过google注重rss.xml和sitemap.xml
31号：
yahoo开始比较大量的抓了。不过太规矩了，还是先抓bot.txt
(今天的日志暂时就记录到这里了)

不知道这个是干什么的：
2006-08-28 09:35:52 222.73.4.242 OPTIONS /sitemap.xml - 80 - 61.174.192.26 Microsoft+Data+Access+Internet+Publishing+Provider+Protocol+Discovery 200 0 0
还有：
2006-08-31 00:33:33 222.73.4.242 GET /robots.txt - 80 - 202.160.181.124 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) 200 0 0
2006-08-31 00:33:41 222.73.4.242 GET /html/item/CuoJinXiongBuCeng_104.htm - 80 - 202.160.181.123 Mozilla/5.0+(compatible;+Yahoo!+Slurp;+http://help.yahoo.com/help/us/ysearch/slurp) 200 0 0
这里为什么yahoo的网址会不一样？

感想：
做搜索优化还是要静态，这个是雷打不变的。
站点要提交、要有连接，这样才容易收录。
站点要用div+css，套用一句广告词：用了都说好！

【上篇】流量精灵试用方法一
【下篇】Windows 下硬盘安装linux 系统

作者: terrified

该日志由 terrified 于12年前发表在综合分类下，最后更新于 2012年02月07日.
转载请注明: 简单谈谈baidu google yahoo对新站抓取的看法 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

简单谈谈baidu google yahoo对新站抓取的看法

作者: terrified

书签

最新文章New

本站推荐

返回首页