现在的位置: 首页 > 综合 > 正文

百度的索引真的比雅虎多么?

2013年09月19日 ⁄ 综合 ⁄ 共 940字 ⁄ 字号 评论关闭

                                百度的索引真的比雅虎多么?

                                      timestamp:2006/12/3

                                     

看到一篇文章“[数据统计] 搜索引擎索引库:百度大于雅虎中国 之一”

          http://blog.csdn.net/accesine960/archive/2006/12/03/1428337.aspx

这个调查很明显是有问题的。
  1.“在双方都认为最重要的3793个站点中:百度索引量:1626829061  ,雅虎中国的索引量:1018594668,高出:608234393 ,高出6亿。”
    首先,我们算一下平均每个网站有多少个网页
    1626829061/3793=428902
     就是说平均每个网站索引42万个页面。你说可能么?这些网站每个网站有这么多页面么?只有一个可能,就是同一个网页在不同时间点的内容是分别被索引的,同一个页面会有N个不同版本被索引信息。这跟爬虫策略有关系,但是对于用户来说这N个结果都有意义么?
  百度显示的信息是没有去掉N个版本的结果,而雅虎的部分结果是去掉不同版本只保留一个版本的数据,不信你用site:www.hexun.com看看百度和雅虎的结果(请翻到第六页后),两者实际上差不多都是70个左右,但是百度显示是几千个,这么算当然百度会多出很多。
   所以,这么算是没有意义的。
2.“百度的索引量分布图比较接近“长尾 Long Tail ”,长尾曲线比较完美。图形越接近长尾表明搜索引擎索引库基础的架构越好。
   (理由是:"哥白尼对天动说美学上的反对是他拒绝托勒密体系的重要原因..." - Thomas Kuhn, The Copernican Revolution )”
   这个理由实在是难以理解。
3.我们用几个关键词实验

   比如:“教育”,“中国教育”,“的”,“我们”等等
看一下百度和雅虎的搜索结果个数,在抛掉上面讲的百度输出N个
不同版本的事实,看看到底是哪个搜索引擎的索引量多?

   我们能得出的结论是相反的:百度和雅虎的索引量是相当甚至
可能雅虎还多于百度的。
    

 

抱歉!评论已关闭.