现在的位置: 首页 > 搜索技术 > 正文

搜索引擎算法研究专题八:TrustRank算法

2017年11月09日 搜索技术 ⁄ 共 1390字 ⁄ 字号 评论关闭

改进排名的主流技术之一是借助于人工,专家能准确描述对网站的信任程度、轻易识别出垃圾。虽然人工可以很容易识别这些垃圾,但评估所有页面但代价很昂贵、是不可行的,所以就提出了一种半自动化技术方案。

  TrustRank便应势而生,TrustRank是一种由斯坦福大学和雅虎研究人员提出的链接分析技术。TrustRank算法基本思想是在为网页排名时,要考虑到该页面所在站点的信任指数和权威性。

  TrustRank算法应对轻易操纵google排名、提升搜索结果质量的作弊手段。实施这一方法极大地增加了短时间操作排名的难度,迅速改善了搜索结果的质量。所有要以TrustRank值作为网页排名的重要依据,页面的TrustRank用来评价其是否具有真正权威性。TrustRank用以将来自Spam的链接与优质内容带来的真正意义上的好评区别开来。

  TrustRank的工作原理:先用人工去识别高质量的页面(即“种子”页面),那么由“种子”页面指向的页面也可能是高质量页面,即其TrustRank也高,与“种子”页面的链接越远,页面的TrustRank越低。

  TrustRank采用半自动的方法区分垃圾文件和高质量较文件。依靠专家去评估一系列“种子”页面的TrustRank值。一旦确定了“种子”页面,就容易区分好页面和垃圾页面,通过机器分析链接结构来确定其它页面的TrustRank值。

  TrustRank的主要概念是:

  l 高质量页面一般不连接垃圾页面,而垃圾页面总试图连接到好页面以提高其声望;

  l 种子页面的候选者是专业网站,它们只基于优点而链接其它页面,如政府网站、非谋利性网站和严格管理的网站(DMOZ、Yahoo目录、Search Engine Watch等),它们不会链接垃圾页面的。

  l 最权威和可信的网页就是”种子”页面本身。

  在处理上TrustRank分两个步骤,源目标的选定和评分的传递。

  l 让专家手工识别出少量高质量网站,并赋予其信任值(trust value);

  l TrustRank值会随着页面的传递而降低,随着页面与“种子”页面的跨度增加,其TrustRank值就会越低;

  与PR值原理类似,若网页获得了来自高TrustRank值网页的连接,则也就获得了高TrustRank值。通过分析这种链接结构,并以此比较其它页面,进而发现那些没有作弊可能性的页面。TrustRank传递方式与PageRank相似,但web页面没有内在的TrustRank值,因此使得通过链接模式去获取TrustRank值变得更加困难。

  PageRank不是Google用于决定页面相关性的唯一算法,TrustRank已经被融入PageRank中以改善搜索相关性,其重要性不言而喻,甚至已经超过PR值的作用。

  而随着时间的推移,Trustrank引起的新问题开始渐渐凸显,成为google的新麻烦:

  l 搜索结果充斥着著名和权威站点的影子,即使这些页面内容可能是Spam。

  l 用一些权重高的站点发布同样的内容页,排名要明显高得多。

  l 优秀的个人或企业站点,尤其是新建的,即使内容再好,也难有排名优势。

  这已严重影响了Google搜索结果的质量。因此,Trustrank在给Google带来众多积极意义的同时,其负面影响也凸显。Google如何改进算法和弥补不足,我们拭目以待。

抱歉!评论已关闭.