搜索引擎算法研究专题八：TrustRank算法

现在的位置: 首页 > 搜索技术 > 正文

搜索引擎算法研究专题八：TrustRank算法

2017年11月09日 ⁄ 搜索技术 ⁄ 共 1390字 ⁄ 字号小中大 ⁄ 评论关闭

改进排名的主流技术之一是借助于人工，专家能准确描述对网站的信任程度、轻易识别出垃圾。虽然人工可以很容易识别这些垃圾，但评估所有页面但代价很昂贵、是不可行的，所以就提出了一种半自动化技术方案。

　　TrustRank便应势而生，TrustRank是一种由斯坦福大学和雅虎研究人员提出的链接分析技术。TrustRank算法基本思想是在为网页排名时，要考虑到该页面所在站点的信任指数和权威性。

　　TrustRank算法应对轻易操纵google排名、提升搜索结果质量的作弊手段。实施这一方法极大地增加了短时间操作排名的难度，迅速改善了搜索结果的质量。所有要以TrustRank值作为网页排名的重要依据，页面的TrustRank用来评价其是否具有真正权威性。TrustRank用以将来自Spam的链接与优质内容带来的真正意义上的好评区别开来。

　　TrustRank的工作原理：先用人工去识别高质量的页面(即“种子”页面)，那么由“种子”页面指向的页面也可能是高质量页面，即其TrustRank也高，与“种子”页面的链接越远，页面的TrustRank越低。

　　TrustRank采用半自动的方法区分垃圾文件和高质量较文件。依靠专家去评估一系列“种子”页面的TrustRank值。一旦确定了“种子”页面，就容易区分好页面和垃圾页面，通过机器分析链接结构来确定其它页面的TrustRank值。

　　TrustRank的主要概念是：

　　l 高质量页面一般不连接垃圾页面，而垃圾页面总试图连接到好页面以提高其声望;

　　l 种子页面的候选者是专业网站，它们只基于优点而链接其它页面，如政府网站、非谋利性网站和严格管理的网站(DMOZ、Yahoo目录、Search Engine Watch等)，它们不会链接垃圾页面的。

　　l 最权威和可信的网页就是”种子”页面本身。

　　在处理上TrustRank分两个步骤，源目标的选定和评分的传递。

　　l 让专家手工识别出少量高质量网站，并赋予其信任值(trust value);

　　l TrustRank值会随着页面的传递而降低，随着页面与“种子”页面的跨度增加，其TrustRank值就会越低;

　　与PR值原理类似，若网页获得了来自高TrustRank值网页的连接，则也就获得了高TrustRank值。通过分析这种链接结构，并以此比较其它页面，进而发现那些没有作弊可能性的页面。TrustRank传递方式与PageRank相似，但web页面没有内在的TrustRank值，因此使得通过链接模式去获取TrustRank值变得更加困难。

　　PageRank不是Google用于决定页面相关性的唯一算法，TrustRank已经被融入PageRank中以改善搜索相关性，其重要性不言而喻，甚至已经超过PR值的作用。

　　而随着时间的推移，Trustrank引起的新问题开始渐渐凸显，成为google的新麻烦：

　　l 搜索结果充斥着著名和权威站点的影子，即使这些页面内容可能是Spam。

　　l 用一些权重高的站点发布同样的内容页，排名要明显高得多。

　　l 优秀的个人或企业站点，尤其是新建的，即使内容再好，也难有排名优势。

　　这已严重影响了Google搜索结果的质量。因此，Trustrank在给Google带来众多积极意义的同时，其负面影响也凸显。Google如何改进算法和弥补不足，我们拭目以待。

【上篇】从5点来分析搜索引擎算法
【下篇】各类二叉树

作者: neso

该日志由 neso 于6年前发表在搜索技术分类下，最后更新于 2017年11月09日.
转载请注明: 搜索引擎算法研究专题八：TrustRank算法 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

搜索引擎算法研究专题八：TrustRank算法

作者: neso

书签

最新文章New

本站推荐

返回首页