现在的位置: 首页 > 综合 > 正文

PageRank 算法综合讨论

2013年09月20日 ⁄ 综合 ⁄ 共 3798字 ⁄ 字号 评论关闭

相关英文词汇:

outbound links 出链接

The Random Surfer Model 随机游走模型

a damping factor

 

注意:

(1)拉里.佩奇在不同场合给出了PageRank算法的两种描述,参见http://pr.efactory.de/e-pagerank-algorithm.shtml

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))  N是网页集合中网页总数

(2)PageRank的算法也有不同,有的用上一轮迭代的PR值计算当前的PR值,有的却用当前的PR值,用解方程式的方式计算,个人认为第一种比较合适。

(3)d是什么?

阻尼系数,以概率d在当前页面随机点击一个链接继续访问,以概率1-d随机跳至一个网页。(1-d)指随机跳转的概率

 

1.入门理解

讨论理解Google PageRank算法

http://hi.baidu.com/shirdrn/blog/item/11818d24d0421935c995597a.html

 

Google 的秘密- PageRank 彻底解说 中文版

http://www.kreny.com/pagerank_cn.htm

 

The PageRank Algorithm

http://pr.efactory.de/e-pagerank-algorithm.shtml

 

拉里佩奇的原文(The Anatomy of a Large-Scale Hypertextual Web Search Engine)

http://infolab.stanford.edu/~backrub/google.html

 

2.

 

以下内容参考自:http://topic.csdn.net/u/20080509/15/457C47E7-65D4-42BA-BD9B-1EABDC0B6A72.html

3.HillTop算法

HillTop?同样是一项搜索引擎结果排序的专利,是Google的一个工程师Bharat在2001年获
得的专利。Google的排序规则经常在变化,
但变化最大的一次也就是基于HillTop算法进行了优化。HillTop究竟原理如何,值得Google如此青睐? 

其实
HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算
来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。如果网站是介绍“服

装”的,有10个链接都是从“服装”相关的网站链接过来,那这10个链接比另外10个从“电器”相关网站链接过来的贡献要大。Bharat称这种对主题有
影响的文档为“专家”文档,从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。 

与PageRank结合
HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过份依靠PageRank的值去寻找那些权威页面的方法。
这对于两个具有同样主题而且PR相近的网页排序过程中,HillTop算法就显得非常的重要了。HillTop同时也避免了许多想通过增加许多无效链接来
提高网页PageRank值的做弊方法。 

锚文本(Anchor Text)
 

锚文本名字听起来难以理解,实际上
锚文本就是链接文本。例如,在个人网站上把中央电视台(www.cctv.com)做为新闻频道的链接,访问者通过点击网站上的“新闻频道”就能进入
http://www.cctv.com网站,那么“新闻频道”就是中央电视台网站首页的锚文本。 

锚文本可以做为锚文本所在的页面的
内容的评估。正常来讲,页面中增加的链接都会和页面本身的内容有一定的关系。服装的行业网站上会增加一些同行网站的链接
或者一些做服装的知名企业的链接;另一方面,锚文本能做为对所指向页面的评估。锚文本能精确的描述所指向页面的内容,个人网站上增加Google的链接,
锚文本为“搜索引擎”。这样通过锚文本本身就能知道,Google是搜索引擎。 

锚文本对搜索引擎起的作用还表现为可以收集一些搜索
引擎不能索引的文件。例如,网站上增加了一张张曼玉的照片,格式为jpg文件,搜索引擎目前很难索引
(一般只处理文本)。若这张照片链接的锚文本为“张曼玉的照片”,那么搜索引擎就能识别这张图片是张曼玉的照片,以后访问者搜索“张曼玉”的时候,这张图
片就能被搜索到。 

由此可见,在网页设计中选择合适的锚文本,会让所在网页和所指向网页的重要程度有所提升。 

页面版式 


个网页都有版式,包括标题、字体、标签等等。搜索引擎也会利用这些版式来识别搜索词与页面内容的相关程度。以静态的html格式的网页为例,搜索引擎通
过网络蜘蛛把网页抓取下来后,需要提取里面的正文内容,过滤其他html代码。在提取内容的时候,搜索引擎就可以记录所有版式信息,包括:哪些词是在标题

中出现,哪些词是在正文中出现,哪些词的字体比其他的字体大,哪些词是加粗过,哪些词是用KeyWord标识过的等等。这样在搜索结果中就可以根据这些信

息来确定所搜索的结果和搜索词的相关程度。例如搜索“毛泽东”,假如有两个结果,一篇文章标题是《毛泽东的一生》,另一篇文章的标题是《江青的一生》但内
容有提到毛泽东,这时搜索引擎会认为前者比较重要,因为“毛泽东”在标题里出现了。 

因此,合理的利用网页的页面版式,会提升网页在搜索结果页的排序位置。 

收费排名 


应该说收费排名并不属于排序技术(这里指的收费排名也包括竞价排名),而是一种搜索引擎的赢利模式。但收费排名已经最直接的影响到了搜索引擎的排序,在此也略做说明。 

用户可以购买某个关键词的排名,只要向搜索引擎公司交纳一定的费用,就可以让用户的网站排在搜索结果的前几位,按照不同关键词、不同位置、时间长短来定义价格。价格从几千元到几十万元不等(像“六合彩”在3721上的排名费用大多是几十万)。 


费排名一方面给搜索引擎公司带来收益,一方面给企业带来访问量,另外对访问者也有一定好处。因为访问者想找“西服”,企业想卖“西服”,于是出钱让访问
者能找到他,这样,买家和卖家能马上见面。但收费排名给访问者带来更多的却是不真实,结果排序已经失去了公正性,有时候还带来大量垃圾。在百度搜索引擎上
搜索“星球”,排在第一位的是一家做石墨的公司,排在第二位的居然是“想找星球?上易趣吧!”(见下图)。真有些让访问者哭笑不得。  


然,对于企业来说,收费排名是提升网站在搜索引擎中排名的最直接和最简单的办法。如今,如何提升网页在搜索引擎中的排序,已经形成了一门职业,叫SEO
(Search Engine
Optimization),即搜索引擎优化。SEO是针对搜索引擎排序的技术,通过修改网页(或者网站)结构和主动增加网站链接等方法来让搜索引擎认为
这些网页是很重要的,从而提升网页在搜索引擎结果中的排序。 

排序技术的发展趋势 

--------------------------------------------------------------------------------

各种搜索引擎的技术改进和优化,都直接反应到搜索结果的排序上。许多搜索引擎都在进一步研究新的排序方法,来提升客户的满意度。专业人士认为,目前的搜索引擎排序算法上还存在两大不足。 


有真正解决相关性。相
关性是指搜索词和页面的相关程度。仅仅通过链接、字体、位置等表面特征,不能真正判断搜索词和文章的相关性,更何况许多时候这些特征不会都同时存在。这也

是许多对搜索引擎做弊方法能有效的原因。另外,有些文章中没有出现搜索词,但说的就是和搜索词十分相关的内容,例如搜索“恐怖分子”,但有网页是介绍本拉

登的一些破坏行动,文中没有出现“恐怖分子”的子眼,搜索引擎就无法搜索到该网页。表面特征只能治标,不能治本。治本的方法应该是增加语意理解,例如主题
词和关键词的提取,从语意上分析,得出搜索词和网页的相关程度,分析的越准,效果就会越好。 
搜索结果的单一化。在
搜索引擎上,任何人搜索同一个词的结果都是一样。这样明显不能满足访问者。科学家搜索“星球”,可能是希望了解星球的知识,但普通人可能是想找“星球大
战”电影,但搜索引擎所给的都是一样的结果。如何满足这些不同类型的访问者,需要对搜索结果的个性化。国外vivisimo公司
(http://www.vivisimo.com)
就是想解决这个问题,他们采用对搜索结果自动聚类的办法来满足不同类型客户的需要。搜索结果排序如果要实现从单一化到个性化,vivisimo已经迈出了

一步,但最理想的结果应该是针对每个访问者,排序结果直接和他们的搜索习惯和意愿有关。搜索“体育”,对喜欢足球的人应该把足球的相关结果排在前面,对喜
欢篮球的人应该把篮球的相关结果排在前面。 
搜索引擎的排序技术应该也会朝着解决这两个不足的方向发展:语意相关性和排序个性化。前者需要完
善的自然语言处理技术,后者需要记录庞大访问者信息和复杂
的计算

,要达到其中任何一个的要求均非易事,如何解决这些难题,任务落在了科学家和工程师们的肩上,哪个搜索引擎解决了这些问题,她可能会称为下一个搜索
世界的霸主。 

抱歉!评论已关闭.