从零开始打造完整评分系统

现在的位置: 首页 > 综合 > 正文

RSS

从零开始打造完整评分系统

2012年10月09日 ⁄ 综合 ⁄ 共 3565字 ⁄ 字号小中大 ⁄ 评论关闭

1. 概述

大多数的网站都需要一个评分系统，来考量该网站条目的质量，例如时光网：

那么在本文中，我们就来学着如何打造一个可用的评分系统。

2. 构建简单的评分系统

其实最初做一个评分系统很简单，我们首先先设计评分系统所需要的数据表，即用户评分表(user_rating)：

CREATE TABLE `user_rating` (

`id` int(11) unsigned NOT NULL AUTO_INCREMENT,

`user_id` int(11) DEFAULT NULL,

`item_id` int(11) DEFAULT NULL,

`rating` int(11) DEFAULT NULL,

PRIMARY KEY (`id`)

) ENGINE=InnoDB DEFAULT CHARSET=latin1;

接下来只需要计算一个简单的平均数即可：

3. 从搜索引擎说起

我们先不考虑评分系统，让我们先来简单回顾下搜索引擎发展的历史吧。

1994年，杨致远和David创办了Yahoo!，标志着现代搜索引擎的开始，但是Yahoo其实并不能算一个真正意义上的搜索引擎，因为他的很多网页大部分都是人工增加的，我们不妨将之称为“网站收录集”。

随着互联网上网站越来越多，人工已经没有办法负载这么大的工作量了，于是出现了一种全文检索的技术，用户输入关键词，然后搜索引擎去网页中去搜索这些词，然后返回给用户。

其实这种方式很好，可是不幸地是，网站赖以生存的就是PV和点击量，于是有很多网站不择手段地堆砌关键字，做着所谓的SEO。

互联网于是开始陷入混乱时期。

这时候，1997年Google成立，引入了著名的Page-rank算法，很大程度解决了这一问题，也成为了搜索引擎发展的一个里程碑。而Page-rank的概念，也第一次让Collective Intelligence(集体智慧)飞入了寻常百姓家。

4. 什么是集体智慧

我们先去Wiki上看一下相关的定义：

Collective intelligence is a shared or group intelligence that emerges from the collaboration and competition of many individuals and appears in consensus decision making in bacteria[clarification needed], animals, humans and computer networks.

我们简要地来说：集体智慧是一种共享的或者是群体的智能，是由许多个体通过协作与竞争中体现出来的智能。也许这么说依然很抽象，我们来举一个现实中例子：当你想买一个笔记本的时候，你会去问你的朋友，这个笔记本怎么样怎么样，然后综合了很多人的意见之后，你会做出自己的决策，那么这一个过程就是集体智慧的体现。

接下来让我们回到条目评分的例子上来，用电影来说，当刚刚上映了一部电影的时候，你怎么知道你是否要去看这个电影，最简单的办法就是你去网上看看大家对这部电影的评分怎么样，也许一个人两个人的口味和你不大一样，但是综合了很多人的意见之后，这个电影的评分就很有意义了，算法也如我们在第二节中提到的，取平均分即可。

5. PageRank算法

PageRank，在SEO领域，我们常称之为PR值，我们也常常用PR值来作为一个网站权威性的度量方式。

这个算法基于一个前提假设，他认为权威的网站大家都会去指向他，而权威的网站指向的则一定也是权威的网站。那么简单来说，我们可以认为，被指向越多的网站，他的权重也就越高。另外，一个页面也只能为其他的页面投一票，如果某网页指向了N个网站，那么每个网站其实只被投了1/N票。

所以我们可以得出这样的一个简单的公式：

PR(x)为某网页的PageRank，L(x)为该网页只想外站的链接个数，而1-q则为系统为每个网页赋予的最小Rank值。

转换成矩阵运算极为这样的格式：

接下来，系统便开始迭代计算，直到整个系统的PR值都收敛到了某一个值为止。

我们将之反映成代码（使用R语言）：

这里我们将最大的迭代次数设置为100次。

此外，PageRank算法还引入了基尼系数的概念，并且也对性能，以及一些参数的细节做了很大的调整，在这里我们并不深究，了解即可。

5. Page_rank vs. 关键词匹配

还记得我们在第三节中说过，关键词匹配是一个很好的方式，他被PageRank所击败很大程度上是因为垃圾网页的出现。

其实对于评分系统也是一样，无论对于读书电影的条目，还是对于商品的评分，都有着巨大的商业价值，所以我们再也不能依赖于平均分，而需要也模仿Page-rank来对每个User引入Rank的概念。

6. 计算UserRank

我们想一下PageRank的意义，就是衡量一个网页的重要程度，那么把PageRank的思想完整的迁移到UserRank上，那么也就是说UserRank衡量的是一个User的重要程度。

那么我们如何衡量用户的重要程度，在评分系统中，我认为Rank的意义在于用户的品味，在电影评分中，我们认为每个用户的权重取决于用户的电影品味，而读书中取决与用户的读书品味。

所以接下来，我们将整个评分系统的计算分成两步：

A. 计算User-Rank

B. 计算条目评分

这里我们采用迭代逼近的方式来计算用户的权重。等同于PageRank算法，我们首先认为每个用户的权重是等同的，那么其实条目的评分就是所有用户的平均分。

在任何算法中，我们都需要基于一个前提假设，这是算法和数据挖掘领域的前提，那么这里我们做的前提假设是：与大众品味接近，则代表该用户的评分影响力更大，即权重更高。

所以我们来进行第一次迭代，一个简单的方式，即比较该用户所有条目的评分与其对应条目当前分数的皮尔逊相关度。

迭代之后，我们即能得出每个用户的皮尔逊相关度，这个相关度我们便认为是该用户本次迭代后的权重，由于可能会出现负相关，所以我们认为负相关应该为0，即：

接下来我们再次根据该权重来重新计算本次迭代后条目的评分：

每次迭代后，我们都可以计算出本次迭代后，与上次迭代后条目评分之间的差距：

我们一般认为当两次迭代后的条目评分差距小于某一阈值时，我们称之为结果是可收敛的。

但是在一般的工程型实践中，例如有5000W的用户和2000W的条目，每次迭代都需要耗费极大的时间，所以我们需要采取一些取巧的方式。

7. 评分系统的工程性实践

一般意义上，我们可能会采用如下两种方式的优化：

A. 减少条目的数量。我们知道2-8法则，其实这一法则大多数情况下也适用于评分系统，80%的评分都是来自于20%的条目，所以我们只需要选出这20%的条目，或者更少的有代表性的条目，就可以使每次迭代的计算量大大减小。

B. 指定迭代次数。就像我之前在R代码中计算PageRank一样，我们可以人为地指定迭代次数，而不用等待完全收敛。

8. UserRank算法的意义

我们说PageRank算法的诞生极大地减少了垃圾网页的数量，那么UserRank的意义何在呢？

我们将Spammer分成两种，

A. 恶意评分，例如恶意地去刷高软件评分，电影评分等等，那么他们的典型特征是给某一批条目或者很高或者很低的评分，那么他们必然会和大部分用户的平均分相背离，于是他们的Rank会很低。

B. 扰乱秩序，他们并非恶意地去刷高或者刷低评分，他们只是用网站的评分作为玩笑而已，那么该算法也能起到弱化该行为的目的。

9. Rank是否真的能够代替Anti-spammer

之前我们提到PageRank有效地防止了垃圾网页的产生，但是道高一尺魔高一丈，Spammer也想出了很多办法来遏制PageRank算法，例如建很多垃圾站，然后互相做内链。

但是Google不会被这样的行为所击倒，是因为他们的算法不只只是PageRank（我甚至怀疑他们是否在用PageRank），还有着优异的Anti-spammer算法。同样，在工程化实践中，很多论文上的算法都希望借助于Rank算法来抵制Spammer行为，但是我一直认为Rank仅仅应该反映的是用户的品味，反映的是该用户与大众品味的相似程度。而在Rank的前一层，应该存在着Anti-spammer算法来识别出Spammer用户。

在不同的网站，有着不同的识别方法，简单地有只是通过ip地址来识别出垃圾用户，复杂地有通过行为属性做机器学习来识别出垃圾用户。这也不归结于本文的范畴了。

10. 综述

几乎大部分存在条目的网站都需要一个评分系统来辅助用户做选择，这不但可以为用户提供一个消费的参考，也可以为网站内部的数据做一个良好的支撑作用（例如最受用户好评的TOP10）。

那么本文介绍了如何通过计算UserRank来打造出一个几乎算是完整的评分系统，希望可以对大家有所帮助。

【上篇】MS SQL发生死锁以及tempdb的优化资源总结
【下篇】c#日期时间的操作的函数总结[转]

作者: humility

该日志由 humility 于12年前发表在综合分类下，最后更新于 2012年10月09日.
转载请注明: 从零开始打造完整评分系统 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

从零开始打造完整评分系统

作者: humility

书签

最新文章New

本站推荐

返回首页