这篇论文介绍了如何在网络中根据用户的浏览行为、浏览内容以及一些结构化的数据对用户进行推荐。要点如下:
1、网页推荐系统的组成
一般来说,网页上的推荐系统主要由两个模块组成,一个是线下(离线)模块,一个是线上(在线)模块。线下模块的作用是预处理数据产生用户模型;线上模块的作用是使用并且更新这些模块,真实的识别用户的目的产生推荐列表。
2、只看服务器日志记录的问题
一般的推荐系统把服务器日志记录作为输入,使用诸如关联规则、聚类等数据挖掘技术提取出页面跳转模式,进行推荐。不过光看这一点存在一些问题:
-信息不全
-信息错误:用户浏览记录可能会出现误导现象
-持续性问题:新添加的页面可能不容易被推荐
改进之后加入了页面文本内容和网页页面之间的链接信息,这些数据并不需要用户输入。改进的地方都是在线下模块。
3、混合推荐系统结构
上图中,A mission is a sub-session with a consistent goal.即带有持续性的目的产生的会话。当进行任务识别并进行聚类后,就能发现用户的目的。在聚类时,即使页面并不是顺序访问,但是也能够聚成一个个Mission.一个类别中的页面往往会一齐被访问,而类别中的内容一般都与一个话题或概念相关联。
4、页面的分类
在网页中存在两种类型的页面,一种是内容页,提供的是用户需要的信息;一种是辅助页面,供导航链接使用。如何判断页面的类型可以依据用户在页面上停留的时间或根据访问者导航的回溯信息。同时,页面也有authority和hub之分,authority页面是被跳转到的页面,而hub指跳转页。在推荐系统中一般使用hub作为候选的推荐页。
除此之外还有几种页面,key页面表示可能包含用户花一定时间阅读的页面;而上面提到的辅助页面主要用于链接,用户在上面停留的时间一般较短。在这里作者以30s作为阈值。
5、推荐衡量标准
-recommendation accuracy:在所有推荐页面中推荐正确的比例。假设我们有S个会话,对每个会话s,我们产生p个页面,针对每个页面产生R(p)个推荐列表,计算出R(p)在s会话中的出现次数,同时用T(p)表示会话s中的踪迹,推荐准确性就是T(p)和R(p)的交集。
-shortcut gain:衡量的是推荐系统给用户节省的点击次数。经过推荐之后用户能较快的找到自己想要的东西。跳转到key页面意味着短跳转(用户找到了自己想要的内容),跳转到辅助页面意味着长跳转。假设一次会话中的短跳转为s’,那么可以用下面式子衡量:
-recommendation coverage:推荐系统产生的所有的页面能被用户访问的情况。式子如下: