现在的位置: 首页 > 综合 > 正文

UGC简单学习与总结

2018年04月29日 ⁄ 综合 ⁄ 共 550字 ⁄ 字号 评论关闭

Naive的算法

p(u, i) = (对b求和)N(u, b) * N(b, i)

其中,N(u,b)是用户u打过标签b的次数,N(b, i)是物品i被打过标签b的次数。得到用户u喜欢物品i的可能性。

下边逐个分析其缺点,并一步步改进。


改进算法:

1.借鉴TF-IDF,惩罚热门标签、标签指向的热门物品。即在上面公式的基础上,两个N分别除以 log(1+ N(b))、log(1 + N(i)), 其各自含义分别为:该标签被多少个用户打过、该物品被多少个用户打过标签。

2.新用户或者新物品,标签较少(稀疏)。此时可以考虑把他标注的标签的“同义词”也引过来当作用户打过的标签。称之为“标签扩展”。而获取这个同义词的方法一般有两种:1)获取语义,话题模型;2)计算标签的相似度,并维护一个标签的相似度矩阵。

简要介绍2),如果认为同一个物品的两个标签具有相似性,那么当两个标签A、B经常出现在同一个物品的标注信息中时,我们认为A、B是高度相似的。余弦公式计算之即可。


3、标签清理。主要清理以下3种标签:

1)词频很高的 “停止词”;

2)词根不同的同义词:如 recommender system 和 recommendation system;

3)分隔符不同的同义词:如collaborative_filter 和 collaborative filter

抱歉!评论已关闭.