UGC简单学习与总结

现在的位置: 首页 > 综合 > 正文

2018年04月29日 ⁄ 综合 ⁄ 共 550字 ⁄ 字号小中大 ⁄ 评论关闭

Naive的算法：

p(u, i) = （对b求和）N(u, b) * N(b, i)

其中，N(u,b)是用户u打过标签b的次数，N(b, i)是物品i被打过标签b的次数。得到用户u喜欢物品i的可能性。

下边逐个分析其缺点，并一步步改进。

改进算法：

1.借鉴TF-IDF，惩罚热门标签、标签指向的热门物品。即在上面公式的基础上，两个N分别除以 log(1+ N(b))、log(1 + N(i))，其各自含义分别为：该标签被多少个用户打过、该物品被多少个用户打过标签。

2.新用户或者新物品，标签较少（稀疏）。此时可以考虑把他标注的标签的“同义词”也引过来当作用户打过的标签。称之为“标签扩展”。而获取这个同义词的方法一般有两种：1）获取语义，话题模型；2）计算标签的相似度，并维护一个标签的相似度矩阵。

简要介绍2），如果认为同一个物品的两个标签具有相似性，那么当两个标签A、B经常出现在同一个物品的标注信息中时，我们认为A、B是高度相似的。余弦公式计算之即可。

3、标签清理。主要清理以下3种标签：

1）词频很高的 “停止词”；

2）词根不同的同义词：如 recommender system 和 recommendation system；

3）分隔符不同的同义词：如collaborative_filter 和 collaborative filter

抱歉!评论已关闭.

学步园