Programming Collective Intelligence 推荐系统读书笔记二

现在的位置: 首页 > 综合 > 正文

Programming Collective Intelligence 推荐系统读书笔记二

2014年01月11日 ⁄ 综合 ⁄ 共 4410字 ⁄ 字号小中大 ⁄ 评论关闭

这章主要讲了如何做推荐，现在推荐最常用的几种算法：Collaborative Filtering、Cluster Models、Search-Based Methods、Item-to-Item Collaborative Filtering.前两种是通过找相似的Customer,后两种通过找相似的Item.论文Amazon.com Recommendations Item-to-Item Collaborative Filtering 对这几种算法都有介绍。这章主要提了Collaborative Filtering和tem-to-Item Collaborative Filtering。 Collaborative Filtering：通过搜索大量的Customer数据集来找到那一小撮和你口味相似的。书中举了一个电影评论的例子，每个人都对一些电影进行评等级，通过这些数据来找到和你口味相似的人，以及对你没有看过的电影做推荐，并以这个例子演示了如何做推荐。

准备数据：（本笔记的代码使用ruby实现，python代码的实现见原书）

Ruby代码 
critics={  
    'Lisa Rose' => {'Lady in the Water' => 2.5, 'Snakes on a Plane' => 3.5,  
    'Just My Luck' => 3.0, 'Superman Returns' => 3.5, 'You, Me and Dupree' => 2.5,  
    'The Night Listener' => 3.0},  
  
    'Gene Seymour' => {'Lady in the Water' => 3.0, 'Snakes on a Plane' => 3.5,  
    'Just My Luck' => 1.5, 'Superman Returns' => 5.0, 'The Night Listener'=> 3.0,  
    'You, Me and Dupree' => 3.5},  
  
    'Michael Phillips' => {'Lady in the Water' => 2.5, 'Snakes on a Plane' => 3.0,  
    'Superman Returns' => 3.5, 'The Night Listener' => 4.0},  
  
    'Claudia Puig' => {'Snakes on a Plane' => 3.5, 'Just My Luck' => 3.0,  
    'The Night Listener' => 4.5, 'Superman Returns' => 4.0,  
    'You, Me and Dupree' => 2.5},  
  
    'Mick LaSalle'=> {'Lady in the Water' => 3.0, 'Snakes on a Plane' => 4.0,  
    'Just My Luck' => 2.0, 'Superman Returns' => 3.0, 'The Night Listener' => 3.0,  
    'You, Me and Dupree' => 2.0},  
  
    'Jack Matthews'=> {'Lady in the Water' => 3.0, 'Snakes on a Plane' => 4.0,  
    'The Night Listener'=> 3.0, 'Superman Returns'=> 5.0, 'You, Me and Dupree' => 3.5},  
  
    'Toby' => {'Snakes on a Plane' =>4.5,'You, Me and Dupree' =>1.0,'Superman Returns' => 4.0}  
}  

定义相似度:

欧拉距离：

代码实现：

Ruby代码 
def sim_distance(prefs,person1,person2)  
    si = {}  
    prefs[person1].each_key do |item|  
        si[item] = 1 if prefs[person2][item]  
    end  
      
    return 0 if si.empty?  
      
    sum_of_squares = si.keys.inject(0) do |sum,item|  
        sum + (prefs[person1][item] - prefs[person2][item]) ** 2  
    end  
    
    return 1 / (1 + sum_of_squares)  
end  

Pearson Correlation Score：

代码实现：

Ruby代码 
def sim_pearson(prefs,person1,person2)  
    si = {}  
    prefs[person1].each_key do |item|  
        si[item] = 1 if prefs[person2][item]  
    end  
    
    return 0 if si.empty?  
    
    sum1 = si.keys.inject(0){|sum,item| sum + prefs[person1][item]}  
    sum2 = si.keys.inject(0){|sum,item| sum + prefs[person2][item]}  
      
    sum1Sq = si.keys.inject(0){|sum,item| sum + prefs[person1][item] ** 2}  
    sum2Sq = si.keys.inject(0){|sum,item| sum + prefs[person2][item] ** 2}  
      
    pSum = si.keys.inject(0){|sum,item| sum + prefs[person1][item] * prefs[person2][item]}  
    num = pSum - (sum1 * sum2 / si.size)  
    den = Math.sqrt((sum1Sq - sum1 ** 2 / si.size) * (sum2Sq - sum2 ** 2 / si.size))  
    return (if den == 0 then 0 else num/den end)  
end  

根据前面的两个相似度的函数，我们可以计算和你相同电影的口味的top N了：

Ruby代码 
def top_matches(prefs,person,n=5,similarity="sim_pearson")  
    scores = []  
    #计算相似度  
    prefs.each_key{|other|  scores << eval("[#{similarity}(prefs,person,other),other]")  if other != person}  
    #返回相似读最高的人  
    return scores.sort.reverse[0...n]  
end  

下面我们看看如何推荐你没有看过的电影，我们平时的想法是，如果这部电影
大家评论很好，我们就认为值得我们看，但是你的口味可能和这些评论很高的
的人不同，所以和你口味相似的人评论很高的电影，推荐给你效果会很好。
我们这样虽然一个人对一部电影的评价很高，但是由于他和你的口味不同，那么
这个评价对于你的贡献也不会太多。结合相似度和评价的一种方法是：
相似度与评价的成绩作为这个电影评论的一个贡献，同时为了避免评论的人越多
最终的总分越高，可以用这个公式：
所有人（相似度与评论分的成绩）之和 / 相似度之和，于是我们可以得到如下
代码：

Ruby代码 
def get_recommendations(prefs,person,similarity='sim_pearson')  
    totals = {}  
    simSums = {}  
    prefs.each_key do |other|  
        #跳过自己  
        next if person == other  
        sim = eval("#{similarity}(prefs,person,other)")  
        #去掉similarity为0的人  
        next if sim <= 0  
          
        prefs[other].each_key do |item|  
            if (not prefs[person][item]) or (prefs[person][item] == 0) then  
                #计算相似度和评论的成绩之和  
                totals[item] = if totals[item] then   
                                  totals[item] + prefs[other][item] * sim   
                                else   
                                  prefs[other][item] * sim  
                                end  
                #相似度之和  
                simSums[item] = if simSums[item] then  
                                    simSums[item] + sim  
                                else  
                                    sim  
                                end  
            end