现在的位置: 首页 > 综合 > 正文

论文读书笔记-ranking comments on the social web

2014年03月01日 ⁄ 综合 ⁄ 共 2305字 ⁄ 字号 评论关闭

本文介绍了如何对用户的评论建立模型,以便对评论进行排序,发现其中有价值的评论,这里选取的是对Diggs网站上面的评论数据进行分析。

 

 

下面列出文章的一些要点:

1、 Our overall research goal is to leveragethese comments as a form of social collective intelligence for enhancedinformation organization, summarization, content retrieval, and visualization.这里的意思是把这些评论也看成了社交智能的数据,类似于Facebook上面人与人的好友关系等。

2、 In particular, we propose to automaticallyrank the comments associated with a Social Web object (e.g., Web document,image, video) based on the expressed preferences of the community itself.作者在此说明要依据网站的特点对评论进行建模排序,不同的网站情况是不同的,下面是作者力图做到的几点:

(i)     automaticallyscore new comments as they arise in the community;

(ii)   promotehigh quality comments;

(iii)  filterout low-quality comments, so that user attention is not wasted;

(iv)   providea sound basis for enhanced comment-based Social Web applications like summarization,content retrieval, visualization, and so on.

3、 对评论建模的困难之处:评论往往非常短,缺少一般网页中的结构和属性;不同网站评论的特点不同,新闻网站上面专业人士评论较多,而youtube上面年轻人评论较多;较早的评论往往影响较大,获得更多的关注,这对于后面的评论不公平;在排序时对前k条的评论需要格外注意,因为用户往往只看这几条评论,要确保精确。

考虑到这些因素之后,作者提出了自己需要做的东西Our goal is to develop automatic techniques for learning thiscommunity preference even in the absence of explicit community ratings.即使没有社区的评分情况,也能够学习到这个社区的偏好,从而对评论排序。

4、 在对评价排序时,

假设有k个社交物体(诸如页面图片等)O={o1,o2…ok}

每个物体有n条评论 Ci={ci1,…cin}

每一个cij有m个特征 Fcij={f1,f2…fm}每个特征对应于评论的某个方面

假设进行训练的数据是下面这种格式:

(Fcij,rcij)对应于特征cij和特征cij在社区中的评分rcij

使用支持向量机来进行回归分析:

F被映射到高维空间,w,b为系数。由于SVM具有对偶性,问题转换为一个对偶问题:

这个模型就可以用来预测某个评论预期的评分值。作者在这里强调预测的不是绝对值,而是相对值,这是因为评论是不断动态改变的。our goal is to predict the relative order of comments, so that evenas new ratings are made on the comments, the model will be able to capture therelative quality.

 

5、 一些影响评论评分的因素

Comment visibility:显然评论的可见度影响评分,在这里又细分为(i) the articlecommunity rating of the article that the comment is attached to; (ii) thecomment posting time。一般来说,评分较高的文章评论的评价也较高,越早的评论评分也会较高。

User Reputation and Influence:这又可以细分为下面三个方面:

Each user’s activity and interest level within the community.其中包括提交的文章数量、注册日期、类别信息等等

user popularity in the community.其中包括出现在Digg首页上自己的文章数量、自己个人信息被阅读的数量、朋友的数量

how well each user has participated in commenting in the past.针对自己历史评论的评分、针对自己历史评论的回复

Content-Based Features:这是针对内容进行分析,又分为下面几个方面:

Statistical properties of the text.其中包括评论长度、评论复杂性(使用信息熵衡量)、大写单词出现的数目、其中包含的信息量(用TF-IDF衡量)、类别紧密性(用互信息衡量)。

NLP-style analysis of the comments.其中包括可读性、主观性和客观性、动名词

compare the comment text to the article the comment is attached to.其中包括评论和文章是否联系紧密存在一定交集,或者不相关

 

6、 作者最后做了一下对比实验验证模型的正确性:

SWCP就是本文提出的模型,可以看到其准确性要高于按照时间排序的,更明显高于随机排列的。

抱歉!评论已关闭.