现在的位置: 首页 > 综合 > 正文

论文读书笔记-using topic keyword clusters for automatic document clustering

2014年11月01日 ⁄ 综合 ⁄ 共 1298字 ⁄ 字号 评论关闭

本文介绍了如何基于文档中的关键词对文档进行聚类,重点在于如何选择关键词。

 

下面是文本的一些要点:

1、整个系统的主要流程:

-使用渐进的数据清理方法减少文本中的噪声数据

-确定文档中的话题关键词(topic keywords)

-对话题关键词进行KNN聚类,得到话题关键词类

-文档依据话题关键词类进行聚类

 

 

2、data pre-processing

在数据预处理环节,需要把关键词转换为图的形式表示,图中的每个顶点为一个关键词,图中的每条边意味着两个关键词具有联系,话题关键词就是边权重较高的一些关键词,用KNN发现话题关键词组,进而形成话题关键词类。

具体包括下面几个步骤:

-单词分割,中英文分词

-短语识别,一些词需要结合起来才更有意思,例如wireless, local ,network

-特征选择,需要去除一些无意义或对于话题关键词无区别性的词。去除下面一些词:单个字符、功能性词(形容词,代词等)、出现次数较多对于区分度较差的词、文档中出现少于2次的词

-文档表示,所有文档表示为d={w1,w2...wn}的形式,权重wi为每个词itf*idf值,然后对每个文档进行归一化,用cos距离衡量两个文档之间的距离

 

3、提取话题关键词

在对文档聚类时需要考虑两个问题,每个文档需要保留多少关键词才能确保聚类效果好?一个话题用多少关键词表示较好?经过实验发现用10-25个关键词表示一个文档,用10-20个关键词表示一个话题较好。

在提取话题关键词时需要衡量两个词之间的联系,可以用下面一个式子来表示:

 

其中f(ti)为词ti在文档中出现的次数,交集为词ti,tj在文档中共同出现的次数。

构建关键词图时,首先要求出图中的平均连接权重

n为权重图中边的数目

然后过滤掉权重小于平均值的词,然后再次计算每个词的组成权重

m为顶点vi的权重

再次计算平均组成权重

,k为图中的顶点数目

图中超过平均组成权重值得点作为候选话题关键词。

 

4、话题关键词聚类

得到候选话题关键词之后,首先用KNN的方法得到关键词组,其次把这些组作为中心组去形成新的关键词网络,连接这些组的顶点被标记为一个子类别,最后再把这些子类别进行聚类,其中衡量两个类别之间的联系是:

 

其中E{Gi,Gj}为两个组直接的绝对连接,也就是Gi组顶点与Gj组顶点连接边的权重之和。

为了确保一个类别中的关键词数目不会太多,针对聚类结果需要进行一定的修正,其中一个类的连接密度:

 

E(G)代表关键词类别中的边的数目,V(G)代表顶点数目。

每一个类的平均强度如下:

 

和关键词组成权重一样,现在考虑的是每个类的组成权重CW=CD(G)*AS(G),然后可以得到ACW平均组成权重,类的组成权重小于ACW值时就被丢弃。

 

5、依据关键词类别对文档聚类

得到关键词聚类结果后,使用cosine距离来衡量一个文档和一个关键词类别(话题类别)之间的距离,选择距离一个文档最近的关键词类别,然后把文档划给这个类别即可。

在聚类时存在一个文档划给多个话题类别的情况,这是允许的。同时也可能出现文档不属于任何话题类别的情况,这种情况发生的原因可能是文档中的词不具有代表性或删去了很多词。

 

 

抱歉!评论已关闭.