现在的位置: 首页 > 综合 > 正文

读“基于明确语义分析的自动文摘算法”

2013年01月19日 ⁄ 综合 ⁄ 共 2147字 ⁄ 字号 评论关闭
文章目录

标题

        基于ESA的自动文摘算法,单从论文标题可以看出是ESA作为一种工具在“自动文摘”领域中的具体应用,就同《基于显性语义分析的专家相似度研究》一样是在“专家检索”中的应用。所以很好奇想通过比较,探究一下ESA的core在哪,ESA的外延又怎么应用。

解决什么问题

        在摘要和概要中,作者表明本文要解决的是限定在医药学领域范围内,用ESA方法对文章进行自动文摘采集,便于数字图书馆的文献检索。同时要设计出实现的算法,并以数学公式或伪代码的方式表达出。

相关工作

概念空间

        语义表示是自然语言处理的核心问题,也就是一个词语要通过某种抽象,以便计算机或程序能处理,而同时尽量反应出其本有的知识背景。ESA借助维基百科中的内容,对词语的语义构建一个概念空间的向量表示,以保证其可读性,即知识背景。维基百科中,每个词条包含了一个特定的主题,可以看做是一个概念;同时词条中的文本内容由该主题下许多词语构成,词语之间、词语和概念之间存在的关系需要由某种模型进行抽象。在ESA方法中,以“概念”为列,以“词语”为行构建概念空间矩阵,在概念空间中,概念抽象成“坐标轴”,即一个概念表示一维,词语抽象成“向量”,向量的坐标值表示该词与每个概念的相关度(或相似度),这样整个维基百科可以抽象一个巨大的概念空间。在本文中,词语和概念的相关度用tf-idf值进行度量,在一个N维空间中,其计算公式如下:

        因本文解决的问题限定在医药学领域范围内,故只抽取了中文维基中该领域下的5847个词条内容(即N=5847),及分词、停词后的词语9612个,用以构建医药学领域概念空间。

基于统计学习的自动文摘算法

        在 文献的自动文摘过程中,首先对文献进行逻辑抽象,抽象的过程按如下进行:定义文献集为D = {d1,d2,……dn};每个文档d中,包含句子集S(d)= {s1,s2,……sn};每个文档d中,包含词集T(d)= {t1,t2,……tn}。

         自动文摘的典型算法是基于统计学,是一种无背景的,纯粹依靠对文献中各个指标的统计数值进行文摘的生成,步骤如下:

  

“第三”部分——基于ESA的自动文摘算法

        分为四步:(1)文本预处理;(2)词权计算;(3)句子权值计算。

        (1)文本预处理

        首先是最基本的分词过程。然后为了减少计算量,去除噪音是一个非常重要的步骤,本文提出的方法是只保留概念领域中已有的词,也就是上文提到的9612个词语,即不在概念空间中的词都被当作噪音处理掉。

        (2)基于语义相似度的词权计算

         在传统方法中,一般是以词在文中出现的频次即count(t,d)作为判断词的重要性的依据。然而同一个语义往往有不同的表达方式,也就是说,不同的词存在语义相似的可能,而在以ESA构建的概念空间中,这种语义的相似性被表现出来,原理是:所有词语都被表示成概念空间中的一个向量,这些向量之间的夹角余弦值可以用来代表对应词语之间在语义上的相似度。因此,本文提出一个新的词权值计算公式:

        这里着重对similiar(t,tk)做分析,它相当于代替了传统方法中的count(t,d)。在简单基于统计学方法中,由于其无背景性质,故默认词语t与本身的相关度为1,与其他词语为0,所以统计的就是单纯的count(t,d),即词t的重要程度正比于词t出现的次数,但是一旦有背景的加入,t与其他词语相关度不等于0,而是词t 与d 中所有词的相似度之和。所以count(t,d)相当于similiar(t,tk)在背景知识为“零”的一个特例。

         除了语义相关性对词的权值有影响之外,词出现的具体位置也是一个不小的影响。本文通过实验,只对文章标题这个特殊位置加以考虑,即词如果出现在标题中,其结果要体现在权值的提高中,这种提高体现在系数α上,公式如下:

        通过上述公式的演变,文章内部词语之间的语义关系被从分挖掘出来。此外,本文提取出一个更为广义的“接口”公式:

        (3)、(4)涉及到自动文摘的特有的知识,省略。

实验和评测

        本文所用的实验数据是从作者所在学校医药论文数据库中采集的200篇论文作为语料库。所用的评测方法是Lin Chin的Roung。工具用到了WEKA的K-MEANS聚类。

        本文中所用的评价指标是Roung中的共现统计,也就是通过计算系统产生的文摘和人工文摘最n 元词的共现统计方法来评价系统效果。并且有准确率P、召回率R和反应系统总体性能F1值,F1 = 2× P× R /(P + R)。

结果分析

        本文结果分析采用的图标对比展示,即对比本文提出的基于ESA和传统tf-idf方法分别在Roung-1和Roung-2中P指标、R指标和F1指标发表现情况,并在对比表下附上了详细的文字说明,最后对反应出的差异给出了1、2、3、4详细的原因解释。

读后小结

        这篇文献虽不是专门介绍ESA,但是作为一篇通过具体应用去了解ESA,在思路上较为清晰。文中简要提到的Roung评测方法(Lin Chin-Yew. ROUGE: A Package for Automatic Evaluation of Summaries),可以作为后续阅读去了解。

抱歉!评论已关闭.