现在的位置: 首页 > 综合 > 正文

《中文新闻信息分类》标准 中文新闻信息自动分类标引的构想与实现 实现自动标引的总体框架

2012年11月02日 ⁄ 综合 ⁄ 共 4408字 ⁄ 字号 评论关闭
《中文新闻信息分类》标准经过历时一年8个月的研制及反复检测论证,在2005年9月2日专家评审会上,标准审查委员会一致通过对《中文新闻信息分类》国家标准(送审稿)的审查,建议标准起草组尽快形成报批稿,上报国家标准化管理委员会作为推荐性国家标准发布实施。作为我国第一部即将上报的新闻信息分类标准,《中文新闻信息分类》标准的研制工作取得了初步的成果,但能否在业界真正实现应用,达到整合全球中文新闻信息的目的,最为关键的是下一步技术支撑的构建。因此,只有建立自动标引系统,实现自动分类,《中文新闻信息分类》标准的现实价值才能真正体现。本文提出了实现自动标引的整体构想,希望为《中文新闻信息分类》标准下一步的研究与实际应用有所贡献。

    作为传统的手工查阅基础的传统人工标引分类是一项脑力劳动大、主观因素强、细之又细的工作,且周期长、成本高、效率低,不能满足信息成指数增长、信息及时更新和数据制作标准化的要求。计算机技术的不断进步为分类自动标引提供了广阔发展空间,利用计算机提取主题词、分类号,将根本改变手工操作的落后状况,并将数据库的管理推向标准化、兼容化。标准化以实现信息资源的共享和联机网络化检索为前提,目的是在最大范围内推行一种或几种分类法、词表及有关技术规则,以方便用户检索,有利于标引数据的交换及网络环境下的跨库检索。

一、关于自动分类与自动标引

    1、自动分类

    自动分类就是用计算机系统代替人工按照一定的分类标准或者分类参考,对文献等对象进行分类,其任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,自动分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。自动分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。

    因为文本分类从根本上说是一个映射过程,所以评估文本分类系统的标志是映射的准确程度和映射的速度。映射的速度取决于映射规则的复杂程度,而评估映射准确程度的参照物是通过专家思考判断后对文本的分类结果(这里假设人工分类完全正确并且排除个人思维差异的因素),与人工分类结果越相近,分类的准确程度就越高,这里隐含了评估文本分类系统的两个指标:准确率和查全率。

    准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。

    查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率。

    准确率和查全率反映了分类质量的两个不同方面,两者必须综合考虑,不可偏废,因此,存在一种新的评估指标。

    以上三个的数学公式分别如下:

数学公式

    另外有微平均和宏平均两种计算准确率、查全率和 F1 值的方法。

    微平均:计算每一类的准确率、查全率和 F1 值。

    宏平均:计算全部类的准确率、查全率和 F1 值。

    所有文本分类系统的目标都是使文本分类过程更准确,更快速。而自动分类系统最关键的部分就是建立自动标引。自动标引体系越完善,自动分类的实现度就越高。

    2、自动标引

    自动标引本身是一个信息抽取过程,有用的信息可以用来构建基础知识库。基础知识库是进行各项研究工作的基础,当前有不少研究通过自动标引的方法建立和维护词库,减少人工劳动强度。自动标引有助于提高信息检索的效率和性能。信息检索指用户从包含各种信息的文档集中查找所需要的信息或知识的过程。在目前大规模知识库的情况下,一般对于准确率和相关度的要求高于查全率。而提高准确率和改善相关性的一条重要途径可以以主题词为索引词,因为主题词本身就提供了更多的信息点和检索点,反映了文章的主题内容。所以当自动主题标引系统的性能提高时,检索系统的性能也会相应提高,同时检索系统也用来检测自动标引的效果。

现在应用比较多的自动分类系统是基于统计的自动分类系统,它忽略文本的语言学结构,将文本作为特征项集合来看,利用加权特征项构成向量进行文本表示,利用词频信息对文本特征进行加权。它实现起来比较简单,并且分类准确度也高,能够满足一般应用的要求。中文新闻信息自动分类的核心是采用提取内容文本的主题词进行分类,并对系统所使用的主题词权值表进行动态调整。简要流程如下:

    1、读取内容文本。

    2、使用自动分词获取主题词。

    3、查询主题词的权值。

    4、统计各类主题词的权值。

    5、根据规则计算和调整结果。

    6、根据权值结果将文本分类。

    7、对错误分类的文章可以人工动态调整,并反馈给系统。

三、实现自动标引的总体框架

    1、总体系

    下图是自动主题标引的系统框架图。基础知识库独立于标引器,并支持标引器实现主题词的获取。基础知识库是知识的存储结构,用于存储一些原理性知识、专家的经验性知识以及有关的事实等。

自动主题标引的系统框架图

自动主题标引的系统框架图

    2、自动标引的实现

    (1)自动标引的流程

    自动标引是根据新闻信息的主题内容,借助计算机处理技术,自动从标题、摘要或全文中抽取主题词作为文档的标引词。流程如下:先将原文文本进行预处理,即对于新闻信息进行格式化规范,再借助主题词表、近义词表、专用名词表、词典对其进行主题分析,然后进行主题词打分,再借助规则库和主题词表进一步进行隐含标引和论证,最后形成主题词集合。

    (2)主题分析是自动标引的前提

    主题分析在很大程度上决定着标引系统的性能,是进行自动标引的前提。主题分析要从文本中抽取出在一定程度上反映主题内容的字串,主题词也多是短语类型的字串,所以要加以识别。假设一个字串在文章中经常出现,则该字串可能反映文章的主题内容,所以把其收入主题词候选项集合。在进行词频统计的同时,借助主题词表、近义词表、专用名词表、词典,根据该字串的各种属性,如文中位置、长度、词性、词频等,对其进行分析。根据结果对主题词候选项进行过滤,经过几次过滤可以不断缩小范围。

    (3)主题词索取是自动标引实现的核心

    自动主题标引借助于计算机处理技术,在对新闻信息进行分析的基础上,自动从文档中获取主题词作为该条新闻信息的标引词。主题词是经过规范化的词,取自于主题词表,表达同一主题的叙词,在任何情况下都具有完全一致的字面形式。主题词又称叙词,叙词(Descriptor)是我国70年代引进的外来词,也叫描述词、叙述词。它是以概念为基础、经过规范化的、具有组配性能、显示词间语义关系和动态性的词和词组,它是描述信息资料主题的一种标识符号,叙词受词表控制,通过概念组配来描述信息主题的语词型检索语言,它可以显示词间语义关系和动态性。主题词有两方面的作用:一是为用户提供文章的重要信息点,使用户用较少时间就能了解文章的主题。二是提供了重要检索点,用户可以借助各种检索工具快速查找到所需信息。这里的主题词不仅是我们一般概念中的词项,也可能由多个词构成。

    新闻信息主题词的标引一般分为两种方式:一种是主题词赋值,通过理解信息内容从控制词汇表中选择最有描述能力的短语赋予文档,这种方式中的可控词表难以建立和维护,也难以利用计算机自动实现;第二种称为主题词抽取,新闻信息被分析,最合适的短语被识别出来与原信息建立联系,一般这里所指的主题词都出现在原信息中。在该项目中自动标引的最终任务与主题词抽取相似,但有所区别。我们不但要把原信息中反应主题内容的主题词抽取出来,而且要把没有出现在原信息中的一些隐含主题词通过规则推理并识别出来。

    (4)隐含标引

    有些反映文章主题的主题词在原文中没有出现,但是却隐含在原文的内容中。人们只有根据经验和知识才能总结出这些主题词。根据专家的经验知识建立了规则库,作为隐含标引的准则,对已有的主题词集合在进行适当的扩充。

    建议规则库进行以下几种情况的扩展:

    ①歧义标引模块,如所选的主题词存在“钱伟长、江民、会见”,应包含主题词“钱伟长会见”和“江民会见”。

    ②联想标引模块,例如对于“消防”,可以标引出“火灾”作为主题词。

    ③主题词组配模块,对于一些跨距离的主题词,其组配更适合作原文的主题词,如果组配后在主题词表中,则保留组配。例如:“社会主义”和“理论”都在文中出现,并且保持较近距离(在同一句中),经过组配得到“社会主义理论”仍在主题词表中,则“社会主义理论”也作为主题词保留。

    规则库的建立,需要长期的积累和总结,以及专家相关经验的提炼与补充,但其能够大大提高标引与检索的相关度和查全率,对于提高系统的性能有着十分重要的意义。所以该模块的建立应是我们将来进一步研究的重点部分。

    3、关于基础知识库

    在标引系统中,知识库是标引的模块基础,其中包含应包含多个词表,并建立起它们之间的相互关联,以下是对知识库结构的设想。

    (1)主题词表,主要根据手工标引的经验和用户检索新闻信息的需求总结出来。利用主题词表抽取主题词时,也要结合词典进行考虑。并注意结合新闻信息的特点,一般在标题和导语中出现主题词的频率比较高,但也要注意隐含主题词的搜索和总结。

    (2)近义词表,包括以下三类词:具有相近意义的词,经常在文章中交替使用,如“会见”与“会面”、“协商”与“磋商”;还有一些词在不同地区、不同方言体系内称呼略有不同,如“网络”与“网路”;还有一些外来词,译法不同而形成同一意义多种称谓,如“好莱坞”与“荷里活”、“因特网”与“英特网”。将这些词分组集中起来,建立关联关系,并且每一组近义词默认第一个词作为规范词,其他词统一替换为该词。

    (3)专用名词表。包括各类专用名词的词表。在分类代码的辅助表的基础上,进行丰富与完善,可以建立以下几个词表库:国名库、国家机构名库、人物名库等,并要注意专用名称的全称与简称的对应性,在其二者之间建立关联关系,注意同义项合并。

    (4)词典,包括我们常用的词语及其词性信息,在标引过程中对于文本进行分析,首先对新闻信息进行切分和标注要使用词典。同时词典也可以结合主题词表过滤掉一些候选项。

    (5)规则库,主要依据基础知识库中的信息和规则进行推理,而得到一些普遍使用的规则,进行总结和归纳,并事先规定。

    自动标引是实现自动分类的基础,而自动分类的最终实现,目的还在于应用,便于用户进行检索。因此,下一步不但要以建立主题词库为出发点,还要考虑到检索系统的整体构建问题。所以,《中文新闻信息分类》标准的后续工作还相当繁重,但无论任务多么艰巨,我们都要以为用户创造效益为第一要义,最终实现整合全球华文新闻信息的理想。(作者:邓茜 林红/新华社新闻信息中心 本文刊于《中国传媒科技》2005.9

抱歉!评论已关闭.