现在的位置: 首页 > 综合 > 正文

基于统计方法的汉语依存句法分析研究–马金山博士(哈尔滨工业大学)

2014年09月05日 ⁄ 综合 ⁄ 共 2793字 ⁄ 字号 评论关闭

原文下载地址:http://ir.hit.edu.cn/demo/ltp/SharingPackage/mjs-dissertation.pdf

 

下面是绪论中的一部分:

1.1 课题的背景和意义
        自然语言处理的分析技术,可以大致分为两个层面,一个是浅层分析,如分词,词性标注。这些技术一般只需对句子的局部范围进行分析处理,目前已经基本成熟,其标志就是它们已经被成功地用于文本检索、文本分类、信息抽取等应用之中,并对这些应用产生了实质性的帮助。另一个层面是对语言进行深层的处理,如句法分析、语义分析。这些技术需要对句子进行全局分析,目前,深层的语言分析技术还没有达到完全实用的程度。对语言的深层处理过程中,句法分析处于一个十分重要的位置。句法分析工作包括两方面的内容,一是确定语言的语法体系,即对语言中合法句子的语法结构给与形式化的定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的语法结构,分析句子所包含的句法单位和这些句法单位之间的关系[1]。在语法体系中,依存语法以其形式简洁、易于标注、便于应用等优点,逐渐受到研究人员的重视。目前,已经被自然语言处理领域的许多专家和学者所采用,应用于许多国家的语言中,并对其不断地发展和完善。在国际会议CoNLL(Computational
Natural Language Learning)的shared task 中,2006、2007 连续两年举行了多语依存句法分析(Multi-lingual Dependency Parsing)的评测[2, 3],对包括汉语在内的十几种语言进行依存分析。许多国家的研究人员参加了该评测,说明基于依存语法的句法分析已经被各国学者广泛地接受。
        作为的底层核心技术之一,句法分析可在自然语言处理的各项应用中提供直接和间接的帮助。
        (1)直接应用
        句法分析的结果可直接用于机器翻译、自动问答、信息抽取等应用。目前的机器翻译主要依据短语对齐的结果,而准确高效的句法分析可以提高短语对齐的准确率,改善机器翻译的效果。在基于自然语言的自动问答中,查询扩展以及答案匹配均需要对句子进行深入的理解和分析。已有的一些工作将依存分析用于自动问答的问题分类中,取得了较好的效果[4],也证明了句法分析对自动问答所起的重要作用。句法分析的另一个直接应用是信息抽取。为了从非结构化的文本中自动抽取特定的结构化信息,句法分析的作用至关重要[5],Surdeanu 等人在句法分析的基础之上进行信息抽取,提高了信息抽取,特别是事件抽取系统的性能[6]。
        (2)间接应用
        句法分析同样可以对自然语言处理的基础技术提供帮助。目前的汉语分词主要采用词汇一级分析技术[7],并已经达到实用水平,但是要将该问题真正解决,只有借助于更深层的分析技术,借助语法语义等信息帮助分词。分词、词性标注以及句法分析的一体化分析技术是一个很有前途的解决方案,Luo 和Pung 尝试了基于字的句法分析方法,实现了分词和句法分析的一体化,取得了较好的效果[8, 9]。自然语言处理的目标是对语言进行语义一级的理解,词义消歧和语义分析是达到这一目标的必经之路。而真正要达到语义一级的分析,句法分析同样必不可少。词义消歧面临的困难之一就是上下文特征的选择[10],依存句法分析能够识别句子中词与词之间的关系,可以用来优化词义消歧的特征选择,依存句法分析对汉语词义消歧的积极作用已经在一些工作中得到了验证[11]。语义分析是另外一个很重要的基础研究工作。在20
世纪70 年代就受到学者的重视[12],最近几年刚刚开始的面向开放域语义的分析,是在句法分析的基础之上进行的,并强烈地依赖于句法分析技术的发展[13]。综上所述,句法分析位于自然语言处理中的一个核心位置,其性能的好坏,对其他技术有着重要的影响。如能将其有效地加以解决,一方面是对相应的语法理论的验证,能够证明某一语法理论的正确性和有效性,促进语法理论的研究和发展,为人类掌握语言的规律提供实践性的检验。另一方面可以作为自然语言处理技术的一个基础,为语言的深层理解提供一个新的平台,有效支撑各种语义、语用等分析技术。也可以直接对各种上层应用,比如机器翻译、信息获取、自动文摘等提供帮助。

1.2 句法分析的研究方法概述

        句法分析的研究有着较长的历史,从20 世纪50 年代初机器翻译课题被提出算起,自然语言处理经历了50 余年的发展,在这期间,句法分析一直是自然语言处理的研究重点,也是制约自然语言处理研究进展的主要障碍。在早期的句法分析研究中,基于规则的方法曾一度占据主流。该方法由语言学家描述语言的语法,语言学家认为所有人类语言的构造都是有层次的,层次结构可以用规则的形式表示出来,而规则的集合就是语法。对于一个输入的文字串,根据语法可以推导出该文字串的语法结构。对基于规则的方法来说,规则的获取是一个十分繁琐的过程,它完全依赖于知识工程师的语言知识和经验。除了开发规则的成本巨大之外,这种方法不能保证系统的性能随着调试句子的增多而提高,有时增加的规则反而会对系统的性能产生负面影响,这是由于人的知识表示能力还存在不足。另外,对基于规则的方法,很难找到一种有效的途径,提高规则开发的效率。自上世纪90
年代以来,随着语料资源的获取变得容易,基于统计的方法开始在自然语言处理领域成为主流。这种方法采用统计学的处理技术从大规模语料库中获取语言分析所需要的知识,放弃人工干预,减少对语言学家的依赖。它的基本思想是:

(1)使用语料库作为唯一的信息源,所有的知识(除了统计模型的构造方法)都是从语料库中获得。

(2)语言知识在统计意义上被解释,所有参量都是通过统计处理从语料库中自动习得的[14]。
        基于统计的方法具有效率高、鲁棒性好的优点,大量的实验已经证明了该方法的优越性。目前,统计方法已经被句法分析的研究者普遍采用。基于统计方法的句法分析,需要解决两个问题:第一个问题是语法歧义的消解。自然语言区别于人工语言的一个显著特点就是它存在大量的歧义现象。人类可以依靠丰富的先验知识有效地消除各种歧义现象,而目前对人类认知的机理还没有完全掌握,在知识表示以及知识获取方面的研究工作也还有诸多不足,如何利用语料库资源建立一个统计模型,用以消解自然语言的
语法歧义,是统计方法面临的主要问题。第二个问题是句法树的空间搜索。同序列标注以及分类的问题相比,句法分析显得更为复杂。在进行句法分析时,一个句子会产生大量的符合语法规范的候选分析树。给定一个长度为n 个词的句子,其候选句法分析树的数量高达n 的指数级。因此在设计句法分析模型时不仅仅要加强模型消除歧义的能力,还必须要控制好模型的复杂度,从而保证解码器能够在可接受的时间内搜索到最优的句法分析树。

抱歉!评论已关闭.