现在的位置: 首页 > 综合 > 正文

在计算机的立场上讨论汉语理解问题

2012年09月25日 ⁄ 综合 ⁄ 共 6874字 ⁄ 字号 评论关闭

Understanding Chinese Language from the View Point of Computer

Zhou, Xiling

Professor

BeiJing Information Technology Institute

Aug. 16,1997

 

Abstract

It is important to distinguish two mode of information transferring processes: detailed description mode and curtailed hint-mode. In history, the traditional style of Chinese writing   is to focus on “terse and more message”. Thus Chinese writing is unique in its widely usage of Hint-Mode in various ways for the purpose of high efficiency as compared with other languages such as English and Japanese. This implies that the understanding of Chinese language depends in much more degree on the Common Knowledge between the information sender and the receiver. This kind of practise was carried out so hard that in many cases the reader (listener) has to rectify the meaning of a sentence via common sense instead of the result of syntax analysis. So far, our computer technology is far from being able to understand the “hint mode” expressions on the basis of common sense and knowledge, hence we have to restrict the style of statements in “description mode” before the computer can understand it.

 

摘要

 

必须区分信息传递过程中的两种方式:“详细的描述方式”与“简略的提示方式”。历来汉语的文风是强调“言简意赅”。与其他语言(例如英语和日语)相比,在中文的书面语言和口语中更多地使用了“提示方式”,从而意味着信息的理解要在更大的程度上依靠写读(说听)双方共同拥有的知识。这种做法是如此普遍以致于有时信息的接收者必须通过常识来校正语义分析所获得的信息。迄今的计算机技术远未达到这种主要依靠常识和专业知识来猜测语义的程度,从而必须把馈送给计算机的自然语言语句限制在“描述方式”的范畴之内。

 

前言

 

无论古代圣贤还是近代学者,都主张“多读书,慎立言”。然而本文基本上只从直觉和日常生活中对语言的感受出发,悖离了他们的教导。一来这是由于本人最近才进入自然语言处理这十分生疏的课题,因而完全没有语言学理论方面基本功的训练。二来是想到,凡事有一利必有一弊,多读书固然有好处,但是读书也就是“把脑子让别人跑马”,有如看电视剧就是把眼睛借给导演一样;在当前其他工作十分繁忙的情况下,如果囫囵吞枣,没有时间消化,自己的直觉反而会给马蹄践踏光了。第三是想,语言学家们进行了多年的研究和讨论,我们最好也在软件工作者的圈子里来讨论一下。最后,作为这个领域里的 freshmen, 即便说得不对、浅薄,乃至贻笑大方,大概都能得到软件同行和语言学家们的谅解。是为序。

 

两种信息传递方式

当我们要传递具有某种含义的信息时,大体上可以采取两种方式:详尽的“描述方式”和简略的“提示方式”。举例来说:

l         当使用C语言书写计算机程序的时候,我们可以只使用C语言中允许使用的基本语句,也可以调用程序库中的子程序、操作系统提供的SVCAPI。前者属于“描述方式”,后者属于“提示方式”。

l         在绘画领域里,有以刻意详细描摹为特徵的“工笔画”,也有以简单勾勒线条,突出了对象特徵即止的“简笔画”(漫画和幼儿绘画教材为这一类的代表)。前者属于“描述方式”,后者属于“提示方式”。

l         书画同源,人们说话的时候使用的语句也可以分为两种:“描述方式”和“提示方式”。“描述方式”讲究语法。要求通过语法所规定的结构和句子中诸成份之间的关系来比较精确地与这个句子所要描述的客观事物的结构相对应。“提示方式”则不同。它只挑选所要描述的客观事物中若干主要因素告诉对方,让对方利用双方说话时所处的环境和上下文中已经包含的信息,和对方已经具有的知识来补足语句中所省略的部份。如果一种语言的使用者在实际使用的时候能够比较严格地遵守语法和客观世界中事物之间的对应关系,并且对不同的情况区分得比较细腻,那么他所说的话是比较严谨的。使用的是“描述句”。反之,如果他所说的话比较简略。他使用的是“提示句”。这时候,语言的理解就要更多地依赖语境和说写方与读听方的共同知识,以排除歧义。

 

在区分以上两种信息传递方式时,我们当然会注意到以下几点:

l         “描述方式”和“提示方式”是可以混合使用的,在写计算机程序和人们相互交谈时尤其如此。

l         为了节省时间和精力,只要有可能,人们多半倾向于使用“提示方式”。但是,这样作,需要满足一个前提条件:信息的收发双方共享了相关的某种知识。漫画的读者如果要理解漫画家勾勒出来的某一名人的画像,他必须事先从报章、杂志或者电视上见过该名人;计算机编译程序必须在程序库中找得到有关库程序的implementation的描述才能进行编译;同样地,如果某篇文章中含有“胸有成竹”这一成语,读者必须事先知道“胸有成竹”这四个字所引用的故事,才能理解这段话的含义。

l         换言之,“提示方式”的使用,提高了对信息接收方知识水平的要求。

描述句

世界上各种语言文字的语法互不相同,然而它们恐怕都要满足一个共同的要求,就是能够通过它们反映主客观世界中的事物以及事物与事物之间的关系。各种语言中用来与事物对应的词就是“体词”,它们相当于计算机软件中的“对象(object)”“实体(entity)”的概念。而为了描述事物与事物之间的关系,就产生了“谓词”(它们相当于计算机软件中的“关系(relationship)”)。为了区分1 1还是n m关系,就产生了单数和多数的概念。体词后来进一步细分为名词,代名词,等等。谓词后来进一步细分为动词,形容词,介词等等。有许多关系是有方向性的,例如“打”,为了指明某个实体位于关系的哪一方,有些语言中的体词就产生了语法“格”的概念,在动词上就产生了“主动态”与“被动态”的区别。在没有“格”和不大讲究“主动”与“被动”的汉语中就要在一定程度上依靠“语序”和“虚词”(虚词在汉语中似乎较多地用来指示关系的方向性)来表达这方面的概念。

汉语中的“提示句”

汉语中的“提示句”有两种情况。一种是通过成语引用一个“人所共知”的故事。例如:

 

         他这样做简直是“杞人忧天”。

 

另一种是把一个原来是完整的描述句中的若干成分省略,只留下关键性的词语。省略的部分要依靠读(听)者利用自己的知识补充回去。例如:

 

         今天不来了。

 

是“我”不来了,还是“老张”不来了,要看讲话的人是在打电话还是在等老张。至于社会上某一时期流行的缩略语,如:

 

         五讲四美三热爱。

 

更是如此。

 

汉语中的体词基本上没有“性,数,格”的区分,动词本身也不讲究“主动,被动”以及“过去,未来,现在”的时态区分。再加上中国文化传统历来讲究“言简意赅”。因此,与其他语言相比,汉语中使用“提示句”的情况比较多。不仅如此,汉语往往还允许语言的使用者违反“描述句”中所要求的语法规则,只要听者能够通过语义和语境在理解时把“错误”的语法或语序纠正过来就行。

 

以杜甫的名句“名岂文章著, 官应老病休”为例。最后五个字列举了五个概念:

 

          当官  应该   衰老   生病   休息

 

按照正常的语法,简直无法理解它的意思。要理解,必需把这五个字的次序颠倒成:“老病应休官”,也就是:“由于 衰老生病,应该退休不当官了”。

 

即便在现代的日常生活中,也仍然保留著这种语言现象。最典型的例子就是:“救火”与“恢复疲劳”这两种 普遍的说法。

 

产生这种奇怪现象的原因也许可以从小孩子学说话的过程中得到启示。幼儿学说话时, 开始多半没有按照一定语法去组织词句的能力,他只能把 代表他脑海中最重要的概念的单词说出来。例如“救火”,严谨的说法应该是:

 

         抢救生命财产于火灾之中。     或者      从火灾中抢救生命财产。

 

可是他没有能力或者来不及 说出这样复杂的话,只好从中挑选两个最关键的词“救”与“火”来说。在大火 熊熊的现场, 尽管所用语序会使书呆子产生理解错误,但对一般人来说,这两个字的意思也就够了,不会引起误解。当然,在火柴还没有发明之前,人们看见珍贵的火种 快要熄灭而想挽救它时,“救火”就变成了完全符合现代汉语语法的“挽救火种”的含义了。

 

同样地,“恢复疲劳”是以下严谨说法:

 

         恢复到疲劳以前的状态。

 

的提示形式。

 

再拿由语言学界前辈赵元任先生首先提出,并在语言学界反复讨论过的例句:

 

         (在餐桌上) 

         鸡不吃了。

 

来看。有人说,“吃”在这里是 被动态,如果在养鸡场说这句话,它就是主动态了。我认为,可以从另外一种观点来更自然地加以解释,即认为它实际上是说话的一种简化的提示形式,其简化过程可以设想如下:

 

    这鸡,我不想吃了。

    鸡,我不吃了。

    鸡,不吃了。

    鸡不吃了。

 

尽管最后的句子违背常规语法,但却为使用汉语的人群所允许。

 

 还有一个经常引起争论的例句是:

 

    去是对的。

 

在这个句子中的“去”字到底是名词还是动词?

 

有一派说,“去”一般是动词,然而这里的“去”已经名词化了,因为只有体词才能充当主语。它已经相当于英文中的 going, 只不过由于汉语没有形态变化,所以表面上看不出来罢了。

 

反对者说,不对!其中的“去”仍然是动词,否则你怎么解释下面的句子?

 

         不去是对的。

 

难道其中的“不去”也是名词?“不”是只能用来修饰动词的,“不”字典后面从来不可以跟一个名词!于是按照这一派的意见所拟定的汉语语法中,名词,动词,形容词都可以用来充当主语。

 

迄今为止,以上两种意见好像谁也说服不了谁。我认为,实际上这种句子是一种非正规,“提示性”的简略表述形式,如果采取这种看法,问题就会迎刃而解。

 

设想有某个单位,大家讨论该不该派老张出差开会。用严谨的“描述句”来表述两派的争论意见,应该是:

 

    “主张老张    开会的这一派意见”  是对的。

    “主张老张 不去 开会的这一派意见”  是对的。

 

等到老张出差开会回来, 如果双方又开始用同样的提示语句进行争论,那么实际的内容就变成:

 

    “这次老张 开会的作法”  是对的。

    “这次老张 不去 开会的作法”  是对的。

 

换言之,在原来较为完备详尽的说法中,都是以名词性短语作为主语,简略形式中的“去”与“不去”不过是从这些名词性短语中抽取出来的关键性动词而已。

 

要是把上述例句的提示形式直译为:“Go is right." "Not go is right."  恐怕不能被认为是正规的英语,而必需说成:"The idea of let him go is right." 之类。总的说来,像英语,俄语,日语这样讲究语法形态的语言偏向于要求较完备的描述表述形式,而汉语则容忍更加简略的说法。汉语的这一特点使得它的表达形式远较其他语言紧凑,同样篇幅的文字所含有的信息量更高,而其缺点则如鲁迅先生所说:不够精密。由从事计算机自然语言理解工作者的观点看来,由于大量的提示语要依靠语言接收者自备的知识来补充所省略掉的部分,大大增加了计算机理解汉语的困难。

岐义词问题

有关岐义词的讨论已经很多。“东西”是一个典型的例子。它可以有好几种含义:

〖“东西”可以有Dong1Xi1Dong1Xi5两种不同的发音,而不同发音的汉字或者汉字组合不能算是一个词。然而在此只讨论计算机对书面语言的处理,所以不考虑这种区分。〗

   东西(物件)    ── 到百货公司买东西。

   东西(方向)    ── 东长安街是东西向的一条大街。

   东西(爱称)    ── 你这可爱的小东西。

   东西(贬意)    ── 这人真不是东西!

 

计算机在碰到这种词时很难依照上下文判断应该使用哪一种含义,除非在计算机中装入常人拥有的社会与自然科学知识。但是如果人们在写作时利用了可以帮助计算机理解汉语的辅助写作软件,则可以在切分词以后查字典,如果发现这个词有多种含义,就通过人机对话向写作者询问他使用的是哪一种含义。

 

值得注意的是,有些歧义词是以很隐晦的、与上下文有关的方式改变其含义。在中国学习中文的美国留学生说:中文真奇怪,以下两句话:

 

    (a)中国队 大胜 美国队。

    (b)中国队 大败 美国队。

 

都是你们中国队嬴。可是:

 

    (c)美国队 大败  而归。

 

却依然是美国队输了。

 

其实,第二句话(b)中的“大败”是及物动词“使...大败”。而第三句话(c)中的“大败”是不及物动词, 表示主语“大败”。换言之:

     如果在句子中同时出现主语和宾语,“大败”或者“打败”在句子中就用作“及物动词”,这时,宾语所代表的一方失败,主语所代表的一方当然就是胜利者。

     如果在句子中只出现主语而没有宾语,“大败”或者“打败”在句子中只能用作“不及物动词”,这时主语所代表的一方就是失败者。

 

还有奇怪的事:

 

    把废纸 扔 在 地上。

    把废纸 扔 在 地下。

 

中的“地上”和“地下”都是“on the surface of the floor. 

 

  把废纸埋 在 地下。

 

中的“地下”才是“underneath the ground..  〖“地下”有Di4Xia4Di4Xia5两种读音,语言学家认为是两个不同的词:前者表示“地面之下”,后者表示“下方的地上”。但一般人即使在口语中也难以注意到这一细微的区分,作为供计算机阅读的书面语,区分就更难了。〗

 

汉语中没有词尾可以用来标识词性,同一个汉字往往既可以当名词,又可以当动词,甚至形容词。这种“词性歧义”也给汉语理解带来了困难。在古文中,这种例子较多:

 

    道可道,非常道。名可名,非常名。

    君君臣臣父父子子。

    老吾老,以及人之老,幼吾幼,以及人之幼。

 

现代生活口语里也不断发生这种现象。中央电视台“综艺大观”的节目主持人就说过:

        

    这个节目很生活。

 

老百姓日常生活里也有不少例子:

   

    丈夫问:“宝宝大 便了没有?”

    妻子答:“已经大过了。

 

 

体词的串接

 

“体词串接”是汉语中十分普遍的现象。在这种句子或短语中,你只看到一连串反映客观世界中实体的名词、代名词,,却找不到反映它们之间关系的谓词、介词,。从熟悉ER(实体-关系)模型的软件人员的观点来看,这种做法相当于只列举了反映客观世界的ER模型中的若干Entities(实体),而完全省略了它们之间的Relationship(关系)。它们之间的关系到底是什么,留给读者根据这些体词的语义去猜测。与其他语言相比较,汉语的紧凑、灵活性,同时也就是它的不精密性在很大程度上与这一语言现象有关。

 

如果在语句中出现 相邻接的两个名词 N1 N2, 那么他们之间的关系可以有多种形式,具体如何选择,往往要看这 两个名词 N1, N2的含义来决定。例如:

 

l         如果N1,N2都是地名,则N1用来限定N2的范围,如:

     中国  北京,

     新街口  豁口

 

l          小李  黄头发。                         ---- 主谓关系

l          圆领  衬衫。                           ---- 前者形容后者  

 

l         有时还需要根据语句之外的社会知识或者生活常识才能决定:

 

    《鲁迅回忆录》

 

这一个短语里并列了两个代表实体的实词:“鲁迅”和“回忆录”。这两个实体之间有什么样的关系呢?短语里面没有说。从计算机的机械脑袋猜想起来,可以有种种猜测:

        

关于 鲁迅 回忆录

鲁迅 撰写的 回忆录

鲁迅 收藏的 回忆录

鲁迅 销售的 回忆录

………………………

 

但是,大多数人知道,作为一个书名印在封皮上,只能有前两种解释(但是计算机看不见这一点)。有一定文化的人更进一步知道,应理解为 (关于)鲁迅() 回忆录》,而不是鲁迅自己所写的回忆录:因为他知道鲁迅并没有把自己的经历写过回忆录,而且他又知道有很多人

抱歉!评论已关闭.