现在的位置: 首页 > 综合 > 正文

OCR(计算机是怎样识字的)

2013年10月04日 ⁄ 综合 ⁄ 共 10188字 ⁄ 字号 评论关闭

1 计算机是怎样识字的

1.1 从国际象棋人机大战说起

教电脑识字:浅谈汉字识别昊佑寿             www.chinaocr.net   OCR制作

1997年5月间,国际象棋棋王卡斯帕洛夫同由IBM公司华裔科学家谭崇仁和主设计人许峰雄博士负责研制的“深蓝”计算机进行人机国际象棋比赛。这是棋王与计算机的第二次较量。第一次人机大战时,卡斯帕洛夫以优异的战绩获胜,在当时这是人们意料之中的事,“人为万物之灵”嘛,怎么会败在计算机手下呢!因此这一次开战之前,舆论界对棋王仍然看好,相信他能卫冕成功。

果然第一局卡斯帕洛夫胜。看来经过改进后的“深蓝”依然不是棋王的对手。但是第二局形势突变,“深蓝”走了一步“怪招”,使棋王方寸大乱,败下阵来,从而一撅不振,俯首称臣。

“深蓝”获胜,棋王卡斯帕洛夫被拉下马,这个消息在全球科技界引起轰动。有的人甚至认为,这一事件标志着计算机已具有、或将具有极高的智能,以致有朝一日电脑将能控制人脑,使人类受某种“智能机器”控制而处于被奴役的地位。

“深蓝”的设计者谭崇仁和许峰雄在“深蓝”获胜之后,表示了相反的看法。他们于同年9月份来华访问,在清华大学做了专题报告,介绍有关“深蓝”的研制工作和今后计划,并对上述问题发表了看法。他们认为:无论是人类使用石器的当初或是第一次工业革命的时候,都有人对于人类能否控制技术的发展提出过疑问,这些疑问都已不攻自破。现在提出的“电脑控制人脑”的担心也是没有根据的。他们说:“‘深蓝’与卡斯帕洛夫的较量实际上是两支专家队伍的较量:‘深蓝’的队伍里有国际象棋特级大师,卡斯帕洛夫的队伍里也有电脑专家。所谓人机大战实际上还是人与人的较量。”谭崇仁和许峰雄两位专家还指出,“深蓝”之所以获胜,主要依靠它具有极高的运算速度,能够在规定时间内,计算几十步棋;而棋王卡斯帕洛夫依靠他敏捷的大脑却只能计算几步棋。“根据美国教授Arpad Eto的研究,卡斯帕洛夫的棋力达到2800Eto等级,而精心设计的‘深蓝’(即IBM的As/6000SP大规模多用途并行处理机)已经高于这一等级。……(1997年)5月“深蓝”与卡斯帕洛夫下第一局时,其博弈能量并没有调到最高值。在第一局负于卡斯帕洛夫后,专家们把‘深蓝”的棋艺调高,在第二局中下出了令卡斯帕洛夫吃惊的‘妙招’,大大影响了世界棋王的情绪,为最终赢得比赛奠定了基础。”(见《科技日报》1997年9月24日)由此可见,“深蓝”的智慧是人赋予的,是“深蓝”队伍里的国际象棋特级大师们,把棋艺授予“深蓝”。“深蓝”只是按照大师们所编制的程序,以极高的运算速度计算每一步棋的得失,决定最有利的着法而已。从本质上说,“深蓝”并没有什么智慧,“甚至比最笨的人还笨。”它只是一种工具,在处理大量数据时比人脑好使。这好比一把尺子,比人能更准确地标示距离的长短,但它毕竟只是尺子而已。“深蓝”与卡斯帕洛夫之战不是人与电脑之战,而是一群利用先进工具的专家跟不利用工具的棋王之战。总而言之,“深蓝”本身并没有人类那种智慧,在这场所谓的“人机大战”中获胜,它所依靠的只不过是“算得快”的本领。

据报道,卫冕失败的棋王还不服气,希望与“深蓝”再决雌雄。但“深蓝”的设计者们却无心再战,见好就收。他们的意图是,研究“深蓝”的目的主要在于探索利用计算机并行处理方法解决问题的能力。并行处理方法在许多领域(例如导弹制导、药物设计、物理学、生物机械学、软件开发等等)都很有用。因此他们今后的研究重点将是超高性能计算机的应用,而不再是博弈了。

人机大战引起的轰动和对“深蓝”的评价到此可以画上一个句号了。这里读者可能会提出一个问题:有的计算机能识字、读书,是否和“深蓝”不同,已经具有一定的智能呢?要回答这个问题须先了解计算机识字的工作原理和过程,这正是本书所要讨论的问题,下面将会详细加以介绍。但是这里我们可以先给出答案:能识字的计算机和“深蓝”一样,也是按照人们事先安排好的程序来认字的。因此可以说,目前的计算机还没有像人类那样的智能,或者只能说,它只具有模拟或执行某些通常与人类智力有关的功能。通常把这种功能称为人工智能Artificial Intelligence, AI)。研制、创造一种“类脑计算机”,使它具有类似人类的智慧,是科学家,特别是信息科学技术工作者的理想或梦想,也是21世纪一个最富有挑战性的课题。目前已有的计算机的“智能”很差,有人说:“它比最笨的人还笨”!这个问题是否像“永动机”那样不可能解决,现在还没有科学的结论。但是如何使计算机具有更强的功能,能做更多跟通常人类智力有关的工作,则是完全可能的。现在我们已经教计算机能识字读书,能听、会写,能辨别气味、手势等等,相信一定能让它越来越聪明,这是没有疑问的。

 

 

1.2 机器是怎样识字的

机器认字的原理同我们查字典的方法很相似,机器中必须先有一本“字典”,机器认字时把要认识的字跟字典中所有的标准字符逐一比较,跟待识字符相同(或最相似)的标准字符,就是所需要的待识字符。

因此要让计算机能够识字,必须先在计算机中安装一部“字典”。计算机中的字典通常叫做“特征库”或“模板库”。

在机器中怎样建立“字典”呢?这是这本小册子所要讨论的最主要的问题。

早在20世纪20年代,西方就有人研究字符自动识别的问题。有文献可考的最早的机器字符识别系统是德国人G.Tausher的“阅读机”,他的发明于1929年在德国获得专利。美国人P.W.Handel也曾研制了类似的机器,叫做“统计机”,也获得了美国的专利。当时还没有像现在这样高超的电子技术,但光学和机械制造业却相当发达。因此他们采用光学和机械相结合的办法:用机械方法事先制造所有字符的掩膜。识别时,当待识字符的字形和某一标准字符的掩膜重合时,照射到掩膜上的光线完全被待识字符所遮掩,因而没有光线通过掩膜,映射到在它后面的用来显示两者匹配与否的光敏检测器。利用这种办法,机器就能自动识别印刷在纸上的字符。现在看来,这种阅读机相当笨拙,但识别字符的原理却具有普适意义。我们今天的光符阅读机(OCR)基本上还是根据这种匹配原理来识别字符的。由于电子科学技术的飞跃发展,60年代以后,人们已不再采用机械的方法,而是采用电子技术特别是计算机来识别字符。近10多年来,计算机字符自动识别的研究已有很大的进展,国内外已有多种产品问世,并在社会各界广泛应用。多年来科学家让机器能“读书识字”的理想已经基本上实现了。

1.1是机器认字的示意,其中的模板库通常叫做特征库或字典。建立字典的方法是:先将标准汉字库中已知的汉字输入计算机,逐一抽取能代表每一个字的特征,组成特征库(模板库)。这一过程叫做训练学习过程。机器认字时,</PGN0005.TXT/PGN>把待识汉字图形输入计算机后也抽取这个汉字的特征,然后把它跟特征库中每一个标准特征逐一比较,跟待识汉字特征相同(或最相似)的标准汉字就判定是待识汉字。这一过程叫做识别过程。计算机所采用的识别特征是决定系统性能的关键,如何选择、提取特征是本书的重点。这个问题下面将详细讨论。


1.3 汉字识别系统的分类

汉字识别系统通常分为手写汉字识别系统和印刷汉字识别系统两大类(图1.2)。按输入方式不同,手写汉字识别又可分为联机和脱机两种。联机手写汉字识别一般采用一块专用的与计算机连接的书写板,人在书写板上书写字符时,字符信号即时直接输入计算机。这种方法也叫做笔输入方式,是一种实时输入的方法。脱机手写字符系统用来识别写在纸张上的字符,它同印刷字符识别一样,需用光电转换器(如扫描仪或摄像机)把字符图形变为电信号,再输入计算机进行识别。这种识别装置有时叫做光符阅读器(optical character reader),简记为OCR。印刷的汉字和字符字形比较规范,识别比较容易,而手写字符的字形变化很大,有的字甚至人也很难辨识,计算机识别就更难。本着从易到难的原则,本书将先讨论联机手写汉字识别,再介绍脱机印刷汉字识别,然后扼要介绍脱机手写汉字识别的问题。脱机和联机两种方式在工作原理上是一样的,但技术上有重要的区别,希望读者注意。

1.4 对汉字识别系统的要求

汉字识别系统的作用是把汉字输入计算机。因此,对系统的基本要求是:

①能识别一定数量的汉字及标点符号。

②具有足够高的(正确)识别率和识别速度。从实用角度看:系统可靠性要高,价格要低廉,用户使用方便等等。

汉字识别系统所能识别的字符类总数是系统设计的基础和依据。这方面目前还没有统一的规定。我国1980年颁布的国家标准GB 2312-80《信息交换汉字编码字符集——基本集》(简称国标)第一级常用简体汉字共3755个,第二级有3008个,共6763个。香港和台湾省使用的繁体汉字有5401个,非常用繁体字有13094个。根据这些情况,目前我国研制的汉字识别系统的字量大体上分为三级:第一级主要包括国标第一级汉字3755个;第二级包括第一、二两级汉字共6763个,或国标一级汉字3755个和繁体字5401个;第三级的字数可扩大至1万个左右,包括国标两级字和繁体字,但根据实际需要和可能适当增删某些汉字,使之适合应用。此外实际文本还有标点符号、数码和拼音文字等,在系统设计容量时也应考虑在内。

对(正确)识别率和识别速度的要求,也很难有一种统一的、严格的标准,主要根据实际应用的需要来确定。但是作为一种输入手段,它的性能应该可以和其他输入手段(如人工键入)相比拟。目前专业人员操作的汉字键入错字率约为10-210-3的量级,键入速度最高达250字/分,平均速度约在50字/分。作为参考,这些指标应该是汉字识别系统必须达到的最低要求,在某些需要大量输入的场合(如数据库的建立),对识别系统性能的要求还应更高。

印刷汉字识别系统的识别率和印刷质量有密切关系。目前我国的印刷汉字识别系统,对于印刷质量很好的文件,识别率可高达99%,一般印刷物也可达98%左右。手写汉字的字形变化较大,正确识别比较困难,因而识别率较低:联机手写汉字识别系统的“首字(第一个字)识别率”一般在90%左右,脱机识别率则低于90%。这样的识别率不能满足实用的要求,因而通常还采用“前十字识别率”来表示识别系统的性能。这种方法同键盘键入法相似,对某一个待识字进行识别时,计算机给出十个最可能的候选字,这些候选字中含有待识字的概率,叫做“前十字识别率”。在联机手写汉字识别时,用户可以用鼠标从这十个字中挑出待识字作为输出。脱机手写汉字识别时,计算机可以把这十个字作为候选字,再用“单字识别”模块对这些候选字进一步加以判别,给出待识字。由于手写字的字形变化很大,目前一般的脱机手写汉字的单字识别率都不高,大多在95%以下,难以广泛应用。

计算机在对某一待识字进行识别时,有时难于作出判断。对于这种待识字可以作“拒识”处理。在识别系统中采用对那些难以识别的字符加以拒识,可以降低系统的错识率。在一些要求识别率很高的场合,采用这种办法可以减少差错。例如在邮局的信函分拣中,有的邮政编码写得很潦草,计算机辨认这种信函很容易出错。对于这种信函先作“拒识”处理,然后再用人工分拣的办法,可以保证该信函能正确地寄给收信人。

识别率、误识率和拒识率是识别系统的三个性能指标,它们之和应该等于100%。

1.5 汉字的基本知识

汉字集合的字量大、字形复杂,这是汉字识别之所以十分困难的根本原因。为了使读者对这个问题有更具体的了解,下面根据汉字集合的特点,介绍一些有关汉字的常识。

1)字量大

按我国文字工作委员会颁布的汉字基本集GB 2312-80的标准,第一级汉字为3755个,第二级为3008个,总计为6763个。因此我国的汉字识别系统至少应能识别最常用的3755个汉字,如果考虑系统还能识别次常用的3008个汉字,并能用于香港和台湾等地区,则识别字量应是6763个简体字和5401个繁体字之总和,共约1万多个汉字。也就是说,识别系统的“字典”至少必须有1万多个汉字以及相应的标点、符号和一定数量的英、日文字母,才能满足实际应用的需要。

实际上,汉字识别系统的字典中标准模板的数目,比上述所说的汉字字量还要多。这是因为:印刷汉字有多种字体,常用的有宋体、仿宋体、黑体和楷体,以及魏碑、小姚及其变体与变形等等。不同字体的同一个汉字的拓扑结构虽然相同,但它们的点阵图形却不完全一样。目前计算机的智能不高,往往不能适应这种变化,难以直接从拓扑结构相同与否来确定它们是否是同一个汉字,而把不同字体的同一个汉字看做是不同的字。实践表明,在各种印刷字体中,楷体汉字的点阵图形和其他字体的差别最大,能兼容宋体和黑体的</PGN0010.TXT/PGN>标准模板,用来识别楷体汉字,往往出现错误。因此在多体汉字识别系统中,不同字体的同一个汉字,一般需要采用几种不同的标准模板,才能保证系统有足够高的识别率。因而模板库的标准模板数应远多于上述国标的汉字的字数,这相当于大大增加了识别系统所能识别的字量。

计算机不能辨别不同字体的问题是当前计算机的弱点。现代计算机虽然具有极强的计算能力和极高的计算速度,但智能并不太高。人能够迅速辨识的事物,计算机往往显得十分笨拙,需要“反复迭代”,才能给出正确的结果。有人认为:这是因为计算机只能进行逻辑思维,而不像人那样能直观地进行形象思维的缘故。至于如何使计算机能够具有形象思维的能力,目前众说纷纭,莫衷一是。有兴趣的读者不妨加以研究。

汉字识别的另一个困难是字形复杂:表现为笔画多、字根多、字形多和相似字多。

2)笔画多

笔画是指在写楷书汉字时,从落笔到抬笔之间笔尖所描绘的轨迹,是构成楷书汉字字形的最少的连笔单位。

汉字的字形有的十分简单,只有一画,如“一、乙”,有的字形极其复杂,笔画最多的汉字有36画,如“齉”字。这种生僻字现在已经不用,但笔画多的汉字还为数不少。图1.3是对国标汉字基本集6763个汉字笔画的统计结果。汉字平均笔画数约为13画,多于10画(包括10画)的汉字字数约为6000个,约占总字数的88.7%。笔画多、字形结构复杂,识别困难程度可以想象。

横、竖、撇、捺是构成汉字的四种基本笔画。这四种笔画中,横笔占39.51%,竖笔占33.94%,撇占18.77%,捺占9.78%。由于横竖笔共占73.45%,它们也比较容易提取,因而在识别系统中往往采用它们作为识别特征。

3)字根多

字根也称为部件,是一个居于笔画和单字之间的中间层次,相当于西文拼音文字的字母。把若干个字根按照一定规则加以组合就可构成方块汉字。

根据国标《信息处理用GB 13000.1字符集》关于汉字部件规范的定义:汉字部件(字根)是由笔画组成的具有组配汉字功能的构字单位。

我国语言文字工作委员会对GB 13000.1字符集中的20902个汉字逐个进行拆分、归纳与统计后,制定了一个《汉</PGN0012.TXT/PGN>字基础部件表》,该表共有560个可供独立使用的部件。这个规范对中文信息处理,特别是对汉字键盘输入方法具有规范作用,对印刷汉字识别的结构识别法也有参考意义。不过上述560种部件并不都适用于汉字自动识别。通常汉字识别研究者大都根据自己的经验,从中选用若干部件做为识别特征。这种部件的结构不宜过于复杂,否则难于提取,但也不宜过于简单,否则部件的数目太多,不便于组字。表1.1是30种常用字根及其出现的使用频度。

 

4)字形复杂

把字根组成汉字有一定的规律和格式。

按照组成单字的字根数目,单字分为单根字、二根字、三根字等等。按照字根所处的位置,单字又可分为若干不同的字形,如独体型、左右型、上下型、内外型和混合型等,分别举例如下:

独体型:田、月、母、聿、艮、中

左右型:伸、张、肌、湘、彬、明

上下型:男、昌、曼、笑、贯、李

内外型:回、国、圆、冈、区、囚

混合型:沿、型、盟、囵、司、茄

字形是方块汉字特有的构字方法。组成拼音文字的字母顺序从左至右依次排列,组成单字,所以拼音文字是由字母组成的字母串或字母序列。方块汉字的组成方法跟拼音文字不同,每个汉字占有一个二维空间,该空间可划分为若干个子空间,字根按照一定规律分布在各个子空间中,形成不同的字形。可以看出,这种构字方式相当复杂。字形较多,给汉字识别,无论是联机识别或脱机识别,都带来不少麻烦。

5)字体多

汉字的字体可分为手写体和印刷体两大类。手写体又可分为楷书、行书和草书等,印刷体则主要有楷体、宋体、仿宋体和黑体四种(图1.4)。无论是手写体或印刷体都以楷书(也称正楷)作为标准和规范。

近年来,由于计算机在我国广泛应用,又出现一种新的字体(姑且名之为计算机体)。这种字体仍以楷书为基础,但种类繁多。字形发生器的研制工作者力求字形美观、开销少、操作方便,因而同一个字的点阵图形差异较大。这种新字体的出现,对印刷汉字识别产生了一定的影响。

从识别角度看,印刷体和手写汉字的字体多,是一个十分不利的因素。这是因为,不同字体的同一个单字,除了拓扑结构基本相同(不一定完全相同)外,它们的字形、偏旁部首跟主体部分的比例、位置,以及笔画的形态、长短、粗细和位置等等,都有一定的差别。总起来说,不同字体的同一个字,其点阵图形是不一样的。因而用计算机自动识别时,往往不能把它们看做是相同的字,这相当于使被识别的汉字字量大大增加,或者使用于识别的特征离散度增大,使识别率下降。这是汉字识别一个必须重视的突出的问题。

6)相似字多

在常用的4000多个汉字中,约有10%的字形十分相似。有的只差一“点”或差一“画”,甚至少了一个“勾”,其意义就完全不同。例如“王、主、犬”,“千、干、于”,“析、折、拆”,“又、叉、义”,“冶、治”,“准、淮”,“已、己、巳”,“勾、句”等等,不胜枚举。这些相似字很容易混淆,正确识别起来比较困难。在设计汉字识别系统的识别特征时,对这些相似字的识别必须给予特别注意。

1.6 关于模式识别的讨论

上面各节扼要介绍了计算机汉字识别的原理和困难,以及系统的性能评价等问题。这些讨论是十分粗浅的。特别是关于计算机识别汉字(和各种字符)的原理,我们只用浅显直观的方法,做了概念性的介绍。读者一定会提出如下的问题:识别系统中的“字典”(特征库)和日常用的字典是不是一样?有什么区别?为什么又把它叫做“(标准)特征库”?什么是“特征”,如何得到用于识别的特征?它跟识别系统的性能有什么关系?待识别的汉字(或字符)怎样同系统中的特征相比较?如何计算它们的“相似度”(或距离)等等。

这些问题都很重要,是任何识别系统都应回答并且必须很好解决的问题,也是保证系统性能足够好的关键。对这些问题的研究,在学术上很重要,在实用方面也很有意义。

要回答这些问题,最好从“模式识别”这门学科讲起。

1)什么是模式识别

首先让我们来说明“模式”和“模式识别”的涵义。

人们在日常生活或工作时,常常要寻找某些事物(或现象)同其他事物(或现象)的相似之处,并根据一定的目的把这些相似但又不完全相同的事物(或现象)组成一类。虽然同类事物(或现象)的本质在一定意义上是相同的,但它们在某些方面不完全一样。这种情形随时随处都存在。汉字就是一个典型的例子。以“”字为例,它的字形有很多种,手写的“呵”字有楷书、行书和草书,印刷体的“呵”字则有仿宋体、宋体、黑体等等。各种写法的“呵”字的笔画有粗有细、字形有的端正,有的潦草,但都是“呵”字这一类。在学术上通常把各个具体的不同写法的字叫做样本,而把属于同一类的各个样本的集合叫做模式。样本是具体的事物(或现象),模式则是抽象的概念。我国几千年前就有“白马非马”的名句,“马”是抽象的概念,白马则是具体的那一匹白色的马。样本和模式这两个名词在模式识别的书本上经常会见到。但有人有时对它们不加区别,混同使用。但两者的含义从文章上下文是可以弄清楚的。

所谓“模式识别”,通常是指“用计算机对一组事件或过程(即样本)进行鉴别和分类。所识别的事件或过程可以是文字、声音、图像等具体对象,也可以是状态、程度等抽象对象”。“汉字识别”是模式识别的一个分支,其作用就是用计算机来认字,目的是把汉字输入计算机,以便作进一步处理。

2)模式识别的方法

下面再谈谈模式识别的方法。

模式识别方法基本上分为统计决策法结构(句法)识别法两大类。

①结构识别法。

结构识别法是以同类模式具有相似结构为基础的识别方法。所谓结构是指组成一个模式的基本单元(简称基元)之间的关系。例如,拼音文字的基元是字母,若干个字母按一定规律组成一个单字。在识别某一个单字时,如果能判别组成这个字的各个字母以及它们的(结构)关系,就可以识别这个字。基于这种原理,拼音文字的识别系统中的“字典”应包括字母,以及由字母组成单字的规律。在对某一个单字进行识别时,则应先提取构成这个单字的字母并分析它的结构,然后将它跟字典中所有已知单字的基元及其结构关系逐个加以比较,就可以确定待识单字和哪一个已知单字属于同</PGN0017.TXT/PGN>一类别。这种识别方法跟英语句子的语法分析相似,因而有时也称之为“句法识别法”。

②统计决策法。

模式识别的另一种方法是统计决策法。这是以同类模式具有相同属性为基础的识别方法。用来描述事物属性的参量叫做特征,它可以通过对模式的多个样本的测量值进行统计分析后按一定准则来提取。例如:在汉字识别系统中,我们可以把每个汉字的图形分为若干小方块(图1.5),然后统计每一小方块中的黑像素,构成一个多维特征矢量,作为该汉字的特征。必须注意的是:在选择特征时,用于代表各类模式的特征应该把同类模式的各个样本聚集在一起,而使不同类模式的样本尽量分开,以保证识别系统能具有足够高的识别率。

上述两种识别方法各有特点。结构法比较直观,能较好反映事物的结构特性;问题是基元的提取很不容易,各基元的关系也比较复杂,抗干扰性能也较差。汉字的结构复杂、字数又多,采用结构法很难得到很好的效果。统计法利用计算机来抽取特征,比较方便,抗干扰性能较好;缺点是没有充分利用模式的结构特性。近10多年来我们把这两种识别方法结合起来,派生出各种行之有效的结构法同统计法相结合的模式识别算法,取得了很好的效果。

20多年来,人工神经网络的研究取得了很大的进展。理论和实践都表明,人工神经网络特别适用于模式识别。由于人工神经网络的工作机理与冯·诺依曼计算机有所不同,因此有的学者把人工神经网络作为模式识别的第三种方法。除此之外,有的学者还成功地把模糊集合的概念和知识推理方法引入到模式识别技术中。各种方法的结合已成为模式识别今后发展的一个重要方向。本书以科学普及为主旨,对此不能详细论述,只能在有关章节中适当加以介绍,使读者对此有所了解。

1.7 汉字识别的关键问题

前已述及,汉字识别是模式识别的一个分支。其特点是类别多、字形复杂,是一种超多类的模式识别,也是学术界公认较难解决的课题之一。

雷达信号检测是较早提出的、最为简单的一种模式识别。早期的雷达系统只需判定是否有目标存在,即只识别“有、无”两类问题。近几十年来模式识别已广泛用于各个方面,如遥感图像分类、计算机视觉等等,而且还建立了比较严密的理论,如统计决策理论和句法(结构)模式识别理论。这些理论和方法用来解决一般模式识别问题、特别是小类别的识别问题时卓有成效。但对于像汉字集合这样的超多类模式集合,上述理论就显得无能为力,难以解决实际中出现的各种问题。在汉字识别研究初期,有的学者对问题的性质认识不足,在相当长时间内,研究成果远不能达到实际应用所要求的指标,原因之一可能是,有的研究工作只采用少量汉字为对象来探讨识别汉字的方法,但所得的结论往往不能推广用到整个常用的汉字集合,不能适应识别几千个汉字的要求。这似乎符合哲学上“量变到质变”的规律:被识别的模式数量由通常的几类、几十类骤增至几千类,甚至近万类,其复杂程度指数性地增加,类似于“信息爆炸”,如果没有新的理论或方法,则问题很难得到满意的解决。

方块汉字是象形文字,由笔画所构成,具有较严格的拓扑结构,包含着丰富的结构信息。因此采用以笔画为基元,用笔画之间的关系来建立汉字模型,在理论上是成立的。但汉字结构十分复杂,简单地采用这种方法来解决实际问题时困难很多。不少研究工作结果表明,结构识别法的抗干扰能力弱,鲁棒性差。统计识别法恰好相反,它具有较高的抗干扰性能,也便于计算机进行处理。两者结合将是解决间题的正确方向。20世纪80年代以来,我国和日本学者在这方面做了不少工作,分别提出若干统计法与结构法相结合的新算法,选用了一些分类能力强、抗畸变和干扰性能好的特征,基本上解决了汉字识别问题,包括多字体多字号混合排印的印刷汉字识别,以及对书写限制较少的联机手写汉字识别问题,并且在实际上广泛应用,解决了汉字自动录入这只“拦路虎”,消除了方块汉字中难以和计算机结合的思想障碍。目前在市场上销售的汉字识别系统能识别的字数,包括简体3755个和繁体5401个,总共近1万个汉字;有的系统还能识别汉英或汉日混排的材料,并具有各种表格处理功能。联机手写汉字识别(笔输入)系统也已得到广泛应用。可以说,汉字识别的基本问题已经由我国科技人员解决了。

抱歉!评论已关闭.