图像识别与项目实践——VC++、MATLAB技术实现最新章节_杨淑莹著

1.6　印刷体汉字识别

1．研究意义

汉字识别是用计算机自动辨识印刷在纸上和人写在纸（或者介质）上的汉字。汉字识别是一个图像识别过程，它通过计算机对一个汉字点阵图像进行分析与识别，最后从已有的汉字集合中选出与其匹配的汉字。根据输入到计算机的汉字的产生方式，汉字识别可以分为印刷体汉字识别、联机手写体汉字识别和脱机手写体汉字识别。印刷体汉字识别的识别率是最高的，这是因为印刷体汉字具有笔画标准、字迹清晰和字体规范等优点。对于印刷体汉字来说不存在笔顺的信息。因此，利用笔画的特征来识别就会存在较大的误差。

现如今，汉字印刷材料的数量大大增加，一些专业单位（如新闻社、图书馆、古籍出版社、档案馆等）所接触的印刷材料更是浩如烟海，信息量均是爆炸性增长，毕竟阅读印刷材料更为符合人的自然阅读习惯。然而，汉字是非字母化和非拼音化的文字。因此，如何将汉字快速高效地输入计算机是信息处理的一个关键问题，也是关系到计算机技术能否在我国真正普及的关键问题，更是传播与弘扬中华民族悠久历史文化的关键问题。目前，汉字识别技术已经呈现出了广泛的应用前景，它主要应用在中文信息处理、办公室自动化、机器翻译和人工智能等高技术领域。汉字识别是模式识别的重要应用领域，也是光学字符识别OCR的重要组成部分。

印刷体文字的识别可以说很早就成为人们的梦想，早在1929年，Taushek就在德国获得了一项有关OCR的专利。欧美国家为了将浩如烟海和与日俱增的大量报纸杂志、文件资料和单据报表等文字材料输入计算机进行信息处理，从20世纪50年代就开始了西文OCR技术的研究，以便代替人工键盘输入。

印刷体汉字识别最早可以追溯到20世纪60年代。1966年，IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文，在这篇论文中他们利用简单的模板匹配法识别了1000个印刷体汉字。20世纪70年代以来，日本学者做了许多工作，其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个汉字的单体印刷汉字识别系统。20世纪80年代初期，日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统，代表了当时汉字识别的最高水平。此外，日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。这些系统在方法上大都采用基于K-L数字变换的匹配方案，使用了大量的专用硬件，其设备有的相当于小型机甚至大型机，价格极其昂贵，没有得到广泛应用。

我国对印刷体汉字识别的研究始于20世纪70年代末和20世纪80年代初，大致可以分为3个阶段。

（1）第一阶段从20世纪70年代末期到20世纪80年代末期，主要是算法和方案的探索。

（2）第二阶段是20世纪90年代初期，中文OCR由实验室走向市场，初步实用。

（3）第三阶段也就是目前，主要是印刷汉字识别技术和系统性能的提高，包括汉英双语混排识别率的提高和稳健性的增强。

同国外相比，我国的印刷体汉字识别研究起步较晚。但由于我国政府对汉字自动识别输入的研究从20世纪80年代开始给予了充分的重视和支持，经过科研人员十多年的辛勤努力，印刷体汉字识别技术的发展和应用，有了长足进步，从简单的单体识别发展到多种字体混排的多体识别、从中文印刷材料的识别发展到中英混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别，解决了多体多字号混排文本的识别问题，对于简单的版面可以进行有效的定置分析。同时，汉字识别率已达到了98%以上。

2．识别系统的构成

汉字识别属于模式识别和人工智能的范畴，它涉及图像处理和模式识别、人工智能、形式语言和自动机、模糊数学等众多学科，是一门综合性的技术。和其他图像识别一样，汉字识别的基本思想也是匹配判别，抽取代表未知汉字模式本质的各种特征，和预先存储在机器中的标准汉字模式表达形式的集合（称为字典）逐一匹配，用一定的准则进行判别。在机器存储的标准汉字模式表达形式的集合中，找出最接近输入子模式的表达形式，该表达模式对应的字就是识别结果。

印刷体汉字识别的主要步骤是输入图像、图像预处理、特征提取、匹配识别。下面对各步骤做简要叙述。

1）输入图像

首先需要将印刷在纸面上的汉字经光电转换设备转换成电信号，形成多灰度级的数字信号，输入给计算机处理。由于印刷质量不同、纸的光洁度不同，以及输入设备分辨率、线性度、光学畸变等影响，使扫描输入的编码图像质量有很大差别，加大了识别的难度。

2）图像预处理

为了改善图像质量，便于后续处理，技术上需要对图像进行预处理。预处理的内容和要求取决于识别方法，一般包括增强、二值化、平滑、行与字切分，以及规范化、细化和分割等。可以采用直方图做灰度的均衡化处理进行图像增强。二值化的关键在于阈值选择，一般的二值化方法有整体阈值二值化、局部阈值二值化和动态阈值二值化等。为了去掉孤立的噪声、不相关的背景点和干扰，平滑笔画边缘，需要进行平滑预处理。而且，需要把每个汉字从一页文字中分离出来，这就是行切分和字切分需要完成的任务。同时，需要对文字尺寸进行统一大小、文字位置（旋转、平移）纠正、文字笔画粗细变换等文字图形规范化的处理。汉字模式成为规范化的二值数字点阵信息，其中 “1”反映了汉字笔画部分，“0”表示文字的空白背景。因为文字特征信息主要集中在文字骨架上，所以需要细化处理，将二值化文字点阵逐层剥去轮廓边缘上的点，变成笔画宽度只有一个比特的文字骨架图像。细化后的文字骨架既保留了原文字绝大部分的特征，又有利于特征抽取。而且，降低存储量。最后将单个文字目标从背景中清晰地划分出来。

3）特征提取

印刷体汉字识别中，特征提取是非常重要的环节。提取到稳定且有效的特征是识别成功的关键。

4）匹配识别

与存储在字典中的已知标准汉字表达形式进行匹配判别，就可以识别出输入的未知汉字。

3．识别难点

当今汉字识别技术遇到了汉字字量大、汉字结构复杂、字体字号多，以及相似字多等一些问题。这也使得汉字识别难度远远大于其他语言文字识别，具体表现在以下几点。

（1）由于我国汉字集中包含了大量的相似字，这些相似字不仅在形状上和构造上相似，而且在笔画上也相近。例如，“大”和“犬”两个字只相差一个点，常用的特征提取算法根本无法区分这两个字的不同之处。

（2）我国第一级常用汉字共有3755个，第二级有3008个，两级共有6763个汉字，汉字字量特别大，类别繁多。其中，常用汉字有3000～4000个。一个汉字识别系统至少要识别这些常用汉字才能满足需求，才具有实际应用价值。由于汉字样本数量众多，若想提高识别率和降低识别速度，从而导致汉字识别系统面临严峻的考验。

（3）汉字是非字母化的，不同于拼音字母文字。与世界上常用的其他民族文字相比，汉字的结构是最为复杂的。汉字可以看成由笔画和部首的不同排列组合构成了表达不同含义的结构异常复杂的汉字字符。汉字结构的复杂也可以用笔画数来描述，笔画数的变化和分布也说明了汉字结构的复杂程度。不同的构成方法具备不同的构字规律，这对采用统一标准处理如此大样本的汉字集来说是一大困难。

（4）我国印刷体汉字种类有超过一百种之多，印刷体汉字的字号繁多，其中主要以宋体、黑体、楷体和仿宋体为主，其他多为这4种字体的衍生字体。此外，同一个字的不同字体即使拓扑结构大致相同，但字形点阵仍有很大差别，如笔画的粗细、长短、位置及姿态等，各个部件（如偏旁、部首与主体）的大小比例与位置也有所变异。这给汉字识别也带来了一定的困难。

（5）如何确定表达待识别汉字模式的最佳特征，如何进行特征匹配，从而进行高效和快速的识别，是汉字识别技术的关键所在。

1.6 印刷体汉字识别

1．研究意义

2．识别系统的构成

3．识别难点

1.6　印刷体汉字识别