图像识别技术是数字图像处理和模式识别技术相结合的产物,是一门新兴的应用学科。数字图像处理则是指利用计算机或其他数字设备对图像信息进行各种加工和处理,以满足目标识别需求的基础行为。模式识别研究如何用机器来实现人(及某些动物)对事物的学习、识别和判断能力,因而是以满足目标识别的判断行为。在实际应用中需要将这两个学科技术结合应用,相辅相成、相互促进和发展。
为了模拟人类图像识别活动,人们提出了不同的图像识别模型。例如,模板匹配模型。这种模型认为,识别图像中的某个物体,必须在过去的经验中有这个图像对物体的记忆模式,又叫模板,当前的刺激如果能与大脑中的模板相匹配,这个物体也就被识别了。
图像识别的基本过程是抽取代表未知样本模式的本质表达形式(如各种特征)和预先存储在机器中的标准模式表达形式的集合(称为字典)逐一匹配,用一定的准则进行判别,在机器存储的标准模式表达形式的集合中,找出最接近输入样本子模式的表达形式,该表达模式对应的类别就是识别结果。因此,图像识别技术是一种从大量信息和数据出发,在已有经验和认识的基础上,利用计算机和数学推理的方法自动完成图像中物体的识别和评价的过程。
这种采用模板匹配模型的方法就是模式识别。模式识别方法可以大致分为结构模式识别、统计模式识别及两者的结合。结构模式识别利用结构信息的方法进行识别,类似一个逻辑推理器。其主要优点在于适应性强,区分相似能力强。但是,在实际应用中,面临着抗干扰能力差、描述结构复杂、匹配过程的复杂度高等问题。在识别领域中,纯结构模式识别方法已经逐渐衰落。统计模式识别提取待识别模式的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。统计模式识别是将物体点阵看作一个整体,其所用的特征是从这个整体上经过大量的统计而得到的。统计特征的特点是抗干扰性强,匹配与分类的算法简单,易于实现。
结构模式识别与统计模式识别各有优缺点,随着对于两种方法认识的深入,统计识别与结构识别两种方法正在逐渐融合。网格化特征就是这种结合的产物。图像被均匀地或非均匀地划分为若干区域,称之为“网格”。在每一个网格内寻找各种特征,如笔画点与背景点的比例;交叉点和笔画端点的个数;细化后的笔画的长度、网格部分的笔画密度等。特征的统计以网格为单位,即使个别点的统计有误差也不会造成大的影响,增强了特征的抗干扰性。这种方法正得到日益广泛的应用。
图像识别可简单地分为两个过程:学习(训练)过程和识别过程。学习过程就是让计算机通过样本学习或训练,提取出每个已知类别的模式的特征并存储起来,作为标准特征库,即模板库。识别过程中,计算机首先按学习过程中的特征提取方法,提取出输入模式的特征,然后再与标准特征库中的特征进行匹配,匹配程度最大的模式类别即为识别结果。前者是对样本进行特征选择,构建特征库,寻找分类的规律;后者是根据分类规律对未知样本集进行分类和识别。
图像识别过程包括图像采集、图像预处理、特征提取、模式匹配4个环节。一个典型的识别过程如图1-1所示,下面简要论述其工作流程。
图1-1 单模态生物识别过程
首先,通过高清摄像机、扫描仪或其他图像采集仪器采集图像的原始信息。图像的采集过程中,由于设备的机械原因或是其他人为因素造成的图像的尺寸、角度、格式、光照强度等的不同,会对以后的操作产生较大的影响,所以要对采集来的原始图像进行预处理操作。图像预处理的作用可以总结为:采用某种手段将图像信息进行归一化,以便于后续处理工作。图像特征提取部分的作用是提取出最能表征一个物体的特征信息,并将其转变成特征向量或矩阵的形式。模式匹配是指系统用待测图像的特征与特征库中的信息进行比对,通过选择合适的分类器达到识别的目的。
如果需要计算机去认识这些已经成为文字的东西,就需要OCR技术。比起联机字符识别来,OCR不要求书写者在特定输入设备上书写,它可以与平常一样书写,所以OCR的应用更为广泛。一个典型字符识别过程包括图像采集、图像预处理、字符特征提取和字符识别4个环节。
1)图像采集
OCR所使用的输入设备可以是任何一种图像采集设备,如CCD、扫描仪、数字相机等。通过使用这类采集设备,OCR系统将书写者已写好的文字作为图像输入到计算机中,然后由计算机去识别。由于OCR的输入只是简单的一幅图像,它就不能像联机输入那样比较容易地从物理特性上获得字符笔画的顺序信息。因此,OCR是一个更具挑战性的问题。
2)图像预处理
图像预处理主要包括二值化、噪声去除、倾斜校正、版面分析、字符切割等操作。
(1)二值化:对于摄像头拍摄的图片,大多数是彩色图像。彩色图像所含的信息量巨大,对于图片的内容,我们可以简单地分为前景与背景。为了让计算机更快和更好地识别文字,需要先对彩色图像进行处理,使图片只有前景信息与背景信息。可以简单地定义前景信息为黑色、背景信息为白色,这就是图像二值化。
(2)噪声去除:对于不同的文档,对噪声的定义可以不同。根据噪声的特征进行去噪,就叫作噪声去除。
(3)倾斜校正:由于一般用户,在拍照文档时,都比较随意。因此,拍照出来的图片不可避免地产生倾斜,这就需要文字识别软件进行校正。
(4)版面分析:将文档图片分段落和分行的过程就叫作版面分析。由于实际文档的多样性和复杂性。因此目前还没有一个固定的和最优的切割模型。
(5)字符切割:由于拍照条件的限制,经常造成字符粘连和断笔,因此需要文字识别软件有字符切割的功能。
3)字符特征提取
由于文字笔画的粗细、断笔、粘连、旋转等因素的影响,极大地影响了特征提取的难度。
4)字符识别
采用模式识别方法进行字符识别,最常用的方法是模板匹配法。
基于视觉的生物识别系统利用视觉传感器采集生物图像,如人脸、指纹、虹膜、步态等,是一种根据人的生理特征或行为特征来识别人身份的模式识别系统。基于视觉的生物识别系统仍然包括图像采集、图像预处理、特征提取和身份识别4个环节。
1)图像采集
用于测定和量化生物特征。
2)图像预处理
负责对原始数据进行处理,包括图像增强、去背景、目标定位、分割、归一化等措施,为完成特征提取和模式匹配打下基础。
3)特征提取
如何有效地描述丰富的人体生物特征,并采用合适的方法来提取特征是生物识别的关键部分。
4)身份识别
决策部分则根据模式匹配的结果做出最终的判决,即确定使用者的身份。所采用的策略往往取决于系统在安全性和实用性等方面的要求。