物联网概论第3版最新章节_韩毅刚著

3.6 其他自动识别技术

条码识别、二维码识别、RFID和NFC等识别技术是目前物联网应用比较广泛的自动识别技术，除此之外，磁卡识别、IC卡识别、语音识别、光学字符识别和生物识别等也在人们的日常生活中占据着重要地位。

3.6.1 卡识别

卡识别技术是一种常见的自动识别技术，比较典型的是磁卡识别和IC卡识别技术。其中，磁卡属于磁存储器识别技术，IC卡属于电存储器识别技术。

1.磁卡识别技术

磁卡是利用磁性载体记录信息，用来标识身份或其他用途的卡片，它出现于20世纪70年代，伴随着ATM的出现而首先被应用于银行业。磁卡的类型有很多种，根据磁卡的抗磁性可分为一般抗磁力卡和高抗磁力卡，根据磁性材料的分布又分为磁条型和全涂磁型。磁条型磁卡由磁条和基片组成；全涂磁型磁卡则是将磁性材料涂满整个基片。

磁卡读写器由磁头、电磁体（称为消磁器）、编码解码电路和指示灯等几个部件组成。读写器读取磁卡信息时，磁卡以一定的速度通过装有线圈的工作磁头，磁卡的外部磁感线切割线圈，在线圈中产生感应电动势，从而传输了被记录的信号。解码器识读到这种磁性变换，并将它们转换成相应的数字，再通过读写器与计算机之间的接口将数据传输给计算机。

磁卡的优点是具有现场改写数据的能力，缺点是磁卡容易磨损、断裂和消磁，目前已逐渐被IC卡取代。

2.IC卡识别技术

集成电路卡（Integrated Circuit Card，IC卡）的核心部件是集成电路芯片，芯片中包括了存储器、译码电路、接口驱动电路、逻辑加密控制电路甚至微处理器单元等各种功能电路。IC卡的种类有很多，如饭卡、购电（气）卡和手机SIM卡等。根据不同的标准，IC卡可以有以下两种分类方式。

1）根据卡中所镶嵌的集成电路芯片的不同，IC卡可以分成3大类：存储器卡、逻辑加密卡和智能卡。

存储器卡的集成电路芯片主要为电可擦除可编程只读存储器（EEPROM）或者闪存。存储器卡不能处理信息，只作为简单的存储设备，可作为磁卡应用场合的替代品，产品有Atmel公司的EEPROM卡等。

逻辑加密卡中的集成电路具有安全控制逻辑，采用ROM、PROM和EEPROM等存储技术，适用于需要保密但对安全性要求不是太高的场合，如电话卡、上网卡和停车卡等小额消费场合。Atmel的AT88SC200、飞利浦的PC2042及西门子的SLE4418/4428/4432/4442等都属于逻辑加密卡。

智能卡采用微处理器芯片作为卡芯，并包含EEPROM、随机存储器RAM，以及固化在只读存储器ROM中的片内操作系统COS。智能卡属于卡上单片机系统，可以采用DES、RSA等加密对数据进行保护，防止伪造。智能卡多用于对数据安全保密性特别敏感的场合，如信用卡、手机SIM卡等。

2）根据IC卡上数据的读写方法可分为两种：接触式IC卡和非接触式IC卡。

接触形IC卡是一种与信用卡一般大小的塑料卡片，在固定位置嵌入了一个集成电路芯片。其表面可以看到一个方形的镀金接口，共有8个或6个金属触点，用于与读写器接触。因此进行读写操作时必须将IC卡插入读写器，读写完毕，卡片自动弹出，或人为抽出。接触式IC卡刷卡相对慢，但可靠性高，多用于存储信息量大、读写操作复杂的场合。

非接触式IC卡由集成电路芯片、感应天线和基片组成，芯片和天线完全密封在基片中，无外露部分。从工作原理上看，非接触式IC卡实质上是RFID技术和IC卡技术相结合的产物，结束了无源和免接触这一难题，因此被广泛应用于身份识别、公共交通自动售票系统和电子货币等多个领域。

3.6.2 语音识别

语音识别技术开始于20世纪50年代，其目标是将人类语音中的词汇内容转换为计算机可识别的数据。语音识别技术并非一定要把说出的语音转换为字典词汇，在某些场合只要转换为一种计算机可以识别的形式就可以了，典型的情况是使用语音开启某种行为，如组织某种文件、发出某种命令或开始对某种活动录音。语音识别技术是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及生理学、心理学、语言学、计算机科学及信号处理等诸多领域，甚至还涉及人的体态语言（如人在说话时的表情、手势等行为动作），需要的技术包括信号处理、模式识别、概率论和信息论、发声机理和听觉机理，以及人工智能等。

1.语音识别的分类

语音识别系统按照不同的角度、不同的应用范围、不同的性能要求会有不同的系统设计和实现，也会有不同的分类。

1）从要识别的单位考虑，也是对说话人说话方式的要求，可以将语音识别系统分为3类：孤立词语音识别系统、连接词语音识别系统和连续语音识别系统。孤立词语音识别系统识别的单元为字、词或短语，这些单元组成可识别的词汇表，每个单元都通过训练建立一个标准模板。孤立词识别系统要求输入每个词后要停顿。连接词语音识别系统以比较少的词汇为对象，能够完全识别每一个词。识别的词汇表和模型也是字、词或短语。连接词识别系统要求每个词都清楚发音，可以出现少量的连音现象。连续语音识别系统以自然流利的连续语音作为输入，允许大量连音和变音出现。

2）从说话者与识别系统的相关性考虑，可以将语音识别系统分为3类：特定人语音识别系统、非特定人语音系统和多人的识别系统。特定人语音识别系统仅考虑对专人的话音进行识别，如标准普通话。非特定人语音系统识别的语音与人无关，通常要用大量不同人的语音数据库对识别系统进行训练。多人的识别系统通常能识别一组人的语音，或者成为特定组的语音识别系统，该系统仅要求针对要识别的那组人的语音进行训练。

3）按照词汇量大小，可以将识别系统分为小、中、大3种词汇量语音识别系统。每个语音识别系统都必须有一个词汇表，规定了识别系统所要识别的词条。词条越多，发音相同或相似的就越多，误识率也就越高。小词汇量语音识别系统通常包括几十个词。中等词汇量的语音识别系统通常包括几百到上千个词。大词汇量语音识别系统通常包括几千到几万个词。

4）按识别的方法分，语音识别分为3种：基于模板匹配的方法、基于隐马尔可夫模型的方法，以及利用人工神经网络的方法。

基于模板匹配的方法首先要通过学习获得语音的模式，将它们做成语音特征模板存储起来，在识别时，将语音与模板的参数一一进行匹配，选择出在一定准则下的最优匹配模板。模板匹配识别的实现较为容易，信息量小，而且只对特定人语音识别有较好的识别性能，因此一般用于较简单的识别场合。许多移动电话提供的语音拨号功能使用的几乎都是模板匹配识别技术。

基于隐马尔可夫模型的识别算法通过对大量语音数据进行数据统计，建立统计模型，然后从待识别语音中提取特征，与这些模型匹配，从而获得识别结果。这种方法不需要用户事先训练。目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于隐马尔可夫模型的。它的缺点是统计模型的建立需要依赖一个较大的语音库，而且识别工作运算量相对较大。

利用人工神经网络的方法是20世纪80年代末期提出的一种语音识别方法。人工神经网络本质上是一个自适应非线性动力学系统，它模拟了人类神经活动的原理，通过大量处理单元连接构成的网络来表达语音基本单元的特性，利用大量不同的拓扑结构来实现识别系统和表述相应的语音或者语义信息。基于神经网络的语音识别具有自我更新的能力，且有高度的并行处理和容错能力。与模板匹配方法相比，人工神经网络方法在反映语音的动态特性上存在较大缺陷，单独使用人工神经网络方法的系统识别性能不高，因此人工神经网络方法通常与隐马尔可夫算法配合使用。

2.语音识别原理

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似。一般来说，主要包括训练和识别两个阶段。在训练阶段，根据识别系统的类型选择能够满足要求的一种识别方法，采用语音分析方法分析出这种识别方法所要求的语音特征参数，把这些参数作为标准模式存储起来，形成标准模式库。在识别阶段，将输入语音的特征参数和标准模式库的模式进行相似比较，将相似度高的模式所属的类别作为中间候选结构输出。一个典型的语音识别系统的实现过程如图3-19所示，大致分为预处理、特征参数提取、模型训练和模式匹配几个步骤。

图3-19 语音识别的原理和过程

1）预处理。预处理的目的是去除噪声、加强有用的信息，并对由输入引起的或其他因素造成的退化现象进行复原，包括反混叠滤波、模-数转换、自动增益控制、端点检测和预加重等工作。

2）特征参数提取。特征参数提取的目的是对语音信号进行分析处理，去除与语音识别无关的冗余信息，获得影响语音识别的重要信息，同时对语音信号进行压缩。语音信号包含了大量各种不同的信息，提取哪些信息，用哪种方式提取，需要综合考虑各方面的因素，如成本、性能、响应时间和计算量等。一般来说，语音识别系统常用的特征参数有幅度、能量、过零率、线性预测系数LPC、LPC倒谱系数、线谱对参数、短时频谱、共振峰频率、反映人耳听觉特征的Mel频率倒谱系数、随机模型、声道形状的尺寸函数、音长和音调等。常用的特征参数提取技术有线性预测分析技术、Mel参数和基于感知线性预测分析提取的感知线性预测倒谱，以及小波分析技术等。

3）模型训练和模式匹配。模型训练是指根据识别系统的类型来选择能满足要求的一种识别方法，采用语音分析技术预先分析出这种识别方法所要求的语音特征参数，再把这些语音参数作为标准模式由计算机存储起来，形成标准模式库或声学模型。声学模型的设计和语言发音特点密切相关。声学模型单元（字发音模型、半音节模型或音素模型）的大小对语音训练数据量大小、系统识别率及灵活性有较大的影响。因此必须根据不同语言的特点及识别系统词汇量的大小来决定识别单元的大小。

模式匹配是根据一定的准则，使未知模式与模式库中的某一个模式获得最佳匹配，它由测度估计、专家知识库和识别决策3部分组成。

1）测度估计是语音识别系统的核心。语音识别的测度有多种，如欧氏距离测度、似然比测度、超音段信息的距离测度、隐马尔可夫模型之间的测度和主观感知的距离测度等。测度估计方法有动态时间规整法、有限状态矢量量化法和隐马尔可夫模型法等。

2）专家知识库用来存储各种语言学知识，如汉语声调变调规则、音长分布规则、同字音判别规则、构词规则、语法规则和语义规则等。对于不同的语音，有不同的语言学专家知识库。

3）对于输入信号计算而得的测度，根据若干准则及专家知识，判决出可能的结果中最好的一个，由识别系统输出，该过程就是识别决策，例如，对于欧氏距离的测度，一般可用距离最小方法来做决策。

3.6.3 光学字符识别

光学字符识别（Optical Character Recognition，OCR）是指利用扫描仪等电子设备将印刷体图像和文字转换为计算机可识别的图像信息，再利用图像处理技术将上述图像信息转换为计算机文字，以便对其进行进一步编辑加工的系统技术。OCR属于图形识别的一种，其目的就是要让计算机知道它到底看到了什么，尤其是文字资料，从而节省因键盘输入花费的人力与时间。

OCR系统的应用领域比较广泛，如零售价格识读、订单数据输入、单证识读、支票识读、文件识读、微电路及小件产品上的状态特征识读等。在物联网的智能交通应用系统中，可使用OCR技术自动识别过往车辆的车牌号码。

OCR系统的识别过程包括图像输入、图像预处理、特征提取、比对识别、人工校正和结果输出等几个阶段，其中最关键的阶段是特征提取和比对识别阶段。

图像输入就是将要处理的档案通过光学设备输入到计算机中。在OCR系统中，识读图像信息的设备称为光学符号阅读器，简称光符阅读器。它是将印在纸上的图像或字符借助光学方法变换为电信号后，再传送给计算机进行自动识别的装置。一般的OCR系统的输入装置可以是扫描仪、传真机、摄像机或数字式照相机等。

图像预处理包含图像正规化、去除噪声及图像校正等图像预处理及图文分析、文字行与字分离的文件前处理。例如，典型的汉字识别系统预处理就包括去除原始图像中的显见噪声（干扰）、扫描文字行的倾斜校正，以及把所有文字逐个分离等。

图像预处理后，就进入特征提取阶段。特征提取是OCR系统的核心，用什么特征、怎么提取，直接影响识别的好坏。特征可分为两类：统计特征和结构特征。统计特征有文字区域内的黑/白点数比等。结构特征有字的笔画端点、交叉点的数量及位置等。

图像的特征被提取后，不管是统计特征还是结构特征，都必须有一个比对数据库或特征数据库来进行比对。比对方法有欧氏空间的比对方法、松弛比对法、动态程序比对法，以及类神经网络的数据库建立及比对、隐马尔可夫模型等方法。利用专家知识库和各种特征比对方法的相异互补性，可以提高识别的正确率。例如，在汉字识别系统中，对某一待识字进行识别时，一般必须将该字按一定准则，与存储在机内的每一个标准汉字模板逐一比较，找出其中最相似的字，作为识别的结果。显然，汉字集合的字量越大，识别速度越低。为了提高识别速度，常采用树分类，即多级识别方法，先进行粗分类，再进行单字识别。

比对算法有可能产生错误，在正确性要求较高的场合下，需要采用人工校对方法，对识别输出的文字从头至尾进行查看，检出错识的字，再加以纠正。为了提高人工纠错的效率，在显示输出结果时往往把错误可能性较大的单字用特殊颜色加以标识，以引起用户注意。也可以利用文字处理软件自附的自动检错功能来校正拼写错误或者不合语法规则的词汇。

3.6.4 生物识别

生物识别技术主要是指通过人类生物特征进行身份认证的一种技术。生物特征识别技术依据的是生物独一无二的个体特征，这些特征可以测量或可自动识别和验证，具有遗传性或终身不变等特点。

生物特征的含义很广，大致上可分为身体特征和行为特征两类。身体特征包括指纹、静脉、掌型、视网膜、虹膜、人体气味、脸型，甚至血管、DNA和骨骼等。行为特征包括签名、语音和行走步态等。生物识别系统对生物特征进行取样，提取其唯一的特征，转化成数字代码，并进一步将这些代码组成特征模板。当进行身份认证时，识别系统获取该人的特征，并与数据库中的特征模板进行比对，以确定二者是否匹配，从而决定接受或拒绝该人。

生物特征识别发展最早的是指纹识别技术，其后，人脸识别、虹膜识别和掌纹识别等技术也纷纷进入身份认证领域。

1.指纹识别

指纹是指人的手指末端正面皮肤上凸凹不平的纹线。虽然指纹只是人体皮肤的一小部分，却蕴含着大量的信息。起点、终点、结合点和分叉点，被称为指纹的细节特征点。指纹识别即通过比较不同指纹的细节特征点来进行鉴别。

指纹识别系统是一个典型的模式识别系统，包括指纹图像采集、指纹图像处理、特征提取和特征匹配等几个功能模块。

指纹图像采集可通过专门的指纹采集仪或扫描仪、数字式照相机等进行。指纹采集仪主要包括光学指纹传感器、电容式传感器、CMOS压感传感器和超声波传感器。

采集的指纹图像通常都伴随着各种各样的干扰，这些干扰一部分是由仪器产生的，另一部分是由手指的状态，如手指过干、过湿或污垢造成的。因此在提取指纹特征信息之前，需要对指纹图像进行处理，包括指纹区域检测、图像质量判断、方向图和频率估计、图像增强，以及指纹图像二值化和细化等处理过程。

对指纹图像进行处理后，通过指纹识别算法从指纹图像上找到特征点，建立指纹的特征数据。在自动指纹识别的研究中，指纹分成5种类型：拱类、尖拱类、左旋类、右旋类和旋涡类。对于指纹纹线间的关系和具体形态，又分为末端、分叉、孤立点、环、岛和毛刺等多种细结点特征。对于指纹的特征提取来说，特征提取算法的任务就是检测指纹图像中的指纹类型和细结点特征的数量、类型、位置及所在区域的纹线方向等。一般的指纹特征提取算法由图像分割、增强、方向信息提取、脊线提取、图像细化和细节特征提取等几部分组成。

根据指纹的种类，可以对纹形进行粗匹配，进而利用指纹形态和细节特征进行精确匹配，给出两枚指纹的相似性程度。根据应用的不同，对指纹的相似性程度进行排序或给出是否为同一指纹的判决结果。

在所有生物识别技术中，指纹识别是当前应用最为广泛的一种，在门禁、考勤系统中都可以看到指纹识别技术的身影。市场上还有更多指纹识别的应用，如便携式计算机、手机、汽车及银行支付等。在计算机使用中，包括许多非常机密的文件保护，大都使用“用户ID+密码”的方法来进行用户的身份认证和访问控制。但是，一旦密码忘记，或被别人窃取，计算机系统及文件的安全就受到了威胁，而使用指纹识别就能有效地解决这一问题。

2.虹膜识别

人眼睛的外观图由巩膜、虹膜和瞳孔3部分构成。巩膜即眼球外围的白色部分，约占总面积的30%。眼睛中心为瞳孔部分，约占5%。虹膜位于巩膜和瞳孔之间，约占65%。虹膜在红外光下呈现出丰富的纹理信息，如斑点、条纹、细丝、冠状和隐窝等细节特征。虹膜从婴儿胚胎期的第3个月起开始发育，到第8个月虹膜的主要纹理结构已经成形。虹膜是外部可见的，但同时又属于内部组织，位于角膜后面。除非经历身体创伤或白内障等眼部疾病，否则几乎终生不变。虹膜的高度独特性、稳定性及不可更改的特点，是虹膜可用作身份识别的物质基础。

自动虹膜识别系统包含虹膜图像采集、虹膜图像预处理、特征提取和模式匹配几部分。系统主要涉及硬件和软件两大模块：虹膜图像获取装置和虹膜识别算法。

虹膜图像采集所需要的图像采集装置与指纹识别等其他识别技术不同。由于虹膜受到眼睑、睫毛的遮挡，准确捕获虹膜图像是很困难的，而且为了能够实现远距离拍摄、自动拍摄和用户定位，并准确从人脸图像中获取虹膜图像等，虹膜图像的获取需要设计合理的光学系统，配置必要的光源和电子控制单元。一般来说，虹膜图像采集设备的价格都比较昂贵。

设备准确性的限制常常会造成虹膜图像光照不均等问题，影响纹理分析的效果。因此虹膜图像在采集后一般需要进行图像的增强，提高虹膜识别系统的准确性。

特征提取和匹配是虹膜识别技术中的一个重要部分，国际上常用的识别算法有多种，如相位分析的方法、给予过零点描述的方法和基于纹理分析的方法等。目前国际上比较有名的Daugman识别算法属于相位分析法，它采用Gabor小波滤波的方法编码虹膜的相位特征，利用归一化的汉明距离实现特征匹配分类器。

与虹膜识别类似的一种眼部特征识别技术是视网膜识别技术，视网膜是眼睛底部的血液细胞层。视网膜扫描采用低密度的红外线捕捉视网膜的独特特征。视网膜识别的优点在于其稳定性高且隐藏性好，使用者无须与设备直接接触，因而不易伪造，但在识别的过程中要求使用者注视接收器并盯着一点，这对于戴眼镜的人来说很不方便，而且与接收器的距离很近，也让人感觉不太舒服。另外，视网膜技术是否会给使用者带来健康的损坏也是一个未知的课题，所以尽管视网膜识别技术本身很好，但用户的接受程度很低。

3.其他生物识别技术

指纹识别、虹膜识别等生物识别技术属于高级生物特征识别技术，每个生物个体都具有独一无二的该类生物特征，且不易伪造。还有一些生物特征属于次级生物特征，如掌形识别、人脸识别、声音识别和签名识别等。

例如，人脸识别是根据人的面部特征来进行身份识别的技术，它利用摄像头或照相机记录下被拍摄者的眼睛、鼻子、嘴的形状及相对位置等面部特征，然后将其转换成数字信号，再利用计算机进行身份识别。人脸识别是一种常见的身份识别方式，现已被广泛用于公共安全领域。

还有一种生物特征识别技术为深层生物特征识别技术，它们利用的是生物的深层特征，如血管纹理、静脉和DNA等。例如，静脉识别系统就是根据血液中的血红素有吸收红外线光的特质，将具红外线感应度的小型照相机或摄像头对着手指、手掌或手背进行拍照，获取个人静脉分布图，然后进行识别。