机器视觉入门与实战：人脸识别与人体识别最新章节_夏东著

1.1 机器视觉简介

随着各类技术不断完善，制造产业中高质量产品的需求越来越多，机器视觉从最初主要用于工业电子装配缺陷检测，逐步应用到汽车制造、食品监控、视觉导航、交通、军事、纺织加工等领域，市场规模不断扩大。因此，研究机器视觉相关技术对于提升工业智能机器人的产业发展具有重要意义。

本节首先阐述机器视觉的概念，然后给出机器视觉的技术分类及其应用与价值。

1.1.1 什么是机器视觉

作为机器的“眼睛”，机器视觉系统是一种借助光学装置和非接触式传感器获得被检测物体的特征图像，并通过计算机从图像中提取信息，进行分析处理，进而实现检测和控制的装置。机器视觉系统具有实时性强、定位精度高等优点，能有效增加机器人的灵活性与智能化程度，是实现工业自动化和智能化的重要手段。

机器视觉是建立在计算机视觉理论工程化基础上的一门学科，涉及光学成像、视觉信息处理、人工智能、机电一体化等相关技术，经历了从二维到三维的演化过程。机器视觉始于20世纪50年代对二维图像识别与理解的研究，包括字符识别、工件表面缺陷检测、航空图像解译等。

20世纪60年代，麻省理工学院的罗伯特·塞缪尔·兰格提出了利用物体的二维图像来恢复诸如立方体等物体的三维模型以及建立空间关系描述的想法，开辟了面向三维场景理解的立体视觉研究。

20世纪70年代，麻省理工学院的大卫·马尔创立了系统化的视觉信息处理理论，指出人类视觉从三维场景中提取对观测者有用信息的过程需要经过多层次的处理，并且这种处理过程可以用计算的方式重现，从而奠定了计算机视觉理论化和模式化的基础。

此后，计算机视觉技术在20世纪80年代进入蓬勃发展阶段，主动视觉等概念、方法与理论不断涌现。与此同时，随着CCD（Charge-Coupled Device，电荷耦合器件）图像传感器、CPU（Central Processing Unit，中央处理器）与DSP（Digital Signal Processing，数字信号处理）等硬件与图像处理技术的飞速发展，计算机视觉逐步从实验室理论研究转向工业领域的落地，从而产生了机器视觉技术。

由于具有实时性强、定位精度与智能化程度高等特点，机器视觉已经在智能汽车、电子、医药、食品、农业等领域得到了广泛的应用，如占机器视觉市场需求40%～50%的半导体制造行业，从上游的晶圆加工切割到高精度PCB（Printed Circuit Board，印制电路板）定位、从SMT（Surface Mounted Technology，表面贴装技术）元件放置到表面缺陷检测等都依赖高精度的机器视觉引导与定位。

机器视觉早期发展于欧美地区和日本，并诞生了许多著名的机器视觉相关产业公司，包括日本的光源供应商Moritex，美国的Navitar、德国的Schneider和Zeiss、日本的Computar等镜头厂家，德国的AVT、美国的DALSA、日本的JAI、德国的Basler、瑞士的AOS、德国的Optronis等工业相机厂家，德国的MVTec、美国的康耐视、加拿大的Adept等视觉分析软件厂家，以及日本的松下与基恩士、德国西门子等传感器厂家。

尽管近10年来全球产业向中国转移，但欧美发达国家在机器视觉相关技术上仍处于统治地位，其中美国Cognex与日本Keyence占据了全球50%以上的市场份额，全球机器视觉行业呈现两强对峙状态。在诸如德国工业4.0战略、美国再工业化和工业互联网战略、日本机器人新战略、欧盟“火花”计划等战略与计划以及相关政策的支持下，发达国家与地区的机器视觉技术创新势头高昂，进一步扩大了国际机器视觉市场的规模。2018年，机器视觉系统的全球市场规模接近80亿美元，年均增长率超过15%。世界最大的机器视觉市场为德国市场，其规模为27.1亿美元，占比超过全球总量的三分之一。

1.1.2 机器视觉的技术分类

1. 照明系统

照明系统的作用主要是将外部光以合适的方式照射到被测目标物体上，以突出图像的特定特征，并抑制外部干扰，从而实现图像中目标与背景的最佳分割，提高系统检测精度与运行效率。

由于影响照明系统的因素复杂多变，目前没有通用的机器视觉照明方案，往往需要针对具体的应用环境，考虑待检测目标与背景的光反射与传输特性区别、距离等因素，选择合适的光源类型、照射方式及光源颜色来设计具体的照明方案，以达到目标与背景的最佳分割效果。

机器视觉光源主要包括卤素灯、荧光灯、氙灯、LED光源、激光、红外光、X射线等。其中，卤素灯和氙灯具有较宽的频谱范围和高能量，属于热辐射光源，发热多，功耗相对较高；荧光灯属于气体放电光源，发热相对较低，调色范围较宽；LED光是半导体内部的电子迁移产生的，属于固态电光源，发光过程不产生热，具有功耗低、寿命长、发热少、可以做成不同外形等优点。LED光源已成为机器视觉的首选，而红外光源与X射线光源的应用领域较为单一。

2. 成像系统

成像系统是机器人视觉系统中“视”的部分，采用镜头、工业相机与图像采集卡等相关设备获取被观测目标的高质量图像，并传送到专用图像处理系统中进行处理。

镜头相当于人眼睛的晶状体，作用是将来自目标的光辐射聚焦在相机芯片的光敏面阵上。镜头按照等效焦距可分为广角镜头、中焦距镜头、长焦距镜头，按功能可分为变焦距镜头、定焦距镜头、定光圈镜头等。镜头的质量直接影响获取图像的清晰度、畸变程度等，若成像系统获取的图像信息存在严重损失，往往在后面的环节中难以恢复，因此合理选择镜头是机器视觉中成像光路设计的重要环节。

工业相机是将光辐射转变成模拟/数字信号的设备，通常包括光电转换、外围电路、图像输出接口等部件。按数据传送方式可以将相机分为CCD相机与CMOS（Complementary Metal Oxide Semiconductor，互补金属氧化物半导体）相机两类，其中，CCD相机成像质量好，但制造工艺相对复杂，成本较高，而CMOS相机电源消耗量低，数据读取速度快。

由于传感器的结构特性不同，工业相机可分为面阵相机与线阵相机两类。面阵相机可以一次获取整幅图像，测量图像直观，因此应用面较广。但由于生产技术的制约，单个面阵很难满足工业连续成像的要求。线阵相机每次成像只能获得一行图像信息，因此需要保证被拍摄物体相对相机直线移动，逐次扫描以获得完整的图像。线阵相机具有分辨率高等特点，常用于条状和筒状物品的检测环节。由于逐次扫描需要进行相对直线移动，成像系统的复杂性和成本有所增加。

选择相机需要考虑光电转换器件模式、响应速度、视野范围、系统精度等因素。此外，由于工业设计的需求，当使用工业模拟相机时，必须采用图像采集卡将采集的信号转换为数字图像进行传输和存储。因此，图像采集卡需要与相机协调工作来完成图像数据的高速采集与读取等任务，针对不同类型的相机，有不同总线形式的图像采集卡。

3. 视觉信息处理

视觉信息处理作为机器视觉的“大脑”部分，对相机采集的图像进行处理和分析，实现对特定目标的检测、分析与识别，并作出相应决策，是机器视觉系统“觉”的部分。视觉信息处理一般包括图像预处理、图像定位与分割、图像特征提取、模式分类、图像语义理解等环节。

（1）图像预处理图像预处理环节主要借助相机标定、去噪、增强、配准与拼接、融合等操作来提高图像质量、降低后续处理的难度。相机标定旨在求解相机的内参和外参，以提供物体表面某点的三维几何位置与其在图像中对应点之间精确的坐标关系，标定精度直接影响机器视觉定位的精度。常用的标定方法包括张正友标定法、自标定法等。

由于电磁等干扰，相机采集的图像常含有椒盐、高斯等噪声，对比度低，并存在运动模糊等问题，因此需要对图像进行去噪或结构增强，以改善图像质量。去噪方法一般可分为空间域与变换域两类，主流的图像增强方法包含直方图均衡化、图像锐化、视觉模型增强、运动模糊去除等。

由于视野范围、成像模式不同，需要对生产线上不同位置获取的多模态或同模态图像进行配准，再实现多幅图像拼接或融合处理。图像配准一般分为基于图像灰度的配准方法与基于图像特征的配准方法。基于灰度的配准方法直接采用归一化的互相关、互信息等相似性度量函数来计算图像灰度值之间的相似性，并确定图像之间的配准参数。此类方法简单、配准精度高，但对图像灰度变化、旋转、变形以及遮挡比较敏感，计算复杂度高，往往需要采用各种优化策略。

基于特征的配准方法首先从图像中提取各种点、线、区域等特征，然后进行空间约束或不变特征匹配，得到特征之间的匹配关系，进而估计图像之间的变换关系。此类方法虽然计算速度快，但依赖特征的提取。由于在配准过程中需要搜索多维空间，机器视觉系统常采用金字塔、小波方法以及各种优化策略来减小配准计算量。

在图像配准的基础上，有些工业生产线需要对多源图像进行融合，以保证可以尽量多地提取有用信息，并去除冗余或干扰信息。在较少的计算代价的前提下，力求高效利用图像资源，并改善计算机的解译精度和可靠性。根据图像表征层次不同，图像融合可分为像素级融合、特征级融合和决策级融合3个层次，通过融合技术可以提高视觉目标检测的识别与抗干扰能力。

（2）图像定位与分割图像定位与分割主要利用目标边界、几何形状等先验特征或知识确定待检测目标的位置或从图像中分割出目标，是确定目标位置、大小、方向等信息的重要手段。图像定位利用图像灰度或特征信息来确定图像中被检测物体的位置、大小、旋转角度等，主要采用模板匹配方法实现，即通过计算模板图像和待搜索图像的相似性度量，寻找相似性度量最大值或最小值对应的匹配位置。模板匹配具有速度快、定位精度高、简单等优点，在视觉定位与引导中得到了广泛应用。

由于需要给定待检测物体的图像，因此模板匹配定位方法只适用于背景简单、特征固定的物体定位。图像分割是根据目标及背景特性，将图像划分为多个具有独特属性的非重叠区域，进而确定目标位置、区域大小。

图像分割方法有5种：阈值分割法、区域分割法、基于边缘的分割法、基于图的分割法、基于神经网络的语义分割法。

阈值分割法首先对图像像素灰度分布特性进行分析，然后采用先验知识等方法确定最优灰度阈值，将图像分割为2个或多个局部区域。该方法简单高效，适用于待检测目标与背景具有明显差异的情况。

区域分割法利用区域内图像特征具有均匀性或相似性的特点，将像素集合起来实现图像分割，包括区域生长、分裂合并、分水岭等算法。此类方法能够处理较为复杂的图像，但计算量大，而且种子点的选取与迭代终止条件的设定容易影响分割结果，甚至可能会破坏区域边界。

基于边缘的分割法利用不同图像区域在边界处有明显灰度跳变或不连续的特点，找到目标区域的边缘来实现图像分割。由于不连续性一般通过求导数来实现，因此这类方法适用于噪声比较小的图像。

基于图的分割法借助图论的思想，将待分割图像转换为带权无向图，其中每一个像素即为图中的一个节点，将图像分割问题转化为图顶点的标注问题，再利用最小优化准则如图割、随机游走等实现图像的最佳分割。该方法虽然可以较好地分割图像，但计算复杂度高。

基于神经网络的语义分割法可以模拟人类感知过程，采用如脉冲耦合神经网络等方法来处理复杂的非线性问题。近年来，深度学习技术在图像语义分割领域得到了深入的研究，出现了如FCN（Fully Convolutional Network，全卷积网络）、DeepLab、Mask R-CNN（Mask Region-Convolutional Neural Network）、U-Net等分割算法，并且这些算法在自动驾驶、影像诊断等领域得到了应用。该类方法适应性较强，能够给被分割区域分配不同的标签，但存在学习过程复杂、计算量大等缺点。

（3）图像特征提取图像识别是先提取形状、面积、灰度、纹理等特征，然后借助模式匹配、支持向量机、深度学习等模式识别方法来实现目标分类、缺陷检测等功能，以满足工业机器视觉不同的应用需求。因此，图像特征提取很大程度上会影响图像识别的结果。

图像特征提取可看作从图像中提取关键低维特征信息，以便获取的低维特征向量能够有效地描述目标，并保证同类目标具有较小的类内距，而不同类目标具有较大的类间距。高效的特征提取可提高后续目标识别的精度与鲁棒性，降低计算复杂度。常用的二维图像特征包括形状特征、纹理特征、颜色特征等。

根据提取轮廓或整个形状区域，我们可以将形状特征细分为轮廓形状与区域形状两类。轮廓形状是对目标区域的包围边界进行描述，描述方法包括边界特征法、简单几何特征、基于变换域、曲率尺度空间、霍夫变换等方法。轮廓特征描述量小，但包含信息较多，能有效减少计算量。轮廓特征对于噪声和形变敏感，通常难以提取完整的轮廓信息。区域形状特征是针对目标轮廓所包围的区域中的所有像素灰度值或对应的梯度加以描述，主要有几何特征、拓扑结构特征、矩特征、梯度分布特征。

纹理特征用于描述物体表面结构的排列以及重复出现的局部模式，即物体表面的同质性，不依赖颜色或亮度，具有局部性与全局性，对旋转与噪声不敏感。纹理特征提取方法包括灰度共生矩阵、局部二值模式、小波变换等。

颜色特征用于描述图像所对应景物的外观属性，是人类感知和区分不同物体的基本视觉特征之一。颜色特征对图像平移、旋转与尺度变化具有较强的鲁棒性。常用的颜色特征表征方法包括颜色直方图、颜色相关图、颜色矩、颜色聚合向量等。

（4）模式分类模式分类本质上是通过构造一个多分类器，将从数据集中提取的图像特征映射到某一个给定的类别中，从而实现目标分类与识别。分类器的构造性能直接影响其识别效率，也是模式识别的研究核心。

模式分类分为统计模式识别、结构模式识别、神经网络以及深度学习等主要方法。

统计模式识别结合了统计概率的贝叶斯决策理论以对模式进行统计分类，其主要方法有贝叶斯、Fisher分类器、支持向量机、Boosting等。统计模式识别理论完善，并取得了不少的应用成果，但很少利用模式本身的结构关系。

结构模式识别首先将一个模式分解为多个较简单的子模式，分别识别子模式，最终利用模式与子模式分层结构的树状信息完成识别工作。结构模式识别理论最早用于汉字识别，能有效区分相似汉字，虽然对字体变化的适应性强，但抗干扰能力差。因此，很多情况下往往同时结合统计模式和句法模式识别来解决具体问题。

神经网络是一种模仿动物神经网络进行分布式并行信息处理的数学模型，通过调整内部大量节点之间相互连接的关系来实现信息并行处理。

目前神经网络可以进一步分为BP（Back Propagation，反向传播）神经网络、Hopfield网络与ART（Adaptive Resonance Theory，自适应共振理论）网络等。神经网络具有很强的非线性拟合、记忆以及自学习能力，学习规则简单，便于计算机实现，因此得到了广泛的应用。神经网络具有学习速度慢，容易陷入局部极值以及求解时会遇到梯度消失或者梯度爆炸等缺点。

2006年，深度学习技术专家Geoffrey Hinton和Ruslan Salakhutdinov提出了一种基于无监督的深度置信网络，解决了深度神经网络训练的难题。这一发现掀起了深度学习的浪潮，先后涌现了包括稀疏自编码器、受限玻尔兹曼机、卷积神经网络、循环神经网络、深度生成式对抗网络等模型。

与传统的机器学习相比，深度学习提倡采用端到端的方式来解决问题，即直接将图像特征提取与模式分类集合在一起，然后根据具体的模式分类目标损失函数从数据中自动学习有效的特征并实现模式分类。深度学习虽然在计算机视觉、语音识别、字符识别、交通、农业、表面缺陷检测等领域取得了巨大的成功，但是也存在缺少完善的理论支持、模型正确性验证复杂且麻烦、需要大量训练样本、计算量大等问题。相信深度学习研究的不断深入将为机器视觉带来更广阔的发展空间。

（5）图像语义理解图像语义理解是在图像感知的基础上，从行为认知、语义等多个角度挖掘视觉数据中的特征与模式，并对图像中的目标或群体行为、关系等进行理解与表达。图像语义理解是机器理解视觉的终极目标，涉及信号处理、计算机视觉、模式识别和认知科学等多个交叉学科，近年来已经成为计算机科学领域的研究热点。

图像语义理解有自底向上的数据驱动方法和自顶向下的知识驱动方法两种策略。数据驱动方法首先对图像颜色、纹理、形状等特征进行分析，多层逐步提取有用的语义信息，最终实现更接近于人类抽象思维的图像表示，并利用语义网、逻辑表达、数学形态学等知识表达工具引入知识信息，消除图像解释的模糊性，实现图像语义理解。而自顶向下的知识驱动方法通常建立抽象知识库的符号化和形式化表示，构建基于先验知识的规则库，利用推理逻辑自动对图像进行分类。

图像语义理解尝试模拟人类的逻辑推理能力，具有较高的抽象水平，属于高级的认知过程。然而，由于图像语义理解依赖于对象的属性及其与其他对象的关系，无论是底层特征的表征还是上层的语义句法描述都难以支撑跨越图像底层特征与高层场景语义之间的语义鸿沟，而图像场景语义理解必须解决底层视觉特征和高层场景语义之间的映射关系。

近几年来，随着深度学习的快速发展，图像语义理解问题也从传统的经典算法过渡到基于深度神经网络训练的图像理解算法，希望通过深度学习将机器可以识别的图像底层特征与图像相匹配的文本、语音等语义数据进行联合训练，从而消除语义鸿沟，完成对图像高层语义的理解。

目前语义理解研究工作主要集中在场景语义分割与分类、场景评注以及自然语言生成等领域。研究人员将时空注意力机制和语义图建模相结合，提出了一种新的注意力语义递归神经网络—stagNet，用于处理复杂时空语境信息和人与人之间关系的建模问题。

Zitnick等人提出了从简笔画集合中抽象图像语义信息的方法，建立了语义上重要的特征、词与视觉特征的关系以及测量语义相似度的方法，并提出了稠密描述模型用于描述视频的含义。

相比而言，场景评注以及自然语言生成研究仍处于起步阶段。尽管视觉处理算法研究取得了巨大的进步，但面对检测对象多样、几何结构精密且复杂、高速运动状态以及复杂多变的应用环境，现有的视觉处理算法仍然面临着极大的挑战。

4. 机器视觉软件

国外研究学者较早地开展了机器视觉算法的研究工作，并在此基础上开发了许多较为成熟的机器视觉软件，包括OpenCV、HALCON、Vision Pro、HexSight、Evision、SherLock、Matrox Imaging Library等，这些软件具有界面友好、操作简单、扩展性好、与图像处理专用硬件兼容等优点，在机器视觉领域得到了广泛的应用。

OpenCV是美国英特尔公司开发的开源图像处理库，主要应用于计算机视觉领域，开发成本较低，很多企业如美国Willow Garage公司、德国Kithara公司都支持基于OpenCV开发视觉处理软件，其可靠性、执行效率、效果和性能不如商业化软件。

HALCON是德国MV Tec公司开发的机器视觉算法包，支持多种语言集成开发环境，应用领域涵盖医学、遥感探测、监控以及工业，是公认的功能强大的机器视觉软件。HALCON图像处理库包括一千多个独立的函数，其函数库可以通过C、C++和Delphi等编程语言调用，同时支持百余种工业相机和图像采集卡，包括Genl Cam、GigE和IIDC1394，但价格比较贵。

HexSight是Adept公司开发的视觉软件开发包，可基于Visual Basic、C++或Delphi平台进行二次开发，在恶劣的工作环境下仍能提供高速、可靠及准确的视觉定位和零件检测功能。

Vision Pro是美国Cognex公司开发的机器视觉软件，可用于所有硬件平台，包括主流的FireWire和Camera Link等，利用ActiveX控件可快速完成视觉应用项目程序的模型开发，可使用Visual Basic等多种开发环境搭建更具个性化的应用程序。

1.1.3 机器视觉技术的应用与价值

机器视觉技术最早应用于半导体及电子行业，随着视觉检测、分割、生成等各类技术的不断完善，机器视觉下游应用领域也在不断拓宽，机器视觉已经在军事、农业、制药等领域得到了广泛应用。本节主要通过4个典型的应用场景来介绍机器视觉技术的应用与价值。

1. 产品瑕疵检测

产品瑕疵检测是指利用视觉传感器将产品内外部的瑕疵进行成像，并通过机器视觉技术对获取的图像进行处理，确定瑕疵数量、位置和类型等，甚至可以对瑕疵产生的原因进行分析。机器视觉能大幅减少人工评判的主观差异，更加客观地、可靠地、高效地、智能地评价产品的质量，同时提高生产效率和自动化程度，降低人工成本。

机器视觉技术可以运用到一些危险环境和人工视觉难以满足要求的场景，在工业产品瑕疵检测中得到了大量的应用。

产品瑕疵视觉检测一般涉及图像预处理、瑕疵区域定位、瑕疵特征提取和分类4个步骤。

1）通过对获取的产品图像进行图像降噪、对比度增强等预处理操作来滤除图像噪声，改善图像对比度，使目标区域的特征更加显著。

2）采用模板比对或图像分割等方法实现瑕疵区域的检测与定位，并借助相机采集的图像空间信息与物体空间之间精确映射的关系，实现对瑕疵区域面积或体积的测量。

3）根据专业知识或经验提取表征缺陷的特征。

4）利用机器学习等相关算法实现瑕疵分类，如文献首先在同一位置采集多幅标准PCB图像并计算其灰度平均值作为标准图像，将待测PCB图与标准图像进行比对，计算两幅图像的差异，再通过后续二值化等处理即可确定缺陷区域。在此基础上，通过边界检测获取各个缺陷区域的像素值，从而识别缺陷类型。

由于工业应用中待检测对象形态多变，许多情况下很难找到“标准”图像作为参照，因此采用模板比对的方法往往难以确定缺陷位置，此时常采用图像分割的方法实现缺陷区域定位。

有学者提出基于正则化共面判别分析与支持向量机的家具表面细节缺陷分割算法，将输入图像进行分块，同时将块变换成列向量，所有列向量组成矩阵进行RCDA（Regularized Coplanar Discriminant Analysis）维数约减，对约减后的特征进行支持向量机训练与测试，得到图像块的分类结果，最后将块分类矩阵变形成二值分割图，得到细节缺陷目标。

近年来，深度学习在产品瑕疵检测领域得到了广泛的应用，传统的方法仍然难以处理复杂多样的PCB，研究人员提出了一种微小缺陷检测深度网络来提高PCB缺陷检测的性能，利用深度卷积网络固有的多尺度金字塔结构构造特征金字塔，最终能达到98.9%的平均检测率。

2. 智能视频监控分析

智能视频监控分析是利用视觉技术对视频中的特定内容信息进行快速检索、查询、分析的技术，广泛应用于交通管理、安防、军事领域、工地监控等场景。

在智慧交通领域，视频监控分析主要用于提取道路交通参数，以及对车辆违法行为、交通事故、路面抛洒物、人群聚集等异常交通事件的识别，涉及交通目标检测与跟踪、目标及事件识别等关键技术，如采用背景减除、YOLO 3等方法检测车辆等交通目标，进而建立车辆行驶速度和车头时距等交通流特征参数的视觉测量模型，间接计算交通流量密度、车辆排队长度、道路占有率等影响交通流的重要道路交通参数，以识别交通拥堵程度，并实现交通态势预测和红绿灯优化配置，从而缓解交通拥堵程度，提升城市道路交通运行效率。

有学者综合分析交通信息采集技术、交通状态识别、交通状态演变，对干道交通状态识别及演变机理进行分析，采用深度学习方法提取交通参数，并基于LSTM（Long Short-Term Memory，长短期记忆）循环神经网络与3D-CNN（3 Dimensional Convolutional Neural Network，三维卷积神经网络）等方法对交通状态进行预测，建立适用于精细化交通管控的城市道路交通状态识别及预测框架。

钱皓寅和郑长江提出了一种基于事件特征来检测交通事件的监测系统，系统从图像序列中检测车辆，并根据车辆的移动方向、交通流和车辆加速度来实现交通事件检测。他们提出了一种基于稀疏时空特征学习的自校正迭代硬阈值算法和基于加权极值学习机的目标检测的视觉交通事故检测方法。此外，机器视觉技术可用于智慧城市中的安防监控与情报分析，如人脸识别、人群密度和不同方向人群流量的分析等，智能研判并自动预警重点人员与车辆，实现基于视频数据的案件串并及人员动态管控。

3. 自动驾驶及辅助驾驶

自动驾驶汽车是通过计算机技术实现无人驾驶的智能汽车，依靠人工智能、机器视觉、雷达、监控装置和全球定位系统协同合作，让计算机可以在没有任何人工主动操作的情况下，自动、安全地操作机动车辆。

机器视觉的快速发展促进了自动驾驶技术的成熟，使无人驾驶在未来成为可能。自动驾驶技术主要包含环境感知、路径规划和控制决策3个关键部分。机器视觉技术主要用于环境感知部分，具体包括交通场景语义分割与理解，采用机器视觉技术提取交通场景图像中的有用信息，并恢复场景的三维信息，进而确认目标、识别道路和判断故障，实现可行驶区域和目标障碍物等交通场景的语义分割与理解。

相关研究人员提出了一种新的实时集成无监督学习框架，通过安装在移动车辆仪表板上的摄像机实时反馈车道检测、路面标记的检测与识别。

有研究人员提出了一种基于深度卷积神经网络的实时高性能城市街道场景鲁棒语义分割方法，实现了准确率和速度的平衡。对交通场景中的交通标志与信号灯、车辆与行人、非机动车等交通参与者进行视觉检测与跟踪，并估计各个目标的运动方向和速度。

无人驾驶汽车在未知环境中或GPS（Global Positioning System，全球定位系统）无法持续定位的环境下，需要同时实现自身的准确定位以及所处环境的地图构建。同步定位与地图构建是指无人驾驶汽车利用内外部传感器对自身运动和周围环境进行感知，确定环境状况、自身位置、航向及速度等信息，同时创建环境地图或对地图进行实时更新，是无人驾驶汽车的关键。

SLAM（Simultaneous Localization And Mapping，同步定位与地图构建）主要涉及定位、地图构建以及数据关联问题。其中，定位主要是通过机器视觉、GPS、惯性导航等方式为路径规划和环境地图构建提供精确的位置信息。数据关联则采用新特征检测、特征匹配与地图匹配等步骤实现观测量与地图特征之间的匹配。基于这种考虑，研究人员提出了一种基于对象包的视觉贝叶斯车辆位置识别算法来实现更快和更鲁棒性的定位。赵鑫针对未知环境下无人驾驶汽车定位与地图构建展开研究，在Fast SLAM算法的基础上引入自适应重采样技术和无迹卡尔曼滤波，提出了自适应重采样无迹卡尔曼滤波Fast SLAM算法。

4. 医疗影像诊断

随着人工智能、深度学习等技术的飞速发展，机器视觉结合人工智能等技术逐渐应用到医疗影像诊断中，辅助医生进行诊断。机器视觉技术在医学疾病诊断方面的应用主要体现在影像采集与感知应用两个方面，例如对采集的影像进行存储、增强、标记、分割以及三维重建。

何洪林等人在神经网络融合模型的基础上，建立3D人体模型数据库，在影像分析过程中直接从数据库中选取相应的内容对病灶进行替换，从而快速完成脑血管CT三维重建。何洪林等人提出了一种利用卷积神经网络将MRI（Magnetic Resonance Imaging，核磁共振成像）脑图像自动分割成若干组织类的方法。该网络使用多个斑块大小和多个卷积核大小来获取每个体素的多尺度信息。该方法不依赖显式特征，而是学习如何根据训练数据识别对分类重要的信息。

不同医生对于同一张图片的理解不同，通过大量的影像数据和诊断数据，借助人工智能算法实现病理解读，医生可以了解多种病理的可能性，提高诊断能力，如实现乳腺癌、肺部癌变的早期识别，根据器官组织的分布预测肿瘤扩散到不同部位的概率，并能从图片中获取癌变组织的形状、位置、浓度，还能通过MRI再现的心脏血流量变化探测心脏病变。

孟婷等人提出了一种增强卷积网络模型，通过训练一对互补的卷积神经网络，优化病理图像诊断的准确率。算法首先训练基本网络，估计病理图像中各局部组织患病的概率，之后训练一个异构网络，对基本网络的判决结果进行修正，并在肾、肺、脾组织数据集与淋巴结癌症转移检测数据集上展开实验验证。