购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第二节
计算机视觉

一、人工智能的双眼

作为智能世界的双眼,计算机视觉是人工智能技术里的一大分支。计算机视觉通过模拟人类视觉系统,赋予计算机“看”和“认知”的能力,是计算机认识世界的基础。确切来说,计算机视觉技术就是利用摄像机及计算机替代人眼,使计算机拥有人类的视觉所具有的分割、分类、识别、跟踪、判别及决策等功能,创建了能够在平面图像或三维立体图像的数据中获取所需“信息”的一个完整的人工智能系统。

计算机视觉利用成像系统代替视觉器官作为输入手段,利用视觉控制系统代替大脑皮层和大脑的剩余部分完成对视觉图像的处理和解释,让计算机自动完成对外部世界的视觉信息的探测,做出相应判断并采取行动,实现更复杂的指挥决策和自主行动。作为人工智能最前沿的领域之一,视觉类技术是人工智能企业的布局重点,具有最大的技术分布。

计算机视觉技术是一门包括计算机科学与工程、神经生理学、物理学、信号处理、认知科学、应用数学与统计等多门学科的综合性科学技术。计算机视觉技术系统在基于高性能的计算机的基础上能够快速获取大量数据信息并且基于智能算法快速进行信息处理,其本身包括不同的研究方向,如物体识别和检测(Object Detection)、语义分割(Semantic Segmentation)、运动和跟踪(Motion & Tracking)、视觉问答(Visual Question & Answering)等。

与计算机视觉概念相关的另一专业术语是机器视觉。机器视觉是计算机视觉在工业场景中的应用,目的是替代传统的人工,提高生产效率,降低生产成本。机器视觉与计算机视觉的侧重有所不同。计算机视觉主要是对质的分析,如物品分类识别。而机器视觉主要侧重对量的分析,如测量或定位。此外,计算机视觉的应用场景相对复杂,识别物体类型多,形状不规则,规律性不强。机器视觉则刚好相反,场景相对简单固定,识别类型少、规则且有规律,但对准确度、处理速度的要求较高。

二、计算机视觉的发展脉络

在计算机视觉40多年的发展历程中,人们提出了大量的理论和方法。总体来看,可分为三个主要历程,即马尔视觉计算、多视几何与分层三维重建、基于学习的视觉。

1982年,大卫·马尔(David Marr)提出了视觉计算理论和方法,标志着计算机视觉成为一门独立的学科。

视觉计算理论包含两个主要观点:首先,马尔认为人类视觉的主要功能是复原三维场景的可见几何表面,即三维重建问题;其次,马尔认为这种从二维图像到三维几何结构的复原过程是可以通过计算完成的,并提出了一套完整的计算理论和方法。因此,视觉计算理论在一些文献中被称为三维重建理论,其影响深远,至今是计算机视觉领域的主流方法。

从20世纪80年代开始,计算机视觉掀起了全球性的研究热潮,方法理论迭代更新。一方面,瞄准的应用领域从精度和鲁棒性要求太高的“工业应用”转到要求不太高,特别是仅仅需要“视觉效果”的应用领域,如远程视频会议、考古、虚拟现实、视频监控等。另一方面,人们发现,多视几何理论下的分层三维重建能有效提高三维重建的鲁棒性和精度。在这一阶段,OCR和智能摄像头等问世,并进一步引发了计算机视觉相关技术更为广泛的传播与应用。

20世纪80年代中期,计算机视觉已经获得了迅速发展,主动视觉理论框架、基于感知特征群的物体识别理论框架等新概念、新方法、新理论不断涌现。

20世纪90年代,计算机视觉开始在工业环境中得到广泛应用。同时,基于多视几何的视觉理论也得到迅速发展。20世纪90年代初,视觉公司成立,并开发出第一代图像处理产品。而后,计算机视觉相关技术被不断地投入生产制造过程中,使计算机视觉领域迅速扩张,上百家企业开始大量销售计算机视觉系统,完整的计算机视觉产业逐渐形成。在这一阶段,传感器及控制结构等的迅速发展,进一步加速了计算机视觉行业的进步,并使行业的生产成本逐步降低。

进入21世纪,计算机视觉与计算机图形学的相互影响日益加深,基于图像的绘制成为研究热点。高效求解复杂全局优化问题的算法得到发展。更高速的3D视觉扫描系统和热影像系统等逐步问世,计算机视觉的软硬件产品蔓延至生产制造的各个阶段,应用领域也不断扩大。当下,计算机视觉作为人工智能的底层产业及电子、汽车等行业的上游行业,仍处于高速发展的阶段,具有良好的发展前景。

三、计算机视觉的广泛应用

计算机视觉是新基建的重要组成部分。2018年,计算机视觉技术占中国人工智能市场规模的34.9%,位居第一,在投融资规模中更是一枝独秀。随着近几年技术的不断成熟,中国计算机视觉市场得到快速增长,计算机视觉产业的发展受到市场与技术的双重驱动。

从市场驱动来看,随着人口红利的消失及人类生理能力的局限性,“机器代人”不断加快,带来巨大的经济效益。以工业机器视觉系统为例,发达国家一台典型的10000美元的工业机器视觉系统可替代3个年工资为20000美元的工人,投入回收期非常短,且后续维护费用低,具备明显的经济性。

如今,我们已进入视频爆炸的时代,海量数据亟待处理。人类的大脑皮层大约有70%的部分都是在处理眼睛所看到的内容,即视觉信息。在计算机视觉之前,图像对于机器是处于黑盒状态的,就如同人没有视觉这一获取信息的主要渠道。计算机视觉的出现让计算机能够看懂图像,并能进一步分析图像。

从4G到5G,正进一步引发互联网中的视频流量爆炸,视频以各种形式几乎参与了所有的应用,从而产生的海量视频数据以指数级的速度增长。想要对这一新型数据类型进行更精准的处理,推动计算机视觉的发展是必经之路。

从技术驱动来看,以5G为代表的新一代信息通信技术及以深度学习为代表的人工智能技术,推动计算机视觉产业不断成熟。

一方面,在4G时代就出现了简单的计算机视觉业务,如人脸识别、OCR等。随着5G的普及,高速率、无线化、可移动视觉的需求将得到进一步满足。另一方面,人工智能技术随着算力的提升和算法的更新迭代,结合行业大数据,适用场景将更加广泛,能够大幅提升安防、工业制造、医疗影像诊断等领域的效率并降低人工成本。

计算机视觉的发展也推动着计算机视觉的应用。现阶段,中国对计算机视觉的应用以安防、金融、互联网为主,国外则以消费、视觉机器人、智能驾驶等场景为先。

究其原因,一是中国市场需求的推动。安防、金融数字化成为计算机视觉最重要的应用场景,带动了相关产业的发展。二是发展时间和阶段不同。国外计算机视觉发展较早,从实验室走向应用,经历了几十年的发展,早已进入稳定发展时期,而中国起步较晚,2010年以后,相关企业才迅速成立及发展起来,所以中国企业在进入阶段就赶上了大规模视觉技术应用时期和互联网大爆发时期。三是市场重视程度不同。国外市场认为芯片和硬件的作用力大于软件算法技术,所以更加注重芯片的研发和市场的垄断。而中国市场则重点将行业知识和工程经验转化为垂直解决方案,使业务解决方案涵盖各种水平垂直方案。

计算机视觉最具代表性的应用无疑是人脸识别。目前基于深度学习的人脸识别系统精度不断提升,已被广泛应用于零售、金融及民生等各类场景。

深度学习方法的主要优势是可用大量数据来训练,从而学到对训练数据中出现的变化情况稳健的人脸表征。这种方法不需要设计对不同类型的类内差异(如光照、姿势、面部表情、年龄等)稳健的特定特征,而是可以从训练数据中学到它们。卷积神经网络对平移、缩放、倾斜和其他形式的形变具有高度的不变性,并且具有深度学习能力,可以通过网络训练获得图像特征,不需要人工提取特征,在图像样本规模较大的情况下,对图像有较高的识别率,因此卷积神经网络是人脸识别方面最常用的一类深度学习方法。

人脸识别过程包括人脸检测、人脸对齐、人脸识别等部分,具体流程包括:在整个图像中检测人脸区域;根据检测到的关键点位置,对人脸的检测框的关键点进行对齐,如使眼睛、嘴巴等在图像中有同样的坐标位置,主要是有利于后面的训练;在人脸的检测框内检测如眼睛、嘴巴、鼻子等关键点位置;使用神经网络前向抽取人脸特征进行训练,训练得到的模型用来部署;将每张人脸区域使用模型抽取特征,得到一个特征向量,将特征向量使用余弦方法等计算距离,小于指定的阈值则认为是同一个人。

OCR实现物品的数据化则是计算机视觉的另一个重要应用。OCR技术是从图像中识别文字的方法,在现实中具有广泛的应用场景,如车牌识别、身份证识别、护照识别等。

腾讯优图是OCR实现物品数据化的代表之一。腾讯优图基于在OCR领域的深厚技术积累和丰富的实战场景经验,自主研发了高精度的通用OCR引擎,包括多尺度的任意形状文本检测和融合语义理解的文字识别两大核心算法,结合自研数据仿真算法生成的数千万训练集,有效解决了文本畸变、密集排布、复杂背景干扰、手写、小字模糊字等OCR方向的经典难题。

为了充分验证算法的性能,腾讯优图OCR在包括文档、路标、书本、试卷、快递单等涵盖数十种场景的数千张图片上全面测试,准确率达到95%。基于自研的高精度通用OCR技术,腾讯优图进一步研发了证照类、教育试题类、票据类等50多种垂直场景的OCR能力,关键字段准确率达到98%,并通过腾讯云文字识别OCR在金融、保险、财务、物流、教育等领域得到广泛应用,信息录入速度提升90%以上,在提升业务处理效率的同时极大节省了人工录入成本。 mF6zngT9atLQcYxDv+yi88gDyLLkT7lITsgyrYWEuYVwdVbYzaBP/8hGnQERhrm2

点击中间区域
呼出菜单
上一章
目录
下一章
×