机器视觉在近30年来蓬勃发展,呈现出极大的发展潜力和应用前景,并且彻底改变了制造业和我们日常生活。现如今机器视觉相关技术已广泛应用于诸多现实场景,如智能手机人脸识别解锁、社区人脸门禁、公路监控、停车场的车牌识别、拍图识物、快递自动分拣等场景。如今我们随手就能通过智能手机记录我们身边的日常、美景、奇闻趣事等等,并进一步使用各种图像处理技术自动处理和分析图像。下面我们将简要介绍人类在不断追求记录、处理、自动分析和理解真实世界的历程。
我国哲学家、墨家创始人墨子(公元前470—前390年)在《墨经》中最早记录了小孔成像原理及其现象:“光之人煦若射。下者之人也高,高者之入也下。足蔽下光,故成景于上;首蔽上光,故成景于下。在远近有端,与于光,故景障内也。”如图1-13所示。这是人类最早关于小孔成像现象的书面记录,并且指出其原理是因为光线沿直线传播,书中提到了一种叫“暗匣”的装置,便是相机的前身——暗箱(camera obscura)。
图1-13 《墨经》中关于小孔成像现象和原理的描述
在西方,众多科学家对这一光学现象背后的原理及人眼成像原理进行了研究。德国数学家和天文学家约翰尼斯·开普勒(Johannes Kepler)最早意识到了人眼视网膜成像原理,他在研究天文望远镜透镜时认为人类视觉与透镜有着相同原理,并在1604年出版的《天文光学》一书中指出,图像在眼睛的视网膜上被“画”出了颠倒的像,而大脑可以通过某种方式对其进行矫正。
文艺复兴时期的艺术家和发明家列奥纳多·达·芬奇(Leonardo da Vinci)对人眼成像原理也很感兴趣,并对人眼进行了解剖,他发现虹膜是调节进入人眼睛光量的构造。他还系统地试验了各种形状和大小的光圈,并在笔记本上绘制了大约270张“暗箱”图,记录在《大西洋抄本》中,如图1-14所示。
图1-14 达·芬奇所记录的“暗箱”示意图
那不勒斯(今意大利)科学家吉安巴蒂斯塔·德拉·波尔塔(Giambattista della Porta)首次对暗箱做了最全面的书面描述,他于1558年发表在《自然的魔法》的文章首次推荐暗箱作为辅助绘画的工具。图1-15描绘了艺术家们绘画时用到的暗箱。佛罗伦萨数学家和天文学家伊尼亚齐奥·丹蒂(Egnazio Danti)在1573年发表的《欧几里得透视法》的著名文章中提到可以通过添加凹面镜来矫正暗箱的倒像呈现,首次在真正意义上完成了暗箱对人眼成像的模仿。
1657年,萧特(Schott)改进了暗箱结构,把暗箱做成一大一小两个盒子,小的可以在大的里面滑动,从而完成聚焦(图1-15)。他将两个凸透镜安装在可调节的管中,并获得正像。这种结构已经非常接近现在所用的相机,但是还缺少能够稳定清晰成像的介质,无法被称为相机,只能用于帮助绘画。相机的出现还离不开晚于暗箱200多年才登场的“化学感光材料”。
图1-15 萧特绘画时所用的暗箱
1822年,法国发明家乔瑟夫·尼舍弗朗·尼埃普斯(Joseph Nicéphore Nièpce)使用涂了沥青的玻璃板,拍摄得到了照片《桌上的物品》,但是该方法需要长达几十小时的曝光,缺乏实用价值。1827年,尼埃普斯制作了第一架照相机(图1-16左侧),他通过在一块铅锡合金板上涂白蜡和沥青的混合物,制成了一块感光金属板,并将其装入相机中,对着窗外曝光了8 h,得到了窗外景物的正像。至此,尼埃普斯发明了“日光蚀刻法”,能永久地将影像记录下来,基于此方法,尼埃普斯拍摄了世界上第一张永久性照片《窗外景色》(图1-16右侧)。
图1-16 世界上第一架照相机(左)和第一张永久性照片《窗外景色》(右)
1829年,尼埃普斯与路易·雅克·芒代·达盖尔(Louis Jacques-Mandé Daguerre)合作,希望对照相机进行改良,但在1833年7月5日,尼埃普斯突然因病离世,终年68岁,达盖尔则继续基于尼埃普斯的研究成果对照相机进行改良。1839年,达盖尔发明了银版摄影法,成功试制了世界上第一台银版照相机,银版让曝光时间从8 h缩短到了20 min。随着感光材料的发展,1871年市面上出现了用溴化银感光材料涂制的干版,1884年,柯达的创始人乔治·伊斯曼(George Eastman)发明了世界上第一款胶卷,该款胶卷用硝酸纤维(赛璐珞)作为基片,并应用于柯达相机中,如图1-17所示。此后,柯达相机逐渐走入消费市场,并持续繁荣了一百多年。
图1-17 基于胶卷的相机——柯达相机示意图
1939年,RCA、Albert Rose等公司推出超正析像管,1944年获得美国海军生产合同,从1946年到1968年,它逐渐成为美国广播公司常见的显像管。1974年,史蒂文·赛尚(Steven Sasson)在柯达的应用电子研究中心设计出第一部“电子手持式静态相机”(handheld electronic still camera)。第二年,他做出第一个可使用的原型,该相机可将影像储存在卡匣式录音带中,这也是第一台数码相机,这个原型相机于1975年10月7日拍摄出历史上第一张数字静态相片,如图1-18所示。自此,人们开始利用电子信息的形式记录真实世界,但是想要自动处理、分析和理解真实世界还需要机器视觉算法和技术的加持。
图1-18 史蒂文·赛尚和第一张数码相机拍摄的数字照片
20世纪60年代,被公认为“计算机视觉之父”的拉里·罗伯茨(Larry Roberts)在其博士论文中讨论了从多面体的二维透视图中提取3D几何信息的可能性。此举引发了世界范围内各大科研机构对简单多面体的几何结构、物体形状、物体间空间关系等建模算法的研究热潮。在当时,研究者们提出了一系列图像预处理、物体边缘检测等机器视觉技术,这些技术如今仍然应用于众多领域。
20世纪60年代末到20世纪70年代,在前面研究的基础上,科学家与工程师们已经开发出一些机器视觉应用系统,可以实现简单多面体的简单建模和视觉目标匹配。20世纪70年代中期,麻省理工学院(Massachusetts Institute of Technology,MIT)人工智能实验室正式开设了“机器视觉”课程。
20世纪80年代,随着一系列新概念和新理论的出现,机器视觉这个研究领域开始腾飞,此研究慢慢地从实验室走向实际应用。其中光学字符识别(optical character recognition,OCR)系统开始被应用于各种工业应用程序,用来读取和验证字母、符号和数字,如图1-19所示。
图1-19 光学字符识别(OCR)
20世纪90年代后,机器视觉开始在工业环境中变得越来越普及,并衍生出了机器视觉产业,超过100家公司开始销售机器视觉系统。随着成本的下降,用于机器视觉行业的LED灯也被开发出来,人们在传感器功能和控制架构方面同样取得了较大进展,进一步提高了机器视觉系统的能力。如图1-20,机器视觉系统用于工业的标志视觉缺陷检测。
图1-20 苹果标志视觉缺陷检测
但是此时的机器视觉还只能处理一些简单任务,在一些复杂的图像语义理解和识别上仍然存在极大局限。在处理对象上,这时的机器视觉仍停留在单张图像的处理与分析上,无法对视频等时间序列视觉数据进行建模。此外,机器视觉还被局限在图像数据处理中,无法处理更为复杂的视觉传感信息,如点云、深度信息等。21世纪以来,随着人们对机器视觉技术研究的深入,计算机工业水平的飞速提高以及并行处理和神经元网络等学科的发展,尤其是人工智能技术和机器视觉技术的结合,机器视觉正逐步走向成熟,应用的现实场景和工业领域也在逐日增加。