视觉系统是人类生理系统中构造最复杂、功能最强大的感官系统。使用计算机来模仿人类视觉,就称为计算机视觉。计算机视觉技术专门研究如何协助机器来模拟人类的视觉感知能力,可以像人类那样准确观察、分析、理解和再现真实世界的各类场景结构。图 1.1 描述了计算机视觉的基本原理与一般过程。
计算机视觉的数学基础是投影几何,本书主要涉及正投影和透视投影。正投影也称平行投影,所形成的图像较为直观,数学模型简单,易于理解。而透视投影可看成正投影的一般形式,或者说正投影是透视投影的特例。透视投影是指投影中心位于理想的无穷远点处。
图1.1 计算机视觉的基本原理与一般过程
图 1.2 描述了最简单的针孔相机的投影成像模型。三维空间中某点M在二维平面上的投影点m可表示为式(1.1)。
式(1.1)中的F表示针孔成像的投影矩阵。
计算机视觉的发展大致经历了两个阶段。第一个阶段为计算视觉理论。英国心理学家Marr [1] 在对人类视觉系统全面研究的基础上,将心理学、人工智能和神经生理学的已有成果结合起来,于 1982 年首次提出较为完善的计算机视觉理论的基本框架 [2] (见图1.3),促进了计算机视觉学科的形成,为计算机视觉的蓬勃发展与工程化应用奠定了重要的理论基础。Marr从信息处理系统的角度出发,将视觉系统的研究分为三个层次,即计算理论层次、表达与算法层次、硬件实现层次。计算理论层次主要回答系统各部分的计算目的与计算策略;表达与算法层次给出各部分的输入输出和内部的信息表达,以及实现计算理论所规定的目标的算法;而硬件实现层次则回答“如何用硬件实现以上算法”。
图1.2 针孔相机成像模型
图1.3 计算视觉理论的基本框架
Marr计算视觉理论无疑是计算机视觉研究领域的划时代成就,指出了研究计算机视觉许多珍贵的哲学思想和研究方法,同时也给计算机视觉研究领域开创了许多研究起点。但由于时代的局限性,该理论不可避免地存在一些有争议的方面。例如,其提出的计算框架基本上是单向的,没有反馈,以及对先验知识的应用没有引起足够重视等。
第二个阶段是在 20 世纪末发展起来的“几何计算”视觉理论。它把复杂的数学,尤其是射影几何引入到计算机视觉的研究中,形成“多视图几何”,为理解和形式化多视图成像几何奠定了坚实的理论基础,使得以前被认为无法求解或难以求解的问题得以顺利解决。
需要指出的是,无论在哪个阶段,基于图像的3D重构都是计算机视觉的一个至关重要的核心领域和热点问题,也是用计算机模拟人眼视觉功能所需要完成的关键步骤。