计算机视觉——基于图像的3D重构最新章节_于永彦著

1.1 引言

视觉系统是人类生理系统中构造最复杂、功能最强大的感官系统。使用计算机来模仿人类视觉，就称为计算机视觉。计算机视觉技术专门研究如何协助机器来模拟人类的视觉感知能力，可以像人类那样准确观察、分析、理解和再现真实世界的各类场景结构。图 1.1 描述了计算机视觉的基本原理与一般过程。

计算机视觉的数学基础是投影几何，本书主要涉及正投影和透视投影。正投影也称平行投影，所形成的图像较为直观，数学模型简单，易于理解。而透视投影可看成正投影的一般形式，或者说正投影是透视投影的特例。透视投影是指投影中心位于理想的无穷远点处。

图1.1 计算机视觉的基本原理与一般过程

图 1.2 描述了最简单的针孔相机的投影成像模型。三维空间中某点M在二维平面上的投影点m可表示为式（1.1）。

式（1.1）中的F表示针孔成像的投影矩阵。

计算机视觉的发展大致经历了两个阶段。第一个阶段为计算视觉理论。英国心理学家Marr ^[1] 在对人类视觉系统全面研究的基础上，将心理学、人工智能和神经生理学的已有成果结合起来，于 1982 年首次提出较为完善的计算机视觉理论的基本框架 ^[2] （见图1.3），促进了计算机视觉学科的形成，为计算机视觉的蓬勃发展与工程化应用奠定了重要的理论基础。Marr从信息处理系统的角度出发，将视觉系统的研究分为三个层次，即计算理论层次、表达与算法层次、硬件实现层次。计算理论层次主要回答系统各部分的计算目的与计算策略；表达与算法层次给出各部分的输入输出和内部的信息表达，以及实现计算理论所规定的目标的算法；而硬件实现层次则回答“如何用硬件实现以上算法”。

图1.2 针孔相机成像模型

图1.3 计算视觉理论的基本框架

Marr计算视觉理论无疑是计算机视觉研究领域的划时代成就，指出了研究计算机视觉许多珍贵的哲学思想和研究方法，同时也给计算机视觉研究领域开创了许多研究起点。但由于时代的局限性，该理论不可避免地存在一些有争议的方面。例如，其提出的计算框架基本上是单向的，没有反馈，以及对先验知识的应用没有引起足够重视等。

第二个阶段是在 20 世纪末发展起来的“几何计算”视觉理论。它把复杂的数学，尤其是射影几何引入到计算机视觉的研究中，形成“多视图几何”，为理解和形式化多视图成像几何奠定了坚实的理论基础，使得以前被认为无法求解或难以求解的问题得以顺利解决。

需要指出的是，无论在哪个阶段，基于图像的3D重构都是计算机视觉的一个至关重要的核心领域和热点问题，也是用计算机模拟人眼视觉功能所需要完成的关键步骤。