计算机视觉——基于图像的3D重构最新章节_于永彦著

1.2 基于图像的3D重构

计算机视觉的终极目标是从所“看”到的场景中识别出感兴趣的对象，即从2D图像中重构出3D对象模型，主要包含图像处理、模式识别、景物分析、图像理解等基本处理过程。但是，由于投影过程中丢失了景深信息或因遮挡而遗漏了部分有用信息，将可能导致不同形状的3D对象投影到图像平面上形成了相同或类似的图像，这就是投影歧义性。图1.4展示了常见的投影歧义性。

图1.4 常见的投影歧义性

另外，其他因素的不良影响，诸如光线差异、观察角度偏差、研究人员的认知水平与经验存在较大差距等，都可能给图像重构造成极大的困难。所有这些都可能导致基于图像的3D重构陷入一种病态。

在计算机视觉领域，基于图像的3D重构一直是被普遍关注的研究热点，也是大多数基于计算机的事件模拟和可视化应用的普遍需求，包括地学分析、机器人导航、犯罪场景复原、飞行模拟、游戏娱乐、特技表演、建筑设计、旅游指南及虚拟博物馆等。另外，3D 重构技术在考古及古迹保护方面也有特殊的应用。由于不可预测的火灾、地震、洪水、自然腐蚀、战争等天灾人祸，大量的历史文物面临抢救性保护，需要为子孙后代或历史研究保留一些珍贵遗迹，或者复原考古发现的珍贵文物，这些都需要借助3D重构技术来修复、重建。另外，3D电视的诞生和普及，也需要通过3D重构技术将现有的大量2D资源转换为3D视频。所有这些，对于人类视觉系统而言也许是轻而易举的事，但对于机器视觉而言，则面临巨大的挑战，既需要突破现有的理论瓶颈，又需要寻找合理可行的实践方法。

1.2.1 3D重构的数学原理

人眼观察到的都是3D现实世界。使用数码相机等普通设备对周围场景拍照或摄像，得到的一般是2D真实图像；或者使用3D扫描设备采集3D场景数据，再通过图像重建得到合成图像。这个过程统称为成像。图1.5演示了图像合成的数学原理。

图1.5 图像合成的数学原理

基于图像的3D重构可看成上述成像过程的逆过程，是指根据2D图像再现3D物体形状。这两个过程中的数学原理见表1-1和表1-2。

表1-1 成像过程及其逆过程的数学原理

表1-2 适定重构与非适定重构的数学原理

根据已知量的组成结构，基于图像的3D重构技术大致可分为适定和非适定两种类型。

（1）适定重构。即满足解是存在的、解是唯一的、解连续依赖于定解条件三个基本条件。图 1.6（a）表示了同一场景可以对应两幅以上不同的图像。这种情况下的3D重构理论和技术目前较为成熟，较典型的是立体视觉重构，得到了较广泛的应用。

（2）非适定重构。即上述三个条件至少有一条不满足。图 1.6（b）表示可能存在两种不同的场景对应同一幅图像。此时由于投影过程的信息丢失，致使重构所需信息严重缺乏，重构过程存在极大的偶然性，重构结果不唯一，需要在众多有歧义的解簇中确定唯一解。非适定重构目前是研究的热点，也是难点。

图1.6 适定与非适定3D重构

图1.6 适定与非适定3D重构（续）

适定重构与非适定重构的数学原理可用表1-2描述。

由上述可知，基于适定重构的立体视觉可以很好地避免3D重构的病态现象。例如，对于同一个场景，采用两个相机，从不同角度得到多幅不同视差的图像，从而可得到场景的深度信息。但是，人类视觉却可从单幅图像中轻松获得深度信息，因为人们可以利用日常积累的经验知识。因此，基于单幅图像的3D重构一直是计算机视觉领域极具挑战性的研究热点之一，在逆向工程、医学图像辅助治疗、建筑学、考古及古迹保护、地质考察、遗迹复原等领域具有巨大的应用价值。

1.2.2 发展概况

由式（1.1）可知，基于图像的3D重构的根本任务是，根据2D图像点m求出对应的空间点M，进而估算3D场景及所包含对象的深度信息，最终解决“图像看起来像什么”的问题。其本质是从2D图像观察3D几何信息，其关键步骤是精确标定投影矩阵F。

1.基本理论

目前较常用的3D重构理论是分层重构理论，即分三个层次分别实现对象重构。第一个层次是射影重构，即从图像获得3D物体的射影结构。此阶段不需要附加任何先验知识，仅从图像本身即可获得所需信息；第二个层次是仿射重构，即利用先验知识获得物体的仿射结构，需要知道无穷远平面或无穷远单应性矩阵；第三个层次是度量重构，即利用先验知识获得物体的度量结构，一般需要知道相机的内外参数，或绝对二次曲线、绝对二次曲面等可用于标定相机参数的图像测量信息。

经过数十年的发展，目前已涌现出许多优秀的3D重构理论、技术和算法，有针对图形的，如机械制造中基于三视图的重构，主要目标是保证重构结果的真实可靠和理解上的无二义性；有针对图像的，如遥感图像、CT 图像等；有基于多视图的 ^[3～6] ，也有基于单视图的 ^[7～11] 。

2.基本方法

针对基于图像3D重构过程的主体对象，现有重构方法大致可分为两大类。一类是主动式，即利用场景或对象自身的一些特征，如几何特征和纹理特征等来提取物体表面的 3D信息并进行建模。主动式重构对工作环境、摄像设备没有特殊要求，容易实现，在军事、遥感测量、机器人导航等方面有着广泛的应用基础，受到各国研究人员的高度重视，取得了丰硕的成果，涌现出一大批有效的算法。其中最著名的是SFM（Shape From Motion，基于运动的形状表面重构） ^[12] ，并由此衍生出一大类算法，如SFPS（Shape From Photometric Stereo，基于光度立体视觉的形状表面重构）、SFS（Shape From Shading，基于明暗度的形状表面重构）、SFT（Shape From Texture，基于纹理的形状表面重构）、SFC（Shape From Contour，基于轮廓的形状表面重构）等。这些方法的一个共同缺陷是，当用于单幅图像的3D重构时表现为病态解，因而需要对场景做一些额外假定，并且需要具备重构对象的某些先验知识，当理想条件与实际情况有较大出入时，重构结果可能变得面目全非，而且难以获得高精度的3D信息。另一类是被动式 ^[13～16] ，即需要手工在物体表面做某种标记，如条纹或阴影，并且根据这些信息建模或由传感器获得三维信息。因此，这种方式需要使用专门的扫描光源等比较复杂的设备，故获取的3D信息精度较高。

目前主要是利用激光扫描的各种结构光方法，但其设备比较复杂，体积、重量比较大，造价也十分昂贵，其作用距离也比较短。目前的大多数技术都需要分析提取真实世界的2D几何特性，如垂直面 ^[17] 、水平面 ^[18] 、矩形结构 ^[19] 、对称结构 ^[20] 等。对于单幅图像通常需要交互处理，即由用户提供场景的结构信息和约束条件，如消隐点、消隐线、共面等。交互3D重构 ^{[13,14,21,22,23,24,25,26]} 不需要相机的任何先验知识，可在重构过程中根据获得的信息估计相机的各类参数。

若根据3D重构对象的不同，也可大致分为两类：一是照片几何方法，即基于照片中几何对象的模型化；二是光度测量法，主要基于光度测量模型化。不同的具体应用背景，对所需输入信息的需求也不一样。有的重构任务仅需要3D空间点的稀疏集即可，即只需要输入图像的少部分像素信息。而有的重构任务则需要稠密重构，需要考察输入图像的每一个像素的尽可能多的信息。另外还可能需要其他一些重要的信息，诸如物体对象的尺寸、形状及材质，输入图像的数量，光源或相机的相对位置等。

3.基本问题

关于3D重构，主要涉及三个问题。

（1）输入数据的数量或类型。这依赖于输入视图的多少。多视图重构 ^[3,4,5,6] 使用场景或对象的两个以上的视图，而单视图 ^[7] 仅使用单个视图。立体视图 ^[27] 是多视图的特例，使用两个视图。

（2）输出的一般化描述。主要有容积表示 ^[11] 和表面表示 ^[28] 。容积表示将包围物体的体积离散化为体元，从而估计可以按某种度量规则拟合输入图像的体元的占有率。表面表示法为物体构造虚拟的网状覆盖面 ^[29] ，即可观察的外部轮廓。一般来说，多视图重构采用一般化表示法，较少使用先验知识。

（3）先验知识的复杂性。为了保证更多的对象能被精确估计，通常定义概率密度（即能量函数）作为一种先验知识，可用于定义两个重构结果之间的微小差异。例如，容积表示中的平滑性 ^[30] 、削面的平坦性 ^[31] 、角度的相似性 ^[32] 、基于表面重构的长度 ^[10] 、能量函数的平滑性 ^[8] 、连接角的生存发育性 ^[9] 等。相比于强制约束，定义先验知识的好处是，可以针对特定数据自动训练出先验知识，而不必重新设计新的表示方法。

正如前面所述，基于图像的3D重构是一个病态逆向问题，如果没有额外的假定条件，基于单幅图像的重构可能存在无数解，这是因为存在歧义性或存在重叠图案。因此，需要附加某些假定条件以消除或缓解歧义性。但是，这些假定通常并非总是有效，尤其在实际世界中，如树、丛林等。另外，即使消除了歧义性，获得精确解仍然是个难题。因为在成像过程中不可避免地存在各种噪声和畸变失真，这些现象都难以被模型化或有效补偿。因此，根据具体的场景构型寻找一种有效、健壮的数学模型是3D重构的核心问题。例如，若已知研究对象是一辆汽车，则可使用特殊模型（对称性、轮胎椭圆性等）来约束上述重构模型。其他的，诸如城市街道、建筑物、天体图像等都可按这种思路进行。