购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2 基于图像的3D重构

计算机视觉的终极目标是从所“看”到的场景中识别出感兴趣的对象,即从2D图像中重构出3D对象模型,主要包含图像处理、模式识别、景物分析、图像理解等基本处理过程。但是,由于投影过程中丢失了景深信息或因遮挡而遗漏了部分有用信息,将可能导致不同形状的3D对象投影到图像平面上形成了相同或类似的图像,这就是投影歧义性。图1.4展示了常见的投影歧义性。

图1.4 常见的投影歧义性

另外,其他因素的不良影响,诸如光线差异、观察角度偏差、研究人员的认知水平与经验存在较大差距等,都可能给图像重构造成极大的困难。所有这些都可能导致基于图像的3D重构陷入一种病态。

在计算机视觉领域,基于图像的3D重构一直是被普遍关注的研究热点,也是大多数基于计算机的事件模拟和可视化应用的普遍需求,包括地学分析、机器人导航、犯罪场景复原、飞行模拟、游戏娱乐、特技表演、建筑设计、旅游指南及虚拟博物馆等。另外,3D 重构技术在考古及古迹保护方面也有特殊的应用。由于不可预测的火灾、地震、洪水、自然腐蚀、战争等天灾人祸,大量的历史文物面临抢救性保护,需要为子孙后代或历史研究保留一些珍贵遗迹,或者复原考古发现的珍贵文物,这些都需要借助3D重构技术来修复、重建。另外,3D电视的诞生和普及,也需要通过3D重构技术将现有的大量2D资源转换为3D视频。所有这些,对于人类视觉系统而言也许是轻而易举的事,但对于机器视觉而言,则面临巨大的挑战,既需要突破现有的理论瓶颈,又需要寻找合理可行的实践方法。

1.2.1 3D重构的数学原理

人眼观察到的都是3D现实世界。使用数码相机等普通设备对周围场景拍照或摄像,得到的一般是2D真实图像;或者使用3D扫描设备采集3D场景数据,再通过图像重建得到合成图像。这个过程统称为成像。图1.5演示了图像合成的数学原理。

图1.5 图像合成的数学原理

基于图像的3D重构可看成上述成像过程的逆过程,是指根据2D图像再现3D物体形状。这两个过程中的数学原理见表1-1和表1-2。

表1-1 成像过程及其逆过程的数学原理

表1-2 适定重构与非适定重构的数学原理

根据已知量的组成结构,基于图像的3D重构技术大致可分为适定和非适定两种类型。

(1)适定重构。即满足解是存在的、解是唯一的、解连续依赖于定解条件三个基本条件。图 1.6(a)表示了同一场景可以对应两幅以上不同的图像。这种情况下的3D重构理论和技术目前较为成熟,较典型的是立体视觉重构,得到了较广泛的应用。

(2)非适定重构。即上述三个条件至少有一条不满足。图 1.6(b)表示可能存在两种不同的场景对应同一幅图像。此时由于投影过程的信息丢失,致使重构所需信息严重缺乏,重构过程存在极大的偶然性,重构结果不唯一,需要在众多有歧义的解簇中确定唯一解。非适定重构目前是研究的热点,也是难点。

图1.6 适定与非适定3D重构

图1.6 适定与非适定3D重构(续)

适定重构与非适定重构的数学原理可用表1-2描述。

由上述可知,基于适定重构的立体视觉可以很好地避免3D重构的病态现象。例如,对于同一个场景,采用两个相机,从不同角度得到多幅不同视差的图像,从而可得到场景的深度信息。但是,人类视觉却可从单幅图像中轻松获得深度信息,因为人们可以利用日常积累的经验知识。因此,基于单幅图像的3D重构一直是计算机视觉领域极具挑战性的研究热点之一,在逆向工程、医学图像辅助治疗、建筑学、考古及古迹保护、地质考察、遗迹复原等领域具有巨大的应用价值。

1.2.2 发展概况

由式(1.1)可知,基于图像的3D重构的根本任务是,根据2D图像点m求出对应的空间点M,进而估算3D场景及所包含对象的深度信息,最终解决“图像看起来像什么”的问题。其本质是从2D图像观察3D几何信息,其关键步骤是精确标定投影矩阵F。

1.基本理论

目前较常用的3D重构理论是分层重构理论,即分三个层次分别实现对象重构。第一个层次是射影重构,即从图像获得3D物体的射影结构。此阶段不需要附加任何先验知识,仅从图像本身即可获得所需信息;第二个层次是仿射重构,即利用先验知识获得物体的仿射结构,需要知道无穷远平面或无穷远单应性矩阵;第三个层次是度量重构,即利用先验知识获得物体的度量结构,一般需要知道相机的内外参数,或绝对二次曲线、绝对二次曲面等可用于标定相机参数的图像测量信息。

经过数十年的发展,目前已涌现出许多优秀的3D重构理论、技术和算法,有针对图形的,如机械制造中基于三视图的重构,主要目标是保证重构结果的真实可靠和理解上的无二义性;有针对图像的,如遥感图像、CT 图像等;有基于多视图的 [3~6] ,也有基于单视图的 [7~11]

2.基本方法

针对基于图像3D重构过程的主体对象,现有重构方法大致可分为两大类。一类是主动式,即利用场景或对象自身的一些特征,如几何特征和纹理特征等来提取物体表面的 3D信息并进行建模。主动式重构对工作环境、摄像设备没有特殊要求,容易实现,在军事、遥感测量、机器人导航等方面有着广泛的应用基础,受到各国研究人员的高度重视,取得了丰硕的成果,涌现出一大批有效的算法。其中最著名的是SFM(Shape From Motion,基于运动的形状表面重构) [12] ,并由此衍生出一大类算法,如SFPS(Shape From Photometric Stereo,基于光度立体视觉的形状表面重构)、SFS(Shape From Shading,基于明暗度的形状表面重构)、SFT(Shape From Texture,基于纹理的形状表面重构)、SFC(Shape From Contour,基于轮廓的形状表面重构)等。这些方法的一个共同缺陷是,当用于单幅图像的3D重构时表现为病态解,因而需要对场景做一些额外假定,并且需要具备重构对象的某些先验知识,当理想条件与实际情况有较大出入时,重构结果可能变得面目全非,而且难以获得高精度的3D信息。另一类是被动式 [13~16] ,即需要手工在物体表面做某种标记,如条纹或阴影,并且根据这些信息建模或由传感器获得三维信息。因此,这种方式需要使用专门的扫描光源等比较复杂的设备,故获取的3D信息精度较高。

目前主要是利用激光扫描的各种结构光方法,但其设备比较复杂,体积、重量比较大,造价也十分昂贵,其作用距离也比较短。目前的大多数技术都需要分析提取真实世界的2D几何特性,如垂直面 [17] 、水平面 [18] 、矩形结构 [19] 、对称结构 [20] 等。对于单幅图像通常需要交互处理,即由用户提供场景的结构信息和约束条件,如消隐点、消隐线、共面等。交互3D重构 [13,14,21,22,23,24,25,26] 不需要相机的任何先验知识,可在重构过程中根据获得的信息估计相机的各类参数。

若根据3D重构对象的不同,也可大致分为两类:一是照片几何方法,即基于照片中几何对象的模型化;二是光度测量法,主要基于光度测量模型化。不同的具体应用背景,对所需输入信息的需求也不一样。有的重构任务仅需要3D空间点的稀疏集即可,即只需要输入图像的少部分像素信息。而有的重构任务则需要稠密重构,需要考察输入图像的每一个像素的尽可能多的信息。另外还可能需要其他一些重要的信息,诸如物体对象的尺寸、形状及材质,输入图像的数量,光源或相机的相对位置等。

3.基本问题

关于3D重构,主要涉及三个问题。

(1)输入数据的数量或类型。这依赖于输入视图的多少。多视图重构 [3,4,5,6] 使用场景或对象的两个以上的视图,而单视图 [7] 仅使用单个视图。立体视图 [27] 是多视图的特例,使用两个视图。

(2)输出的一般化描述。主要有容积表示 [11] 和表面表示 [28] 。容积表示将包围物体的体积离散化为体元,从而估计可以按某种度量规则拟合输入图像的体元的占有率。表面表示法为物体构造虚拟的网状覆盖面 [29] ,即可观察的外部轮廓。一般来说,多视图重构采用一般化表示法,较少使用先验知识。

(3)先验知识的复杂性。为了保证更多的对象能被精确估计,通常定义概率密度(即能量函数)作为一种先验知识,可用于定义两个重构结果之间的微小差异。例如,容积表示中的平滑性 [30] 、削面的平坦性 [31] 、角度的相似性 [32] 、基于表面重构的长度 [10] 、能量函数的平滑性 [8] 、连接角的生存发育性 [9] 等。相比于强制约束,定义先验知识的好处是,可以针对特定数据自动训练出先验知识,而不必重新设计新的表示方法。

正如前面所述,基于图像的3D重构是一个病态逆向问题,如果没有额外的假定条件,基于单幅图像的重构可能存在无数解,这是因为存在歧义性或存在重叠图案。因此,需要附加某些假定条件以消除或缓解歧义性。但是,这些假定通常并非总是有效,尤其在实际世界中,如树、丛林等。另外,即使消除了歧义性,获得精确解仍然是个难题。因为在成像过程中不可避免地存在各种噪声和畸变失真,这些现象都难以被模型化或有效补偿。因此,根据具体的场景构型寻找一种有效、健壮的数学模型是3D重构的核心问题。例如,若已知研究对象是一辆汽车,则可使用特殊模型(对称性、轮胎椭圆性等)来约束上述重构模型。其他的,诸如城市街道、建筑物、天体图像等都可按这种思路进行。 iXnCfap9ns8o6Wemad+dQ7qM8CKywQJsZqlnAZiPnecwKLIz/SUU9jUYZGWI8K2p

点击中间区域
呼出菜单
上一章
目录
下一章
×