购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2 图像场景理解的发展历程

1.2.1 图像场景语义分割与标记

语义是图像场景理解的重要因素,它从不同角度连接起了图像场景理解的多个研究方向,是图像、语音、文字等多模态信息应用的纽带。

语义分割,又称为语义标记,是计算机视觉、图像处理、场景理解领域的基础性问题,许多学者致力于该方向的研究并取得了一定的进展。它的目标是对图像中的每一个像素赋予唯一的语义类别标记。图1-2所示为图像场景语义分割的目标,图1-2a为输入图像,图1-2b为输入图像对应的语义分割结果的可视化,其中不同的颜色代表不同的语义类别,如绿色代表草地,蓝色代表羊。

图1-2 图像场景语义分割目标

早期,学术界较多关注于底层图像分割,例如,美国加利福尼亚大学伯克利分校的计算机视觉研究小组一直关注于底层图像分割,并从2000年开始,取得了一系列的研究成果 [2-6] 。底层图像分割的目标是把图像划分成不同区域,虽然每个区域不具有对象和语义的信息,一个对象有可能被划分为多个区域,但是至少划分得到的每个区域内的像素属于同一个对象。以文献[3]为例,2003年,该研究小组的成员提出了一种基于分类模型的图像区域分割方法,该方法适用于二分类的问题。该研究小组成员认为:对于一张图像,人手标注的分割结果是这张图像分割结果的正样本,而另一张不相同的甚至差别很大的图像的人手标注分割结果对这张图像分割结果来说是负样本。基于这种假设,该方法根据信息学理论,分析轮廓、纹理、亮度等格式塔经典特征的作用。最后利用这些特征训练逻辑回归分类器,通过分类器求解图像的分割结果,部分结果如图1-3所示。可以看到,这种底层分割是区域的划分,不具有高层的语义信息和对象信息。

同时期,交互式的对象提取与分割成为一种热门的研究方法,有些学者在这方面进行了很多研究工作,得到的成果包括GrabCut [7] 、Lazy Snapping [8] 、Geodesic Matting [9] 等。2004年,英国微软剑桥研究院的Rother等提出了GrabCut算法。用户只需用方框将前景对象框出,在方框以外的像素被默认为是背景区域,前景对象框即是用户给出的先验知识。该算法通过构建前景对象和背景区域的GMM模型,自动地将这个方框中的前景对象的区域分割出来,如图1-4中第一行所示。同年,微软剑桥研究院的Li等提出Lazy Snapping,即“懒汉抠图”方法 [8] 。如图1-4中第二行所示,在前景和背景上各自标记划线,这些划线离真正的边界有一定的距离。Lazy Snapping算法取样划线上的特征,构建前景/背景模型,自动求解前景/背景区域。用户还可以在此结果上增加交互,对区域边界进行细微调整,完善分割结果,甚至合成新的场景。类似的方法还有2007年美国明尼苏达大学Bai和Sapiro提出的基于测地线框架的前景对象提取方法 [9] 。另外,还有一些交互式的前/背景分割方法 [10-12] ,也取得了较为快速、鲁棒的底层图像分割结果。

图1-3 底层图像分割结果 [3]

图1-4 交互式对象提取与区域分割 [7-9]

虽然底层图像分割没有识别出每个区域的语义信息,只是将具有某种共同属性的像素划分为同一个区域,但这为图像语义分割提供了基础。随着底层图像分割和模式识别技术的发展,这两者的结合成为一种趋势。图像场景语义分割和标记,即同时得到对象的语义和区域轮廓信息,成为计算机视觉热门的研究方向,并取得了广泛的关注。

2006年,英国微软剑桥研究院的Shotton等在ECCV会议(欧洲计算机视觉会议)上提出了一种自动识别并分割对象的方法 [13] 。该方法作为图像场景语义分割和标记的经典代表,为该研究方向的发展奠定了基础。该方法继承了传统模式识别的特点,开创性地提出了一种新颖的特征基元texton,并且提出了一种基于特征基元的滤波器texture-layout。特征基元texton包含了图像中的纹理特征和形状特征,滤波器texture-layout则隐性地构建了各特征基元texton之间的布局关系layout。利用模式识别的学习算法,分段学习每一部分特征所构建的模型,从而快速学习出每一种语义类别的判别式模型。该方法在训练的过程中能够随机选择合适的特征,并且分段学习快速得到模型,使得在类别繁多的数据集中求解场景对象分割和标记成为可能。部分结果如图1-5所示,其中第一行和第三行是输入图像,第二行和第四行是对应的语义分割和标记结果,不同颜色对应的语义信息显示在图中最下方的条形表中。

图1-5 Textonboost图像场景语义分割和标记 [13,14]

随后有学者将这种基于模式识别的思路应用于街景图像的语义分割。2009年,香港科技大学的Jianxiong Xiao和Long Quan在ICCV会议(国际计算机视觉会议)上提出了一种简单有效的多视角下街景图像的语义分割方法 [15] 。该方法获取数据的方式是:将数据采集设备固定在汽车上,在汽车沿街行驶时采集街景的2D图像信息和3D深度信息。为了加速训练过程和提高识别的准确率,该方法自适应地为输入图像选择相似的街景图像序列作为训练数据集,这种提高准确率的训练方式具有一定的启发意义(图1-6)。另外,这种工作框架还能用于实现大数量级3D信息的语义标记。

图1-6 多视角下街景图像的语义分割 [15]

随着互联网技术的发展,网络逐渐成为一种有效的沟通交流渠道。用户通过互联网可以在线共享海量的图像数据,例如在线下载LabelMe数据集 [6] 中的图像。大规模数据的获得越来越方便,为数据驱动下的非参数模型方法提供了可能性。这种非参数模型方法被应用到图像场景语义分割和标记中。

2009年,美国麻省理工学院的Liu等在CVPR会议(计算机视觉与图像识别会议)上提出了一种非参数的场景解析方法(Label Transfer) [17] ,用于处理场景对象语义识别,并第一次将这种非参数的语义分割方法定义为语义迁移方法。给定一幅输入图像,该方法首先利用GIST匹配算法从海量数据集里搜索得到输入图像的最相似图像,称之为最近邻图像;然后利用一种改进的、由粗到细的SIFT流匹配算法对这些最近邻图像进行匹配、评分,并根据分值重排序。选择重排序后的相似图像作为备选图像集合。这种SIFT流匹配算法能够实现两幅图像的结构对齐并建立对应关系。基于这种对应关系,将备选图像集合中相似图像的语义标记映射到给定的输入图像上并进行优化,得到图像场景语义标记迁移的最终解,即实现了输入图像的语义分割和标记。其过程如图1-7所示,图1-7a为输入图像,图1-7b为通过SIFT流匹配后的备选图像集合,图1-7c为相似图像的语义标记图,图1-7d为求解得到的语义标记结果,图1-7e为语义标记的groundtruth。Liu等开创性地提出了语义迁移的概念,为后来学者开辟了一条崭新的路径,后续有很多该领域的研究工作 [18-20]

2010年,美国麻省理工学院的Xiao和香港科技大学的Zhang等在ECCV会议上提出了一种针对街景图像的有监督的场景语义迁移方法 [19] 。该方法认为,对于一张输入图像,它不一定与数据集中的某一张图像非常相似,可能只是局部的相似。也就是说,输入图像的某些区域分别与数据集中不同图像的某些区域相似。基于这种假设,该方法认为应该根据数据集中多张不同的图像来进行语义迁移,而不是仅根据一张最相似的图像来进行语义迁移,这是该方法与Label Transfer的区别所在。如图1-8所示,给定一幅输入的街景图像,该方法首先从已经手动标好语义标记的数据集中搜索得到多个小型数据集,并且每个小型数据集中都涵盖了输入图像所包含的语义类别。利用该方法提出的KNN-MRF匹配机制,建立输入图像和每个小型数据集的对应关系。利用训练好的分类器对这些对应关系进行分类,舍弃不正确的对应关系。在对应关系分类之后,通过MRF模型优化得到输入图像的最终语义标记结果。该方法将监督学习机制和非参数的语义迁移方法相结合,具有一定的借鉴意义。

图1-7 Label Transfer图像场景语义迁移结果 [17]

图1-8 街景图像的语义迁移结果 [19]

当一些图像场景中存在相似的或相同的对象时,将多张图像中的相似对象同时分割出来成为一种需求和趋势。微软剑桥研究院的Rother等提出了对象共分割的概念 [21] ,认为多张图像相似对象同时分割比单独一张图像对象分割时能够提高分割准确率。此后,许多学者在对象共分割的方向上进行了探索 [22-24] 。2012年,卡内基梅隆大学的Kim和Xing在CVPR大会上,提出一种多张图像前景对象共分割方法 [25] 。该方法针对的情况是,在一个图像集合中有一些重复多次出现的前景对象,但每一张图像中不一定包含所有这些前景对象,可能只包含一部分,甚至视角也不同。该方法利用图像集合中多个前景对象共存在的先验,通过交互在前景对象模型和区域分配模型之间灵活变化,在公共数据集上取得了不错的效果,如图1-9所示。虽然对象共分割取得了一定的发展,但是共分割方法还没有应用于图像对象语义分割。

图1-9 多张图像前景对象共分割结果 [25]

2014年,美国加州大学默塞德分校的Yang等在CVPR会议上,提出一种关注于稀少类别的上下文驱动的场景解析方法 [26] 。场景中的稀少类别大多是在场景中所占比例较小或者较少的类别,同时这些稀少类别对场景理解的作用非常重要,而目前大多数场景解析的方法忽略了这些稀少类别的语义标记。该方法将语义迁移的方式和增强训练的方式相结合,如图1-10所示,根据检索得到输入图像的相似图像,并增加相似图像中稀少类别的样本。在超像素级别的匹配上,该方法利用上下文信息反馈机制增加匹配的准确度,构建MRF模型并求解最终语义标记结果。

卷积神经网络(Convolutional Neural Networks, CNN)是深度学习的代表算法,近年来广泛应用于目标检测、识别、图像分类方面,取得了突破性的进展,效果显著提升。卷积神经网络除了输入输出外通常包含卷积层(Convolutional layer)、线性整流层(ReLU layer)、池化层(Pooling layer)和全连接层(Fully-Connected layer)。卷积层的功能是对输入数据进行特征提取,在感受野区域利用卷积核操作提取局部特征。池化层通过降采样(downsamples)对卷积层的输出特征进行选择,减少模型参数训练的复杂度,提高所提取特征的鲁棒性。全连接层对提取的特征进行非线性组合,以得到回归分类输出。

图1-10 关注于稀少类别的上下文驱动的场景解析方法 [26] ,蓝色矩形中为普通类别,黄色矩形中为稀少类别,在右边的条形类别分布图中可看到,增强后的稀少类别样本(黄色)比增强前(蓝色)分布更均衡

卷积神经网络的第一个成功应用是由Yann LeCun提出的LeNet结构 [27] ,应用在手写字体识别上。此后,卷积神经网络的特征学习能力得到了关注,并伴随着庞大的标注数据集的出现以及计算机硬件性能的提高(如GPU),推动了深度学习的发展。ILSVRC(ImageNet Large Scale Visual Recognition Challenge)是近年来视觉领域权威学术竞赛之一,竞赛使用的数据集ImageNet是由斯坦福大学李飞飞教授等人于2009年提出的,随后从2010年开始每年举办一届比赛,直到2017年。历年来的ILSVRC挑战赛上,不断涌现出优秀的算法和模型,例如2012年的AlexNet [28] 、2013年的ZF Net [29] 、2014年的GoogLeNet [30] 和VGGNet [31] 、2015年的ResNet [32] (残差神经网络)。

首次在计算机视觉中普及深层卷积网络的是AlexNet,该网络的基本架构与LeNet类似,但其网络结构更深、更大,并成功应用了ReLU、Dropout,取得了远超第二名的结果。ZF Net是对AlexNet的改进,它调整了结构的参数,通过可视化技术揭示了各层的作用,从而能够帮助选择好的网络结构,并迁移到其他数据集。GoogLeNet是2014年ILSVRC的冠军,它的主要贡献是提出了Inception架构,使用已有的稠密组件来近似卷积网络中的最优局部稀疏结构,大大减少了网络中的参数数量,更高效地利用计算资源。此外,架构在顶部使用平均池(average pooling)来代替全连接层,消除了大量似乎无关紧要的参数。VGGNet是2014年ILSVRC的亚军,它证明了通过增加网络的深度可实现对现有技术性能的显著改进。该网络包含16~19层,并且整个网络都使用了同样大小的3×3卷积核和2×2池化核。VGGNet迁移到其他数据上的泛化性也比较好,是当前提取图像特征常用的网络模型,并且在Caffe中可以下载使用预训练模型。它的缺点是参数量较多,需要较大的存储空间(140M)。由微软研究院Kaiming He等人开发的残差网络ResNet是ILSVRC 2015的获胜者,它的提出是为了简化深度模型的训练。它在架构上使用残差学习,使得网络深度增加时没有出现退化问题,让深度发挥出作用。

卷积神经网络在目标检测、识别、分类方面取得了突破性的进展,而语义分割可以认为是一种稠密的分类,即实现每一个像素所属类别的分类,因此基于卷积神经网络的语义分割成为自然而然的趋势。2015年,加州大学伯克利分校的研究人员将卷积神经网络引入语义分割的领域内,首次提出全卷积网络(FCN) [33] ,是语义分割进入深度学习时代的里程碑。FCN网络结构是不含全连接层的全卷积网络,把CNN网络中的全连接层都换成卷积层,这样就可以获得二维的特征图,再利用反卷积层对特征图进行上采样,使它恢复到与原图相同的尺寸进行分类,输出与原图大小相同的像素级分类结果,即dense prediction,如图1-11所示。FCN可以接受输入任意大小的图片,不再受限于CNN的区域输入。

图1-11 场景语义分割的全卷积网络FCN [33] ,将全连接层转换为卷积层使得分类网络能够输出与图像相同尺寸的热图

虽然FCN实现了基于卷积网络像素级语义分割的稠密预测,但得到的结果还不够精细,图像中的边缘细节部分比较模糊和平滑,缺少了空间关系的考虑。许多研究人员在CNN和FCN网络模型的基础上进行改进,陆续提出了一系列的基于卷积网络的语义分割算法。

例如,剑桥大学的SegNet网络 [34] ,由编码器网络、相应的解码器网络以及像素级分类层组成。其编码器网络的结构与VGG16网络的13个卷积层相同,解码器网络的作用是将低分辨率的编码器特征映射到与输入相同分辨率的特征图,以便进行像素级分类,这种映射需要有助于精确边界定位的特征。SegNet的新颖之处在于,在编码时为最大池化计算池索引(pooling indices),在对应的解码时使用池索引来执行非线性上采样,这样就不需要训练学习上采样,同时改进了边界划分。韩国科研人员认为FCN网络中固定大小的感受野可能引起错误的标记,过大的对象可能会标记为不同类别,或者过小的对象被忽略或记为背景。再者,由于输入到反卷积层的标签图过于粗糙、反卷积过程过于简单,常常会丢失或平滑掉对象的结构细节。因此,他们提出一种多层的反卷积网络DeconvNet [35] 。DeconvNet网络由卷积网络部分和反卷积网络部分组成,卷积网络部分使用了VGG16,反卷积网络部分由反卷积(deconvolution)层、上池化(unpooling)层和激活函数(rectifiedlinear unit, ReLU)层组成。训练好的网络可以得到实例级的分割结果,然后将这些分割结果进行合并,得到最终的语义分割结果。

DilatedNet [36] 是在不丢失分辨率的情况下聚合多尺度上下文信息的卷积网络模块,由普林斯顿大学和英特尔实验室专门为稠密预测而设计。它是一个卷积层的矩形棱镜,没有池化或子采样。该模块基于扩展卷积,支持感受野的指数扩展,而不损失分辨率或覆盖范围,可以以任何分辨率插入现有网络体系结构。Deeplab [37] 是谷歌团队结合了深度卷积神经网络(DCNNs)和概率图模型(DenseCRFs)两类方法而得到的系列网络模型,目前已更新4个版本。其主要创新之处在于:①对不同尺度大小的对象,提出多孔空间金字塔池化(ASPP)模块,在卷积之前以多种采样率在给定的特征层上进行重采样;②使用全连接条件随机场(CRF)来恢复局部结构的细节,将每个像素视为CRF节点,使用CRF推理优化,得到边缘轮廓更清晰的分割结果。

RefineNet [38] 是由澳大利亚阿德莱德大学研究人员提出的一种基于FCN的多路径优化网络,他们认为各层的特征都有助于语义分析分割,高层的语义特征有助于图像区域的类别识别,而低层的视觉特征有助于生成清晰、细致的边界。因此,RefineNet利用了下采样过程中的所有可用信息,使用远程残差连接实现高分辨率预测,浅层卷积层获得的细颗粒度特征可以直接以递归的方式优化深层获得的高层语义特征。RefineNet中的所有组件都使用恒等映射的残差连接,这样梯度能够通过短距离和长距离的残差连接传播,从而实现高效的端到端训练。同时还提出了链式残差池化模块,使用多个窗口尺寸获得有效的池化特征,并使用残差连接和学习到的权重融合到一起,从而在较大的图像区域获得背景上下文。

通过分析国内外研究现状发现,在深度学习时代之前,图像场景语义分割的方法主要分为有参数解析方法和非参数解析方法,这两类方法基本上都是手工设定所需特征并进行处理,通过构建CRF或者MRF模型来进行优化求解。而前/背景分割方法一般不需要构建CRF或者MRF模型,因此能够快速得到分割结果,但是这类方法只能处理二类对象的分割问题。因此如何将前两类方法与后一类方法的优势相结合,应用到图像场景语义分割上,成为一个值得考虑的问题。在深度学习时代,卷积神经网络在特征提取和计算能力上具有显著的优势,包括上述典型网络模型在内的许多基于卷积神经网络的方法,基本处理方式都是前端使用CNN/FCN进行特征粗提取,后端使用CRF/MRF场结构模型优化前端的输出,改善前端边缘细节的划分,最后得到分割图。

1.2.2 图像场景几何结构估计

图像是三维客观世界在二维平面的投影,对图像场景的全面理解不仅包含理解场景对象,还应包含理解场景对象之间的空间结构关系。图像场景几何结构估计是为了理解图像场景对象的空间关系,包括对象之间的遮挡关系、对象之间的相对位置关系、对象区域深度信息粗略估计等,它建立在对图像场景对象区域理解的基础上。

国内外在图像场景几何结构估计方面的研究主要集中在遮挡边界估计 [39-41] 、图像深度信息估计 [42-44] 、三维空间结构估计 [45-47] 等方面。处理遮挡边界估计的方法,需要根据底层图像分割方法得到图像中的边界,在此基础上,估计边界左右区域的遮挡关系。处理图像深度信息估计的方法,早期通过建立图像特征与深度的关联关系来估计图像深度信息,后来有学者将图像场景语义信息用来辅助指导深度信息估计。进入深度学习时代以来,鉴于FCN网络在场景语义分割方面的优秀表现,FCN也被广泛应用于其他密集预测任务,例如深度估计。在三维空间结构估计方面,三维空间关系的估计通常伴随着图像区域划分,两者相辅相成,其中图像特征起到了约束和指导的作用。

1. 图像场景遮挡边界估计方面

二维图像平面是真实三维世界的投影,由于投影视角原因,三维世界中的物体投影到二维平面时经常会出现遮挡现象。根据心理学理论,遮挡关系会引起人类感知系统对图像内容产生多种不同的理解。因此,理解图像场景的层次关系和遮挡关系有助于理解图像场景背后隐含的三维空间关系。图像遮挡边界估计是该领域最早关注的焦点,主要研究工作是对检测到的边界进行遮挡关系判定。

1990年,美国哈佛大学的Nitzberg和Mumford在ICCV会议上提出了2.1D sketch概念 [39] ,即将图像域根据遮挡关系的秩序划分成不同区域,在分割图像的同时能够恢复出基于底层视觉感知的粗略图像深度信息。2006年,美国加利福尼亚大学伯克利分校的Ren等在ECCV会议上提出一种自然图像前/背景区域划分的方法 [40] ,通过一种集成了凸状和平行特征的局部形状模式表达方式,在一定程度上恢复出区域的遮挡层次关系。2007年,美国卡内基梅隆大学的Hoiem等在ICCV会议上提出了基于单幅图像的遮挡边界恢复方法 [41] ,从人类感知的角度出发,来恢复图像中的遮挡边界和垂直无依附物体的粗略深度信息。该方法利用了传统的边特征、区域特征,同时还利用了3D平面特征和深度特征,将这些特征用来推理遮挡边界,同时也能预测出平面的类别,最终将场景中的遮挡边界以及遮挡边界两边区域的遮挡关系恢复出来。部分结果如图1-12所示,左列为遮挡边界恢复结果,右列为深度信息恢复结果。蓝色线条代表遮挡边界,黑色线条代表与地面有接触的区域边界。在这种遮挡边界表示方式中,遮挡边界上的箭头代表了遮挡边界的方向,遮挡边界左边的区域遮挡了右边的区域。在深度图中,红色代表像素深度小,蓝色代表像素深度大。2009年,卡内基梅隆大学的Stein和Hebert在计算机视觉领域顶级国际期刊IJCV上发表了一种从运动视频中恢复遮挡边界的方法 [48] 。该方法认为,遮挡边界中包含了丰富的3D结构信息和物体形状信息,遮挡边界的准确识别有助于很多计算机视觉领域问题的解决,包括底层图像处理方面的问题到高层图像理解方面的问题。2011年,美国加州大学伯克利分校的Sundberg等在CVPR会议上提出一种基于光流的遮挡边界检测和前/后景划分的方法 [49] 。该方法针对视频数据,利用了动作线索和光流特征,检测识别遮挡边界,并且根据遮挡关系划分相邻区域的深度序列,如图1-13所示。

图1-12 基于单幅图像的遮挡边界恢复 [41]

图1-13 基于光流的遮挡边界检测和前/后景划分的方法 [49] ,左图为输入图像,右图为该方法遮挡边界检测结果,绿色边界表示前景区域,红色边界表示后景区域

2. 图像场景深度信息估计方面

图像场景几何结构估计的第二个方向是从单幅图像恢复出每一个像素点的深度信息。2005年,美国斯坦福大学的Saxena等在NIPS会议上提出一种基于监督学习的方法来估计单幅图像场景的深度信息 [42] 。该方法主要针对室外场景图像,场景中有树木、建筑,草地等语义类别,将扫描得到的深度信息作为训练数据。利用了MRF场结构模型,结合多尺度特征、领域特征,求解得到每点像素的深度信息。如图1-14所示,该方法采用了三个尺度上的四邻域特征,通过训练MRF场结构模型,建立了特征和深度信息的映射关系。2008年,Saxena等将此方法进一步推进,在领域内的国际顶级期刊PAMI上发表了由单幅图像直接恢复三维场景信息的方法 [43] ,如图1-15所示,实验结果与基准深度数据比较接近。

图1-14 单幅图像场景深度信息估计方法 [42] 的四邻域特征

图1-15 单幅图像场景深度信息估计方法结果 [43]

2010年,美国斯坦福大学的Liu等在CVPR会议上提出一种基于语义标记预测的单幅图像深度信息估计方法 [44] 。他们认为,语义信息对深度估计有重要的指导意义,因此该方法没有沿用之前由图像特征直接映射到深度信息的传统思路,而是首先预测图像场景每一个像素点的语义标记,然后用语义标记来指导图像场景三维重建,估计每一个像素点的深度值。在得到每一个像素点的语义标记后,利用该语义类别的深度和几何信息作为先验来约束这一类别对应区域像素点的深度估计。举例来说,天空非常远,因此天空区域像素的深度值较大。同时,在语义信息的指导下,深度信息可以很容易地通过对象区域外观特征的度量估计出来。例如,通常情况下,一棵树的外观特征在远处观察时比较均匀一致,而在近处观察时会表现出较大的纹理梯度变化。结合像素点之间的邻居关系、几何关系、深度先验、每个点的图像特征、语义信息和初始深度值,利用MRF模型求解出全局最优解作为图像最终深度解。该方法取得了很好的深度估计结果,如图1-16所示,左侧为输入图像,中间为语义标记结果,右侧为深度信息估计结果,其中由红至蓝代表深度由远及近。

图1-16 基于语义标记预测的单幅图像深度信息估计 [44]

还有学者提出深度迁移的非参数方法,类似于语义迁移方法。其通常在给定RGB图像和RGB-D存储库的图像之间执行基于特征的匹配,以便找到最近邻,然后对检索到的深度对应图像进行变形以产生最终深度图。例如,2014年,澳大利亚国立大学的Liu等在CVPR会议上提出一种离散-连续式单幅图像深度信息估计方法 [50] ,该方法将场景深度信息估计形式化为离散-连续式的CRF优化问题,以超像素为基本单元,每个超像素内的深度是连续的,超像素之间的深度是离散的,如图1-17所示。利用检索的相似图像的深度构造模型中连续变量的数据项,即单一项;使用离散变量来表达相邻超像素之间的遮挡关系。然后在这个高阶、离散-连续的图模型上使用粒子置信度传播(particle belief propagation)来进行推理。

图1-17 离散-连续式单幅图像深度信息估计方法 [50] ,左图为输入图像,右图为对应的离散-连续的深度信息估计结果

近年来,深度学习领域的进步推动了CNN网络应用于深度估计的研究。2014年,纽约大学的Eigen等人首先提出将CNN应用在单幅图像稠密深度估计 [51] 。他们认为场景以及场景中的对象存在尺度上的变化,因此提出一种利用多尺度深度网络来估计单幅图像深度信息的方法。具体来说,通过使用两个深度网络堆栈来解决该任务:一个是基于整个图像进行粗略的全局预测,另一个用来局部地改进这种预测,如图1-18所示。他们的工作后来被扩展到通过用一个更深度、更具辨别力的网络模型(基于VGG)预测法向量和标签,然后用一个三尺度体系结构来进一步细化 [52] 。德国慕尼黑工业大学的Laina等人提出一种包含残差学习的全卷积结构 [53] ,用于模拟单幅图像与深度信息之间的模糊映射。为了提高输出分辨率,该结构使用了一种在网络中有效学习特征映射上采样的新方法,另外,通过基于反向Huber函数的损耗优化来训练网络,并从理论和实验两方面论证了它的有益性。

图1-18 基于多尺度深度网络的单幅图像深度信息估计方法 [51] ,全局粗略尺度网络包含五个由卷积和最大池化构成的特征提取层以及两个全连接层,局部细化尺度网络则由卷积层构成

提高预测深度质量的另一个方向是联合使用CNN和图模型。例如,澳大利亚阿德莱德大学研究人员提出了一个深层结构学习机制 [54] ,在一个统一的深层CNN框架下学习连续CRF结构的单一项和二元项势能(图1-19)。整个网络由单一项部分、二元项部分和CRF损失层组成。单一项部分的网络由5个卷积层和4个完全连通层组成,输出一个包含 n 个超像素深度回归值的 n 维向量, n 为输入图像在预处理时得到的超像素数量。二元项部分以所有相邻超像素对的相似向量作为输入,并将它们馈送到全连接层(参数在不同的对之间共享),然后输出包含所有相邻超像素对的一维相似度向量。CRF损失层将单一项和二元项部分的输出作为输入,以求解最优值。在此基础上,他们进一步提出了一种基于全卷积网络的快速等效模型和一种新的超像素池化方法 [55] ,该方法在获得相似预测精度的同时,加速了10倍左右。有了这个更有效的模型,能够设计非常深入的网络,以便获得更好的性能。

图1-19 基于CNN框架和连续CRF结构的深度估计卷积神经场模型 [54]

3. 图像场景空间结构估计方面

图像场景几何结构估计的第三个方向是三维空间结构估计,这种空间结构并非把整个场景完全建模出来,而是将对象或区域之间的空间关系表示出来,形成一种粗略的“场景建模”。有些学者认为,图像场景三维空间结构估计与图像分割和区域划分有着密不可分的关系,两者具有相辅相成的作用。因此,他们在求解图像场景三维空间结构的同时,会自动求解出图像场景的语义分割或者区域划分。

2010年,美国卡内基梅隆大学的Gupta等在ECCV会议上提出一种物理规则指导下的单幅图像积木世界搭建方法 [45] ,称之为“3D解析图”。该方法基于1960年“积木世界”的思想,以真实世界的物理规律作为约束,以定性的物理单元块来表达室外图像场景的三维结构关系,包括对象的质量、体积以及对象之间的物理支撑关系。该方法提出的8个物理单元块符合全局几何约束和定性方式的静力物理学。从一个空的地平面开始,该方法交互地逐步添加物理单元块来拟合图像场景中的对象区域,判断场景几何和物理属性的稳定性,直到迭代收敛,最终生成输入图像场景的三维结构关系图,即“3D解析图”。该方法除了在表面支撑关系估计方面取得了较好的实验结果,更重要的是,从几何关系和物理关系的角度诠释了图像场景中对象的属性和关系。如图1-20所示,左边为输入图像、该图像的积木模型以及渲染后的结果,右边展示了输入图像的三维结构关系,包括各个物体的体积、质量、视角以及物体之间的几何关系。该方法所构建的图像场景“积木世界”,是图像区域划分和空间结构估计的联合表达,为该领域的研究提供了一种新的思路。

另一种思路是利用图像场景对象的层次结构来指导场景的语义分割和标记。2010年,美国加州大学欧文分校的Yang等在CVPR会议上提出了一种利用层次结构检测器来指导图像对象分割的方法 [46] 。他们首先对输入图像做检测识别,得到若干检测框,并利用基于局部检测器响应值的可变形状模板来估计对象形状,然后将检测框的形状、纹理、深度序列等特征集成在一个简单的概率模型里。由于图像自身具有纹理特征,当两个检测器有交叠的时候,不同的层次结构会产生不同的语义分割结果。因此,该方法通过迭代地估计对象形状信息、对象区域纹理特征信息,最终得到对象的语义标记,同时也得到了在该语义标记下,每一类对象所在的层次结构。如图1-21所示,可视化结果显示了不同对象所在的层次。该方法的创新点在于将图像场景对象的层次结构用来指导场景的语义分割和标记。

图1-20 物理规则指导下的单幅图像3D解析图 [45]

图1-21 面向图像分割的层次结构估计 [46]

2010年,美国加州理工学院的Maire在ECCV会议上提出一种基于嵌入角的图像分割和遮挡边界估计同时求解方法 [47] 。Maire认为,根据人类感知的规律,可以将图像分割和遮挡边界估计联合起来求解。该方法提出一种底层图像特征驱动下的单一框架,通过一种通用表达方式将相似性和序列偏好嵌入到该框架下,由此将问题转化为角嵌入问题。利用分割线索来推导图像边界的前/背景划分,反过来利用前/背景划分的线索来推导图像分割。实验结果如图1-22所示,该方法不仅能划分出对象区域,还能估计出区域边界的遮挡关系。中间一列显示了边界的遮挡关系,绿色线段指向的一端表示前景区域,绿色线段的长度表示遮挡关系的可信度。右边一列显示了层次关系,由红色到蓝色表示层次由前到后。

图1-22 基于嵌入角的图像分割和遮挡边界同时求解结果 [47]

伊利诺伊大学香槟分校的Hoiem等首次提出布局估计的概念,并在场景结构布局估计上进行了大量的研究,提出从单幅图像中恢复室内场景空间布局的方法 [56,57] 。在很多室内场景中,由于物体摆放和视角等原因,场景结构的边界线经常存在被遮挡的现象,恢复室内场景空间布局即恢复场景结构的地-墙边界线,通过用参数化的三维“盒子”来建模全局房间空间,为了调整盒子以适应实际场景,引入了一种基于全局透视线索的结构化学习算法选择最优的三维“盒子”参数 [57] 。该方法从3D盒子空间布局和像素的表面法向量估计两个方面,对场景进行联合建模。3D盒子空间布局粗略地模拟了室内的空间,像素表面法向量标记提供了可视对象、墙、地板和天花板表面的精确定位,两者相辅相成。表面法向量标记帮助区分位于对象上的线和位于墙上的线,而3D盒子估计为法向量标记提供了强大的约束。通过将这两个模型结合起来,可以得到更完整的空间布局估计。更进一步,他们结合卷积神经网络模型将单幅图像场景空间布局估计推广到全景图、透视图、矩形布局及非矩形的其他布局,提出LayoutNet算法 [58] ,通过具有编码-解码结构和跳跃连接的CNN网络来预测全景图像交界点和边界线的概率图。在预处理时进行边缘的对齐步骤,确保墙边界是垂直线,并大大减少预测误差。在训练过程中,用回归的方式优化三维布局损失参数来拟合所预测的交界点和边界线。LayoutNet取得了优异的效果,同时表明了深度网络方法仍然受益于显式的几何线索和约束,例如消失点、几何约束等。与LayoutNet类似的工作还有PanoContext [59] 、RoomNet [60] 、HorizonNet [61] 和DuLa-Net [62]

除了Hoiem及其团队之外,卡内基梅隆大学机器人研究所团队多年从事场景物体表面法向量估计方面的研究工作。例如,2014年他们在ECCV会议上提出一种新颖的室内折纸世界的展开方法 [65] 。该方法认为目前的室内场景三维解析多使用底层和高层特征来推理,忽略了中层特征。三维场景解析需要多颗粒度的特征。对于真实世界中的杂乱场景,三维场景解析在检测出对象三维立方块之前,首先应该检测出场景的表面法向和边界。因此,该方法针对单幅图像的三维表面信息估计,利用凸边和凹边作为中层约束特征,提出一种通用的模型,能够将这些约束和其他约束嵌入,以线标记和布局参数化的形式来表示室内场景的表面几何和表面之间边的相互关系,以此构成一个类似折纸展开的三维世界,如图1-23所示。随着卷积神经网络在计算机视觉理解方面的应用与发展,该团队研究人员为了探索深度网络在法向量估计方面的有效性,提出一种单幅图像曲面法向量估计的深度网络设计方法 [63] ,将传统3D场景理解方面多年的工作经验引入CNN网络的结构设计,分别学习自上而下和自下而上的过程,得到粗略的全局理解和局部标记,然后使用融合网络将两者整合预测,输出更合理的结果。该网络能够提供有关曲面法向量、室内布局和边标记的连贯及更深入的理解。该团队还提出一种基于预训练Oxford-VGG卷积神经网络(CNN)的跳跃网络模型 [64] ,在NYUv2的RGB-D数据集上实现了最先进的表面法线预测精度,并且恢复了精细的物体细节。他们认为,表面法向量、深度信息、空间布局结构都属于2.5D范畴,利用这些2.5D范畴的信息可以帮助恢复3D信息。因此,他们在输入图像和预测曲面法线上建立了一个双流网络,用于联合学习物体的姿势和样式,以便进行CAD模型检索。

分析以上研究现状发现,不论是遮挡边界估计、图像深度信息估计,还是三维空间结构估计方面的研究工作,都认为图像特征与图像场景的几何结构有密切的关系,并且都利用图像特征从二维信息推理出三维空间结构信息。因此,在图像场景几何结构估计中,合理地分析图像特征所起的作用非常重要。

1.2.3 图像场景对象理解与解析

随着图像场景理解相关领域研究工作的发展,对场景中个体对象的理解与解析在图像场景理解中的重要性逐渐凸显,行业发展对此提出了新的需求,实现对象级甚至部件级的更精细尺度上的场景理解成为新的趋势。对象的理解与解析是场景级理解的深化,主要包括对象语义实例分割、对象属性分析、对象空间布局结构估计等。对象语义实例分割是指对图像中同一语义类别的多个对象或物体赋予唯一的对象标记,从而在场景语义分割与标记的基础上,能够得到更细致的划分。对象属性分析包括多种属性,与对象的语义类别具有密切的关系,例如物理属性、几何属性、材质属性、光照属性等,属性的分析能够有效地帮助理解对象。对象空间布局结构估计是将对象的三维信息与场景的三维信息相结合,推理出场景的空间布局结构,可以更进一步地生成更多符合空间约束的三维场景。

图1-23 室内折纸世界的展开方法,对于输入图像(第一行左图),该方法估计出每个平面的朝向(第一行中图)以及平面之间边界的凹凸性(第一行右图),“+”表示凸,“-”表示凹

1. 对象语义实例分割方面

对象实例分割是在对象识别的基础上更进一步地分析对象,不仅识别对象的位置和类别语义,更是将场景中属于对象的像素实现一一标记,达到准确分割每个对象的效果。

近年来,基于样例的图像语义分割和实例对象分割方法逐渐兴起。2013年,美国北卡罗来纳大学教堂山分校的Tighe和Lazebnik在CVPR会议上,提出一种基于样例检测的区域级图像解析方法 [66] 。该方法利用区域级特征识别图像中的“材料”类别,如天空、地面、树木,利用样例对象训练SVM分类器识别“东西”类别,如车辆、行人等,并将这两者相结合得到最终的图像解析结果,如图1-24所示。美国加州大学默塞德分校的Yang等在2013年的ICCV会议上,提出一种基于样例的图像对象分割方法 [67] 。该方法将参数化的和非参数化的对象分割结合起来,产生多种对象分割假设,通过Graph Cut算法求解得到不同的对象分割结果。输入样例不同,则对象分割结果不尽相同。2014年,澳大利亚国立大学的He和Gould在CVPR会议上,提出一种基于样例CRF模型的图像多对象分割方法 [68] 。该方法不需要大量的训练,而且对不同对象的不同姿势都能达到较稳定的识别效果。同年的ECCV会议上,美国纽约大学的Silberman等提出一种基于高阶损失函数的室内场景语义标记和多实例对象分割的方法 [69]

图1-24 基于样例检测的区域级图像解析方法 [66]

在场景级语义识别的基础上进行对象实例分割标记成为另一种趋势,其特点是结合了全局语义识别辅助对象实例分割。例如,2016年,加拿大多伦多大学的Zhang等人提出了一种自主驾驶环境下基于密集连接MRF模型的单张图像实例级标记方法 [70] (图1-25)。同年,中山大学的Liang等人提出一种可逆递归的实例级对象分割方法 [71] ,微软研究院的Dai等人提出一种基于多任务网络级联的实例感知语义分割方法 [72] ,该团队人员后续提出基于全卷积的实例感知语义分割方法 [73] 。2017年,牛津大学的Arnab等人提出基于动态实例化网络的像素级对象分割方法 [74] ,在语义分割的基础上结合对象检测线索,然后用端到端CRF模型自动预测实例数量并分割。同年,德国马克斯普朗克信息学研究所的Khoreva等人提出一种基于弱监督的语义标记和实例分割方法 [75] ,利用对象包围盒作为训练数据,达到接近全监督方法的效果。2018年,谷歌和德国亚琛工业大学的研究人员提出一种基于语义和方向特征的目标检测细化实例分割方法 [76] ,在识别的基础上增加了方向特征的约束。同年,中国科技大学的研究人员提出基于类别峰值响应的弱监督对象分割方法 [77] ,是目前较为先进、常用的图像级弱监督对象实例分割方法。该方法使用伪标签为训练数据扩容,利用类别预测响应值的局部峰值来确定实例数量,然后将实例标记传播至整个图像域。加州大学欧文分校的Kong等人提出一种循环像素嵌入的对象分割方法 [78] ,将对象像素映射到超球面空间,然后利用反复mean-shift算法动态聚类对象。

由于卷积神经网络在特征提取方面具有独特优势,自然被引入对象实例分割的工作中。目前用于对象实例分割的主要方法是基于“检测-分割”的两阶段方法,即使用边界框检测方法检测对象,确定一组分割区域候选目标,然后进一步通过分类/优化生成每个对象的分割区域,这些方法被称为基于候选目标的方法(proposal-based),通常受到对象检测效率的限制。其典型代表工作是Mask R-CNN [79] ,它建立在Faster R-CNN [80] 的基础上,除了进行边界框识别之外,还预测对象的掩码区域。实例分割方法的另一个流行分支是无候选目标方法(proposal-free),这类方法通常依赖于密度预测网络,在没有明确候选目标的情况下分割场景中的实例。无候选目标的方法通常比基于候选目标的方法运行时间上具有优势,但它们的性能不如基于候选目标的方法。不管是哪一类方法 [81] ,卷积神经网络都在其中发挥了重要的作用。

图1-25 自主驾驶环境下基于密集连接MRF模型的单张图像实例级标记方法 [70]

在基于候选目标的方法方面,2019年,中科院研究人员提出一种基于实例激活图的弱监督实例分割方法 [81] ,根据已有技术获得分割候选目标,在这些候选目标中有选择地收集伪标记。伪标记用于学习可微填充模块,在根据PRM [77] 算法得到不完整的区域响应后,该模块预测每个实例的类不可知激活图。2020年,天津大学的研究人员提出了一种两阶段检测方法D2Det [82] ,同时解决了精确定位和精确分类问题。为了精确定位,在全卷积网络中引入了稠密局部回归,该回归预测对象候选目标的多个稠密框偏移。为了准确分类,引入了一种区分性RoI池化机制,从候选目标的各个子区域进行采样,并执行自适应加权以获得区分性特征。华南理工大学的研究人员提出了用于小样本实例分割的全引导网络(FGN) [83] ,FGN在Mask R-CNN的各个关键组成部分中引入了不同的引导机制,包括注意力引导的RPN、关系引导的检测器和注意力引导的FCN,以便充分利用支持集的引导作用,更好地适应类间泛化。中国科学院大学的研究人员提出基于学习显著性传播的半监督实例分割ShapeProp [84] ,该方法从丰富的检测框标记和有限的实例分割标记两方面来提取形状表达,进而提供形状信息作为先验来优化分割准确率。美国Uber公司和加拿大多伦多大学提出基于深度多边形变换的对象实例分割方法 [85] ,首先利用分割网络生成实例掩码,然后将这些掩码转换为一组多边形,这种多边形体现了对象的形状先验信息。将这些多边形馈送到变形网络,该变形网络对多边形进行变换,使其更好地适合对象边界。

在无候选目标的方法方面,2019年,比利时鲁汶大学提出了一个新的聚类损失函数 [86] ,用于无候选目标的实例分割。该方法基于这样一个原理,即像素可以通过指向对象的中心与该对象相关联。通过使用这个聚类损失函数,使像素指向对象中心周围的最佳、特定对象的区域,在保持高精度的同时实时运行。中科院研究人员认为有些无候选目标的对象实例分割工作将语义标记和对象相关特征提取分为两个模块分别进行,这种方式降低了推广应用的可能性,并且这两个模块之间的互利性也没有得到很好的探索。因此,他们提出一种单程无候选目标的对象实例分割方法 [87] ,该方法通过单过程的全卷积网络得到每个像素语义类别和像素对亲和度,基于像素对的亲和度(Affinity)金字塔计算两个像素属于同一实例的概率,然后利用一种新的级联图划分模块以从粗到细的顺序生成实例。清华大学的研究人员提出一种基于姿态的人物对象实例分割方法 [88] ,将对象的姿态信息作为约束条件,能够很好地处理多个对象具有遮挡现象的情况。有学者认为手动标注实例分割基准信息非常耗时,这导致现有数据集在类别多样性和标注数据量方面受到限制。因此,他们期望以弱监督学习方式来实现实例分割,即给定图像级别标签,用类别注意力图(Class Attention Maps)生成训练图像的伪实例分割标记 [89] ,用伪标记训练CNN网络模型。这种方式同样也不需要预先产生候选目标。阿联酋人工智能研究院的学者提出一种基于弱监督学习的对象计数与实例分割方法 [90] ,该方法的网络结构是基于ResNet50构建的,有一个图像分类分支和一个密度预测分支,使用图像级别少量标签进行训练。图像分类分支预测对象的存在与否,用于生成用于训练密度分支的伪标记;密度分支通过构造密度图来预测全局对象计数和对象实例的空间分布。该方法改进了文献[77]的评分标准,以此标准根据峰值对候选目标进行排序,预测对象分割结果。2020年,美团公司提出一种基于点表达的单程对象实例分割方法CenterMask [91] 。该方法包括局部形状预测和全局显著性生成两个并行部分,不需要产生候选目标,从对象中心的点表示中提取局部形状信息,形成将对象与接近对象区分开的粗略掩码。另一方面全卷积主干网络生成整个图像的全局显著性图,在像素级上将前景与背景分离,两部分共同作用形成最终实例分割结果。中山大学和暗物智能科技公司合作提出面向全景分割的双向图推理网络 [92] 。它将图形结构融入传统的全景分割网络中,以挖掘前景对象和背景对象之间的模块内和模块间关系。上下文信息对于识别和定位对象至关重要,且包含的对象细节对于解析背景场景非常重要,研究明确建模对象和背景之间的相关性,以实现全景分割任务中图像的整体理解。

除了在图像场景上实现对象语义多实例分割,对于在视频场景上的对象多实例分割也有相应的研究工作,其主要分为无监督的和半监督的两个技术路线,即是否提供视频第一帧中对象实例的标注信息。视频场景对象多实例分割面临对象的遮挡、变形、运动变化等问题,其期望是产生时间上连贯和稳定的预测结果。因此,视频场景对象多实例分割所面临的挑战不同于图像场景对象多实例分割,本书不再过多介绍视频场景对象多实例分割的研究工作。

可以看到,对象实例分割在场景级语义识别的基础上,开始从更多其他自然特征和约束方面来帮助提高方法的准确率,例如对象形状、姿态、显著性、上下文信息等。

2. 对象属性分析方面

美国伊利诺伊大学Hoiem教授的团队是对象属性识别研究工作的先驱者,2009年,其团队人员在CVPR会议上提出一种属性描述对象方法 [93] 。该方法将对象识别的重点从标记转移到描述,其结果是:对于熟悉的事物,不仅能获得对象的类别,更可以得到对象的属性;对于不熟悉的事物,能够知道该对象的某些属性,而不是仅仅得到“未知类别”的结果,并且能够扩展到对新事物的识别。该方法定义的属性包括语义信息、判别信息,并提出一种特征选择算法,使得属性学习不局限于同类,而是在多类之间泛化。该团队人员将对象属性研究工作进一步深入,提出一种以属性为识别中心的跨类对象识别泛化方法 [94]

2011年,芝加哥丰田技术研究院的Parikh和得克萨斯大学奥斯汀分校的Grauman在ICCV会议上提出了相对属性的概念 [95] 。该方法认为,以往对象属性理解只关注绝对属性,即具有或不具有某种属性,这种描述方式是一种人为的限制,实际中更多是相对具有某种属性,即相对属性关系,如图1-26所示。该方法利用大量标定了对象与属性相对关系的数据集,对每种属性学习出一个适用的排序算法,预测一张图像中该属性的强弱程度;然后在所有预测属性空间中,构建一个产生式模型,通过属性建立未知对象和已知对象的关系,解决零样本分类的问题。该方法指出,这种相对属性能够更好地描述对象的语义,更符合人脑对图像的理解。以Grauman为核心的团队后续继续从事对象相对属性描述的研究,并发表了一系列的研究成果 [96-98]

关于对象属性的研究工作不只局限于对象的识别、分类,科研人员还利用属性信息辅助场景内容的分割、解析 [99-102] 。2014年,荷兰阿姆斯特丹大学的Li等在ECCV会议上提出一种属性辅助对象分割的方法 [99] 。该方法认为属性对于对象分割和提取能起到重要的作用,常规方法是在图像全局上对属性进行定位和描述,而当图像中存在对象遮挡、对象尺度过小或对象视角偏差时,常规方法不能准确地描述对象属性,如图1-27所示。因此,该方法提出一种对象级的属性定位描述算法,在对象分割块上提取属性描述符,进行联合学习,对输入测试图像的对象进行分类、分割,并对对象分割块进行排序。同年,英国伦敦大学玛丽女王学院的Shi等提出一种对象和属性之间关联关系的弱监督学习方法 [100] 。该方法认为人脑通常会将名词和形容词联合起来对场景进行描述,因此,需要将对象和它的属性进行关联。常规方法需要强监督学习,需要标注大量属性数据,缺少灵活性。因此,该方法提出利用弱标记的数据学习对象和属性的关联关系,构建一种新颖的非参数的贝叶斯模型。对于输入的新图像,该模型能够描述对象、属性以及它们之间的关联关系,还能将对象定位并分割出来。英国牛津大学的Zheng等提出一种图像对象和属性的稠密语义分割方法 [102] 。该方法认为对象及其属性对于描述、理解图像非常重要,语言表述场景时经常包括形容词和名词。因此,该方法将对象分割和属性描述建模为多类别标记问题,解决对象分割和属性标记的同时求解,如图1-28所示。

图1-26 相对属性的研究 [95] :相对属性比绝对属性能够更好地描述图像内容。绝对属性可以描述是微笑的还是没有微笑的,但是对于b)就难以描述;相对属性能够描述b)比c)微笑多,但是比a)微笑少。对自然场景的理解同样如此

图1-27 属性辅助对象分割的方法 [99] ,由于对象遮挡、对象尺度过小或对象视角的影响,以类别为中心的方法较难描述对象属性,而以对象为中心的该方法可以较好地描述对象属性

另外,对象属性的准确理解有助于场景对象三维模型的构建。2014年,美国加州大学洛杉矶分校的Liu等在CVPR会议上提出一种基于属性语法的单视角图像三维解析方法 [101] 。该方法针对室外人造场景的三维表面几何估计和重建,以超像素为基本单元,使用五个产生规则将图像场景分解为多尺度解析图结构;每个图节点代表了一个表面,每个产生规则用来约束父节点与子节点之间的关系;采用了自顶向下/自底向上的采样过程;给定一张输入图像,该方法通过迭代的运用产生规则和属性约束,将场景分解为多尺度解析图。2019年,加州大学伯克利分校的Fouhey等人提出一种基于属性的形状生成方法 [103] ,该方法从单张图像推理3D形状属性,在此基础上推理3D形状的低维向量表示,3D形状属性是通过卷积神经网络学习得到的。

图1-28 一种图像对象和属性的稠密语义分割方法 [102]

卷积神经网络的发展为对象属性分析工作带来了新的方向,除了在传统的基于属性的对象识别、分类方面带来了新发展,甚至将属性分析应用到部件级识别中。例如,引入约束的属性识别 [104,111] ,基于属性的纹理识别 [108] ,用于零样本学习的对象识别或分类 [105,109,110] ,基于属性分析的对象部件级识别 [106,107] 以及行人重识别 [105,106] 。基于上下文和相关性联合循环学习模型的属性识别 [104] ,探索属性上下文和相关性,可以在小规模训练数据和低质量图像的情况下提高属性识别准确率。基于可转移联合属性识别的学习模型 [105] ,无需目标域的标记训练数据,即可实现无监督的行人重识别。基于属性注意力网络的行人重识别 [106] ,利用部件级属性信息形成属性注意力图。基于概念共享网络的部件属性识别 [107] ,优势在于识别训练数据不足的部件属性。基于深度多属性感知网络的真实世界纹理识别 [108] ,基于假设即纹理图像的多个视觉属性对应的空间上下文之间存在内在的相关性。

除此之外,卷积神经网络的发展促使基于属性的内容生成成为一个新颖的研究热点,包括数据增强 [112,113] 和场景生成 [114-116] 。数据增强,即生成人工样本以扩展给定的训练数据集,有基于属性引导的数据增强方法 [112] ,通过学习一种映射,实现所需属性的样本数据的合成;还有通过主动学习(active learning)的模式进行训练图像生成 [113] ,对相对属性数据进行扩容,从而能够完成细粒度相对属性任务,即给定两幅图像,推断出哪一幅更明显地显示了一个属性。因为对于相对属性来说,在传统图像来源中具有相对差异的训练样本是比较少的。

生成对抗网络(GAN) [117] 是一种生成式模型,常用来处理图像生成、图像转换、风格迁移、图像编辑等,很多场景生成的方法都是基于GAN模型。例如,有根据指定的对象属性和关系进行交互式的图像场景生成的方法 [115] ,根据输入场景图结构,从布局嵌入和外观嵌入两个部分进行生成,以更好地匹配场景。每个图结构有多个不同的输出图像,如图1-29所示,用户可以进一步控制这些图像。对每一个对象具有两种控制模式:从其他图像导入对象元素;通过外观原型在对象数据集中选择。此外,还有用于任意图像属性编辑的统一选择性迁移网络 [114] ,可以生成不同的编辑效果。在选择性方面,只考虑要改变的属性,以及选择性地在属性编辑无关区域将编码器特征与解码器特征连接;在迁移方面,自适应地修改编码器特征,以满足不同编辑任务的要求,从而为处理局部和全局属性提供统一的模型。还有基于属性分解GAN网络的人物图像可控合成 [116] ,可以在任意姿势下自动合成具有所需组件属性的高质量人物图像,不仅可以应用于姿态迁移和行人重识别,还可以应用于服装迁移和属性特定的数据增强。

可以看到,对象属性分析可以广泛应用于场景内容的识别、分类、解析、生成等研究热点。同时,对象属性通常与对象的部件级区域相关联,因此对属性的理解往往与部件级内容的解析相关联,使得场景理解能够达到更细的层次,这也为场景理解的推广应用提供了技术支持。

3. 对象空间布局结构估计方面

随着图像场景空间结构估计研究工作的发展,空间结构与语义信息的相互关系逐渐引起了科研人员的重视,一种普遍的认识是语义标记与空间结构估计具有相辅相成的作用。

例如,斯坦福大学的Liu等在CVPR会议上提出一种基于语义标记的单幅图像深度信息估计方法 [118] 。该方法首先预测图像每一个像素点的语义标记,然后用语义标记来指导图像场景三维重建,估计每一个像素点的深度值。2013年,美国密歇根大学的Kim等人提出一种基于Voxel单元的图像场景三维结构理解方法 [119] 。该方法认为深度信息能够帮助更好的理解和分割场景对象,但是深度信息自身带来的噪声会影响分割的准确程度。该方法提出一种新颖的Voxel-CRF模型来求解场景的三维结构及语义标记,如图1-30所示。每个Voxel是立方体结构,包含若干个深度点。

对象级场景空间布局结构估计不仅仅是恢复场景的深度信息,还包括利用对象的信息来优化场景空间的全面解析。对象存在于场景空间中,对象的准确理解(如对象的朝向、空间位置、与其他对象之间的关系等)对于场景空间布局结构估计具有重要的作用。科研人员在这方面取得了一定的进展。2013年,麻省理工学院的学者提出利用CAD模型定位和估计图像中物体精准姿态的方法 [120] ,包括使用局部关键点检测器查找候选姿势,并对每个候选姿势与图像的全局对齐进行评分。同年,芝加哥丰田技术研究院的Lin等人提出了一种基于RGBD信息的图像场景全局解析方法 [121] 。该方法结合了二维图像特征、三维几何信息以及场景和对象之间的上下文关系,首先将在二维空间的CPMC算法扩展到三维空间,产生多个对象立方块的候选集合,然后对这些对象立方块进行分类和标记。如图1-31所示,该方法不仅能够识别场景三维对象,还能够简单地理解场景和对象之间、对象和对象之间的上下文关系、空间位置关系。2014年,美国普林斯顿大学的Zhang等人提出一种基于三维上下文模型的全景理解方法 [122] 。该方法认为相机视野是有限的,这影响了上下文模型在对象检测识别上的作用。因此,该方法使用了360°全视野的场景,并提出了一种全景室内三维上下文模型,最终输出全景场景以及主要对象的三维包围盒表达形式,并识别出这些对象的语义类别。

图1-29 交互式场景生成过程示例 [115] :第一行,用户界面的示意图面板,用户在其中排列所需对象,不同颜色代表对象的增加或调整;第二行,根据用户提供的布局自动推断的场景图结构;第三行及第四行,根据图结构生成的场景语义图及场景最终图像

图1-30 基于Voxel单元的图像场景三维结构理解方法 [119] ,左图显示了该方法利用Voxel-CRF模型重建的场景三维结构以及每个Voxel的语义标记,右侧图中显示了深度信息的不足和缺失,例如电视机后面墙面的深度信息缺失

图1-31 基于RGBD信息的图像场景全局解析方法 [121] ,左边为输入图像和对应的深度信息,中间为对象的三维检测识别结果,用带有朝向的立方块来表示,右边为嵌入了场景和对象之间上下文关系的CRF模型

还有一些研究工作是利用交界点、纹理、深度、形状等特征来实现场景空间布局估计,这是传统场景空间布局估计中常用的特征。例如,2013年,美国三菱电机研究实验室提出一种面向室内场景空间布局估计的曼哈顿交界点检测方法 [123] 。如图1-32所示,该方法认为交界点特征对于空间布局估计非常重要,并通过检测交界点来估计室内场景的空间布局。同年,清华大学提出一种基于深度传感器数据的场景三维空间布局估计方法 [124] 。该方法的关注点在于检测和解析场景的布局结构和场景中的杂乱物体,利用纹理和深度这两种互补的特征,构建挖掘布局结构和杂乱物体之间依赖性的联合模型。瑞士苏黎世联邦理工学院提出一种单幅图像的空间布局估计和对象推理方法 [125] 。该方法使用了一种新颖的分解方法,将积分几何的概念推广到了三角形形状。这些工作侧重点在室内场景,在室外场景布局结构估计方面,也有相应的研究工作。2013年,芝加哥丰田技术研究院的Lin和普林斯顿大学的Xiao在ICCV会议上提出一种基于空间主题处理的室外场景布局结构估计方法 [126] 。该方法将室外场景的空间布局定义为室外场景不同语义区域之间的组合形式,并提出一种产生式模型,在不同布局结构下,分析出语义区域特征及其位置之间的相互关系。该方法可根据场景布局结构推理场景视野之外的布局结构。

卷积神经网络的发展有效地提升了场景空间布局结构估计的效率,在前文所提及的几个研究热点方向上,近年来不断涌现出不俗的工作进展,包括场景布局估计 [127-131] 、深度或距离估计 [132,133] 、三维语义分割与重建 [134-140] 等几个方面。

图1-32 面向室内场景空间布局估计的曼哈顿交界点检测方法 [123] ,图中显示了Y、W、T、L、X几种类型的交界点以及图像场景空间布局估计结果

在布局结构估计方面,有通过语义迁移特征的物理优化实现杂乱室内场景的布局估计 [128] 。这里的室内场景布局以场景结构的地-墙边界线来表达。所谓的语义迁移特征是指将场景杂物与房间布局之间的关系集成到卷积神经网络中,实现端到端的训练,在各种情况下都可以提取鲁棒的特征;再将特征现象表述为力学概念,利用物理启发优化推理,实现从语义特征到布局估计的迁移。针对室外场景也有相应的场景语义结构线检测估计 [129] ,基于卷积神经网络和多任务学习的语义线检测器,将线检测视为分类和回归任务的组合,可应用于地平线估计、合成增强和图像简化。3D-RelNet [130] 通过推理对象之间的关系来研究三维布局估计问题,首先预测每个对象的三维姿势(平移、旋转、缩放)以及每对对象之间的相对姿势;结合这些预测及对象之间的一致关系,以预测每个对象的最终3D姿势,生成三维布局。而对象之间的关系,被证明可以帮助改进对象级别的估计。基于对象驱动的多层场景分解方法 [131] 旨在根据输入的单幅RGB图像建立分层深度图像,分层深度图像是一种有效的表示方法,可以将对象区域分层排列,包括原始遮挡区域,从而实现场景布局估计。可以看到,语义信息和对象信息可以有效地帮助场景的布局估计。

同样,在深度或距离估计方面,语义信息和对象信息也起到了巨大的作用。例如,SIGNet [132] 是语义实例辅助的无监督三维几何感知模型,集成了语义信息,使深度和光流预测与对象信息保持一致,并对低光照条件具有鲁棒性,也表明语义信息对于提高动态对象类别的几何感知性能非常有效。纽约大学的学者从单目图像输入中学习特定于对象的距离 [133] ,通过基于端到端学习的模型来直接预测图像中给定对象的距离(以米为单位)和类别标签。特别是物体位于弯曲道路的情况下,该模型适用于自主驾驶的环境感知、目标检测和距离估计。

在三维语义分割与重建方面,有的根据场景部分视角恢复全景的三维结构,也有根据RGB-D扫描数据实现场景三维语义实例分割。例如,Im2Pano3D [134] 网络模型在给定场景部分观察视角(≤50%)的RGB-D数据的情况下,可生成室内场景360°全景的三维结构稠密预测和语义标记概率分布。这不仅需要扩展部分观察到的房间结构,还需要预测输入中未直接观察到的对象(床、窗和橱柜)的存在和位置。RevealNet将场景部分视角下的RGB-D扫描数据作为输入,检测场景中的对象并推测其完整的三维几何。另一种全局3D解析模型 [140] 从单个图像中同时预测房间布局、相机姿势和三维对象边界框,并重建对象网格,在整体场景上下文的基础上,实现从场景理解到对象重建。这些模型都是有效地依靠上下文先验与几何先验来实现目标。基于RGB-D扫描数据的三维语义实例分割网络模型也有很多,例如3D-SIS [135] 、Scan2CAD [136] 、3D-MPA [137] 等。3D-SIS是将二维图像输入特征与三维扫描几何特征联合融合,对RGB-D扫描数据执行三维对象实例的识别与分割。Scan2CAD将RGB-D扫描数据和一组CAD模型作为输入,然后预测扫描数据和CAD模型之间的对应关系,根据这些对应关系,找到CAD模型与扫描数据的最佳9自由度对象姿势对齐,从而实现场景三维重建。3D-MPA根据输入三维点云数据,多候选目标聚合网络(3D-MPA)预测精确的三维语义实例分割。

可以看到,在图像场景空间结构估计的工作中,语义及对象信息具有重要的作用,以对象为主的布局估计可以有效地指导图像场景三维重建。随着技术的发展,尤其是卷积神经网络的普遍应用,数据集的获取及生成、模型运算效率等方面都取得了有效的进展,为图像场景空间结构方面的研究工作带来了新的发展空间。 86QF3eA7ABYt33R6/qd/FJs9bTde0YmQBqUy9118dcSTsVSQyLOF/UZWfF7W6M5P

点击中间区域
呼出菜单
上一章
目录
下一章
×