本章从图像场景语义分割与标记、图像场景几何结构估计、图像场景对象理解与解析几个方面介绍了图像场景理解的背景及意义,并通过典型代表工作实例概述了图像场景理解的发展历程及研究现状。
语义是图像场景理解的重要因素,它从不同角度连接起图像场景理解的多个研究方向,是图像、视频、语音、文字等多模态信息应用的纽带。同时,语义在图像场景的几何结构估计、对象理解与解析等多个方面都起到了显著的作用。例如,语义信息对深度估计的指导意义、语义及对象信息在空间结构估计中的重要作用。因此,语义分割,又称为语义标记,是图像场景理解的基础性问题。另外,对象的理解与解析是图像场景级理解的深化,包括对象语义实例分割、对象属性分析、对象空间布局结构估计等。语义及对象信息具有重要的作用,可以辅助场景内容的分割与解析、场景对象三维模型的构建,可以有效地指导场景的三维重建,使得场景理解能够达到更细的层次。
通过分析国内外研究现状发现,在深度学习时代之前,以上图像场景理解的几个方向主要使用的技术方法或方式包括基于参数的模型、基于概率的模型以及多维度特征相结合等。在深度学习时代,卷积神经网络在特征提取和计算能力上相对于传统模型来说具有显著的优势,目前大多数方法的基本处理方式都是前端使用CNN/FCN进行特征粗提取,后端使用CRF/MRF场结构模型或者其他优化模型来优化前端的输出结果。针对以上图像场景理解的几个方向,本章分别介绍了相应的传统方法或算法,以及卷积神经网络在这些领域的经典应用模型,感兴趣的读者可以进一步研究。