购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.3 BEV感知算法的分类

BEV感知算法的核心在于其独特的视角转换,特别是通过鸟瞰视角为自动驾驶提供直观且全面的环境表示,这使得BEV感知算法比基于其他视角算法更具优势。为了更系统地理解BEV感知算法的技术框架,笔者参考了大量相关文献,并根据视角转换模块所采用的不同技术方法,将BEV感知算法归纳为4个主要类别,分别是基于单应性的方法、基于深度估计的方法、基于多层感知器的方法以及基于Transformer的方法。通过分类,我们可以更清晰地看到BEV感知算法体系的整体架构和各个组成部分之间的关系,如图1-7所示。同时,这样的分类也有助于我们更深入地了解和研究BEV感知算法的不同实现方式及其优缺点。

图1-7 透视视角和鸟瞰视角转换的算法分类

1.3.1 基于单应性的方法

单应性是指两个平面之间的映射关系,它刻画了某平面上的点如何通过特定变换映射至另一平面,单应矩阵常用来表达两张图像共同平面上的点的变换关系。将透视视角(PV)转换为鸟瞰视角(BEV)的传统方法是利用两个视角图像(以下简称为视图)之间固有的几何投影关系,其核心是利用地面上的物理映射关系来桥接两个视图。这个转换过程通常会用到逆透视映射(Inverse Perspective Mapping,IPM)方法。

BEV感知算法中的IPM方法是一种将车载摄像头捕获的图像从透视视角转换为鸟瞰视角的技术。这种方法通过几何变换,能够对图像中道路和车辆等物体的畸变进行校正,生成更准确的车辆行驶环境二维平面图,为自动驾驶和智能车辆导航提供重要支持。

IPM方法引入了附加约束条件,即逆映射点严格位于水平面上,这是实现从透视视角图像到鸟瞰视角图像转换的基础。转换首先通过相机旋转的单应性进行预处理或后处理,然后进行各向异性缩放。单应性矩阵可以从相机的内外参数中导出。

然而,传统的IPM方法在很大程度上依赖于地面是一个平面的假设,这可能导致在检测位于地平面上方的物体时出现问题。为了解决这一问题,一些方法开始融入更多的语义信息以减少失真。例如,某些方法利用语义信息将透视图中的物体足迹转换为BEV中的对应表示,从而遵循了单应性隐含的“地面是一个平面”的假设。由于透视视图和鸟瞰视图之间存在明显的差异和变形,因此单纯依赖IPM方法往往无法生成完全无失真的BEV图像或语义图,因此引入生成对抗网络(GAN)方法用于提高生成的BEV特征或图像的真实性。GAN方法能够有效地减轻图像的失真现象,并增强3D检测的准确性。

综上所述,基于单应性的方法依赖于透视视角与鸟瞰视角之间的地面物理映射关系,通过简单的矩阵乘法可以实现图像转换,同时结合语义信息和GAN技术能够提高转换质量。

1.3.2 基于深度估计的方法

深度信息在将2D像素和特征提升到3D空间的过程中十分重要。因此,利用深度信息的基于深度估计的方法,成为解决透视角到鸟瞰视角转换这一问题的新趋势。在评估这些方法时,我们需要考虑视角转换的方法、是否包含深度监督以及这些方法如何与基于IPM的方法集成。

基于深度估计的透视视角到鸟瞰视角的转换主要有两种策略,分别为基于点的视角转换和基于体素的视角转换。基于点的方法利用深度估计将像素转换为3D空间中的点云,虽然相对简单,且能够集成成熟的深度估计和3D检测技术,但在数据安全和训练部署方面存在缺陷。基于体素的方法通过离散化3D空间并构建规则结构来进行特征转换,这在大规模场景结构信息的覆盖上更为有效,并且与端到端的视角转换学习范式兼容。图1-8展示了基于点的方法,将2D图像像素转换为伪激光雷达点云,并使用点云算法进行了3D目标检测。

图1-8 基于点的视角转换方法将2D图像像素转换为伪激光雷达点云,并使用激光雷达进行3D物体检测

在估计深度分布方面,不同的方法对应不同的策略。一些方法假设特征沿射线均匀分布,而另一些方法则明确估计深度分布并使用该分布构建3D特征。BEVDet方法进一步推动了基于深度估计的透视视角到鸟瞰视角转换的研究。该方法遵循了LSS(详见4.1.3节及4.1.4节)的范式,并创新性地提出了一种专门用于BEV的多视图图像3D检测的框架。这个框架精心设计了4个关键组件:图像视图编码器、视角转换器、BEV编码器和检测头。通过这些组件的协同工作,BEVDet实现了从原始图像到精确BEV的转换,并进行了高效的3D检测。有关BEVDet的详细内容将在5.1.1节介绍。

除了单目深度估计,立体匹配在多视图设置下能够更为准确地估计深度信息,进一步提升估计精度。在早期的多视图设置研究中,为了实现全覆盖并减少摄像头数量,相邻视图间通常设置大量的重叠区域。然而,这种做法导致了深度估计更加依赖单目理解,从而增加了估计的复杂性。相比之下,基于BEV的方法在多视图感知方面更具优势,尤其在双目设置下,深度估计的表现更为突出。近年来的双目方法创新性地利用平面扫描表示来进行立体匹配和深度估计,通过精巧地从平面扫描特征体积中对体素和BEV特征进行采样,实现了更为精确的3D检测。

基于深度估计的方法通过利用深度信息将2D像素和特征提升到3D空间,实现更精确的视角转换和3D检测,进一步提高了算法的性能和效率。

1.3.3 基于多层感知器的方法

基于多层感知器(MultiLayer Perception,MLP)的方法利用多层感知器作为复杂的映射函数,将输入映射到不同模态、维度或表示的输出上,以实现从透视视角到BEV视角的转换。

为了消除相机校准设置中的继承感应偏差,一些方法采用MLP来学习相机校准的隐式表示。例如,视图解析网络(View Parsing Network,VPN)选择了两层MLP,利用全局感受野的需求,通过“关注-映射-重塑”的过程将每个PV特征图转换为BEV特征图,然后添加来自不同相机的所有特征图以进行多视图融合。金字塔占用网络(Pyramid Occupancy Networks,PON)则是基于网络对于将特征映射到BEV的大量垂直上下文的需求,利用特征金字塔提取多个分辨率的图像特征,使用MLP沿高度轴折叠图像特征并沿深度轴扩展来执行视图变换,如图1-9所示。

图1-9 PON按列将透视图特征转换为鸟瞰视图特征

基于MLP的方法利用多层感知器作为映射函数,实现了视角间的转换,为自动驾驶等应用提供了重要的感知能力。

1.3.4 基于Transformer的方法

除了上述方法外,Transformer也是将透视视角图像映射到鸟瞰视角图像的出色解决方案。

基于Transformer的方法设计一组BEV查询,结合其位置编码,利用BEV查询和图像特征间的交叉注意力机制执行视角转换。特斯拉是第一个使用Transformer将透视视图特征投影到BEV平面上的公司。

根据查询的粒度,基于Transformer的方法可分为基于稀疏查询、基于密集查询和基于混合查询三类。这里主要介绍前两类。基于稀疏查询的方法可以产生稀疏感知结果,适用于以目标为中心的感知任务,但在密集感知任务中面临挑战。基于密集查询的方法在三维空间或BEV空间中预先分配空间位置,通过BEV查询和图像特征间的交互实现密集BEV表示,支持多种下游任务。

基于稀疏查询的方法虽在目标检测中表现出色,但其3D表示缺乏几何结构意义,不适用于密集预测任务;而密集查询能为BEV空间提供丰富的表示,但大量查询导致计算负担沉重,这就要求注意力机制更高效。

DETR3D是一种典型的基于Transformer的方法。它遵循稀疏查询的框架,专注于多相机输入的3D检测,通过基于几何的特征采样过程取代交叉注意力,并使用校准矩阵将参考点投影到图像平面上,实现对应的多视图、多尺度图像特征的采样,以进行端到端的3D边界框预测。有关DETR3D的详细介绍见6.2.2节。

在Transformer中,交叉注意力表现出与数据相关的特性,一方面,其加权矩阵会受到输入数据的影响。这种对数据的依赖使得Transformer在表达上更加丰富,但同时也增加了训练的难度。另一方面,由于交叉注意力是排列不变的,Transformer需要借助位置编码来区分输入的序列顺序。

基于Transformer的方法能够利用注意力机制和位置编码实现视角转换,为感知提供有效的解决方案。为了进一步提升算法性能,越来越多的方法开始尝试将3D几何约束引入基于Transformer的透视视角到鸟瞰视角转换的框架中,以增强网络对空间关系的感知能力,提高转换效率和准确性。

根据输入模态划分,BEV感知算法可以分为以下两种类型。

基于图像的BEV感知算法:这类算法主要依赖视觉传感器,如摄像头获取的图像数据。它们将多个视角的图像序列转换为BEV特征,用于后续感知任务,如输出物体的3D检测框或鸟瞰视图下的语义分割。这类算法充分利用了视觉感知的丰富语义信息,但可能受到深度测量准确性的限制。

基于多模态的BEV感知算法:这类算法融合了来自不同传感器(如视觉传感器、激光雷达、毫米波雷达等)的信息,以构建BEV特征。这种融合可以取长补短,充分利用各种传感器的优点,弥补各自的不足。 qdLvYVFRLeqzzuWlouolVDYAqFlZwIF8YJPtCnvYkcFZX+gsmvhIHNul4qWR3jBO

点击中间区域
呼出菜单
上一章
目录
下一章
×