自动驾驶算法与芯片设计最新章节_任建峰著

2.3 3D物体检测方法

3D物体检测方法分为三类：基于单目图像的检测方法、基于点云的检测方法和基于融合的检测方法。3D物体检测方法比较如表2-2所示。

表2-2 3D物体检测方法比较

续表

2.3.1 基于单目图像的检测方法

尽管2D物体检测方法已在多个数据集中得到成功应用，然而KITTI数据集对3D物体检测方法提出了更具挑战性的设置，而这些设置在大多数驾驶环境中都很常见，包括小的、被遮挡的或被截断的物体的设置，以及高度饱和的区域或阴影的设置。

此外，图像平面上的2D物体检测方法还不足以提供可靠的驱动系统，此类应用需要更精确的3D空间定位和尺寸估算。本节将重点介绍基于单目图像估算3D边界框的方法。然而，由于没有可用的深度信息，因此大多数方法都要先使用神经网络、几何约束或3D模型匹配，在预测3D边界框之前检测2D候选对象。

Chen等人 ^[11] 提出了Mono3D，利用上下文、语义、手工设计的形状特征和位置先验来设计简单的区域提议。对于任何给定的区域提议，这些特征都可以通过模型进行有效的计算和评分。通过在3D空间上利用穷举搜索生成区域提议，并使用Non-Maxima Suppression（NMS）进行过滤。

通过3D边界框回归的Faster R-CNN ^[12] 模型进一步完善了结果。这项工作以先前的工作3DOP ^[13] 为基础，提出了深度图像在类似的框架中生成区域提议的方法。尽管仅使用单目图像，Mono3D模型还是略微提高了所获得的性能，该方法使用了深度图像。需要指出的是，自动驾驶环境的一个重要特征是在拥挤的场景中存在严重的遮挡。在这种情况下，车辆可能会挡住自身的视线。Xiang等人 ^[14] 将可见性模式引入模型中，并通过对象推理减轻遮挡效应。他们提出了3D体素模式（3DVP）表示形式，该模型通过RGB图像对外观进行3D建模。采用这种表示形式，可以恢复对象的部分可见，如被遮挡或被截断的区域。他们通过所观察到的模式对数据进行聚类，并在给定车辆的2D图像片段的情况下，训练每种特定模式的分类器，从而获得3DVP的字典。在测试阶段，通过分类获得的模式用于遮挡推理，以及3D姿态和定位的估计。他们通过最小化投影到图像平面的3D边界框和2D检测结果之间的重投影误差来实现3D检测，但其性能仍取决于区域提议网络（Region Proposal Network，RPN）的性能。

尽管一些RPN能够改进传统的提议方法，它们还是无法处理遮挡、截断和不同的对象比例。对先前的3DVP框架进行扩展，他们又提出了SubCNN ^[15] 。这是一种CNN，其使用可探索类信息在RPN级别进行对象检测。其中采用了子类别的概念，子类别是共享相似属性（例如，3D姿态或形状）的对象类别。使用卷积层提取候选区域，以预测RPN级别下每个子类别的热图。在感兴趣区域（Region of Interest，ROI）提议之后，网络将输出类别分类及精确的2D边界框估计值。使用3DVP ^[14] 作为行人、骑自行车的人和车辆类别的子类别，模型可以恢复3D形状、姿态和遮挡模式。外推层通过引入多尺度图像金字塔来改善小物体检测性能。因此，现有的解决方案无法涵盖任意车辆姿态。为了解决这个问题，Deep MANTA ^[16] 使用多任务网络，针对单目图像估计车辆位置、零件定位和车辆形状等。车辆形状由一组关键点组成，这些关键点代表了车辆三维边界，例如车辆的外部顶点。首先，它们通过两级细化区域提议网络，获得2D边界框回归和零件定位；其次，它们基于推断的形状，执行3D模型匹配以获得3D姿态。

先前的尝试是在3D边界框空间进行详尽搜索，通过外观模式的集群或3D模板估计3D姿态。Mousavian等人 ^[17] 扩展了具有3D方向（偏航）和边界框尺寸回归的标准2D对象检测器。大多数模型都使用L2回归进行定向角预测。相反，他们提出了一种多仓方法来回归取向。该角度被视为属于 n 个重叠仓位之一，而网络便会估计属于每个仓位的角度的置信度，以及要添加到仓位中心以恢复输出角度的残差角。

首先根据网络预测确定3D边界框的尺寸和方向，然后恢复3D对象的姿态，通过求解平移矩阵，使3D边界框的重投影误差最小。以往所有基于单目图像的检测方法，只能由前置摄像头检测物体，忽略了车辆侧面和后部的物体。虽然激光雷达可以有效地用于360度检测，但Payen等人 ^[18] 提出了一种基于360度全景图像的3D对象检测方法。他们估计全景图像的密集深度图，并使标准对象检测方法适用于等矩形表示。由于缺乏用于自动驾驶的全景标记数据集，因此他们使用了投影转换来变换KITTI数据集，其可以在综合数据集上提供基准检测结果。目前，基于单目图像的检测方法已得到广泛研究。尽管以往的研究考虑了区域提议的手工设计的特征，然而大多数方法已转向区域提议的深度学习，以及3D模型匹配和重投影，以获得3D边界框。

说明： 基于单目图像的检测方法的主要缺点是缺乏深度信息，对远处的物体和被遮挡的物体限制了检测与定位精度，以及对光照和天气条件的敏感性，使得这些方法只能在白天使用。此外，由于大多数方法都依赖前置摄像头，因此，与在整个车辆上都有覆盖的点云方法相比，其只能检测到车辆前方的物体。

2.3.2 基于点云的检测方法

当前，基于点云的3D物体检测方法被划分为三类：投影方法、体积卷积方法和点网方法。基于点云的检测方法比较如表2-3所示。

表2-3 基于点云的检测方法比较

1.投影方法

2D图像中的图像分类和对象检测，是计算机视觉领域中经过深入研究的一个主题。2D图像的数据集和基准架构的可用性，使检测方法更具吸引力。因此，点云投影方法首先通过平面、圆柱或球形投影将3D点转换为2D图像，然后使用标准的2D对象检测模型，对位置和尺寸进行回归来恢复3D边界框。

Li等人 ^[19] 使用圆柱投影和全卷积网络（FCN）来预测车辆的3D边界框。投影产生的输入图像，具有编码点距传感器的高度和距离的通道。该输入被馈送到2D FCN，后者对三个连续层的输入进行下采样，然后使用转置的卷积层将这些映射上采样，作为边界框（Bounding Box，BB）的预测输出。第一次输出，确定给定点是车辆还是背景的一部分，故可有效地将其作为弱分类器。第二次输出，编码3D边界框的顶点，以第一次输出为条件来限制车辆。由于每个车辆都会有很多边界框估计，因此可采用NMS（Non Maximum Suppression）策略来减少重叠预测。在KITTI数据集上，可以端到端的方式训练这种检测模型并进行损失平衡，以避免偏向于出现更频繁的负样本。

使用圆柱和球形投影，论文 ^[20] 中使用了鸟瞰投影来进行3D对象检测。其在输入表示形式上有所不同：第一次使用位于单元格内点的高度最小值、中值和最大值，作为通道来编码2D输入单元格；而后则使用高度、强度和密度通道。一种方法是使用Faster R-CNN架构作为基础，并带有调整后的修正网络。该网络的输出是具有方向的3D边界框。尽管它们的鸟瞰结果合理，但是其方法所执行的方向及角度回归效果很差。由于大多数激光雷达是具有高点密度的传感器，故限制了所得模型在低端激光雷达传感器上的应用。

Beltrán ^[20] 提出了一种新颖的编码，该编码根据所使用的激光雷达的参数来归一化密度通道。这种归一化创建了统一的表示形式，并允许将检测模型推广到具有不同规格和光束数量的激光雷达传感器上。具有实时自动驾驶能力，是对部署在自动驾驶汽车上的安全关键系统的一项基本要求，其中包括物体检测。这些系统必须满足严格的响应时间指标，以使车辆对环境做出合理的响应。

Complex-YOLO ^[21] 则参考了YOLO体系结构的效率，并通过扩展来预测额外的尺寸和偏航角。虽然经典的RPN方法进一步处理了每个区域以进行更精细的预测，但该体系结构被归类为单次检测器，可在单个向前步骤中获得检测。尽管检测性能较差，但是其使Complex-YOLO的运行速度达到50fps，效率比以前的方法提高了5倍。

量化自动驾驶物体检测系统做出的预测可靠性，对于车辆的安全运行至关重要。与人类驾驶员一样，如果系统对预测的信心不足，则应进入安全状态，以避免风险。尽管大多数检测模型都会为每个预测提供分数，但是其倾向于使用softmax归一化来获取类分布。由于该归一化迫使概率总和统一，因此其不一定能反映预测的绝对置信度。使用贝叶斯神经网络 ^[22] 来预测感兴趣区域合并后的类别和3D边界框，可以量化两个输出的网络置信度。

2.体积卷积方法

体积卷积方法假定对象或者场景以3D网格或体素（Volume Pixel）表示形式来表示，其中每个单元格都有属性，例如二进制占用率或连续点密度。这种方法的优点之一是，它们明确地编码形状信息。但结果是，大多数体积是空的，导致在处理其空单元格时效率低下。另外，由于数据实际上是三维的，因此3D卷积是必需的，从而大大增加了此类模型的计算成本。

为此，在论文 ^[23-24] 中，在整个场景体积表示中，解决了使用一级全连接网络对驾驶场景进行目标检测的问题。一级检测不同于二级检测的地方在于：它首先生成区域提议，然后在第二个处理阶段进行细化。

Li在论文 ^[23] 中使用二进制体积输入，仅检测车辆。该模型的输出是“对象”和对象框顶点预测坐标。第一个输出预测估计的区域是否属于感兴趣的对象；第二个输出预测其坐标。作者使用了昂贵的3D卷积来限制时间性能。为了更有效地实施检测，在论文 ^[24] 中固定了每个类别对象框的大小，只检测汽车、行人和骑自行车的人。

只检测车和人的假设简化了架构，并与稀疏的卷积算法配合，极大地降低了模型的复杂性。L1正则化和ReLU用于维持卷积层之间的稀疏性。在推理过程中，并行网络可独立用于每个类别，而固定对象框大小的假设，则允许直接在正样本3D截取的区域来训练网络。在训练过程中，作者通过旋转和平移变换来增强数据，并采用严格的负面挖掘来减少误报。

3.点网方法

点云是由稀疏分布在空间中的可变数量的3D点组成的。那么，如何将其结构合并到假定输入数据大小固定的传统深度前馈神经网络中呢？以往的方法是使用投影，将点云的原始点转换为图像，或者使用体素表示，将其转换为体积结构。还有一类方法是使用点网，它通过使用原始点作为输入来处理不规则性，以试图减少3D空间中投影或量化所引起的信息丢失。

论文 ^[25] 中介绍了点网类别中的开创性工作，即将3D点云分段作为输入来执行对象分类和对象分割。网络使用全连接（FC）层逐点执行转换，并通过最大池化层聚合全局功能，从而确保了点顺序的独立性。实验结果表明，这种方法优于体积卷积方法。该模型在PointNet++ ^[26] 中得到了进一步扩展，其中对每一层都以分层结构逐步编码更复杂的特征。

在基于点云的检测方法中，投影方法因接近标准图像的对象检测方法而备受关注，特别是它在时间复杂度和检测性能之间提供了良好的折中。但是，大多数方法在投影点云时，比如密度、高度等都依赖于手工设计的功能。反之，PointNet方法则使用原始3D点来学习特征空间中的表示。在点网类别中，仍然有必要研究使用整个场景点云作为输入的新形式，因为常规的PointNet ^[25] 模型采用分段对象。同样，体积卷积方法将点云转换为体素表示，要求对其中的空间信息进行明确编码。这种方法需要3D卷积，从而导致稀疏表示效率低下。

2.3.3 基于融合的检测方法

如前所述，点云不提供纹理信息，而纹理信息对于对象检测和分类却非常有用。单目图像无法捕获深度值，而深度值对于准确的3D定位和尺寸估计是必需的。另外，随着与传感器的距离渐远，点云的密度会迅速降低，而图像仍可提供对远处车辆和物体的检测。为了提高整体性能，一些研究人员试图同时使用具有不同策略和融合方案的模式，即图像和点云相结合的模式。通常，融合方案有如下三种类型。

● 早期融合 ：在流程开始时，将模式进行组合，从而创建出依赖所有模式的新表示形式。

● 后期融合 ：在发生融合的最后阶段之前，将分别独立地处理每种模态。该类型不需要全部模态，因为它可以依赖单一模态的预测。

● 深度融合 ：在神经网络层中，分层地混合了模态，允许来自不同模态的特征在各层之间交互，从而产生更通用的融合方案。

Schlosser等人在论文 ^[27] 中评估了对3D行人检测不同阶段的融合，其模型考虑了两种输入：单目图像和深度框。他们得出的结论是：尽管可以使用早期融合，但是性能会下降，而使用后期融合可能会获得最佳性能。

一种融合策略是使用点云投影方法，即沿着投影的PCL映射，使用前置摄像头的额外RGB通道，以获得更高的检测性能。其中的两种方法 ^[28-29] 使用了3D区域提议网络，生成3D感兴趣区域，然后将其投影到特定视图，并用于预测类和3D边界框。

第一种方法是MV3D ^[28] ，使用了激光雷达鸟瞰图和前视点的投影，以及前置摄像头的RGB通道图像。网络由三个输入分支组成，每个输入分支都有一个基于VGG的特征提取器。仅基于鸟瞰图要素生成的3D提议，会被投影到每个视图的要素图，感兴趣区域合并层提取了与每个视图的分支相对应的要素。这些特定于提议的特征，以一种深度融合的方案进行汇总，其中特征图可以在各层之间交互。最后的图层输出了分类的结果和回归的3D边界框的精确顶点。作者研究了不同融合方案的性能，并得出结论：深度融合方案获得了最佳性能，这是因为其提供了更灵活的方法聚合来自不同模式的特征。

第二种方法是AVOD ^[29] ，这是在第一种方法中引入早期融合方案的方法，该方法将鸟瞰图和RGB通道合并以进行区域提议。其输入表示与MV3D相似，不过使用了鸟瞰图和图像输入分支。区域提议网络使用这两种方式的特征图，从而实现了较高的召回率。得分最高的区域提议被采样，并被投影到相应视图的特征图中。合并每种形式的提议的特定特征，并在全连接层输出类别分布和每个提议的精确的3D边界框。通常，在卷积阶段之后，丢失细节会阻止检测小物体。作者通过使用特征金字塔网络，对特征图进行上采样来规避这一问题。

另一种融合策略是使用单目图像获得2D候选图像，并将检测结果推广到采用点云数据的3D空间。

在融合类别中，Frustum PointNet ^[30] 在具有单目图像的图像平面上生成区域提议，并使用点云执行分类和边界框回归。通过使用摄像机校准参数，将在图像平面上获得的2D边界框推广到3D空间，从而得到平截头体区域提议。他们首先选择每个视锥（Cone）所包围的点，并使用PointNet实例进行分段来消除背景混乱。然后将此集提供给第二个PointNet实例，以执行分类和3D边界框回归。

同样，Du等人 ^[31] 首先选择投影到图像平面时位于检测盒中的点，然后使用这些点进行模型拟合，从而得到初步的3D提议。该提议由两阶段的改进的CNN进行处理，该CNN输出最终的3D边界框和置信度分数。

使用这两种方法进行的检测，都受到有关单目图像的区域提议的约束，这可能是由光照条件等所导致的限制因素。基于融合的检测方法，通过探索来自多种传感器模态的补充信息来获得最新的检测结果。激光雷达点云可以在较远的位置提供稀疏和低点密度的准确的深度信息，而摄像机可以提供对类别识别有价值的纹理信息。

特征级别下的信息融合，允许使用互补信息来增强性能。基于融合的检测方法比较如表2-4所示。

表2-4 基于融合的检测方法比较