人们在驾驶汽车时,主要是利用自己的视觉系统和听觉系统,然而,利用人工感知的方法,通常会依靠多种模式来克服单个传感器的限制。自动驾驶汽车使用的传感器种类繁多,包括无源传感器(如单目摄像机和立体摄像机等)和有源传感器(如激光雷达、雷达和声呐等)。由于对自动驾驶感知的研究大多集中在摄像机和激光雷达上,因此,这里将更详细地介绍这两类传感器。在文献 [1-2] 中,你可以找到有关用于自动驾驶的传感器更全面的报告。
单目摄像机以像素强度的形式提供详细的信息,旨在以更大的比例显示图像的形状和纹理信息。图像的形状和纹理信息可用于检测车道的几何形状、交通标志和对象类别。单目摄像机的一个缺点是缺乏深度信息,而深度信息是物体的精确尺寸和位置估计所必需的。立体摄像机的配置,可用于恢复深度信息。这种配置通过匹配算法来寻找两张图像中的对应关系,并计算相对于摄像机每个点的深度,因此需要更强的处理能力。
提供深度估计的ToF(Time of Flight)摄像机,通过测量发射和接收的调制红外脉冲之间的延迟来推断深度。虽然这项技术在车辆安全上得到应用,但是与立体摄像机相比,其分辨率较低,传感器也容易受到光线和天气条件的影响,例如进出隧道时的亮度差异。此外,在交通标志和车辆刹车灯上,使用LED灯产生了闪烁问题。这种情况的发生,是因为摄像机传感器因LED的开关行为,而无法可靠地捕获发射的光量。
激光雷达传感器通过发射激光束,测量发射和返回脉冲之间的时间,以确定障碍物在任何给定方向上的距离。传感器会产生一组3D点(也称为点云)和与接收脉冲强度相对应的反射率值。与图像不同,点云稀疏,在样本空间中分布不均匀。作为有源传感器,激光雷达不需要外部照明。因此,即使在恶劣的天气和极端的照明条件(例如,夜间或阳光刺眼的情况)下,也可以实现更可靠的检测。标准的激光雷达模型,例如HDL-64E [3] ,使用旋转的激光束阵列来获得360度和最大半径(如120m)的3D点云。该传感器每帧可输出12万个点,在10Hz帧速率下,每秒可输出12亿个点。2020年,Velodyne发布了VLS-128型号的激光雷达产品,其具有128束激光、更大的角分辨率和300m的半径范围。激光雷达被广泛采用的主要障碍是其价格:单个激光雷达传感器的成本可能超过70000美元。然而,随着固态激光雷达技术的引入和激光雷达产品的大规模生产,这一价格在未来几年内将会下降。
还有一些检测方法,同时依赖激光雷达和摄像机模式。在融合这些模态之前,需要校准传感器,以获得单个空间参考系。Park等人 [4] 建议使用多边形平板作为目标,可通过两种方式将其检测出来,以生成准确的3D-2D对应关系,并获得更准确的校准。然而,由于具有空间目标,使得该方法难以进行现场校准。Ishikawa等人 [5] 设计了一种校准方法,在不具有空间目标的情况下,该方法使用传感器的测距法估算环境来反复进行校准。
不同传感器具有不同的特点。单目摄像机是廉价的传感器,但是缺少深度信息,而深度信息是3D对象精确检测所必需的;立体摄像机可用于恢复深度信息,但是在不利的光照条件和无纹理的场景中其无法使用;ToF摄像机传感器的分辨率有限;激光雷达传感器可用于在夜间进行精确深度估计,但是在不利的天气条件(如雪和雾等)下容易产生噪声,并且无法提供纹理信息。因此,如何融合不同传感器的数据,以实现可靠检测目标,一直是业界不断努力的方向。