随着学习方法被广泛采用,对训练数据的需求量在不断增加。诸如ImageNet之类的大规模图像数据集的可用性,促进了图像分类和物体检测模型的快速发展与演变。在驾驶场景中,也会有同样的需求,因为更多的数据意味着更广泛的场景覆盖。特别是诸如物体检测和语义分割之类的任务,需要精确标记的数据。本节介绍用于驾驶任务中的通用数据集,尤其是物体检测数据集。
在驾驶环境中,最常用的数据集之一是KITTI [6] ,它能提供立体的彩色图像、激光雷达点云和GPS坐标,它们在时间上同步。其记录的场景包括结构良好的高速公路、复杂的城市区域和狭窄的乡村道路等。该数据集可用于多种任务中,如立体匹配、视觉里程表、3D物体跟踪和3D物体检测等。特别是特定的对象检测数据集,其包含7481个训练样本和7518个测试样本,这些样本提供了传感器校准信息和对象周围的带注释的3D边界框。同时根据对象大小和遮挡情况,注释分为“简单”、“中等”和“困难”等级别。
尽管该数据集已被广泛采用,它还是存在一些局限性。需要注意的是,在有限的传感器配置和照明条件下,所有测量都是在白天进行的,且大部分数据是在阳光充足的条件下,通过同一组传感器获得的。另外,数据分布也非常不平衡,其中汽车的数据占75%,骑自行车的人的数据占4%,行人的数据占15%,等等。在更多的通用场景中,多样性的缺乏对当前方法的评估提出了挑战,从而降低了其在实际应用中的可靠性。
考虑到这些局限性,获取和标记数据集是一个昂贵的过程。Gaidon等人 [7] 提出了虚拟的KITTI数据集。他们使用游戏引擎、3D模型和原始视频序列,手动重新创建了KITTI环境,调整了不同的光照和天气条件、车辆颜色和模型等,以自动生成标记数据。其提供了大约17000个帧,包括非常逼真、高清的图像。此外,他们还评估了跟踪应用程序在真实域和虚拟域之间的可移植性,以及在真实图像上训练并在虚拟图像上进行测试的跟踪器。结果表明,性能差距很小,由此也显示了数据集的等效性。同时还得出另一个结论:当对虚拟数据进行训练并对真实数据进行微调时,可以获得最佳性能。
仿真工具既可用来生成特定条件下的训练数据,也可用来训练端到端的驾驶系统 [8] 。在训练期间,使用虚拟数据可以增强实际环境中检测模型的性能。虚拟数据可以通过游戏引擎或模拟环境获得。CARLA [9] 是一个用于自动驾驶的开源仿真工具,可实现灵活的环境设置和传感器配置。它为行人、汽车提供了多个3D模型,包括两个虚拟城镇,可以调整环境条件,例如天气和照明,以生成看不见的场景。该虚拟传感器套件包括RGB摄像头和立体摄像机,具有真实性的分割框和射线投射激光雷达模型。使用另一个仿真工具Sim4CV [10] 可以轻松地进行环境自定义,并对驾驶场景进行多视图渲染,同时提供用于物体检测的地面边界框。