自动驾驶算法与芯片设计最新章节_任建峰著

2.2 数据集

随着学习方法被广泛采用，对训练数据的需求量在不断增加。诸如ImageNet之类的大规模图像数据集的可用性，促进了图像分类和物体检测模型的快速发展与演变。在驾驶场景中，也会有同样的需求，因为更多的数据意味着更广泛的场景覆盖。特别是诸如物体检测和语义分割之类的任务，需要精确标记的数据。本节介绍用于驾驶任务中的通用数据集，尤其是物体检测数据集。

在驾驶环境中，最常用的数据集之一是KITTI ^[6] ，它能提供立体的彩色图像、激光雷达点云和GPS坐标，它们在时间上同步。其记录的场景包括结构良好的高速公路、复杂的城市区域和狭窄的乡村道路等。该数据集可用于多种任务中，如立体匹配、视觉里程表、3D物体跟踪和3D物体检测等。特别是特定的对象检测数据集，其包含7481个训练样本和7518个测试样本，这些样本提供了传感器校准信息和对象周围的带注释的3D边界框。同时根据对象大小和遮挡情况，注释分为“简单”、“中等”和“困难”等级别。

尽管该数据集已被广泛采用，它还是存在一些局限性。需要注意的是，在有限的传感器配置和照明条件下，所有测量都是在白天进行的，且大部分数据是在阳光充足的条件下，通过同一组传感器获得的。另外，数据分布也非常不平衡，其中汽车的数据占75%，骑自行车的人的数据占4%，行人的数据占15%，等等。在更多的通用场景中，多样性的缺乏对当前方法的评估提出了挑战，从而降低了其在实际应用中的可靠性。

考虑到这些局限性，获取和标记数据集是一个昂贵的过程。Gaidon等人 ^[7] 提出了虚拟的KITTI数据集。他们使用游戏引擎、3D模型和原始视频序列，手动重新创建了KITTI环境，调整了不同的光照和天气条件、车辆颜色和模型等，以自动生成标记数据。其提供了大约17000个帧，包括非常逼真、高清的图像。此外，他们还评估了跟踪应用程序在真实域和虚拟域之间的可移植性，以及在真实图像上训练并在虚拟图像上进行测试的跟踪器。结果表明，性能差距很小，由此也显示了数据集的等效性。同时还得出另一个结论：当对虚拟数据进行训练并对真实数据进行微调时，可以获得最佳性能。

仿真工具既可用来生成特定条件下的训练数据，也可用来训练端到端的驾驶系统 ^[8] 。在训练期间，使用虚拟数据可以增强实际环境中检测模型的性能。虚拟数据可以通过游戏引擎或模拟环境获得。CARLA ^[9] 是一个用于自动驾驶的开源仿真工具，可实现灵活的环境设置和传感器配置。它为行人、汽车提供了多个3D模型，包括两个虚拟城镇，可以调整环境条件，例如天气和照明，以生成看不见的场景。该虚拟传感器套件包括RGB摄像头和立体摄像机，具有真实性的分割框和射线投射激光雷达模型。使用另一个仿真工具Sim4CV ^[10] 可以轻松地进行环境自定义，并对驾驶场景进行多视图渲染，同时提供用于物体检测的地面边界框。