自动驾驶算法与芯片设计最新章节_任建峰著

1.4 自动驾驶系统计算平台

为了研究自动驾驶系统计算平台面临的主要挑战，研究人员对原型4级自动驾驶汽车的计算硬件进行了评估，并研究芯片制造商是如何应对这些挑战的。为了对车辆硬件进行调查，研究人员通常需要与芯片设计公司进行互动。当前车辆的计算平台由两个计算盒组成，每个计算盒都配备有Intel Xeon E5处理器，以及4～8个NVIDIA K80 GPU加速器，并通过PCI-E总线连接。在最高性能下，12核CPU每秒可提供400亿次操作（GOPS），消耗400W的功率；每个GPU每秒可进行8亿次运算（TOPS），同时消耗300W的功率。总体而言，该系统可在约3000W的功率下，提供64.5TOPS的运算力。其中一个计算盒被连接至车辆周围的12个高清摄像头，用于物体检测和物体跟踪。激光雷达（LiDAR）被安装在车辆顶部，用于车辆定位，以及提供一些避障功能。另一个计算盒用于提供可靠性，执行完全相同的任务。如果一个计算盒出现故障，那么另一个计算盒可以立即接管它的工作。当两个计算盒都在其峰值（最坏的情况）下运行时，它们将消耗超过5000W的功率，这将产生极大的热量。而且，每个计算盒的价格为20000～30000美元，这将使整个解决方案对普通消费者而言难以负担。为了克服这些缺点，芯片制造商提出了多种平台类型和解决方案，比如基于GPU、DSP、FPGA和ASIC的平台类型和解决方案。

1.4.1 GPU

NVIDIA PX2平台是当前领先的基于GPU的自动驾驶解决方案。每个PX2都包含两个Tegra SoC和两个Pascal图形处理器。每个GPU都有专用的内存，以及用于DNN加速的专用指令。为了提供高吞吐量，每个Tegra都使用PCI-E Gen 2×4总线直接连接到Pascal GPU（总带宽为4.0GB/s）。此外，双CPU-GPU集群通过千兆以太网连接，可提供70GB/s的速度。通过优化的I/O架构和DNN加速，每个PX2每秒可以执行24万亿次深度学习计算。在运行AlexNet深度学习工作负载时，每秒可以转换2800张图像。

1.4.2 DSP

德州仪器（TI）的TDA是基于DSP的自动驾驶解决方案。TDA2x SoC由2个浮点C66x DSP内核和4个完全可编程的视觉加速器组成，它们专门用于提供视觉处理功能。与ARM Cortex-15 CPU相比，加速器使TDA完成视觉任务的速度加快8倍，而功耗却更低。

CEVA的CEVA-XM4是另一种基于DSP的解决方案，旨在对视频流执行计算机视觉任务。它的主要优点是能效高。对于30fps（帧/秒）的1080像素视频，CEVA-XM4所需的功率不到30mW。

1.4.3 FPGA

Altera的Cyclone V SoC是基于FPGA（现场可编程门阵列）的自动驾驶解决方案，用于奥迪产品中。Altera的FPGA针对传感器融合进行了优化，它结合多个传感器的数据，实现了高度可靠的目标检测。

另一种解决方案是Zynq Ultra Scale MP SoC。在运行CNN任务时，Ultra Scale每秒可处理14张图像（图像/秒/瓦），显然优于Tesla K40 GPU（4张图像/秒/瓦）。此外，对于对象跟踪，在实时1080像素的视频流中可达到60fps。

1.4.4 ASIC

Mobileye EyeQ 5是目前领先的基于ASIC（专用集成电路）的自动驾驶解决方案。EyeQ 5具有异构、完全可编程的加速器，每种加速器均针对自己的算法系列进行了优化，其中包括计算机视觉、信号处理和机器学习任务。利用这种体系结构的多样性，应用程序可为每个任务使用最合适的内核，从而节省计算时间。为了支持使用多个设备进行系统扩展，EyeQ 5已实现两个PCI-E端口处理器之间的通信。

说明： 每种解决方案都有其优势，但是没有一个计算平台是最佳的。计算平台作为分析自动驾驶体系结构当前状态的一部分，我们试图探讨下列三个问题：

● 哪些计算单元最适合哪些工作负载？

● 移动处理器是否足以执行自动驾驶任务？

● 如何设计最有效的自动驾驶系统计算平台？