购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.4 自动驾驶系统计算平台

为了研究自动驾驶系统计算平台面临的主要挑战,研究人员对原型4级自动驾驶汽车的计算硬件进行了评估,并研究芯片制造商是如何应对这些挑战的。为了对车辆硬件进行调查,研究人员通常需要与芯片设计公司进行互动。当前车辆的计算平台由两个计算盒组成,每个计算盒都配备有Intel Xeon E5处理器,以及4~8个NVIDIA K80 GPU加速器,并通过PCI-E总线连接。在最高性能下,12核CPU每秒可提供400亿次操作(GOPS),消耗400W的功率;每个GPU每秒可进行8亿次运算(TOPS),同时消耗300W的功率。总体而言,该系统可在约3000W的功率下,提供64.5TOPS的运算力。其中一个计算盒被连接至车辆周围的12个高清摄像头,用于物体检测和物体跟踪。激光雷达(LiDAR)被安装在车辆顶部,用于车辆定位,以及提供一些避障功能。另一个计算盒用于提供可靠性,执行完全相同的任务。如果一个计算盒出现故障,那么另一个计算盒可以立即接管它的工作。当两个计算盒都在其峰值(最坏的情况)下运行时,它们将消耗超过5000W的功率,这将产生极大的热量。而且,每个计算盒的价格为20000~30000美元,这将使整个解决方案对普通消费者而言难以负担。为了克服这些缺点,芯片制造商提出了多种平台类型和解决方案,比如基于GPU、DSP、FPGA和ASIC的平台类型和解决方案。

1.4.1 GPU

NVIDIA PX2平台是当前领先的基于GPU的自动驾驶解决方案。每个PX2都包含两个Tegra SoC和两个Pascal图形处理器。每个GPU都有专用的内存,以及用于DNN加速的专用指令。为了提供高吞吐量,每个Tegra都使用PCI-E Gen 2×4总线直接连接到Pascal GPU(总带宽为4.0GB/s)。此外,双CPU-GPU集群通过千兆以太网连接,可提供70GB/s的速度。通过优化的I/O架构和DNN加速,每个PX2每秒可以执行24万亿次深度学习计算。在运行AlexNet深度学习工作负载时,每秒可以转换2800张图像。

1.4.2 DSP

德州仪器(TI)的TDA是基于DSP的自动驾驶解决方案。TDA2x SoC由2个浮点C66x DSP内核和4个完全可编程的视觉加速器组成,它们专门用于提供视觉处理功能。与ARM Cortex-15 CPU相比,加速器使TDA完成视觉任务的速度加快8倍,而功耗却更低。

CEVA的CEVA-XM4是另一种基于DSP的解决方案,旨在对视频流执行计算机视觉任务。它的主要优点是能效高。对于30fps(帧/秒)的1080像素视频,CEVA-XM4所需的功率不到30mW。

1.4.3 FPGA

Altera的Cyclone V SoC是基于FPGA(现场可编程门阵列)的自动驾驶解决方案,用于奥迪产品中。Altera的FPGA针对传感器融合进行了优化,它结合多个传感器的数据,实现了高度可靠的目标检测。

另一种解决方案是Zynq Ultra Scale MP SoC。在运行CNN任务时,Ultra Scale每秒可处理14张图像(图像/秒/瓦),显然优于Tesla K40 GPU(4张图像/秒/瓦)。此外,对于对象跟踪,在实时1080像素的视频流中可达到60fps。

1.4.4 ASIC

Mobileye EyeQ 5是目前领先的基于ASIC(专用集成电路)的自动驾驶解决方案。EyeQ 5具有异构、完全可编程的加速器,每种加速器均针对自己的算法系列进行了优化,其中包括计算机视觉、信号处理和机器学习任务。利用这种体系结构的多样性,应用程序可为每个任务使用最合适的内核,从而节省计算时间。为了支持使用多个设备进行系统扩展,EyeQ 5已实现两个PCI-E端口处理器之间的通信。

说明: 每种解决方案都有其优势,但是没有一个计算平台是最佳的。计算平台作为分析自动驾驶体系结构当前状态的一部分,我们试图探讨下列三个问题:

● 哪些计算单元最适合哪些工作负载?

● 移动处理器是否足以执行自动驾驶任务?

● 如何设计最有效的自动驾驶系统计算平台? 0dSZPuwnYBH/66RDZLKAUyPIbaZRZ/UdqgEQAkI9+PIChfhWij7KcxfX5YUIHbRf

点击中间区域
呼出菜单
上一章
目录
下一章
×