边缘计算方法与工程实践最新章节_张骏著

2.3.4 机器学习在边缘计算架构中的演进

由于深度学习模型的高准确率与高可靠性，深度学习技术已在计算机视觉、语音识别与自然语言处理领域取得了广泛的应用。

1.不同的应用场景，不同的精度需求

AI系统通常涉及训练和推断两个过程。训练过程对计算精度、计算量、内存数量、访问内存的带宽和内存管理方法的要求都非常高。而对于推断，更注重速度、能效、安全和硬件成本，模型的准确度和数据精度则可酌情降低。

人工智能工作负载多属于数据密集型，需要大量的存储和各层次存储器间的数据搬移，导致“内存墙”问题非常突出。为了弥补计算单元和存储器之间的差距，学术界和工业界正在两个方向上进行探索：

· 富内存的处理单元。增加片上存储器的容量并使其更靠近计算单元。

· 创建具备计算能力的存内计算（Process-in-Memory，PIM），直接在存储器内部（或更近）实现计算。

2.低精度、可重构的芯片设计是趋势

目前，关于AI芯片的定义并没有一个严格和公认的标准，一般认为面向人工智能应用的芯片都可以称为AI芯片。低精度设计是AI芯片的一个趋势，在针对推断的芯片中更加明显。同时，针对特定领域，而非特定应用的可重构能力的AI芯片，将是未来AI芯片设计的一个指导原则。

另一方面，TensorFlow和PyTorch等AI算法开发框架在AI应用研发中正在起到至关重要的作用。通过软件工具构建一个集成化的流程，将AI模型的开发和训练、硬件无关和硬件相关的代码优化、自动化指令翻译等功能无缝地结合在一起，将是成功部署的关键。

人工智能芯片技术白皮书（2018）指出，从2015年开始，AI芯片的相关研发逐渐成为热点。在云端和终端已经有很多专门为AI应用设计的芯片和硬件系统。如图2-14所示为AI芯片目标领域。在云端，通用GPU，特别是NVDIA系列GPU被广泛应用于深度神经网络训练和推理。其最新的Tesla V100能够提供120 TFLOPS（每秒120万亿次浮点指令）的处理能力。很多公司也开始尝试设计专用芯片，以达到更高的效率，其中最著名的例子是Google TPU。谷歌公司还通过云服务把TPU开放商用，处理能力达到180 TFLOPS，提供64GB的高带宽内存（HBM）、2400GB/s的存储带宽。

不光芯片巨头，很多初创公司也看准了云端芯片市场。如Graphcore、Cerebras、Wave Com-puting、寒武纪及比特大陆等公司也加入了竞争行列。

此外，FPGA也逐渐在云端的推断应用中占有一席之地。目前，FPGA的主要厂商如Xilinx、英特尔都推出了专门针对AI应用的FPGA硬件。亚马逊、微软及阿里云等公司也推出了专门的云端FPGA实例来支持AI应用。一些初创公司，例如深鉴科技等也在开发专门支持FPGA的AI开发工具。

3.边缘AI计算让传统终端设备焕发青春

随着人工智能应用生态的爆发，越来越多的AI应用开始在端设备上开发和部署。智能手机是目前应用最为广泛的边缘计算设备。包括苹果、华为、高通、联发科和三星在内的手机芯片厂商纷纷研发或推出专门适合AI应用的芯片产品。

图2-14 AI芯片目标领域

4.云+端相互配合，优势互补

总体来说，云侧AI处理主要强调精度、处理能力、内存容量和带宽，同时追求低时延和低功耗；边缘设备中的AI处理则主要关注功耗、响应时间、体积、成本和隐私安全等问题。

云和边缘设备在各种AI应用中往往是配合工作。最普遍的方式是在云端训练神经网络，然后在云端（由边缘设备采集数据）或者边缘设备进行推理。

在执行深度学习模型推理的时候，移动端设备将输入数据发送至云端数据中心，云端推理完成后将结果发回移动设备。然而，在这种基于云数据中心的推理方式下，大量的数据通过高时延、带宽波动的广域网传输到远端云数据中心，造成了较大的端到端时延以及移动设备较高的能量消耗。相比于面临性能与能耗瓶颈的基于云数据中心的深度学习模型部署方法，更好的方式则是结合新兴的边缘计算技术，充分运用从云端下沉到网络边缘端的计算能力，从而在具有适当计算能力的边缘计算设备上实现低时延与低能耗的深度学习模型推理。通用处理器完全可以胜任推理需求，一般不需要额外的GPU或者FPGA等专用加速芯片。

边缘侧的负载整合则为人工智能在边缘计算的应用找到了突破口。“物”连上网将产生庞大的数据量，数据将成为新的石油，人工智能为数据采集、分析和增值提供全新的驱动力，也为整个物联网发展提供了新动能。虚拟化技术将在不同设备上独立地负载整合到统一的高性能计算平台上，实现各个子系统在保持一定独立性的同时还能有效分享计算、存储、网络等资源。边缘侧经过负载整合，产生的节点既是数据的一个汇总节点，同时也是一个控制中心。人工智能可以在节点处采集分析数据，也能在节点提取洞察做出决策。

如何将人工智能应用到边缘侧？网络优化将是关键性技术之一。英特尔认为可以通过低比特、剪枝和参数量化进行网络优化。低比特指在不影响最终识别的情况下，通过降低精度来降低存储和计算负荷。剪枝指剪除不必要的计算需求，从而降低计算复杂度。参数量化指可以根据参数的特征做聚类，用相对比较简单的符号或数字来表述，从而降低人工智能对存储的需求。