RISC-V架构DSP处理器设计最新章节_张志伟著

1.1 数字信号处理器的发展历程

DSP芯片诞生于20世纪70年代，在不断增长的数字信号处理需求的推动下，40多年来，DSP芯片不断演进，取得了多个关键技术的突破，性能逐步提高，涌现了众多优秀的DSP芯片产品，下面向读者介绍DSP芯片的发展历程以及各个发展阶段的代表性产品。

1978年，美国安迈信息科技公司（AMI）发布了S2811。S2811具有12位硬件乘法器、一个16位ALU和一个16位输出，它虽然没有硬件乘累加器，但是结合乘法器和ALU可单指令执行乘加运算。1979年，美国因特尔公司发布了2920，它具有一个9位片上ADC（8位加符号）和一个9位片上DAC，但没有集成硬件乘法器。1980年，日本电气公司（NEC）的μPD7720和美国电话电报公司（AT&T）的DSP1在ISSCC大会上首次亮相，μPD7720针对语音应用，内部包含一个16×16乘法器和两个16位累加器，4 MHz主频，是早期最成功的DSP；AT&T将DSP1纳入其开创性的电话网络5ESS电子交换系统中。美国德州仪器公司（TI）于1982年在ISSCC大会推出TMS32010，该芯片基于哈佛结构，具有独立的指令存储和数据存储，主频可达5MHz。TMS32010具有32位ALU、16位移位器、16位并行有符号乘法器和32位累加器。基于以上特点，TMS32010实现了很多有代表性的指令，包括加载累加（load-and-accumulate）和乘累加（multiply-and-accumulate）指令等，其中乘累加操作需要两个时钟周期。

一段时间后，第二代DSP开始发展。比较具有代表性的DSP芯片有AT&T公司在1988年推出的DSP16A和美国摩托罗拉公司（Motorola）在1986年推出的Motorola 56000等。这个时代的DSP具有以下典型特征：超哈佛结构、硬件循环加速、硬件乘累加器和复杂寻址模式（如循环寻址）等。

1995年后出现了第三代DSP，其主要特点是在计算通路中增加了面向特定应用领域的功能单元和指令，这些功能单元和指令有时也以协处理器的形式出现，用于进行硬件算法加速，如傅里叶变换或矩阵运算等。该时期比较具有代表性的DSP芯片包括Motorola公司的MC68356和TI公司的TMS320C541、TMS 320C80等。

2000年以后出现了第四代DSP，在该时期，DSP的处理能力不断提升。高性能DSP普遍采用VLIW架构，并支持SIMD，片上存储容量也不断提升。该时期比较具有代表性的产品包括美国亚德诺半导体公司（ADI）的TigerSHARC101、TigerSHARC201和TI公司的TMS320C6455。TigerSHARC处理器每周期可执行4条指令，从而执行24个定点（16位）运算或6个浮点运算，TMS320C6455采用C64x内核，每周期可执行8个指令，每个乘法器支持2个16×16或者4个8×8操作的SIMD操作。

2010年以后，DSP面向不同的应用领域逐渐分化，主要分为高性能信号处理、实时控制、通信、音频处理等。在高性能信号处理方面，DSP的主频达到1GHz以上。除了单核处理能力不断提升，DSP还通过多核方式进一步提升性能。以TI公司的TMS320C6678为例，其内部集成8个DSP处理核，单核峰值计算能力达到20GFLOPS，全芯片峰值算力达到160GFLOPS；在实时控制方面，DSP与MCU不断融合。以TI的C28系列为例，其官网已将该类DSP划归到MCU产品类别，它的特点为单芯片内部集成ADC、PWM、TMU和CLA等功能单元，在实现高集成度的同时，提供足够的算力，以获得最佳的实时信号链处理性能。

当前，国际上最主要的DSP供应商为TI和ADI公司，相比而言，TI公司的DSP产品种类更多，市场份额更大。上述两家企业的主要DSP产品类别如表1-1和表1-2所示。

表1-1 TI的主要DSP产品

表1-2 ADI的主要DSP产品

随着集成电路工艺的不断进步，单个芯片上可以集成的晶体管数目也不断增加，越来越多的DSP以IP的形式集成到大规模SoC芯片中。以手机芯片为例，其片上集成CPU、GPU、AI和DSP等各类微处理器内核以执行不同的任务，其中DSP内核主要用于完成图像音频处理以及基带信号处理等。在AI芯片中，DSP内核同样发挥着重要的作用，该类芯片多采用DSP+NPU的架构，NPU用于执行卷积、池化等宏指令，DSP用于执行向量类、变换类计算，这种架构可兼顾高效性和通用性。目前国际上提供DSP内核IP的厂商主要为CEVA和Cadence，其产品情况大致如下：

CEVA在物联网、边缘设备、5G通信以及智能计算等典型应用场景拥有完善的IP产品线。

1）在控制、无线设备、物联网设备领域，CEVA提供了两种典型的标量核IP配置，即BX1和BX2。BX1和BX2均采用VLIW架构以及11级流水线结构。计算单元方面支持8/16/32/64位定点以及半精度、单精度与双精度浮点计算。BX2的计算资源是BX1的2倍，具有并行访存功能。在TSMC 7nm工艺下，二者的主频可达2GHz，并分别提供了8MACs/s、16MACs/s的算力。作为CEVA的主力标量核，它们将会被集成到更高性能的带有向量处理单元的SoC中。

2）在5G移动端、通信基础设施领域，CEVA根据不同应用场景提供了高算力DSP。对于移动端侧，CEVA有两款代表性IP，即XC4500和XC22，它们分别是该系列的第4代、第5代产品，用于处理5G-NR、LET、蜂窝等5G终端等应用。XC4500、XC22均采用8发射VLIW架构，13级流水线结构，集成2个向量处理单元。其指令集针对5G-NR、LTE领域的算法进行了定制扩展，并集成有FFT/DFT、MLD MIMO解码器、5G AI协处理核等领域专用加速器。上述两款DSP核分别在16nm工艺1.2GHz、7nm工艺1.8GHz的主频下提供64MACs/s与128MACs/s的算力。针对5G基站，CEVA提供了代表性的XC16。XC16采用8发射VLIW架构，并附带4个向量处理单元。在指令方面，它提供了专用的指令加速FFT与对称FIR算法，同时提供了2048位宽的存储带宽。单核XC16在7nm工艺1.8GHz主频下提供256MACs/s的算力。

3）在新兴应用领域，CEVA针对边缘AI、深度学习与计算机视觉传感提供了三种代表性IP。NeuPro-M是边缘AI、深度学习领域的IP，通过可配置的向量处理单元，获得单核4TOPS～256TOPS的算力。SensorPro2是针对视觉传感器设计的DSP IP，用于加速相机、AR/VR、自动驾驶的雷达、激光雷达以及SLAM。SensorPro2采用8发射VLIW架构，集成可配置的向量处理单元，提供128～1024个INT 8数据数型的MAC阵列与64个浮点MAC阵列，在1.6GHz主频下带来3.2～20TOPS的定点算力与400GFLOPS的浮点算力。XM6是一款用于DSP以及嵌入式设备的计算机视觉处理IP，采用8发射VLIW架构，集成可配置的向量引擎，可在28nm工艺下运行到1.6GHz，提供128MACs/s的算力。

2013年，Cadence收购Tensilica，并面向不同应用领域，持续推出多款具有竞争力的DSP IP。

1）Xtensa LX与NX系列是Tensilica的标量处理器内核，二者均采用基于RISC的32位专用指令集架构。LX系列采用可配置的5/7级流水线，具有可选的指令、数据cache，L2级存储可配置为紧耦合存储或L2 cache，提供从无cache的控制器到中高性能DSP引擎。NX系列采用10级流水线结构，主频可达2GHz，为大存储、计算密集型应用提供高性能的嵌入式控制。

2）Tensilica为低功耗应用场景提供了一款典型的IP，即Fusion F1。Fusion F1为2发射VLIW架构，并可根据用户应用场景提供声学/音频/语音扩展指令以及Viterbi加速器。微结构上支持循环寻址、cache预取等优化。该款IP的算力为4～8MACs/s，可应用于常开启传感器（always-on sensor）、WiFi、IoT等低功耗场景。

3）面向雷达、激光雷达、通信等对算力有更高需求的场景，Tensilica研发了Connx系列DSP IP。Connx系列的DSP采用VLIW架构，分别集成了128、256、512位宽的SIMD向量处理单元，分别提供32MACs/s、64MACs/s、128MACs/s的算力。Connx系列DSP可针对特定应用算法自定义扩展指令，例如复数、多项式求解、FFT、FIR等，并且具备进行多核扩展的选项。

4）针对视觉、图像的应用场景，Tensilica提供高性能、低功耗的图像处理DSP，该类处理器以Vision系列为代表。Vision系列共有4款DSP处理器，分别为P1、P6、Q7、Q8。其中P1、P6集成了上述Xtensa LX系列的标量核，Q7、Q8集成了Xtensa NX系列标量核。以上四款为8槽VLIW流水线设计，并集成了128、512、1024位宽的SIMD的向量处理单元，支持8/16/32/64位定点运算，半精度、单精度及双精度的浮点运算，且均内置DMA，通过128、256位宽的AXI总线与外部相连。P6在16nm工艺下，主频达1.1GHz，提供128MACs/s的算力，Q7、Q8在16nm工艺下，主频为1.5GHz，Q8的最高算力达512MACs/s，可用于AI、AR/VR、SLAM等高性能图像、机器视觉场景。对于浮点运算密集型的应用场景，Tensilica具有KP/KQ系列的4款IP。该类IP从定位到技术配置、定点性能、主频与Vision系列的4款核类似，但对浮点运算的PPA进行了特殊优化，可供用户定制化选择。

5）音频领域是Tensilica IP的强项。在音频领域，Tensilica具有代表性的是HiFi系列IP，分别为HiFi1、HiFi3、HiFi3z、HiFi4、HiFi5。HiFi1是针对常听、常开启音频设备的超低功耗IP，具有2发射VLIW、SIMD向量FPU结构，以及循环寻址功能，可提供8MACs/s的算力。HiFi3至HiFi5在性能与能耗方面达到平衡，具有3～5发射VLIW及不同宽度SIMD向量FPU结构，其算力能达到16～32MACs/s，用于高性能高质量的音频信号前、后处理以及计算。