语音信号处理及Blackfin DSP实现最新章节_张雄伟著

1.4 DSP芯片

1.4.1 DSP芯片简介

1．DSP芯片的定义

DSP芯片，即数字信号处理芯片（也称数字信号处理器），是一种特别适合于进行DSP的微处理器，其主要功能是实时快速地实现各种DSP算法。根据数字信号处理的要求， DSP芯片一般具有如下一些主要功能或能力：

（1）在一个指令周期内可完成一次乘法和加法（简称乘累加，MAC）；

（2）程序空间和数据空间分开，可以同时访问程序指令和数据；

（3）片内设置快速RAM，通常可通过独立的程序和数据总线同时访问程序块和数据块；

（4）具有低开销或无开销循环及跳转的硬件支持；

（5）快速的中断处理和硬件I/O支持；

（6）具有在单周期内操作的多个硬件地址产生器；

（7）可以并行执行多个操作；

（8）支持流水线操作，使取指、译码和执行等操作可以并行执行。

与通用微处理器相比，早期推出的DSP芯片的其他通用功能相对较弱些。但是近些年来新推出的DSP芯片已经将通用微处理器的功能集成在芯片中，有的还将DSP核和MCU核集成在一个芯片中，使得DSP芯片已经不仅可完成数字信号处理的功能，而且可以实现普通微处理器的功能，基于DSP芯片设计单片系统已经成为可能。

2．DSP芯片的特点

为了快速地实现DSP运算，DSP芯片一般都采用特殊的软、硬件结构和指令系统。DSP芯片的主要特点包括：

（1）采用哈佛结构，将程序和数据存储在不同的存储空间中，提高数据的吞吐率；

（2）采用流水线操作，可以并行处理多条指令，每条指令处于流水线上的不同阶段；

（3）具有专用的硬件乘法器，使乘法能够在一个指令周期内完成；

（4）具有特殊的DSP指令，使数字信号处理中的常用运算得以快速实现；

（5）具有快速的指令执行时间，现在的DSP芯片可使一个指令周期在10ns以内。

上述这些特点使得DSP芯片可以实现快速的DSP运算，并使大部分运算（如乘累加操作）能够在一个指令周期内完成。

3．DSP芯片的分类

按DSP芯片的数据格式分，可以分为定点 DSP芯片和浮点DSP芯片两类。数据以定点格式工作的DSP芯片称为定点DSP芯片，如 ADI公司的Blackfin DSP系列；数据以浮点格式工作的称为浮点DSP芯片，如ADI公司的SHARC DSP系列。通常，定点 DSP芯片具有功耗低、价格便宜的优点，而浮点DSP芯片则具有开发速度快、运算能力强的优点。

按DSP的用途来分，可分为通用型DSP芯片和专用型DSP芯片。通用型DSP芯片适合普通的DSP应用，用户可根据应用需要进行编程，如ADI公司的一系列DSP芯片便属于通用型DSP芯片。专用DSP芯片是为特定的DSP运算而设计的，更适合特殊的运算，如数字滤波、卷积和FFT。本书主要讨论通用可编程DSP芯片。

4．DSP芯片的选择

设计DSP语音处理系统，选择DSP芯片是非常重要的一个环节。只有选定了DSP芯片才能进一步设计其外围电路及系统的其他电路。早期DSP芯片的种类很少，几乎没有可以选择的余地，只能根据一种或几种DSP芯片来设计应用系统。由于DSP发展速度很快，所以现在DSP芯片的选择余地很大。总的来说，现在完全可以根据实际应用系统的需要来选择DSP芯片，以实现系统的最优化设计。不同的DSP语音处理系统由于应用的场合、应用目的等不尽相同，所以对DSP芯片的选择也是不同的。一般来说，选择DSP芯片时应考虑如下诸多因素。

（1）运算速度：必须保证DSP芯片的运算能力能够满足系统设计的要求，并且需要留有一定的余量。

（2）软、硬件资源：不同的DSP芯片所提供的软、硬件资源是不相同的，如片内的存储器数量、外设种类和数量、I/O接口等。

（3）芯片价格：对于可能需要量产的DSP系统，在满足系统要求的前提下，应根据实际系统的应用情况，确定一款价格适中的DSP芯片，以提高产品的性能价格比和市场竞争力。

（4）芯片功耗：在某些DSP应用场合，低功耗设计是一个需要特别关注的问题。例如，手持式设备、便携式设备、野外应用的设备等对功耗都有特殊的要求。

除了上述因素外，选择DSP芯片时还应考虑软、硬件开发资源、质量标准、封装形式、供货情况、生命周期等因素。

1.4.2 ADI公司的DSP芯片

ADI公司于1986年开始生产销售DSP芯片，是国际上可编程DSP芯片的主要供应厂商，其销售的DSP芯片约占全球市场的40%份额。目前，ADI 公司共有Blackfin DSP、SHARC DSP、Sigma DSP、TigerSHARC DSP和21xx DSP 5个系列的DSP芯片，且可供选择的DSP芯片有百余种，种类和数量多，选择余地大。下面简要介绍这5个系列的DSP芯片。

1．Blackfin DSP系列

Blackfin DSP是为满足嵌入式音频、视频和通信应用而设计的一类新型嵌入式DSP芯片。Blackfin DSP基于由ADI和Intel 公司联合开发的微信号架构（MSA），将一个32位RISC型指令集和双16位乘累加器集成在一起，兼有DSP芯片强大的信号处理能力和通用型微控制器的易用性，极大地简化了系统的硬件和软件设计。

Blackfin DSP的主要特点有以下几个。

1）高性能的处理器内核

Blackfin DSP的处理器架构基于一个 10 级 RISC MCU/DSP 流水线和一个专为实现最佳代码密度而设计的混合16/32位指令集架构。Blackfin DSP的处理器架构还完全符合SIMD 标准，并具有用于加速视频和图像处理的指令。该架构不仅适合于进行信号处理，同时还可在单内核器件或双内核器件上提供高效的RISC MCU控制任务执行能力。由于它具有最佳代码密度且只需进行极少（或者完全不需要）代码优化处理，因此可缩短产品的开发周期和上市时间。

2）分层设置的存储器

Blackfin DSP的存储器架构在器件实现中提供了Level 1（L1）和Level 2（L2）存储模块。L1存储器直接与DSP内核相连，可全速运行，为程序运行提供最大的性能；L2存储器是一种较大容量的存储模块，其性能虽略有下降，但运行速度仍然高于片外存储器。

3）出众的代码密度

Blackfin DSP支持多长度指令编码。使用频率非常高的控制指令被编码为紧致 16 位字，而更多的算术密集型信号处理指令则被编码为32位字。Blackfin DSP把16位控制指令与32位信号处理指令加以混合和链接，以形成64位组，从而实现了存储器存储密度的最大化。当进行指令高速缓存和取指令操作时，其内核将自动对总线的长度进行充分压缩，这是因为它没有对准方面的限制。

4）高带宽的DMA传输

Blackfin DSP具有多个独立的DMA控制器，支持自动数据传输，可在DSP内部存储器和具有DMA功能的片内外设之间，以及片内外设和外部器件（与外部存储器接口相连）之间提供高速的数据传输。

5）高效的控制处理

Blackfin DSP还具有各种在 RISC控制处理器中最为常见的优点，并提供各种应用所需要的片内外设，如10/100M以太网、I ² S、UART、SPI、CAN控制器、支持PWM的定时器、看门狗定时器、实时时钟和同步/异步存储器控制器。基于这些片内外设，可方便实现高效的控制。

6）增强的视频指令

除了具有对 8 位数据及许多像素处理算法所常用的字长的固有支持外，Blackfin DSP还提供专为增强视频处理应用性能而定义的指令。例如，离散余弦变换（DCT）通过一个IEEE.1180舍入操作得到支持，而支持“Sum of Absolute Difference”的指令则为MPEG2、MPEG4等视频压缩算法中的运动估计计算提供了便利。

7）动态电源管理

Blackfin DSP采用多种节能技术来降低功耗。它基于一种选通时钟内核设计，可按照逐条指令来选择性地切断功能单元的电源；支持多种省电模式。Blackfin DSP还具有一种动态电源管理电路，借助该电路可对工作频率和电压进行独立控制，以满足正在执行的算法的性能要求。大多数Blackfin DSP都提供了片上内核稳压电路，并可在低至0.8V的电压下工作，特别适合于需要延长电池使用寿命的便携式应用。

目前，Blackfin DSP在单内核产品中可提供高达756MHz的性能。Blackfin DSP系列中的新型对称多处理器成员在相同的频率条件下实现了性能的翻番。Blackfin DSP系列还提供了低至 0.8V 的业界领先功耗性能。对于满足当今及未来的信号处理应用（包括宽带无线、具有音频/视频功能的因特网工具和移动通信）而言，这种高性能与低功耗的组合是必不可少的。

Blackfin DSP芯片包括ADSP-BF56x、ADSP-BF54x、ADSP-BF53x、ADSP-BF52x、ADSP-BF51x、ADSP-BF50x、ADSP-BF59x等。

2．SHARC DSP系列

ADI公司的SHARC DSP是一类32位浮点型 DSP芯片。该系列DSP基于超级哈佛（Super Harvard）架构，将高性能的内核、存储性能与出色的I/O吞吐能力有机地结合在一起。这种超级哈佛架构通过增加一个I/O处理器及其相关专用总线的方法，扩展了最初的程序与数据总线分离的概念。除了满足大多数计算密集型实时信号处理应用的需求外， SHARC DSP还集成了大量的存储器阵列和专用外设，从而可简化产品设计。

目前，SHARC DSP包括四代产品，包括从售价不足10美元的入门级产品到提供450MHz/2.7GFLOPS运算能力的最高性能产品，并可提供代码兼容的解决方案。所有SHARC DSP不拘泥于特定的产品方案，而是提供公共特性与功能集合，可用于诸多信号处理应用。这个基本功能使得SHARC DSP用户在向更高性能、更高集成度的SHARC DSP产品升级的过程中可以充分利用原有代码和设计经验。

SHARC DSP的主要特点有：

（1）32/40位IEEE浮点运算；

（2）具有64位乘积和80位累加的32位定点乘法器；

（3）没有算术流水线，所有计算都是单周期的；

（4）硬件支持循环缓冲寻址；

（5）16个地址指针支持16个循环缓冲区；

（6）硬件支持6级嵌套的零开销硬件循环；

（7）丰富的代数汇编语言语法；

（8）指令集支持条件算术、位操作、除法和平方根、位域插入与抽取；

（9）DMA在全时钟速率下允许零开销数据传输，无须处理器介入。

ADI公司的四代SHARC DSP的代码兼容，前一代产品的代码可方便地移植到后一代产品中。目前四代产品都在生产销售，能够满足不同的性能价格比的需要。

第一代SHARC DSP能够提供66MHz/198MFLOPS的运算能力，并成为SHARC DSP系列产品的基础；支持32位定点及32/40位浮点数据格式的易用指令集架构、大型存储器阵列和高级通信端口，使其产品可广泛应用于需要并行处理的应用场合，包括消费类音频、医疗成像、军事、工业及仪器仪表等。

第二代SHARC DSP采用单指令多数据（SIMD）架构，使信号处理性能提高了一倍，达到100MHz/600MFLOPS。与第一代SHARC DSP相比，第二代SHARC DSP的硬件扩展使可用的计算资源增加了一倍。第二代SHARC DSP包含双乘法器、算术逻辑单元（ALU）、移位器及数据寄存器，可以在多种应用中大幅提高系统的整体性能。第二代SHARC DSP的处理能力非常适合消费类电子产品、汽车、专业音频等应用，在这些应用中，与立体声通道处理相关的算法可以有效地利用SIMD架构。

第三代SHARC DSP采用增强的SIMD架构，将CPU性能提高到400MHz/2.4GFLOPS。第三代SHARC DSP产品集成了多种ROM存储器配置和音频专用外设，能够降低系统成本。第三代SHARC DSP的音频处理器集成了多种片上外设资源，如多通道音频环绕声解码器及后处理算法、高性能异步采样速率转换、PWM通道、代码加密等。性能的提升和外设集成度的提高使得第三代SHARC DSP可为多种应用提供单芯片的解决方案。

第四代SHARC DSP不仅将CPU性能提高到450MHz/2.7GFLOPS，而且通过增加实现FIR、IIR和FFT功能的加速模块进一步提升了性能。第四代SHARC DSP集成了容量达5M位的片上RAM，而且通过创新的变指令集架构使得许多指令减少了多达30%的代码量，进一步增加了存储器容量；片上外设的集成度进一步增强，增加了串行口、SPI口、8通道异步采样速率转换模块等。第四代SHARC DSP的DMA控制器允许数据从串行口直接传送到外部存储器，还增加了允许处理器之间进行数据传输的接口。此外，还有些芯片具有实时时钟（RTC）和看门狗定时器功能。

SHARC DSP芯片包括ADSP-2106x、ADSP-2116x、ADSP-2126x、ADSP-2136x/7x、ADSP-2146x/7x/8x等。

3．Sigma DSP 系列

Sigma DSP是一款专门为音频处理而设计的DSP芯片。该系列芯片采用28/56bit高精度数字音频DSP处理器内核，并将音频处理必需的资源（如A/D、D/A等）集成到芯片中，还采用SigmaStudio图形化工具软件进行编程，满足不同用户对音频处理的不同需要，因此它们广泛应用于汽车、便携式应用等场合。

Sigma DSP系列中的AD1940/AD1941采用16通道的数字音频处理器，采样速率可达192kHz，而且其程序RAM可编程，数据RAM可以控制1024个参数，并可通过SPI、I2C更新参数。ADAU1442/1445/1446 采用增强型的音频处理器，允许设计人员对说话人、放大器、实际环境等进行补偿，显著提高音频质量。

最新的 ADAU1701/ADAU1702 结合了完整的模拟 I/O、数字 I/O 及独立执行（stand-alone）功能，可在单芯片上实现一个完整的音频处理系统。

4．TigerSHARC DSP系列

TigerSHARC DSP从SHARC DSP系列发展而来，具有比SHARC DSP更高的浮点运算能力。该系列芯片是为了适应多片DSP协同工作实现高速DSP处理而设计的，其ADI专利的链路端口技术允许2片或多片TigerSHARC DSP芯片直接相连，可提供极大的信号处理性能。该系列芯片在每周期可执行8个16位的乘累加操作（40位累加）或2个32位的乘累加操作（80位累加），每个周期内也可执行6个单精度浮点操作或24个16位定点操作，其并行机制允许每个周期内最多执行 4 个 32 位指令。该系列产品目前有ADSP-TS101、ADSP-TS201、ADSP-TS202和ADSP-TS203 等。

ADSP-TS101的时钟速率为300MHz，有6Mbit的片上RAM，运算速度达到1.8GFLOPS和7.2GOPS；有4个链路端口，串行接口单向传输速率为250MBps（此处的B指Byte），并行接口速率为800MBps；内部3条128位宽的总线可提供14.4GBps的存储器带宽。

ADSP-TS201 的时钟速率为 600MHz ，有 24Mbit 的片上 RAM ，运算速度达到3.6GFLOPS和14.4GOPS；有4个链路端口，串行接口单向传输速率达500MBps，并行接口速率达1GBps；内部4条128位宽的总线可提供38.4GBps的存储器带宽。

ADSP-TS202 的时钟速率为 500MHz ，有 12Mbit 的片上 RAM ，运算速度达到3.0GFLOPS和12.0GOPS；有4个链路端口，串行接口单向传输速率达500MBps，并行接口速率达1GBps；内部4条128位宽的总线可提供32.0GBps的存储器带宽。

ADSP-TS203的时钟速率为500MHz，有4Mbit的片上RAM，运算速度达到3.0GFLOPS和12.0GOPS；有2个链路端口，串行接口单向传输速率为250MBps，并行接口速率达500MBps；内部4条128位宽的总线可提供32.0GBps的存储器带宽。

5．21xx DSP系列

21xx DSP是ADI公司最早推出的16位定点 DSP芯片，目前主要以ADSP-218x 、ADSP-219x为代表，其主要特点包括：

（1）最高160MIPS的运算能力；

（2）最多104K字的内部RAM；

（3）并行操作的3个计算单元；

（4）所有指令都是单周期指令；

（5）易用的代数汇编指令集；

（6）2个独立的地址产生器；

（7）16位宽度的内部DMA端口；

（8）内置定时器、主机接口；

（9）2个串行口

（10）内置SPI/UART、ADC（219x）；

（11）低功耗模式。

除了 ADSP-218x、ADSP-219x 外， ADI 公司先后推出的该系列 DSP 芯片包括ADSP-210x、ASDP-211x、ADSP-216x、ADSP-217x等，其中ADSP-2101是ADI公司于1986年推出的最早的一个DSP芯片。

本书选用Blackfin DSP芯片作为实时实现语音处理系统的核心芯片。