数字滤波器的MATLAB与FPGA实现（第3版）最新章节_杜勇著

1.2 FPGA基本知识

1.2.1 FPGA的基本概念及发展历程

1.基本概念

随着数字集成电路的发展，越来越多的模拟电路逐渐被数字电路取代，同时数字集成电路本身也在不断地进行更新换代，它由早期的电子管、晶体管、中小规模集成电路发展到超大规模集成电路（Very Large-Scale Integrated Circuit，VLSIC），以及许多具有特定功能的专用集成电路（Application Specific Integrated Circuit，ASIC）。但是，随着微电子技术的发展，设计与制造集成电路的任务已不完全由半导体厂商独立承担。电子工程设计师更愿意自己设计专用集成电路芯片，而且希望ASIC的设计周期尽可能短，最好是在实验室里就能设计出合适的ASIC，并且立即投入实际应用中，因而出现了可编程逻辑器件（Programmable Logic Device，PLD），其中应用最广泛的是现场可编程门阵列（Field Programmable Gate Array，FPGA）和复杂可编程逻辑器件（Complex Programmable Logic Device，CPLD）。PLD的主要特点是芯片或器件的功能完全由用户通过特定软件编程控制，并完成相应功能，可反复擦写。这样，用户在用PLD设计好印制电路板（Print Circuit Board，PCB）后，只要预先安排好PLD引脚的硬件连接，即可只通过软件编程的方式灵活改变芯片功能，从而达到改变整块PCB功能的目的。这种方法不需要对PCB进行任何更改，从而可大大缩短产品的开发周期和成本。也就是说，由于使用了PLD进行设计，硬件设计已部分实现了软件化。随着生产工艺的不断革新，高密度、超大规模FPGA/CPLD器件越来越多地在电子信息类产品的设计中得到应用，同时由于DSP（Digital Signal Processing，数字信号处理）、ARM（Advanced RISC Machines）与FPGA技术相互融合，在数字信号处理等领域，已出现了具有较强通用性的硬件平台，核心硬件设计工作正逐渐演变为软件设计。

2.发展历程

早期的可编程逻辑器件是在20世纪70年代初出现的，这一时期只有可编程只读存储器（Programmable Read-only Memory，PROM）、可擦可编程只读存储器（Erasable PROM，EPROM）和电可擦除只读存储器（Electrically EPROM，EEPROM）三种。这类器件结构相对简单，只能完成简单的数字逻辑功能，但也足以给数字电路设计带来巨大的变化。

20世纪70年代中期出现了结构上稍复杂的可编程芯片，即可编程逻辑器件（PLD），它能够完成各种数字逻辑功能。典型的PLD由“与”门和“或”门阵列组成。由于任意一个组合逻辑都可以用“与-或”表达式来描述，所以PLD能以“乘积项”的形式完成大量的组合逻辑功能。这一阶段的产品主要有可编程阵列逻辑（Programmable Array Logic，PAL）和通用阵列逻辑（Generic Array Logic，GAL）。PAL由一个可编程的“与”平面和一个固定的“或”平面构成。PAL器件是现场可编程的，它的实现工艺有反熔丝技术、EPROM技术和EEPROM技术。还有一类结构更为灵活的逻辑器件是可编程逻辑阵列（Programmable Logic Array，PLA），它也是由一个“与”平面和一个“或”平面构成的，但是这两个平面的连接关系是可编程的。PLA器件既有现场可编程的，也有掩膜可编程的。在PAL的基础上又发展了一种通用阵列逻辑，如GAL16V8、GAL22V10等，它采用了EEPROM工艺，实现了电可擦除、电可改写功能，其输出结构是可编程的逻辑宏单元，因而其设计具有很强的灵活性，至今仍有许多人在使用。这些早期PLD的一个共同特点是，可以实现速度特性较好的逻辑功能，但过于简单的结构使它们只能实现规模较小的电路。

为了弥补这一缺陷，20世纪80年代中期，Altera（2015年被Intel公司收购，本书后续统一为Intel公司）和Xilinx（2022年被AMD公司收购，本书后续统一为AMD公司）两家公司分别推出了类似于PAL结构的扩展型CPLD及与标准门阵列类似的FPGA，它们都具有体系结构和逻辑单元灵活、集成度高、适用范围宽等特点。这两种器件兼容了PLD和GAL的优点，可实现较大规模的电路，编程也很灵活。与门阵列等其他ASIC相比，它们又具有设计开发周期短、设计制造成本低、开发工具先进、标准产品无须测试、质量稳定，以及可实时在线检验等优点，因此被广泛应用于产品的原型设计和产品生产之中。几乎所有应用门阵列、PLD和中小规模通用数字集成电路的场合均可使用FPGA和CPLD器件。

20世纪90年代末以来，随着可编程逻辑器件工艺和开发工具的日新月异发展，尤其是AMD公司和Intel公司不断推出新一代超大规模可编程逻辑器件，FPGA技术与ASIC、DSP及CPU技术不断融合，FPGA器件中已成功以硬核的形式嵌入了ASIC、PowerPC、ARM处理器，以HDL的形式嵌入越来越多的标准数字处理单元，如PCI控制器、以太网控制器、MicroBlaze处理器、NIOS及NIOSⅡ处理器等。新技术的发展不仅实现了软/硬件设计的完美结合，也实现了灵活性与速度设计的完美结合，使得可编程逻辑器件超越了传统意义上的FPGA，并以此发展形成了现在流行的系统级芯片（System on Chip，SoC）及片上可编程系统（System On a Programmable Chip，SOPC）设计技术，其应用领域扩展到了系统级，涵盖了实时数字信号处理技术、高速数据收发器、复杂计算，以及嵌入式系统设计等技术。

Intel公司于2004年首次推出90nm制造工艺的Stratix-II系列FPGA后，紧接着于2006年推出了65nm的Stratix-III系列FPGA，于2008年推出了40nm的Stratix-IV系列FPGA，并于2010年先于AMD公司推出了28nm制造工艺的Stratix-V系列FPGA。2013年，Intel推出了最新的基于14nm三栅极工艺技术的Stratix-10系列FPGA。

AMD公司于2003年率先推出了90nm制造工艺的Spartan-3系列FPGA，于2011年推出了28nm制造工艺的7系列FPGA，并于2013年推出了20nm制造工艺的UltraScale系列FPGA，且宣称基于最新UltraScale的开发不但可实现从20nm向16nm乃至更高级的FinFET技术扩展，而且可实现从单片向3D IC的扩展。作为可实现ASIC级性能的All Programmable架构，UltraScale不仅可解决总体系统吞吐量及延时的限制问题，而且可直接解决高级节点芯片之间的互连问题。

随着芯片制造工艺技术的不断进步，FPGA正向低成本、高集成度、低功耗、可扩展性、高性能的目标不断前进。相信FPGA的应用会得到更大的发展！FPGA的演进历程示意图如图1-3所示。

图1-3 FPGA的演进历程示意图

1.2.2 FPGA的结构和工作原理

1.FPGA的结构

目前所说的PLD，通常是指FPGA与CPLD。FPGA与CPLD因其内部结构不同，导致其集成度、运算速度、功耗及应用方面均有一定的差别。通常，将以乘积项结构方式构成逻辑行为的器件称为CPLD，如AMD公司的XC9500系列、Intel公司的MAX7000S系列和Lattice公司的Mach系列等，这类器件的逻辑门密度在几千到几万个逻辑单元之间。CPLD更适合触发器有限而乘积项丰富的结构，适合完成复杂的组合逻辑；通常将基于查找表（Look-Up-Table，LUT）结构的PLD器件称为FPGA，如AMD公司的Spartan-3、Spartan-6、VirtexⅡ、Virtex-4、Virtex-5、Virtex-6系列，Intel公司的FLEX10K或ACEX1K系列等。FPGA是在CPLD等逻辑器件的基础上发展起来的。作为ASIC领域的一种半定制电路器件，它克服了ASIC灵活性不足的缺点，同时克服了CPLD等器件逻辑门电路资源有限的缺点，这种器件的逻辑门密度通常在几万到几百万个逻辑单元之间。FPGA更适合于触发器丰富的结构，适合完成时序逻辑，因此在数字信号处理领域多使用FPGA器件。

目前主流的FPGA仍是基于查找表技术的，但已经远远超出了先前版本的基本性能，并且整合了常用功能（如RAM、时钟管理和DSP）的硬核模块。如图1-4所示（图1-4只是一个示意图，实际上每个系列的FPGA都有其相应的内部结构），FPGA芯片主要由7部分组成，分别为可编程输入/输出单元（Input/Output Block，IOB）、基本可编程逻辑块（Configurable Logic Block，CLB）、数字时钟管理模块（Digital Clock Manager，DCM）、嵌入式块RAM（Block RAM，BRAM）、丰富的布线资源、底层内嵌功能单元和内嵌专用硬核。

图1-4 FPGA芯片内部结构示意图

1）可编程输入/输出单元（IOB）

可编程输入/输出单元简称IOB，是芯片与外界电路的接口部分，完成不同电气特性下对输入/输出信号的驱动与匹配要求，图1-5所示为AMD公司FPGA内部的IOB结构示意图。

图1-5 AMD公司FPGA内部的IOB结构示意图

FPGA内的I/O按组分类，每组都能够独立地支持不同的I/O标准。通过软件的灵活配置，可适应不同的电气标准与I/O物理特性，调整驱动电流的大小，改变上、下拉电阻的阻值。目前，IOB的频率也越来越高，一些高端的FPGA通过DDR寄存器技术可以支持高达2Gbit/s的数据速率。外部输入信号可以通过IOB的存储单元输入FPGA的内部，也可以直接输入FPGA内部。为了便于管理和适应多种电气标准，FPGA的IOB被划分为若干个组（Bank），每个Bank的接口标准由其接口电压Vcco决定，一个Bank只能有一种Vcco，但不同Bank的Vcco可以不同。只有相同电气标准的IOB才能连接在一起，Vcco电压相同是接口标准化的基本条件。

2）基本可编程逻辑块（CLB）

CLB是FPGA内的基本逻辑单元，其实际数量和特性会依器件的不同而不同，但是每个CLB都包含一个可配置开关矩阵（Switch Matrix），此矩阵由4个或6个输入模块、多路复用器和触发器等组成。开关矩阵是高度灵活的，可以对其进行配置以便实现组合逻辑、移位寄存器或RAM等功能。在AMD公司的FPGA器件中，CLB由多个（一般为4个或2个）相同的Slice和附加逻辑构成，如图1-6所示。每个CLB不仅可以用于实现组合逻辑、时序逻辑，还可以配置为分布式RAM和分布式ROM。

图1-6 典型的CLB结构示意图

Slice是AMD公司的FPGA定义的基本逻辑单位，一个Slice由两个4输入函数发生器、进位逻辑、算术逻辑、存储逻辑和函数复用器组成。算术逻辑包括一个异或门（XORG）和一个专用与门（MULTAND）。异或门可以使一个Slice实现2bit全加操作，专用与门用于提高乘法器的效率；进位逻辑包括两条进位链，由专用进位信号和函数复用器（MUXC）组成，用于实现快速的算术加减法操作；4输入函数发生器用于实现4输入LUT、分布式RAM或16bit移位寄存器（Virtex-5系列芯片Slice中的两个输入函数为6输入，可以实现6输入LUT或64bit移位寄存器）。典型的4输入Slice结构示意图如图1-7所示。

3）数字时钟管理模块（DCM）

业内大多数FPGA均提供数字时钟管理模块（AMD公司的全部FPGA均具有这种特性）。AMD公司推出的最先进FPGA提供数字时钟管理模块和相位环路锁定，相位环路锁定能够提供精确的时钟综合且能够降低抖动，并实现过滤功能。

图1-7 典型的4输入Slice结构示意图

4）嵌入式块RAM（BRAM）

大多数FPGA都具有嵌入式块RAM，这大大拓展了FPGA的应用范围和灵活性。嵌入式块RAM可被配置为单端口RAM、双端口RAM、地址存储器（CAM）及FIFO等常用存储结构。CAM在其内部的每个存储单元中都有一个比较逻辑，写入CAM中的数据会和内部的每个数据进行比较，并返回与端口数据相同的所有数据的地址。除了嵌入式块RAM，还可以将FPGA中的LUT灵活地配置成RAM、ROM和FIFO等结构。在实际应用中，FPGA内部的嵌入式块RAM数量也是选择芯片的一个重要因素。

单片嵌入式块RAM的容量为18kbit。用户可以根据需要改变其位宽和深度，如可配置为位宽为18bit、深度为1024的RAM。嵌入式块RAM在使用过程中要满足两个原则：首先，修改后的容量（位宽×深度）不能大于18kbit；其次，位宽最大不能超过36bit。当然，可以将多片嵌入式块RAM级联起来形成更大的RAM，此时只受限于芯片内嵌入式块RAM的数量，而不再受上面两条原则约束。

5）丰富的布线资源

FPGA通过连线将内部的所有单元连接在一起，而连线的长度和工艺决定着信号在连线上的驱动能力和传输速率。FPGA芯片内部有着丰富的布线资源。根据工艺、长度、宽度和分布位置的不同，布线资源可分为4种不同的类别：第一种是全局布线资源，用于芯片内部全局时钟和全局复位/置位的布线；第二种是长线资源，用于完成芯片Bank间的高速信号和第二全局时钟信号的布线；第三种是短线资源，用于完成基本逻辑单元之间的逻辑互连和布线；第四种是分布式的布线资源，用于专有时钟、复位等控制信号线。

在实际工程设计中，设计者不需要直接选择布线资源，布局布线器可自动根据输入逻辑网表的拓扑结构和约束条件选择布线资源来连接各个模块单元。从本质上来讲，布线资源的使用方法和设计的结果有密切、直接的关系。

6）底层内嵌功能单元

底层内嵌功能单元主要指延迟锁定环（Delay Locked Loop，DLL）、锁相环（Phase Locked Loop，PLL）、DSP等软核。现在，越来越丰富的内嵌功能单元使得单片FPGA成了系统级的设计工具，使其具备了软硬件联合设计的能力，并逐步向SoC平台过渡。DLL和PLL具有类似的功能，可以完成时钟高精度、低抖动的倍频和分频，以及占空比调整和移相等功能。AMD公司生产的FPGA集成了DCM和DLL，Intel公司生产的FPGA集成了PLL，Attice公司生产的新型FPGA集成了PLL和DLL。PLL和DLL可以通过IP核生成工具方便地进行管理和配置。典型DLL的结构如图1-8所示。

图1-8 典型DLL的结构

7）内嵌专用硬核

内嵌专用硬核是相对底层内嵌的软核而言的，FPGA内部集成的处理能力强大的硬核等效于ASIC电路。为了提高FPGA性能，芯片生产商在芯片内部集成了一些专用的硬核。例如，为了提高FPGA的乘法速度，主流的FPGA中都集成了专用乘法器；为了适用通信总线与接口标准，很多高端的FPGA内部都集成了串/并收发器（SERDES），可以达到数10Gbit/s的收发速率。AMD公司的高端产品不仅集成了ARM核，还内嵌了DSP Core模块，并以此提出了片上系统的概念。通过专用的开发工具，能够开发标准的DSP处理器及其相关应用，达到片上系统开发的目的。

2.FPGA的工作原理

众所周知，类似于PROM、EPROM、EEPROM可编程器件的可编程原理是通过加高压或紫外线导致三极管或MOS管内部的载流子密度发生变化，从而实现可编程功能，但是这些器件大多只能实现单次可编程，或者编程状态难以稳定。FPGA则不同，它采用了逻辑单元阵列（Logic Cell Array，LCA），内部包括可配置逻辑模块（Configurable Logic Block，CLB）、输入/输出模块（Input Output Block，IOB）和内部连线（Interconnect）三个部分。

FPGA的可编程实际上是改变了CLB和IOB的触发器状态，这样就可以实现多次重复的编程。FPGA需要被反复烧写，它实现组合逻辑的基本结构不可能像ASIC那样通过固定的与非门来完成，而只能采用一种易于反复配置的结构。查找表可以很好地满足这一要求，目前主流FPGA都采用了基于SRAM工艺的查找表结构，也有一些军品和宇航级FPGA采用Flash或熔丝与反熔丝工艺的查找表结构。

根据数字电路的基本知识可以知道，对于一个 n 输入的逻辑运算，无论是与运算、或运算，还是其他逻辑运算，最多只可能存在2 ⁿ 种结果。如果事先将相应的结果存放于一个存储单元，就相当于实现了与非门电路的功能。FPGA的原理也是如此，它通过烧写程序文件去配置查找表的内容，从而在相同电路结构的情况下实现了不同的逻辑功能。查找表简称为LUT，其本质就是一个RAM。目前主流FPGA中大多使用4～6输入的LUT，所以每个LUT可以看成一个有4～6位地址线的RAM。当用户通过HDL描述一个逻辑电路后，FPGA开发环境会自动计算逻辑电路的所有可能结果，并把真值表（结果）事先写入RAM。这样，每输入一个信号进行逻辑运算就等于输入一个地址进行查表，找出地址对应的内容，然后输出即可。

从表1-1中可以看到，LUT具有和逻辑电路相同的功能。实际上，LUT具有更快的执行速度且更利于大规模集成。由于基于LUT的FPGA具有很高的集成度，其器件的逻辑门密度从数万到数千万个逻辑单元，可以完成极其复杂的时序逻辑电路与组合逻辑电路功能，所以适用于高速、高密度的高端数字逻辑电路设计领域。

表1-1 LUT输入与门的真值表

FPGA是由存放在片内RAM中的程序来设置其工作状态的，因此在工作时需要对片内RAM进行编程。用户可以根据不同的配置模式，采用不同的编程方式编程。加电时，FPGA将EPROM中数据读入片内RAM中，配置完成后，FPGA进入工作状态。掉电后，FPGA恢复成白片，内部逻辑关系消失，因此FPGA能够反复使用。FPGA的编程无需专用的FPGA编程器，只需通用的EPROM、PROM编程器。Actel、QuickLogic等公司还提供反熔丝技术的FPGA，具有抗辐射、耐高低温、低功耗和速度快等优点，在军品和航空航天领域中应用较多，但这种FPGA不能重复擦写，开发初期比较麻烦，费用比较昂贵。

1.2.3 IP核的概念

IP（Intelligent Property）核是指具有知识产权的集成电路模块或软件功能模块的总称，是经过反复验证过的、具有特定功能的宏模块，与芯片制造工艺无关，可以移植到不同的半导体工艺中。到了SoC阶段，IP核设计已成为ASIC电路设计公司和FPGA提供商的重要任务，也是其实力的体现。对于FPGA开发环境，其提供的IP核越丰富，用户的设计就越方便，其市场占有率就越高。目前，IP核已经变成系统设计的基本单元，并作为独立设计成果被交换、转让和销售。

从IP核的提供方式上来看，通常将其分为软核、固核和硬核三类。从完成IP核所花费的成本来讲，硬核代价最大；从使用灵活性来讲，软核的可复用性最高。

1.软核（Soft IP Core）

软核在EDA设计领域指的是综合之前的寄存器传输级（Register Transfer Level，RTL）模型，在FPGA设计中指的是对电路的硬件语言描述，包括逻辑描述、网表和帮助文档等。软核是已通过功能仿真的功能模块，需要经过综合及布局布线才能使用。其优点是灵活性高、可移植性强，允许用户自配置；缺点是对模块的预测性较低，在后续设计中存在发生错误的可能性，有一定的设计风险。软核是IP核应用最广泛的形式。

2.固核（Firm IP Core）

固核在EDA设计领域指的是带有平面规划信息的网表，在FPGA设计中可以看成带有布局规划的软核，通常以RTL代码和对应具体工艺网表的混合形式提供。将RTL描述的标准单元库进行综合优化设计，形成门级网表，再通过布局布线工具即可使用。与软核相比，固核的设计灵活性稍差，但在可靠性上有较大的提高。目前，固核是IP核的主流形式之一。

3.硬核（Hard IP Core）

硬核在EDA设计领域指的是经过验证的设计版图，在FPGA设计中指布局和工艺固定、经过前端和后端验证的设计，设计人员不能对其修改。不能修改的原因有两个：首先是系统设计对各个模块的时序要求很严格，不允许打乱已有的物理版图；其次是保护知识产权的要求，不允许设计人员对其有任何改动。硬核的不许修改特点使其复用有一定的困难，因此只能用于某些特定应用，使用范围较窄，但其性能优良、可靠性及稳定性高。