FPGA 与数字设计
本质与导读
本质 FPGA 不是"可编程的 CPU",而是一片可编程硬件——你在 HDL 里描述的不是指令序列,而是实际存在的门电路和触发器,所以它能空间并行做上千件事。代价是:时序是硬约束,时钟到触发器的路径必须在一个周期内完成,否则就失败。
1. 核心框架:FPGA 不是 CPU
FPGA 与 CPU 是两种完全不同的计算范式——CPU 是顺序时分复用,FPGA 是空间并行。理解这条根本差异决定了"什么任务适合 FPGA"。
初学者最大的误解是把 FPGA 当成"慢的 CPU"。错了——FPGA 和 CPU 是两种完全不同的东西。一个 FPGA 同时做 1000 件事(如 1000 个 PWM 通道、1000 个 FIR 滤波器)和一个 CPU 顺序做 1000 件事——速度差距可能是 1000×。
但代价是:
- FPGA 资源有限:LUT 和 FF 数量固定,不能"动态创建"
- 每件事都要显式写:没有 "for 循环跑一千次"(除非你展开成 1000 个实例)
- 时序约束严格:所有信号必须在一个时钟周期内从一个触发器传到下一个
FPGA 的甜蜜点:并行、实时、低延迟的应用——通信、DSP、电机控制、ADAS 前端。
2. LUT——FPGA 可编程性的来源
LUT (Look-Up Table) 是 FPGA 最基本的可编程单元。它的工作原理极其简单:一个 SRAM。
2.1 LUT 的工作原理
LUT(Look-Up Table) 是 FPGA 的"基础单元"——4-6 输入查表代替任何小逻辑函数。一个 LUT4 可以实现任何 4 输入布尔函数,通过级联实现复杂逻辑。
一个 N 输入 LUT = 一个 2^n 位的 SRAM。工作方式:
- 输入作为地址选中 SRAM 的一个位
- 输出 = 该位的值
- SRAM 存什么决定了 LUT 实现什么函数
4 输入 LUT 可以实现任意 4 输入布尔函数:
- = 16 种输入组合
- 每种组合可以输出 0 或 1
- 不同的 SRAM 内容 → 不同的函数
- 总数 = = 65536 种不同的 4 输入函数
所有常见逻辑门(AND、OR、XOR、NAND 等)、所有 4 输入及以下的组合逻辑都可以用一个 4 输入 LUT 实现——编程时只是往 SRAM 里写不同的值。
2.2 综合工具如何使用 LUT
HDL 代码:
assign y = (a & b) | (c ^ d);
综合工具做的事:
- 枚举所有 16 种 (a, b, c, d) 输入组合
- 对每种组合计算 y 的值
- 把 16 个结果作为 SRAM 的初始值写入一个 LUT
- 把 (a, b, c, d) 连到 LUT 的地址输入
- LUT 的输出就是 y
综合 = 把 HDL 描述的逻辑"烧"进 LUT 的 SRAM。
2.3 大于 4 输入的逻辑
4 输入 LUT 实现不了 5 输入函数——怎么办?级联:用两个 LUT4 分别存 E=0 和 E=1 的真值表,再用一个 2:1 MUX 由 E 选择。
现代 FPGA 的 LUT 多是 6 输入(Xilinx Virtex、Altera Stratix)或支持分区为两个较小 LUT(ALM 结构)—— 灵活度更高。
2.4 LUT 资源估算
经验公式:
- N 位加法器:约 N 个 LUT + N 个 FF
- N 位比较器:约 N/4 个 LUT
- N × N 乘法器:约 N² / 2 个 LUT(或 1 个 DSP Block)
- 状态机(M 个状态):约 log2(M) 个 FF + 几十个 LUT
示例:16 位 PWM 计数器 + 比较器:
- 计数器:16 位寄存器 = 16 FF
- 16 位比较器:约 4 个 4 输入 LUT
- 总计:16 FF + 4 LUT
一个低端 Lattice FPGA 有数千个 LUT,这种电路占资源的 0.1%——极小。
LUT 通过"SRAM 存真值表"实现任意布尔函数——这是 FPGA 可编程性的物理基础,所有逻辑都从这里展开。
3. FPGA 的五类核心资源
除 LUT 外,现代 FPGA 还有四类资源。每类都是为特定计算模式优化的——用错资源会严重浪费。
3.1 五类资源对比
FPGA 内部5 类资源各有专攻——LUT 通用逻辑、FF 时序、BRAM 大块存储、DSP 乘加、IO 接口。设计 FPGA 项目就是把任务按资源消耗最优分配到这 5 类。
| 资源 | 功能 | 最适合实现 |
|---|---|---|
| LUT | 任意组合逻辑 | 状态机;控制逻辑 |
| FF | D 触发器锁存 | 寄存器;流水线;计数器 |
| DSP Block | 硬件乘加 MAC | 乘法;FIR;PID;FOC |
| BRAM | 双端口 RAM | FIFO;查找表;缓存 |
| PLL/DLL | 时钟倍频分频相移 | 时钟生成;域转换 |
典型数量(中端):LUT 10k~1M;FF ≈ LUT;DSP 几十~几千;BRAM 几十~几百;PLL 2~20。
3.2 为什么 DSP Block 比 LUT 快 50×
用 LUT 实现 16×16 乘法:
- 需要展开成完整的 Wallace Tree 或行列阵列
- 占用 ~300 LUT + 50 FF
- 延迟 > 10 ns
用 DSP Block 实现 16×16 乘法:
- 1 个 DSP Block(内部是硬件专用乘加器)
- 延迟 ~2 ns
- 可流水线到 400+ MHz
资源效率 ~50×,速度 ~5×。
含义:所有乘法都应该用 DSP Block——这是现代 FPGA 的硬性规则。把数学运算写成 a * b,让综合工具推断出 DSP Block。
DSP Block 的额外能力:
- 乘加(MAC):a × b + c
- 多输入 MAC:a × b + c × d
- 预加器:(a + b) × c
- 加法器树:a + b + c + d
- 适合 FIR、IIR、FFT、FOC 控制器等 DSP 算法
3.3 BRAM——双端口 RAM 的价值
BRAM (Block RAM) 是片上 SRAM,通常 18K 或 36K bit。核心特征:双端口读写。
双端口 RAM 允许:
- 同一周期,一个端口读 + 另一个端口写
- 两个端口的时钟可以不同(跨时钟域 FIFO 的基础)
- 支持不同的数据宽度
典型用途:
- FIFO(First-In First-Out 缓冲区)
- 大型查找表(如正弦查找表 sin(θ))
- 数据缓存(DMA 缓冲、图像行缓存)
- 乒乓缓冲(两个缓冲轮流读写,避免读写冲突)
3.4 PLL——时钟生成的关键
PLL (Phase-Locked Loop) 用于:
- 时钟倍频:50 MHz 输入 → 200 MHz 内部时钟
- 时钟分频:生成慢速时钟
- 相位调整:让时钟在特定相位对齐(如 DDR 接口的读时钟)
- 抖动过滤:清除输入时钟的抖动
每个时钟域通常有一个 PLL。多时钟域设计的时钟管理是 FPGA 设计的常见难点。
FPGA 五类资源各司其职 —— LUT 做逻辑、FF 做时序、DSP 做数学、BRAM 做存储、PLL 做时钟;用对资源是性能的基础。
4. 设计流程 — 拆出 atomic 专题
HDL → 综合 → 优化 → 映射 → 布局布线 → 时序分析 (STA) → 位流 (bitstream) 6 步链路。每步的工具命令、参数、输入输出、典型失败模式与修复路径,详见 topic-fpga-toolchain。
5. 静态时序分析(STA)
STA (Static Timing Analysis) 是验证时序的数学方法——不用仿真,直接计算所有路径的延迟,检查是否满足时钟约束。
5.1 核心概念
Setup time ():时钟沿到来之前,数据必须稳定多久。典型 100 ps ~ 1 ns。
Hold time ():时钟沿之后,数据必须继续保持多久。典型 0 ~ 500 ps。
Clock-to-Q ():时钟沿触发后,Q 输出多久稳定。典型 300 ps ~ 1 ns。
组合逻辑延迟 ():信号通过 LUT 和走线的延迟。
5.2 Setup 时序方程
- :时钟周期
- :源 FF 的 clock-to-Q
- :组合逻辑延迟
- :目的 FF 的 setup time
Setup Slack:
Slack > 0:通过。Slack < 0:违例。
WNS (Worst Negative Slack):所有路径中最差的 Slack 值,是综合后报告的关键数字。
例子:100 MHz 时钟( = 10 ns), = 0.5 ns, = 7 ns, = 0.3 ns:
Slack = 10 − 0.5 − 7 − 0.3 = 2.2 ns
通过,余量 2.2 ns。如果时钟频率提到 200 MHz( = 5 ns):
Slack = 5 − 0.5 − 7 − 0.3 = −2.8 ns
严重违例。必须优化组合路径或降频。
5.3 Hold 时序方程
组合路径太短时违例。通常由工具自动修复(插 buffer)。
5.4 解决时序违例
时序违例核心是组合路径太长 < 一个时钟周期——5 种解决路径:简化逻辑、流水线化、降时钟、改用 DSP、约束调优。新人优先用流水线化,代价小且效果立竿见影。
- 简化组合逻辑:用布尔化简、LUT 合并
- 流水线:在路径中间插入 FF,把一级变两级
- Retiming:让工具自动重排 FF 位置,平衡各级延迟
- 物理约束:强制关键路径上的资源布在相邻位置
- 调整时钟分配:多时钟域隔离,避免跨域
- 降低时钟频率(最后手段)
5.5 跨时钟域(CDC)的特殊问题
当信号从时钟域 A 传到时钟域 B 时(两个时钟不同步),会出现亚稳态(metastability):signal_A 的跳变沿可能恰好落在 clk_B 上升沿的 setup 窗口内被采样。
亚稳态:FF 的输出可能处于 0 和 1 之间的不确定状态,持续时间不定,最终随机变为 0 或 1。
解决方案:同步器(两个串联的 FF,都用目标域时钟 clk_B 驱动):
第一个 FF 可能进入亚稳态,但在下一个时钟沿前有一个周期的时间"稳定"。第二个 FF 采到的几乎是稳定值。
但同步器只适合单比特信号——多比特数据(如总线)需要用 FIFO 或握手协议。
CDC 错误是 FPGA 设计最难调的 bug 之一:行为随机、不可重现、在特定时序下才出现。必须用专门的 CDC 检查工具(Vivado Report CDC、Spyglass)。
6. 标准逻辑 IC(74 系列)
FPGA 和 MCU 之间的"粘合胶"经常是74 系列标准逻辑 IC——用于电平转换、总线缓冲、信号扇出。选型看工作电压和速度。
6.1 Nexperia 主要逻辑系列
Nexperia 通用逻辑多个系列对应不同应用——74HCT 通用、74LVC 低电压、74AHC 高速、74AVC 超低电压。车规选型优先 74AHC1G 系列(单门 + AEC-Q100)。
| 系列 | 特点 | ||
|---|---|---|---|
| HC/HCT | 2~6V / 5V | ~7 ns | 通用;HCT 兼容 TTL |
| AHC/AHCT | 2~5.5V / 5V | ~4 ns | 高速;更强驱动 |
| LV/LVC | 1.65~3.6V | ~3 ns | 3.3V 主流 |
| AUP | 0.8~3.6V | ~5 ns | 超低功耗;IoT |
| AVC | 1.4~3.6V | ~2 ns | 超高速;高端通信 |
6.2 关键参数
通用逻辑选型4 个核心参数——传播延迟 、 工作电压、驱动能力 、AEC-Q 等级。每个应用对参数敏感度不同。
- (传播延迟):输入变化到输出变化的时间,决定最高工作频率
- / (高/低电平驱动电流):决定能驱动多少个输入
- / :输入电压阈值
- / :输出电压
- 噪声裕量: − 和 −
- Bus Hold(总线保持):输入浮空时保持最后状态,三态总线必备
6.3 跨电压域连接——常见陷阱
场景:FPGA I/O 是 3.3 V,需要驱动 5 V CAN 收发器。
直接连接:
- FPGA 输出 3.3 V,CAN 收发器 = 2.4 V → 逻辑高电平满足
- 但 3.3 V 接 5 V 输入端,可能损坏 FPGA I/O(超过 + 0.5 V 时内部钳位二极管导通,产生大电流)
错误做法:直接接——有些器件可以(如 5 V 容忍的 LVC),但不是所有 FPGA I/O 都支持 5 V 容忍。
正确做法:插入电平转换器(Level Shifter / Translator):
74LVC1T45 (单电源双向电平转换)
A 侧 V_CC = 3.3 V (FPGA)
B 侧 V_CC = 5 V (CAN 收发器)
方向控制引脚 DIR
- A 侧输入 3.3 V 逻辑电平
- B 侧自动输出 5 V 逻辑电平
- 双向可切换
专门的电平转换器:
- 74LVC1T45 / 74LVC4T245:双向,高速
- TXS0102 / TXB0108:自动方向检测,I²C / SPI 适用
- PCA9306:I²C 专用,无方向控制
选型要点:
- 静态还是动态信号?(I²C 是双向开漏,需要特殊 translator)
- 单向还是双向?
- 速度要求(LVC 系列支持几百 MHz)
7. 数字控制在功率电子中的应用
数字控制(MCU / DSP / FPGA 实现的 PWM + PID)取代模拟控制成为现代高性能电源和电机驱动的主流。但它引入了模拟系统没有的固有延迟。
7.1 数字控制的三类延迟
数字控制三类延迟串联——采样延迟(ADC)、计算延迟(MCU/FPGA)、输出延迟(PWM 更新)。三者总和决定控制环带宽——典型 < 总延迟的 1/10。
是采样周期(= 1/,通常与开关周期相同)。
7.2 相位滞后公式
时间延迟 t 在频率 f 处引入的相位滞后:
示例: = 100 μs(10 kHz 开关频率),控制带宽目标 1 kHz:
单个 T_s 延迟在 1 kHz 处:
φ = 2π × 1 kHz × 100 μs = 2π × 0.1 = 0.628 rad = 36°
两个 总延迟:
这个相位滞后直接吃掉闭环相位裕度。假设目标 PM = 60°,数字控制器就需要额外提供 72° 的相位提升,否则整个环路就不稳定。
现实后果:
- 模拟控制的相位裕度:60°
- 数字控制的相位裕度:60° − 72° = −12° !
- 必须用超前补偿或降低控制带宽
7.3 控制带宽 vs 采样率的关系
Nyquist 准则:采样率 必须至少 2× 信号最高频率,否则混叠。
工程规则:为了避开相位滞后过大,采样率应该是控制带宽的 10~20×:
为什么:/ = 1/10 时相位滞后 ≈ 36° × 1 = 36°(相当于一个采样周期延迟)——还可以接受。低于 10 就会完全吃掉相位裕度。
含义:提高控制带宽需要同时提高采样率。10 kHz 开关频率的系统,控制带宽最多做到 1 kHz。想做到 5 kHz 带宽,必须提高开关频率到 50 kHz。
7.4 死区时间(Dead Time)
死区时间:半桥电路中,上下管都关断的一段时间(防止直通短路)。
为什么需要:
- 上管关断需要时间()
- 下管开通需要时间()
- 如果下管先开通,上管还没完全关断 → 直通短路 → 炸管
死区时间必须大于 max(, )——对 Si MOSFET 通常 50~200 ns,对 SiC MOSFET 30~50 ns,对 IGBT 500 ns ~ 2 μs。
7.5 死区时间的代价:输出波形畸变
问题:死区期间,输出电压不由占空比指令决定,而是由电感电流方向决定。这导致平均输出电压偏离指令值——对比理想 PWM 和带死区 PWM 可见每个脉冲两端都被吃掉一截。
电压误差:
- 方向取决于输出电流
- 对高精度电机控制,这是不可接受的噪声源
7.6 死区补偿算法
死区补偿(Dead Time Compensation):软件主动修正占空比来补偿死区造成的电压误差。
算法:
if (I_out > 0) {
duty_cycle += ΔD_comp; // 正向电流,减小死区效应
} else {
duty_cycle -= ΔD_comp; // 负向电流,反向补偿
}
其中 ΔD_comp = × 。
含义:根据实时测量的相电流方向,动态调整占空比。必须有快速电流采样。
高性能电机控制器(EV 主驱、伺服驱动)几乎都做死区补偿——这是从"能转"到"转得好"的必要步骤。
8. FPGA 在功率电子中的应用
FPGA 在功率电子中扮演越来越重要的角色。核心原因:并行性和超低延迟。
8.1 FPGA 适合的功率电子任务
FPGA 在特定功率电子任务上比 MCU 强——多通道并行 PWM、超高频开关(> 200kHz)、多电机协调控制、纳秒级保护逻辑。这些场景 MCU 顺序计算跟不上,需要 FPGA 空间并行。
| 任务 | 为什么 FPGA 合适 |
|---|---|
| 高频 PWM > 500 kHz | ns 级分辨率 |
| 多路同步 PWM 10+ 路 | 天然并行 |
| 死区补偿 | 纳秒级精度 |
| FOC 电流环 > 20 kHz | 低延迟;并行计算 |
| ADC 高速采样接口 | SERDES;并行 I/O |
| 故障快速响应 | 硬件级 μs 响应 |
| 多轴联动(机器人/CNC) | 多通道同步 |
8.2 一个典型应用:FPGA 实现 FOC 电机控制
FOC 算法用 FPGA 实现可以做到 100kHz+ 控制环——MCU 一般只能 10-20kHz。下面给出 FOC 在 FPGA 上的并行展开,让 Clarke/Park/PI 计算同时跑而不是串行。
PMSM FOC 的计算链(上图)。MCU 实现:顺序执行,~10 μs 延迟(在 200 MHz 上)。
FPGA 实现:
- Clarke / Park / SVPWM 全部用 DSP Block 并行
- 流水线深度 ~10 级
- 延迟 ~100 ns
延迟减小 100× → 允许更高的电流环带宽 → 更快的动态响应 → 电机控制更精准。
缺点:FPGA 成本比 MCU 高 3~5×,开发复杂。
甜蜜点:高性能伺服驱动、军用电机、大功率变频器(> 100 kW)。
FPGA 在功率电子里的价值是"并行 + 超低延迟"—— 让数字控制的带宽能逼近模拟控制的极限;代价是成本和开发复杂度。
9. 数字控制失效模式图谱
数字控制失效多数集中在时钟、跨时钟域、SEU 三类——下表把常见失效与对策整理。这些是 FPGA / MCU 项目 FMEA 起点参考。
| 失效模式 | 根因 | 对策 |
|---|---|---|
| 相位裕度不够 | 数字延迟未计入 | 更高 ;超前补偿 |
| 死区畸变 | 无死区补偿 | 实现补偿算法 |
| 混叠 | < 2× | 抗混叠滤波;提高 |
| 定点溢出 | Q 格式溢出 | 关键路径 64 位/浮点 |
| 跨时钟域错误 | 缺同步器 | 单比特双 FF;多比特 FIFO |
| 时序违例 | 路径太长 | 流水线;retiming;降频 |
| PWM 更新滑移 | 更新时机错位 | 同步 ADC 和 PWM 周期 |
| 保护响应慢 | 软件保护 > μs | 用 FPGA 硬件保护 |
核心要点
- FPGA 不是 CPU:它是可编程的硬件电路,核心是 LUT(SRAM 真值表)+ FF + 专用资源(DSP Block、BRAM、PLL)。
- 4 输入 LUT 可以实现 = 65536 种不同的布尔函数——通过往 SRAM 里写不同的值。
- DSP Block 比 LUT 实现乘法快 5~50×——所有乘法都应该用 DSP。
- 设计流程六阶段:HDL → 综合 → 映射 → 布局布线 → 时序分析 → 位流。每个阶段有不同的错误模式。
- Reveal / ChipScope / SignalTap 是 FPGA 调试的救命工具——片上逻辑分析仪。
- STA 核心方程: ≥ + + ;Slack < 0 是违例。
- **跨时钟域(CDC)**需要同步器或 FIFO;亚稳态是最难调的 bug 之一。
- 数字控制的三类延迟(采样 / 计算 / PWM 更新)合计 ~2 × ,在控制带宽 = 1/(10·) 处产生 ~36° 相位滞后。
- 采样率应为控制带宽的 10~20×,否则相位裕度被吃光。
- 死区时间必须有(防止桥臂直通),但会造成输出波形畸变——高性能电机控制必须做死区补偿。
- FPGA 在功率电子里的价值:并行 + 超低延迟,让 FOC 控制器从 10 μs 降到 100 ns。
延伸阅读
FPGA 教材
- Diamond UG(Lattice 官方手册)
- FPGA Design Tutor with Diamond(中文教程)
- Xilinx / Intel FPGA 相关 UG(公开资料)
逻辑基础
- Nexperia Logic Handbook
- Nexperia Engineers Handbook
数字控制 / DSP
- Digital Control of Power Converters(Buso/Mattavelli)
- High-Performance Control of AC Drives
Cross-references
- ← 索引
- 功率电子学(Power Electronics) — 数字控制在变换器中的应用
- 电路仿真工具 — FPGA 控制器的仿真(Simulink + PSIM)
- 汽车电子 — FPGA 在 ADAS 和电机控制中的角色
- 运算放大器与模拟设计 — ADC 前端信号调理
- ADC 与混合信号设计 — FPGA 和 ADC 的接口
- 汽车微控制器(Automotive MCU)
- 电机控制(Motor Control)