FPGA 与数字设计

系统架构L5别名 FPGA · Lattice Diamond · 数字设计

本质与导读

本质 FPGA 不是"可编程的 CPU",而是一片可编程硬件——你在 HDL 里描述的不是指令序列,而是实际存在的门电路和触发器,所以它能空间并行做上千件事。代价是:时序是硬约束,时钟到触发器的路径必须在一个周期内完成,否则就失败。

主线坐标:器件基底 / 信号链(跨站) · ↑ 全景主线

1. 核心框架：FPGA 不是 CPU

FPGA 与 CPU 是两种完全不同的计算范式——CPU 是顺序时分复用,FPGA 是空间并行。理解这条根本差异决定了"什么任务适合 FPGA"。

CPU vs FPGA — 上 CPU (amber) → ALU + registers → sequential · 下 FPGA (caramel) → gate array → native parallelism · 时分 vs 空间并行

初学者最大的误解是把 FPGA 当成"慢的 CPU"。错了——FPGA 和 CPU 是两种完全不同的东西。一个 FPGA 同时做 1000 件事（如 1000 个 PWM 通道、1000 个 FIR 滤波器）和一个 CPU 顺序做 1000 件事——速度差距可能是 1000×。

但代价是：

FPGA 资源有限：LUT 和 FF 数量固定，不能"动态创建"
每件事都要显式写：没有 "for 循环跑一千次"（除非你展开成 1000 个实例）
时序约束严格：所有信号必须在一个时钟周期内从一个触发器传到下一个

FPGA 的甜蜜点：并行、实时、低延迟的应用——通信、DSP、电机控制、ADAS 前端。

2. LUT——FPGA 可编程性的来源

LUT (Look-Up Table) 是 FPGA 最基本的可编程单元。它的工作原理极其简单：一个 SRAM。

2.1 LUT 的工作原理

LUT(Look-Up Table) 是 FPGA 的"基础单元"——4-6 输入查表代替任何小逻辑函数。一个 LUT4 可以实现任何 4 输入布尔函数,通过级联实现复杂逻辑。

LUT 结构 — inputs A/B/C/D → address 4-bit → 16-bit SRAM → output 1 bit · LUT4 可实现任何 4 输入布尔函数

一个 N 输入 LUT = 一个 2^n 位的 SRAM。工作方式：

输入作为地址选中 SRAM 的一个位
输出 = 该位的值
SRAM 存什么决定了 LUT 实现什么函数

4 输入 LUT 可以实现任意 4 输入布尔函数：

$2^{4}$ = 16 种输入组合
每种组合可以输出 0 或 1
不同的 SRAM 内容 → 不同的函数
总数 = $2^{16}$ = 65536 种不同的 4 输入函数

所有常见逻辑门（AND、OR、XOR、NAND 等）、所有 4 输入及以下的组合逻辑都可以用一个 4 输入 LUT 实现——编程时只是往 SRAM 里写不同的值。

2.2 综合工具如何使用 LUT

HDL 代码：

assign y = (a & b) | (c ^ d); 综合工具做的事：

枚举所有 16 种 (a, b, c, d) 输入组合
对每种组合计算 y 的值
把 16 个结果作为 SRAM 的初始值写入一个 LUT
把 (a, b, c, d) 连到 LUT 的地址输入
LUT 的输出就是 y

综合 = 把 HDL 描述的逻辑"烧"进 LUT 的 SRAM。

2.3 大于 4 输入的逻辑

4 输入 LUT 实现不了 5 输入函数——怎么办？级联：用两个 LUT4 分别存 E=0 和 E=1 的真值表，再用一个 2:1 MUX 由 E 选择。

5 输入函数级联 — 两个 LUT4 (E=0 / E=1 真值表) → 2:1 MUX (E 控制选择) → 输出 Y

现代 FPGA 的 LUT 多是 6 输入（Xilinx Virtex、Altera Stratix）或支持分区为两个较小 LUT（ALM 结构）—— 灵活度更高。

2.4 LUT 资源估算

经验公式：

N 位加法器：约 N 个 LUT + N 个 FF
N 位比较器：约 N/4 个 LUT
N × N 乘法器：约 N² / 2 个 LUT（或 1 个 DSP Block）
状态机（M 个状态）：约 log2(M) 个 FF + 几十个 LUT

示例：16 位 PWM 计数器 + 比较器：

计数器：16 位寄存器 = 16 FF
16 位比较器：约 4 个 4 输入 LUT
总计：16 FF + 4 LUT

一个低端 Lattice FPGA 有数千个 LUT，这种电路占资源的 0.1%——极小。

LUT 通过"SRAM 存真值表"实现任意布尔函数——这是 FPGA 可编程性的物理基础，所有逻辑都从这里展开。

3. FPGA 的五类核心资源

除 LUT 外，现代 FPGA 还有四类资源。每类都是为特定计算模式优化的——用错资源会严重浪费。

3.1 五类资源对比

FPGA 内部5 类资源各有专攻——LUT 通用逻辑、FF 时序、BRAM 大块存储、DSP 乘加、IO 接口。设计 FPGA 项目就是把任务按资源消耗最优分配到这 5 类。

资源	功能	最适合实现
LUT	任意组合逻辑	状态机；控制逻辑
FF	D 触发器锁存	寄存器；流水线；计数器
DSP Block	硬件乘加 MAC	乘法；FIR；PID；FOC
BRAM	双端口 RAM	FIFO；查找表；缓存
PLL/DLL	时钟倍频分频相移	时钟生成；域转换

典型数量（中端）：LUT 10k～1M；FF ≈ LUT；DSP 几十～几千；BRAM 几十～几百；PLL 2～20。

3.2 为什么 DSP Block 比 LUT 快 50×

用 LUT 实现 16×16 乘法：

需要展开成完整的 Wallace Tree 或行列阵列
占用 ～300 LUT + 50 FF
延迟 > 10 ns

用 DSP Block 实现 16×16 乘法：

1 个 DSP Block（内部是硬件专用乘加器）
延迟～2 ns
可流水线到 400+ MHz

资源效率～50×，速度～5×。

含义：所有乘法都应该用 DSP Block——这是现代 FPGA 的硬性规则。把数学运算写成 a * b，让综合工具推断出 DSP Block。

DSP Block 的额外能力：

乘加（MAC）：a × b + c
多输入 MAC：a × b + c × d
预加器：(a + b) × c
加法器树：a + b + c + d
适合 FIR、IIR、FFT、FOC 控制器等 DSP 算法

3.3 BRAM——双端口 RAM 的价值

BRAM (Block RAM) 是片上 SRAM，通常 18K 或 36K bit。核心特征：双端口读写。

双端口 RAM 允许：

同一周期，一个端口读 + 另一个端口写
两个端口的时钟可以不同（跨时钟域 FIFO 的基础）
支持不同的数据宽度

典型用途：

FIFO（First-In First-Out 缓冲区）
大型查找表（如正弦查找表 sin(θ)）
数据缓存（DMA 缓冲、图像行缓存）
乒乓缓冲（两个缓冲轮流读写，避免读写冲突）

3.4 PLL——时钟生成的关键

PLL (Phase-Locked Loop) 用于：

时钟倍频：50 MHz 输入 → 200 MHz 内部时钟
时钟分频：生成慢速时钟
相位调整：让时钟在特定相位对齐（如 DDR 接口的读时钟）
抖动过滤：清除输入时钟的抖动

每个时钟域通常有一个 PLL。多时钟域设计的时钟管理是 FPGA 设计的常见难点。

FPGA 五类资源各司其职 —— LUT 做逻辑、FF 做时序、DSP 做数学、BRAM 做存储、PLL 做时钟；用对资源是性能的基础。

4. 设计流程 — 拆出 atomic 专题

HDL → 综合 → 优化 → 映射 → 布局布线 → 时序分析 (STA) → 位流 (bitstream) 6 步链路。每步的工具命令、参数、输入输出、典型失败模式与修复路径，详见 topic-fpga-toolchain。

5. 静态时序分析（STA）

STA (Static Timing Analysis) 是验证时序的数学方法——不用仿真，直接计算所有路径的延迟，检查是否满足时钟约束。

5.1 核心概念

Setup time ( $t s u$ )：时钟沿到来之前，数据必须稳定多久。典型 100 ps ～ 1 ns。

Hold time ( $t h$ )：时钟沿之后，数据必须继续保持多久。典型 0 ～ 500 ps。

Clock-to-Q ( $t co$ )：时钟沿触发后，Q 输出多久稳定。典型 300 ps ～ 1 ns。

组合逻辑延迟 ( $t co mb$ )：信号通过 LUT 和走线的延迟。

5.2 Setup 时序方程

$T c l k \geq t co + t co mb + t s u$

$T c l k$ ：时钟周期
$t co$ ：源 FF 的 clock-to-Q
$t co mb$ ：组合逻辑延迟
$t s u$ ：目的 FF 的 setup time

Setup Slack：

$Sl a c k = T c l k - (t co + t co mb + t s u)$ Slack > 0：通过。Slack < 0：违例。

WNS (Worst Negative Slack)：所有路径中最差的 Slack 值，是综合后报告的关键数字。

例子：100 MHz 时钟（ $T c l k$ = 10 ns）， $t co$ = 0.5 ns， $t co mb$ = 7 ns， $t s u$ = 0.3 ns：

Slack = 10 − 0.5 − 7 − 0.3 = 2.2 ns 通过，余量 2.2 ns。如果时钟频率提到 200 MHz（ $T c l k$ = 5 ns）：

Slack = 5 − 0.5 − 7 − 0.3 = −2.8 ns 严重违例。必须优化组合路径或降频。

5.3 Hold 时序方程

$t co + t co mb \geq t h$ 组合路径太短时违例。通常由工具自动修复（插 buffer）。

5.4 解决时序违例

时序违例核心是组合路径太长 < 一个时钟周期——5 种解决路径:简化逻辑、流水线化、降时钟、改用 DSP、约束调优。新人优先用流水线化,代价小且效果立竿见影。

简化组合逻辑：用布尔化简、LUT 合并
流水线：在路径中间插入 FF，把一级变两级
Retiming：让工具自动重排 FF 位置，平衡各级延迟
物理约束：强制关键路径上的资源布在相邻位置
调整时钟分配：多时钟域隔离，避免跨域
降低时钟频率（最后手段）

5.5 跨时钟域（CDC）的特殊问题

当信号从时钟域 A 传到时钟域 B 时（两个时钟不同步），会出现亚稳态（metastability）：signal_A 的跳变沿可能恰好落在 clk_B 上升沿的 setup 窗口内被采样。

跨时钟域采样波形 — clk_A / signal_A / clk_B 三道时序，signal_A 跳变沿落在 clk_B 上升沿的 setup 窗口内 → 亚稳态

亚稳态：FF 的输出可能处于 0 和 1 之间的不确定状态，持续时间不定，最终随机变为 0 或 1。

解决方案：同步器（两个串联的 FF，都用目标域时钟 clk_B 驱动）：

两级同步器 — signal_A → FF1 → FF2 → signal_B，FF1 与 FF2 均由 clk_B 驱动

第一个 FF 可能进入亚稳态，但在下一个时钟沿前有一个周期的时间"稳定"。第二个 FF 采到的几乎是稳定值。

但同步器只适合单比特信号——多比特数据（如总线）需要用 FIFO 或握手协议。

CDC 错误是 FPGA 设计最难调的 bug 之一：行为随机、不可重现、在特定时序下才出现。必须用专门的 CDC 检查工具（Vivado Report CDC、Spyglass）。

6. 标准逻辑 IC（74 系列）

FPGA 和 MCU 之间的"粘合胶"经常是74 系列标准逻辑 IC——用于电平转换、总线缓冲、信号扇出。选型看工作电压和速度。

6.1 Nexperia 主要逻辑系列

Nexperia 通用逻辑多个系列对应不同应用——74HCT 通用、74LVC 低电压、74AHC 高速、74AVC 超低电压。车规选型优先 74AHC1G 系列(单门 + AEC-Q100)。

系列	$V CC$	$tp d$	特点
HC/HCT	2～6V / 5V	～7 ns	通用；HCT 兼容 TTL
AHC/AHCT	2～5.5V / 5V	～4 ns	高速；更强驱动
LV/LVC	1.65～3.6V	～3 ns	3.3V 主流
AUP	0.8～3.6V	～5 ns	超低功耗；IoT
AVC	1.4～3.6V	～2 ns	超高速；高端通信

6.2 关键参数

通用逻辑选型4 个核心参数——传播延迟 $tp d$ 、 $V CC$ 工作电压、驱动能力 $I O U T$ 、AEC-Q 等级。每个应用对参数敏感度不同。

$tp d$ （传播延迟）：输入变化到输出变化的时间，决定最高工作频率
$I O H$ / $I O L$ （高/低电平驱动电流）：决定能驱动多少个输入
$V I H$ / $V I L$ ：输入电压阈值
$V O H$ / $V O L$ ：输出电压
噪声裕量： $V I H$ − $V O H$ 和 $V O L$ − $V I L$
Bus Hold（总线保持）：输入浮空时保持最后状态，三态总线必备

6.3 跨电压域连接——常见陷阱

场景：FPGA I/O 是 3.3 V，需要驱动 5 V CAN 收发器。

直接连接：

FPGA 输出 3.3 V，CAN 收发器 $V I H$ = 2.4 V → 逻辑高电平满足
但 3.3 V 接 5 V 输入端，可能损坏 FPGA I/O（超过 $V CC$ + 0.5 V 时内部钳位二极管导通，产生大电流）

错误做法：直接接——有些器件可以（如 5 V 容忍的 LVC），但不是所有 FPGA I/O 都支持 5 V 容忍。

正确做法：插入电平转换器（Level Shifter / Translator）：

74LVC1T45  (单电源双向电平转换)

A 侧 V_CC = 3.3 V (FPGA)
B 侧 V_CC = 5 V    (CAN 收发器)
方向控制引脚 DIR

A 侧输入 3.3 V 逻辑电平
B 侧自动输出 5 V 逻辑电平
双向可切换

专门的电平转换器：

74LVC1T45 / 74LVC4T245：双向，高速
TXS0102 / TXB0108：自动方向检测，I²C / SPI 适用
PCA9306：I²C 专用，无方向控制

选型要点：

静态还是动态信号？（I²C 是双向开漏，需要特殊 translator）
单向还是双向？
速度要求（LVC 系列支持几百 MHz）

7. 数字控制在功率电子中的应用

数字控制（MCU / DSP / FPGA 实现的 PWM + PID）取代模拟控制成为现代高性能电源和电机驱动的主流。但它引入了模拟系统没有的固有延迟。

7.1 数字控制的三类延迟

数字控制三类延迟串联——采样延迟(ADC)、计算延迟(MCU/FPGA)、输出延迟(PWM 更新)。三者总和决定控制环带宽——典型 < 总延迟的 1/10。

数字控制三类串联延迟 — AD 采样 (~0.5 Ts) → 计算 PID (~1 Ts) → 更新 PWM (0.5 Ts) → PWM 输出，总延迟 ≈ 1.52 × Ts

$T s$ 是采样周期（= 1/ $f s$ ，通常与开关周期相同）。

7.2 相位滞后公式

时间延迟 t 在频率 f 处引入的相位滞后：

$ϕ = 2 π \times f \times t$ 示例： $T s$ = 100 μs（10 kHz 开关频率），控制带宽目标 1 kHz：

单个 T_s 延迟在 1 kHz 处:
φ = 2π × 1 kHz × 100 μs = 2π × 0.1 = 0.628 rad = 36°

两个 $T s$ 总延迟：

$ϕ_{t o t a l} = 7 2^{\circ}$ 这个相位滞后直接吃掉闭环相位裕度。假设目标 PM = 60°，数字控制器就需要额外提供 72° 的相位提升，否则整个环路就不稳定。

现实后果：

模拟控制的相位裕度：60°
数字控制的相位裕度：60° − 72° = −12° ！
必须用超前补偿或降低控制带宽

7.3 控制带宽 vs 采样率的关系

Nyquist 准则：采样率 $f s$ 必须至少 2× 信号最高频率，否则混叠。

工程规则：为了避开相位滞后过大，采样率应该是控制带宽的 10～20×：

$f s \geq 10 \times f b w$ 为什么： $f b w$ / $f s$ = 1/10 时相位滞后 ≈ 36° × 1 = 36°（相当于一个采样周期延迟）——还可以接受。低于 10 就会完全吃掉相位裕度。

含义：提高控制带宽需要同时提高采样率。10 kHz 开关频率的系统，控制带宽最多做到 1 kHz。想做到 5 kHz 带宽，必须提高开关频率到 50 kHz。

7.4 死区时间（Dead Time）

死区时间：半桥电路中，上下管都关断的一段时间（防止直通短路）。

为什么需要：

上管关断需要时间（ $t o ff$ ）
下管开通需要时间（ $t o n$ ）
如果下管先开通，上管还没完全关断 → 直通短路 → 炸管

死区时间必须大于 max( $t o ff$ , $t o n$ )——对 Si MOSFET 通常 50～200 ns，对 SiC MOSFET 30～50 ns，对 IGBT 500 ns ～ 2 μs。

7.5 死区时间的代价：输出波形畸变

问题：死区期间，输出电压不由占空比指令决定，而是由电感电流方向决定。这导致平均输出电压偏离指令值——对比理想 PWM 和带死区 PWM 可见每个脉冲两端都被吃掉一截。

理想 PWM 与带死区 PWM 波形对比 — 带死区波形每个脉冲前后沿被吃掉，死区期间电压由电感电流方向决定

电压误差：

$Δ V = t d e a d \times Vb u s \times f s w \times s i g n (I o u t)$

方向取决于输出电流
对高精度电机控制，这是不可接受的噪声源

7.6 死区补偿算法

死区补偿（Dead Time Compensation）：软件主动修正占空比来补偿死区造成的电压误差。

算法：

if (I_out > 0) {
    duty_cycle += ΔD_comp;  // 正向电流，减小死区效应
} else {
    duty_cycle -= ΔD_comp;  // 负向电流，反向补偿
}

其中 ΔD_comp = $t d e a d$ × $f s w$ 。

含义：根据实时测量的相电流方向，动态调整占空比。必须有快速电流采样。

高性能电机控制器（EV 主驱、伺服驱动）几乎都做死区补偿——这是从"能转"到"转得好"的必要步骤。

8. FPGA 在功率电子中的应用

FPGA 在功率电子中扮演越来越重要的角色。核心原因：并行性和超低延迟。

8.1 FPGA 适合的功率电子任务

FPGA 在特定功率电子任务上比 MCU 强——多通道并行 PWM、超高频开关(> 200kHz)、多电机协调控制、纳秒级保护逻辑。这些场景 MCU 顺序计算跟不上,需要 FPGA 空间并行。

任务	为什么 FPGA 合适
高频 PWM > 500 kHz	ns 级分辨率
多路同步 PWM 10+ 路	天然并行
死区补偿	纳秒级精度
FOC 电流环 > 20 kHz	低延迟；并行计算
ADC 高速采样接口	SERDES；并行 I/O
故障快速响应	硬件级 μs 响应
多轴联动(机器人/CNC)	多通道同步

8.2 一个典型应用：FPGA 实现 FOC 电机控制

FOC 算法用 FPGA 实现可以做到 100kHz+ 控制环——MCU 一般只能 10-20kHz。下面给出 FOC 在 FPGA 上的并行展开,让 Clarke/Park/PI 计算同时跑而不是串行。

PMSM FOC 计算链 — ADC 采样 → Clarke → Park → PI 电流环 → 逆 Park → SVPWM；FPGA 用 DSP Block 并行流水延迟 ~100 ns，MCU 顺序执行 ~10 us

PMSM FOC 的计算链（上图）。MCU 实现：顺序执行，～10 μs 延迟（在 200 MHz 上）。

FPGA 实现：

Clarke / Park / SVPWM 全部用 DSP Block 并行
流水线深度～10 级
延迟 ～100 ns

延迟减小 100× → 允许更高的电流环带宽 → 更快的动态响应 → 电机控制更精准。

缺点：FPGA 成本比 MCU 高 3～5×，开发复杂。

甜蜜点：高性能伺服驱动、军用电机、大功率变频器（> 100 kW）。

FPGA 在功率电子里的价值是"并行 + 超低延迟"—— 让数字控制的带宽能逼近模拟控制的极限；代价是成本和开发复杂度。

9. 数字控制失效模式图谱

数字控制失效多数集中在时钟、跨时钟域、SEU 三类——下表把常见失效与对策整理。这些是 FPGA / MCU 项目 FMEA 起点参考。

失效模式	根因	对策
相位裕度不够	数字延迟未计入	更高 $f s$ ；超前补偿
死区畸变	无死区补偿	实现补偿算法
混叠	$f s$ < 2× $f ma x$	抗混叠滤波；提高 $f s$
定点溢出	Q 格式溢出	关键路径 64 位/浮点
跨时钟域错误	缺同步器	单比特双 FF；多比特 FIFO
时序违例	路径太长	流水线；retiming；降频
PWM 更新滑移	更新时机错位	同步 ADC 和 PWM 周期
保护响应慢	软件保护 > μs	用 FPGA 硬件保护

核心要点

FPGA 不是 CPU：它是可编程的硬件电路，核心是 LUT（SRAM 真值表）+ FF + 专用资源（DSP Block、BRAM、PLL）。
4 输入 LUT 可以实现 $2^{16}$ = 65536 种不同的布尔函数——通过往 SRAM 里写不同的值。
DSP Block 比 LUT 实现乘法快 5～50×——所有乘法都应该用 DSP。
设计流程六阶段：HDL → 综合 → 映射 → 布局布线 → 时序分析 → 位流。每个阶段有不同的错误模式。
Reveal / ChipScope / SignalTap 是 FPGA 调试的救命工具——片上逻辑分析仪。
STA 核心方程： $T c l k$ ≥ $t co$ + $t co mb$ + $t s u$ ；Slack < 0 是违例。
**跨时钟域（CDC）**需要同步器或 FIFO；亚稳态是最难调的 bug 之一。
数字控制的三类延迟（采样 / 计算 / PWM 更新）合计～2 × $T s$ ，在控制带宽 $f c$ = 1/(10· $T s$ ) 处产生～36° 相位滞后。
采样率应为控制带宽的 10～20×，否则相位裕度被吃光。
死区时间必须有（防止桥臂直通），但会造成输出波形畸变——高性能电机控制必须做死区补偿。
FPGA 在功率电子里的价值：并行 + 超低延迟，让 FOC 控制器从 10 μs 降到 100 ns。

Cross-references

← 索引
功率电子学（Power Electronics） — 数字控制在变换器中的应用
电路仿真工具 — FPGA 控制器的仿真（Simulink + PSIM）
汽车电子 — FPGA 在 ADAS 和电机控制中的角色
运算放大器与模拟设计 — ADC 前端信号调理
ADC 与混合信号设计 — FPGA 和 ADC 的接口
汽车微控制器（Automotive MCU）
电机控制（Motor Control）