FPGA 与数字设计

系统架构L5别名 FPGA · Lattice Diamond · 数字设计

本质与导读

本质 FPGA 不是"可编程的 CPU",而是一片可编程硬件——你在 HDL 里描述的不是指令序列,而是实际存在的门电路和触发器,所以它能空间并行做上千件事。代价是:时序是硬约束,时钟到触发器的路径必须在一个周期内完成,否则就失败。

主线坐标:器件基底 / 信号链(跨站) · ↑ 全景主线

1. 核心框架:FPGA 不是 CPU

FPGA 与 CPU 是两种完全不同的计算范式——CPU 是顺序时分复用,FPGA 是空间并行。理解这条根本差异决定了"什么任务适合 FPGA"。

CPU vs FPGA — 上 CPU (amber) → ALU + registers → sequential · 下 FPGA (caramel) → gate array → native parallelism · 时分 vs 空间并行

初学者最大的误解是把 FPGA 当成"慢的 CPU"。错了——FPGA 和 CPU 是两种完全不同的东西。一个 FPGA 同时做 1000 件事(如 1000 个 PWM 通道、1000 个 FIR 滤波器)和一个 CPU 顺序做 1000 件事——速度差距可能是 1000×。

但代价是:

  • FPGA 资源有限:LUT 和 FF 数量固定,不能"动态创建"
  • 每件事都要显式写:没有 "for 循环跑一千次"(除非你展开成 1000 个实例)
  • 时序约束严格:所有信号必须在一个时钟周期内从一个触发器传到下一个

FPGA 的甜蜜点并行、实时、低延迟的应用——通信、DSP、电机控制、ADAS 前端。


2. LUT——FPGA 可编程性的来源

LUT (Look-Up Table) 是 FPGA 最基本的可编程单元。它的工作原理极其简单:一个 SRAM


2.1 LUT 的工作原理

LUT(Look-Up Table) 是 FPGA 的"基础单元"——4-6 输入查表代替任何小逻辑函数。一个 LUT4 可以实现任何 4 输入布尔函数,通过级联实现复杂逻辑。

LUT 结构 — inputs A/B/C/D → address 4-bit → 16-bit SRAM → output 1 bit · LUT4 可实现任何 4 输入布尔函数

一个 N 输入 LUT = 一个 2^n 位的 SRAM工作方式

  • 输入作为地址选中 SRAM 的一个位
  • 输出 = 该位的值
  • SRAM 存什么决定了 LUT 实现什么函数

4 输入 LUT 可以实现任意 4 输入布尔函数

  • = 16 种输入组合
  • 每种组合可以输出 0 或 1
  • 不同的 SRAM 内容 → 不同的函数
  • 总数 = = 65536 种不同的 4 输入函数

所有常见逻辑门(AND、OR、XOR、NAND 等)、所有 4 输入及以下的组合逻辑都可以用一个 4 输入 LUT 实现——编程时只是往 SRAM 里写不同的值。


2.2 综合工具如何使用 LUT

HDL 代码:

assign y = (a & b) | (c ^ d); 综合工具做的事:

  • 枚举所有 16 种 (a, b, c, d) 输入组合
  • 对每种组合计算 y 的值
  • 把 16 个结果作为 SRAM 的初始值写入一个 LUT
  • 把 (a, b, c, d) 连到 LUT 的地址输入
  • LUT 的输出就是 y

综合 = 把 HDL 描述的逻辑"烧"进 LUT 的 SRAM


2.3 大于 4 输入的逻辑

4 输入 LUT 实现不了 5 输入函数——怎么办?级联:用两个 LUT4 分别存 E=0 和 E=1 的真值表,再用一个 2:1 MUX 由 E 选择。

5 输入函数级联 — 两个 LUT4 (E=0 / E=1 真值表) → 2:1 MUX (E 控制选择) → 输出 Y

现代 FPGA 的 LUT 多是 6 输入(Xilinx Virtex、Altera Stratix)或支持分区为两个较小 LUT(ALM 结构)—— 灵活度更高。


2.4 LUT 资源估算

经验公式

  • N 位加法器:约 N 个 LUT + N 个 FF
  • N 位比较器:约 N/4 个 LUT
  • N × N 乘法器:约 N² / 2 个 LUT(或 1 个 DSP Block)
  • 状态机(M 个状态):约 log2(M) 个 FF + 几十个 LUT

示例:16 位 PWM 计数器 + 比较器:

  • 计数器:16 位寄存器 = 16 FF
  • 16 位比较器:约 4 个 4 输入 LUT
  • 总计:16 FF + 4 LUT

一个低端 Lattice FPGA 有数千个 LUT,这种电路占资源的 0.1%——极小。

LUT 通过"SRAM 存真值表"实现任意布尔函数——这是 FPGA 可编程性的物理基础,所有逻辑都从这里展开。


3. FPGA 的五类核心资源

除 LUT 外,现代 FPGA 还有四类资源。每类都是为特定计算模式优化的——用错资源会严重浪费。


3.1 五类资源对比

FPGA 内部5 类资源各有专攻——LUT 通用逻辑、FF 时序、BRAM 大块存储、DSP 乘加、IO 接口。设计 FPGA 项目就是把任务按资源消耗最优分配到这 5 类。

资源功能最适合实现
LUT任意组合逻辑状态机;控制逻辑
FFD 触发器锁存寄存器;流水线;计数器
DSP Block硬件乘加 MAC乘法;FIR;PID;FOC
BRAM双端口 RAMFIFO;查找表;缓存
PLL/DLL时钟倍频分频相移时钟生成;域转换

典型数量(中端):LUT 10k~1M;FF ≈ LUT;DSP 几十~几千;BRAM 几十~几百;PLL 2~20。


3.2 为什么 DSP Block 比 LUT 快 50×

用 LUT 实现 16×16 乘法

  • 需要展开成完整的 Wallace Tree 或行列阵列
  • 占用 ~300 LUT + 50 FF
  • 延迟 > 10 ns

用 DSP Block 实现 16×16 乘法

  • 1 个 DSP Block(内部是硬件专用乘加器)
  • 延迟 ~2 ns
  • 可流水线到 400+ MHz

资源效率 ~50×,速度 ~5×

含义所有乘法都应该用 DSP Block——这是现代 FPGA 的硬性规则。把数学运算写成 a * b,让综合工具推断出 DSP Block。

DSP Block 的额外能力

  • 乘加(MAC):a × b + c
  • 多输入 MAC:a × b + c × d
  • 预加器:(a + b) × c
  • 加法器树:a + b + c + d
  • 适合 FIR、IIR、FFT、FOC 控制器等 DSP 算法

3.3 BRAM——双端口 RAM 的价值

BRAM (Block RAM) 是片上 SRAM,通常 18K 或 36K bit。核心特征:双端口读写。

双端口 RAM 允许

  • 同一周期,一个端口读 + 另一个端口写
  • 两个端口的时钟可以不同(跨时钟域 FIFO 的基础)
  • 支持不同的数据宽度

典型用途

  • FIFO(First-In First-Out 缓冲区)
  • 大型查找表(如正弦查找表 sin(θ))
  • 数据缓存(DMA 缓冲、图像行缓存)
  • 乒乓缓冲(两个缓冲轮流读写,避免读写冲突)

3.4 PLL——时钟生成的关键

PLL (Phase-Locked Loop) 用于:

  • 时钟倍频:50 MHz 输入 → 200 MHz 内部时钟
  • 时钟分频:生成慢速时钟
  • 相位调整:让时钟在特定相位对齐(如 DDR 接口的读时钟)
  • 抖动过滤:清除输入时钟的抖动

每个时钟域通常有一个 PLL。多时钟域设计的时钟管理是 FPGA 设计的常见难点。

FPGA 五类资源各司其职 —— LUT 做逻辑、FF 做时序、DSP 做数学、BRAM 做存储、PLL 做时钟;用对资源是性能的基础。


4. 设计流程 — 拆出 atomic 专题

HDL → 综合 → 优化 → 映射 → 布局布线 → 时序分析 (STA) → 位流 (bitstream) 6 步链路。每步的工具命令、参数、输入输出、典型失败模式与修复路径,详见 topic-fpga-toolchain

5. 静态时序分析(STA)

STA (Static Timing Analysis) 是验证时序的数学方法——不用仿真,直接计算所有路径的延迟,检查是否满足时钟约束。


5.1 核心概念

Setup time ():时钟沿到来之前,数据必须稳定多久。典型 100 ps ~ 1 ns。

Hold time ():时钟沿之后,数据必须继续保持多久。典型 0 ~ 500 ps。

Clock-to-Q ():时钟沿触发后,Q 输出多久稳定。典型 300 ps ~ 1 ns。

组合逻辑延迟 ():信号通过 LUT 和走线的延迟。


5.2 Setup 时序方程

  • :时钟周期
  • :源 FF 的 clock-to-Q
  • :组合逻辑延迟
  • :目的 FF 的 setup time

Setup Slack

Slack > 0:通过。Slack < 0:违例

WNS (Worst Negative Slack):所有路径中最差的 Slack 值,是综合后报告的关键数字。

例子:100 MHz 时钟( = 10 ns), = 0.5 ns, = 7 ns, = 0.3 ns:

Slack = 10 − 0.5 − 7 − 0.3 = 2.2 ns 通过,余量 2.2 ns。如果时钟频率提到 200 MHz( = 5 ns):

Slack = 5 − 0.5 − 7 − 0.3 = −2.8 ns 严重违例。必须优化组合路径或降频。


5.3 Hold 时序方程

组合路径太短时违例。通常由工具自动修复(插 buffer)。


5.4 解决时序违例

时序违例核心是组合路径太长 < 一个时钟周期——5 种解决路径:简化逻辑、流水线化、降时钟、改用 DSP、约束调优。新人优先用流水线化,代价小且效果立竿见影。

  • 简化组合逻辑:用布尔化简、LUT 合并
  • 流水线:在路径中间插入 FF,把一级变两级
  • Retiming:让工具自动重排 FF 位置,平衡各级延迟
  • 物理约束:强制关键路径上的资源布在相邻位置
  • 调整时钟分配:多时钟域隔离,避免跨域
  • 降低时钟频率(最后手段)

5.5 跨时钟域(CDC)的特殊问题

当信号从时钟域 A 传到时钟域 B 时(两个时钟不同步),会出现亚稳态(metastability):signal_A 的跳变沿可能恰好落在 clk_B 上升沿的 setup 窗口内被采样。

跨时钟域采样波形 — clk_A / signal_A / clk_B 三道时序,signal_A 跳变沿落在 clk_B 上升沿的 setup 窗口内 → 亚稳态

亚稳态:FF 的输出可能处于 0 和 1 之间的不确定状态,持续时间不定,最终随机变为 0 或 1。

解决方案:同步器(两个串联的 FF,都用目标域时钟 clk_B 驱动):

两级同步器 — signal_A → FF1 → FF2 → signal_B,FF1 与 FF2 均由 clk_B 驱动

第一个 FF 可能进入亚稳态,但在下一个时钟沿前有一个周期的时间"稳定"。第二个 FF 采到的几乎是稳定值。

但同步器只适合单比特信号——多比特数据(如总线)需要用 FIFO握手协议

CDC 错误是 FPGA 设计最难调的 bug 之一:行为随机、不可重现、在特定时序下才出现。必须用专门的 CDC 检查工具(Vivado Report CDC、Spyglass)。


6. 标准逻辑 IC(74 系列)

FPGA 和 MCU 之间的"粘合胶"经常是74 系列标准逻辑 IC——用于电平转换、总线缓冲、信号扇出。选型看工作电压速度


6.1 Nexperia 主要逻辑系列

Nexperia 通用逻辑多个系列对应不同应用——74HCT 通用、74LVC 低电压、74AHC 高速、74AVC 超低电压。车规选型优先 74AHC1G 系列(单门 + AEC-Q100)。

系列特点
HC/HCT2~6V / 5V~7 ns通用;HCT 兼容 TTL
AHC/AHCT2~5.5V / 5V~4 ns高速;更强驱动
LV/LVC1.65~3.6V~3 ns3.3V 主流
AUP0.8~3.6V~5 ns超低功耗;IoT
AVC1.4~3.6V~2 ns超高速;高端通信

6.2 关键参数

通用逻辑选型4 个核心参数——传播延迟 工作电压、驱动能力 AEC-Q 等级。每个应用对参数敏感度不同。

  • (传播延迟):输入变化到输出变化的时间,决定最高工作频率
  • / (高/低电平驱动电流):决定能驱动多少个输入
  • / :输入电压阈值
  • / :输出电压
  • 噪声裕量
  • Bus Hold(总线保持):输入浮空时保持最后状态,三态总线必备

6.3 跨电压域连接——常见陷阱

场景:FPGA I/O 是 3.3 V,需要驱动 5 V CAN 收发器。

直接连接

  • FPGA 输出 3.3 V,CAN 收发器 = 2.4 V → 逻辑高电平满足
  • 但 3.3 V 接 5 V 输入端,可能损坏 FPGA I/O(超过 + 0.5 V 时内部钳位二极管导通,产生大电流)

错误做法:直接接——有些器件可以(如 5 V 容忍的 LVC),但不是所有 FPGA I/O 都支持 5 V 容忍。

正确做法:插入电平转换器(Level Shifter / Translator):

74LVC1T45  (单电源双向电平转换)

A 侧 V_CC = 3.3 V (FPGA)
B 侧 V_CC = 5 V    (CAN 收发器)
方向控制引脚 DIR
  • A 侧输入 3.3 V 逻辑电平
  • B 侧自动输出 5 V 逻辑电平
  • 双向可切换

专门的电平转换器

  • 74LVC1T45 / 74LVC4T245:双向,高速
  • TXS0102 / TXB0108:自动方向检测,I²C / SPI 适用
  • PCA9306:I²C 专用,无方向控制

选型要点

  • 静态还是动态信号?(I²C 是双向开漏,需要特殊 translator)
  • 单向还是双向
  • 速度要求(LVC 系列支持几百 MHz)

7. 数字控制在功率电子中的应用

数字控制(MCU / DSP / FPGA 实现的 PWM + PID)取代模拟控制成为现代高性能电源和电机驱动的主流。但它引入了模拟系统没有的固有延迟


7.1 数字控制的三类延迟

数字控制三类延迟串联——采样延迟(ADC)、计算延迟(MCU/FPGA)、输出延迟(PWM 更新)。三者总和决定控制环带宽——典型 < 总延迟的 1/10。

数字控制三类串联延迟 — AD 采样 (~0.5 Ts) → 计算 PID (~1 Ts) → 更新 PWM (0.5 Ts) → PWM 输出,总延迟 ≈ 1.52 × Ts

是采样周期(= 1/,通常与开关周期相同)。


7.2 相位滞后公式

时间延迟 t 在频率 f 处引入的相位滞后

示例 = 100 μs(10 kHz 开关频率),控制带宽目标 1 kHz:

单个 T_s 延迟在 1 kHz 处:
φ = 2π × 1 kHz × 100 μs = 2π × 0.1 = 0.628 rad = 36°

两个 总延迟

这个相位滞后直接吃掉闭环相位裕度。假设目标 PM = 60°,数字控制器就需要额外提供 72° 的相位提升,否则整个环路就不稳定。

现实后果

  • 模拟控制的相位裕度:60°
  • 数字控制的相位裕度:60° − 72° = −12°
  • 必须用超前补偿或降低控制带宽

7.3 控制带宽 vs 采样率的关系

Nyquist 准则:采样率 必须至少 2× 信号最高频率,否则混叠

工程规则:为了避开相位滞后过大采样率应该是控制带宽的 10~20×

为什么/ = 1/10 时相位滞后 ≈ 36° × 1 = 36°(相当于一个采样周期延迟)——还可以接受。低于 10 就会完全吃掉相位裕度。

含义提高控制带宽需要同时提高采样率。10 kHz 开关频率的系统,控制带宽最多做到 1 kHz。想做到 5 kHz 带宽,必须提高开关频率到 50 kHz。


7.4 死区时间(Dead Time)

死区时间半桥电路中,上下管都关断的一段时间(防止直通短路)。

为什么需要

  • 上管关断需要时间(
  • 下管开通需要时间(
  • 如果下管先开通,上管还没完全关断 → 直通短路 → 炸管

死区时间必须大于 max(, )——对 Si MOSFET 通常 50~200 ns,对 SiC MOSFET 30~50 ns,对 IGBT 500 ns ~ 2 μs。


7.5 死区时间的代价:输出波形畸变

问题:死区期间,输出电压不由占空比指令决定,而是由电感电流方向决定。这导致平均输出电压偏离指令值——对比理想 PWM 和带死区 PWM 可见每个脉冲两端都被吃掉一截。

理想 PWM 与带死区 PWM 波形对比 — 带死区波形每个脉冲前后沿被吃掉,死区期间电压由电感电流方向决定

电压误差

  • 方向取决于输出电流
  • 对高精度电机控制,这是不可接受的噪声源

7.6 死区补偿算法

死区补偿(Dead Time Compensation):软件主动修正占空比来补偿死区造成的电压误差。

算法

if (I_out > 0) {
    duty_cycle += ΔD_comp;  // 正向电流,减小死区效应
} else {
    duty_cycle -= ΔD_comp;  // 负向电流,反向补偿
}

其中 ΔD_comp = ×

含义:根据实时测量的相电流方向,动态调整占空比。必须有快速电流采样

高性能电机控制器(EV 主驱、伺服驱动)几乎都做死区补偿——这是从"能转"到"转得好"的必要步骤。


8. FPGA 在功率电子中的应用

FPGA 在功率电子中扮演越来越重要的角色。核心原因:并行性超低延迟


8.1 FPGA 适合的功率电子任务

FPGA 在特定功率电子任务上比 MCU 强——多通道并行 PWM、超高频开关(> 200kHz)、多电机协调控制、纳秒级保护逻辑。这些场景 MCU 顺序计算跟不上,需要 FPGA 空间并行。

任务为什么 FPGA 合适
高频 PWM > 500 kHzns 级分辨率
多路同步 PWM 10+ 路天然并行
死区补偿纳秒级精度
FOC 电流环 > 20 kHz低延迟;并行计算
ADC 高速采样接口SERDES;并行 I/O
故障快速响应硬件级 μs 响应
多轴联动(机器人/CNC)多通道同步

8.2 一个典型应用:FPGA 实现 FOC 电机控制

FOC 算法用 FPGA 实现可以做到 100kHz+ 控制环——MCU 一般只能 10-20kHz。下面给出 FOC 在 FPGA 上的并行展开,让 Clarke/Park/PI 计算同时跑而不是串行。

PMSM FOC 计算链 — ADC 采样 → Clarke → Park → PI 电流环 → 逆 Park → SVPWM;FPGA 用 DSP Block 并行流水延迟 ~100 ns,MCU 顺序执行 ~10 us

PMSM FOC 的计算链(上图)。MCU 实现:顺序执行,~10 μs 延迟(在 200 MHz 上)。

FPGA 实现

  • Clarke / Park / SVPWM 全部用 DSP Block 并行
  • 流水线深度 ~10 级
  • 延迟 ~100 ns

延迟减小 100× → 允许更高的电流环带宽 → 更快的动态响应 → 电机控制更精准。

缺点:FPGA 成本比 MCU 高 3~5×,开发复杂。

甜蜜点:高性能伺服驱动、军用电机、大功率变频器(> 100 kW)。

FPGA 在功率电子里的价值是"并行 + 超低延迟"—— 让数字控制的带宽能逼近模拟控制的极限;代价是成本和开发复杂度。


9. 数字控制失效模式图谱

数字控制失效多数集中在时钟、跨时钟域、SEU 三类——下表把常见失效与对策整理。这些是 FPGA / MCU 项目 FMEA 起点参考。

失效模式根因对策
相位裕度不够数字延迟未计入更高 ;超前补偿
死区畸变无死区补偿实现补偿算法
混叠 < 2×抗混叠滤波;提高
定点溢出Q 格式溢出关键路径 64 位/浮点
跨时钟域错误缺同步器单比特双 FF;多比特 FIFO
时序违例路径太长流水线;retiming;降频
PWM 更新滑移更新时机错位同步 ADC 和 PWM 周期
保护响应慢软件保护 > μs用 FPGA 硬件保护

核心要点

  • FPGA 不是 CPU:它是可编程的硬件电路,核心是 LUT(SRAM 真值表)+ FF + 专用资源(DSP Block、BRAM、PLL)。
  • 4 输入 LUT 可以实现 = 65536 种不同的布尔函数——通过往 SRAM 里写不同的值。
  • DSP Block 比 LUT 实现乘法快 5~50×——所有乘法都应该用 DSP。
  • 设计流程六阶段:HDL → 综合 → 映射 → 布局布线 → 时序分析 → 位流。每个阶段有不同的错误模式。
  • Reveal / ChipScope / SignalTap 是 FPGA 调试的救命工具——片上逻辑分析仪。
  • STA 核心方程 + + ;Slack < 0 是违例。
  • **跨时钟域(CDC)**需要同步器或 FIFO;亚稳态是最难调的 bug 之一。
  • 数字控制的三类延迟(采样 / 计算 / PWM 更新)合计 ~2 × ,在控制带宽 = 1/(10·) 处产生 ~36° 相位滞后。
  • 采样率应为控制带宽的 10~20×,否则相位裕度被吃光。
  • 死区时间必须有(防止桥臂直通),但会造成输出波形畸变——高性能电机控制必须做死区补偿。
  • FPGA 在功率电子里的价值:并行 + 超低延迟,让 FOC 控制器从 10 μs 降到 100 ns。

延伸阅读

FPGA 教材

  • Diamond UG(Lattice 官方手册)
  • FPGA Design Tutor with Diamond(中文教程)
  • Xilinx / Intel FPGA 相关 UG(公开资料)

逻辑基础

  • Nexperia Logic Handbook
  • Nexperia Engineers Handbook

数字控制 / DSP

  • Digital Control of Power Converters(Buso/Mattavelli)
  • High-Performance Control of AC Drives

Cross-references