热管理(Thermal Management)

功率级L6别名 热管理 · 热阻 · Z_th · 结温

本质与导读

本质 热管理是功率电子设计里唯一可以用欧姆定律思考的子系统——温度差 = 电压,功率 = 电流,热阻 = 电阻,热容 = 电容。所有热设计问题都归结为一个方程: = + P × ΣR_th。但"欧姆定律思维"只对稳态有效;实际系统充满脉冲功率和电-热正反馈,需要瞬态热阻 和寿命模型作为补充。做好热管理 = 把这几件工具在合适的场合用对。

主线坐标:横轨 · 热 / 封装(跨站) · ↑ 全景主线

1. 核心框架:热管理的四个子问题

热管理不是单一问题,是四个独立子问题的组合——稳态(平均功率)、瞬态(脉冲)、电-热耦合(温度反馈)、寿命(疲劳)。每个子问题用不同分析工具,新人最常的错是只算稳态忽略瞬态,在脉冲工况下温度爆。

子问题分析工具关键数据
1 稳态T = P·,jc; cs; sa
2 瞬态; Foster/Cauer手册
3 电-热耦合迭代 T vs P/dT
4 寿命Coffin-MansonΔT_j; 循环次数

热管理四个子问题象限图:1 稳态 / 2 瞬态 / 3 电-热耦合 / 4 长期寿命,各用不同分析工具

热管理看起来是一个问题(" 控制在合理范围"),实际上是四个紧密相关的子问题(如上图)。每个子问题用不同的分析工具,如上表所示。

大多数热设计错误出自混用工具:用稳态热阻估瞬态工况(严重低估散热能力),或者忘记电-热耦合(严重低估稳态功耗),或者只看一次 峰值没看 ΔT_j 寿命(模块 3 年后焊线疲劳失效)。


2. 稳态热模型——热路欧姆定律

热管理最简单、最常用的模型:热量在一个简单的串联热阻网络里从结流到环境。


2.1 热-电类比

热学问题用电学类比可以借用所有电路工具——温度对电压、功率对电流、热阻对电阻、热容对电容。这条类比让 SPICE 可以仿热,大幅简化复杂热系统分析。

热学量符号/单位电学类比
温度差ΔT (K)电压 (V)
功率P (W)电流 (A)
热阻 (K/W)电阻 (Ω)
热容 (J/K)电容 (F)

这个类比不是比喻,是严格的数学同构(如上表)。推论:任何 SPICE 电路仿真工具都可以直接用来做热路仿真——PSIM、LTspice 都有现成的热模块。热阻并联、串联、Y-Δ 变换都和电路完全一样。


2.2 稳态热路

稳态热路用串联电阻链建模——结到壳 、壳到散热器 、散热器到环境 。三段串联,任一段大都让结温升。

稳态热路:结到环境的串联热阻链

热阻决定因素可改?
,jc芯片+封装不能
,csTIM+涂覆工艺
,sa散热器

典型功率器件 + 散热器的完整热路如上图。稳态方程

T_j = T_a + P × (R_th,jc + R_th,cs + R_th,sa)
    = T_a + P × R_th,total

每段热阻的决定因素

,jc 是不可谈判的上限——选器件时就决定了;后面只能在 ,cs 和 ,sa 上优化。


2.3 典型热阻量级

封装 量级跨度三个数量级——从 SOT-23 的 200K/W 到大模块的 0.05K/W。封装选择第一道关就是按功耗反推 ,选错封装后面散热再优化也救不回来。

2.3.1 先建立封装本体的热阻量级感觉

第一张表只回答"器件自己把热送到壳体有多难",所以它主要决定封装是否从一开始就选错了量级。

封装,jc
SOT-23 (小信号)200~300 K/W
DPAK/D2PAK2~5 K/W
TO-2201~2 K/W
TO-247 (MOSFET)0.5~1 K/W
TO-247 (IGBT)0.4~0.8 K/W
IGBT 模块(62mm)0.1~0.3 K/W
SiC LFPAK56/TOLL0.8~1.5 K/W
SiC 模块 Easy0.15~0.4 K/W

2.3.2 再看界面与散热器这条外部热路

第二张表回答的是"热已经出器件以后,还会卡在哪一段",所以它直接决定该上风冷、液冷还是改界面材料。

环节 典型值
导热膏(40 cm²)~0.05 K/W
相变材料~0.02 K/W
烧结银~0.001 K/W
自然对流散热器3~10 K/W
强制风冷(2 m/s)0.3~2 K/W
液冷(5 L/min)0.03~0.1 K/W

建立量级感觉是必修课(典型值如上表)。粗略估算法则:风冷的总热阻很难做到 < 0.5 K/W,液冷轻松 < 0.1 K/W。


2.4 稳态计算示例

场景:三相逆变器,IGBT 模块 ,jc = 0.15 K/W,每个 IGBT 总损耗 P = 80 W,TIM 是导热膏 ,cs = 0.05 K/W,散热器液冷 ,sa = 0.05 K/W,冷却液温度 = 60 °C。

T_j = T_a + P × R_th,total
    = 60 + 80 × (0.15 + 0.05 + 0.05)
    = 60 + 80 × 0.25
    = 60 + 20
    = 80 °C

,max = 150 °C(IGBT5)或 175 °C(IGBT7),降额 25 °C 后允许 达到 125 或 150 °C——80 °C 远低于限,热设计有充足余量。

但注意

  • 这是单点稳态。实际工况里逆变器电流在变(加速/减速),每个 IGBT 的瞬时功率在波动,要看瞬态峰值。
  • 60 °C 冷却液假设是最坏情况 —— 真实汽车在夏天冷却液可以达到 90 °C。
  • 还没算电-热耦合——高温下 IGBT 的损耗会增大(见下面第四节)。

所以这个 80 °C 只是一个"纸面上的最好情况",实际设计时必须给更多余量。


2.5 为什么板级 MOSFET 的连续功率常先被 PCB 与环境卡住

对 LFPAK56、LFPAK33、LFPAK88 这类没有独立散热器、主要靠 PCB 铜皮和环境空气散热的封装,175 °C 只是硅结的绝对上限,不是连续可用功率的真实边界。先要区分短脉冲与长期平均功耗:短时温升先受热容 限制,近似满足 ;只有当 dT/dt 已接近零时,平均功率乘稳态热阻的算法才成立。进入稳态以后,真正决定功率上限的往往不是 die 本身,而是 die -> leadframe -> solder -> copper -> FR4 -> air 这条热路里最差的一段。

对 MOSFET,热设计的第一步仍然是先把电应力翻译成热源:

其中 来自开关过渡区, 来自 来自雪崩吸能。三项虽然最后都变成热,但它们对平均温升、峰值温升和热预算的吞噬方式并不相同,因此不能只拿一个“总损耗”数字就结束热分析。

从热路角度看,板级封装始终在和三种传热机制打交道。传导决定热能能否先离开 die 并摊到更大的铜面积上,对应关系是 ;对流决定整块板能否把热真正交给空气,对应关系是 ;辐射会在高温下增强,但在抛光铜、抛光铝这类低发射率表面上通常只能当辅助支路,不能被当作救场手段。对板级 MOSFET 来说,这三条机制里最容易被低估的往往不是“封装里导不出来”,而是“导到板上以后还是散不出去”。

2.6 为什么 FR4 经常比硅结更早耗尽温升预算

R_{th(j-mb)} 回答的是“平均热流能否穿过封装内部被交给 mounting base”;R_{th(j-a)} 回答的才是“这份热最后能否走到环境”。对没有额外散热片、也没有明显风流的离散 MOSFET,后者并不是单一路径,而更接近壳顶到空气与 PCB 到空气两条外部热路的并联;但在大多数板级场景里,壳顶支路很弱,真正主导的是 board-to-air 这一段。

这也是所谓 1 Watt rule 的物理来源。普通 FR4、自然对流、汽车高环境温度下,板级等效热阻常在 5060 K/W 量级。若按环境温度 80 °C、FR4 长期工作上限约 130 °C 估算,可用温升只有约 50 °C,于是:

它并不是说所有 LFPAK 都绝对不能超过 1 W,而是在提醒你:在普通 1.6 mm FR4、自然对流、较热环境这些常见边界下,先到极限的往往是板材、焊点和局部空气层,而不是硅结的 175 °C 绝对额定值。

2.7 为什么加铜、加层和打过孔会先有效后平台

顶层铜面积一开始很有效,是因为它优先降低的是“热点从小焊盘扩散到大铜面”的横向扩热热阻;但当热点已经被摊平以后,主瓶颈就会转移到 FR4 的竖向导热以及整块板与空气之间的换热。此时再无上限扩大顶层铜,得到的往往只是更大面积的温热 PCB,而不是线性下降的

Nexperia 对 LFPAK56 / LFPAK88 的单管对照把这个平台效应量化得很清楚。在 100 mm × 100 mm1.6 mm FR4、70 μm 铜、自然对流边界下,单层顶铜时 LFPAK56 的最大允许功耗约为 5.05 W @ 20 °C3.2 W @ 80 °C,LFPAK88 约为 5.9 W @ 20 °C3.8 W @ 80 °C;升级为 4 layers + vias 后,这两组数字分别抬到约 9.6 / 6.3 W10.65 / 6.9 W。收益接近翻倍,不是因为“铜更多”这么简单,而是因为新增了 top copper -> vias -> inner/bottom copper 这条竖向热路。

真正的工程判断在于:铜面积和过孔阵列削减的是两类不同热阻。铜面积先降横向扩热热阻,过孔再降顶层到底层的竖向热阻;一旦过孔数量被 footprint 和 pitch 封顶,继续把顶层铜从中等尺寸拉到超大尺寸,收益就会重新退化成平台型下降。对 clip-bond 封装如 LFPAK88,这个判断还要再往前推进一步:source pins 下方的铜区不是纯电连接,而是第二热路的入口。单层板上若把顶层铜按大致 3/5 分给 drain、2/5 分给 source,40 mm × 40 mm 的分裂铜皮就能做出接近 60 mm × 60 mm 单块实心铜的热表现,说明“哪条热路有没有被接通”往往比“铜是不是铺成一整块”更关键。

2.8 为什么热点不能按“封装平均功率”或“器件靠得很近”来乐观估计

对双 die 封装,热网络远没有直觉里那样“天然均温”。LFPAK56D 半桥场景的结果表明,单有功 die 会比“两颗 die 平均分热”更热,因为主要热流仍然优先走向本侧 leadframe 和本侧铜皮,die-to-die 热耦合很弱。热校核因此必须回到最热点那颗 die 的真实导通占空与损耗波形,而不能把 package-average 功率直接除以二。

相邻独立封装也同样不能只看物理距离。两颗 LFPAK56D 即使只隔 2 mm,若中间仍被 FR4 和分离铜岛切断,在单层顶铜、自然对流边界下,热耦合也只会让结温整体多出几摄氏度,而不会形成你想象中的“共享大散热区”。因此,真正决定相邻器件能否共享散热的不是“摆得近不近”,而是铜皮是否连续、过孔和内层是否把两侧连成共同热路。

把这个结论再推回封装选型,就能得到一个更稳定的系统级判断:若设计已经热受限,两颗单管通常会比一颗双管多留出几摄氏度到十摄氏度的余量,因为总扩热面积更大;若热上仍有明显裕量,而面积、布局和贴装复杂度才是主矛盾,双管封装再用更少器件数换掉这几度差距,往往反而是更好的系统解。

2.9 为什么不能只盯着 datasheet

对板级 LFPAK 来说,封装内部热阻当然重要,但它通常不是总热阻的大头。LFPAK33 的 典型值只有约2 K/W,LFPAK88 甚至只有约 0.35 K/W;而在同类单板、自然对流边界下,mounting base 之后的 board-to-air路径却往往落在几十K/W` 的量级。这说明封装内部通常已经能把热很快送到焊盘和板子上,真正把温升拉高的,是热进入 PCB 之后如何继续扩散、穿层并最终交给空气。

因此,板级热优化的一阶杠杆通常不是继续纠结封装内部那不到几 K/W 的差别,而是先确认三件事:过孔和内层铜是否已经把竖向热路接通;顶层与 source / drain 两侧铜区是否真的连成了有效扩热面;局部风路、散热片或压块是否把 board-to-air 这段主瓶颈做短。若这几步没有做,仅凭 datasheet 的单个热阻参数做乐观判断,最后几乎都会把真实 算低。

3. 瞬态热阻抗 Zth(t) — 拆出 atomic 专题

脉冲功率(开关、PWM、电机驱动、电池脉冲)下结温由瞬态热阻抗 决定,它是结到外壳热网络的 RC ladder 在不同时间尺度的有效值。Foster vs Cauer 网络、单脉冲 vs 重复脉冲、非矩形脉冲等效——详见 topic-zth-transient-thermal

4. 电-热耦合与热失控

MOSFET 和 IGBT 的损耗依赖结温 —— 温度升高 → 损耗增大 → 温度进一步升高。这是一个正反馈回路,在某些条件下会导致热失控


4.1 耦合机制

电-热耦合形成正反馈环——温度高 → 升 → 损耗多 → 温度更高。这条环对 IGBT/MOSFET/SiC 都成立,但严重程度不同:Si 适中、IGBT/SiC 因正温系数自调节、GaN 弱(温度系数小)。

4.1.1 先看 MOSFET 的正反馈如何自我放大

MOSFET 的关键在于 会随温度上升而抬高,所以导通损耗会继续推高结温,形成最直观的电-热正反馈。

MOSFET 电-热耦合正反馈环

4.1.2 再看 IGBT 为什么在高温高频下更敏感

IGBT 不只是导通压降变动,更麻烦的是关断损耗 对结温高度敏感,因此同样的温升会换来更陡的损耗放大。

IGBT 电-热耦合 — Eoff 强 TC,高频更严重

IGBT 的电-热耦合比 MOSFET 严重得多,主要是因为 的 f() 从 25 °C 到 150 °C 翻倍。


4.2 稳定性分析:何时会热失控

热失控的数学条件:温度系数 × 散热不足 > 1。具体来说当 ,正反馈环放大, 飙升。设计余量必须按这条数学条件留。

损耗曲线 P(Tj) 与散热线 Pdiss(Tj) 的交点决定稳定性

稳态工作点 = P() 和 () 的交点(如上图)。设损耗 P 是 的函数,散热能力:

线性上升稳定性条件

也就是说,损耗随温度上升的速度不能快于散热能力随温度上升的速度。如果不满足,工作点无稳定性, 会持续上升到器件损坏。

实务判断

  • Si MOSFET: 的正温系数在 +0.5 %/°C 量级,只要 ,total 不太差(< 1 K/W),稳定工作点存在
  • SiC MOSFET:类似 Si, 正温系数小,稳定性好
  • IGBT: 正温系数大 → 高频工作时容易找不到稳定点
  • 任何器件在线性区(饱和区)都不稳定Spirito 效应,见 MOSFET 页)

4.3 并联器件的热失控

并联器件多了一种"热失控传染"机制——一颗温度漂高 → 其他颗共享分担 → 漂高那颗温度回升不下来 → 分担更多。关键防护是选正温度系数器件,温度高电流减少自动均流。

并联器件热失控传染:散热不对称那颗先死

多个器件并联时,电-热耦合变成更复杂的多器件问题:

MOSFET 并联(通常安全):

  • 正温系数 → 热的那个电阻大 → 承担更少电流 → 自动均流
  • 条件:散热和封装对称

IGBT 并联

  • NPT / FS 的 正温系数 → 也能自动均流
  • 但如果某个 IGBT 散热差(如 TIM 涂不均),它会先热,承担更多开关应力,可能先失效

最坏情况:散热不均 + 热失控

预防

  • 严格的热界面工艺(所有器件一致)
  • 每个器件用独立温度传感器监测
  • 降额使用(留 20~30% 热余量)

5. 导热界面材料 (TIM)

TIM 是 ,cs 的决定因素。选错 TIM 或涂覆工艺不当,可使 ,cs 偏差 ±50%,让精心计算的热设计方案当场失效。


5.1 TIM 四大类对比

TIM(Thermal Interface Material) 四大类按"热导率 × 寿命 × 工艺"三维分——硅脂便宜但易干涸、相变材料中等、烧结银昂贵但寿命长、铟金属薄片极优但贵。EV 主驱选烧结银是趋势

类型λ (W/m·K),cs (40 cm²)
导热膏3~8~0.05 K/W
导热垫3~6~0.1 K/W
相变材料3~8~0.04 K/W
烧结银150~200~0.001 K/W
焊接20~60~0.005 K/W

工艺与适用:导热膏可重工适合大多数场景;导热垫有绝缘性;相变材料加热自填充适合复杂表面;烧结银高温高压不可重工适合 SiC;焊接不可拆卸用于芯片到 DBC


5.2 烧结银——SiC 时代的革命

烧结银(Sintered Ag)的热导率 150~200 W/m·K,是普通导热膏的 25~50 倍。相同厚度下 ,cs 降低两个数量级。

工艺

  • 银膏涂覆(类似焊料)
  • 高温 (~250 °C) + 高压 (20 MPa) 烧结
  • 银颗粒在固态下互相扩散融合
  • 形成的银层无孔、无流动、长期稳定

优势

  • 极低
  • 无液态相,不会"漏"或"流动"
  • 长期热循环下不退化(比导热膏寿命长 10+ 倍)
  • ,max 耐受 250 °C+(适合 SiC 高温应用)

劣势

  • 不可重工 —— 一旦烧结,要拆下器件就得用专门工艺破坏烧结层
  • 设备贵、工艺复杂
  • 对装配精度要求高

应用:现代高端 SiC 模块(Infineon CoolSiC Easy、Rohm BSM180-series)几乎都用烧结银做芯片到 DBC 的连接。烧结银 + Si_3N_4 AMB 基板是当前 SiC 模块散热的"顶配组合"。


5.3 涂覆工艺的影响

散热膏涂覆的三个常见错误

  • 涂太厚:典型推荐 50~100 μm,但手工涂常常到 200~300 μm。每多 100 μm 会让 ,cs 增加约 0.05 K/W(对 40 cm² 而言),足以让结温涨 10 °C。
  • 涂不均:空气隙会让局部热阻暴涨,热点集中。
  • 重工后没清理干净:残留的老导热膏会和新的不兼容,形成劣质界面。

工程实务

  • 用自动涂覆设备(丝网印刷、点胶机)
  • 控制用量,让 TIM 均匀分布
  • 按数据手册规定的扭矩和顺序拧螺丝,让 TIM 均匀挤压
  • 定期保养维护(有些 TIM 会随温度循环退化)

5.4 一个定量对比

把同样的散热场景用四种 TIM 实测对比——下表给出实际 数值。差异可达 5-10×,对设计影响巨大。

TIM 方案λ,cs
导热膏(理想)5 W/m·K0.05 K/W
导热膏(不均)有效 20.125(+150%)
导热膏(太厚)5 W/m·K0.15 K/W
烧结银1750.0007 K/W

IGBT 模块底板与散热器接触面 40 cm²,在 P = 80 W 时:

  • 正常导热膏:ΔT_cs = 4 K
  • 不均导热膏:ΔT_cs = 10 K(高 6 K)
  • 太厚导热膏:ΔT_cs = 12 K
  • 烧结银:ΔT_cs < 0.1 K(几乎可忽略)

结论:在 SiC 高功率密度模块里,烧结银几乎把 ,cs 从热路里抹掉了,剩下的热阻几乎全部来自散热器本身。


6. 功率循环寿命——Coffin-Manson 模型

焊线疲劳、DBC 分层是 IGBT 和 SiC 模块的典型寿命终结机制。它们由温度摆幅 ΔT_j 驱动的热机械应力累积引起——不是"过温烧毁",而是"冷热循环老化"。


6.1 失效机制

TIM 失效两条主路径——干涸(硅脂中油分挥发)、分层(CTE 失配机械应力)。两者都让 飙升,温度跟着失控。寿命估算用 Arrhenius + 热循环组合。

ΔT_j 驱动的焊线/DBC 疲劳级联失效

关键变量ΔT_j(温度摆幅),不是 ,max(峰值温度)。ΔT_j 越大,寿命越短


6.2 Coffin-Manson 幂律

功率循环寿命的经典模型:

其中:

  • :寿命循环次数
  • ΔT_j:每次循环的温度摆幅
  • ,mean:平均结温(开尔文)
  • n:Coffin-Manson 指数,典型 5~6
  • A、:材料和工艺常数,由厂商加速寿命测试得到

核心启示:ΔT_j 的指数关系极其敏感

ΔT_j 减半 → 寿命 ×2^5 = 32 倍
ΔT_j × 1.5 → 寿命 / 7.6
ΔT_j × 2 → 寿命 / 32

每减少 10 K 的 ΔT_j,寿命增加 1.5~2 倍(按 n=5 计算)。


6.3 工程启示

降低 ΔT_j 的手段(按优先级):

  • 降低开关损耗(换 SiC、减小开关频率、优化 )→ 直接减小每个 ΔT_j
  • 增大散热能力(大散热器、液冷)→ 降低 ,avg 和 ΔT_j
  • 提高热容(在芯片和散热器之间加相变材料)→ 吸收瞬时峰值
  • 增大热时间常数(厚 DBC、大陶瓷)→ 平滑 ΔT_j
  • 减缓工况变化软启动、斜率限制)→ 不让 ΔT_j 突然变大

6.4 举例:EV 电机控制器的寿命分析

一个 EV 逆变器的工作循环(简化):

  • 加速: = 100 kW,30 秒,ΔT_j = 50 K
  • 巡航:P = 20 kW,30 分钟,ΔT_j = 15 K
  • 刹车: = 40 kW(再生制动),20 秒,ΔT_j = 20 K

主要损伤来自加速(ΔT_j = 50 K)。

用 Coffin-Manson 估计:

  • 假设 (ΔT_j = 50 K) = 100,000 次
  • 若 ΔT_j 可压到 30 K: = 100,000 × (50/30)^5 = 1.3 × (寿命 13 倍)
  • 若 ΔT_j 涨到 70 K: = 100,000 × (50/70)^5 = 18,500 次(寿命 1/5)

设计决策:在加速期间限制峰值功率,可以显著延长模块寿命。EV 里的"限功率加速"经常不是为了保护电池,而是为了保护逆变器模块的寿命


6.5 AQG324——汽车模块的寿命测试标准

ECPE AQG 324功率半导体模块的汽车级可靠性测试标准。包括:

  • Power Cycling (PC):功率循环测试,ΔT_j 大(60~90 K),快速循环(几秒一次)
  • Thermal Cycling (TC):环境温度循环,−40 ~ +125 °C,数千次
  • HTRB / HTGB:高温偏置测试(和 AEC-Q101 共享)
  • H3TRB:高温高湿
  • Vibration:振动
  • Mechanical Shock:机械冲击

通过 AQG 324 的模块可以在汽车应用中使用。Infineon CoolSiC Easy、Rohm BSM 系列、ST ACEPACK 都是 AQG 324 合格产品。


7. LDO 的热管理困境

LDO(低压差线性稳压器)是一个"热管理陷阱"——功率耗散 = () × ,在大电流大压差场合热量暴涨。


7.1 为什么 LDO 热管理经常失败

典型小封装 LDO(SOT-23、SOT-89没有散热片,全靠 PCB 铺铜散热:

  • SOT-23 的 ,ja ≈ 200~300 K/W
  • SOT-89 的 ,ja ≈ 80~150 K/W

一个反面教材

从 5 V 转 3.3 V,输出 500 mA:

P = (5 − 3.3) × 0.5 = 0.85 W
T_j = 25 + 0.85 × 250 = 237.5 °C   ← 远超 150 °C 绝对极限

三种解决方案

  • 换大封装(SOT-89,,ja ≈ 100 K/W): = 25 + 85 = 110 °C
  • DC-DC 降压变换器(效率 90%+,损耗 ≈ 0.09 W): = 25 + 0.09 × 250 = 47.5 °C ✓✓
  • 降低输出电流(用两个 LDO 分担)

工程启示LDO 只适合小电流或小压差场合。大电流 + 大压差的应用,优先考虑 DC-DC 而不是 LDO。这是系统架构层面的选择,不是热设计层面的。


8. 热管理失效模式图谱

热管理失效80% 都是"小问题积累成大问题"——TIM 干涸 / 焊层疲劳 / 散热风扇老化等都是缓变过程,Arrhenius 加速试验难复现。所以长期可靠性必须按 Coffin-Manson 数学外推,不能只靠 1000h 试验。

失效模式根因缓解措施
稳态 超限损耗/ 估算偏乐观温度裕量; 高温迭代
脉冲 超限用稳态估瞬态+瞬态仿真
电-热热失控正温系数+散热不足散热冗余; 限功率
并联不均流过热散热不对称对称布局; 独立监测
TIM 涂覆不均工艺控制不良自动涂覆; 扭矩控制
TIM 长期退化硅油分离选相变材料; 定期换
焊线疲劳大 ΔT_j 累积应力限功率; Cu 夹合封装
DBC 陶瓷分层CTE 失配Si_3N_4 AMB 替代
散热器堵塞灰尘/风扇失效定期清洁; 风扇冗余
冷却液流量下降泵失效/泄漏流量监测; 冗余泵
LDO 热失控大电流大压差换 DC-DC; 大封装
Spirito 热失控 负温系+大 FBSOA; 限流

所有热管理的"坏事"汇总如上表(FMEA 速查)。


9. 热设计的九步流程

把本页所有内容整理成项目实战 9 步流程——从需求收集到 DV 验证。每一步都对应前面某个章节的工具/分析方法。

热设计九步流程:1 主步骤拆 5 子任务

一个完整功率模块的热设计标准步骤如上图。


10. 数据手册热模型与板级签收怎样连起来

这一节的目标不是再堆一组热参数,而是把数据手册里的 、板级热路和 continuous current rating 放回同一条判断链。真正容易出错的地方通常不是公式本身,而是把短脉冲、长期平均功耗、封装内部热路和 board-to-air 外部热路混成一个口径,结果在仿真和样机上同时过于乐观。

10.1 为什么数据手册会同时给出 和 repetitive-pulse 曲线

同一颗器件之所以同时给出这三类曲线,是因为它们回答的不是同一个时间窗口。回答短时功率事件在当下看到的等效热阻,回答时间足够长以后总热路的稳态极限,而 repetitive-pulse 曲线回答固定占空比重复加热时热底座会被抬高到哪里。只要把这三者混用,就会一边高估短脉冲能力,一边又低估长期热平台。

  • 短脉冲首先受局部热容控制,所以 在早期明显低于稳态
  • 当脉冲持续到约 1 s 量级并逐步接近热平衡时, 才会向稳态 收敛。
  • repetitive-pulse 曲线不是新的热阻定义,而是在回答残余热会把下一次脉冲的起跑线抬高多少。

因此,单次浪涌、短路和开关尖峰应先看 ;连续导通、低频高占空或长期 mission profile 才应该回到稳态 与平均功耗。

10.2 厂商 RC 热模型怎样接进 SPICE,才不会把端口用错

PDF 上那条 曲线本身并不能直接回答任意功率波形下的 T_j(t),因为一旦热源不再是单个矩形脉冲,问题本质上就变成卷积。厂商给 Foster 或 Cauer RC 网表的真正价值,是把原本只能读图取点的热曲线,变成可以和真实功率波形、真实 PCB 与真实散热器一起联算的 transient 网络。

先要固定的不是某一级 R_iC_i,而是热端口的物理意义。结温端、mounting-base 或外部热路接口端,以及 ambient 参考端必须先分清;若只是复现器件自身的 ,可以先把外部接口端和 ambient 绑到同一个温度参考上;若要继续外挂 PCB、TIM、散热片或冷板,则外部热网络必须从 mounting-base 端继续串下去,再回到同一个 ambient。把外部接口直接短回 ambient 后又额外并一条外部热路,等于人为创造了一条不存在的散热捷径,结温会被系统性低估。

最稳的第一轮校验应固定成 1 W 单脉冲。把 mounting-base 参考先设为 0 °C,在热网络输入 1 W 脉冲,直接检查 T_j(t) 是否重建数据手册的 ;这一步若对不上,优先怀疑端口定义、边界条件和单位口径,而不是先怀疑外部热路。

热源进入 RC 模型通常只有两条干净路径。若台架或系统模型已经给出了任务谱,就用 PWL/CSV 直接输入 measured power trace;若功率尚未预先给定,就让电路自己生成热源,先用 描述主功率通道,在高频或大栅电荷场景再把门极损耗补成 。这一阶段仍只是单向电热链;只有当 T_j 继续回灌到 、阈值电压或开关时间等温度相关参数时,模型才真正进入闭环电热耦合。

10.3 为什么板级 MOSFET 的连续功率常先被 PCB 与空气卡住

对 LFPAK 这类板级 MOSFET,封装内部的 junction -> mounting-base 往往只占总热路的一小段,真正的大头通常出现在 mounting-base -> PCB -> ambient。也因此,很多设计并不是先被硅结 175 °C 的绝对上限卡住,而是先耗尽了 FR4、焊点和局部空气层的温升预算。

  • 传导先决定热能否离开热点。铜和硅的导热能力很强,真正常见的瓶颈反而是空气缝隙、界面不贴合和过长的热路。
  • 对流决定热能否真正离板。自然空气的 board-to-air 换热能力很弱,所以板级连续功率常先被外部空气层卡住。
  • 辐射可以提供辅助,但对抛光铜、抛光铝这类低发射率表面通常不能承担主散热责任。

这也是为什么同一颗 LFPAK,在参考 1 英寸方铜板上和在 minimum footprint 上,R_{th(j-a)} 可能从约 50 K/W 变到约 125 K/W。若只盯着数据手册的 R_{th(j-mb)} 或 headline I_D,就会系统性低估板级边界的重要性。

10.4 为什么加铜、加过孔和拉开间距都会先有效后平台

顶层加铜首先降低的是热点附近的 spreading resistance,所以在小铜面区间,T_j 往往会随着铜面积扩大而明显下降;但当热已经被摊到足够大的表面后,新的主瓶颈就会转移到 FR4 的竖向导热和 board-to-air 换热,于是继续铺铜只会越来越接近平台,而不会一直按原斜率降温。

同样的因果链也适用于过孔、封装间距和双 die 结构。四层板加热过孔的本质,是主动打开竖向热路;但过孔数量会先被 footprint 和 pitch 封顶,之后新增收益主要来自更大的换热面积,而不再来自更多垂直导热通道。相邻器件之间的互热也不是由名义 gap 单独决定,而是由两颗热点之间剩余的有效扩热距离决定;对小封装 LFPAK33,一旦有效铜宽压到约 20 mm 以下,互热就可能从几摄氏度放大到数十摄氏度量级。

双 die 封装还要再多加一条判断:两颗 die 并不会天然均温。各自 junction -> mounting-base 的主热路远强于 die -> die 横向耦合,所以热签收必须盯住最热点那颗 die 的真实占空和损耗波形,而不能拿 package-average 功率乐观平均。对高电流 LFPAK,source 铜皮还必须被当成第二热路看待;若 source 侧既承载大电流又没有足够铜量,它的 自发热会先把外部边界温度抬高,再反过来恶化 die 的散热条件。

10.5 连续 I_DI_SR_{th(j-a)} 应怎样读

continuous current rating 本质上不是引脚几何能过多少安培,而是在固定 、测试板和损耗模型后,由热预算倒出来的结果。对连续导通主导的场景,先应该算允许的稳态耗散功率,再用热态器件参数反推允许电流:

若主要走 body diode,则同一份热预算要改用 去解释 I_S,而不是直接沿用 I_D 的沟道导通口径。这里的关键不是公式,而是参数温度:连续额定值必须回到热态 或热态 ,不能偷用 25 °C 冷态参数。

数据手册发布的连续 I_DI_S 往往还会低于按理想热模型倒出来的理论值,因为厂商还同时把封装互连、测试板、资格认证边界和 source 铜皮电流密度一起签进去了。同样,R_{th(j-a)} 不是脱离 PCB 的封装常数,而是测试板、铜厚、布局和空气边界共同决定的应用参数; 对 down-side cooled SMD 也只能作为稳态趋势量或 A/B 对比量,不能替代微秒到毫秒窗口的峰值 T_j 估算。真正做 worst-case sign-off 时,应优先采用 R_{th(j-mb),max},而不是按 typ 值乐观设计。

10.6 面向板级签收的最小检查顺序

把数据手册、热模型和板级布局放回同一条流程后,热签收也应按顺序推进,而不是先抓一个 headline 数字就下结论。顺序一旦打乱,后面的结论通常只会更乐观,不会更保守。

  1. 先按时间窗口分类热事件,区分该看 还是稳态
  2. 再固定边界条件,明确当前讨论的是 junction -> mounting-base 还是 junction -> ambient,以及 T_a 和外部热路的参考点。
  3. 先用 1 W 单脉冲把厂商 RC 网表做 sanity check,再上复杂 mission profile。
  4. 再决定热源输入口径,是 measured PWL/CSV 功率轨迹,还是由电路实时生成的
  5. 随后检查 PCB 热路是否闭环,包括 top copper、热过孔、source/drain 铜量分配、器件间距、风路以及邻近热源。
  6. 最后才把结果翻译成 continuous current、结温 margin 与板级可靠性 margin,并同时校核硅结、FR4、焊点和邻近器件,而不是只盯住 175 °C 这一条硅结上限。

当这六步都闭环以后,数据手册里的 R_{th(j-mb)}R_{th(j-a)} 和 continuous current rating 才会从彼此孤立的数字,变成可以直接落到板级 sign-off 的同一套工程口径。

核心要点

  • 热管理的欧姆定律 = + P × ΣR_th;,jc 由封装决定不能改,,cs 和 ,sa 是设计空间。
  • 描述瞬态响应:短脉冲下系统"看到"的热阻远小于稳态值,允许短时超功率工作。
  • Foster 网络是数据手册标准,但节点无物理意义Cauer 网络节点对应实际物理层,可截断分析,但需要从 Foster 转换。
  • 电-热耦合形成正反馈:IGBT 的 从 25 °C 到 150 °C 翻倍,必须迭代计算损耗 → → 损耗。
  • 热失控稳定性条件:dP/dT < 1/;不满足则工作点不稳定, 持续上升到炸管。
  • TIM 四大类:导热膏(大多数)、相变材料(均匀)、烧结银(高性能 SiC,+ 25~50 倍热导率)、焊接(芯片级)。
  • 烧结银是 SiC 模块热管理的关键——把 ,cs 从热路里几乎消除。
  • Coffin-Manson 寿命 (n ≈ 5~6):ΔT_j 减半,寿命 ×32;这是为什么限功率加速能大幅延长模块寿命。
  • AQG 324 是汽车功率模块的可靠性测试标准,覆盖 PC、TC、HTRB、H3TRB、振动等。
  • LDO 热陷阱:大电流大压差场合热失控必然发生,优先用 DC-DC 或大封装。
  • 热设计九步流程:工作点 → 损耗估算 → 降额 → 预算 → 散热器 → 电-热迭代 → 瞬态校验 → 寿命校验。

延伸阅读

基础

  • Basic Thermal Concepts for Electronics(行业白皮书)
  • Thermal Modeling(综合参考)
  • NXP/Freescale — Thermal Analysis of Semiconductor Systems(34 页 whitepaper,JEDEC test methods / 经验分析 / 建模工具综述)

瞬态分析

  • Infineon — Dynamic Thermal Behavior of MOSFETs(AN
  • Tj from Transient Rth Data(onsemi AN)

损耗计算

  • Tutorial: IGBT and MOSFET Loss Calculation in the Thermal Module
  • ST — DM00241971: Thermal Effects and Junction Temperature Evaluation of Power MOSFETs

LDO

  • Linear Regulator Heat Calculation Application Notes

寿命建模

  • A MOSFET SPICE Model with Integrated Electro-Thermal Averaged Modeling, Aging and Lifetime Estimation
  • AQG 324(ECPE Automotive Qualification Guideline)

TIM

  • 各大 TIM 厂商资料(Bergquist、Henkel、Indium、Heraeus、NAMICS)

延伸阅读与新动态

由 feed.py 每日自动追加;来源见各条链接。

  • 2026-04-27 DRV8163S-Q1EVM: DRV8163-Q1thermal Impedance — 要点:DRV8163S‑Q1EVM 评估板针对 DRV8163‑Q1 MOSFET 驱动芯片提供了详细的热阻测量方法,揭示了芯片在不同散热条件下的结温上升规律,强调了合理的 PCB 铺铜与散热片布局对降低热阻的关键作用,并给出实际测得的 θJA 与 θJC 数据以指导设计师进行热管理。
    关键数据:θJC(芯片至结)≈ 2.5 °C/W | θJA(结…

Engineering Objects

引用此页的结构化 Engineeri…

引用此页的结构化 Engineering Object(v2.0 Copilot 自动生成,不要手动编辑此段)。

  • component · component_tim — Thermal Interface Material (TIM)
  • mechanism · mechanism_active_cooling_control — Active Cooling Loop Control
  • mitigation · mitigation_thermal_derating — Thermal Derating

Cross-references