热安全(Thermal Safety)

功能安全L6别名 Thermal Safety · 热安全 · Thermal Runaway · Derating · BMS Thermal · T_j 保护 · 功率降额

本质 热安全回答两个紧邻但独立的问题:功率器件的 不超限SiC 225 ℃ / IGBT 175 ℃ / 模块 125 ℃)与电池不能进入热失控(单体 T > 60 ℃ / 电压骤降 / 放氧连锁)。前者靠多点 NTC + 热模型冗余 + 功率降额 + STO;后者靠 BMS 单体监控 + 液冷隔离 + Pyro + 顶盖泄压。两条路径合流在 ISO 26262 的 Safety Goal 里,典型 ASIL C/D。失败模式是"时间炸弹"——Coffin–Manson 决定模块寿命,热失控决定整车生死。

学习目标

读完本页后,你应该能够:

  • 写出功率器件和电池两类热安全 Safety Goal 及其法规来源(UN GTR 20 / ISO 6469-1 / SAE J2464 / UL 2580)。
  • 区分 Spirito 效应、Thermal Runaway(TR)、Latch-up 三类热性失效的物理起点。
  • 画出"NTC + 热模型"双通道温度采样链路,解释为什么单靠 NTC 热惯性不够。
  • 用 Arrhenius / Coffin–Manson 把 / ΔT_j 折算到寿命(, n ≈ 5)。
  • 设计 → 输出功率的降额曲线(Derating Curve)。
  • 列出 BMS 热安全的 5 层防护(监测 / 液冷 / 单体隔离 / Pyro / 顶盖泄压)。
  • 给出 FMEDA 里温度 SM 的典型 DC 估值。

1. Safety Goal 与法规

1.1 两类 Safety Goal

热安全Safety Goal 分两类——器件层 SG(防止 IGBT/SiC 过温炸管)和电池层 SG(防止 cell 热失控)。两类对应不同 ASIL 等级和不同保护机制。

#Safety Goal主体ASILFTTI
SG-T-1功率器件结温 不得超过 ,max(SiC 200/225 ℃;IGBT 175 ℃)逆变器模块D10–50 ms
SG-T-2电池单体温度不得超过 ,max(典型 LFP 70 ℃ / NMC 60 ℃)电池C秒级
SG-T-3电池单体出现热失控先兆时,5 min 内必须发出警告并隔离整车C/D分钟
SG-T-4MCU / SBC 结温异常时必须进入安全态电子控制单元C~100 ms

1.2 关键法规

热安全由全球多个法规并行管辖——UN GTR 20 国际、ECE R100 欧洲、GB 38031 中国、ISO 6469 行业标准。不同市场要按当地法规过认证——欧洲卖必过 ECE R100,中国卖必过 GB 38031。

  • UN GTR 20(电动汽车安全全球技术规范)Part II:电池热传播5 min 内不得威胁乘员
  • ISO 6469-1 EV 安全:热事件管理、警告与逃生
  • SAE J2464 / J2929:电池滥用测试(过充、短路、针刺、挤压、热冲击)
  • UL 2580:北美电池安全强制试验
  • GB 38031-2020(中国 EV 电池):单体热失控不起火、不爆炸的 5 min 提示窗
  • ISO 26262 Part 5 §9:硬件度量(SPFM / LFM / PMHF)

2. 功率器件热失效机制

2.1 三条物理路径

功率器件热毁有三条独立物理路径——Spirito(MOSFET 线性区局部过热)、Thermal Runaway(整体热失控)、Latch-up(IGBT 寄生 SCR)。三者机制不同,要求不同的预防措施。

机制器件物理起点后果
Spirito 效应SiC / Si MOSFET 饱和区饱和区负温系 + 芯片内热点自放大线性应用 / 短路时热失控烧毁
Thermal Runaway(IGBT/SiC)IGBT / SiC MOSFET 升高 → 升高(SiC)或 升高(IGBT)→ P 升高 → 再升正反馈,秒级烧毁
Latch-upIGBT 寄生晶闸管大电流 + dV/dt 导致 PNPN 自锁失去栅极控制,直至烧毁

2.2 Spirito 与短路耐受时间(SCWT)

SiC MOSFET 在饱和区(短路瞬间)温度系数为负——局部热点越热,I 越大,功耗越高,温度更高。典型 SCWT 仅 2–5 μs

  • Spirito 失效必须由驱动 IC 在 SCWT 内检测并关断(DESAT 链路)
  • SCWT 之外 → 芯片局部融化 → 永久损坏

IGBT 的 SCWT 更长(8–10 μs),因为它有双极性注入且 温度系数正;但拖尾电流带来的能量仍可能触发 TR。

2.3 Coffin–Manson 与 ΔT_j 寿命

功率循环寿命(键合线 + 焊料疲劳):

ΔT_j相对寿命(n=5)
20 ℃1024×
40 ℃32×
60 ℃
80 ℃1× (基准)
100 ℃0.33×

工程含义降 ΔT_j 10 ℃ 寿命 ~1.7×;降 ΔT_j 10 ℃ 比做单颗器件更贵的热管理值得。

详见 热管理功率模块封装


3. 温度采样链路

温度采样信号链多环节都可能失效——传感器、信号调理、ADC、软件门限、状态机。任一环失效都让整个保护链瘫痪,所以 ASIL D 要求两条独立链冗余。

Mermaid diagram

3.1 NTC:准确但慢

集成在模块内部的 NTC(如 Infineon HybridPACK Drive G2 的 NTC_on_DBC):

  • 精度:典型 ±3 ℃
  • 热惯性:响应时间 3–5 s(从 die 到 NTC 有陶瓷基板 + 铜 + solder 热阻
  • 单次短路(μs 级)→ 完全来不及反应

3.2 热模型:快但有漂移

实时估算结温

  • 输入:实时相电流、、开关频率、NTC 读数
  • 输出:瞬态结温估计,响应 μs 级
  • 优点:捕捉瞬态热冲击(短路 / 过流)
  • 缺点:模型参数( 曲线)随老化漂移;系统性失效

3.3 双通道对比

工程实践:NTC 和热模型两路都跑;差异 > 10 ℃ 持续 > 1 s 视为某一路失效 → 进入降额或 STO。这是 ASIL C/D 温度 SM 的标准做法


4. 功率降额(Derating)

4.1 降额曲线设计

降额曲线PEU 在高温环境主动降功率——温度过 80°C 开始降扭矩,过 105°C 进 limp mode,过 120°C 直接 STO。这条曲线避免了"突然停机"的极端体验,让用户能开到安全位置。

Mermaid diagram
区间允许功率动作
< 120 ℃100 %正常
120 – 150 ℃100 → 50 % 线性降扭矩限制 + 仪表提示
150 – 175 ℃50 → 0 % 线性降乌龟模式
> 175 ℃0STO + 故障码 + 强制冷却

参数设定原则

  • 上限留 10 ℃ 裕度,max 175 ℃ → 降额上限 165 ℃)避免生产离散
  • 降额起点考虑热模型误差(5–10 ℃)
  • 降额曲线单调——避免抖动

4.2 SiC 的特殊考虑

SiC 比 IGBT 耐温高 25-50°C(200°C+ vs 175°C),理论上可以晚些降额。但实际上 SiC 模块焊层和封装才是温度上限——die 能扛 200°C,但封装可能 150°C 就开始疲劳。

  • SiC 在 175 ℃ 以上仍可工作(200–225 ℃ 材料极限),但 Ag 烧结焊层在 200+ ℃ 长期工作加速疲劳
  • 正温系:SiC MOSFET 在 25–150 ℃ 区间约 +2×;降额时要考虑 I²R 自强化
  • 模块 SCWT 仅 2–3 μs,降额无法救回短路 → DESAT 仍是唯一手段

5. 电池热失控(Thermal Runaway, TR)

5.1 触发阈值

电池热失控触发温度按化学体系不同——LFP 70°C 起、NMC 60°C 起、LCO 55°C 起。新人最常的错是用 NMC 阈值套 LFP 系统,导致触发过早(误报)或过晚(漏报)。

电池体系触发温度症状
NMC(三元锂)~140–150 ℃(液相分解)放氧;链式反应
LFP(磷酸铁锂)~270 ℃相对安全;但 ΔT/Δt 仍危险
NCA~130 ℃最激烈
LMFP(磷酸锰铁锂)~220 ℃中等

两条前兆信号

  • 温升速率 ΔT/Δt > 1 °C/s — TR 进行中
  • 电压骤降 > 10 mV/s 持续 10 s+ — 内部短路
  • 气体逸出 / / 电解液蒸汽)— 压力传感 / 烟感触发

5.2 5 层防护架构

电池 TR(Thermal Runaway) 防护用 5 层纵深防御——单体绝热 → cell 间隔热 → 模组分隔 → 包级泄压 → 整车隔离驾驶舱。任一层都不能保证 100% 防护,5 层叠加才能满足 GB 38031 的"5 分钟驾驶员逃生"要求。

Mermaid diagram
  1. BMS 单体监测:每串电压 + 温度;典型 1 ms 采样;异常 → 断主接触器
  2. 液冷回路:维持单体 ΔT < 3 ℃,TR 初期带走热量延缓传播
  3. 单体间隔热:气凝胶 / 云母片隔开单体;至少保证 5 min 不传播(UN GTR 20 / GB 38031)
  4. Pyro Fuse:BMS 检测到严重短路时触发,物理切断
  5. 顶盖泄压阀 + 灭火通道:TR 不可阻挡时让气体按设计方向排出,不进乘员舱

5.3 CATL / BYD / 特斯拉的创新方案

国内外电池巨头TR 防护各有创新——CATL 麒麟用 cell-to-pack 集成水冷板、BYD 刀片用长条形 LFP 自身耐 TR、特斯拉 4680 用结构化电池减少接触点。下面分别说明。

  • CATL 麒麟:cell-to-pack;水冷板夹在单体之间;TR 直接排到底部
  • BYD 刀片电池:LFP 长扁单体 + 顶部防爆阀;冲击 / 穿刺测试极端严苛
  • Tesla 4680:极耳无铜引线降低阻抗;dry electrode 工艺
  • CATL NP 2.0:5 min 不起火 + 模组隔热 + 智能诊断

6. 冷却系统的安全考虑

6.1 冷却失效也是热安全问题

冷却系统失效自身就是热安全 SG-T 的一部分——冷却液漏 / 水泵停 / 风扇坏都会让 PEU 在几分钟内过热。所以冷却必须有 ASIL C 级监测,不能当作"辅助系统"忽视。

失效后果检测
泵卡死流量 = 0 → 结温快速飙升流量传感器 + 压差监测
冷却液泄漏流量下降 + 绝缘风险(导电冷却液)液位 / 温升速率
冷板堵塞局部 ΔT 大模块内多点 NTC 交叉对比
风扇失效(散热器侧)冷却液温度升T_coolant_in 监控
管路干冻北方冬季启动加热先启动 / 预热策略

6.2 ASIL C 级冷却监测

ASIL C 级冷却监测多通过冗余实现——双流量传感器、流量+压差交叉验证、温度+流量联合诊断。任一组合都比单传感器可靠。

  • 流量传感器 + 冗余:双传感器或流量 + 压差交叉
  • 冷却液温度 同时监测,ΔT 过大提示换热不均
  • 绝缘冷却液选型:50/50 乙二醇水溶液导电 → 注意接触 HV 必须隔离;或改用 dielectric 冷却液(PAO 合成油 / Novec)

7. FMEDA 视角

7.1 温度 SM 的 DC 估值

温度 SM(Safety Mechanism) 诊断覆盖率因实施方式而异——单传感器+软件门限 60%、双传感器交叉验证 95%、独立硬件比较器 99%+。ASIL D 项目要求 SPFM ≥ 99% 推动用 99%+ 的方案。

功能SM典型 DC
模块结温NTC + 热模型双通道对比99 %
MCU 结温片内温度传感器 + 周期自检95 %
电池单体 T每串 NTC + 双通道 ADC99 %
冷却流量双流量传感器90 %
冷却液泄漏液位 + 导电度 + 温升速率85 %
TR 先兆ΔV/Δt + ΔT/Δt + 气体传感95 %

7.2 与扭矩 / HV 安全的耦合

热安全不是孤立 SG——与扭矩安全和 HV 安全高度耦合。 高触发降额会改变 扭矩安全 的 SG;过温 STO 触发会激活 HV 安全 的 active discharge。

  • 高 → 降额或 STO — 耦合到 扭矩安全
  • 电池 TR → 断 HV 主接触器 + Pyro — 耦合到 HV 安全
  • 冷却液泄漏 + HV — 同时是热 + HV 绝缘问题;IMD 会先检出

8. 设计陷阱

热安全设计5 个常见陷阱都对应"看似稳态没问题但工况切换出事"——降额起点选错、传感器位置不对、TR 阈值用错电池体系等。这些都是 DV 阶段不易暴露,要靠 PFMEA 评审挖掘。

陷阱描述解决
只信 NTC热惯性 3–5 s,抓不到 μs 级短路加热模型双通道
热模型参数硬编码老化 / 批次漂移 → 模型偏差在线校准 + NTC 作为锚点
降额曲线不单调T 在阈值附近抖动 → 扭矩毛刺加滞后带 + 时间常数
冷却泵监控缺失流量 = 0 但系统继续输出 → 秒级炸管双流量传感器 + ΔT 交叉
TR 检测阈值过高触发时已爆炸ΔV/Δt 和 ΔT/Δt 叠加 + 气体
热管理只顾器件忽略模块寿命 在 150 ℃ 长期工作,ΔT_j 循环剧烈 → 键合疲劳提前Coffin–Manson 入手优化工况
SiC 用 IGBT 的降额策略SiC 可到 200 ℃,但焊层 175 ℃ 就开始老化降额曲线随封装调整

9. 标准速查

把热安全相关的所有标准索引一张表——按全球 / 区域 / 行业三类组织,新人项目阶段按 OEM SOR 反查这张表确保不漏项。

标准范围关键条款
UN GTR 20 Part II全球 EV 电池热传播 5 min 不威胁乘员
ISO 6469-1:2021EV 热事件警告、逃生、热事件管理
SAE J2464 / J2929北美电池滥用短路、针刺、挤压、热冲击
UL 2580北美 EV 电池机械 / 电气 / 热滥用
GB 38031-2020中国 EV 电池5 min 不起火 / 不爆炸
ISO 26262 Part 3-5功能安全HARA / ASIL / FMEDA
IEC 62133-2便携锂电基础电池热测试
AIS-156(印度)EV 电池区域版

核心要点

  • 热安全两条路径:功率器件 ,max 和电池不 TR;两个 Safety Goal 合流。
  • 三类器件热失效:Spirito(MOSFET 饱和区热点自放大,SCWT 2–5 μs)/ Thermal Runaway(正反馈秒级烧毁)/ Latch-up(IGBT 寄生晶闸管)。
  • 降 ΔT_j 10 ℃ 键合寿命 ~1.7×(Coffin–Manson n≈5)——热管理优化换寿命最经济。
  • NTC 3–5 s 热惯性 → 必须加热模型双通道;两路差 > 10 ℃ 持续 > 1 s 视为 SM 失效。
  • 功率降额曲线:< 120 ℃ 100 %;120–150 ℃ 线性降;150–175 ℃ 快降;> 175 ℃ STO。留 10 ℃ 裕度。
  • 电池 TR 5 层防护:BMS 监测 / 液冷均温 / 气凝胶隔热 / Pyro 切断 / 顶盖泄压;UN GTR 20 / GB 38031 要求 5 min 不威胁乘员。
  • 冷却系统失效是系统性热安全风险:流量 / 温差 / 液位 / 导电度都得监控。
  • FMEDA DC 典型:NTC+热模型 99 %、电池单体 99 %、TR 先兆 95 %、冷却液泄漏 85 %。
  • 热 × HV × 扭矩三类安全耦合:TR → HV Pyro; 高 → STO;冷却泄漏同时触发 IMD。
  • SiC 不能直接套 IGBT 降额:SiC 材料耐 225 ℃,但 Ag 烧结焊层 175+ ℃ 就开始老化,降额曲线按封装定。

Cross-references