热安全(Thermal Safety)
本质 热安全回答两个紧邻但独立的问题:功率器件的 不超限(SiC 225 ℃ / IGBT 175 ℃ / 模块 125 ℃)与电池不能进入热失控(单体 T > 60 ℃ / 电压骤降 / 放氧连锁)。前者靠多点 NTC + 热模型冗余 + 功率降额 + STO;后者靠 BMS 单体监控 + 液冷隔离 + Pyro + 顶盖泄压。两条路径合流在 ISO 26262 的 Safety Goal 里,典型 ASIL C/D。失败模式是"时间炸弹"——Coffin–Manson 决定模块寿命,热失控决定整车生死。
学习目标
读完本页后,你应该能够:
- 写出功率器件和电池两类热安全 Safety Goal 及其法规来源(UN GTR 20 / ISO 6469-1 / SAE J2464 / UL 2580)。
- 区分 Spirito 效应、Thermal Runaway(TR)、Latch-up 三类热性失效的物理起点。
- 画出"NTC + 热模型"双通道温度采样链路,解释为什么单靠 NTC 热惯性不够。
- 用 Arrhenius / Coffin–Manson 把 / ΔT_j 折算到寿命(, n ≈ 5)。
- 设计 → 输出功率的降额曲线(Derating Curve)。
- 列出 BMS 热安全的 5 层防护(监测 / 液冷 / 单体隔离 / Pyro / 顶盖泄压)。
- 给出 FMEDA 里温度 SM 的典型 DC 估值。
1. Safety Goal 与法规
1.1 两类 Safety Goal
热安全Safety Goal 分两类——器件层 SG(防止 IGBT/SiC 过温炸管)和电池层 SG(防止 cell 热失控)。两类对应不同 ASIL 等级和不同保护机制。
| # | Safety Goal | 主体 | ASIL | FTTI |
|---|---|---|---|---|
| SG-T-1 | 功率器件结温 不得超过 ,max(SiC 200/225 ℃;IGBT 175 ℃) | 逆变器模块 | D | 10–50 ms |
| SG-T-2 | 电池单体温度不得超过 ,max(典型 LFP 70 ℃ / NMC 60 ℃) | 电池 | C | 秒级 |
| SG-T-3 | 电池单体出现热失控先兆时,5 min 内必须发出警告并隔离 | 整车 | C/D | 分钟 |
| SG-T-4 | MCU / SBC 结温异常时必须进入安全态 | 电子控制单元 | C | ~100 ms |
1.2 关键法规
热安全由全球多个法规并行管辖——UN GTR 20 国际、ECE R100 欧洲、GB 38031 中国、ISO 6469 行业标准。不同市场要按当地法规过认证——欧洲卖必过 ECE R100,中国卖必过 GB 38031。
- UN GTR 20(电动汽车安全全球技术规范)Part II:电池热传播5 min 内不得威胁乘员
- ISO 6469-1 EV 安全:热事件管理、警告与逃生
- SAE J2464 / J2929:电池滥用测试(过充、短路、针刺、挤压、热冲击)
- UL 2580:北美电池安全强制试验
- GB 38031-2020(中国 EV 电池):单体热失控不起火、不爆炸的 5 min 提示窗
- ISO 26262 Part 5 §9:硬件度量(SPFM / LFM / PMHF)
2. 功率器件热失效机制
2.1 三条物理路径
功率器件热毁有三条独立物理路径——Spirito(MOSFET 线性区局部过热)、Thermal Runaway(整体热失控)、Latch-up(IGBT 寄生 SCR)。三者机制不同,要求不同的预防措施。
| 机制 | 器件 | 物理起点 | 后果 |
|---|---|---|---|
| Spirito 效应 | SiC / Si MOSFET 饱和区 | 饱和区负温系 + 芯片内热点自放大 | 线性应用 / 短路时热失控烧毁 |
| Thermal Runaway(IGBT/SiC) | IGBT / SiC MOSFET | 升高 → 升高(SiC)或 升高(IGBT)→ P 升高 → 再升 | 正反馈,秒级烧毁 |
| Latch-up | IGBT 寄生晶闸管 | 大电流 + dV/dt 导致 PNPN 自锁 | 失去栅极控制,直至烧毁 |
2.2 Spirito 与短路耐受时间(SCWT)
SiC MOSFET 在饱和区(短路瞬间)温度系数为负——局部热点越热,I 越大,功耗越高,温度更高。典型 SCWT 仅 2–5 μs:
- Spirito 失效必须由驱动 IC 在 SCWT 内检测并关断(DESAT 链路)
- SCWT 之外 → 芯片局部融化 → 永久损坏
IGBT 的 SCWT 更长(8–10 μs),因为它有双极性注入且 温度系数正;但拖尾电流带来的能量仍可能触发 TR。
2.3 Coffin–Manson 与 ΔT_j 寿命
功率循环寿命(键合线 + 焊料疲劳):
| ΔT_j | 相对寿命(n=5) |
|---|---|
| 20 ℃ | 1024× |
| 40 ℃ | 32× |
| 60 ℃ | 4× |
| 80 ℃ | 1× (基准) |
| 100 ℃ | 0.33× |
工程含义:降 ΔT_j 10 ℃ 寿命 ~1.7×;降 ΔT_j 10 ℃ 比做单颗器件更贵的热管理值得。
3. 温度采样链路
温度采样信号链多环节都可能失效——传感器、信号调理、ADC、软件门限、状态机。任一环失效都让整个保护链瘫痪,所以 ASIL D 要求两条独立链冗余。
3.1 NTC:准确但慢
集成在模块内部的 NTC(如 Infineon HybridPACK Drive G2 的 NTC_on_DBC):
- 精度:典型 ±3 ℃
- 热惯性:响应时间 3–5 s(从 die 到 NTC 有陶瓷基板 + 铜 + solder 热阻)
- 单次短路(μs 级)→ 完全来不及反应
3.2 热模型:快但有漂移
实时估算结温:
- 输入:实时相电流、、开关频率、NTC 读数
- 输出:瞬态结温估计,响应 μs 级
- 优点:捕捉瞬态热冲击(短路 / 过流)
- 缺点:模型参数(、 曲线)随老化漂移;系统性失效
3.3 双通道对比
工程实践:NTC 和热模型两路都跑;差异 > 10 ℃ 持续 > 1 s 视为某一路失效 → 进入降额或 STO。这是 ASIL C/D 温度 SM 的标准做法。
4. 功率降额(Derating)
4.1 降额曲线设计
降额曲线让 PEU 在高温环境主动降功率——温度过 80°C 开始降扭矩,过 105°C 进 limp mode,过 120°C 直接 STO。这条曲线避免了"突然停机"的极端体验,让用户能开到安全位置。
| 区间 | 允许功率 | 动作 |
|---|---|---|
| < 120 ℃ | 100 % | 正常 |
| 120 – 150 ℃ | 100 → 50 % 线性降 | 扭矩限制 + 仪表提示 |
| 150 – 175 ℃ | 50 → 0 % 线性降 | 乌龟模式 |
| > 175 ℃ | 0 | STO + 故障码 + 强制冷却 |
参数设定原则:
- 上限留 10 ℃ 裕度(,max 175 ℃ → 降额上限 165 ℃)避免生产离散
- 降额起点考虑热模型误差(5–10 ℃)
- 降额曲线单调——避免抖动
4.2 SiC 的特殊考虑
SiC 比 IGBT 耐温高 25-50°C(200°C+ vs 175°C),理论上可以晚些降额。但实际上 SiC 模块焊层和封装才是温度上限——die 能扛 200°C,但封装可能 150°C 就开始疲劳。
- SiC 在 175 ℃ 以上仍可工作(200–225 ℃ 材料极限),但 Ag 烧结焊层在 200+ ℃ 长期工作加速疲劳
- 正温系:SiC MOSFET 在 25–150 ℃ 区间约 +2×;降额时要考虑 I²R 自强化
- 模块 SCWT 仅 2–3 μs,降额无法救回短路 → DESAT 仍是唯一手段
5. 电池热失控(Thermal Runaway, TR)
5.1 触发阈值
电池热失控触发温度按化学体系不同——LFP 70°C 起、NMC 60°C 起、LCO 55°C 起。新人最常的错是用 NMC 阈值套 LFP 系统,导致触发过早(误报)或过晚(漏报)。
| 电池体系 | 触发温度 | 症状 |
|---|---|---|
| NMC(三元锂) | ~140–150 ℃(液相分解) | 放氧;链式反应 |
| LFP(磷酸铁锂) | ~270 ℃ | 相对安全;但 ΔT/Δt 仍危险 |
| NCA | ~130 ℃ | 最激烈 |
| LMFP(磷酸锰铁锂) | ~220 ℃ | 中等 |
两条前兆信号:
- 温升速率 ΔT/Δt > 1 °C/s — TR 进行中
- 电压骤降 > 10 mV/s 持续 10 s+ — 内部短路
- 气体逸出( / / 电解液蒸汽)— 压力传感 / 烟感触发
5.2 5 层防护架构
电池 TR(Thermal Runaway) 防护用 5 层纵深防御——单体绝热 → cell 间隔热 → 模组分隔 → 包级泄压 → 整车隔离驾驶舱。任一层都不能保证 100% 防护,5 层叠加才能满足 GB 38031 的"5 分钟驾驶员逃生"要求。
- BMS 单体监测:每串电压 + 温度;典型 1 ms 采样;异常 → 断主接触器
- 液冷回路:维持单体 ΔT < 3 ℃,TR 初期带走热量延缓传播
- 单体间隔热:气凝胶 / 云母片隔开单体;至少保证 5 min 不传播(UN GTR 20 / GB 38031)
- Pyro Fuse:BMS 检测到严重短路时触发,物理切断
- 顶盖泄压阀 + 灭火通道:TR 不可阻挡时让气体按设计方向排出,不进乘员舱
5.3 CATL / BYD / 特斯拉的创新方案
国内外电池巨头TR 防护各有创新——CATL 麒麟用 cell-to-pack 集成水冷板、BYD 刀片用长条形 LFP 自身耐 TR、特斯拉 4680 用结构化电池减少接触点。下面分别说明。
- CATL 麒麟:cell-to-pack;水冷板夹在单体之间;TR 直接排到底部
- BYD 刀片电池:LFP 长扁单体 + 顶部防爆阀;冲击 / 穿刺测试极端严苛
- Tesla 4680:极耳无铜引线降低阻抗;dry electrode 工艺
- CATL NP 2.0:5 min 不起火 + 模组隔热 + 智能诊断
6. 冷却系统的安全考虑
6.1 冷却失效也是热安全问题
冷却系统失效自身就是热安全 SG-T 的一部分——冷却液漏 / 水泵停 / 风扇坏都会让 PEU 在几分钟内过热。所以冷却必须有 ASIL C 级监测,不能当作"辅助系统"忽视。
| 失效 | 后果 | 检测 |
|---|---|---|
| 泵卡死 | 流量 = 0 → 结温快速飙升 | 流量传感器 + 压差监测 |
| 冷却液泄漏 | 流量下降 + 绝缘风险(导电冷却液) | 液位 / 温升速率 |
| 冷板堵塞 | 局部 ΔT 大 | 模块内多点 NTC 交叉对比 |
| 风扇失效(散热器侧) | 冷却液温度升 | T_coolant_in 监控 |
| 管路干冻 | 北方冬季启动 | 加热先启动 / 预热策略 |
6.2 ASIL C 级冷却监测
ASIL C 级冷却监测多通过冗余实现——双流量传感器、流量+压差交叉验证、温度+流量联合诊断。任一组合都比单传感器可靠。
- 流量传感器 + 冗余:双传感器或流量 + 压差交叉
- 冷却液温度: 和 同时监测,ΔT 过大提示换热不均
- 绝缘冷却液选型:50/50 乙二醇水溶液导电 → 注意接触 HV 必须隔离;或改用 dielectric 冷却液(PAO 合成油 / Novec)
7. FMEDA 视角
7.1 温度 SM 的 DC 估值
温度 SM(Safety Mechanism) 诊断覆盖率因实施方式而异——单传感器+软件门限 60%、双传感器交叉验证 95%、独立硬件比较器 99%+。ASIL D 项目要求 SPFM ≥ 99% 推动用 99%+ 的方案。
| 功能 | SM | 典型 DC |
|---|---|---|
| 模块结温 | NTC + 热模型双通道对比 | 99 % |
| MCU 结温 | 片内温度传感器 + 周期自检 | 95 % |
| 电池单体 T | 每串 NTC + 双通道 ADC | 99 % |
| 冷却流量 | 双流量传感器 | 90 % |
| 冷却液泄漏 | 液位 + 导电度 + 温升速率 | 85 % |
| TR 先兆 | ΔV/Δt + ΔT/Δt + 气体传感 | 95 % |
7.2 与扭矩 / HV 安全的耦合
热安全不是孤立 SG——与扭矩安全和 HV 安全高度耦合。 高触发降额会改变 扭矩安全 的 SG;过温 STO 触发会激活 HV 安全 的 active discharge。
8. 设计陷阱
热安全设计5 个常见陷阱都对应"看似稳态没问题但工况切换出事"——降额起点选错、传感器位置不对、TR 阈值用错电池体系等。这些都是 DV 阶段不易暴露,要靠 PFMEA 评审挖掘。
| 陷阱 | 描述 | 解决 |
|---|---|---|
| 只信 NTC | 热惯性 3–5 s,抓不到 μs 级短路 | 加热模型双通道 |
| 热模型参数硬编码 | 老化 / 批次漂移 → 模型偏差 | 在线校准 + NTC 作为锚点 |
| 降额曲线不单调 | T 在阈值附近抖动 → 扭矩毛刺 | 加滞后带 + 时间常数 |
| 冷却泵监控缺失 | 流量 = 0 但系统继续输出 → 秒级炸管 | 双流量传感器 + ΔT 交叉 |
| TR 检测阈值过高 | 触发时已爆炸 | ΔV/Δt 和 ΔT/Δt 叠加 + 气体 |
| 热管理只顾器件忽略模块寿命 | 在 150 ℃ 长期工作,ΔT_j 循环剧烈 → 键合疲劳提前 | Coffin–Manson 入手优化工况 |
| SiC 用 IGBT 的降额策略 | SiC 可到 200 ℃,但焊层 175 ℃ 就开始老化 | 降额曲线随封装调整 |
9. 标准速查
把热安全相关的所有标准索引一张表——按全球 / 区域 / 行业三类组织,新人项目阶段按 OEM SOR 反查这张表确保不漏项。
| 标准 | 范围 | 关键条款 |
|---|---|---|
| UN GTR 20 Part II | 全球 EV 电池 | 热传播 5 min 不威胁乘员 |
| ISO 6469-1:2021 | EV 热事件 | 警告、逃生、热事件管理 |
| SAE J2464 / J2929 | 北美电池滥用 | 短路、针刺、挤压、热冲击 |
| UL 2580 | 北美 EV 电池 | 机械 / 电气 / 热滥用 |
| GB 38031-2020 | 中国 EV 电池 | 5 min 不起火 / 不爆炸 |
| ISO 26262 Part 3-5 | 功能安全 | HARA / ASIL / FMEDA |
| IEC 62133-2 | 便携锂电 | 基础电池热测试 |
| AIS-156(印度) | EV 电池 | 区域版 |
核心要点
- 热安全两条路径:功率器件 ≤ ,max 和电池不 TR;两个 Safety Goal 合流。
- 三类器件热失效:Spirito(MOSFET 饱和区热点自放大,SCWT 2–5 μs)/ Thermal Runaway(正反馈秒级烧毁)/ Latch-up(IGBT 寄生晶闸管)。
- 降 ΔT_j 10 ℃ 键合寿命 ~1.7×(Coffin–Manson n≈5)——热管理优化换寿命最经济。
- NTC 3–5 s 热惯性 → 必须加热模型双通道;两路差 > 10 ℃ 持续 > 1 s 视为 SM 失效。
- 功率降额曲线:< 120 ℃ 100 %;120–150 ℃ 线性降;150–175 ℃ 快降;> 175 ℃ STO。留 10 ℃ 裕度。
- 电池 TR 5 层防护:BMS 监测 / 液冷均温 / 气凝胶隔热 / Pyro 切断 / 顶盖泄压;UN GTR 20 / GB 38031 要求 5 min 不威胁乘员。
- 冷却系统失效是系统性热安全风险:流量 / 温差 / 液位 / 导电度都得监控。
- FMEDA DC 典型:NTC+热模型 99 %、电池单体 99 %、TR 先兆 95 %、冷却液泄漏 85 %。
- 热 × HV × 扭矩三类安全耦合:TR → HV Pyro; 高 → STO;冷却泄漏同时触发 IMD。
- SiC 不能直接套 IGBT 降额:SiC 材料耐 225 ℃,但 Ag 烧结焊层 175+ ℃ 就开始老化,降额曲线按封装定。
Cross-references
- ← 索引
- 功能安全(Functional Safety)
- 热管理(Thermal Management) — / / Coffin–Manson
- HV 安全(HV Safety) — TR 与 HV 的耦合
- 扭矩安全(Torque Safety ASIL D)
- MOSFET 技术 — Spirito 效应出处
- IGBT 技术 — TR / Latch-up
- SiC 器件 — 高 平台
- 功率模块封装 — Ag 烧结 / 双面冷却
- 栅极驱动(Gate Driver) — DESAT / Soft-Off
- AEC-Q 车规认证 — 温度等级 / 寿命试验
- DV 与 PV 详解 — PCT / TCT / HTS 加速试验