安全机制目录(Safety Mechanism Catalog)
本质 ISO 26262 的 SPFM / LFM / PMHF 三个量化指标只能靠"诊断 + 控制 + 容错"三类安全机制达成,但具体到硬件实施有几十种不同手段——MCU 双核锁步、SBC 双 watchdog、栅极驱动 DESAT、电源 UVLO、ADC 冗余、CRC/ECC、监控通道。这些机制散布在 sbc / gate-driver / automotive-mcu / failure-mode-summary 等页,本页把它们**按"覆盖什么失效 → 用什么硬件机制 → 用在什么模块"**三维归类成一份可查 catalog,作为 FMEDA 时填诊断覆盖率的根据,也作为 architecture review 时检查"是否遗漏关键 SM"的清单。
学习目标
读完本页后,你应该能够:
- 区分4 大类安全机制(检测 / 控制 / 容错 / 监控)各自解决什么类型的失效
- 写出 MCU 级、电源级、驱动级、传感级、通信级 5 个维度的常用 SM 清单
- 为每个 SM 估算典型 DC(诊断覆盖率) 范围,FMEDA 表里能直接套用
- 识别SM 之间的依赖关系(WatchDog 失效 + MCU 失效 = 共因)
- 在新设计里按 ASIL 等级选合适的 SM 组合(ASIL D vs B 用不同方案)
- 识别 5 个 SM 设计反模式(共因 / 自检不全 / 反应慢 / 假阳 / 失效后状态错)
1. 安全机制的元结构
ISO 26262 的安全机制按"作用环节"分 4 类——理解这 4 类的相互关系决定一个安全功能要堆几层 SM 才达标。
| 类别 | 作用 | 例 |
|---|---|---|
| Detect(检测) | 发现失效已发生 | DESAT、UVLO、CRC、parity、看门狗超时 |
| Control(控制) | 触发安全反应 | 切断 PWM、进入 safe state、关 contactor |
| Tolerate(容错) | 失效但不需停机 | ECC 自动纠错、双核锁步、冗余通道 |
| Monitor(监控) | 持续性周期检查 SM 自身可用性 | LBIST、ABIST、自检脉冲、心跳信号 |
关键认知:Detect + Control 链需要在 FTTI(Fault Tolerant Time Interval)之内完成——通常 EPS 5-20 ms,主驱 50-100 ms。这条时间约束决定了 SM 选型(纯软件 SM 慢、硬件 SM 快)。
2. MCU 级 SM(主控芯片层面)
MCU 是整个 ECU 的"大脑",其失效直接拉低系统 SPFM。AURIX TC4x / S32K3 / RH850 / Hercules 这类 ASIL D MCU 内部都集成了多种 SM,选 MCU 时要核对 datasheet 的 Safety Manual 看清楚每个 SM 的 DC。
2.1 计算核心冗余
CPU 是 MCU 失效率最高的部分,ASIL D 必须双核冗余——锁步是最常见方案。下面 3 种冗余方案各有取舍。
| SM | 含义 | 典型 DC | 代表 MCU |
|---|---|---|---|
| Lockstep dual core | 两核同时跑相同程序,硬件比较器逐周期对比 | ≥ 99% | AURIX TC397、S32K344、Hercules |
| Software diversity | 同核跑两遍不同实现 | 60-80% | 单核 MCU 软件层方案 |
| Time redundancy | 同核跑两次同实现 | 30-50%(只测瞬时故障) | 资源受限场景 |
Lockstep 的隐藏前提:两核必须完全独立(独立时钟 / 独立电源 / 物理分离),否则就是共因失效,DC 算不到 99%。
2.2 内存保护
RAM / Flash 失效会让程序跑飞。MCU 内置 SM 覆盖 90%+ 的存储相关失效。
| SM | 覆盖 | 典型 DC |
|---|---|---|
| ECC on RAM | 单 bit 错纠正、双 bit 检测 | ≥ 99% |
| ECC on Flash | 同上 | ≥ 99% |
| MPU(Memory Protection Unit) | 防止任务越界访问 | 60-90% |
| Stack overflow detection | 栈溢出检测 | 70-90% |
2.3 外设监控
ADC、DMA、定时器、CAN 控制器等外设失效会让控制环节出错,需要专门 SM。
| SM | 覆盖 | 典型 DC |
|---|---|---|
| ADC redundancy / cross-check | 双 ADC 同步采样 + 比较 | ≥ 90% |
| DMA fault confinement | 限制 DMA 访问区域 | 60-80% |
| PWM checking | 反馈 PWM 实际波形给输入比较 | 80-95% |
| CAN error frame count | 监控 bus error 统计 | 70-90% |
2.4 时钟与电源监控
Clock 漂移 / 失效会让全系统失稳。内置硬件监控是 MCU 标配。
| SM | 含义 | 典型 DC |
|---|---|---|
| CMU(Clock Monitor Unit) | 主时钟相对辅时钟漂移检测 | ≥ 95% |
| Voltage monitor | 内核 / IO 电压实时监测 | ≥ 90% |
| Brown-out reset | 电压跌落到阈值下自动复位 | ≥ 95% |
| PLL lock detection | PLL 失锁检测 | ≥ 90% |
2.5 启动 / 运行时自检
LBIST(Logic BIST)/ ABIST(Analog BIST)在启动或周期性运行时跑测试 pattern。
| SM | 时机 | 典型 DC |
|---|---|---|
| LBIST | 启动 / 周期性 | 60-90% |
| ABIST | 启动 / 周期性 | 60-80% |
| MBIST(Memory BIST) | 启动 | ≥ 90% |
| Software self-test | 周期性 | 30-70% |
3. 电源级 SM(SBC / PMIC / LDO)
电源失效会同时打趴 MCU 和栅极驱动——这是典型共因失效来源。SBC(System Basis Chip)是车规 ECU 的标配,把这些 SM 都集成在一颗 IC 里。
3.1 输入侧保护
电池侧的瞬态、过压、反接每天都在发生,SBC 必须扛住。
| SM | 覆盖 | 例器件 |
|---|---|---|
| OVP(Over-Voltage Protection) | Load Dump / Jump Start 26V/60s | 内置 SBC / 外置 TVS + MOSFET |
| Reverse polarity protection | 电池反接 -14V | SBC 内置 / P-MOSFET 反接保护 |
| Pre-regulator | 输入 8-16V → 5V/3.3V | TLF35584 / FS8500 |
3.2 输出电压监控
每条输出轨独立监控,任何一条失常立刻 reset MCU 或进 fail-safe。
| SM | 含义 | 典型 DC |
|---|---|---|
| UV/OV per rail | 每条 rail 独立 UV/OV | ≥ 99% |
| Sequence monitoring | 上电时序错误检测 | ≥ 90% |
| VMon redundancy | 双独立 monitor 防 SM 自身失效 | ≥ 99% |
3.3 看门狗(Watchdog)
WatchDog 是 MCU 卡死后的最后防线,设计严谨度直接影响 SPFM。
| SM | 严格性 | 典型 DC |
|---|---|---|
| Window WatchDog | MCU 必须在窗口内喂狗,过早 / 过晚都触发 reset | ≥ 95% |
| Q&A WatchDog(Question-Answer) | SBC 出题、MCU 算答案,只对答案对才喂狗;ASIL D 标配 | ≥ 99% |
| Simple WatchDog | 周期内喂狗即可 | 60-80%(仅 ASIL B 可) |
Q&A WatchDog 是 ASIL D 主驱 / EPS 的事实标准——简单看门狗会被"卡死的 MCU 仍周期性喂狗"骗过(中断里残留的喂狗代码),Q&A 通过题目变化解决这个共因。
3.4 SM 实例器件
下面 3 颗主流 SBC 都集成 ASIL D 安全功能——选型按"成本 + 集成度 + 厂商生态"决定,SM 套路本身高度同质。
| SBC 器件 | ASIL | 关键 SM |
|---|---|---|
| Infineon TLF35584 | D | Q&A WD + 6 路独立 V monitor + sequence monitor + Sense |
| NXP FS8500 | D | 同上 + ABIST + LBIST self-test |
| STM L9788 | D | 整合电源 + driver + WD + 安全引脚 |
4. 驱动级 SM(栅极驱动 / 高侧开关)
栅极驱动 IC 是连接 MCU 控制信号与功率管的桥梁,这一层失效直接导致直通 / 短路。
4.1 短路 / 过流保护
短路保护有 4 种主要 SM——按反应时间从慢到快排,DESAT 最常用。SiC SCWT 仅 2-3 μs 让传统软件 SM 完全没机会反应。
| SM | 触发条件 | 反应时间 | 典型应用 |
|---|---|---|---|
| DESAT(Desaturation) | / 超阈值 → 设备退出饱和区 | < 2 μs | IGBT / SiC MOSFET |
| Two-level turn-off / Soft-Off | DESAT 后软关断,避免 di/dt 过冲炸管 | < 5 μs | 高功率 IGBT |
| OCP(Over-Current Protection) | shunt 电流超阈值 | < 1 μs | 整桥 / 高侧开关 |
| SCWT(Short Circuit Withstand Time) | SiC 仅 2-3 μs,IGBT 5-10 μs | 决定 DESAT 反应窗 | SiC / IGBT |
SiC 与 IGBT 的关键差异:SiC SCWT 仅 2-3 μs,DESAT + soft-off 必须 < 1 μs 完成,几乎只能用硬件 SM(纯软件 SM 反应不过来)。
4.2 栅极欠压锁定 UVLO
驱动 IC 输出电压不够时,功率管半开 → 导通损耗暴增 → 热失控。UVLO 强制关断避免。
| SM | 含义 | 阈值 |
|---|---|---|
| UVLO(Under-Voltage Lock-Out) | 驱动 V_CC 低于阈值时强制关栅 | typ 12 V(IGBT)/ 16 V(SiC) |
| UVLO with hysteresis | 加迟滞防抖 | typ 1-2 V hyst |
4.3 STO / SS1 / SS2 安全功能
电机驱动场景下,栅极驱动需要支持 STO(Safe Torque Off)等 IEC 61800-5-2 安全功能。
| SM | 反应 | ASIL |
|---|---|---|
| STO(Safe Torque Off) | 切断栅极使能 → 不输出转矩 | ASIL D |
| SS1(Safe Stop 1) | 受控减速后 STO | ASIL D |
| ASC(Active Short Circuit) | 三相低边短路 → 受控停车不依赖电池 | ASIL D |
详见 转矩安全。
4.4 主流栅极驱动 IC
下面 3 颗 ASIL D 栅极驱动 IC 是主驱 / EPS 项目最常见选项——SM 套路类似,差异在隔离器件 / 报错引脚 / 集成度。
| IC | ASIL | 关键 SM |
|---|---|---|
| Infineon 1EDI3035AS | D | DESAT + STO + UVLO + ASC |
| TI UCC21750-Q1 | D | 同上 + isolation + faults reporting |
| STM STGAP2 | D | DESAT + active Miller clamp + STO |
5. 传感级 SM(电流 / 位置 / 温度)
传感器失效 → 控制环节算错 → 输出错误转矩 / 速度。三类传感器各有自己的 SM 套路。
5.1 电流传感
电流传感 4 种 SM 互补使用——双 ADC 是最便宜的硬件冗余,冗余传感器抵御 systematic 失效,合理性检查抓住极端值,零电流校准消除漂移。
| SM | 实施 | 应用 |
|---|---|---|
| 双独立 ADC 通道 | 不同 ADC 同步采同一 shunt + 比较 | 主驱三相电流 |
| 冗余传感器 | 两个不同 vendor 的 shunt / Hall | ASIL D 关键回路 |
| 范围合理性检查 | 实测值 vs 物理可能范围 | 软件 SM |
| 零电流校准 | 上电时校零点漂移 | 自检型 SM |
5.2 位置传感
位置传感主驱场景偏好 Resolver + RDC 自诊断——RDC IC 内置 fault output 直接给 MCU,加上软件层的角度 / 速度合理性 + 编码器边沿一致性,覆盖率达 ASIL D。
| SM | 应用 | 备注 |
|---|---|---|
| Resolver + RDC 自诊断 | EPS / 主驱 PMSM | RDC IC 自带 fault output |
| Hall + Resolver 双系统 | 高安全 | 量小,贵 |
| 角度合理性 + 速度合理性 | 全场景 | 软件 SM |
| Encoder edge counting consistency | 增量编码器 | 检 missed pulses |
5.3 温度传感
温度传感典型方案是 NTC 实测 + 热模型估算双冗余——两路差异超阈值时进 fail-safe。配合 NTC 断线短路检测,基本覆盖物理失效。
详见 热安全。
6. 通信级 SM(CAN / SPI / 以太网)
电控之间失效 / 篡改的检测靠消息层 SM——E2E、CRC、Counter、Timeout 是标配。
6.1 AUTOSAR E2E 保护机制
E2E(End-to-End)Protection 是 AUTOSAR 定义的消息保护套件,有 8 种 profile,每种针对不同场景。
| Profile | 保护机制 | 典型 ASIL |
|---|---|---|
| P01 / P02 | CRC + Counter | ASIL B |
| P05 / P06 | CRC + Counter + Length | ASIL D |
| P11 / P22 | DataID + CRC + Counter,适配 CAN-FD | ASIL D |
6.2 物理层 SM
物理层 SM 覆盖应用层 E2E 兜不住的:bus 物理失效 / 外设 SPI 错误 / 传感器接口编码错误。下面 4 类是车规标配。
| SM | 覆盖 |
|---|---|
| CAN bus monitor(error frame count) | 物理层失效 |
| Bus-Off recovery | 网络拥塞 |
| SPI parity / CRC | MCU ↔ SBC / driver IC |
| SENT / PSI5 信号校验 | 传感器接口 |
详见 CAN 总线。
7. SM 之间的依赖与共因
SM 不是孤立的——多个 SM 之间的共因是隐藏的失效传播路径。常见 6 类共因关系:
| 共因 | 例 |
|---|---|
| 共享电源 | MCU + SBC WD 共用 5V → 5V 失效双方都瘫 |
| 共享时钟 | MCU 主时钟 + WD 时钟同源 → 时钟错误 WD 不会触发 |
| 共享复位 | reset 信号被 MCU 出错"卡死",WD 也无法 reset |
| 共享内存总线 | bus error 让 SM 数据也无法读 |
| 共享 SM 逻辑 | DESAT + UVLO 共用比较器 → 比较器失效双瘫 |
| 共享地 | GND bounce 让所有差分信号都漂 |
DFA 的核心任务就是把这些共因挖出来——详见 DFA / FMEDA / FTA。
8. ASIL 与 SM 组合选型
不同 ASIL 等级对 SM 组合的要求严格分档——下面是经验规则,具体项目要按 HARA 输出微调。
| ASIL | SPFM | LFM | 典型 SM 组合 |
|---|---|---|---|
| A | ≥ 90% | n/a | 简单 WatchDog + 主要 protection |
| B | ≥ 90% | ≥ 60% | Window WD + UV/OV + DESAT |
| C | ≥ 97% | ≥ 80% | Q&A WD + 双独立 V monitor + DESAT + ECC |
| D | ≥ 99% | ≥ 90% | Lockstep MCU + Q&A WD + 双 monitor + DESAT + ECC + ASC + 冗余传感 |
架构层面 ASIL 分解:ASIL D = ASIL B(D) + ASIL B(D),前提是两路真正独立(不同 MCU、不同电源、不同算法)。详见 ASIL 分解。
9. 5 个 SM 设计反模式
SM 设计最常踩的 5 个反模式——这 5 条比掌握更多 SM 类型更重要,识别它们能避免 SPFM 数字"看起来达标"但实际失效场景下保护失败。
| 反模式 | 表现 | 修法 |
|---|---|---|
| 共因失效未识别 | WD 与 MCU 共用 5V → 5V 失效双方都瘫 | DFA 强制走一遍 |
| SM 自检不全 | DESAT 比较器从未被自检过,失效时发现不了 | 启动时 + 周期性自检 |
| 反应时间慢于 FTTI | 软件 SM 100 ms 反应,FTTI 50 ms,过期 | 用硬件 SM 或缩短控制周期 |
| 假阳频繁(false positive) | DESAT 阈值过紧,启动 inrush 误触发 | 加 blanking window + 滤波 |
| 失效后 safe state 错 | 关 PWM 但功率管未真正关断(寄生) | 加 Active Miller Clamp + STO 双通道 |
核心要点
- 安全机制按作用环节分 4 类:Detect / Control / Tolerate / Monitor
- MCU 级:Lockstep 双核(ASIL D 标配)+ ECC RAM/Flash + ADC 冗余 + CMU + Brown-out
- 电源级:SBC 内置 OVP / 反接 / UV/OV per rail / Q&A WatchDog(ASIL D 必备)
- 驱动级:DESAT + soft-off + UVLO + STO/SS1/ASC,SiC SCWT 仅 2-3 μs 必须硬件 SM
- 传感级:双 ADC 冗余 + 范围合理性 + 自校零;位置用 Resolver+RDC 自诊断
- 通信级:AUTOSAR E2E Profile 5/6/11/22 提供 CRC + Counter + Length + DataID
- 共因失效是隐藏的失效传播路径——共享电源 / 时钟 / 复位 / 内存总线 / SM 逻辑 / 地都是 CCF 来源
- ASIL D vs B 的 SM 组合复杂度成数量级差:D 要 lockstep + Q&A WD + 双 monitor,B 只要 Window WD + UV/OV
- 5 反模式戒除:共因未识别 / SM 自检不全 / 反应慢于 FTTI / 假阳频繁 / 失效后 safe state 错