ISO 26262-5(2018)硬件层细化:故障分类、SPFM/LFM/PMHF 推导
本质与导读
本质 Part 5 真正难的不是背 ASIL D 目标值,而是把硬件失效率 λ 拆成 λ_SPF/λ_RF/λ_MPF/λ_S 四类——谁算 safe fault、residual fault 的诊断覆盖率怎么定。Annex D 按元件类型给的 generic DC 只是 default 起点,项目里必须用 fault injection 实测出 specific DC 才算数。
1. 失效率四分解(Annex C.1)
ISO 26262-5 Annex C 把每个 safety-related hardware element 的总失效率 强制分成四块:
| 项 | 含义 | 工程含义 |
|---|---|---|
| Single-Point Fault | 没有 safety mechanism 覆盖,单一失效直接违反 SG | |
| Residual Fault | 有 SM 但未被覆盖到的剩余部分 | |
| Multiple-Point Fault | 多重故障组合才违反 SG,= | |
| Safe Fault | 失效但不可能违反 SG(器件断开导致系统进 default-safe 状态) |
1.1 关键判定:Safe Fault 谁说了算
Safe fault 不是"我觉得这个失效不影响"——必须有论证:
- 失效后元件输出固定值 + 后级 SM 把固定值视为故障并触发 fail-safe → 是 safe
- 失效后系统级冗余通道继续工作且不掩盖故障(F-MUX 复用)→ 是 safe
- 失效会被多人审查的诊断流程一定捕获 + 在 FTTI 内反应 → 是 detected MPF,不是 safe
工程上激进算 safe fault 是常见审计失败原因——TÜV / SGS 评审会要每条 safe fault 都有 traceable 论证,口头说"这个不会有事"通过不了。
2. Residual Fault 计算与 Diagnostic Coverage
Annex C.3 给出 residual fault 估算上界:
其中 是 SM 对该元件 SPF 的诊断覆盖率(也叫 )。
例:某 ADC 失效率 100 FIT,有一个 SM(软件合理性检查)对 ADC stuck-at 故障 。则该元件的 FIT。
类似地 latent fault:
但 latent fault 的诊断覆盖是不同的 SM——Annex D 把"防 SPF 的 SM" 和"防 latent 的 SM" 分两类列。
3. SPFM / LFM 等式(Annex C.2 / C.3)
3.1 SPFM(Annex C.2 等式 C.7)
这一节先说明“SPFM(Annex C.2 等式 C.7)”为什么需要形式化表达,后面的公式用于把变量关系明确写出来。
分母:所有 safety-related 硬件元件的非 safe 失效率总和(safe fault 不参与计算,所以分母减 )。 分子:未被 SM 完全覆盖的部分(SPF + RF)。
物理含义:1 - "可能直接违反 SG 的失效率比例"。99%(ASIL D)意味着 99% 以上的 dangerous 失效都被 SM 覆盖到。
3.2 LFM(Annex C.3 等式 C.8)
这一节先说明“LFM(Annex C.3 等式 C.8)”为什么需要形式化表达,后面的公式用于把变量关系明确写出来。
分母比 SPFM 又减了 和 ——只看 multiple-point 部分(SPF/RF 已经在 SPFM 计算过)。 分子:潜伏未检测的 MPF。
90%(ASIL D)意味着 90% 以上的多重故障被诊断捕获(进 detected),只有 10% 留为 latent。
3.3 ASIL 目标值表
这一节先把“ASIL 目标值表”的判断维度收拢到同一视图里,后面的表格用于横向比较各选项的边界。
| 等级 | SPFM | LFM | PMHF |
|---|---|---|---|
| ASIL B | ≥ 90% | ≥ 60% | ≤ 100 FIT |
| ASIL C | ≥ 97% | ≥ 80% | ≤ 100 FIT |
| ASIL D | ≥ 99% | ≥ 90% | ≤ 10 FIT |
注意:ASIL B/C/D 才有 SPFM/LFM 要求;ASIL A 没有(只有 PMHF 软目标)。
4. PMHF(Probabilistic Metric for Hardware Failures)
Annex C.4 + Clause 9.4.2 给出 PMHF 计算。简化形式:
物理含义:整个 vehicle lifetime(典型 15 年 / 8000 小时驾驶时间)内累积的 dangerous failure 概率。
ASIL D 要求 ≤ 10 FIT 是最难的——因为典型 ECU 几百 FIT 起,要降到 10 FIT 必须靠SM 把 70%+ 失效转成 detected(诊断捕获后维修,不进 PMHF 累积)。
实操:PMHF 比 SPFM/LFM 更敏感于 latent fault 的处理。一个 ASIL D 系统经常 SPFM/LFM 都达标但 PMHF 差 2-5×,说明 latent fault 周期诊断覆盖不够——上电自检 / 运行时 BIST 周期没设对。
5. Annex D:9 张诊断覆盖率参考表
Annex D 是 Part 5 最实用的部分,给出 9 类元件的 generic DC 表:
| 表 | 元件类型 | 典型 SM 例 |
|---|---|---|
| D.2 | E/E 系统 | 通用方法,不细分 |
| D.3 | 电气元件(继电器 / 线束) | 触点状态监测 / 短路对地检测 |
| D.4 | 模拟元件(运放 / 比较器) | 输入冗余 / 输出范围检查 |
| D.5 | 数字元件(组合逻辑 / 时序) | lockstep / TMR / parity |
| D.6 | 内存(RAM / Flash / EEPROM) | ECC / CRC / pattern 测试 |
| D.7 | 电源(LDO / SMPS) | 输出电压监控 / OCP / OVP |
| D.8 | 时钟(晶振 / PLL) | 时钟监控器 / 双时钟 |
| D.9 | 传感器 | range check / plausibility / 冗余 |
| D.10 | 执行器 | 电流反馈 / 位置反馈 / 重启检测 |
每个表给"failure mode → 适用 SM → typical DC 60/90/99%"对应。
5.1 Generic DC vs Specific DC 的关键差异
Annex D 的 DC 是 generic typical——通用条件下的"典型"覆盖。项目里要用 specific DC,即:
- 算上 timing(SM 诊断周期 vs FTTI)
- 算上 implementation(具体 BIST 算法的实测覆盖)
- 算上 system-level masking(上层冗余的影响)
例:一个内存 SM "ECC" 的 generic DC = 99%,但如果 ECC 检测周期 > FTTI,specific DC 退化到 60%——故障在被 ECC 发现之前就违反 SG 了。审计员检查这个的方法是要求 fault injection 实验或解析论证。
5.2 FTTI 时序分解 — 为什么"诊断周期"直接决定 specific DC
上面那个 "ECC 检测周期 > FTTI" 的退化,根子在 FTTI 的时序分解:FTTI(Fault Tolerant Time Interval,故障容错时间间隔)不是一个孤立数字,它内部要串行塞进两段时间 —— 故障发生 → (故障检测时间)→ SM 检测到 → (故障反应时间)→ safe state,两段之和不能越过 FTTI,即 。
- 故障检测时间 :对周期性诊断,上界就是 DTI(Diagnostic Test Interval,诊断测试间隔) —— 最坏情况故障刚发生在一次诊断之后,要等将近一个完整 DTI 才被下次诊断逮到,所以 。连续硬件监测(比较器、lockstep)没有"间隔",。
- 故障反应时间 (FRTI):从检测到进入 safe state,软件 SM 受控制周期 + 调度限制,硬件 SM 是门级延迟。
所以 "ECC 检测周期 > FTTI" 本质是 单独就超了整个窗口,故障在被发现前已违反 SG —— specific DC 必须按 这条预算来核,而不是照搬 Annex D generic 表里的 99%。这也解释了为什么微秒级 FTTI(如 SiC SCWT 2-3 μs)只能用连续硬件监测():任何毫秒级周期诊断的 DTI 都塞不进去。完整时序预算推导见 安全机制目录 §10 FTTI 时序预算。
6. Annex E 案例(简化)
Annex E 给出一个 ECU 含 7 个安全相关元件的 SPFM/LFM 完整计算(简化版本):
| 元件 | / (FIT) | / | |
|---|---|---|---|
| MCU | 50 / 5 | 0 / 0.5 | 4 |
| SBC | 20 / 2 | 0 / 0.2 | 1.5 |
| 电源 | 10 / 1 | 0 / 0.1 | 0.7 |
| 传感器 | 30 / 3 | 0 / 1.5 | 2.5 |
| ADC | 5 / 1 | 0 / 0.05 | 0.4 |
| 时钟 | 3 / 0.5 | 0 / 0.03 | 0.2 |
| 内存 | 8 / 0.8 | 0 / 0.08 | 0.7 |
| 总 | 126 / 13.3 | 0 / 2.46 | 10.0 |
计算:
- SPFM = ← 满足 ASIL C(97%),不够 ASIL D(99%)
- LFM = ← 满足 ASIL D(90%)
工程含义:这个设计LFM 达 ASIL D 但 SPFM 只达 ASIL C——必须增强 SM 来减小 (把覆盖率提升到 90% 以上的元件改成 99%)。最大头是传感器的 FIT,优先动它。
核心要点
- 失效率四分解 是 Part 5 数学基础,safe fault 必须 traceable 论证
- DC 三档 60/90/99%,ASIL D 关键路径 99%,大部分 90%
- SPFM 看"非 safe 失效率里 SM 覆盖比例",LFM 看"MPF 里非 latent 比例",PMHF 看"全寿命累积概率"
- ASIL D 三目标:SPFM ≥ 99% / LFM ≥ 90% / PMHF ≤ 10 FIT,PMHF 最难
- Annex D 给 9 类元件的 generic DC 参考表,项目里要算 specific DC(timing + implementation + masking)
- SPFM 没达 D 时优先减大头 ,LFM 没达 D 时优先增加周期诊断频率把 latent 转 detected
Engineering Objects
引用此页的结构化 Engineeri…
引用此页的结构化 Engineering Object(v2.0 Copilot 自动生成,不要手动编辑此段)。
- metric ·
metric_dc— DC — Diagnostic Coverage - metric ·
metric_lfm— LFM — Latent Fault Metric - metric ·
metric_pmhf— PMHF — Probabilistic Metric for Random HW Failures - metric ·
metric_spfm— SPFM — Single Point Fault Metric - standard ·
standard_iso26262_part5— ISO 26262-5 (2018) 硬件层
Cross-references
- ← 索引
- 功能安全(Functional Safety):FuSa 总框架
- ISO 26262 硬件要素三类分类:I/II/III 类硬件元件分类
- DFA / FMEDA / FTA:安全分析方法实战
- 硬件元件评估:元件评估流程
- 硬件元件分类:分类方法
- HV 主驱逆变器 ISO 26262 安全概念:FSC/TSC 上层应用
- 扭矩安全(Torque Safety ASIL D):应用层安全功能
- 安全机制目录:SM 库
- 电流采样 SM:传感器 DC 例
- 栅极驱动诊断 SM:驱动 DC 例
- IEC 61508 概览:ISO 26262 母标准