ISO 26262-5(2018)硬件层细化:故障分类、SPFM/LFM/PMHF 推导

功能安全L3别名 ISO 26262 Part 5 · 26262-5 · SPFM 计算 · LFM 计算 · PMHF 计算 · λSPF λRF λMPF λS · residual fault · safe fault · 故障分类四件套 · hardware architectural metrics

本质与导读

本质 Part 5 真正难的不是背 ASIL D 目标值,而是把硬件失效率 λ 拆成 λ_SPF/λ_RF/λ_MPF/λ_S 四类——谁算 safe fault、residual fault 的诊断覆盖率怎么定。Annex D 按元件类型给的 generic DC 只是 default 起点,项目里必须用 fault injection 实测出 specific DC 才算数。

主线坐标:横轨 · 功能安全(跨站) · ↑ 全景主线

1. 失效率四分解(Annex C.1)

ISO 26262-5 Annex C 把每个 safety-related hardware element 的总失效率 强制分成四块:

ISO 26262-5 硬件开发流 — HW 安全需求 → 架构/详细设计 → 架构度量(SPFM/LFM)+ PMHF 评估 → HW 集成测试 + 故障注入

含义工程含义
Single-Point Fault没有 safety mechanism 覆盖,单一失效直接违反 SG
Residual Fault有 SM 但未被覆盖到的剩余部分
Multiple-Point Fault多重故障组合才违反 SG,=
Safe Fault失效但不可能违反 SG(器件断开导致系统进 default-safe 状态)

1.1 关键判定:Safe Fault 谁说了算

Safe fault 不是"我觉得这个失效不影响"——必须有论证:

  • 失效后元件输出固定值 + 后级 SM 把固定值视为故障并触发 fail-safe → 是 safe
  • 失效后系统级冗余通道继续工作且不掩盖故障(F-MUX 复用)→ 是 safe
  • 失效会被多人审查的诊断流程一定捕获 + 在 FTTI 内反应 → 是 detected MPF,不是 safe

工程上激进算 safe fault 是常见审计失败原因——TÜV / SGS 评审会要每条 safe fault 都有 traceable 论证,口头说"这个不会有事"通过不了。

1.2 Multiple-Point Fault 的双重分裂

这一节先说明“Multiple-Point Fault 的双重分裂”为什么需要形式化表达,后面的公式用于把变量关系明确写出来。

  • :Detected/Perceived MPF——故障发生但被周期诊断捕获 + 司机得到提醒(仪表盘亮灯)→ 进维修
  • :Latent MPF——故障发生但没人知道,直到第二个失效组合触发 SG 违反

工程上 LFM 的 90%(ASIL D)就是要让 latent 比例 ≤ 10%——这意味着 90% 以上的潜在故障要被周期诊断捕获,典型的"上电自检 + 运行时定期 BIST" 是覆盖手段。

2. Residual Fault 计算与 Diagnostic Coverage

Annex C.3 给出 residual fault 估算上界:

其中 是 SM 对该元件 SPF 的诊断覆盖率(也叫 )。

例:某 ADC 失效率 100 FIT,有一个 SM(软件合理性检查)对 ADC stuck-at 故障 。则该元件的 FIT

类似地 latent fault:

但 latent fault 的诊断覆盖是不同的 SM——Annex D 把"防 SPF 的 SM" 和"防 latent 的 SM" 分两类列。

2.1 三档诊断覆盖率

ISO 26262 工程默认的 DC 三档:

数值工程含义
Low60%简单监控(死循环检测 / 看门狗喂狗)
Medium90%周期性自测 + 多检测点
High99%lockstep / DMR / 完整 BIST

ASIL D 经验:主要 SM 至少 90% (High 但不一定 99%),关键路径 99%——纯 99% 太严,会让 silicon area + power 翻倍。

3. SPFM / LFM 等式(Annex C.2 / C.3)

3.1 SPFM(Annex C.2 等式 C.7)

这一节先说明“SPFM(Annex C.2 等式 C.7)”为什么需要形式化表达,后面的公式用于把变量关系明确写出来。

分母:所有 safety-related 硬件元件的非 safe 失效率总和(safe fault 不参与计算,所以分母减 )。 分子:未被 SM 完全覆盖的部分(SPF + RF)。

物理含义:1 - "可能直接违反 SG 的失效率比例"。99%(ASIL D)意味着 99% 以上的 dangerous 失效都被 SM 覆盖到。

3.2 LFM(Annex C.3 等式 C.8)

这一节先说明“LFM(Annex C.3 等式 C.8)”为什么需要形式化表达,后面的公式用于把变量关系明确写出来。

分母比 SPFM 又减了 ——只看 multiple-point 部分(SPF/RF 已经在 SPFM 计算过)。 分子:潜伏未检测的 MPF。

90%(ASIL D)意味着 90% 以上的多重故障被诊断捕获(进 detected),只有 10% 留为 latent。

3.3 ASIL 目标值表

这一节先把“ASIL 目标值表”的判断维度收拢到同一视图里,后面的表格用于横向比较各选项的边界。

等级SPFMLFMPMHF
ASIL B≥ 90%≥ 60%≤ 100 FIT
ASIL C≥ 97%≥ 80%≤ 100 FIT
ASIL D≥ 99%≥ 90%≤ 10 FIT

注意:ASIL B/C/D 才有 SPFM/LFM 要求;ASIL A 没有(只有 PMHF 软目标)。

4. PMHF(Probabilistic Metric for Hardware Failures)

Annex C.4 + Clause 9.4.2 给出 PMHF 计算。简化形式:

物理含义:整个 vehicle lifetime(典型 15 年 / 8000 小时驾驶时间)内累积的 dangerous failure 概率

ASIL D 要求 ≤ 10 FIT 是最难的——因为典型 ECU 几百 FIT 起,要降到 10 FIT 必须靠SM 把 70%+ 失效转成 detected(诊断捕获后维修,不进 PMHF 累积)。

实操:PMHF 比 SPFM/LFM 更敏感于 latent fault 的处理。一个 ASIL D 系统经常 SPFM/LFM 都达标但 PMHF 差 2-5×,说明 latent fault 周期诊断覆盖不够——上电自检 / 运行时 BIST 周期没设对。

5. Annex D:9 张诊断覆盖率参考表

Annex D 是 Part 5 最实用的部分,给出 9 类元件的 generic DC 表:

元件类型典型 SM 例
D.2E/E 系统通用方法,不细分
D.3电气元件(继电器 / 线束)触点状态监测 / 短路对地检测
D.4模拟元件(运放 / 比较器)输入冗余 / 输出范围检查
D.5数字元件(组合逻辑 / 时序)lockstep / TMR / parity
D.6内存(RAM / Flash / EEPROM)ECC / CRC / pattern 测试
D.7电源(LDO / SMPS)输出电压监控 / OCP / OVP
D.8时钟(晶振 / PLL)时钟监控器 / 双时钟
D.9传感器range check / plausibility / 冗余
D.10执行器电流反馈 / 位置反馈 / 重启检测

每个表给"failure mode → 适用 SM → typical DC 60/90/99%"对应。

5.1 Generic DC vs Specific DC 的关键差异

Annex D 的 DC 是 generic typical——通用条件下的"典型"覆盖。项目里要用 specific DC,即:

  • 算上 timing(SM 诊断周期 vs FTTI)
  • 算上 implementation(具体 BIST 算法的实测覆盖)
  • 算上 system-level masking(上层冗余的影响)

例:一个内存 SM "ECC" 的 generic DC = 99%,但如果 ECC 检测周期 > FTTI,specific DC 退化到 60%——故障在被 ECC 发现之前就违反 SG 了。审计员检查这个的方法是要求 fault injection 实验或解析论证。

5.2 FTTI 时序分解 — 为什么"诊断周期"直接决定 specific DC

上面那个 "ECC 检测周期 > FTTI" 的退化,根子在 FTTI 的时序分解:FTTI(Fault Tolerant Time Interval,故障容错时间间隔)不是一个孤立数字,它内部要串行塞进两段时间 —— 故障发生 → (故障检测时间)→ SM 检测到 → (故障反应时间)→ safe state,两段之和不能越过 FTTI,即

  • 故障检测时间 :对周期性诊断,上界就是 DTI(Diagnostic Test Interval,诊断测试间隔) —— 最坏情况故障刚发生在一次诊断之后,要等将近一个完整 DTI 才被下次诊断逮到,所以 。连续硬件监测(比较器、lockstep)没有"间隔",
  • 故障反应时间 (FRTI):从检测到进入 safe state,软件 SM 受控制周期 + 调度限制,硬件 SM 是门级延迟。

所以 "ECC 检测周期 > FTTI" 本质是 单独就超了整个窗口,故障在被发现前已违反 SG —— specific DC 必须按 这条预算来核,而不是照搬 Annex D generic 表里的 99%。这也解释了为什么微秒级 FTTI(如 SiC SCWT 2-3 μs)只能用连续硬件监测():任何毫秒级周期诊断的 DTI 都塞不进去。完整时序预算推导见 安全机制目录 §10 FTTI 时序预算

6. Annex E 案例(简化)

Annex E 给出一个 ECU 含 7 个安全相关元件的 SPFM/LFM 完整计算(简化版本):

元件 / (FIT) /
MCU50 / 50 / 0.54
SBC20 / 20 / 0.21.5
电源10 / 10 / 0.10.7
传感器30 / 30 / 1.52.5
ADC5 / 10 / 0.050.4
时钟3 / 0.50 / 0.030.2
内存8 / 0.80 / 0.080.7
126 / 13.30 / 2.4610.0

计算:

  • SPFM = ← 满足 ASIL C(97%),不够 ASIL D(99%)
  • LFM = ← 满足 ASIL D(90%)

工程含义:这个设计LFM 达 ASIL D 但 SPFM 只达 ASIL C——必须增强 SM 来减小 (把覆盖率提升到 90% 以上的元件改成 99%)。最大头是传感器的 FIT,优先动它。

核心要点

  • 失效率四分解 是 Part 5 数学基础,safe fault 必须 traceable 论证
  • DC 三档 60/90/99%,ASIL D 关键路径 99%,大部分 90%
  • SPFM 看"非 safe 失效率里 SM 覆盖比例",LFM 看"MPF 里非 latent 比例",PMHF 看"全寿命累积概率"
  • ASIL D 三目标:SPFM ≥ 99% / LFM ≥ 90% / PMHF ≤ 10 FIT,PMHF 最难
  • Annex D 给 9 类元件的 generic DC 参考表,项目里要算 specific DC(timing + implementation + masking)
  • SPFM 没达 D 时优先减大头 ,LFM 没达 D 时优先增加周期诊断频率把 latent 转 detected

Engineering Objects

引用此页的结构化 Engineeri…

引用此页的结构化 Engineering Object(v2.0 Copilot 自动生成,不要手动编辑此段)。

  • metric · metric_dc — DC — Diagnostic Coverage
  • metric · metric_lfm — LFM — Latent Fault Metric
  • metric · metric_pmhf — PMHF — Probabilistic Metric for Random HW Failures
  • metric · metric_spfm — SPFM — Single Point Fault Metric
  • standard · standard_iso26262_part5 — ISO 26262-5 (2018) 硬件层

Cross-references