PMHF 推导

功能安全L3别名 ISO 26262 Part 5 · 26262-5 · SPFM 计算 · LFM 计算 · PMHF 计算 · λSPF λRF λMPF λS · residual fault · safe fault · 故障分类四件套 · hardware architectural metrics

本质与导读

本质 Part 5 真正难的不是背 ASIL D 目标值,而是把硬件失效率 λ 拆成 λ_SPF/λ_RF/λ_MPF/λ_S 四类——谁算 safe fault、residual fault 的诊断覆盖率怎么定。Annex D 按元件类型给的 generic DC 只是 default 起点,项目里必须用 fault injection 实测出 specific DC 才算数。

主线坐标:横轨 · 功能安全(跨站) · ↑ 全景主线

1. 失效率四分解(Annex C.1)

ISO 26262-5 Annex C 把每个 safety-related hardware element 的总失效率 $λ$ 强制分成四块:

ISO 26262-5 硬件开发流 — HW 安全需求 → 架构/详细设计 → 架构度量(SPFM/LFM)+ PMHF 评估 → HW 集成测试 + 故障注入

λ = λ_{SPF} + λ_{RF} + λ_{MPF} + λ_{S}

项	含义	工程含义
$λ_{SPF}$	Single-Point Fault	没有 safety mechanism 覆盖,单一失效直接违反 SG
$λ_{RF}$	Residual Fault	有 SM 但未被覆盖到的剩余部分
$λ_{MPF}$	Multiple-Point Fault	多重故障组合才违反 SG,= $λ_{MPF, D P} + λ_{MPF, L}$
$λ_{S}$	Safe Fault	失效但不可能违反 SG(器件断开导致系统进 default-safe 状态)

1.1 关键判定:Safe Fault 谁说了算

Safe fault 不是"我觉得这个失效不影响"——必须有论证:

失效后元件输出固定值 + 后级 SM 把固定值视为故障并触发 fail-safe → 是 safe
失效后系统级冗余通道继续工作且不掩盖故障(F-MUX 复用)→ 是 safe
失效会被多人审查的诊断流程一定捕获 + 在 FTTI 内反应 → 是 detected MPF,不是 safe

工程上激进算 safe fault 是常见审计失败原因——TÜV / SGS 评审会要每条 safe fault 都有 traceable 论证,口头说"这个不会有事"通过不了。

1.2 Multiple-Point Fault 的双重分裂

这一节先说明“Multiple-Point Fault 的双重分裂”为什么需要形式化表达，后面的公式用于把变量关系明确写出来。

λ_{MPF} = λ_{MPF, D P} + λ_{MPF, L}

$λ_{MPF, D P}$ :Detected/Perceived MPF——故障发生但被周期诊断捕获 + 司机得到提醒(仪表盘亮灯)→ 进维修
$λ_{MPF, L}$ :Latent MPF——故障发生但没人知道,直到第二个失效组合触发 SG 违反

工程上 LFM 的 90%(ASIL D)就是要让 latent 比例 ≤ 10%——这意味着 90% 以上的潜在故障要被周期诊断捕获,典型的"上电自检 + 运行时定期 BIST" 是覆盖手段。

2. Residual Fault 计算与 Diagnostic Coverage

Annex C.3 给出 residual fault 估算上界:

λ_{RF} \leq λ \times (1 - \frac{KD C , RF}{100%})

其中 $KD C, RF$ 是 SM 对该元件 SPF 的诊断覆盖率(也叫 $D C_{RF}$ )。

例:某 ADC 失效率 100 FIT,有一个 SM(软件合理性检查)对 ADC stuck-at 故障 $D C_{RF} = 90%$ 。则该元件的 $λ_{RF} \leq 100 \times (1 - 0.9) = 10$ FIT。

类似地 latent fault:

λ_{MPF, L} \leq λ \times (1 - \frac{KD C , MPF , L}{100%})

但 latent fault 的诊断覆盖是不同的 SM——Annex D 把"防 SPF 的 SM" 和"防 latent 的 SM" 分两类列。

2.1 三档诊断覆盖率

ISO 26262 工程默认的 DC 三档:

档	数值	工程含义
Low	60%	简单监控(死循环检测 / 看门狗喂狗)
Medium	90%	周期性自测 + 多检测点
High	99%	lockstep / DMR / 完整 BIST

ASIL D 经验:主要 SM 至少 90% (High 但不一定 99%),关键路径 99%——纯 99% 太严,会让 silicon area + power 翻倍。

3. SPFM / LFM 等式(Annex C.2 / C.3)

3.1 SPFM(Annex C.2 等式 C.7)

这一节先说明“SPFM(Annex C.2 等式 C.7)”为什么需要形式化表达，后面的公式用于把变量关系明确写出来。

SPFM = 1 - \frac{\sum _{SR, H W} ( λ _{SPF} + λ _{RF} )}{\sum _{SR, H W} ( λ - λ _{S} )}

分母:所有 safety-related 硬件元件的非 safe 失效率总和(safe fault 不参与计算,所以分母减 $λ_{S}$ )。分子:未被 SM 完全覆盖的部分(SPF + RF)。

物理含义:1 - "可能直接违反 SG 的失效率比例"。99%(ASIL D)意味着 99% 以上的 dangerous 失效都被 SM 覆盖到。

3.2 LFM(Annex C.3 等式 C.8)

这一节先说明“LFM(Annex C.3 等式 C.8)”为什么需要形式化表达，后面的公式用于把变量关系明确写出来。

L FM = 1 - \frac{\sum _{SR, H W} λ _{MPF, L}}{\sum _{SR, H W} ( λ - λ _{SPF} - λ _{RF} - λ _{S} )}

分母比 SPFM 又减了 $λ_{SPF}$ 和 $λ_{RF}$ ——只看 multiple-point 部分(SPF/RF 已经在 SPFM 计算过)。分子:潜伏未检测的 MPF。

90%(ASIL D)意味着 90% 以上的多重故障被诊断捕获(进 detected),只有 10% 留为 latent。

3.3 ASIL 目标值表

这一节先把“ASIL 目标值表”的判断维度收拢到同一视图里，后面的表格用于横向比较各选项的边界。

等级	SPFM	LFM	PMHF
ASIL B	≥ 90%	≥ 60%	≤ 100 FIT
ASIL C	≥ 97%	≥ 80%	≤ 100 FIT
ASIL D	≥ 99%	≥ 90%	≤ 10 FIT

注意:ASIL B/C/D 才有 SPFM/LFM 要求;ASIL A 没有(只有 PMHF 软目标)。

4. PMHF(Probabilistic Metric for Hardware Failures)

Annex C.4 + Clause 9.4.2 给出 PMHF 计算。简化形式:

PM H F = λ_{SPF} + λ_{RF} + \frac{1}{2} λ_{MPF, L} \cdot Tl i f e t im e

物理含义:整个 vehicle lifetime(典型 15 年 / 8000 小时驾驶时间)内累积的 dangerous failure 概率。

ASIL D 要求 ≤ 10 FIT 是最难的——因为典型 ECU 几百 FIT 起,要降到 10 FIT 必须靠SM 把 70%+ 失效转成 detected(诊断捕获后维修,不进 PMHF 累积)。

实操:PMHF 比 SPFM/LFM 更敏感于 latent fault 的处理。一个 ASIL D 系统经常 SPFM/LFM 都达标但 PMHF 差 2-5×,说明 latent fault 周期诊断覆盖不够——上电自检 / 运行时 BIST 周期没设对。

5. Annex D:9 张诊断覆盖率参考表

Annex D 是 Part 5 最实用的部分,给出 9 类元件的 generic DC 表:

表	元件类型	典型 SM 例
D.2	E/E 系统	通用方法,不细分
D.3	电气元件(继电器 / 线束)	触点状态监测 / 短路对地检测
D.4	模拟元件(运放 / 比较器)	输入冗余 / 输出范围检查
D.5	数字元件(组合逻辑 / 时序)	lockstep / TMR / parity
D.6	内存(RAM / Flash / EEPROM)	ECC / CRC / pattern 测试
D.7	电源(LDO / SMPS)	输出电压监控 / OCP / OVP
D.8	时钟(晶振 / PLL)	时钟监控器 / 双时钟
D.9	传感器	range check / plausibility / 冗余
D.10	执行器	电流反馈 / 位置反馈 / 重启检测

每个表给"failure mode → 适用 SM → typical DC 60/90/99%"对应。

5.1 Generic DC vs Specific DC 的关键差异

Annex D 的 DC 是 generic typical——通用条件下的"典型"覆盖。项目里要用 specific DC,即:

算上 timing(SM 诊断周期 vs FTTI)
算上 implementation(具体 BIST 算法的实测覆盖)
算上 system-level masking(上层冗余的影响)

例:一个内存 SM "ECC" 的 generic DC = 99%,但如果 ECC 检测周期 > FTTI,specific DC 退化到 60%——故障在被 ECC 发现之前就违反 SG 了。审计员检查这个的方法是要求 fault injection 实验或解析论证。

5.2 FTTI 时序分解 — 为什么"诊断周期"直接决定 specific DC

上面那个 "ECC 检测周期 > FTTI" 的退化,根子在 FTTI 的时序分解:FTTI(Fault Tolerant Time Interval,故障容错时间间隔)不是一个孤立数字,它内部要串行塞进两段时间 —— 故障发生 → (故障检测时间)→ SM 检测到 → (故障反应时间)→ safe state,两段之和不能越过 FTTI,即 $t d e t + t re a c t \leq FTTI$ 。

故障检测时间 $t d e t$ :对周期性诊断,上界就是 DTI(Diagnostic Test Interval,诊断测试间隔) —— 最坏情况故障刚发生在一次诊断之后,要等将近一个完整 DTI 才被下次诊断逮到,所以 $t d e t \approx DTI$ 。连续硬件监测(比较器、lockstep)没有"间隔", $t d e t \approx 0$ 。
故障反应时间 $t re a c t$ (FRTI):从检测到进入 safe state,软件 SM 受控制周期 + 调度限制,硬件 SM 是门级延迟。

所以 "ECC 检测周期 > FTTI" 本质是 $t d e t \approx DTI$ 单独就超了整个窗口,故障在被发现前已违反 SG —— specific DC 必须按 $DTI + t re a c t \leq FTTI$ 这条预算来核,而不是照搬 Annex D generic 表里的 99%。这也解释了为什么微秒级 FTTI(如 SiC SCWT 2-3 μs)只能用连续硬件监测( $t d e t \approx 0$ ):任何毫秒级周期诊断的 DTI 都塞不进去。完整时序预算推导见安全机制目录 §10 FTTI 时序预算。

6. Annex E 案例(简化)

Annex E 给出一个 ECU 含 7 个安全相关元件的 SPFM/LFM 完整计算(简化版本):

元件	$λ$ / $λ_{S}$ (FIT)	$λ_{SPF}$ / $λ_{RF}$	$λ_{MPF, L}$
MCU	50 / 5	0 / 0.5	4
SBC	20 / 2	0 / 0.2	1.5
电源	10 / 1	0 / 0.1	0.7
传感器	30 / 3	0 / 1.5	2.5
ADC	5 / 1	0 / 0.05	0.4
时钟	3 / 0.5	0 / 0.03	0.2
内存	8 / 0.8	0 / 0.08	0.7
总	126 / 13.3	0 / 2.46	10.0

计算:

$\sum (λ - λ_{S}) = 126 - 13.3 = 112.7$
$\sum (λ_{SPF} + λ_{RF}) = 0 + 2.46 = 2.46$
SPFM = $1 - 2.46/112.7 = 97.8%$ ← 满足 ASIL C(97%),不够 ASIL D(99%)
$\sum (λ - λ_{SPF} - λ_{RF} - λ_{S}) = 112.7 - 2.46 = 110.24$
LFM = $1 - 10.0/110.24 = 90.9%$ ← 满足 ASIL D(90%)

工程含义:这个设计LFM 达 ASIL D 但 SPFM 只达 ASIL C——必须增强 SM 来减小 $λ_{RF}$ (把覆盖率提升到 90% 以上的元件改成 99%)。最大头是传感器的 $λ_{RF} = 1.5$ FIT,优先动它。

核心要点

失效率四分解 $λ = λ_{SPF} + λ_{RF} + λ_{MPF} + λ_{S}$ 是 Part 5 数学基础,safe fault 必须 traceable 论证
DC 三档 60/90/99%,ASIL D 关键路径 99%,大部分 90%
SPFM 看"非 safe 失效率里 SM 覆盖比例",LFM 看"MPF 里非 latent 比例",PMHF 看"全寿命累积概率"
ASIL D 三目标:SPFM ≥ 99% / LFM ≥ 90% / PMHF ≤ 10 FIT,PMHF 最难
Annex D 给 9 类元件的 generic DC 参考表,项目里要算 specific DC(timing + implementation + masking)
SPFM 没达 D 时优先减大头 $λ_{RF}$ ,LFM 没达 D 时优先增加周期诊断频率把 latent 转 detected

Engineering Objects

引用此页的结构化 Engineeri…

引用此页的结构化 Engineering Object(v2.0 Copilot 自动生成,不要手动编辑此段)。

metric · metric_dc — DC — Diagnostic Coverage
metric · metric_lfm — LFM — Latent Fault Metric
metric · metric_pmhf — PMHF — Probabilistic Metric for Random HW Failures
metric · metric_spfm — SPFM — Single Point Fault Metric
standard · standard_iso26262_part5 — ISO 26262-5 (2018) 硬件层

Cross-references

← 索引
功能安全(Functional Safety):FuSa 总框架
ISO 26262 硬件要素三类分类:I/II/III 类硬件元件分类
DFA / FMEDA / FTA:安全分析方法实战
硬件元件评估:元件评估流程
硬件元件分类:分类方法
HV 主驱逆变器 ISO 26262 安全概念:FSC/TSC 上层应用
扭矩安全(Torque Safety ASIL D):应用层安全功能
安全机制目录:SM 库
电流采样 SM:传感器 DC 例
栅极驱动诊断 SM:驱动 DC 例
IEC 61508 概览:ISO 26262 母标准