PMHF 为什么是同一张分账表的三个比值,以及 ASIL D 阈值从哪来

本质与导读

专家养成 · 模块一(功能安全)· B 阶第 1 讲,也是 B 阶的开篇。A 阶把功能安全的骨架立住了:FS-A1 给出"下行分解、上行聚合"的双向单一逻辑链,并点名上行聚合需要概率 / 逻辑 / 实测三类证据;FS-A2 把风险压成 S/E/C 三维、ASIL 五档,看清 ASIL 本质是一套定量预算;FS-A5 把需求细化的"覆盖且不超出"钉死。但 A 阶一直欠着一笔账:概率证据那一支——FMEDA——到底怎么算?SPFM 99%、LFM 90%、PMHF 10 FIT 这三个 ASIL D 阈值,凭什么是这三个数?今天把这支证据从第一性原理推到底:你会看到 SPFM / LFM / PMHF 不是三个独立指标,而是同一张失效率分账表上切出来的三个比值,理解了那张表,三个数和它们的阈值就全通了。

开篇:硬约束——"够不够安全"算不出,但"每种失效有没有被管住"能逐条算

FS-A1 已经论证过:对一个上千器件的逆变器整体下"它够安全"的结论,既不可信也不可论证。FMEDA 的全部巧思,就是把这个算不出的整体命题,换成一个能逐条枚举的局部命题——不是问"系统安不安全",而是问"这颗器件的这种失效模式,会不会捅穿安全目标;如果会,有没有安全机制(SM)把它管住"。

为什么这个转换是合法的、而且是唯一可行的?因为失效是可枚举的离散事件:每颗器件有有限的失效模式(开路、短路、漂移……),每种模式要么影响安全目标要么不影响,影响的那些要么被某个 SM 覆盖要么裸奔。一旦把每颗器件的失效率 $λ$ 按这两刀切开,整个 item 的安全性就坍缩成一张分账表——每一份失效率都被归到一个确定的格子里。SPFM、LFM、PMHF 三个指标,本质上只是问这张表"裸奔的失效率占多大比例""潜伏的占多大比例""绝对到了每小时多少次"——三个问题,三个比值,同一张表。

所以 FMEDA 的硬约束是:安全性的可论证版本 = 一张穷尽的失效率分账表,把不可论证的整体断言换成可累加的逐条记账。这一讲就干两件事:把那张表的两刀切清楚(它决定一切),再看三个指标和它们的 ASIL D 阈值如何从表里长出来。

中段一:第一刀与第二刀——失效率分账表的两次切分

FMEDA 的全部数学都建立在对每颗器件失效率 $λ$ 的两次正交切分上。切错一刀,后面三个指标全错,所以这是最该讲透的地方。

第一刀:按安全相关性切——安不安全(Safe vs Dangerous)。 一颗器件的失效,要么会让 item 偏离安全目标(危险失效 $λ_{D}$ ),要么不会(安全失效 $λ_{S}$ )。判据只有一个:这个失效能不能成为违反某条安全目标的一环。MCU 跑飞导致非预期扭矩——危险;同一颗 MCU 的一个调试 UART 引脚开路——安全(不在任何 SG 的因果链上)。这一刀的因果根因是:只有危险失效才消耗安全预算, $λ_{S}$ 从此出局,后面所有分母都只认 $λ_{D}$ 。这也解释了一个反直觉现象——把一个失效论证成 safe(给出它不影响 SG 的理由)和给它加诊断,对指标是等效的,前者还免费。

第二刀:对危险失效 $λ_{D}$ ,按"有没有 SM、SM 覆盖到没"再切。 这一刀切出四个互斥的桶,穷尽 $λ_{D}$ :

$λ_{SPF}$ (单点故障,Single-Point Fault):这个危险失效根本没有任何 SM 盯着。它一旦发生,一步直达危害,没有任何拦截。这是最致命的一类。
$λ_{RF}$ (残余故障,Residual Fault):有 SM,但诊断覆盖率 $DC < 100%$ ,漏掉的那一部分。数学上 $λ_{RF} = λ_{D, covered-intent} \cdot (1 - DC)$ ——SM 想管,但没管全,漏网的等效于裸奔。 $λ_{SPF}$ 和 $λ_{RF}$ 在安全后果上同质:都是单个故障即可致害,区别只是前者无 SM、后者 SM 漏检。
$λ_{MPF, L}$ (潜伏多点故障,latent):这个失效单独不致害(要叠加第二个独立故障才捅穿,典型是 SM 自身失效),且没被任何手段察觉。它是 LFM 要治的对象,对应 FS-A3 讲的 MPFDTI 那根慢轴。
$λ_{MPF, D P}$ (已感知/已检测多点故障):同样单独不致害,但被检测或被驾驶员感知了——上电自检逮到、或仪表点亮告警。它已被管住,不计入任何"坏账"。

记账恒等式(对每颗器件,再对整个 item 求和):

λ = λ_{S} + 单点坏账 λ_{SPF} + λ_{RF} + 潜伏坏账 λ_{MPF, L} + 已管住 λ_{MPF, D P}

这张表就是 FMEDA 的全部状态。三个指标接下来要做的,只是对这张表的不同子集求比。把这两刀和四个桶刻进脑子,FMEDA 再不是公式背诵。

中段二:三个指标——同一张表的三个比值,以及阈值的语义

现在三个 ASIL D 指标全部从上面那张表读出。关键认知:SPFM 与 LFM 是"相对架构质量"指标(无量纲比例,问坏账占比),PMHF 是"绝对残余风险"指标(有量纲,每小时多少次)——前两个查架构好不好,后一个查真实危害率够不够低,缺一不可。

SPFM(单点故障度量) 问:危险失效里,没被单点坏账吃掉的占多大比例。

SPFM = 1 - \frac{\sum ( λ _{SPF} + λ _{RF} )}{\sum λ _{D}}

分子是全部单点坏账,分母是全部危险失效。 $SPFM \geq 99%$ (ASIL D)的语义因此是:整个 item 的危险失效率里,允许"单个故障即致害且无拦截"的部分,最多 1%。 为什么是 99% 而非别的数?它是 ISO 26262-5 的规范表值,但其工程由来可从第一性原理还原:单点故障是架构缺陷(意味着存在一条没有冗余 / 诊断的致害单链),99% 这条线高到逼着你要么给绝大多数危险失效配 SM、要么把它们论证成 safe——它实质上是在用一个比例阈值禁止"裸奔单链"成为架构主体。

LFM(潜伏故障度量) 问:不是单点的那些危险失效里,**没有潜伏(都被察觉了)**的占多大比例。

LFM = 1 - \frac{\sum λ _{MPF, L}}{\sum ( λ _{D} - λ _{SPF} - λ _{RF} )}

注意分母:它是 $λ_{D}$ 扣掉单点坏账后剩下的多点候选——因为单点故障已经被 SPFM 管了,LFM 只负责剩下的多点世界。 $LFM \geq 90%$ 的语义:多点候选里,允许"悄悄坏掉、要等第二个故障才暴露"的部分最多 10%。 它治的是 FS-A3 那个"SM 自己先坏了没人知道"的潜伏失效,靠 MPFDTI(上电自检 / 驾驶循环)把潜伏率压下来。阈值比 SPFM 松(90% vs 99%),因为多点故障要两个独立事件叠加才致害,本就稀有一个数量级,风险容忍度相应放宽——这正是 FS-A2 概率语义的延续。

PMHF(随机硬件失效概率度量) 不再是比例,而是绝对的每小时危害率,直接和 FS-A2 的风险概率对齐:

PMHF \approx \sum (λ_{SPF} + λ_{RF}) + pairs \sum λ_{MPF, L}^{(1)} \cdot λ_{MPF, L}^{(2)} \cdot T_{life}

第一项是单点坏账的失效率(单个故障即致害,直接计入危害率);第二项是双点项——两个潜伏失效在寿命 $T_{life}$ 内先后到齐的联合概率率。 $PMHF \leq 10 FIT = 1 0^{- 8} / h$ (ASIL D)的由来:它是把"该 item 对个体致死风险的贡献"压到社会可接受残余水平的概率目标,与 SPFM/LFM 互补——后两者保证架构没有比例上的坏账主体,PMHF 保证即使比例达标、绝对率也确实够低(一个全是低 $λ$ 器件的系统可能 SPFM 不够但 PMHF 极低,反之亦然,所以必须双查)。

FMEDA 失效率分账表与三度量映射 — 左:一颗 λ 两刀四桶,λ 分 λS/λD,λD 再分 λSPF(无SM)/λRF=λD(1-DC)(残余漏检)/λMPF,L(潜伏)/λMPF,DP(已察觉);右:三股坏账各对一道闸,SPFM=1−(λSPF+λRF)/λD≥99%(单点坏账占比,相对)、LFM=1−λMPF,L/(λD−λSPF−λRF)≥90%(潜伏坏账占比,相对)、PMHF=(λSPF+λRF)+双点项≤10FIT(绝对危害率,有量纲);底:三个比值同出一张分账表,比例达标≠绝对达标,必须三查互不可替

中段三:worked example——一条主驱保护链的 FMEDA 试算

把三个公式落到数。取一条简化的主驱过流保护链,四个安全相关器件,失效率取自手册 / SN 29500,危险失效占比(DC、安全比例)由 FMEA 给出。目标:验证它过不过 ASIL D。

器件	$λ$ (FIT)	危险占比	$λ_{D}$	SM 与 DC	归桶
电流传感器	100	60%	60	合理性比对 DC=90%	$λ_{RF} = 60 \times 0.10 = 6$ ,余 54 已覆盖
栅极驱动	200	50%	100	DESAT DC=99%	$λ_{RF} = 100 \times 0.01 = 1$ ,余 99 已覆盖
偏置电阻	10	50%	5	无 SM	$λ_{SPF} = 5$
看门狗(SM 自身)	20	100%	20	上电自检 DC=25%	$λ_{MPF, L} = 20 \times 0.75 = 15$ ,余 5 为 $λ_{MPF, D P}$

先汇总分账表: $\sum λ_{D} = 60 + 100 + 5 + 20 = 185 FIT$ ;单点坏账 $\sum (λ_{SPF} + λ_{RF}) = 5 + 6 + 1 = 12 FIT$ ;潜伏坏账 $\sum λ_{MPF, L} = 15 FIT$ 。

SPFM:

SPFM = 1 - \frac{12}{185} = 1 - 0.0649 = 93.5%

不达标( $< 99%$ )。坏账主要来自传感器残余 6 FIT 和电阻裸奔 5 FIT。诊断:传感器 DC 从 90% 提到 99%(更强的双通道比对)→ $λ_{RF}$ 降到 0.6;电阻论证成 safe 或加监测 → $λ_{SPF} \to 0$ 。重算单点坏账 $\approx 0.6 + 1 = 1.6 FIT$ :

SPFM^{'} = 1 - \frac{1.6}{185} = 99.1% ✓

这一步就是 FMEDA 的工程价值:它不只给分,更精确指出 1% 坏账卡在哪颗器件的哪个 DC 上,把"提升安全性"这种空话变成"传感器比对 DC 必须 ≥99%、电阻必须论证 safe"两条可执行的 TSR。

LFM(用改进后的表, $\sum (λ_{SPF} + λ_{RF}) \approx 1.6$ ):

LFM = 1 - \frac{15}{185 - 1.6} = 1 - \frac{15}{183.4} = 91.8% ✓

刚过 90%。坏账是看门狗 75% 的潜伏率——上电自检只覆盖 25% 太弱。若想要裕度,把看门狗自检 DC 提到 60%, $λ_{MPF, L} \to 8$ ,LFM 升到 $1 - 8/183.4 = 95.6%$ 。

PMHF:单点项 $\approx 1.6 FIT$ ;双点项以看门狗潜伏 $\times$ 第二故障估算,数量级 $λ_{MPF, L} \cdot λ \cdot T_{life} \sim 8 \times 1 0^{- 9} \cdot 100 \times 1 0^{- 9} \cdot 1.2 \times 1 0^{4} \approx 1 0^{- 11} / h$ ,即 $\sim 0.01 FIT$ ,可忽略。故

PMHF \approx 1.6 FIT \leq 10 FIT ✓

三个指标全过。注意 PMHF 几乎全由单点坏账贡献、双点项小到忽略——这是绝大多数实际 FMEDA 的常态,也解释了为什么工程上 PMHF 优化几乎等价于 SPFM 优化:压住单点坏账,绝对危害率自然下来。

落到工程结论:三条带得走的准则

把推导收成三条可直接用的判断:

先建分账表,再谈指标。 任何 FMEDA 争议(这个数为什么不达标、改哪)都要回到"两刀四桶":这份 $λ$ 归 safe 还是 dangerous?dangerous 进了哪个桶?三个指标只是表的比值,表对了指标自洽,表错了改公式没用。
三个指标分工不可互替。 SPFM 查"单点坏账占比"(架构有没有裸奔单链),LFM 查"潜伏坏账占比"(SM 会不会悄悄死),PMHF 查"绝对危害率"(够不够罕见)。一个全低 $λ$ 系统可能 PMHF 达标却 SPFM 不达标(比例上仍有裸奔单链),反之亦然——必须三个全查,差一个就有一类坏账没被堵。
FMEDA 的产物是 TSR,不是分数。 算出 SPFM 差 1%,真正的交付是"哪颗器件的 DC 必须提到多少 / 哪个失效必须论证成 safe"这组可验证需求。分数只是体检报告,处方是落到 FSR/TSR 写法的诊断需求。而每一个 DC 数字本身是否站得住,是下一讲的事。

承上启下:今天把 A 阶欠的概率证据…

承上启下:今天把 A 阶欠的概率证据这一支补齐了——FMEDA 把"系统安不安全"换成一张穷尽的失效率分账表(safe/dangerous 第一刀、SPF/RF/MPF-L/MPF-DP 第二刀),SPFM / LFM / PMHF 只是这张表的三个比值,99%/90%/10 FIT 三条 ASIL D 阈值分别在禁止裸奔单链、压住潜伏失效、保证绝对罕见。但整套计算有一个被反复当输入喂进去、却从没被质疑的量:诊断覆盖率 DC。传感器比对凭什么 claim 90%?DESAT 凭什么 99%?下一讲 FS-B2 拆 DC 的 claim 逻辑:ISO 26262-5 Annex D 要什么证据,高 / 中 / 低 DC(99%/90%/60%)各自的判据与最常见的虚高陷阱——正是今天每个 $λ_{RF} = λ_{D} (1 - DC)$ 里那个 DC 的可信度根基。预热可读诊断覆盖率分级。

FS-B1 — FMEDA 数学全推导:SPFM / LFM / PMHF 为什么是同一张分账表的三个比值,以及 ASIL D 阈值从哪来

本质与导读

1. 开篇:硬约束——"够不够安全"算不出,但"每种失效有没有被管住"能逐条算

2. 中段一:第一刀与第二刀——失效率分账表的两次切分

3. 中段二:三个指标——同一张表的三个比值,以及阈值的语义

4. 中段三:worked example——一条主驱保护链的 FMEDA 试算

5. 落到工程结论:三条带得走的准则

5.1. 延伸阅读

开篇:硬约束——"够不够安全"算不出,但"每种失效有没有被管住"能逐条算

中段一:第一刀与第二刀——失效率分账表的两次切分

中段二:三个指标——同一张表的三个比值,以及阈值的语义

中段三:worked example——一条主驱保护链的 FMEDA 试算

落到工程结论:三条带得走的准则

延伸阅读