FS-B1 — FMEDA 数学全推导:SPFM / LFM / PMHF 为什么是同一张分账表的三个比值,以及 ASIL D 阈值从哪来
本质与导读
专家养成 · 模块一(功能安全)· B 阶第 1 讲,也是 B 阶的开篇。A 阶把功能安全的骨架立住了:FS-A1 给出"下行分解、上行聚合"的双向单一逻辑链,并点名上行聚合需要概率 / 逻辑 / 实测三类证据;FS-A2 把风险压成 S/E/C 三维、ASIL 五档,看清 ASIL 本质是一套定量预算;FS-A5 把需求细化的"覆盖且不超出"钉死。但 A 阶一直欠着一笔账:概率证据那一支——FMEDA——到底怎么算?SPFM 99%、LFM 90%、PMHF 10 FIT 这三个 ASIL D 阈值,凭什么是这三个数?今天把这支证据从第一性原理推到底:你会看到 SPFM / LFM / PMHF 不是三个独立指标,而是同一张失效率分账表上切出来的三个比值,理解了那张表,三个数和它们的阈值就全通了。
开篇:硬约束——"够不够安全"算不出,但"每种失效有没有被管住"能逐条算
FS-A1 已经论证过:对一个上千器件的逆变器整体下"它够安全"的结论,既不可信也不可论证。FMEDA 的全部巧思,就是把这个算不出的整体命题,换成一个能逐条枚举的局部命题——不是问"系统安不安全",而是问"这颗器件的这种失效模式,会不会捅穿安全目标;如果会,有没有安全机制(SM)把它管住"。
为什么这个转换是合法的、而且是唯一可行的?因为失效是可枚举的离散事件:每颗器件有有限的失效模式(开路、短路、漂移……),每种模式要么影响安全目标要么不影响,影响的那些要么被某个 SM 覆盖要么裸奔。一旦把每颗器件的失效率 按这两刀切开,整个 item 的安全性就坍缩成一张分账表——每一份失效率都被归到一个确定的格子里。SPFM、LFM、PMHF 三个指标,本质上只是问这张表"裸奔的失效率占多大比例""潜伏的占多大比例""绝对到了每小时多少次"——三个问题,三个比值,同一张表。
所以 FMEDA 的硬约束是:安全性的可论证版本 = 一张穷尽的失效率分账表,把不可论证的整体断言换成可累加的逐条记账。这一讲就干两件事:把那张表的两刀切清楚(它决定一切),再看三个指标和它们的 ASIL D 阈值如何从表里长出来。
中段一:第一刀与第二刀——失效率分账表的两次切分
FMEDA 的全部数学都建立在对每颗器件失效率 的两次正交切分上。切错一刀,后面三个指标全错,所以这是最该讲透的地方。
第一刀:按安全相关性切——安不安全(Safe vs Dangerous)。 一颗器件的失效,要么会让 item 偏离安全目标(危险失效 ),要么不会(安全失效 )。判据只有一个:这个失效能不能成为违反某条安全目标的一环。MCU 跑飞导致非预期扭矩——危险;同一颗 MCU 的一个调试 UART 引脚开路——安全(不在任何 SG 的因果链上)。这一刀的因果根因是:只有危险失效才消耗安全预算, 从此出局,后面所有分母都只认 。这也解释了一个反直觉现象——把一个失效论证成 safe(给出它不影响 SG 的理由)和给它加诊断,对指标是等效的,前者还免费。
第二刀:对危险失效 ,按"有没有 SM、SM 覆盖到没"再切。 这一刀切出四个互斥的桶,穷尽 :
- (单点故障,Single-Point Fault):这个危险失效根本没有任何 SM 盯着。它一旦发生,一步直达危害,没有任何拦截。这是最致命的一类。
- (残余故障,Residual Fault):有 SM,但诊断覆盖率 ,漏掉的那一部分。数学上 ——SM 想管,但没管全,漏网的等效于裸奔。 和 在安全后果上同质:都是单个故障即可致害,区别只是前者无 SM、后者 SM 漏检。
- (潜伏多点故障,latent):这个失效单独不致害(要叠加第二个独立故障才捅穿,典型是 SM 自身失效),且没被任何手段察觉。它是 LFM 要治的对象,对应 FS-A3 讲的 MPFDTI 那根慢轴。
- (已感知/已检测多点故障):同样单独不致害,但被检测或被驾驶员感知了——上电自检逮到、或仪表点亮告警。它已被管住,不计入任何"坏账"。
记账恒等式(对每颗器件,再对整个 item 求和):
这张表就是 FMEDA 的全部状态。三个指标接下来要做的,只是对这张表的不同子集求比。把这两刀和四个桶刻进脑子,FMEDA 再不是公式背诵。
中段二:三个指标——同一张表的三个比值,以及阈值的语义
现在三个 ASIL D 指标全部从上面那张表读出。关键认知:SPFM 与 LFM 是"相对架构质量"指标(无量纲比例,问坏账占比),PMHF 是"绝对残余风险"指标(有量纲,每小时多少次)——前两个查架构好不好,后一个查真实危害率够不够低,缺一不可。
SPFM(单点故障度量) 问:危险失效里,没被单点坏账吃掉的占多大比例。
分子是全部单点坏账,分母是全部危险失效。(ASIL D)的语义因此是:整个 item 的危险失效率里,允许"单个故障即致害且无拦截"的部分,最多 1%。 为什么是 99% 而非别的数?它是 ISO 26262-5 的规范表值,但其工程由来可从第一性原理还原:单点故障是架构缺陷(意味着存在一条没有冗余 / 诊断的致害单链),99% 这条线高到逼着你要么给绝大多数危险失效配 SM、要么把它们论证成 safe——它实质上是在用一个比例阈值禁止"裸奔单链"成为架构主体。
LFM(潜伏故障度量) 问:不是单点的那些危险失效里,**没有潜伏(都被察觉了)**的占多大比例。
注意分母:它是 扣掉单点坏账后剩下的多点候选——因为单点故障已经被 SPFM 管了,LFM 只负责剩下的多点世界。 的语义:多点候选里,允许"悄悄坏掉、要等第二个故障才暴露"的部分最多 10%。 它治的是 FS-A3 那个"SM 自己先坏了没人知道"的潜伏失效,靠 MPFDTI(上电自检 / 驾驶循环)把潜伏率压下来。阈值比 SPFM 松(90% vs 99%),因为多点故障要两个独立事件叠加才致害,本就稀有一个数量级,风险容忍度相应放宽——这正是 FS-A2 概率语义的延续。
PMHF(随机硬件失效概率度量) 不再是比例,而是绝对的每小时危害率,直接和 FS-A2 的风险概率对齐:
第一项是单点坏账的失效率(单个故障即致害,直接计入危害率);第二项是双点项——两个潜伏失效在寿命 内先后到齐的联合概率率。(ASIL D)的由来:它是把"该 item 对个体致死风险的贡献"压到社会可接受残余水平的概率目标,与 SPFM/LFM 互补——后两者保证架构没有比例上的坏账主体,PMHF 保证即使比例达标、绝对率也确实够低(一个全是低 器件的系统可能 SPFM 不够但 PMHF 极低,反之亦然,所以必须双查)。
中段三:worked example——一条主驱保护链的 FMEDA 试算
把三个公式落到数。取一条简化的主驱过流保护链,四个安全相关器件,失效率取自手册 / SN 29500,危险失效占比(DC、安全比例)由 FMEA 给出。目标:验证它过不过 ASIL D。
| 器件 | (FIT) | 危险占比 | SM 与 DC | 归桶 | |
|---|---|---|---|---|---|
| 电流传感器 | 100 | 60% | 60 | 合理性比对 DC=90% | ,余 54 已覆盖 |
| 栅极驱动 | 200 | 50% | 100 | DESAT DC=99% | ,余 99 已覆盖 |
| 偏置电阻 | 10 | 50% | 5 | 无 SM | |
| 看门狗(SM 自身) | 20 | 100% | 20 | 上电自检 DC=25% | ,余 5 为 |
先汇总分账表:;单点坏账 ;潜伏坏账 。
SPFM:
不达标()。坏账主要来自传感器残余 6 FIT 和电阻裸奔 5 FIT。诊断:传感器 DC 从 90% 提到 99%(更强的双通道比对)→ 降到 0.6;电阻论证成 safe 或加监测 → 。重算单点坏账 :
这一步就是 FMEDA 的工程价值:它不只给分,更精确指出 1% 坏账卡在哪颗器件的哪个 DC 上,把"提升安全性"这种空话变成"传感器比对 DC 必须 ≥99%、电阻必须论证 safe"两条可执行的 TSR。
LFM(用改进后的表,):
刚过 90%。坏账是看门狗 75% 的潜伏率——上电自检只覆盖 25% 太弱。若想要裕度,把看门狗自检 DC 提到 60%,,LFM 升到 。
PMHF:单点项 ;双点项以看门狗潜伏 第二故障估算,数量级 ,即 ,可忽略。故
三个指标全过。注意 PMHF 几乎全由单点坏账贡献、双点项小到忽略——这是绝大多数实际 FMEDA 的常态,也解释了为什么工程上 PMHF 优化几乎等价于 SPFM 优化:压住单点坏账,绝对危害率自然下来。
落到工程结论:三条带得走的准则
把推导收成三条可直接用的判断:
-
先建分账表,再谈指标。 任何 FMEDA 争议(这个数为什么不达标、改哪)都要回到"两刀四桶":这份 归 safe 还是 dangerous?dangerous 进了哪个桶?三个指标只是表的比值,表对了指标自洽,表错了改公式没用。
-
三个指标分工不可互替。 SPFM 查"单点坏账占比"(架构有没有裸奔单链),LFM 查"潜伏坏账占比"(SM 会不会悄悄死),PMHF 查"绝对危害率"(够不够罕见)。一个全低 系统可能 PMHF 达标却 SPFM 不达标(比例上仍有裸奔单链),反之亦然——必须三个全查,差一个就有一类坏账没被堵。
-
FMEDA 的产物是 TSR,不是分数。 算出 SPFM 差 1%,真正的交付是"哪颗器件的 DC 必须提到多少 / 哪个失效必须论证成 safe"这组可验证需求。分数只是体检报告,处方是落到 FSR/TSR 写法 的诊断需求。而每一个 DC 数字本身是否站得住,是下一讲的事。
承上启下:今天把 A 阶欠的概率证据…
承上启下:今天把 A 阶欠的概率证据这一支补齐了——FMEDA 把"系统安不安全"换成一张穷尽的失效率分账表(safe/dangerous 第一刀、SPF/RF/MPF-L/MPF-DP 第二刀),SPFM / LFM / PMHF 只是这张表的三个比值,99%/90%/10 FIT 三条 ASIL D 阈值分别在禁止裸奔单链、压住潜伏失效、保证绝对罕见。但整套计算有一个被反复当输入喂进去、却从没被质疑的量:诊断覆盖率 DC。传感器比对凭什么 claim 90%?DESAT 凭什么 99%?下一讲 FS-B2 拆 DC 的 claim 逻辑:ISO 26262-5 Annex D 要什么证据,高 / 中 / 低 DC(99%/90%/60%)各自的判据与最常见的虚高陷阱——正是今天每个 里那个 DC 的可信度根基。预热可读 诊断覆盖率分级。
延伸阅读
- FMEDA 深度 — 本讲的完整工程展开(失效模式分布、SN 29500 取值、工具链)
- FIT 与 FMEDA 计算 — 失效率 FIT 的物理来源与浴盆曲线
- 诊断覆盖率分级 — 下一讲主题,DC 的 claim 判据
- 驱动 IC FMEDA worked · EV ECU FMEDA 集成 — 真实器件 / 整 ECU 的 FMEDA 算例
- ASIL 分解深度 — SPFM/LFM 如何随 D=B(D)+B(D) 分解变化
- 功能安全工程师指南(模块 hub)