FIT / FMEDA 工程化计算 — 从元件数据到 SPFM/LFM/PMHF
本质与导读
本质 FMEDA 不是"查 SN29500 → 套 Excel → 出 SPFM/LFM/PMHF"那么干净:FIT 是 reference baseline、加速测试、field return 加温度/电压/电流应力修正的一整条数据链,DC 也得按 fault distribution 和 fault model 分别 claim——每一步都有失真源。最终 SPFM/LFM/PMHF 目标值与 ASIL 一一对应,差一点补 SM,差很多重做拓扑。
1. FIT 是什么 — 三种来源,一个目标
工程上的 FIT(Failures In Time)定义统一:每 元件小时的随机失效数(1 FIT = 1 失效 / device-hours)。但这个数字从哪来有三条路径,工程上必须分清楚再用,否则数字混着就算错。
1.1 三条 FIT 数据来源
不同元件类型对应不同主源,典型工程项目按"主源 + 兜底"组合用。下表是常见对应关系:
| 来源 | 性质 | 适用 | 典型值范围 |
|---|---|---|---|
| Datasheet FIT | 厂家给的 + 多基于 HTOL/HAST/TC 综合 | 主控 IC / SBC / Driver / SoC | 数 FIT 到 100+ FIT |
| SN29500 / IEC 62380 reference | 行业平均参考 | 被动元件 / 连接器 / PCB | 0.1-10 FIT 量级 |
| Field return | 厂内 / 客户实测 | 量产后或类似产品 | 经常和前两个差 2-5x |
实际项目几乎不会"纯一条线",而是混合:
1.2 datasheet FIT 的隐藏前提
datasheet 给的 FIT 不是"在你这个项目工况下的 FIT",而是HTOL 测试条件下的 FIT 通过加速因子换算回 use condition 的等效 FIT。厂家给的常见格式:
FIT: 10 @ 55°C ambient, 1000 hours, 0.6 confidence
意思:基于 HTOL 测试(125°C 结温,1000 小时,样本量 N),0 个失效或某个观察到的失效数,按 分布算出 60% 置信上限,再用 Arrhenius 加速因子换到 55°C ambient(典型对应 ~85°C 结温)的 baseline。
直接拿这个数字算项目 FIT 之前要回答两个问题:
- 厂家给的 ambient 温度和你项目的实际工况温度一样吗?差越大需要的二次修正越大
- 厂家用的活化能 是什么?常见 0.7 eV(综合)/ 0.4 eV(NBTI 主导)/ 0.9 eV(TDDB 主导),用错一档可能差 5x
2. 应力修正 — π-factor 工程化公式
把任何来源的 reference FIT 修正到项目实际工况,统一用乘性 π-factor 模型。SN29500 / IEC 61709 / FIDES 都遵守这个框架,只是各自的 π-factor 函数形式略有差别。
2.1 综合公式
完整的 device-level FIT 计算:
其中各因子物理意义:
- — 温度修正(Arrhenius)
- — 电压应力(介电 / 雪崩相关)
- — 电流应力(自加热 + 电迁移)
- — 环境因子(car / industrial / consumer / military)
- — 质量等级(AEC-Q / 商业级 / 军规级)
- — 应用相关(切换频率、应力循环深度等,FIDES 才有)
工程上 几乎总是最大的修正项,其它叠加幅度通常一两倍, 一项就能差一个量级。
2.2 温度修正 — Arrhenius
温度修正基于 Arrhenius 反应速率方程:
其中:
- — 活化能(eV),失效机理决定。典型 IC 用 0.4-0.7 eV
- — Boltzmann 常数
- — reference 温度(K)
- — 实际结温(K)
工程上记一条经验: 时,温度每升 10°C,FIT 约翻倍。比如把 55°C 用到 85°C,。
如果失效机制混合(典型 IC), 取 0.7 eV,温度对 FIT 的放大稍弱(每 10°C 约 1.7 倍)。
2.3 电压修正 — 介电相关
电压应力主要影响绝缘和介电类失效。常见的形式是幂律:
不同元件指数 经验值:
derating 的工程价值就在这条公式:把 800V 额定的器件用在 400V,,FIT 降两个数量级。
2.4 电流修正
电流应力主要通过两条路径影响 FIT:
- 间接(自加热):电流→功耗→结温升高→ Arrhenius 放大,这部分在 里已经计入,不要重复计入
- 直接(电迁移 EM):金属互连原子的电流冲击,与 成比例
工程上 简化形式:
对功率器件 的影响一般弱于 ,FMEDA 速算先抓温度,电流次之。
2.5 质量与环境修正 /
质量等级修正反映同样元件通过 AEC-Q / 军规筛选后实际 FIT 比 datasheet baseline 更低,环境修正反映目标 mission profile 与参考工况的差异。典型质量等级 :
| 等级 | 典型值 | 适用 |
|---|---|---|
| Military / Space | 0.5 | 军用 / 航天 |
| Automotive (AEC-Q) | 1.0 | 车规 baseline |
| Industrial | 1.5-2 | 工业 |
| Commercial | 3-5 | 消费 |
环境因子 类似,根据 mission profile(温度 / 振动 / 湿度 / 海拔)取。SN29500 默认数字往往隐含 commercial grade + benign env,搬到 ASIL D 场景必须乘 拉低(AEC-Q 元件实测 FIT 更低)和乘 拉高(车规环境严苛)。
3. HTOL 加速测试 → FIT 的换算
HTOL(High Temperature Operating Life)是芯片量产前的可靠性筛查标准:在高温(典型 125°C / 150°C 结温)持续工作 1000 小时,观察样本失效数。结果通过加速因子换算到 use condition 的 baseline FIT。
3.1 χ² 置信上限
实测 个失效在 个样本 × 小时下,带置信度 的失效率上限:
工程上常见 60% 单边置信度。当 时,,简化为:
样本 跑 1000 小时,0 个失效的 60% UCL ≈ = 3978 FIT。注意这是HTOL 测试条件下的 FIT,不是 use condition。
3.2 加速因子
把 HTOL 条件 FIT 换到 use condition,用 Arrhenius 加速因子:
举例:HTOL 测试 ,use condition ,:
所以:
这就是 datasheet 标"FIT: 121 @ 85°C use temperature, 60% conf"的由来。
3.3 多失效模式叠加
实际芯片 FIT 不只一个机制,要把不同模式的 加权叠:
不同失效模式 不同(TDDB 0.9 / NBTI 0.4 / HCI 0.3 / EM 0.7),不能用一个 一刀切。
4. 温度循环 TC 测试 → FIT 贡献
TC(Temperature Cycling,JESD22-A104)测试评估热循环引起的失效(焊点疲劳 / 引线键合 / 封装应力)。它和 HTOL 评估不同维度的失效,工程上要分别计入。
4.1 Coffin-Manson 模型
热循环引起的失效寿命用 Coffin-Manson 模型:
其中 是失效循环数, 是循环温差, 是材料相关指数。SAC305 焊料 ,Sn-Pb 焊料 。
把 TC 测试结果换到 use condition:
三项分别是温差、频率、最高温度三个维度的修正。工程上常用简化版:
测试 (-40 to +125)、use ,。
4.2 把 TC FIT 加进总 FIT
TC 测试 1000 cycles 0 失效:类似 HTOL 算 ,然后除以 得到 ,再加到 HTOL-based 上:
这就是为什么严格的 datasheet 会列分项 FIT,比如 "Component FIT: 100 (HTOL) + 30 (TC) + 10 (HAST) = 140 FIT total"。
4.3 实务上 TC 贡献被忽略的常见错算
工程师拿到 datasheet 的"FIT: 100",直接用作 FMEDA 输入,假设这已经包含 TC / HAST 贡献。但很多厂家的"FIT"只标 HTOL 数字,TC / HAST 的失效率单独走 PPM 计数,需要另外算 + 加上。
判断:datasheet 里有没有 "@ HTOL conditions" / "based on JESD85" / "temperature cycling not included" 这类注释。有则 TC 还要单独加。
5. 失效模式分类 — FMEDA 的"分母"和"分子"
FMEDA 计算的本质是把元件总 FIT 拆成多个子集合,看哪些子集合的失效会绕过安全机制传到 SG。所有比率指标都基于这个拆分。下图把整条计算链一次串起来——从三源 FIT 出发,经 π 应力修正得 ,先拆 SR / NSR,再在 SR 内拆四态,最后经 DC 算出末端三指标:
5.1 第一层:Safety-Related vs Non Safety-Related
把 device 总 FIT 拆成两类:
- :Safety-Related,这个元件失效有可能导致 SG 违背
- :Non Safety-Related,失效与 SG 无关(辅助 LED / 标识 IC 等)
公式约束:
后续所有 FMEDA 指标只看 。 部分完全不参与 SPFM / LFM / PMHF 计算,这是工程上一个非常关键的优化点——SR 划分越窄,FMEDA 数字越好看,但要承担论证 + 审计风险。
5.2 第二层:Single-Point / Residual / Multi-Point Latent / Multi-Point Detected
在 内继续拆,按"有没有 SM 检测 + 检测到了之后会不会导致违 SG"四态分类:
- — Single-Point Fault:无 SM 检测,失效直接到 SG
- — Residual Fault:有 SM 但 SM 没检测到这部分,等价于 single-point
- — Multi-Point latent:本身不会单独违 SG,但 SM 不查它,会等到下次失效叠加才暴露
- — Multi-Point detected:同上但 SM 能查,不算 latent
公式约束:
6. 诊断覆盖率 DC — SM 到底盖住了多少
Diagnostic Coverage 是 SM 检测能力的核心指标。定义看起来简单:
但工程上有三个特别要小心的点。
6.1 区分 single-point DC 和 latent DC
ISO 26262 要求分别 claim 两个 DC:
这两个数通常差很多:
- 容易做高(实时 SM 检 single-point)
- 很难做高,因为 latent 故障要靠周期测试(power-on self-test / periodic memory scrub)而不是实时 SM,周期内 latent 故障会一直存在直到下次测试触发
6.2 单 SM 不要 claim 100%
任何 SM 都有"漏检模式"和"假阳/假阴"。工程上单个 SM 的 DC claim 99% 已经很激进,90-99% 是常见区间。要拿到 ASIL D 级别的 90%+ 整体 DC,通常需要 SM 组合 / 多层防御。
ISO 26262-5 Annex D 给参考表:diagnostic technique → typical achievable DC。比如 RAM CRC 90%, redundancy by inverted data 99%, parity bit 60%。
6.3 fault distribution 决定 DC 上限
即使 SM 完美覆盖某一类 fault model,DC 上限被 fault distribution 卡死。例:CPU FIT 100,其中 30% 是 SBSC、70% 是 FMC。一个只检 SBSC 的 watchdog,即使对 SBSC 检测 100%,整体 DC 也只能到 30%。
这就是为什么"安全机制存在 ≠ 高 DC"——SM 覆盖的 fault model 必须匹配元件的失效模式分布。
7. SPFM / LFM / PMHF — 三个比率指标的完整公式
ISO 26262-5 用三个指标判定硬件是否达到 ASIL 目标。每个指标公式 + ASIL B/C/D 目标值,记牢:
7.1 SPFM(Single Point Fault Metric)
衡量 SR fault 里"无 SM 防护"的比例的反值:
ASIL 目标(ISO 26262-5 Table 4):
| ASIL | SPFM 目标 |
|---|---|
| ASIL B | |
| ASIL C | |
| ASIL D |
7.2 LFM(Latent Fault Metric)
衡量 multi-point 部分里 latent 故障的比例的反值:
ASIL 目标(ISO 26262-5 Table 5):
| ASIL | LFM 目标 |
|---|---|
| ASIL B | |
| ASIL C | |
| ASIL D |
LFM 目标值显著低于 SPFM,因为 latent 故障物理上更难检。
7.3 PMHF(Probabilistic Metric for Hardware Failures)
PMHF 是单位小时的危险硬件失效率,单位 /h(等价 × FIT):
其中 是 mission lifetime(典型 8000 小时车规), 是 multi-point fault 出现到被检出的间隔(典型 100 小时或更短)。
ASIL 目标(ISO 26262-5 Table 6):
| ASIL | PMHF 目标(/h) |
|---|---|
| ASIL B | |
| ASIL C | |
| ASIL D |
注意:ASIL B/C PMHF 目标相同,但 SPFM 不同,所以 ASIL B 和 C 的差别在 SR 拆分严格度上。
8. 完整数值例子 — 一个简化的电流采样链
为了把上面的概念落到数字,假设一条 ASIL D 三相电流采样链:Shunt + AMC1306 (Sigma-Delta ADC) + SoC ADC,总 SR FIT 50。
8.1 数据假设
把假设和拆分都列出来再算,数字才有可解释性。下面是这个例子的输入与中间量:
- 总元件 SR FIT:50
- 假设 single-point candidates(无 SM):20 FIT
- (diagnostic + plausibility check):95%
- 即 SPF 中被 SM 检到的: FIT(变成 detected)
- Residual fault(SM 没检到): FIT
- Multi-point candidates:30 FIT
- (周期自测 + cross-check):75%
- MPF detected: FIT
- MPF latent: FIT
- SPF(真的无 SM 的 single-point):假设 = 0 FIT(因为前 20 已经定义为有 SM 但部分漏检 = residual,如果完全没 SM 那才是 SPF)
实务记号:,,,,(剩余 19 FIT 是 detected,不在 SR 公式分母里 — 这一步常见的混淆,detected 不算进违反 SG 的可能)
实务里更常见的口径是把 定为 50 FIT(包含 detected 部分),然后 SPF / RF / MPF latent 分子,这里走这个口径计算:
8.2 SPFM 计算
把 SPF + RF 的总和(代表"没被任何 SM 防住的 single-point 类失效")除以 SR 总分母,1 减得 SPFM:
判定:未达 ASIL D 99% 目标,差 1%。需要把 residual 进一步降到 0.5 FIT 以下(把 DC_SPF 提升到 97.5%+)。
8.3 LFM 计算
LFM 看 multi-point 部分里 latent 占比,分母先把 single-point 类失效从 SR 里挖掉:
判定:未达 ASIL D 90% 目标,差 5.3%。差距来源是 latent fault 7.5 FIT 偏高,要降到 4.9 FIT 以下。
8.4 PMHF 计算
假设 ,:
换算成 /h:
判定:未达 ASIL D 目标,差近 60 倍。PMHF 主要被 latent fault × 这一项放大,降 latent 比降 SPFM 杠杆大得多。
8.5 改进路径
从上面数值看,要达到 ASIL D 目标:
- 降 RF:DC_SPF 95% → 98% (添加冗余 ADC + 输入 plausibility),让 RF 从 1 → 0.4 FIT
- 降 latent:DC_LF 75% → 92%(把周期自测从 power-on only 改成 100 ms 周期),让 latent 从 7.5 → 2.4 FIT
- PMHF 重新算: —— 还是不够,差近 20 倍
第二轮改进还要 raise DC_LF 到 97%+,或者降 到 10 ms,才能达到 ASIL D。这就是为什么 ASIL D 通常要求实时(<100ms)周期自测,而不是只在上电时自测一次。
9. 工程实务里的常见陷阱
下面五个陷阱在量产 FMEDA 审计里是高频被拆穿点,提前避免。
9.1 datasheet FIT 和 SN29500 FIT 直接相加
datasheet 默认 reference temperature 是 55°C 或 85°C,SN29500 默认 40°C。直接相加不修正,会比真实数字偏小 2-3 倍(因为 SN29500 数据被低估温度提升后的 FIT)。
修正:全部归一化到项目 mission profile 温度(典型 105°C 结温),再 sum。
9.2 把 detected 算进 SR 分子
"既然 SM 检到了那个 fault,它就 detected,可以从 SR 里去掉" — 错。SR 的定义是"有可能违 SG",detected 故障虽然被检了,但没有去掉 SR 身份,只是被算到 分类,不放到 SPFM/LFM 分子。
9.3 假设 DC 100%
任何单 SM 不能 claim 100% DC,除非有完整 fault injection 测试覆盖证据(ISO 26262-11)。speculative claim "Watchdog 100% covers CPU SPF" 在审计里第一个被否。
9.4 latent fault 周期 用过长
默认很多团队写 lifetime(8000h)。这等价于完全不做周期自测,latent fault 在整个生命周期内累积。正确做法: = 项目里最长 latent fault 检测周期(典型 100 ms 实时 SM,或 hours 级别的 power-on self-test)。
9.5 不区分 SBSC / FMC fault model
CPU / ASIC 的 FMEDA 必须分别 claim SBSC DC 和 FMC DC。一些团队只算"整体 DC 80%",审计时被要求拆 fault model 后发现 FMC DC 只有 50%,SPFM 重算后退到 ASIL B 等级。
核心要点
- FIT 数据有三条来源(datasheet / SN29500 / field return),工程上混合用,但 reference temperature 必须归一化才能相加
- (Arrhenius 形式)是最大的修正因子,结温每升 10°C FIT 约翻倍;derating 通过 直接给指数级红利
- HTOL 给 baseline FIT,TC 给热循环分项 FIT,两者分别算分别加,不要假设 datasheet 数字已包含 TC
- vs 是 FMEDA 的第一层切分,SR 划得越窄数字越好但要承担论证风险
- 第二层切分 SPF / RF / MPF latent / MPF detected 是后续所有比率指标的分子来源
- SPFM 看 single-point 防护(ASIL D 99%),LFM 看 latent 防护(ASIL D 90%),PMHF 看小时级总危险率(ASIL D )
- DC 必须分 single-point 和 latent 分别 claim,latent DC 上限被周期测试间隔卡死
- ASIL D 通常要求 实时周期自测,不是只在上电时自测
- 任何单 SM 不能 claim 100% DC, fault distribution 才是真正贡献
- 5 大常见审计陷阱:温度未归一 / detected 算进 SR 分子 / 100% DC / 取 lifetime / 不分 SBSC vs FMC
Engineering Objects
引用此页的结构化 Engineeri…
引用此页的结构化 Engineering Object(v2.0 Copilot 自动生成,不要手动编辑此段)。
- metric ·
metric_dc— DC — Diagnostic Coverage - metric ·
metric_fit— FIT — Failure In Time - metric ·
metric_lfm— LFM — Latent Fault Metric - metric ·
metric_pmhf— PMHF — Probabilistic Metric for Random HW Failures - metric ·
metric_spfm— SPFM — Single Point Fault Metric
Cross-references
- ← 索引
- SN 29500 元件失效率预测 — FIT 来源
- DFA / FMEDA / FTA — 三种分析方法对照
- 硬件元件评估方法论 — FIT 数字进入 SPFM/LFM 的工程流程
- ISO 26262-5 硬件层细化 — 标准里 SPFM/LFM/PMHF 目标值表
- 硬件要素三类分类 — Type A/B/C 不同 fault model claim 规则
- 安全机制目录 — DC 来源 + ISO 26262-5 Annex D 参考表
- 故障注入测试 — DC claim 的硬证据来源
- 电流采样诊断 SM — §8 数字例子的实际工程对应
- AEC-Q 车规认证 — 修正的来源
- Functional Safety — 顶层框架