ISO 26262-8 §13 硬件要素评估:无 ISO 26262 证据的器件,怎么 qualify 进安全系统

功能安全L3别名硬件要素评估 · 硬件要素鉴定 · HW element qualification · proven-in-use · ISO 26262-8 Clause 13

本质与导读

本质既有 wiki 的「硬件分类」讲 I/II/III 类、「FMEDA」讲算指标,但都默认器件已有可信的 $λ$ / DC 数据。现实里大量 COTS / QM 器件根本没有 ISO 26262 开发证据——这正是 Part 8 Clause 13「Evaluation of hardware elements」要解决的。本页讲清:(1) 两条评估路径(13.4.1 基于评估 vs 既有使用证据 proven-in-use)的硬约束与决策;(2) proven-in-use 的统计门槛(运行小时 × 观测失效数 → 置信度)为什么常常卡住;(3) 评估证据收集清单 + chi-square 统计判据 + 评估报告产出物。

主线坐标:横轨 · 功能安全(跨站) · ↑ 全景主线

1. 硬约束:为什么 COTS 器件进安全系统必须先 qualify

安全相关系统的全部定量论证(FMEDA、SPFM、LFM、PMHF)都建立在「每个器件的失效率 $λ$ 和诊断覆盖 DC 是可信的」这一前提上。问题是,绝大多数在售器件是按 QM(质量管理,非功能安全)流程开发的——它们没有安全手册、没有 FMEDA、没有失效模式分布,datasheet 上更不会写 FIT 值。直接把这种器件填进系统 FMEDA,等于用一个无依据的数字撑起整张安全论证,审计第一关就会被打回。

ISO 26262-8 Clause 13 两条评估路径决策树:有无 ISO 26262 证据 → 基于评估 13.4.1 / proven-in-use 13.4.2 / 重选器件

Clause 13 给出的退路是:器件不必生而合规,但进入系统前必须被「评估(evaluate)」到足以提供可信的安全特性。这就是「硬件要素评估」也常被叫作「硬件要素鉴定 / qualification」的原因——它把一个来路不明的器件,转化成 FMEDA 可以安全引用的对象。

1.1 评估对象的范围:element 不只是芯片

Clause 13 的 "hardware element" 粒度比直觉宽。它可以是一颗 MCU、一颗运放,也可以是一个由若干分立件组成的子电路(part / component / element 在 Part 1 有严格定义层级)。评估范围必须先框定:被评估的是裸器件,还是「器件 + 其在本系统中的特定使用方式」。后者会牵出 AoU(Assumptions of Use,使用假设)——评估结论只在这些假设成立时有效。

1.2 与 SEooC / 安全手册的关系

如果器件厂自己按 SEooC(Safety Element out of Context)开发并交付了安全手册 + FMEDA,那么集成方做的是「验证 AoU 是否满足」,不是 Clause 13 评估。Clause 13 专门处理另一种情况:器件厂没给这些证据,集成方必须自己补。两者的分界线就是「有没有可信的现成安全证据」——这也是决策树的根节点。

2. 两条路径:基于评估(13.4.1) vs 既有使用(13.4.2)

Clause 13 提供两条互补的路径,核心区别在于「证据从哪来」。基于评估(13.4.1)从器件的设计与测试里主动生成证据:分析其失效模式、做应力测试、推导失效率与诊断覆盖。基于既有使用(13.4.2,proven-in-use)从历史现场运行数据里反推证据:这颗器件在足够多的场合跑了足够久、失效足够少,统计上就能声明一个失效率上界。

2.1 13.4.1 基于评估的路径

这条路径适合「样本量不足以做统计、但能拿到器件内部信息或可做测试」的情况,也是大多数新器件的现实选择。它要求:确定器件的失效模式(可参考 IEC/SN 29500、FMD-2016 等失效率手册),给出每种失效模式的分布,评估器件内置诊断对各失效模式的覆盖率,再用应力 / 寿命测试与既有 datasheet 参数验证。产出的是一份针对本器件的 FMEDA 输入(failure rate + failure mode distribution + DC),供系统 FMEDA 引用。

2.2 13.4.2 基于既有使用(proven-in-use)的路径

这条路径不打开器件、不做新测试,而是论证「它已经被现场证明可靠」。它要求:同一构型(无变更)的器件、在可比的运行剖面下、累积足够的运行小时、记录全部的 field return 与失效。关键是变更管理——任何掩模、工艺、封装、版本变更都会中断既有使用的连续性,使之前的运行小时不可继承。这也是它最大的卡点:汽车量产周期短、迭代快,「同一构型连续跑很久」往往不成立。

2.3 路径选择的决策逻辑

选哪条不是偏好而是硬条件。简单器件(电阻、电容)若分类为 I 类,集成后确认满足系统需求即可,通常不触发独立评估;II / III 类器件才进入 Clause 13。在 II / III 类内部:能拿到内部失效模式信息或可做测试 → 走 13.4.1;拿不到内部信息但有海量同构型现场数据 → 走 13.4.2;两者都没有 → 必须重选器件或要求供应商补开发。

条件	13.4.1 基于评估	13.4.2 既有使用
主要证据来源	失效模式分析 + 应力/寿命测试	现场累积运行小时 + 失效记录
是否需要器件内部信息	通常需要(失效模式、内部诊断)	不需要(黑盒统计)
对构型变更的容忍度	较高(可针对新版本重评)	极低(任何变更中断连续性)
典型卡点	失效模式分布与 DC 缺数据来源	运行小时不足 / 构型不连续
适用器件	新器件、可测器件、有限量产	长生命周期、超大装机量的成熟器件

3. proven-in-use 的统计门槛:运行小时 × 失效数 → 置信度

proven-in-use 之所以常常卡住,是因为它本质是一个置信区间问题:用有限的现场观测,声明一个有统计保证的失效率上界。直觉上「跑了很久没坏」不等于「失效率低」——必须把运行小时、观测失效数、目标置信度三者绑在一个公式里,才能得出可写进 FMEDA 的数字。

proven-in-use 统计门槛因果图:固定置信度下,运行小时增加 / 失效数增加如何推动可声明的失效率上界

3.1 chi-square 失效率上界

在失效服从泊松过程(恒定失效率、随机失效)的假设下,失效率单边置信上界用卡方分布给出:

λ_{u pp er} = \frac{χ _{1 - α, 2 r + 2}^{2}}{2 T}

其中 $T$ 是累积运行小时(器件数 $\times$ 单器件小时), $r$ 是观测到的失效数, $1 - α$ 是置信度(常用 0.60 / 0.70 / 0.90), $χ^{2}$ 取自由度 $2 r + 2$ 的卡方分位数。零失效( $r = 0$ )是最常见的现场情形,此时 $χ_{1 - α, 2}^{2} = - 2 ln α$ ,公式退化为:

λ_{u pp er} = \frac{- ln α}{T}

例如要在 60% 置信度下声明 $λ \leq 10 FIT$ ( $1 0^{- 8} / h$ )且零失效,需要 $T = - ln (0.40) /1 0^{- 8} \approx 9.2 \times 1 0^{7}$ 器件小时——约 1 万个器件连续跑 1 年。这解释了为什么只有超大装机量的成熟器件走得通这条路。

3.2 运行小时—失效数判据表

把上式列成表,工程上就能直接查「现有数据能声明多低的失效率」。下表给出零失效( $r = 0$ )与一次失效( $r = 1$ )在 60% 置信度下,达到目标 FIT 所需的累积器件小时(数量级)。

目标失效率	零失效 $r = 0$ 所需 $T$	一次失效 $r = 1$ 所需 $T$
$\leq 100$ FIT	$\approx 9.2 \times 1 0^{6}$ h	$\approx 2.0 \times 1 0^{7}$ h
$\leq 10$ FIT	$\approx 9.2 \times 1 0^{7}$ h	$\approx 2.0 \times 1 0^{8}$ h
$\leq 1$ FIT	$\approx 9.2 \times 1 0^{8}$ h	$\approx 2.0 \times 1 0^{9}$ h

可以看出两条规律:目标失效率每降一个数量级,所需运行小时上升一个数量级;每多观测到一次失效,门槛大致翻倍。这就是 proven-in-use 的残酷之处——既要海量装机,又一旦有失效记录,门槛立刻抬高。

3.3 卡点与误用

最常见的误用是把「不同构型、不同版本」的运行小时混算进同一个 $T$ ,这违反「同一构型」前提,得到的上界没有统计意义。第二个卡点是 field return 数据不全:漏报的失效会让 $r$ 偏低、 $λ_{u pp er}$ 偏乐观,审计时无法证明数据完整性就不被接受。第三是运行剖面不可比——消费级温度剖面的运行小时不能直接搬到车规 Grade 0 环境。

4. 因果:评估不足如何污染整个系统安全论证

评估的意义不在于产出一份报告,而在于它喂给 FMEDA 的两个数字( $λ$ 和 DC)是整张系统安全论证的地基。如果这两个数字没有可信来源,FMEDA 算出的 SPFM / LFM / PMHF 就是建在沙上的精确数字——形式上有小数点后两位,实质上无依据。

具体的污染链是:器件评估缺失 → 该器件的失效率与失效模式分布只能猜 → FMEDA 中该器件行的 SPF / RF 划分不可信 → 系统级 SPFM / LFM 偏差 → PMHF 不能反映真实随机失效风险 → 安全目标的定量证据失效 → 安全案例(Safety Case)无法闭环。反过来,一份扎实的 Clause 13 评估,是让 FMEDA 数字「站得住」的前提,也是评估报告必须显式写出 AoU 的原因——下游 FMEDA 引用这些数字时,必须同时继承这些使用假设。

4.1 评估结论的传递载体:AoU 与安全手册

评估结论不能口头继承,必须文档化。对内,评估报告 + AoU 进入系统 FMEDA 的输入登记;对外,如果本器件被当作子系统再交付,这些 AoU 要写进本系统的安全手册,作为下一级集成方的使用约束。AoU 是评估结论的有效边界:超出 AoU 的使用方式,原评估结论一概不成立。

5. 解决方案:证据收集清单 + 评估报告产出物

把前面的约束落地,Clause 13 评估在工程上就是「按路径收齐证据 → 套统计或分析判据 → 产出可被 FMEDA 与安全案例引用的报告」。两条路径的证据清单不同,但都收敛到同一组产出物。

硬件要素评估证据收集清单矩阵:13.4.1 基于评估 / 13.4.2 既有使用两列 × 证据类别行 + 共同产出物

5.1 证据收集清单

下表按路径列出必须收集的证据。两条路径都需要的「共同项」(器件标识与构型、使用范围 AoU、目标安全特性)放在最上,差异项分列。

证据类别	13.4.1 基于评估	13.4.2 既有使用
器件标识与构型	型号 / 版本 / 工艺 / 封装(冻结)	同左,且需证明无变更
失效模式	失效模式表 + 分布(手册或分析)	由 field return 反推占比
失效率	应力/寿命测试 + 失效率手册推导	chi-square 由 $T$ 与 $r$ 推上界
诊断覆盖 DC	故障注入 / 分析评估内置诊断	现场可检失效占比(若有)
运行/测试数据	HTOL / HAST / 温循等可靠性数据	累积运行小时 + 完整失效记录
使用假设 AoU	评估有效的温度/电压/负载边界	运行剖面可比性论证

5.2 统计 / 分析判据

判据是「证据够不够」的客观门槛。基于评估走 FMEDA 量化判据(失效模式分布合理、DC 有故障注入支撑);既有使用走 §3.1 的 chi-square 判据(在目标置信度下, $λ_{u pp er}$ 不超过分配给该器件的失效率预算)。两条路径的统一验收标准是:该器件喂给系统 FMEDA 的 $λ$ 与 DC,都有可追溯、可审计的来源,不是工程估值。

5.3 评估报告产出物

无论走哪条路径,最终产出物固定:一份硬件要素评估报告,内容含评估范围与器件标识、所选路径及理由、证据清单与原始数据引用、失效模式分布、失效率(及其置信度/来源)、诊断覆盖率、明确的 AoU、以及供 FMEDA 直接引用的输入数据块。这份报告是系统级安全案例(ISO 26262-9 / Safety Case)的输入证据之一,从评估第一天起就应按可审计标准归档。

缩写表

缩写	全称
COTS	Commercial Off-The-Shelf,商用现货器件(非为功能安全开发)
QM	Quality Management,质量管理等级(非 ASIL,无功能安全证据)
AoU	Assumptions of Use,使用假设(评估结论的有效边界)
SEooC	Safety Element out of Context,脱离上下文开发的安全要素
FMEDA	Failure Modes, Effects and Diagnostic Analysis,失效模式影响与诊断分析
DC	Diagnostic Coverage,诊断覆盖率
SPFM	Single-Point Fault Metric,单点故障度量
LFM	Latent Fault Metric,潜伏故障度量
PMHF	Probabilistic Metric for random HW Failures,随机硬件失效概率度量
SPF	Single-Point Fault,单点故障
RF	Residual Fault,残余故障
FIT	Failures In Time, $1 0^{- 9}$ /h 的失效率单位
HTOL	High Temperature Operating Life,高温工作寿命试验
HAST	Highly Accelerated Stress Test,高加速应力试验

核心要点

Clause 13 是 COTS / QM 器件进安全系统的合法退路:器件不必生而合规,但进系统前必须被评估到能提供可信、可审计的 $λ$ 与 DC
两条路径:13.4.1 基于评估(失效模式分析 + 测试,主动生成证据)vs 13.4.2 既有使用 proven-in-use(海量现场运行小时反推),选哪条由能否拿到内部信息 / 是否有同构型大装机量决定
proven-in-use 是置信区间问题:零失效时 $λ_{u pp er} = - ln α / T$ ;60% 置信度声明 10 FIT 需约 $9 \times 1 0^{7}$ 器件小时——只有超大成熟装机量走得通
构型变更是 proven-in-use 的杀手:任何掩模/工艺/封装/版本变更都中断既有使用连续性,运行小时不可继承
评估不足会向下污染 FMEDA 的 $λ$ /DC,使 SPFM/LFM/PMHF 成为「精确但无依据」的数字,安全案例无法闭环
产出物固定:一份含路径理由 + 证据 + 失效模式分布 + 失效率(带置信度)+ DC + 显式 AoU 的评估报告,作为系统安全案例的输入

Engineering Objects

hw_element_evaluation_report(Clause 13 评估报告:范围 / 路径 / 证据 / λ / DC / AoU)
assumptions_of_use(AoU:评估结论的有效边界,下游 FMEDA 与安全手册必须继承)
proven_in_use_record(同构型累积运行小时 + 完整 field return 失效记录)
chi_square_failure_rate_bound(由 T 与 r 在目标置信度下推出的 λ 上界)

Cross-references

← 索引
ISO 26262-8 支持过程 — 本页是其 Clause 13 的深化;Clause 11/12 处理工具与软件组件资格,本页处理硬件要素
FMEDA 深入 — 本页评估产出的 λ/DC 正是 FMEDA 的输入,评估不足直接污染 SPFM/LFM/PMHF
功能安全芯片选型 — 选型阶段就该判断器件能否过 Clause 13,避免后期被迫重选
硬件分类 — I/II/III 分类决定是否触发本页的独立评估
FIT/FMEDA 计算 — chi-square 失效率上界与 FIT 的换算细节
ISO 26262-11 半导体 — 半导体失效模式与失效率手册来源
安全手册 — AoU 对外传递的载体

来源:ISO 26262-8:2018 Clause 13(Evaluation of hardware elements)、ISO 26262-11:2018 半导体指南、内部剪藏 20260428;统计判据按泊松/卡方标准可靠性方法综合整理。