ISO 26262-8 §13 硬件要素评估:无 ISO 26262 证据的器件,怎么 qualify 进安全系统
本质与导读
本质 既有 wiki 的「硬件分类」讲 I/II/III 类、「FMEDA」讲算指标,但都默认器件已有可信的 / DC 数据。现实里大量 COTS / QM 器件根本没有 ISO 26262 开发证据——这正是 Part 8 Clause 13「Evaluation of hardware elements」要解决的。本页讲清:(1) 两条评估路径(13.4.1 基于评估 vs 既有使用证据 proven-in-use)的硬约束与决策;(2) proven-in-use 的统计门槛(运行小时 × 观测失效数 → 置信度)为什么常常卡住;(3) 评估证据收集清单 + chi-square 统计判据 + 评估报告产出物。
1. 硬约束:为什么 COTS 器件进安全系统必须先 qualify
安全相关系统的全部定量论证(FMEDA、SPFM、LFM、PMHF)都建立在「每个器件的失效率 和诊断覆盖 DC 是可信的」这一前提上。问题是,绝大多数在售器件是按 QM(质量管理,非功能安全)流程开发的——它们没有安全手册、没有 FMEDA、没有失效模式分布,datasheet 上更不会写 FIT 值。直接把这种器件填进系统 FMEDA,等于用一个无依据的数字撑起整张安全论证,审计第一关就会被打回。
Clause 13 给出的退路是:器件不必生而合规,但进入系统前必须被「评估(evaluate)」到足以提供可信的安全特性。这就是「硬件要素评估」也常被叫作「硬件要素鉴定 / qualification」的原因——它把一个来路不明的器件,转化成 FMEDA 可以安全引用的对象。
1.1 评估对象的范围:element 不只是芯片
Clause 13 的 "hardware element" 粒度比直觉宽。它可以是一颗 MCU、一颗运放,也可以是一个由若干分立件组成的子电路(part / component / element 在 Part 1 有严格定义层级)。评估范围必须先框定:被评估的是裸器件,还是「器件 + 其在本系统中的特定使用方式」。后者会牵出 AoU(Assumptions of Use,使用假设)——评估结论只在这些假设成立时有效。
1.2 与 SEooC / 安全手册的关系
如果器件厂自己按 SEooC(Safety Element out of Context)开发并交付了安全手册 + FMEDA,那么集成方做的是「验证 AoU 是否满足」,不是 Clause 13 评估。Clause 13 专门处理另一种情况:器件厂没给这些证据,集成方必须自己补。两者的分界线就是「有没有可信的现成安全证据」——这也是决策树的根节点。
2. 两条路径:基于评估(13.4.1) vs 既有使用(13.4.2)
Clause 13 提供两条互补的路径,核心区别在于「证据从哪来」。基于评估(13.4.1)从器件的设计与测试里主动生成证据:分析其失效模式、做应力测试、推导失效率与诊断覆盖。基于既有使用(13.4.2,proven-in-use)从历史现场运行数据里反推证据:这颗器件在足够多的场合跑了足够久、失效足够少,统计上就能声明一个失效率上界。
2.1 13.4.1 基于评估的路径
这条路径适合「样本量不足以做统计、但能拿到器件内部信息或可做测试」的情况,也是大多数新器件的现实选择。它要求:确定器件的失效模式(可参考 IEC/SN 29500、FMD-2016 等失效率手册),给出每种失效模式的分布,评估器件内置诊断对各失效模式的覆盖率,再用应力 / 寿命测试与既有 datasheet 参数验证。产出的是一份针对本器件的 FMEDA 输入(failure rate + failure mode distribution + DC),供系统 FMEDA 引用。
2.2 13.4.2 基于既有使用(proven-in-use)的路径
这条路径不打开器件、不做新测试,而是论证「它已经被现场证明可靠」。它要求:同一构型(无变更)的器件、在可比的运行剖面下、累积足够的运行小时、记录全部的 field return 与失效。关键是变更管理——任何掩模、工艺、封装、版本变更都会中断既有使用的连续性,使之前的运行小时不可继承。这也是它最大的卡点:汽车量产周期短、迭代快,「同一构型连续跑很久」往往不成立。
2.3 路径选择的决策逻辑
选哪条不是偏好而是硬条件。简单器件(电阻、电容)若分类为 I 类,集成后确认满足系统需求即可,通常不触发独立评估;II / III 类器件才进入 Clause 13。在 II / III 类内部:能拿到内部失效模式信息或可做测试 → 走 13.4.1;拿不到内部信息但有海量同构型现场数据 → 走 13.4.2;两者都没有 → 必须重选器件或要求供应商补开发。
| 条件 | 13.4.1 基于评估 | 13.4.2 既有使用 |
|---|---|---|
| 主要证据来源 | 失效模式分析 + 应力/寿命测试 | 现场累积运行小时 + 失效记录 |
| 是否需要器件内部信息 | 通常需要(失效模式、内部诊断) | 不需要(黑盒统计) |
| 对构型变更的容忍度 | 较高(可针对新版本重评) | 极低(任何变更中断连续性) |
| 典型卡点 | 失效模式分布与 DC 缺数据来源 | 运行小时不足 / 构型不连续 |
| 适用器件 | 新器件、可测器件、有限量产 | 长生命周期、超大装机量的成熟器件 |
3. proven-in-use 的统计门槛:运行小时 × 失效数 → 置信度
proven-in-use 之所以常常卡住,是因为它本质是一个置信区间问题:用有限的现场观测,声明一个有统计保证的失效率上界。直觉上「跑了很久没坏」不等于「失效率低」——必须把运行小时、观测失效数、目标置信度三者绑在一个公式里,才能得出可写进 FMEDA 的数字。
3.1 chi-square 失效率上界
在失效服从泊松过程(恒定失效率、随机失效)的假设下,失效率单边置信上界用卡方分布给出:
其中 是累积运行小时(器件数 单器件小时), 是观测到的失效数, 是置信度(常用 0.60 / 0.70 / 0.90), 取自由度 的卡方分位数。零失效()是最常见的现场情形,此时 ,公式退化为:
例如要在 60% 置信度下声明 ()且零失效,需要 器件小时——约 1 万个器件连续跑 1 年。这解释了为什么只有超大装机量的成熟器件走得通这条路。
3.2 运行小时—失效数判据表
把上式列成表,工程上就能直接查「现有数据能声明多低的失效率」。下表给出零失效()与一次失效()在 60% 置信度下,达到目标 FIT 所需的累积器件小时(数量级)。
| 目标失效率 | 零失效 所需 | 一次失效 所需 |
|---|---|---|
| FIT | h | h |
| FIT | h | h |
| FIT | h | h |
可以看出两条规律:目标失效率每降一个数量级,所需运行小时上升一个数量级;每多观测到一次失效,门槛大致翻倍。这就是 proven-in-use 的残酷之处——既要海量装机,又一旦有失效记录,门槛立刻抬高。
3.3 卡点与误用
最常见的误用是把「不同构型、不同版本」的运行小时混算进同一个 ,这违反「同一构型」前提,得到的上界没有统计意义。第二个卡点是 field return 数据不全:漏报的失效会让 偏低、 偏乐观,审计时无法证明数据完整性就不被接受。第三是运行剖面不可比——消费级温度剖面的运行小时不能直接搬到车规 Grade 0 环境。
4. 因果:评估不足如何污染整个系统安全论证
评估的意义不在于产出一份报告,而在于它喂给 FMEDA 的两个数字( 和 DC)是整张系统安全论证的地基。如果这两个数字没有可信来源,FMEDA 算出的 SPFM / LFM / PMHF 就是建在沙上的精确数字——形式上有小数点后两位,实质上无依据。
具体的污染链是:器件评估缺失 → 该器件的失效率与失效模式分布只能猜 → FMEDA 中该器件行的 SPF / RF 划分不可信 → 系统级 SPFM / LFM 偏差 → PMHF 不能反映真实随机失效风险 → 安全目标的定量证据失效 → 安全案例(Safety Case)无法闭环。反过来,一份扎实的 Clause 13 评估,是让 FMEDA 数字「站得住」的前提,也是评估报告必须显式写出 AoU 的原因——下游 FMEDA 引用这些数字时,必须同时继承这些使用假设。
4.1 评估结论的传递载体:AoU 与安全手册
评估结论不能口头继承,必须文档化。对内,评估报告 + AoU 进入系统 FMEDA 的输入登记;对外,如果本器件被当作子系统再交付,这些 AoU 要写进本系统的安全手册,作为下一级集成方的使用约束。AoU 是评估结论的有效边界:超出 AoU 的使用方式,原评估结论一概不成立。
5. 解决方案:证据收集清单 + 评估报告产出物
把前面的约束落地,Clause 13 评估在工程上就是「按路径收齐证据 → 套统计或分析判据 → 产出可被 FMEDA 与安全案例引用的报告」。两条路径的证据清单不同,但都收敛到同一组产出物。
5.1 证据收集清单
下表按路径列出必须收集的证据。两条路径都需要的「共同项」(器件标识与构型、使用范围 AoU、目标安全特性)放在最上,差异项分列。
| 证据类别 | 13.4.1 基于评估 | 13.4.2 既有使用 |
|---|---|---|
| 器件标识与构型 | 型号 / 版本 / 工艺 / 封装(冻结) | 同左,且需证明无变更 |
| 失效模式 | 失效模式表 + 分布(手册或分析) | 由 field return 反推占比 |
| 失效率 | 应力/寿命测试 + 失效率手册推导 | chi-square 由 与 推上界 |
| 诊断覆盖 DC | 故障注入 / 分析评估内置诊断 | 现场可检失效占比(若有) |
| 运行/测试数据 | HTOL / HAST / 温循等可靠性数据 | 累积运行小时 + 完整失效记录 |
| 使用假设 AoU | 评估有效的温度/电压/负载边界 | 运行剖面可比性论证 |
5.2 统计 / 分析判据
判据是「证据够不够」的客观门槛。基于评估走 FMEDA 量化判据(失效模式分布合理、DC 有故障注入支撑);既有使用走 §3.1 的 chi-square 判据(在目标置信度下, 不超过分配给该器件的失效率预算)。两条路径的统一验收标准是:该器件喂给系统 FMEDA 的 与 DC,都有可追溯、可审计的来源,不是工程估值。
5.3 评估报告产出物
无论走哪条路径,最终产出物固定:一份硬件要素评估报告,内容含评估范围与器件标识、所选路径及理由、证据清单与原始数据引用、失效模式分布、失效率(及其置信度/来源)、诊断覆盖率、明确的 AoU、以及供 FMEDA 直接引用的输入数据块。这份报告是系统级安全案例(ISO 26262-9 / Safety Case)的输入证据之一,从评估第一天起就应按可审计标准归档。
缩写表
| 缩写 | 全称 |
|---|---|
| COTS | Commercial Off-The-Shelf,商用现货器件(非为功能安全开发) |
| QM | Quality Management,质量管理等级(非 ASIL,无功能安全证据) |
| AoU | Assumptions of Use,使用假设(评估结论的有效边界) |
| SEooC | Safety Element out of Context,脱离上下文开发的安全要素 |
| FMEDA | Failure Modes, Effects and Diagnostic Analysis,失效模式影响与诊断分析 |
| DC | Diagnostic Coverage,诊断覆盖率 |
| SPFM | Single-Point Fault Metric,单点故障度量 |
| LFM | Latent Fault Metric,潜伏故障度量 |
| PMHF | Probabilistic Metric for random HW Failures,随机硬件失效概率度量 |
| SPF | Single-Point Fault,单点故障 |
| RF | Residual Fault,残余故障 |
| FIT | Failures In Time,/h 的失效率单位 |
| HTOL | High Temperature Operating Life,高温工作寿命试验 |
| HAST | Highly Accelerated Stress Test,高加速应力试验 |
核心要点
- Clause 13 是 COTS / QM 器件进安全系统的合法退路:器件不必生而合规,但进系统前必须被评估到能提供可信、可审计的 与 DC
- 两条路径:13.4.1 基于评估(失效模式分析 + 测试,主动生成证据)vs 13.4.2 既有使用 proven-in-use(海量现场运行小时反推),选哪条由能否拿到内部信息 / 是否有同构型大装机量决定
- proven-in-use 是置信区间问题:零失效时 ;60% 置信度声明 10 FIT 需约 器件小时——只有超大成熟装机量走得通
- 构型变更是 proven-in-use 的杀手:任何掩模/工艺/封装/版本变更都中断既有使用连续性,运行小时不可继承
- 评估不足会向下污染 FMEDA 的 /DC,使 SPFM/LFM/PMHF 成为「精确但无依据」的数字,安全案例无法闭环
- 产出物固定:一份含路径理由 + 证据 + 失效模式分布 + 失效率(带置信度)+ DC + 显式 AoU 的评估报告,作为系统安全案例的输入
Engineering Objects
hw_element_evaluation_report(Clause 13 评估报告:范围 / 路径 / 证据 / λ / DC / AoU)assumptions_of_use(AoU:评估结论的有效边界,下游 FMEDA 与安全手册必须继承)proven_in_use_record(同构型累积运行小时 + 完整 field return 失效记录)chi_square_failure_rate_bound(由 T 与 r 在目标置信度下推出的 λ 上界)
Cross-references
- ← 索引
- ISO 26262-8 支持过程 — 本页是其 Clause 13 的深化;Clause 11/12 处理工具与软件组件资格,本页处理硬件要素
- FMEDA 深入 — 本页评估产出的 λ/DC 正是 FMEDA 的输入,评估不足直接污染 SPFM/LFM/PMHF
- 功能安全芯片选型 — 选型阶段就该判断器件能否过 Clause 13,避免后期被迫重选
- 硬件分类 — I/II/III 分类决定是否触发本页的独立评估
- FIT/FMEDA 计算 — chi-square 失效率上界与 FIT 的换算细节
- ISO 26262-11 半导体 — 半导体失效模式与失效率手册来源
- 安全手册 — AoU 对外传递的载体
来源:ISO 26262-8:2018 Clause 13(Evaluation of hardware elements)、ISO 26262-11:2018 半导体指南、内部剪藏 20260428;统计判据按泊松/卡方标准可靠性方法综合整理。