《AIAG-VDA FMEA Handbook》(2019)导读 —— 七步法 + AP 取代 RPN + FMEA-MSR 对接 FTTI
本质与导读
本质 这本手册把互不兼容的 AIAG 4th 与 VDA Vol.4 合并成一条七步法,并用穷举 S/O/D 的 AP 查表整本删掉了 RPN——评分逻辑从"S×O×D 乘积"改成"先 S 再 O 再 D"的不对称定级。它与功能安全唯一的硬接口是 FMEA-MSR:其 Fault Handling Time Interval 就是 ISO 26262 的 FTTI。
1. 这本手册解决什么 —— 两套割裂的法,一个过渡期的痛
在 2019 年之前,做汽车 FMEA 的人活在两套互不兼容的方法里:北美供应链跟 AIAG FMEA-4(2008),欧洲供应链跟 VDA Volume 4(2012)。两者的评分表、表格列、甚至"失效原因往哪一层挂"的约定都不同。一家同时给福特(AIAG)和大众(VDA)供货的 Tier-1,实际要维护两份逻辑相同、格式不同的 FMEA,纯属重复劳动。这本手册的第一价值,就是把两套合并成一套,并明确声明与 SAE J1739 对齐——所以它的封面同时印着 AIAG 和 VDA 两个 logo。
但合并不是免费的。手册的 Foreword 自己写明:"The Handbook does not define requirements"——它不是强制标准,只是澄清步骤、活动和工具的参考手册。真正的强制力来自 IATF 16949 和各 OEM 的 CSR(客户特殊要求)。这造成了一个中国工程师必须认清的现实:新法(七步法 + AP)已被主流 OEM 强制,但存量项目里 30 年的老 RPN 表仍在流通。读这本手册不是为了"学会一种新打分",而是为了在"新法强制 + 老法残留"的过渡期里,看懂两边的语言。
1.1 它和既有两篇 FMEA 页的分工
本 wiki 已有两篇 FMEA 页,本页定位是"这本书的导读",刻意不重复它们的内容:
- FMEA 方法论(DFMEA / PFMEA / FMEDA) —— 讲 5 大类边界、S/O/D 评分含义、一行条目验收标准。那篇是"怎么填表"。
- FMEA 实用指南 —— 讲"原因→模式→影响"的因果链、如何判断 FMEA 是否真形成工程闭环。那篇是"怎么做对"。
- 本页 —— 讲"这本权威手册本身":历史割裂、七步脉络、AP 取代 RPN 的设计意图、FMEA-MSR 与 FTTI 的接口。三篇互补,不交叉。
2. 七步法 —— 两段式骨架,前三步搭舞台后三步算风险
手册最核心的一张图是 Figure 1.6-1 "FMEA 7 Step Approach"。它把 FMEA 拆成七步,但真正帮助记忆的是它的两段式分组:前三步是 System Analysis(系统分析),把"分析谁、它该干什么"定义清楚;后三步是 Failure Analysis & Risk Mitigation(失效分析与风险缓解),在已定义的舞台上找失效、评风险、做行动;第七步独立成 Risk Communication(风险沟通),把结论文档化对外交付。这个分组解释了一个常见困惑:为什么不能"上来就打分"——前三步没搭好舞台,第五步的评分就没有共同语境。
2.1 前三步:把"分析对象 + 功能要求"定义清楚
前三步的产出是后续一切的地基。第 1 步 Planning & Preparation 用 5T(InTent / Timing / Team / Tasks / Tools)圈定边界——什么在范围内、什么排除、基线 FMEA 是谁。第 2 步 Structure Analysis 用结构树或边界框图把系统拆成"上层-关注层-下层"三级,DFMEA 拆物理元素,PFMEA 拆工序步骤。第 3 步 Function Analysis 给每个结构元素挂上"它该做什么"的功能与要求,DFMEA 这里常用参数图(P-Diagram)梳理输入/噪声/输出。没有这三步,"失效"二字无从定义。
2.2 后三步:在失效链上评风险、做行动
第 4 步 Failure Analysis 是 FMEA 的心脏——围绕 Focus Element 建一条失效链:Failure Cause(下层为什么坏)→ Failure Mode(本层怎么坏)→ Failure Effect(上层/终端用户受什么影响)。第 5 步 Risk Analysis 给这条链评 S(严重度)/ O(发生度)/ D(探测度),再查 AP 表得行动优先级。第 6 步 Optimization 按"先消除 FE → 再降 O → 最后提 D"的优先顺序定行动、定责任人和目标完成日(TCD)。第 7 步 Results Documentation 出报告——手册强调它是"摘要确认任务完成"用的,不替代评审,且知识产权留在开发方。
3. AP 取代 RPN —— 不对称查表,因为"严重度不该被低发生度稀释"
这本手册最被记住的变化,是整本删掉了 RPN。手册在 §2.5.10 直接写明:"The RPN and S × O methods are not included in this publication"。要理解为什么,得先看 RPN 的病根。RPN = S × O × D 是个乘积,它给三个维度等权:一个 S=10(致命)、O=2、D=2 的失效,RPN = 40;一个 S=4、O=5、D=2 的失效,RPN = 40。两者数字相同,但前者会要人命、后者只是小烦恼。用 RPN ≥ 100 之类的"红线"做行动门槛,会让高严重度失效因为发生度低而"算不够分",被漏掉——这恰恰违背 FMEA "预防失效"的本意。
AP 的设计意图是打破等权。它穷举全部 1000 种 S/O/D 组合,但排序逻辑是先看 S、再看 O、最后才看 D 的不对称优先:严重度高(S=9-10)时,即使发生度和探测度都不错,优先级也大概率落在 High。下图把 RPN 的等权陷阱和 AP 的不对称查表并排画出来:
3.1 AP 的 H/M/L 是"行动优先级"不是"风险等级"
手册有一句容易被读漏但极重要的话:"This is not the prioritization of High, Medium, or Low risk, it is the prioritization of the actions to reduce risk." AP 排的是"先对哪条做行动",不是给失效贴风险标签。三档的语气也写死了:High = 团队**需要(needs)**改进控制或论证现状已足够;Medium = **应当(should)**改进或论证;Low = **可以(could)**改进。这种"needs / should / could"的强弱措辞,是 AP 表能落地成审计依据的关键——它把模糊的"重不重要"翻译成了可考核的动作义务。
3.2 用 AP 表读一条:S=6 / O=2 / D=2 怎么判
以手册 Figure 2.5-3 的窗升电机案例为例:某失效的失效效应是"扭矩/转速偏低",评 S=6(落在 4-6 "Moderate"严重度带);失效原因发生度 O=2(落在 2-3 "Low / 探测能力 High"带);探测度 D=2(High)。查 AP 表(S=4-6 大段、O=2-3 子段、D 高):得 AP = Low。换成 RPN 思维,6 × 2 × 2 = 24,在很多老红线(如 100)下同样"免行动",但 AP 给出的是有依据的查表结果而非乘积巧合。关键提醒:手册建议 S=9-10 且 AP=High 或 Medium 的项,至少要经管理层评审——这是高严重度失效的安全网。
4. FMEA-MSR —— 对 ASIL D 工程师最有用的一章,因为它接 FTTI
如果你做 ISO 26262 ASIL D,这本手册里唯一直接对接功能安全的就是第 4 章 FMEA-MSR(Supplemental FMEA for Monitoring and System Response,监控与系统响应补充 FMEA)。前面的 DFMEA 回答"设计会怎么坏",而 MSR 回答一个 DFMEA 答不了的问题——"在客户运行中,这个坏能不能被诊断到,系统能不能及时响应把它降级成安全状态?" 这正是带诊断能力的 ECU(主驱逆变器、BMS、转向)在路上每毫秒都在做的事。
MSR 的失效链比 DFMEA 多了上半层:DFMEA 的链是 Cause → Mode → Effect;MSR 在 Effect 之上叠了 Monitoring(监控)→ System Response(系统响应)→ Mitigated Failure Effect(缓解后的失效效应)。也就是说,故障发生后如果监控探测到、系统及时响应,原本 S=10 的危害事件会被降级成 S=1-9 的"功能降级但不危险"。下图把这个双层失效链 + 三种失效场景的时间轴画出来:
4.1 Fault Handling Time Interval 就是 ISO 26262 的 FTTI
MSR 把故障后的时间轴拆成三段:故障发生(Fault occurs)→ 经 Time for Detection(探测时间)+ Time for System Response(系统响应时间)→ 进入缓解后的失效效应。这两段之和,手册称为 Fault Handling Time Interval(故障处理时间区间),定义为"安全机制不动作时,从故障发生到危害事件出现的最大时间窗"。这个定义和 ISO 26262 的 FTTI(Fault Tolerant Time Interval,故障容错时间区间)= FDTI(探测)+ FRTI(反应) 是同一个物理量,只是命名不同。对 ASIL D 工程师而言,这是把质量体系的 FMEA 和功能安全的时序预算对齐的接口:MSR 里估算的 Detection + Response 时间,必须 ≤ ISO 26262 概念阶段定下的 FTTI,否则安全机制名义存在却来不及动作。
4.2 三种失效场景决定 S 怎么取
手册 §4.4.2 用三张时间轴图(Fig 4.4-2~4.4-4)给出三种场景,直接决定严重度怎么取:场景(1)非危害——故障到失效效应不构成危害,系统进入不合规但安全的状态(S=1-9);场景(2)危害——故障未被处理,失效效应在 Fault Handling Time Interval 内演变成危害事件(S=10),这是没有有效 SM 的"裸奔"基线;场景(3)缓解——探测 + 系统响应在时间窗内完成(M=1,监控有效),危害被避免,只剩功能损失或降级(打勾通过)。MSR 的整个工作,就是论证你的设计落在场景(3)而非场景(2)。
4.3 MSR 用 S / F / M 而非 S / O / D
DFMEA/PFMEA 评 S/O/D 并共用同一张 AP 表,但 MSR 换了两个维度并用专用 AP 表:把 O(发生度)换成 F(Frequency,频率)——故障原因在运行寿命内出现的频率;把 D(探测度)换成 M(Monitoring,监控)——监控探测并触发系统响应的能力,M=1 表示监控充分有效。手册在 §4.5.8 明确"AP 表 DFMEA 和 PFMEA 相同,但 FMEA-MSR 不同"。所以做 MSR 时不能套用第 3 章那张 AP 表,要用 Appendix C 里 MSR 专用的 S/F/M → AP 表。记忆要点:普通 FMEA 问"会不会坏、坏了能不能在产线/设计阶段查出来";MSR 问"运行中坏了多频繁、车上的监控能不能实时抓住并响应"。
5. 对 ASIL D 工程师的三条 takeaway
读完这本手册,如果只带走三件事,应当是下面这三条——它们决定了你在功能安全项目里怎么用对这本手册,而不是把它当成又一本质量表格手册。
第一,别再用 RPN 红线。任何还在用"RPN ≥ 100 才行动"的项目都已落后于强制法,且对高严重度失效不安全;改用 AP 表,并守住"S=9-10 + AP≥M 必经管理层评审"的安全网。第二,带诊断的 ECU 必做 FMEA-MSR,不能只做 DFMEA——DFMEA 给不出"运行中能否及时降级"的答案,而这正是 ASIL D 的核心论证。第三,把 MSR 的 Detection + Response 时间钉死在 FTTI 预算内,让 FMEA-MSR 和 FMEDA、FSAR 的时序假设一致——三者用的是同一个 FTTI,任何一处时间假设漂移都会让安全论证出现裂缝。
缩写表
| 缩写 | 全称 / 含义 |
|---|---|
| FMEA | Failure Mode and Effects Analysis,失效模式与影响分析 |
| DFMEA | Design FMEA,设计 FMEA(分析设计自身的失效) |
| PFMEA | Process FMEA,过程/工艺 FMEA(分析制造工序的失效) |
| FMEA-MSR | Supplemental FMEA for Monitoring and System Response,监控与系统响应补充 FMEA |
| AP | Action Priority,行动优先级(H/M/L),取代 RPN |
| RPN | Risk Priority Number,风险优先数 = S × O × D(已被本手册删除) |
| S / O / D | Severity / Occurrence / Detection,严重度 / 发生度 / 探测度(DFMEA/PFMEA 三维) |
| S / F / M | Severity / Frequency / Monitoring,严重度 / 频率 / 监控(FMEA-MSR 三维) |
| FE / FM / FC | Failure Effect / Failure Mode / Failure Cause,失效效应 / 模式 / 原因 |
| FTTI | Fault Tolerant Time Interval,故障容错时间区间(ISO 26262)= FDTI + FRTI |
| FDTI / FRTI | Fault Detection / Fault Reaction Time Interval,故障探测 / 反应时间区间 |
| SM | Safety Mechanism,安全机制 |
| TCD | Target Completion Date,目标完成日(行动项) |
| 5T | InTent / Timing / Team / Tasks / Tools,第 1 步策划的五要素 |
| AIAG | Automotive Industry Action Group,(美)汽车工业行动集团 |
| VDA | Verband der Automobilindustrie,(德)德国汽车工业协会 |
| IATF | International Automotive Task Force,国际汽车工作组(16949 标准) |
| CSR | Customer Specific Requirements,客户特殊要求 |
核心要点
- 这本手册(2019)做两件事:合并 AIAG 4th + VDA Vol.4 成一条七步法、删除 RPN 换成 AP。
- 它不定义要求(Foreword 明言),强制力来自 IATF 16949 与 OEM 的 CSR;中国处于"新法强制 + 老 RPN 残留"的过渡期。
- 七步法 = 前三步系统分析(搭舞台)+ 后三步风险缓解(算风险)+ 第七步文档沟通;"不能上来就打分"的原因就在这。
- AP 用不对称查表(先 S 再 O 再 D)取代 RPN 的等权乘积,因为乘积会让高严重度失效被低发生度稀释而漏掉。
- AP 排的是"行动优先级"不是"风险等级";H/M/L 对应 needs/should/could 的动作义务;S=9-10 且 AP≥M 必经管理层评审。
- FMEA-MSR 是对 ASIL D 唯一有用的一章:双层失效链多出 Monitoring→System Response→Mitigated Effect。
- MSR 的 Fault Handling Time Interval = ISO 26262 的 FTTI;MSR 改用 S/F/M 三维 + 专用 AP 表,不能套用 DFMEA 的 AP 表。
Cross-references
- ← 索引
- FMEA 方法论(DFMEA / PFMEA / FMEDA) —— "怎么填表":5 大类边界 + S/O/D 评分含义 + 一行条目验收
- FMEA 实用指南 —— "怎么做对":原因→模式→影响因果链 + 工程闭环判断
- FMEDA 深度 —— FMEA-MSR 的诊断覆盖率假设要与 FMEDA 的 DC 一致
- FSAR 深度 —— MSR 的 Detection+Response 时间必须 ≤ FSAR/概念阶段定的 FTTI
- 功能安全总览 —— FMEA-MSR 是质量体系与 ISO 26262 时序预算的接口
来源:AIAG & VDA FMEA Handbook, 1st Edition(June 2019, ISBN 978-1-60534-367-9);Figure 1.6-1 七步法;§2.5.10 与 Table AP(DFMEA & PFMEA,p70-71);§4.4 三种失效场景 Fig 4.4-1~4.4-4;§4.5 FMEA-MSR Risk Analysis(S/F/M);Appendix C 评分与 AP 表。FTTI 对应关系综合 ISO 26262-1 术语。