FMEA 方法论(DFMEA / PFMEA / FMEDA)

功能安全L7别名 FMEA · DFMEA · PFMEA · FMEDA · Failure Mode and Effects Analysis · AP · Action Priority · RPN · AIAG-VDA FMEA · 7 Step FMEA

本质 FMEA 是一组团队在产品/工序细节上做受控悲观推演的纪律——一行一个失效模式,逼工程师把"可能出什么问题"穷举出来,然后用 S × O × D 三维评分排定治理优先级,把高风险项导向 DFMEA 设计变更或 PFMEA 控制计划。2019 年 AIAG 与 VDA 联合发布新 FMEA 手册,沿用 30 年的 RPN(=S×O×D)被 AP(Action Priority)替代——RPN 的乘积 ≥ 100 的"红线"在新法里完全失效,改用 S/O/D 三维查表得 H/M/L 优先级。新老法不可混用,但中国 OEM 实际处于"新法已强制 + 老 RPN 仍流通"的过渡期,两套都得会看。

学习目标

读完本页后,你应该能够:

  • 区分 FMEA 5 大类(System / Design / Process / FMEA-MSR / Software FMEA)的边界与适用阶段
  • 走完 AIAG-VDA 7 Step FMEA 全流程,列出每步输入/输出
  • 给出 S / O / D 各 1~10 评分含义,会用 AIAG-VDA 默认评分表
  • 解释 RPN 与 AP 的差别,会用 AP 三维查表替代 RPN 排序
  • 写一行符合验收标准的 DFMEA 与 PFMEA 条目
  • 把 FMEA 输出挂回 Control Plan / DVP&R / 特殊特性 CC/SC / 8D D7
  • 说出 FMEDA(Failure Modes Effects and Diagnostic Analysis)与 FMEA 的关系
  • 识别 5 个常见 FMEA 翻车点

1. FMEA 的 5 大类

FMEA 不是一种文档,是一组方法。把哪一类用错场景,文档就成了走形式——下面这张表区分边界,后续章节按这个分类展开。

Mermaid diagram
类型全称看什么时机
System FMEASystem FMEA系统/子系统层失效与功能交互概念阶段PEU 整机、HV 系统、电池系统
DFMEADesign FMEA产品设计的固有失效模式设计阶段(B/C 样前)电路、PCB、机械结构
PFMEAProcess FMEA制造工序导致的失效模式工艺定义阶段(C 样前)SMT、键合、封装、装配
FMEA-MSRMonitoring & System Response客户使用阶段的失效与诊断响应设计阶段(与 DFMEA 配套)OBD 诊断、Safe State
FMEDAFMEA + Diagnostic Analysis安全相关失效率 + 诊断覆盖ASIL 设计满足 SPFM / LFM / PMHF

FMEA-MSR 是 2019 新法的重要补充——专门处理"产品出厂后客户使用阶段"的失效(不再是制造、不再是设计阶段)。这是为 ISO 26262 + UNECE R155(网安)+ R157(自动驾驶)量身做的,主要给 ASIL B 以上项目用。

详细失效模式目录见 失效模式速查(121 条);本页讲方法论。


2. AIAG-VDA 7 Step FMEA(2019 新法)

旧法 FMEA 直接从"列失效模式"开始,等于让工程师对一个还没看清结构的对象做悲观推演——必然漏失效。新法把 FMEA 拆成 7 步,目的是强制团队先把对象看清楚再列失效:第 2 步把对象拆成树(你才知道有哪些块)、第 3 步给每个块定义功能(你才知道每个块要做什么)、第 4 步才能问"功能失效会怎样"。前 3 步看似冗余,实则是漏失效的根本预防。Step 5 评分,Step 6 改设计/工艺,Step 7 回填闭环——形成"看清→评分→改进→闭环"的因果链。

这套结构是 IATF 16949 审计基线,Tier-1 提交的 FMEA 不按 7 步组织直接 NC。

Mermaid diagram
Step名称关键活动输出工具
1Planning & Preparation5T(What/When/With/etc)+ 跨职能团队 + 范围FMEA 计划书项目章程
2Structure Analysis系统/产品/工序拆成树Structure Tree块图 / 流程图
3Function Analysis每个块的功能与上下游接口Function Tree功能矩阵
4Failure Analysis每个功能 → 失效效应 / 模式 / 起因Failure Net 三层FMEA 表
5Risk AnalysisS × O × D 评分 + AP 优先级Risk MatrixAP 查表
6Optimization高 AP 项的设计 / 工艺 / 控制改进改进措施 + 责任人 + 完成日期8D / DOE
7Results Documentation把改进结果回填、追溯到客户最终 FMEA + 客户反馈DMS 归档

Step 4 的失效三层结构是新法核心——把"失效"分成 Effect(顾客感知)、Mode(功能失效)、Cause(具体原因)三个层级,一对一对应,避免把"焊接质量差"这种含糊话写进 FMEA。

2.1 失效三层结构(Failure Net)

把"失效"拆成三层是新法 Step 4 的核心——三层背后是三个独立视角:Effect 是顾客 / 上一级看到什么(决定 S),Mode 是这一级功能丢了什么(决定治理范围),Cause 是物理上为什么发生(决定 O 与 D)。三层互相独立但一对一锚定,任何一层写模糊整行就废。最常见的混用是把 "焊接质量差" 同时写进 Mode 和 Cause——前者应是"功能丢失"(电气连续性),后者应是"具体物理参数偏移"(焊脚阻抗 > 0.5 mΩ)。

名称视角例(DESAT 误触发)
Failure Effect顾客 / 上一级看到什么整车进 limp mode / 转矩=0
Failure Mode这一级功能丢失DESAT 在无短路时关断逆变器
Failure Cause为什么发生 因焊脚 高引入尖峰超阈值

关键判别:Effect 评严重度 S;Cause 评发生度 O;Cause 对应的检测手段评探测度 D。三个分数对应三个层级,不能混。


3. S / O / D 评分(1~10)

为什么要三个独立维度而不是一个综合分?因为风险治理的手段完全分三类:S 由产品功能决定(只能改设计降),O 由发生概率决定(只能改设计鲁棒性 / 工艺能力降),D 由检测能力决定(只能加测试 / SPC / 防呆降)。把三者揉成一个数,就丢失了"该往哪个方向改"这个信息——这正是新法用 AP 三维查表替代 RPN 乘积的根本原因(详 §4)。

三个维度的逻辑链:

  • S 是常量——这个失效一旦发生影响多严重,产品功能定了就定了。降 S = 改产品(加冗余、降功能等级、加 safe state)。
  • O 决定概率——发生频次。降 O 是 DFMEA 看设计余量、PFMEA 看 Cpk。
  • D 决定漏出——已知会发生时,能不能在流到客户前拦住。降 D 是加测试、加 SPC、加 100% 检、加防呆。

下面给 AIAG-VDA 2019 §3 默认评分表的工程化提炼,实际项目按 OEM 要求剪裁。

3.1 Severity(严重度,看 Effect)

S 是产品本身的功能性质决定的——同一个失效效应在新法 1~10 评分内的位置,不会因为 O 或 D 改了而变。下表的层次有清晰的分水岭:9~10 = 安全/法规(不可被治理稀释,新法 AP 一定 H)、7~8 = 主功能丢失(影响驾驶可用性)、4~6 = 次要功能/外观(影响客户体验但不影响功能)、1~3 = 不可察觉

影响
10危及人身安全 / 违反法规,无警告失控加速、HV 短路触电
9危及人身安全 / 违反法规,有警告DESAT 失效但 SBC 切断
8失去主功能逆变器停机,车不能开
7主功能严重降级转矩限到 50%
6次要功能丢失空调关停
5次要功能降级仪表显示间歇
4外观瑕疵被多数客户察觉噪音异响
3外观瑕疵被部分客户察觉轻微异响
2外观瑕疵被少数客户察觉仅敏感客户
1无可察觉影响

S 不可降:S 是"如果发生了影响多严重",由产品本身的功能决定,不会因为加了诊断或检测而下降——降低 S 唯一办法是改设计(如加冗余、降功能等级)。

3.2 Occurrence(发生度,看 Cause)

O 是频次——这条 Cause 在量产中多频繁触发该 Mode。新法 O 评分主要看 ppm 量化,而不是定性的"高/中/低"。关键是数据来源:DFMEA 阶段用历史相似设计的 PPM 经验值或仿真,PFMEA 阶段用 Cpk → ppm 换算或量产 SPC 数据。没有数据的 O 评分等于猜——这是 FMEA 流于形式的常见入口。

频率(典型 ppm)含义
10> 100,000 ppm几乎每件都出
950,000很高
820,000
710,000中高
62,000中等
5500中低
4100
310很低
21极低
1< 1不可能

O 由设计鲁棒性 + 工艺能力共同决定——DFMEA 看设计是否容错,PFMEA 看 Cpk 是否够。降低 O 的方法:改设计(DFMEA)/ 收紧工艺(PFMEA)。

3.3 Detection(探测度,看 Cause 的检测)

D 是检测可靠性——已知会发生时,有多大概率在流到客户前拦住。D 的层次按"控制方式 + 覆盖率"两维分级:1~3 = 物理防呆 / 100% 自动 + SPC(几乎不可能漏)、4~6 = 100% 仪表 / 人工(漏报概率中等)、7~9 = 抽检或事后(明显漏报)、10 = 无检测关键陷阱是把"应该有"的检测当成"实际有"——D 评的是产线当下已部署的能力,不是改进后的目标。

检测能力
10没有检测
9几乎无出货后用户发现
8弱(事后)抽检
7弱(事中)工序结束总检
6中(人工)100% 目视
5中(仪表)100% 仪表测,但漏报率高
4中高100% 仪表 + SPC
3100% 仪表 + 防呆 + SPC
2很高100% 自动 + 防呆 + SPC + 物理不可能错
1几乎完美物理上不可能流出

关键判别:D 评的是当前已实施的检测能力,不是"以后想加什么"。FMEA 写完才能改进——改进后重新评 D。


4. RPN vs AP — 30 年来最大变化

4.1 RPN 的问题

旧法 RPN = S × O × D(1~1000 分),通常以 RPN ≥ 100 作为整改门槛。但实践中暴露三大问题:

  • 乘积失真:S=10/O=1/D=1 = RPN 10(人身安全相关却被忽视);S=2/O=5/D=10 = RPN 100(轻微外观瑕疵反被强制整改)
  • 数值魔术:团队为了"凑过 100" 把 D 偷调到 4 → 整改清单瞬间瘦身,但失效率不变
  • 误把 RPN 当排序:实际两条线 RPN 同 80 但 S 一条 10 一条 4 完全是两种风险

4.2 AP(Action Priority)的逻辑

新法用 三维查表直接给 H / M / L 三档优先级:

Mermaid diagram
AP含义必须做什么
H(High)高优先级必须采取措施降低 S/O/D;做不到要文档化论证
M(Medium)中优先级应当采取措施;team 可决定不做但要论证
L(Low)低优先级可选采取措施

AP 表的内在逻辑:

  • S = 9 或 10(人身安全 / 法规相关)→ 几乎全部 H,无视 O 和 D(旧法这里被 RPN 拖低)
  • S = 7 或 8(主功能丢失)→ O 高 → H;O 低 + D 高 → M;O 低 + D 低 → L
  • S ≤ 6(次要影响)→ 大多 M / L

完整 AP 矩阵 1000 行,实务用查表工具(FMEA 软件如 APIS / IQ-FMEA / Plato 内置)。

4.3 工程含义

新法的核心思想:安全 / 法规相关的高 S 项必须治理,无论发生频次多低。这跟 ISO 26262 的 ASIL 评估逻辑同源——S(Severity)+ E(Exposure)+ C(Controllability)的组合,Severity 高就 ASIL D。

实务过渡建议

  • 新项目(2020 年后启动)一律用 AP
  • 旧项目维护中:既保留旧 RPN(OEM 历史报告需要)也并列加 AP(新合规需要);不要用 RPN→AP 的换算公式(数学上不一一对应)
  • 内审 / 客户审审 RPN 还是 AP,看 OEM SOR 要求;中国 OEM 普遍 2022 年后转 AP

5. DFMEA 详解

DFMEA 解决的核心问题是 "我的设计在量产前是否已经把所有可预见的失效都考虑过了"。它在 V 模型左侧——设计阶段——前置识别问题,因为这时改成本最低;进 C 样件后再发现失效要回退到 B 样,损失 1~3 个月。所以 DFMEA 的启动时机不能晚于 B 样件,完成不能晚于 C 样件——这是它在开发流程中的硬约束。

DFMEA 之所以经常做不好,是因为工程师习惯从"我设计的部件"出发——但部件 OK 不代表系统 OK。有两个零件单看都满足规格,组合时因接口失配出问题——这种失效从部件视角根本看不到,必须从功能/接口视角看。所以新法 Step 3 强制先做 Function Analysis,就是把人从"部件思维"拉到"功能思维"。

5.1 DFMEA 表结构(一行 = 一条失效)

DFMEA 表的列顺序不是任意的——左边是"失效描述"(Step 4 输出),中间是"评分"(Step 5),右边是"措施 + 闭环数据"(Step 6/7)。这条左→右流向必须严格——团队评审时按列从左往右读一行,任何一列空白意味着流程断在那一步。

含义
系统 / 子系统Step 2 Structure 输出主驱逆变器 / 栅极驱动
功能Step 3 Function短路保护:在 SCWT 内关断 IGBT
失效效应(Effect)顾客视角整车 limp mode
S1~108
失效模式(Mode)功能层失效DESAT 在无短路时关断
失效起因(Cause)物理层 焊脚 引入尖峰
O1~104
当前预防控制设计上现有的预防 仿真 + 设计余量 1.5×
当前探测控制设计验证现有的检测DV 高 di/dt 工况测试
D1~105
APH/M/LM
改进措施Step 6 输出增加 SiC/IGBT 共源极键合
完成 / 责任 / 状态王工 / 2026-05-30 / 进行中
改进后 S/O/D/AP闭环数据8 / 2 / 3 / L

5.2 DFMEA 实务的四条因果链

DFMEA 流于形式 vs 真起作用,差别在四条工程链是否走通——每条都是"输入→输出"的强约束,断一条整张表就成走形式。

链 1:从功能而非部件出发。从部件出发会漏交互失效(两零件单看都对组合出问题),前面已说。这条决定 Step 3/4 的写法——表里 "失效模式" 列不能写部件名,必须写功能丢失或功能偏离。

链 2:失效起因必须可复现验证。如果一条 Cause 写了但实验室无法复现,O 评分就是凭感觉——团队就会随手填 3 或 4 凑过去,FMEA 失去预测力。所以每条 Cause 必须能挂一个具体的物理量或参数偏移(电压尖峰 > X V / 阻抗 > Y mΩ / 温度 > Z ℃),不能是"焊接质量差"这种模糊话。

链 3:每条改进措施必须改设计文件。DFMEA 不是 reminder list——团队讨论一圈写"设计师注意一下"等于没做。改进必须有 ECN 编号、改了哪条规格、责任人、完成日,否则 Step 7 回填没有依据,审计直接 NC。

链 4:DFMEA 高 AP 项必须进 DVP&R 试验矩阵。这一条是 DFMEA 与 DV 试验衔接的咽喉——FMEA 列出的高风险点必须在 DV 阶段用试验验证它真的被新设计压住了,否则 FMEA 改完跟没改一样。OEM 审 DVP&R 时会反查 DFMEA 高 AP 行有没有对应试验,有缺漏就 NC。


6. PFMEA 详解

PFMEA 与 DFMEA 解决的问题完全不同:DFMEA 假设工艺完美问"设计本身能不能扛";PFMEA 假设设计完美问"工艺能不能稳定复制设计"。两者一前一后回答 DV 与 PV §1 那张对照表的两边——DFMEA 对应 DV、PFMEA 对应 PV。所以 PFMEA 的视角不是产品参数而是工序参数:6M(人 / 机 / 料 / 法 / 环 / 测)中任何一项漂移都可能让产线产出超规格的件。

PFMEA 必须晚于 DFMEA 启动——因为它的失效效应继承自 DFMEA。如果 DFMEA 都没说"焊脚阻抗 > 0.5 mΩ 会引起 DESAT 误触发",PFMEA 凭什么知道焊接工序要把"焊脚阻抗"作为关键参数控制?两者是输入/输出关系,不能并行替代。

6.1 PFMEA 表结构

PFMEA 表与 DFMEA 类似,但维度从"产品"改为"工序":

工序SMT 焊接 / 工位 P3
工序功能GaN 器件焊在 PCB 上,焊脚阻抗 < 0.5 mΩ
失效模式焊脚阻抗超 0.5 mΩ
失效效应高 di/dt 下 DESAT 误触发
S8(继承 DFMEA 的 S)
失效起因焊接 设置过高、焊点结晶差
O4
当前预防控制SOP 锁 = 60 mm/s
当前探测控制焊后阻抗 SPC X-bar/R
D4
APM
改进措施加焊接参数变更需工艺签字
改进后 S/O/D/AP8 / 2 / 3 / L

6.2 PFMEA 与 Control Plan 强耦合

为什么强制对照?因为 PFMEA 的"当前预防控制"和"当前探测控制"两栏记的是工程师理想中的控制方法,而 Control Plan(PPAP element 7)记的是产线实际执行的工序参数和检验。两份文档必须一一对应——否则就出现"FMEA 写了 SPC,产线没做"或"产线做了某项检测,FMEA 没记录"——前者意味着风险评估是基于不存在的控制(O/D 评偏低),后者意味着资源浪费。两者不一致 = PPAP NC

Mermaid diagram

闭环:PFMEA 定义控制方法 → CP 落地工序参数 → SOP 给操作员步骤 → SPC 数据回流验证 PFMEA 评分是否真。

6.3 PFMEA 与特殊特性

PFMEA 高 AP 项不是平等的——里面只有一个子集是"失效会影响人身安全或违反法规"(对应 §3.1 评分表 S = 9 或 10 那两行)。这个子集必须升级为 特殊特性 CC(Critical Characteristic)/ SC(Significant Characteristic),获得三件比普通 PFMEA 行更强的强制约束:

  • 出图必标注(▽ / 钻石符号)——下游所有人看图就知道这一项是 safety-related
  • CP 必有 SPC 监控——不能仅靠抽检或事后总检
  • 工序参数变更必走 ECN——任何改动需正式工程变更流程,不允许操作员自行调参

为什么要把这部分单独标记?因为正常 PFMEA 行如果 D 评分高,CP 可以选 100% 检或 SPC;但 CC/SC 必须 SPC——这是 IATF 16949 强制要求,目的是让安全相关参数有长期统计趋势数据而不仅仅是"这一件 OK"。详见 特殊特性


7. FMEDA — 安全相关 FMEA

FMEDA = FMEA + Diagnostic Analysis,是 ISO 26262 Part 5 §8 强制工具,用来量化 ASIL 项目的硬件安全度量。比传统 FMEA 多三件事:

  1. 失效率定量:每条失效起因配 FIT(Failure In Time, /h)数据,来源是 IEC 62380 / SN 29500 / 厂商手册。
  2. 诊断覆盖率(DC):每条失效问"现有的安全机制能多大概率检测到"——SPFM / LFM 直接由 DC 算出。
  3. 失效分类:Safe / Dangerous Detected / Dangerous Undetected。
输出指标公式ASIL D 门槛
SPFM≥ 99 %
LFM≥ 90 %
PMHF综合定量< 10 FIT

详见 功能安全FMEDA 是 DFMEA 的延伸,不是替代——DFMEA 看所有失效,FMEDA 只看安全相关失效但加诊断分析。


8. 维护与触发条件

FMEA 是活文档不是归档文件,这一点是新人最常误判的。原因有二:第一,FMEA 评分依赖于"当前控制方法"——任何 ECN 改了设计、任何工艺参数变了,O 和 D 都跟着变,旧分数立刻失真。第二,失效模式本身会更新——量产数据反馈、客户投诉、新法规、8D 新发现的根因,都会增加新的失效模式行。所以维护不是"想到再改"而是"触发即改"——用触发条件清单代替时间表。

下列任一条件触发评审:

触发范围
设计变更 ECN涉及块的 DFMEA
工艺变更(设备 / 材料 / 参数)涉及工序的 PFMEA
新客户 / 新工况加新失效模式行
8D D7必同步更新 DFMEA 评分 + 加新行
量产数据反馈(投诉、SPC 失控、Cpk 跌)重评 O / D
OEM SOR 改重评 S
新法规重评 S(特别是 9/10 分的安全项)

关键判别:FMEA 上次更新时间 > 6 个月 + 期间发生过任一变更 = 已过期。OEM 审计直接 NC。


9. 5 个常见翻车点

下面五个翻车都不是技术错误而是流程理解错——每一个背后都对应到本页前面某条因果链没走通。

1. 把 FMEA 当文档写而不是当分析做。表现是一行写 "焊接质量差,S=5,O=3,D=4,RPN=60,无措施"——这条违反 §5.2 链 2(Cause 必须可复现验证)和 §5.2 链 3(改进必须改设计)。改法是把 Cause 替换成具体物理量,把"无措施"替换成 ECN 编号。

2. Effect / Mode / Cause 三列写一样。这条违反 §2.1 失效三层结构——三列本质上是顾客视角 / 功能视角 / 物理视角的不同抽象,写一样意味着团队还没把对象拆清。改法是 Step 2/3 重做 Structure 和 Function Tree,把"对象-功能-物理实现"三层分清后再回 Step 4。

3. 项目 2024 启动还在用 RPN ≥ 100 门槛。这条违反 §4.2 新法约束,根因是团队还停留在旧法的 "乘积排序" 思维。后果是高 S 低 O/D 项被忽视(典型如人身安全相关失效仅因发生频次低被排到 RPN 30,但新法 AP 必为 H)。改法是项目章程明确写 "本项目用 AP",FMEA 软件切到 AP 模式,team 培训。

4. PFMEA 写"SPC 监控"但 Control Plan 没这一行。这条违反 §6.2 强耦合约束,后果是 PFMEA 的 D 评分基于不存在的控制——风险被低估。改法是 PFMEA 完成后强制 PFMEA-CP-SOP 三件套交叉对照评审,作为 PPAP 提交前必过关卡。

5. 8D 改了但 FMEA 还是旧分。这条违反 §8 触发条件——8D D7 必须更新 FMEA。后果是同一类失效在下个项目又复现,因为 FMEA 没沉淀教训。改法是把"FMEA 评分更新"作为 8D 关闭(D8)的硬条件,缺这条不能签字关闭 8D。


核心要点

  • FMEA 5 类:System / Design / Process / FMEA-MSR(客户使用阶段,2019 新增)/ FMEDA(安全相关)。把哪一类用错场景就成走形式。
  • 2019 AIAG-VDA 新法沿用 30 年的 RPN 被 AP 替代——三维查表给 H/M/L,安全 / 法规相关高 S 项必须治理无视 O 和 D
  • Step 4 失效三层:Effect(顾客视角,评 S)/ Mode(功能失效)/ Cause(物理层,评 O 与 D)。三层一对一对应,混就废。
  • DFMEA 看设计 → 输出驱动 DV 试验矩阵;PFMEA 看工序 → 与 Control Plan 强耦合,两者不一致 = PPAP NC。
  • PFMEA 高 AP 项升级为 CC/SC → 出图标注 + SPC + 变更走 ECN。
  • FMEDA 是 DFMEA 在 ASIL 项目的延伸,加失效率 FIT + 诊断覆盖率,直接算 SPFM / LFM / PMHF。
  • FMEA 是活文档:设计变更 / 工艺变更 / 8D D7 / SOR 改 / 量产数据 / 新法规——任何一条触发更新;6 个月不动 = 过期。
  • FMEA 与 8D 互为输入输出:8D D4 找根因时回查 FMEA 漏了什么;8D D7 改完后强制更新 FMEA 评分。

Cross-references