SPC 控制图详解（Statistical Process Control）

功能安全L1别名 SPC · Statistical Process Control · 统计过程控制 · 控制图 · X-bar R chart · 西电规则 · Western Electric Rules · WECO · MSA · GR&R · OCAP

本质与导读

本质 Cpk 给的是过程能力快照——这一批 300 件统计上能不能进规格。但量产是连续的,过程会漂：模具磨损、焊机维护改参数、原料换批次、班次更替……漂出某个边界,Cpk 立刻跌但 Cpk 报告要等 300 件再算一次,这中间生产的所有件已经流到客户。SPC 的核心是把"过程稳定性"和"过程能力"分开看——稳定性靠控制图实时监控,能力靠 Cpk 统计算分。两者独立：稳定但不能力(产线很稳但每件都超规)、能力但不稳定(均值还在中心但已经在漂)都常见。控制限不是规格限：控制限来自过程自己的 ±3σ(过程在说话),规格限来自客户(客户在说话),两者放一张图上比较是 SPC 最常被滥用的反模式。

主线坐标:方法 / 标准层(跨站支撑) · ↑ 全景主线

1. SPC 解决什么问题

PV 通过、PPAP 签字、SOP 启动后,OEM 不再每件 300 件抽样算 Cpk——产线一天产 5000 件，事后算 Cpk 来不及。这时如果只靠"成品出货检"，发现不合格件已经造了一批。SPC 的存在意义就是把质量监控从"事后"前移到"事中"——在工序进行时实时监控,异常在第一时间报警,然后停线 / 调机 / 圈货,而不是等成品出来才发现。

下图把 Cpk 与 SPC 在时间轴上的角色分开看：

Cpk 与 SPC 在产品时间轴上的角色分工：PV 一次性快照 vs SPC 持续监控,SOP 后衍生长期 Cpk

维度	Cpk（PV 阶段）	SPC 控制图（量产阶段）
时间	一次性,300 件统计	持续,每子组 5 件 / 1 小时
目的	证明能力	监控稳定性
输出	一个数（Cpk = 1.94）	一张图 + 失控点
触发动作	< 1.67 不能 PPAP	失控 → OCAP 响应
与规格关系	直接看进规格能力	不看规格,看过程自己

最后一行是 SPC 最反直觉的点：控制图判失控不用规格限,用控制限——下一节展开。

2. 稳定性 ≠ 能力 — 两个独立维度

工程师常把"过程稳定"和"过程能力"混说,实际是两个独立维度——四种组合都常见,各对应不同治理动作。先把这张表理解透,后面所有内容才有意义。

	能力 ✅（Cpk 高）	能力 ❌（Cpk 低）
稳定 ✅	理想态：把现状锁住即可	设计 / 工艺天生差：必须改根本（DFMEA / PFMEA 重做）
稳定 ❌	看似良率 OK 但偶发突袭：必须找特殊原因（往往是隐性的）	双重问题：先稳后改能力，不能并行

关键判别：

能力问 "如果过程稳定,产出能不能进规格"——靠 Cpk 算分,改了要回 PV 重测
稳定性问 "过程是不是在按本来的样子跑"——靠 SPC 控制图实时看,失控就响应

两个 trap：

稳定但不能力（左下→左上）：产线很稳定地产出超规件——Cpk 跌但 SPC 没失控点（因为产线就一直这么不行,没"漂"）。这是 PV 没过的根因没解决就上 SOP——SPC 帮不了你,要回去改设计/工艺。
能力但不稳定（右上→左下）：Cpk 平均值过线但 SPC 频繁失控——特殊原因被未检出,可能是间歇性问题（如某班次操作员特定动作）。这种最危险,因为整体良率看着还行,但偶发坏件流到客户。

3. 控制图的两大类

控制图按测量数据类型分两大类——计量数据用一套图,计数数据用另一套。选错图类型,UCL/LCL 算出来就错,失控判断没意义——这是 SPC 实施第一道关。

控制图按数据类型分两支:计量型 (X-bar/R · X-bar/s · I-MR) 与计数型 (p · np · c · u),信息量决定首选

3.1 计量型（Variable）

测的是连续物理量——电压、长度、阻抗、温度、扭矩。这类数据信息量最高——不仅知道"过没过",还知道"离规格多远"。所以只要能测到具体数值就用计量型——计数型是测不到数值时的退路,不是首选。

图	适用	子组大小 n	例
X-bar / R	子组小（n=2~9）	2~9	焊脚阻抗、PCB 板厚、贴片偏移
X-bar / s	子组大（n≥10）	≥10	SMT 焊膏厚度全板扫描
I-MR（individuals + moving range）	数据稀疏 / n=1	1	注塑机每模 1 件、化学浴每天 1 次抽测

**为什么不直接用一张 X 图而要配 R 或 s 图？**因为单看均值漂可能是"散度变大"被均值掩盖,看 R/s 才能发现散度本身的问题。X-bar 看居中度,R/s 看散度,两张必须配套。

3.2 计数型（Attribute）

测的是"件数"——多少件不合格、多少个缺陷。这类数据信息量低（合格 / 不合格的二值化丢失了"差多少"的细节）,所以只在测量成本高 / 计量不可行时用——比如外观瑕疵、装配缺漏。

图	适用	例
p（不合格率）	子组大小可变	每天 1000 件抽 50 件查不合格率
np（不合格件数）	子组大小固定	每小时 100 件查多少件 NG
c（每单位缺陷数）	单位大小固定	每块 PCB 多少个虚焊点
u（每单位平均缺陷数）	单位大小可变	每板面积归一化的虚焊密度

实务：PE 项目 90% 用 X-bar/R，剩下用 IMR 或 p。其它图类型用得很少,知道存在即可。

4. X-bar / R 控制图详解（最常用的）

X-bar/R 是 PE 实务的主力。理解它的统计逻辑,其它图类型按相似框架推广即可。本节用一个具体例（焊脚阻抗）走完控制图建立的全流程。

4.1 数据采集与子组

控制图建立的第一步是采集 25 组子组数据(AIAG 推荐),每组 n=5 件。子组的核心原则——子组内是"自然变差"，子组间是"可能的特殊原因"：

子组内：连续 5 件、同一时刻、同一台机、同一操作员、同一批料——尽可能让差异只来自"自然不可控"因素（机器固有抖动、原料批内微差）
子组间：每隔 1 小时取下一组——子组之间的差异允许包含特殊原因（班次变了、温度变了、刀具磨了）

这条原则违反就废：如果子组内本身就跨了班次,子组内 σ 已经包含了特殊原因,控制限被算大,失控判定失效。所以采样设计是 SPC 起步成败的关键,不是统计公式本身。

4.2 中心线与控制限的推导

设 25 组数据,每组算均值 $\overset{ˉ}{X}_{i}$ 和极差 $R i$ 。则：

X-bar 图：

\overset{ˉ}{\overset{ˉ}{X}} = \frac{1}{25} i = 1 \sum 25 \overset{ˉ}{X}_{i}, U C L_{\overset{ˉ}{X}} = \overset{ˉ}{\overset{ˉ}{X}} + A 2 \overset{ˉ}{R}, L C L_{\overset{ˉ}{X}} = \overset{ˉ}{\overset{ˉ}{X}} - A 2 \overset{ˉ}{R}

R 图：

\overset{ˉ}{R} = \frac{1}{25} i = 1 \sum 25 R i, U C L_{R} = D 4 \overset{ˉ}{R}, L C L_{R} = D 3 \overset{ˉ}{R}

$A 2/ D 3/ D 4$ 是子组大小 n 的查表系数（来自 AIAG SPC 手册附录）：

n	$A 2$	$D 3$	$D 4$
2	1.880	0	3.267
3	1.023	0	2.575
4	0.729	0	2.282
5	0.577	0	2.114
6	0.483	0	2.004
7	0.419	0.076	1.924

为什么 ±3σ 不是 ±2σ 或 ±4σ？±3σ 是 Shewhart 1931 年定的"经济边界"——正态分布下 ±3σ 外占 0.27%,意味着控制图正常运行时大约每 370 个子组（约 2.5 周）才会出现一次假报警(Type I error)。±2σ 假报警率 4.6%(每 22 子组一次,根本不能用);±4σ 假报警率 0.006%（数百年一次,真有问题也漏报）。±3σ 是假报警率 vs 漏报率的最佳折中,这条选择是工程经济性,不是统计必然。

4.3 控制限 vs 规格限 — 别放一张图

这是 SPC 最常被滥用的反模式。

维度	控制限（UCL/LCL）	规格限（USL/LSL）
来源	过程自己——±3σ 自然变差	客户——OEM SOR 或图纸
单位	子组均值（ $\overset{ˉ}{X}$ 的 σ_x̄ = σ/√n）	单件值
用途	判断过程是否在按本来跑	判断单件是否合格
与 n 关系	随子组大小变（σ_x̄ = σ/√n）	不变

新人最常犯的错：把规格限画到 X-bar 图上当"红线"。这没意义——规格限是单件的,X-bar 是子组均值的,两者尺度不同；而且规格限内的过程也可能在漂(失控但不超规),漂到一定程度才超规,SPC 的价值就是在超规之前就抓到漂。

规格限属于直方图 + Cpk 的图,不属于控制图。两者都重要,但放在不同的图上。

5. 失控判定 — Western Electric 8 条规则

仅靠"出 ±3σ 就失控"这一条规则,只能抓单点突变——抓不到"长期小漂"。比如均值连续向上漂了 0.5σ 持续 8 个子组——每个点都还在 UCL 内，但过程明显已经移动了。Western Electric 1956 年补了 8 条 Run Rule 来抓这类长期漂,统称 WECO Rules（Nelson 1984 版略有改良,但核心相同）。

每条规则背后都有一个统计意义——不是凭经验拍的,而是该模式在过程稳定时出现概率 < 0.5%（与 ±3σ 的 0.27% 同量级）。

X-bar 控制图带 ±1/2/3σ 分带,4 个面板分别画出 R1 突变 / R2 同侧 9 点漂移 / R3 单调 6 点趋势 / R5 边缘小漂的典型数据形态

规则	模式	抓什么
1	1 点超 ±3σ	突变（机器跳变、突然失稳）
2	连续 9 点同侧（中心线上方或下方）	均值漂移（模具磨损、温度漂）
3	连续 6 点单调上升或下降	趋势（刀具磨耗、温度逐升）
4	连续 14 点交替上下	系统异常（两台机交替、两班次差）
5	3 点中 2 点超 ±2σ（同侧）	接近边缘的小漂
6	5 点中 4 点超 ±1σ（同侧）	持续偏置
7	连续 15 点都在 ±1σ 内（hugging）	散度异常缩小（可能数据被操控）
8	连续 8 点都在 ±1σ 外（无论哪侧）	散度异常增大或双峰分布

Rule 7 反直觉但很重要：如果数据"太聚拢中心",反而是异常——可能是操作员伪造数据、测量仪坏死值、或抽样规则被违反。SPC 控制图不是"越接近中心越好",过程的自然散度本身是已知的,严重少于自然散度等于过程变了一个我们不知道的样子。

实务：现代 SPC 软件（Minitab / SPC for Excel / 自建系统）默认开 Rule 1+2+3+5+6,Rule 4/7/8 按项目需要打开。全开 8 条会假报警过多——每天每图至少一次,操作员疲于应付,反而忽略真报警。

6. 失控后做什么 — OCAP（Out of Control Action Plan）

这一节常被忽略,但没有 OCAP 的 SPC 等于没做——失控时操作员手忙脚乱,要么停线找工艺工程师等几小时,要么自己拍脑袋调机参数把过程推得更乱。OCAP 是预先写好的失控响应流程,把"出现 X 类失控 → 按 Y 步检查 → 还不行升级到 Z"做成决策树挂在产线工位上。

OCAP 决策树:报警 → 圈货 → 按规则查检查表 → 30 min 内修复则恢复,否则升级 → 班长 / 制程 / 停线

OCAP 的核心要素：

按失控规则分支：Rule 1（突变）和 Rule 2（漂移）的根因不同,响应也不同——Rule 1 多是机器突发问题,先停机查；Rule 2 多是慢漂,先看刀具磨损 / 原料批次。OCAP 必须按规则分支响应,不能"一刀切"。
预先列检查项：每个分支列 5~10 个具体动作（"测刀具磨耗""换备用气压表测""叫制程工程师"），按从快到慢排。
升级路径：操作员处理 30 分钟无果 → 班长 → 工艺工程师 → 停线评审。升级时机硬约束——不允许操作员一直试到下班。
圈货流程：失控期间生产的件全部 hold,由 QE 决定 100% 复测、返工、还是报废。不能让失控期间的件按 normal 流程走。

OCAP 与 PFMEA / 8D 挂钩：每次执行 OCAP 都生成数据,这些数据必须回流：

多次因同一根因失控 → PFMEA 发生度 O 评分要上调
单次重大失控 → 触发 8D
检查项总是无效 → OCAP 本身要修订

7. SPC 与 Cpk / Ppk 的循环关系

SPC 和 Cpk 不是替代关系是循环关系：

SPC ↔ Cpk 持续改进闭环:PV (Ppk) → SOP → SPC 监控 → 长期数据 → 长期 Cpk → 复评 FMEA/CP → 反馈回 SPC

时间线：

PV 阶段：300 件算 Ppk（短期能力）。Ppk ≥ 1.67 → PPAP 签字 → SOP。
SOP 后：SPC 控制图启动,持续监控稳定性。每子组的数据都进数据库。
6 个月后：累计 ≥ 30 子组数据 → 用长期 σ 重算 Cpk。这是真正的"过程能力"——包含了所有班次、批次、季节性波动。
比较 Cpk 与 Ppk：
- Cpk ≈ Ppk → 过程长期稳定,可以放心
- Cpk < Ppk 显著（如 1.4 vs 1.7）→ 长期变差比短期大,有特殊原因未控住,反查 SPC 历史失控点
- Cpk > Ppk → 罕见,通常是 PV 时不走运抽到差子组,可以宽心
回流 PFMEA / CP：长期 Cpk 数据反馈到 FMEA 评分（O/D 重评）和 CP 限值（控制方法可能要加严或放宽）。

所以 SPC 不只是"产线监控"工具,是"过程改进的数据源"——SPC 数据 → Cpk 重算 → FMEA 重评 → CP 修订 → 再 SPC,这是一条持续改进的闭环。没这条闭环的 SPC 只是"应付审计的图"。

8. MSA / GR&R — SPC 数据可信的前提

SPC 数据有意义的前提是测量系统本身要够准。如果你的卡尺误差比工序方差还大,那 SPC 图上看到的"漂"其实是测量噪声而不是过程漂。这就是为什么 PPAP element 8（MSA）必须先于 SPC 完成。

测量系统总变差包含两部分：

σ_{t o t a l}^{2} = σ_{p rocess}^{2} + σ_{m e a s u re m e n t}^{2}

测量误差又分两个维度——重复性（Repeatability）和再现性（Reproducibility）,合称 GR&R：

维度	名称	含义
同一操作员重复测同一件	Repeatability	测量仪本身的随机抖动
不同操作员测同一件	Reproducibility	操作员手法差异、读数差异

GR&R 接受准则（AIAG MSA §3）：

GR&R % < 10%：可接受,测量系统优秀
10% ≤ GR&R % ≤ 30%：边缘可用,看 CC/SC 性质——CC 必须重做,普通特性可凑用
GR&R % > 30%：测量系统不可用,任何 SPC / Cpk 结果都无意义

GR&R 的具体研究方法（10 件 × 3 操作员 × 2~3 次测量,跑 ANOVA 或经典法分解方差）属于 MSA 详细操作,本页不展开,但关键判断：每次大的工艺改动 / 测量仪更换 / 检验员轮换,都要重做 GR&R。没有有效 GR&R 数据的 SPC 控制图只是装饰。

9. SPC 在功率电子产线的典型应用

抽象讲完,看几个 PE 项目实务中 SPC 跑什么参数。这些参数都是在 PFMEA 高 AP 项里被识别出来的工艺关键参数——SPC 是 PFMEA → CP 落地的最后一公里。

工序	SPC 监控参数	失控的工程后果
SMT 焊膏印刷	焊膏厚度（X-bar/R, n=5）	厚 → 桥接；薄 → 虚焊
回流焊	峰值温度、liquidus 时间（IMR）	高 → 元件损伤；低 → 冷焊
Wire bond	拉力、切位高度（X-bar/R）	拉力低 → 键合失效；切位高 → 焊脚 $L s$ 超 → DESAT 误触发
锡焊 / 铜键合	焊脚阻抗（X-bar/R）	阻抗大 → 高 di/dt 下电压尖峰
注塑封装	压力 / 温度 / 时间（IMR）	漂出 → 内应力 → 寿命跌
测试工序	关键电参数（IMR）	漂出 → 测试结果不可信

核心模式：每个 SPC 监控参数背后都对应 PFMEA 高 AP 项里的"工序关键参数",这些参数失控的后果在 DFMEA 里描述（如 "焊脚 $L s$ 超 → DESAT 误触发"）。SPC → PFMEA → DFMEA 是反向追溯链——SPC 失控发生时，工程师要沿这条链回到 DFMEA 看影响范围。

10. 5 个常见翻车点

每条都对应到本页前面某条因果链断裂——把规则当"做完即可"而不是理解背后的逻辑,SPC 就成了应付审计的装饰。

1. 控制限和规格限放一张图。表现是 X-bar 图上同时画了 USL/LSL "红线"——违反 §4.3 的边界。后果是操作员看到点没超 USL 就不警觉,即使 SPC 已经发出失控信号。改法是控制图只画 UCL/LCL,规格限放在直方图 + Cpk 那张图。

2. 子组内跨班次或跨批料。表现是采样规则定的"每小时 5 件",但这 5 件横跨了班次切换——违反 §4.1 子组内"自然变差"原则。后果是子组内 σ 已经包含特殊原因,UCL/LCL 算大,失控判定永远不报警。改法是采样规则锁死"5 件必须同一班次同一批料"。

3. WECO Rules 全 8 条都开。表现是控制图每天都在报警,操作员疲劳。后果是真正的失控被淹没在假报警里。改法是按 §5 实务建议默认开 1+2+3+5+6,Rule 4/7/8 按需开。

4. 没有 OCAP。表现是控制图失控,操作员停线找工艺工程师等 2 小时——违反 §6 的预先响应原则。后果是失控期间生产的件没人圈货,流到下一工序。改法是 OCAP 文档化挂在工位,操作员第一动作是"圈货 + 按 OCAP 决策树检查",不是"等专家"。

5. SPC 数据从不回流 FMEA / Cpk。表现是 SPC 控制图跑了 1 年,数据沉在数据库里,FMEA 评分还是 SOP 时的初始值——违反 §7 闭环。后果是 FMEA 越来越偏离实际过程,失去预测力。改法是每季度 SPC 数据 review 强制更新 FMEA 评分,与 PFMEA 维护流程绑定。

核心要点

SPC 的本质是把"过程稳定性"和"过程能力"分开看——稳定性靠控制图实时监控,能力靠 Cpk 算分。两者独立,四种组合都常见,各对应不同治理动作。
控制限不是规格限。控制限是过程自己说话（±3σ 自然变差）,规格限是客户说话——放一张图比较是 SPC 最常被滥用的反模式。
X-bar 看居中度,R/s 看散度——两张必须配套,只看一张会漏掉散度变大被均值掩盖的情况。
±3σ 是 Shewhart 1931 定的经济边界——假报警率 0.27% / 漏报率折中。不是统计必然,是工程经济性。
WECO 8 条 Run Rule 抓长期小漂——单一 ±3σ 漏过持续 9 点同侧的均值漂移；每条规则背后都是 < 0.5% 的稳定态出现概率。实务默认开 1+2+3+5+6,不全开。
OCAP 是 SPC 落地的关键——预先写好失控响应,按规则分支,有升级路径,圈货流程。没 OCAP 的 SPC 等于没做。
SPC → Cpk → FMEA → CP 是闭环——SPC 不只是产线监控工具,是过程改进的数据源；6 个月长期 Cpk 反馈进 FMEA / CP。
MSA/GR&R 是 SPC 前提——GR&R > 30% 测量系统不可用,SPC 数据无意义；任何工艺 / 仪器变更都要重做 GR&R。
SPC 是 PFMEA → CP 落地的最后一公里——监控的每个参数都对应 PFMEA 高 AP 项,失控时按反向追溯链回到 DFMEA 看影响范围。

Engineering Objects

引用此页的结构化 Engineeri…

引用此页的结构化 Engineering Object(v2.0 Copilot 自动生成,不要手动编辑此段)。

metric · metric_cpk — Cpk — Process Capability Index
metric · metric_grr — GR&R — Gauge Repeatability & Reproducibility
metric · metric_ppk — Ppk — Initial Process Performance Index

Cross-references

← 索引
DV 与 PV §3.3-3.7 — Cpk / Ppk / Cp 详解,与 SPC 短期长期数据互补
FMEA 方法论 — PFMEA 高 AP 项驱动 SPC 监控参数选择；SPC 数据反馈 PFMEA 评分
PPAP 与汽车零部件开发阶段 — PPAP element 7 (CP) / 8 (MSA) / 11 (Cpk) 三件套
8D 问题解决方法 — SPC 重大失控触发 8D；8D D7 强制更新 SPC 限值
PEU 开发流程与测试矩阵 — 术语速查 SPC/MSA/GR&R/Cpk
特殊特性 CC/SC — CC/SC 强制 SPC 监控,GR&R < 10%
失效模式速查 — SPC 监控参数失控的工程后果