SPC 控制图详解(Statistical Process Control)
本质 Cpk 给的是过程能力快照——这一批 300 件统计上能不能进规格。但量产是连续的,过程会漂:模具磨损、焊机维护改参数、原料换批次、班次更替……漂出某个边界,Cpk 立刻跌但 Cpk 报告要等 300 件再算一次,这中间生产的所有件已经流到客户。SPC 的核心是把"过程稳定性"和"过程能力"分开看——稳定性靠控制图实时监控,能力靠 Cpk 统计算分。两者独立:稳定但不能力(产线很稳但每件都超规)、能力但不稳定(均值还在中心但已经在漂)都常见。控制限不是规格限:控制限来自过程自己的 ±3σ(过程在说话),规格限来自客户(客户在说话),两者放一张图上比较是 SPC 最常被滥用的反模式。
学习目标
读完本页后,你应该能够:
- 区分"过程稳定"和"过程能力"两个独立维度,说出可能的四种组合
- 说出 SPC 控制图与 Cpk 的时间轴 / 抽样 / 用途差异
- 选择正确的控制图类型(X-bar/R、X-bar/s、IMR、p、np、c、u)
- 推导 X-bar/R 控制图的中心线 + UCL/LCL,理解为什么是 ±3σ
- 用 Western Electric 8 条规则判定失控,理解每条规则背后的统计意义
- 区分控制限(过程在说话)与规格限(客户在说话),说出两者放一张图的反模式
- 说出 OCAP(失控行动计划)为什么必须预先写好
- 说出 MSA / GR&R 为什么是 SPC 数据可信的前提
- 把 SPC 输出挂回 PFMEA / Control Plan / 8D / Cpk 重算
1. SPC 解决什么问题
PV 通过、PPAP 签字、SOP 启动后,OEM 不再每件 300 件抽样算 Cpk——产线一天产 5000 件,事后算 Cpk 来不及。这时如果只靠"成品出货检",发现不合格件已经造了一批。SPC 的存在意义就是把质量监控从"事后"前移到"事中"——在工序进行时实时监控,异常在第一时间报警,然后停线 / 调机 / 圈货,而不是等成品出来才发现。
下图把 Cpk 与 SPC 在时间轴上的角色分开看:
| 维度 | Cpk(PV 阶段) | SPC 控制图(量产阶段) |
|---|---|---|
| 时间 | 一次性,300 件统计 | 持续,每子组 5 件 / 1 小时 |
| 目的 | 证明能力 | 监控稳定性 |
| 输出 | 一个数(Cpk = 1.94) | 一张图 + 失控点 |
| 触发动作 | < 1.67 不能 PPAP | 失控 → OCAP 响应 |
| 与规格关系 | 直接看进规格能力 | 不看规格,看过程自己 |
最后一行是 SPC 最反直觉的点:控制图判失控不用规格限,用控制限——下一节展开。
2. 稳定性 ≠ 能力 — 两个独立维度
工程师常把"过程稳定"和"过程能力"混说,实际是两个独立维度——四种组合都常见,各对应不同治理动作。先把这张表理解透,后面所有内容才有意义。
| 能力 ✅(Cpk 高) | 能力 ❌(Cpk 低) | |
|---|---|---|
| 稳定 ✅ | 理想态:把现状锁住即可 | 设计 / 工艺天生差:必须改根本(DFMEA / PFMEA 重做) |
| 稳定 ❌ | 看似良率 OK 但偶发突袭:必须找特殊原因(往往是隐性的) | 双重问题:先稳后改能力,不能并行 |
关键判别:
- 能力问 "如果过程稳定,产出能不能进规格"——靠 Cpk 算分,改了要回 PV 重测
- 稳定性问 "过程是不是在按本来的样子跑"——靠 SPC 控制图实时看,失控就响应
两个 trap:
- 稳定但不能力(左下→左上):产线很稳定地产出超规件——Cpk 跌但 SPC 没失控点(因为产线就一直这么不行,没"漂")。这是 PV 没过的根因没解决就上 SOP——SPC 帮不了你,要回去改设计/工艺。
- 能力但不稳定(右上→左下):Cpk 平均值过线但 SPC 频繁失控——特殊原因被未检出,可能是间歇性问题(如某班次操作员特定动作)。这种最危险,因为整体良率看着还行,但偶发坏件流到客户。
3. 控制图的两大类
控制图按测量数据类型分两大类——计量数据用一套图,计数数据用另一套。选错图类型,UCL/LCL 算出来就错,失控判断没意义——这是 SPC 实施第一道关。
3.1 计量型(Variable)
测的是连续物理量——电压、长度、阻抗、温度、扭矩。这类数据信息量最高——不仅知道"过没过",还知道"离规格多远"。所以只要能测到具体数值就用计量型——计数型是测不到数值时的退路,不是首选。
| 图 | 适用 | 子组大小 n | 例 |
|---|---|---|---|
| X-bar / R | 子组小(n=2~9) | 2~9 | 焊脚阻抗、PCB 板厚、贴片偏移 |
| X-bar / s | 子组大(n≥10) | ≥10 | SMT 焊膏厚度全板扫描 |
| I-MR(individuals + moving range) | 数据稀疏 / n=1 | 1 | 注塑机每模 1 件、化学浴每天 1 次抽测 |
**为什么不直接用一张 X 图而要配 R 或 s 图?**因为单看均值漂可能是"散度变大"被均值掩盖,看 R/s 才能发现散度本身的问题。X-bar 看居中度,R/s 看散度,两张必须配套。
3.2 计数型(Attribute)
测的是"件数"——多少件不合格、多少个缺陷。这类数据信息量低(合格 / 不合格的二值化丢失了"差多少"的细节),所以只在测量成本高 / 计量不可行时用——比如外观瑕疵、装配缺漏。
| 图 | 适用 | 例 |
|---|---|---|
| p(不合格率) | 子组大小可变 | 每天 1000 件抽 50 件查不合格率 |
| np(不合格件数) | 子组大小固定 | 每小时 100 件查多少件 NG |
| c(每单位缺陷数) | 单位大小固定 | 每块 PCB 多少个虚焊点 |
| u(每单位平均缺陷数) | 单位大小可变 | 每板面积归一化的虚焊密度 |
实务:PE 项目 90% 用 X-bar/R,剩下用 IMR 或 p。其它图类型用得很少,知道存在即可。
4. X-bar / R 控制图详解(最常用的)
X-bar/R 是 PE 实务的主力。理解它的统计逻辑,其它图类型按相似框架推广即可。本节用一个具体例(焊脚阻抗)走完控制图建立的全流程。
4.1 数据采集与子组
控制图建立的第一步是采集 25 组子组数据(AIAG 推荐),每组 n=5 件。子组的核心原则——子组内是"自然变差",子组间是"可能的特殊原因":
- 子组内:连续 5 件、同一时刻、同一台机、同一操作员、同一批料——尽可能让差异只来自"自然不可控"因素(机器固有抖动、原料批内微差)
- 子组间:每隔 1 小时取下一组——子组之间的差异允许包含特殊原因(班次变了、温度变了、刀具磨了)
这条原则违反就废:如果子组内本身就跨了班次,子组内 σ 已经包含了特殊原因,控制限被算大,失控判定失效。所以采样设计是 SPC 起步成败的关键,不是统计公式本身。
4.2 中心线与控制限的推导
设 25 组数据,每组算均值 和极差 。则:
X-bar 图:
R 图:
是子组大小 n 的查表系数(来自 AIAG SPC 手册附录):
| n | |||
|---|---|---|---|
| 2 | 1.880 | 0 | 3.267 |
| 3 | 1.023 | 0 | 2.575 |
| 4 | 0.729 | 0 | 2.282 |
| 5 | 0.577 | 0 | 2.114 |
| 6 | 0.483 | 0 | 2.004 |
| 7 | 0.419 | 0.076 | 1.924 |
为什么 ±3σ 不是 ±2σ 或 ±4σ?±3σ 是 Shewhart 1931 年定的"经济边界"——正态分布下 ±3σ 外占 0.27%,意味着控制图正常运行时大约每 370 个子组(约 2.5 周)才会出现一次假报警(Type I error)。±2σ 假报警率 4.6%(每 22 子组一次,根本不能用);±4σ 假报警率 0.006%(数百年一次,真有问题也漏报)。±3σ 是假报警率 vs 漏报率的最佳折中,这条选择是工程经济性,不是统计必然。
4.3 控制限 vs 规格限 — 别放一张图
这是 SPC 最常被滥用的反模式。
| 维度 | 控制限(UCL/LCL) | 规格限(USL/LSL) |
|---|---|---|
| 来源 | 过程自己——±3σ 自然变差 | 客户——OEM SOR 或图纸 |
| 单位 | 子组均值( 的 σ_x̄ = σ/√n) | 单件值 |
| 用途 | 判断过程是否在按本来跑 | 判断单件是否合格 |
| 与 n 关系 | 随子组大小变(σ_x̄ = σ/√n) | 不变 |
新人最常犯的错:把规格限画到 X-bar 图上当"红线"。这没意义——规格限是单件的,X-bar 是子组均值的,两者尺度不同;而且规格限内的过程也可能在漂(失控但不超规),漂到一定程度才超规,SPC 的价值就是在超规之前就抓到漂。
规格限属于直方图 + Cpk 的图,不属于控制图。两者都重要,但放在不同的图上。
5. 失控判定 — Western Electric 8 条规则
仅靠"出 ±3σ 就失控"这一条规则,只能抓单点突变——抓不到"长期小漂"。比如均值连续向上漂了 0.5σ 持续 8 个子组——每个点都还在 UCL 内,但过程明显已经移动了。Western Electric 1956 年补了 8 条 Run Rule 来抓这类长期漂,统称 WECO Rules(Nelson 1984 版略有改良,但核心相同)。
每条规则背后都有一个统计意义——不是凭经验拍的,而是该模式在过程稳定时出现概率 < 0.5%(与 ±3σ 的 0.27% 同量级)。
| 规则 | 模式 | 抓什么 |
|---|---|---|
| 1 | 1 点超 ±3σ | 突变(机器跳变、突然失稳) |
| 2 | 连续 9 点同侧(中心线上方或下方) | 均值漂移(模具磨损、温度漂) |
| 3 | 连续 6 点单调上升或下降 | 趋势(刀具磨耗、温度逐升) |
| 4 | 连续 14 点交替上下 | 系统异常(两台机交替、两班次差) |
| 5 | 3 点中 2 点超 ±2σ(同侧) | 接近边缘的小漂 |
| 6 | 5 点中 4 点超 ±1σ(同侧) | 持续偏置 |
| 7 | 连续 15 点都在 ±1σ 内(hugging) | 散度异常缩小(可能数据被操控) |
| 8 | 连续 8 点都在 ±1σ 外(无论哪侧) | 散度异常增大或双峰分布 |
Rule 7 反直觉但很重要:如果数据"太聚拢中心",反而是异常——可能是操作员伪造数据、测量仪坏死值、或抽样规则被违反。SPC 控制图不是"越接近中心越好",过程的自然散度本身是已知的,严重少于自然散度等于过程变了一个我们不知道的样子。
实务:现代 SPC 软件(Minitab / SPC for Excel / 自建系统)默认开 Rule 1+2+3+5+6,Rule 4/7/8 按项目需要打开。全开 8 条会假报警过多——每天每图至少一次,操作员疲于应付,反而忽略真报警。
6. 失控后做什么 — OCAP(Out of Control Action Plan)
这一节常被忽略,但没有 OCAP 的 SPC 等于没做——失控时操作员手忙脚乱,要么停线找工艺工程师等几小时,要么自己拍脑袋调机参数把过程推得更乱。OCAP 是预先写好的失控响应流程,把"出现 X 类失控 → 按 Y 步检查 → 还不行升级到 Z"做成决策树挂在产线工位上。
OCAP 的核心要素:
- 按失控规则分支:Rule 1(突变)和 Rule 2(漂移)的根因不同,响应也不同——Rule 1 多是机器突发问题,先停机查;Rule 2 多是慢漂,先看刀具磨损 / 原料批次。OCAP 必须按规则分支响应,不能"一刀切"。
- 预先列检查项:每个分支列 5~10 个具体动作("测刀具磨耗""换备用气压表测""叫制程工程师"),按从快到慢排。
- 升级路径:操作员处理 30 分钟无果 → 班长 → 工艺工程师 → 停线评审。升级时机硬约束——不允许操作员一直试到下班。
- 圈货流程:失控期间生产的件全部 hold,由 QE 决定 100% 复测、返工、还是报废。不能让失控期间的件按 normal 流程走。
OCAP 与 PFMEA / 8D 挂钩:每次执行 OCAP 都生成数据,这些数据必须回流:
- 多次因同一根因失控 → PFMEA 发生度 O 评分要上调
- 单次重大失控 → 触发 8D
- 检查项总是无效 → OCAP 本身要修订
7. SPC 与 Cpk / Ppk 的循环关系
SPC 和 Cpk 不是替代关系是循环关系:
时间线:
- PV 阶段:300 件算 Ppk(短期能力)。Ppk ≥ 1.67 → PPAP 签字 → SOP。
- SOP 后:SPC 控制图启动,持续监控稳定性。每子组的数据都进数据库。
- 6 个月后:累计 ≥ 30 子组数据 → 用长期 σ 重算 Cpk。这是真正的"过程能力"——包含了所有班次、批次、季节性波动。
- 比较 Cpk 与 Ppk:
- Cpk ≈ Ppk → 过程长期稳定,可以放心
- Cpk < Ppk 显著(如 1.4 vs 1.7)→ 长期变差比短期大,有特殊原因未控住,反查 SPC 历史失控点
- Cpk > Ppk → 罕见,通常是 PV 时不走运抽到差子组,可以宽心
- 回流 PFMEA / CP:长期 Cpk 数据反馈到 FMEA 评分(O/D 重评)和 CP 限值(控制方法可能要加严或放宽)。
所以 SPC 不只是"产线监控"工具,是"过程改进的数据源"——SPC 数据 → Cpk 重算 → FMEA 重评 → CP 修订 → 再 SPC,这是一条持续改进的闭环。没这条闭环的 SPC 只是"应付审计的图"。
8. MSA / GR&R — SPC 数据可信的前提
SPC 数据有意义的前提是测量系统本身要够准。如果你的卡尺误差比工序方差还大,那 SPC 图上看到的"漂"其实是测量噪声而不是过程漂。这就是为什么 PPAP element 8(MSA)必须先于 SPC 完成。
测量系统总变差包含两部分:
测量误差又分两个维度——重复性(Repeatability)和再现性(Reproducibility),合称 GR&R:
| 维度 | 名称 | 含义 |
|---|---|---|
| 同一操作员重复测同一件 | Repeatability | 测量仪本身的随机抖动 |
| 不同操作员测同一件 | Reproducibility | 操作员手法差异、读数差异 |
GR&R 接受准则(AIAG MSA §3):
- GR&R % < 10%:可接受,测量系统优秀
- 10% ≤ GR&R % ≤ 30%:边缘可用,看 CC/SC 性质——CC 必须重做,普通特性可凑用
- GR&R % > 30%:测量系统不可用,任何 SPC / Cpk 结果都无意义
GR&R 的具体研究方法(10 件 × 3 操作员 × 2~3 次测量,跑 ANOVA 或经典法分解方差)属于 MSA 详细操作,本页不展开,但关键判断:每次大的工艺改动 / 测量仪更换 / 检验员轮换,都要重做 GR&R。没有有效 GR&R 数据的 SPC 控制图只是装饰。
9. SPC 在功率电子产线的典型应用
抽象讲完,看几个 PE 项目实务中 SPC 跑什么参数。这些参数都是在 PFMEA 高 AP 项里被识别出来的工艺关键参数——SPC 是 PFMEA → CP 落地的最后一公里。
| 工序 | SPC 监控参数 | 失控的工程后果 |
|---|---|---|
| SMT 焊膏印刷 | 焊膏厚度(X-bar/R, n=5) | 厚 → 桥接;薄 → 虚焊 |
| 回流焊 | 峰值温度、liquidus 时间(IMR) | 高 → 元件损伤;低 → 冷焊 |
| Wire bond | 拉力、切位高度(X-bar/R) | 拉力低 → 键合失效;切位高 → 焊脚 超 → DESAT 误触发 |
| 锡焊 / 铜键合 | 焊脚阻抗(X-bar/R) | 阻抗大 → 高 di/dt 下电压尖峰 |
| 注塑封装 | 压力 / 温度 / 时间(IMR) | 漂出 → 内应力 → 寿命跌 |
| 测试工序 | 关键电参数(IMR) | 漂出 → 测试结果不可信 |
核心模式:每个 SPC 监控参数背后都对应 PFMEA 高 AP 项里的"工序关键参数",这些参数失控的后果在 DFMEA 里描述(如 "焊脚 超 → DESAT 误触发")。SPC → PFMEA → DFMEA 是反向追溯链——SPC 失控发生时,工程师要沿这条链回到 DFMEA 看影响范围。
10. 5 个常见翻车点
每条都对应到本页前面某条因果链断裂——把规则当"做完即可"而不是理解背后的逻辑,SPC 就成了应付审计的装饰。
1. 控制限和规格限放一张图。表现是 X-bar 图上同时画了 USL/LSL "红线"——违反 §4.3 的边界。后果是操作员看到点没超 USL 就不警觉,即使 SPC 已经发出失控信号。改法是控制图只画 UCL/LCL,规格限放在直方图 + Cpk 那张图。
2. 子组内跨班次或跨批料。表现是采样规则定的"每小时 5 件",但这 5 件横跨了班次切换——违反 §4.1 子组内"自然变差"原则。后果是子组内 σ 已经包含特殊原因,UCL/LCL 算大,失控判定永远不报警。改法是采样规则锁死"5 件必须同一班次同一批料"。
3. WECO Rules 全 8 条都开。表现是控制图每天都在报警,操作员疲劳。后果是真正的失控被淹没在假报警里。改法是按 §5 实务建议默认开 1+2+3+5+6,Rule 4/7/8 按需开。
4. 没有 OCAP。表现是控制图失控,操作员停线找工艺工程师等 2 小时——违反 §6 的预先响应原则。后果是失控期间生产的件没人圈货,流到下一工序。改法是 OCAP 文档化挂在工位,操作员第一动作是"圈货 + 按 OCAP 决策树检查",不是"等专家"。
5. SPC 数据从不回流 FMEA / Cpk。表现是 SPC 控制图跑了 1 年,数据沉在数据库里,FMEA 评分还是 SOP 时的初始值——违反 §7 闭环。后果是 FMEA 越来越偏离实际过程,失去预测力。改法是每季度 SPC 数据 review 强制更新 FMEA 评分,与 PFMEA 维护流程绑定。
核心要点
- SPC 的本质是把"过程稳定性"和"过程能力"分开看——稳定性靠控制图实时监控,能力靠 Cpk 算分。两者独立,四种组合都常见,各对应不同治理动作。
- 控制限不是规格限。控制限是过程自己说话(±3σ 自然变差),规格限是客户说话——放一张图比较是 SPC 最常被滥用的反模式。
- X-bar 看居中度,R/s 看散度——两张必须配套,只看一张会漏掉散度变大被均值掩盖的情况。
- ±3σ 是 Shewhart 1931 定的经济边界——假报警率 0.27% / 漏报率折中。不是统计必然,是工程经济性。
- WECO 8 条 Run Rule 抓长期小漂——单一 ±3σ 漏过持续 9 点同侧的均值漂移;每条规则背后都是 < 0.5% 的稳定态出现概率。实务默认开 1+2+3+5+6,不全开。
- OCAP 是 SPC 落地的关键——预先写好失控响应,按规则分支,有升级路径,圈货流程。没 OCAP 的 SPC 等于没做。
- SPC → Cpk → FMEA → CP 是闭环——SPC 不只是产线监控工具,是过程改进的数据源;6 个月长期 Cpk 反馈进 FMEA / CP。
- MSA/GR&R 是 SPC 前提——GR&R > 30% 测量系统不可用,SPC 数据无意义;任何工艺 / 仪器变更都要重做 GR&R。
- SPC 是 PFMEA → CP 落地的最后一公里——监控的每个参数都对应 PFMEA 高 AP 项,失控时按反向追溯链回到 DFMEA 看影响范围。
Cross-references
- ← 索引
- DV 与 PV §3.3-3.7 — Cpk / Ppk / Cp 详解,与 SPC 短期长期数据互补
- FMEA 方法论 — PFMEA 高 AP 项驱动 SPC 监控参数选择;SPC 数据反馈 PFMEA 评分
- PPAP 与汽车零部件开发阶段 — PPAP element 7 (CP) / 8 (MSA) / 11 (Cpk) 三件套
- 8D 问题解决方法 — SPC 重大失控触发 8D;8D D7 强制更新 SPC 限值
- PEU 开发流程与测试矩阵 — 术语速查 SPC/MSA/GR&R/Cpk
- 特殊特性 CC/SC — CC/SC 强制 SPC 监控,GR&R < 10%
- 失效模式速查 — SPC 监控参数失控的工程后果