Fail-Operational Architecture — L3 量产实战 + 6 相双绕组 + DREHB
本质与导读
本质 Fail-Operational 的真难点不是"加了冗余就完事",而是冗余通道共用同源——双 NN 共训练集、双 ECU 共编译器、双通道共 HD map、双电池共 harness、双 camera 同 fab lot——这些 common-cause 会让两路一起失效,冗余救不了,只能靠 diverse 设计破。L3 量产都栽在这里。
1. L3 量产实战 — 3 家拓扑对比
Fail-Op 的工程标准不是教科书,是已量产的 L3 系统。截至 2026-05,只有 Mercedes Drive Pilot 和 Honda Sensing Elite 在欧盟 / 日本获 SAE L3 法律认证,Tesla FSD 仍是 L2+(认证差的就是 fail-operational 冗余)。下图把三家在 5 大子系统(compute / brake / steering / power / sensor)的拓扑并排,关键差异在 sensor 模态(LiDAR 有无)+ brake 冗余(双 actuator 有无)。
1.1 Mercedes Drive Pilot — 当前金标
Mercedes Drive Pilot 在 2022-05 拿到欧盟首张 SAE L3 认证(S-Class + EQS),2023 加州 / 2024 内华达扩展。5 个子系统全冗余:
- Brake:双 brake actuator + 独立液压 + 独立电子驱动 — 单 brake fail 不丢制动力
- Steering:双 steering motor + 双 ECU + 双 wheel rotation sensor — 单 motor fail 半助力 + alert
- Power:双电池架构 + isolation — 主 12V fail,备 12V 撑 ≥ 10s 等司机接管
- Compute:双 ECU + diverse algorithm — 不是简单 mirror,Primary 跑全功能 NN,Secondary 跑 rule-based MRC
- Sensor:camera + LiDAR + radar 3 模态 diverse — 任一模态 degrade,另两路融合补
1.2 Honda Sensing Elite — 全球第一款量产 L3
Honda Sensing Elite 在 Legend EX(日本,2021-03)上量产,比 Drive Pilot 早 14 个月。架构上类似但更依赖 3D HD map + GNSS 双源定位 — 这是它和 Mercedes 的关键差异。Honda 公开"约 10 million 仿真场景 + 130 万公里实测"才通过日本国土交通省的 SAE L3 认证。Take-over Request(TOR)给司机 10 秒,接管不到自动靠边。
2. 3 种 Fail-Op 内部模式 — Doer-Checker / Primary-Secondary / 2oo3 SCP
Shallow page 讲了 Active-Passive / Active-Active / 2oo3 这三种外部架构,但每种架构内部还要选内部模式 — 决定 ECU 之间的角色分工 + 故障检测方式。这一节是 Fail-Op 设计的真正决策点。
2.1 Doer-Checker — 不能 fail-op 但能 fail-safe
Doer-Checker 是最常见但常被误用的模式。Doer 跑 QM(高性能 NN / FOC / 高级控制),Checker 跑 ASIL D(简单 range / sanity check),Checker 拒绝输出就拉 safe state。关键认知:Doer-Checker 不是 fail-operational — 它是 fail-safe,Checker 一旦拒绝 = 输出关停。把 Doer-Checker 当 fail-op 用是评审会立刻拒的反模式。
适用场景:主驱 motor torque(失 torque = 滑行,安全态存在)、BMS 限功率。不适用:Steer-by-Wire(失转向 = 不可控)、Brake-by-Wire(失制动 = 撞)、L3 ADAS Plan(失规划 = 失方向)。
2.2 Primary-Secondary (Asymmetric) — L3 量产主流
Primary-Secondary 是 Mercedes / Honda 都在用的实际模式,本质是 asymmetric architecture:
- Primary — ASIL B 全功能(变道 / 超车 / 高速跟车 / 路口决策)
- Secondary — ASIL D 简版(仅 MRC 控制 — 当前车道减速 / 双闪 / 等司机)
- 切换 — Primary fail,mux 切 Secondary,功能降级但继续行驶 ≤ 10s
关键认知:Primary-Secondary 不是 100% 功能续,Secondary 只做"安全降级到 MRC",这是 SoP 量产 Fail-Op 的折中。完整功能续(2oo3 / Active-Active 100%)成本太高,L3 商业化用不起。
2.3 2oo3 + Self-Checking Pair Voter — 航空遗产
2oo3 是航空 1980s 的标准(Boeing 777 飞控,Airbus FBW),车规几乎只在 robotaxi L4 见到。关键陷阱:单 Voter = SPF — 你做了 3 通道冗余,但 Voter 自己挂了系统就死。航空解法是 Self-Checking Pair (SCP) Voter — 两个 Voter 互比,双 Voter 解 Voter 共因。
车规为什么少用 2oo3:×3 硬件成本 + Voter 必须 ASIL D + 双 Voter SCP 复杂度。Waymo / Cruise 量产 robotaxi 是这条路,但乘用车 L3 / L4 普遍走 Primary-Secondary 折中。
3. 6 相双绕组 PMSM — Steer-by-Wire 电气深细节
Steer-by-Wire(SbW)的核心执行器是 6 相双绕组 PMSM — 但这件事 shallow page 只一句话带过,实际工程要解 3 个问题:绕组怎么布置 / 单故障怎么续 / torque ripple 怎么压。
3.1 30° 偏移是硬约束 — 不是设计选择
两套三相绕组必须在 stator 上空间偏移 30° 电角,不是 60° 不是 0°:
- 0° 偏移 = 两套绕组重合 = 同 phase 完全耦合 = CCF 灾难(一相短路同时挂双套)
- 30° 偏移 = 6 次(及 18 次)谐波自然抵消(12 次成为残余主谐波)= torque ripple 减半,单故障 ripple 增量可控
- 60° 偏移 = 等效三相,失去 6 相优势
来源:IET Power Electronics 2025 — Fault-Tolerant Six-Phase PMSM
3.2 单故障 torque ripple 缓解 — 3 招
Inverter A 故障 → B 升 100% → torque 减半 + ripple 急升 → 司机方向盘有顿挫感。3 招缓解:
- Harmonic current injection — 注入 5 次 / 7 次反相电流主动抵消主谐波
- Quasi-PR (QPR) current controller — 比 PI 更适合 dual-three-phase,稳态零误差
- 依赖 30° 偏移天然消 6 次(及 18 次) — 即使单故障,空间结构仍提供基础 ripple 抑制(12 次为残余主谐波)
4. Brake-by-Wire DREHB — 3 层级联冗余
Brake-by-Wire 比 Steer-by-Wire 更激进 — 失制动直接撞,所有冗余设计都是 "any single fault, brake still works"。MDPI 2021 提出的 DREHB (Double Redundant Electro-Hydraulic Brake) 是 ASIL D L3 ADAS / 自动驾驶的当前 SoP 标杆。
DREHB 是级联架构,3 层各自双冗余,跨层级失效需要 ≥ 3 个独立故障:
4.1 Layer 1 — Pressure Provider(液压源双冗余)
最上层是双液压源,A 路 / B 路各自独立 motor + pump,任一失压另一路接管;关键是双 vendor + 双电源,不是双 unit:
- Motor + Pump A — Vendor X,主路 200 bar
- Motor + Pump B — Vendor Y,备路 180 bar
- 单故障应对:A 失压 → B 接管 ≤ 20ms · ASIL D
- 关键:双 vendor / 双电源 / 双 CAN,不只是双 unit
4.2 Layer 2 — Flow Switcher(流路切换)
中层是 valve matrix,负责把 Layer 1 的液压源送到 Layer 3 的 4 个 caliper,并在 valve 卡死时跨路绕行 — 这一层独立于 Layer 1 任一 vendor 的 MCU,避免共因:
- Solenoid Valve Matrix(2×2)— 任一 valve 卡死,跨路供油绕过故障 valve
- 隔离时间 ≤ 10ms,ABS / ESC 仍能正常工作
- 关键:valve 控制器独立,不能挂在 Layer 1 任一 vendor 的 MCU
4.3 Layer 3 — Pressure Modulator(4 轮独立调节)
最下层是 4 轮独立 caliper,每轮有自己的 ECU + 液压回路,单轮失效靠对角轮补偿保持制动力矩平衡:
- 4 个 caliper 各自 independent ECU + 独立液压回路
- 单轮失效 → 对角轮补偿(典型 FL fail → RR 加压,保持力矩平衡)
- 3 wheel braking 仍能停车
4.4 PFH 目标
DREHB 仿真验证 ,约为 ASIL D PFH 阈值 的 0.6 倍(~1.7× 裕度)。L3 ADAS / autonomous 驾驶必备,L2 用不上(司机能踩物理刹车踏板兜底)。
来源:MDPI Actuators 2021 — DREHB
5. MRC 状态机 — L3 vs L4 完全不同
MRC(Minimum Risk Condition)是 Fail-Op 的最终目标,但 L3 和 L4 的 MRC 完全不同:L3 兜底是司机,L4 没有人兜底,必须系统自主达到安全状态。下图把两个状态机并排画,差异在 ④ 步(MRC 内容)和 ⑤ 步(谁来 takeover)。
5.1 L3 MRC — Handover 模型
L3 的 MRC 假设司机最终接管,系统过渡 ≤ 10s:
- ① Normal → ② Fault detected(≤ 50ms)→ Secondary 接管 + HMI alert
- ② 后 2s alert 无应答 → ③ TOR(声 + 光 + 振动,最多 10s)
- ③ 后 10s 无应答 → ④ MRC = 停在当前车道 + 双闪 + 0.5g 减速(不变道,不找路肩)
- ⑤ MRC 达成 → 等司机回神 / eCall 自动呼救
关键:L3 MRC 不变道 — 因为系统不能保证变道安全(感知冗余不够)。这是 Mercedes / Honda 共同的设计选择。
5.2 L4 MRC — Autonomous 模型
L4 无司机兜底,必须自主达到安全位置:
- ② Degraded mode → 2oo3 退 1oo2,降速 + 限制规划复杂度
- ③ Find Safe Spot — 用 HD map 查最近 shoulder / 应急车道
- ④ MRC = 主动变道 + 靠边停(需要变道感知冗余 + 路肩识别)
- ⑤ MRC 达成 → remote takeover(远程操作员接管 / 拖车)
L4 MRC 难度比 L3 高一个量级 — 需要变道安全检查 + 路肩识别全功能仍在 degraded 模式下工作。这是 Waymo / Cruise 量产 robotaxi 的核心挑战。
6. L3 量产 5 类隐藏共因 — Fail-Op 也救不了的
做了双 ECU + 双电池 + 双 actuator 还不够 — Fail-Op 救不了 systematic CCF。L3 量产团队反复栽在以下 5 类隐藏共因上,必须靠 diverse 设计才能解。这一节是 Fail-Op 设计的最后一道门。
5 类隐藏共因 + 缓解策略:
- ① 共训练数据集 — Primary NN + Secondary NN 用同一份 dataset → adversarial / corner case 共因。缓解:Secondary 用 rule-based 算法(非 NN),或 Primary NN-A + Secondary NN-B 不同 dataset
- ② 共 toolchain — 两 ECU 同 GCC / 同 Tasking → compiler bug 同步打两路。缓解:Primary GCC + Secondary IAR / Keil,MISRA-C + toolchain qualification 双重
- ③ 共 HD map — 两 ECU 都依赖同一 HD map → map error 同步打两路(Honda 2021 报告过类似事件)。缓解:Secondary 用 SLAM + GNSS 不依赖 map,Primary HD map + Secondary 实时感知融合
- ④ 共 12V harness — 声称双电池,但 harness 走同一束 → chassis short 同时挂双 ECU。缓解:A 走 driver 侧 harness,B 走 passenger 侧,独立 isolation diode
- ⑤ 共型号 sensor — 前向 2 个 camera 同型号(如 ON Semi AR0820)→ 同 fab lot 镜头 / CMOS 共因(sun glare 同时致盲)。缓解:异型号(Sony IMX + ON Semi),异模态(camera + LiDAR + radar)
关联 这 5 类对应 ISO 262…
关联 这 5 类对应 ISO 26262-9 Annex C 的 7 类 DFI(详见 共因失效 CCF 深度 §3) — ①②③⑤ 属于 Systematic Coupling(第 ⑥ 类),④ 属于 Shared Resource(第 ⑤ 类)。DFA Report 必须逐项论证。
7. Fail-Op 设计决策树
工程中怎么选模式?下面是 5 步决策法,从 Hazard 推到具体架构:
- Hazard 有无安全态? 有 → Fail-Safe;无 → Fail-Op
- 功能 100% 续 vs 降级 OK? 100% 续 → Active-Active 或 2oo3;降级 OK → Primary-Secondary
- 执行器原生双路? 是(双绕组 / 双 brake actuator)→ Active-Active;否 → Primary-Secondary 切换
- MRC 范围? L3(handover)→ "停在当前车道";L4(autonomous)→ "主动靠边停"
- Voter 复杂度可承受? 是 → 2oo3 + SCP;否(车规多数)→ Primary-Secondary
7.1 SoP 量产推荐组合
把上面 5 步决策落到具体子系统的实际组合 — 这是 SoP 量产团队踩过坑反推回来的"安全默认值",可直接当起点:
- L3 EPS / SbW — 6 相双绕组 + Active-Active + Primary-Secondary ECU + diverse algorithm
- L3 Brake-by-Wire — DREHB 3 层级联(L1 双 pump + L2 valve matrix + L3 4-wheel indep)
- L3 Compute — Asymmetric Primary-Secondary(Primary 高性能 NN,Secondary rule-based MRC)
- L4 robotaxi Compute — 2oo3 + SCP Voter,成本接受
8. 与其它 Part 关联
Fail-Op 涉及多个 ISO 26262 Part,工程组要并行推进:
- Part 3 (HARA) — 识别"无安全态"的 Hazard,触发 Fail-Op 需求 + 写明 MRC 定义
- Part 4 (System) — 选 Active-Passive / Active-Active / 2oo3 + 切换时序预算
- Part 5 (HW) — FMEDA + ,A/B 路径 SPFM 独立证明
- Part 6 (SW) — Handover 状态机 + ramp 控制律 + diverse software 论证
- Part 9 §5 (ASIL 分解) — Primary/Secondary 对应父需求 ASIL D → B(D)+B(D) 对称分解(两通道各 ASIL B)
- Part 9 §7 (DFA) — 5 类隐藏共因 + 7 类 DFI 全谱检查
- Part 11 (半导体) — Lockstep core 自身 CCF 风险 + die-level diverse
核心要点
- Fail-Op 不是冗余而已 — 必须满足"切换时间 < FTTI + B 独立性证明 + DFA 通过 + 在线全测"四件套
- 3 种内部模式 — Doer-Checker(不能 fail-op,只 fail-safe)/ Primary-Secondary(L3 量产主流,asymmetric)/ 2oo3 + SCP(航空遗产,车规罕见)
- L3 量产金标 — Mercedes Drive Pilot(2022-05)+ Honda Sensing Elite(2021-03);Tesla 因无冗余 actuator + 无 LiDAR 过不了 L3
- 6 相双绕组 PMSM 30° 偏移是硬约束 — 0° = CCF 灾难,60° = 退化三相,只有 30° 让 6 次(及 18 次)谐波自然抵消(12 次为残余主谐波)
- Brake-by-Wire DREHB 3 层级联 — pressure provider 双 pump + flow switcher valve matrix + 4 wheel indep modulator,跨层失效需 ≥ 3 故障
- L3 MRC = 停当前车道 — 不变道;L4 MRC = 主动靠边停 — 需变道 + 路肩识别全功能
- 5 类隐藏共因 Fail-Op 救不了 — NN 训练集 / toolchain / HD map / 12V harness / sensor 型号,必须 diverse
- 设计决策 5 步 — Hazard 安全态 → 功能续要求 → 执行器双路 → MRC 范围 → Voter 复杂度
- Primary-Secondary ≠ 100% 功能续 — Secondary 只做 MRC 降级,SoP 量产折中
- 关联 CCF 深度页 §3 (7 类 DFI) + §9 (5 维红线) — Fail-Op 5 类隐藏共因映射到 7 类 DFI
缩写表
只列本页用到的工业标准缩写;通用英语…
只列本页用到的工业标准缩写;通用英语 / 单位 / 月份 / 我们的
层/Lxtag 不列。覆盖不到的术语见正文 inline 注释。
| 缩写 | 全称 | 中文 / 备注 |
|---|---|---|
| QM | Quality Management | ISO 26262 最低等级,只走质量流程 |
| ASIL | Automotive Safety Integrity Level | ISO 26262 安全完整性等级 QM→A→B→C→D |
| ISO | International Organization for Standardization | 国际标准化组织 |
| CCF | Common Cause Failure | 共因失效 |
| ECU | Electronic Control Unit | 电子控制单元 |
| SAE | Society of Automotive Engineers | 美国汽车工程师学会 |
| HV | High Voltage | 高压(车规通常 ≥60 V) |
| FOC | Field-Oriented Control | 磁场定向控制 |
| BMS | Battery Management System | 电池管理系统 |
| DTC | Direct Torque Control | 直接转矩控制 |
| CAN | Controller Area Network | 控制器局域网 |
| MCU | Microcontroller Unit | 微控制器(本页多指车规多核 MCU) |
| ON | onsemi | 安森美 |
| DFI | Dependent Failure Initiator | 相关失效起因 |
| DFA | Dependent Failure Analysis | 相关失效分析(ISO 26262-9) |
| HARA | Hazard Analysis and Risk Assessment | 危害分析与风险评估,part 3 |
| FMEDA | Failure Modes, Effects and Diagnostic Analysis | 含诊断覆盖的 FMEA |
| SPFM | Single-Point Fault Metric | 单点失效度量 |
| FTTI | Fault Tolerant Time Interval | 容错时间间隔 |
Cross-references
- ← 索引
- Fail-Operational 架构(浅入口) — 3 种模式 + Steer-by-Wire 拓扑
- 共因失效 CCF 深度 — 7 类 DFI + 隐藏共因详解
- ASIL 分解深度 — 独立性 4 维论证
- ASIL D 案例 — EPS / 主驱实战
- Voting 冗余 — 1oo2D / 2oo3 投票
- 冗余低压供电深度 — by-wire fail-op 的供电层冗余(双电池/主备 DC-DC/BPU/ORing)+ CCF 隔离
- SOTIF 深度 — L3+ 性能不足边界
- 功能安全工程师指南 hub — V-cycle + 全栈
延伸阅读
下列是本页核心引用 — 上半部分是量产 L3 一手资料,下半部分是冗余 actuator 学术论文:
- Mercedes-Benz Group — Drive Pilot redundancy:https://group.mercedes-benz.com/innovation/product-innovation/autonomous-driving/redundancy-drive-pilot.html
- Honda Global — Sensing Elite Legend EX launch (2021-03):https://global.honda/en/newsroom/news/2021/4210304eng-legend.html
- EE News Europe — Fail-operational architecture for automated driving:https://www.eenewseurope.com/en/fail-operational-architecture-for-automated-driving-covers-l3-l4/
- ARM Neoverse — ISO 26262 ASIL isolation pattern (Doer-Checker):https://learn.arm.com/learning-paths/automotive/openadkit2_safetyisolation/1c_iso26262/
- IET Power Electronics 2025 — Fault-Tolerant Six-Phase Dual Stator Winding PMSM:https://ietresearch.onlinelibrary.wiley.com/doi/full/10.1049/pel2.70109
- MDPI Actuators 2021 — Novel Double Redundant Brake-by-Wire System (DREHB):https://www.mdpi.com/2076-0825/10/11/287
- Brake-by-wire Wikipedia:https://en.wikipedia.org/wiki/Brake-by-wire
- Formal Verification of a Fail-Operational Automotive Driving System (arXiv):https://arxiv.org/pdf/2101.07307
- impedyme — Six-Phase PMSM resource center:https://impedyme.com/resource-center/six-phase-permanent-magnet-synchronous-machine/