Fail-Operational Architecture — L3 量产实战 + 6 相双绕组 + DREHB

功能安全L2别名 fail-operational deep · L3 ADAS architecture · Doer Checker · Primary Secondary · Self-Checking Pair Voter · DREHB · dual winding PMSM · MRC L3 L4 · Mercedes Drive Pilot · Honda Sensing Elite

本质与导读

本质 Fail-Operational 的真难点不是"加了冗余就完事",而是冗余通道共用同源——双 NN 共训练集、双 ECU 共编译器、双通道共 HD map、双电池共 harness、双 camera 同 fab lot——这些 common-cause 会让两路一起失效,冗余救不了,只能靠 diverse 设计破。L3 量产都栽在这里。

主线坐标:横轨 · 功能安全(跨站) · ↑ 全景主线

1. L3 量产实战 — 3 家拓扑对比

Fail-Op 的工程标准不是教科书,是已量产的 L3 系统。截至 2026-05,只有 Mercedes Drive Pilot 和 Honda Sensing Elite 在欧盟 / 日本获 SAE L3 法律认证,Tesla FSD 仍是 L2+(认证差的就是 fail-operational 冗余)。下图把三家在 5 大子系统(compute / brake / steering / power / sensor)的拓扑并排,关键差异在 sensor 模态(LiDAR 有无)+ brake 冗余(双 actuator 有无)。

L3 量产实战 — 3 家拓扑对比

1.1 Mercedes Drive Pilot — 当前金标

Mercedes Drive Pilot 在 2022-05 拿到欧盟首张 SAE L3 认证(S-Class + EQS),2023 加州 / 2024 内华达扩展。5 个子系统全冗余:

  • Brake:双 brake actuator + 独立液压 + 独立电子驱动 — 单 brake fail 不丢制动力
  • Steering:双 steering motor + 双 ECU + 双 wheel rotation sensor — 单 motor fail 半助力 + alert
  • Power:双电池架构 + isolation — 主 12V fail,备 12V 撑 ≥ 10s 等司机接管
  • Compute:双 ECU + diverse algorithm — 不是简单 mirror,Primary 跑全功能 NN,Secondary 跑 rule-based MRC
  • Sensor:camera + LiDAR + radar 3 模态 diverse — 任一模态 degrade,另两路融合补

来源:Mercedes-Benz Group — Drive Pilot redundancy

1.2 Honda Sensing Elite — 全球第一款量产 L3

Honda Sensing Elite 在 Legend EX(日本,2021-03)上量产,比 Drive Pilot 早 14 个月。架构上类似但更依赖 3D HD map + GNSS 双源定位 — 这是它和 Mercedes 的关键差异。Honda 公开"约 10 million 仿真场景 + 130 万公里实测"才通过日本国土交通省的 SAE L3 认证。Take-over Request(TOR)给司机 10 秒,接管不到自动靠边。

来源:Honda Global Press

1.3 Tesla — 为什么过不了 L3

Tesla 算力极致(双 HW4 SoC,720 TOPS),算法增量更新快,但结构上无 L3 级冗余:

  • 单 EHB + 单 EPS(无冗余 actuator)
  • 单 12V + 单 HV(无独立备电池)
  • 纯 vision(无 LiDAR,模态共因)
  • 双 SoC 但同算法(systematic CCF 满分)

这是为什么 Musk 路线图反复延期 L3 — 不是算法不够好,是硬件结构性缺冗余(无冗余执行器 / 备电 / 异构算法)。FSD 永远只能是 L2+(司机时刻准备接管),想升 L3 必须重大架构改动。


2. 3 种 Fail-Op 内部模式 — Doer-Checker / Primary-Secondary / 2oo3 SCP

Shallow page 讲了 Active-Passive / Active-Active / 2oo3 这三种外部架构,但每种架构内部还要选内部模式 — 决定 ECU 之间的角色分工 + 故障检测方式。这一节是 Fail-Op 设计的真正决策点。

3 种 Fail-Op 内部模式

2.1 Doer-Checker — 不能 fail-op 但能 fail-safe

Doer-Checker 是最常见但常被误用的模式。Doer 跑 QM(高性能 NN / FOC / 高级控制),Checker 跑 ASIL D(简单 range / sanity check),Checker 拒绝输出就拉 safe state。关键认知:Doer-Checker 不是 fail-operational — 它是 fail-safe,Checker 一旦拒绝 = 输出关停。把 Doer-Checker 当 fail-op 用是评审会立刻拒的反模式。

适用场景:主驱 motor torque(失 torque = 滑行,安全态存在)、BMS 限功率。不适用:Steer-by-Wire(失转向 = 不可控)、Brake-by-Wire(失制动 = 撞)、L3 ADAS Plan(失规划 = 失方向)。

来源:ARM Neoverse Safety Isolation

2.2 Primary-Secondary (Asymmetric) — L3 量产主流

Primary-Secondary 是 Mercedes / Honda 都在用的实际模式,本质是 asymmetric architecture:

  • PrimaryASIL B 全功能(变道 / 超车 / 高速跟车 / 路口决策)
  • Secondary — ASIL D 简版(仅 MRC 控制 — 当前车道减速 / 双闪 / 等司机)
  • 切换 — Primary fail,mux 切 Secondary,功能降级但继续行驶 ≤ 10s

关键认知:Primary-Secondary 不是 100% 功能续,Secondary 只做"安全降级到 MRC",这是 SoP 量产 Fail-Op 的折中。完整功能续(2oo3 / Active-Active 100%)成本太高,L3 商业化用不起。

来源:EE News Europe — Asymmetric Architecture

2.3 2oo3 + Self-Checking Pair Voter — 航空遗产

2oo3 是航空 1980s 的标准(Boeing 777 飞控,Airbus FBW),车规几乎只在 robotaxi L4 见到。关键陷阱:单 Voter = SPF — 你做了 3 通道冗余,但 Voter 自己挂了系统就死。航空解法是 Self-Checking Pair (SCP) Voter — 两个 Voter 互比,双 Voter 解 Voter 共因。

车规为什么少用 2oo3:×3 硬件成本 + Voter 必须 ASIL D + 双 Voter SCP 复杂度。Waymo / Cruise 量产 robotaxi 是这条路,但乘用车 L3 / L4 普遍走 Primary-Secondary 折中。


3. 6 相双绕组 PMSM — Steer-by-Wire 电气深细节

Steer-by-Wire(SbW)的核心执行器是 6 相双绕组 PMSM — 但这件事 shallow page 只一句话带过,实际工程要解 3 个问题:绕组怎么布置 / 单故障怎么续 / torque ripple 怎么压

6 相双绕组 PMSM 电气深细节

3.1 30° 偏移是硬约束 — 不是设计选择

两套三相绕组必须在 stator 上空间偏移 30° 电角,不是 60° 不是 0°:

  • 0° 偏移 = 两套绕组重合 = 同 phase 完全耦合 = CCF 灾难(一相短路同时挂双套)
  • 30° 偏移 = 6 次(及 18 次)谐波自然抵消(12 次成为残余主谐波)= torque ripple 减半,单故障 ripple 增量可控
  • 60° 偏移 = 等效三相,失去 6 相优势

来源:IET Power Electronics 2025 — Fault-Tolerant Six-Phase PMSM

3.2 单故障 torque ripple 缓解 — 3 招

Inverter A 故障 → B 升 100% → torque 减半 + ripple 急升 → 司机方向盘有顿挫感。3 招缓解:

  • Harmonic current injection — 注入 5 次 / 7 次反相电流主动抵消主谐波
  • Quasi-PR (QPR) current controller — 比 PI 更适合 dual-three-phase,稳态零误差
  • 依赖 30° 偏移天然消 6 次(及 18 次) — 即使单故障,空间结构仍提供基础 ripple 抑制(12 次为残余主谐波)

3.3 双 Inverter 必须 diverse — 不只是双拷贝

工程现实:两个 Inverter 即使硬件一样,控制算法必须 diverse:

  • Inv A — FOC(Field-Oriented Control,经典)
  • Inv BDTC(Direct Torque Control,另一族)

不 diverse 的话,同一软件 bug 同步打两路 = systematic CCF — 违反 ISO 26262-9 Annex C 第 ⑥ 类。


4. Brake-by-Wire DREHB — 3 层级联冗余

Brake-by-Wire 比 Steer-by-Wire 更激进 — 失制动直接撞,所有冗余设计都是 "any single fault, brake still works"。MDPI 2021 提出的 DREHB (Double Redundant Electro-Hydraulic Brake) 是 ASIL D L3 ADAS / 自动驾驶的当前 SoP 标杆。

Brake-by-Wire DREHB — 3 层级联冗余

DREHB 是级联架构,3 层各自双冗余,跨层级失效需要 ≥ 3 个独立故障:

4.1 Layer 1 — Pressure Provider(液压源双冗余)

最上层是双液压源,A 路 / B 路各自独立 motor + pump,任一失压另一路接管;关键是双 vendor + 双电源,不是双 unit:

  • Motor + Pump A — Vendor X,主路 200 bar
  • Motor + Pump B — Vendor Y,备路 180 bar
  • 单故障应对:A 失压 → B 接管 ≤ 20ms · ASIL D
  • 关键:双 vendor / 双电源 / 双 CAN,不只是双 unit

4.2 Layer 2 — Flow Switcher(流路切换)

中层是 valve matrix,负责把 Layer 1 的液压源送到 Layer 3 的 4 个 caliper,并在 valve 卡死时跨路绕行 — 这一层独立于 Layer 1 任一 vendor 的 MCU,避免共因:

  • Solenoid Valve Matrix(2×2)— 任一 valve 卡死,跨路供油绕过故障 valve
  • 隔离时间 ≤ 10ms,ABS / ESC 仍能正常工作
  • 关键:valve 控制器独立,不能挂在 Layer 1 任一 vendor 的 MCU

4.3 Layer 3 — Pressure Modulator(4 轮独立调节)

最下层是 4 轮独立 caliper,每轮有自己的 ECU + 液压回路,单轮失效靠对角轮补偿保持制动力矩平衡:

  • 4 个 caliper 各自 independent ECU + 独立液压回路
  • 单轮失效 → 对角轮补偿(典型 FL fail → RR 加压,保持力矩平衡)
  • 3 wheel braking 仍能停车

4.4 PFH 目标

DREHB 仿真验证 ,约为 ASIL D PFH 阈值 的 0.6 倍(~1.7× 裕度)。L3 ADAS / autonomous 驾驶必备,L2 用不上(司机能踩物理刹车踏板兜底)。

来源:MDPI Actuators 2021 — DREHB


5. MRC 状态机 — L3 vs L4 完全不同

MRC(Minimum Risk Condition)是 Fail-Op 的最终目标,但 L3 和 L4 的 MRC 完全不同:L3 兜底是司机,L4 没有人兜底,必须系统自主达到安全状态。下图把两个状态机并排画,差异在 ④ 步(MRC 内容)和 ⑤ 步(谁来 takeover)。

MRC 状态机 L3 vs L4

5.1 L3 MRC — Handover 模型

L3 的 MRC 假设司机最终接管,系统过渡 ≤ 10s:

  • ① Normal → ② Fault detected(≤ 50ms)→ Secondary 接管 + HMI alert
  • ② 后 2s alert 无应答 → ③ TOR(声 + 光 + 振动,最多 10s)
  • ③ 后 10s 无应答 → ④ MRC = 停在当前车道 + 双闪 + 0.5g 减速(不变道,不找路肩)
  • ⑤ MRC 达成 → 等司机回神 / eCall 自动呼救

关键:L3 MRC 不变道 — 因为系统不能保证变道安全(感知冗余不够)。这是 Mercedes / Honda 共同的设计选择。

5.2 L4 MRC — Autonomous 模型

L4 无司机兜底,必须自主达到安全位置:

  • ② Degraded mode → 2oo3 退 1oo2,降速 + 限制规划复杂度
  • ③ Find Safe Spot — 用 HD map 查最近 shoulder / 应急车道
  • ④ MRC = 主动变道 + 靠边停(需要变道感知冗余 + 路肩识别)
  • ⑤ MRC 达成 → remote takeover(远程操作员接管 / 拖车)

L4 MRC 难度比 L3 高一个量级 — 需要变道安全检查 + 路肩识别全功能仍在 degraded 模式下工作。这是 Waymo / Cruise 量产 robotaxi 的核心挑战。


6. L3 量产 5 类隐藏共因 — Fail-Op 也救不了的

做了双 ECU + 双电池 + 双 actuator 还不够 — Fail-Op 救不了 systematic CCF。L3 量产团队反复栽在以下 5 类隐藏共因上,必须靠 diverse 设计才能解。这一节是 Fail-Op 设计的最后一道门。

L3 量产 5 类隐藏共因

5 类隐藏共因 + 缓解策略:

  • ① 共训练数据集 — Primary NN + Secondary NN 用同一份 dataset → adversarial / corner case 共因。缓解:Secondary 用 rule-based 算法(非 NN),或 Primary NN-A + Secondary NN-B 不同 dataset
  • ② 共 toolchain — 两 ECU 同 GCC / 同 Tasking → compiler bug 同步打两路。缓解:Primary GCC + Secondary IAR / Keil,MISRA-C + toolchain qualification 双重
  • ③ 共 HD map — 两 ECU 都依赖同一 HD map → map error 同步打两路(Honda 2021 报告过类似事件)。缓解:Secondary 用 SLAM + GNSS 不依赖 map,Primary HD map + Secondary 实时感知融合
  • ④ 共 12V harness — 声称双电池,但 harness 走同一束 → chassis short 同时挂双 ECU。缓解:A 走 driver 侧 harness,B 走 passenger 侧,独立 isolation diode
  • ⑤ 共型号 sensor — 前向 2 个 camera 同型号(如 ON Semi AR0820)→ 同 fab lot 镜头 / CMOS 共因(sun glare 同时致盲)。缓解:异型号(Sony IMX + ON Semi),异模态(camera + LiDAR + radar)
关联 这 5 类对应 ISO 262…

关联 这 5 类对应 ISO 26262-9 Annex C 的 7 类 DFI(详见 共因失效 CCF 深度 §3) — ①②③⑤ 属于 Systematic Coupling(第 ⑥ 类),④ 属于 Shared Resource(第 ⑤ 类)。DFA Report 必须逐项论证。


7. Fail-Op 设计决策树

工程中怎么选模式?下面是 5 步决策法,从 Hazard 推到具体架构:

  1. Hazard 有无安全态? 有 → Fail-Safe;无 → Fail-Op
  2. 功能 100% 续 vs 降级 OK? 100% 续 → Active-Active 或 2oo3;降级 OK → Primary-Secondary
  3. 执行器原生双路? 是(双绕组 / 双 brake actuator)→ Active-Active;否 → Primary-Secondary 切换
  4. MRC 范围? L3(handover)→ "停在当前车道";L4(autonomous)→ "主动靠边停"
  5. Voter 复杂度可承受? 是 → 2oo3 + SCP;否(车规多数)→ Primary-Secondary

7.1 SoP 量产推荐组合

把上面 5 步决策落到具体子系统的实际组合 — 这是 SoP 量产团队踩过坑反推回来的"安全默认值",可直接当起点:

  • L3 EPS / SbW — 6 相双绕组 + Active-Active + Primary-Secondary ECU + diverse algorithm
  • L3 Brake-by-Wire — DREHB 3 层级联(L1 双 pump + L2 valve matrix + L3 4-wheel indep)
  • L3 Compute — Asymmetric Primary-Secondary(Primary 高性能 NN,Secondary rule-based MRC)
  • L4 robotaxi Compute — 2oo3 + SCP Voter,成本接受

8. 与其它 Part 关联

Fail-Op 涉及多个 ISO 26262 Part,工程组要并行推进:

  • Part 3 (HARA) — 识别"无安全态"的 Hazard,触发 Fail-Op 需求 + 写明 MRC 定义
  • Part 4 (System) — 选 Active-Passive / Active-Active / 2oo3 + 切换时序预算
  • Part 5 (HW)FMEDA + ,A/B 路径 SPFM 独立证明
  • Part 6 (SW) — Handover 状态机 + ramp 控制律 + diverse software 论证
  • Part 9 §5 (ASIL 分解) — Primary/Secondary 对应父需求 ASIL D → B(D)+B(D) 对称分解(两通道各 ASIL B)
  • Part 9 §7 (DFA) — 5 类隐藏共因 + 7 类 DFI 全谱检查
  • Part 11 (半导体) — Lockstep core 自身 CCF 风险 + die-level diverse

核心要点

  • Fail-Op 不是冗余而已 — 必须满足"切换时间 < FTTI + B 独立性证明 + DFA 通过 + 在线全测"四件套
  • 3 种内部模式 — Doer-Checker(不能 fail-op,只 fail-safe)/ Primary-Secondary(L3 量产主流,asymmetric)/ 2oo3 + SCP(航空遗产,车规罕见)
  • L3 量产金标 — Mercedes Drive Pilot(2022-05)+ Honda Sensing Elite(2021-03);Tesla 因无冗余 actuator + 无 LiDAR 过不了 L3
  • 6 相双绕组 PMSM 30° 偏移是硬约束 — 0° = CCF 灾难,60° = 退化三相,只有 30° 让 6 次(及 18 次)谐波自然抵消(12 次为残余主谐波)
  • Brake-by-Wire DREHB 3 层级联 — pressure provider 双 pump + flow switcher valve matrix + 4 wheel indep modulator,跨层失效需 ≥ 3 故障
  • L3 MRC = 停当前车道 — 不变道;L4 MRC = 主动靠边停 — 需变道 + 路肩识别全功能
  • 5 类隐藏共因 Fail-Op 救不了 — NN 训练集 / toolchain / HD map / 12V harness / sensor 型号,必须 diverse
  • 设计决策 5 步 — Hazard 安全态 → 功能续要求 → 执行器双路 → MRC 范围 → Voter 复杂度
  • Primary-Secondary ≠ 100% 功能续 — Secondary 只做 MRC 降级,SoP 量产折中
  • 关联 CCF 深度页 §3 (7 类 DFI) + §9 (5 维红线) — Fail-Op 5 类隐藏共因映射到 7 类 DFI

缩写表

只列本页用到的工业标准缩写;通用英语…

只列本页用到的工业标准缩写;通用英语 / 单位 / 月份 / 我们的 层/Lx tag 不列。覆盖不到的术语见正文 inline 注释。

缩写全称中文 / 备注
QMQuality ManagementISO 26262 最低等级,只走质量流程
ASILAutomotive Safety Integrity LevelISO 26262 安全完整性等级 QM→A→B→C→D
ISOInternational Organization for Standardization国际标准化组织
CCFCommon Cause Failure共因失效
ECUElectronic Control Unit电子控制单元
SAESociety of Automotive Engineers美国汽车工程师学会
HVHigh Voltage高压(车规通常 ≥60 V)
FOCField-Oriented Control磁场定向控制
BMSBattery Management System电池管理系统
DTCDirect Torque Control直接转矩控制
CANController Area Network控制器局域网
MCUMicrocontroller Unit微控制器(本页多指车规多核 MCU)
ONonsemi安森美
DFIDependent Failure Initiator相关失效起因
DFADependent Failure Analysis相关失效分析(ISO 26262-9)
HARAHazard Analysis and Risk Assessment危害分析与风险评估,part 3
FMEDAFailure Modes, Effects and Diagnostic Analysis含诊断覆盖的 FMEA
SPFMSingle-Point Fault Metric单点失效度量
FTTIFault Tolerant Time Interval容错时间间隔

Cross-references


延伸阅读

下列是本页核心引用 — 上半部分是量产 L3 一手资料,下半部分是冗余 actuator 学术论文: