功能安全现场数据反馈闭环深度 — 量化再评估 / OTA 交付 / 召回触发

功能安全L1别名 现场安全反馈闭环 · field safety feedback · 场数据再评估 · OTA 安全交付 · 召回触发准则 · living safety case

本质与导读

本质 开发期安全案例全建在假设上(FMEDA 的 λ、HARA exposure、SOTIF 场景集),运营期现场数据要么验证要么推翻它——实测 λ_field 一旦高过 FMEDA 假设,重算 PMHF 可能跌破 ASIL D 阈,安全案例即失效、必须触发召回/OTA。把现场监控做成定量闭环,安全案例才从一次性文档变成 living safety case。

主线坐标:横轨 · 功能安全(跨站) · ↑ 全景主线

1. 为什么要闭环 — 安全案例建在假设上

开发期签发的 安全案例 不是"证明系统安全",而是"在一组假设下论证残余风险可接受":

  • FMEDA 用的失效率 λ(来自 SN29500/IEC 62380 手册或厂商数据)是预测值
  • HARAexposure 概率(某危险工况多常见)是估计值
  • SOTIF已知场景集当时能想到的

运营期是这些假设的真值检验场:实车失效率、真实工况频率、未预见的触发场景,会验证或推翻假设。闭环 = 让安全案例随场数据持续更新(living safety case),而非签发即封存。

现场反馈闭环:安全案例假设 → 场数据 → 量化再评估 → 触发决策 → 更新案例


2. 数据管线 + 安全相关性 triage

场数据是海量且大部分非安全的,闭环第一关是管线 + triage:

  • 数据源:DTC + freezeframe(故障码 + 冻结帧)、EDR(事件数据记录)、telematics 联网上传、warranty/PPM(质保/百万分故障)、投诉热线、法规事故通报shadow-mode 场景捕获(量产车后台跑算法记录 corner case)
  • 安全相关性 triage:绝大多数故障是质量/体验问题,不是安全。要先筛出触及 SG / 触发已知危险 / 暴露新 fault mode 的子集——靠故障码映射到 SG、近失(near-miss)模式匹配、统计异常检测
  • 隐私/数据治理:telematics/EDR 涉个人数据,管线要合规(GDPR/国标)

triage 的产出:一批安全相关候选,进 §3 量化再评估。


3. 量化再评估 — 实测 λ vs 假设 λ(核心)

Part 7 页 §4 说"PPM 超阈值就行动",但阈值哪来的?闭环的深层是把它锚到开发期假设:

  • 实测 λ_field:从场失效数 / 装车量 / 运行小时算出实际失效率(带置信区间——早期样本少,CI 宽)
  • 对账假设:实测 λ_field vs FMEDA 当初假设的 λ;实测 exposure vs HARA 假设
  • 重算度量:λ 变了 → 重算 PMHF / SPFM / LFM还过不过 ASIL D 阈?
  • 判定:
    • 实测 ≈ 假设 → 假设成立,安全案例保持
    • 实测 ≫ 假设 → 假设被推翻 → 安全案例失效 → 必须行动(§4)
    • 新 fault mode 不在 FMEDA → FMEDA 不完整 → 补 + 重评

把"PPM 超阈值"升级成"实测失效率推翻了 FMEDA 假设、PMHF 重算过不了 ASIL D"——这才是定量的再评估,阈值不再是拍脑袋。

量化骨架(别只喊"定量"):

  • λ_field 与置信区间:λ_field = 场失效数 / 总运行小时;CI 用卡方分布(失效率区间估计的标准做法)
  • 早期零失效别给点估计:用卡方单边上界(自由度 2,χ²(2,1−α)/(2T))给 λ 上限——运行小时 T 越少上界越松,这正是 §6"样本不足不能放过"的定量化
  • 恒定 λ 只在随机失效期成立:进入磨损期(Weibull 形状参数 β>1,如 bond wire 老化)PMHF 的恒定失效率模型本身失效,要换 Weibull / B10 寿命建模——否则磨损型失效会被系统性误判成"还在假设内"
  • leading 维度:除等失效(lagging),加 SPI(Safety Performance Indicator) 监控 precursor 信号(UL 4600 / SOTIF 运营期),别等炸了才动

4. 触发决策 — 召回 / OTA / 服务,按风险 + 法规

再评估判定"要行动"后,选哪种行动按残余风险 + 法规时限:

  • 召回(recall):残余风险高 / 已发生事故 → 法规强制(缺陷申报有时限,如 NHTSA 5 工作日、国标 GB 类似),代价最大
  • OTA fix:可软件修复的 → 远程推送,代价小但OTA 本身是安全 + 信息安全相关
  • 服务通报(service campaign):中度 → 4S 店进店修
  • 下批改进:轻度 → 不召回,改设计/工艺下批生效

OTA 作为安全修复交付(易被低估):

  • ISO 24089(道路车辆软件更新工程) 做更新的安全工程
  • UNECE R156(SUMS,软件更新管理系统) 做型批准合规(R155 是 CSMS 网络安全)
  • 关键:更新本身不能变砖(回滚 / A-B 分区 / 失败恢复)、更新 campaign 要有自己的安全案例(更新过程别引入新危险)、推送对象/版本可追溯

5. 跨标准并行闭环 — 共享一条管线

field feedback 不止 FuSa 一条 loop,三条并行、共享同一数据管线:

  • 功能安全(26262-7):实测 λ → 再评估 FMEDA/PMHF → 召回/OTA(本页主线)
  • SOTIF(21448 持续改进):场数据发现新触发场景 / 未知不安全(Area 3) → 加入 场景库 → 变"已知"(Area 3 → Area 2)→ 消解(→ Area 1)→ Area 3 缩小。这是 SOTIF 闭合"未知不安全"的唯一途径(Area 1 已知安全 / 2 已知不安全 / 3 未知不安全 / 4 未知安全)
  • 网络安全(21434 / UNECE R155 CSMS):漏洞/攻击监控 → 评估 → 安全补丁(也走 OTA)

三条共享 DTC/telematics/EDR 管线,但评估准则不同(FuSa 看失效率、SOTIF 看触发场景、Cyber 看漏洞)。工程上常合一个 field-monitoring 平台喂三套评估。


6. 工程陷阱

现场反馈闭环翻车几乎都在"合规打卡不闭环"和"定性不定量":

  • 签发即封存安全案例 — 不随场数据更新 = 不是 living safety case,假设被推翻也不知道
  • PPM 阈值拍脑袋 — 不锚到 FMEDA 假设 λ,无法判断"是否推翻安全论证";要重算 PMHF
  • 不做安全相关性 triage — 海量故障里淹没安全信号,或把质量问题当安全恐慌
  • OTA 当普通软件升级 — 漏 ISO 24089/R156,变砖 / 引入新危险 / 不可回滚
  • 三标准各搞各的管线 — 数据重复采集、漏交叉(一个场景同时是 SOTIF + Cyber 问题)
  • 早期小样本下结论 — λ_field 置信区间宽,样本不足就召回/放过都可能错

核心要点

  • 安全案例建在假设(FMEDA λ / HARA exposure / SOTIF 已知场景)上,运营期验证或推翻 → living safety case
  • 数据管线先安全相关性 triage(海量故障多数非安全),再进再评估
  • 量化再评估(核心):实测 λ_field vs FMEDA 假设 λ → 重算 PMHF/SPFM → 还过不过 ASIL D;推翻则安全案例失效
  • 触发决策按残余风险 + 法规时限:召回 / OTA / 服务 / 下批;OTA 作安全交付须 ISO 24089 + R156(回滚/不变砖)
  • 三条并行闭环共享管线:FuSa(失效率)+ SOTIF(Area-3 新场景)+ 网络安全(漏洞)
  • 别"合规打卡不闭环"、别"定性不定量"、别"早期小样本下结论"

缩写表

缩写全称中文
FMEDAFailure Modes Effects & Diagnostic Analysis失效模式影响与诊断分析
PMHFProbabilistic Metric for random HW Failures随机硬件失效概率度量
SGSafety Goal安全目标
DTCDiagnostic Trouble Code诊断故障码
EDREvent Data Recorder事件数据记录仪
PPMParts Per Million (defect rate)百万分缺陷率
OTAOver-The-Air (update)空中下载(更新)
SUMSSoftware Update Management System软件更新管理系统
CSMSCyber Security Management System网络安全管理系统
SOTIFSafety Of The Intended Functionality预期功能安全
λfailure rate失效率

Cross-references