Deep-ingest PDF loop — 持久状态 SSOT(2026-06-27 起)

本质与导读

用户决策(2026-06-27):对 sources/on-topic 的 pending PDF 做专家级 deep ingest, 不做 gap 过滤、不限量,接受跨多 session + 高 token。本文件是该 loop 的持久状态, /clear 后只读 PROJECTS.md + 本文件即可续跑。

方案与边界(为什么不是浅层 auto-pipeline)

  • 现成 auto_ingest.py(OpenRouter 免费档)出浅层摘要页 → 会制造新一轮对抗审计债, 与「真用真提升非页数」相悖。故本 loop 用主循环专家级产页,不跑 auto-pipeline。
  • 每页质量门 = wiki deep 契约(R5/R6):专家级深页 + 3 张 hand-SVG + lint 0/0 + 跨模型核标准类断言。
  • maker≠checker:PDF 抽取(maker)用 sub-agent,标准/数值断言独立核(checker,sub-agent 或 scripts/audit/xmodel_verify.py DeepSeek+GLM),主循环综合(别让 sub-agent 综合,会触限废稿)。

队列(清洗后)

源 = wiki/sources-index.json 的 299 pending。清洗分流(脚本逻辑见 commit):

action处理
deep169专家级深页候选(本 loop 主线)。明细 → _deep-ingest-pdf-queue.json(tier0 FS/sbc/protect/psu=29 · tier1 mosfet/power/opamp/半导体…=105 · tier2=35)
enrich-card35<0.4MB datasheet/模型卡 → 补现有器件页核值(走 OEM 官网核流程),不单独成页
book-mine33>25MB 教科书/handbook → 只作参照挖点,不 pageify
skip-standard47ISO/IEC/CISPR/AEC 标准全文 → 只作核验参照,版权不复制、不成页
skip-junk15JUNK,丢弃
队列文件 _deep-ingest-…

队列文件 _deep-ingest-pdf-queue.json:每条 {n,file,topic,title,mb,tier,status}status: queued / done / merged(并入现有页)/ skip(开做后判定不该成页,记原因)。

⚠️ 关键教训 — sources-index 的 "pending" 已 STALE(2026-06-27 实测)

索引 2026-05-10 生成,之后大量 deep 页是手写 session 产出(非 auto_ingest), 未回写索引,也不在 .ingested-hashes.json(那只记 auto_ingest 跑过的 84 条)。 故"pending"里很多其实已 ingest——且文件名常对不上(页 sources: 写的是语义名, 如白皮书写 "NXP Whitepaper — High-Voltage Inverter Safety System Concept", 盘上文件名却是 SAFETY-CONCEPT-WHITE-PAPER.pdf)。

首例:队列 #8 SAFETY-CONCEPT-WHITE-PAPER.pdf = topic-hv-inverter-iso26262-concept.md 的源,早已 ingest。→ dedup 必须做内容级(按厂商/型号/标题 grep),不能只靠文件名/hash。

⚠️ 关键发现 2 — wiki 已成熟,pending 的「新页产出」极低(2026-06-27 实测)

抽样核验 tier0/tier1 聚焦候选,全部已被重度覆盖:HV inverter 白皮书=已有专页 / clearance-creepage=topic-iec-60664-edition3 专页 / LDO=74 页+aux-pol-rail-deep / bipolar 晶闸管=60 页 / 系统级 ESD=esd-protection-system-level 专页 / TVS-load-dump=34 页 / MC33907-08 SBC=54 页+infineon-optireg-sbc-safety-deep / resolver=34 页。 且 tier1 大量是教科书/工具手册/中文学位论文(Erickson 20MB / LTspice help / 碳化硅可靠性 论文 22MB)= book-mine,非干净单页源(我 <25MB 的 deep 切分偏松)。

结论(R9):「ingest 全部 on-topic pending」premise 与地面真相冲突——绝大多数已 ingest 或是 book-mine。真实可产出 = 极少数未覆盖角落 + 像 #8 那样主源补已存在页的已核验细节(targeted enrich)。盲扫 168 项做边际 enrich = 高 token 低价值,违「真用真提升非页数」。推荐改 gap-first / targeted:只做覆盖 grep 真未命中、或主源能给已存在页加可核验硬数据的项。

🌐 Web 源 backlog(厂商官网 deep-search,2026-06-27)

用户加任务:TI 栅驱 FAQ URL + Infineon/NXP/ST 官网 deep search。结果:

  • TI 栅驱 FAQ URL(e2echina)硬反爬(WebFetch/headless/curl 全 403)。但并行 recon agent 确认 其全部主题(dead time/UVLO/CMTI/desat/传播延迟/Miller clamp/bootstrap/热/OVP)wiki 已深覆盖 → 实质已 ingest,SSZT249(输入级耦合)仅窄边角,非真 gap。判定:TI FAQ = covered,不建页。
  • 并行 recon Workflow(4 agent TI/Infineon/NXP/ST,_vendor-recon-2026-06-27.json)揪出真 gap backlog:
厂商gap置信现状
NXPFS85/FS84 安全 SBCAN12333✅ 新页 topic-nxp-fs85-sbc-safety-deep
NXPGD3160 高级 SiC 栅驱GD3160 DS✅ 新页 topic-nxp-gd3160-sic-gate-driver-deep
STSPC5 FCCU + safety manualAN4446✅ 新页 topic-st-spc5-fccu-safety-deep
STL9369 电子驻车制动 ICL9369 DB+AN4958✅ 新页 topic-st-l9369-epb-driver-deep(data-brief 级,ASIL/dead-time 未证实如实标)
STAN4671 SiC 栅驱 loss 微调AN4671✅ enrich 3 页(sic-gate-loop-parameters / driver-vee-negative-bias-deep / miller-clamp-deep)
TISSZT249 隔离栅驱输入级耦合SSZT249边角,暂缓
NXPFS23 body/comfort SBC(ASIL B)AN14041待定(下批)
STL9963T ISOSPI 隔离 / L99xx FMEDA 对标L9963T DS待定(下批)
✅ 高置信 5 个全部完成(2026…

✅ 高置信 5 个全部完成(2026-06-27):4 新页 + 1 组 3-页 enrich,全 lint0/0 + SVG 视觉核 + backlink + mirror。 浏览器抓取机制已打通:vendor 站(NXP/ST/TI)对 WebFetch/curl/headless 全反爬;启用 Chrome「允许 Apple 事件中的 JS」开关后, 用 osascript 驱动用户真实 Chrome 页内 fetch(带已过校验会话)blob 下载 → ~/Downloads → inbox,零用户点击。6 PDF 已抓取入 inbox。 中置信 3 个(SSZT249/FS23/L9963T)留下批。Infineon 路 summary 见 _vendor-recon-2026-06-27.json(EiceDRIVER/CoolSiC/OPTIREG 多已覆盖)。

每页全流程(一页一 checkpoint)

  1. 取队首 status=queued、tier 最小的条目;定位 PDF(sources/<file>sources/<domain>/<file>)。
  2. dedup 前置(省下昂贵空做):先按该源的厂商 / 型号 / 标题关键词 grep 现有 wiki/pages/。命中已有深覆盖 → 比对原文,有缺口则 enrich、无缺口则标 merged 跳过; 未命中 → create 新深页。先抽取文本再 grep 更准(文件名常误导)。
  3. 抽取(maker,sub-agent):pdftotext 该 PDF → 返回结构化专家要点 + 全部数值/标准断言清单。
  4. :主循环综合成深页(frontmatter schema 合规 / ## 散文开头 / 纯 LaTeX 公式 / prereq / sources)。
  5. 3 张 hand-SVG:font 18/16/11/10 无 bold max-width:100% → rsvg-convert -w 1400 → Read PNG 视觉核无重叠。
  6. 核验(checker):标准/spec 类断言过 scripts/audit/xmodel_verify.py(DeepSeek+GLM); datasheet 数值 WebFetch OEM 官网核(守 feedback_fetch_datasheets_from_oem)。
  7. :lint_pages.py --strict 0/0 + check_links.py + system_content_health.py 0。
  8. backlink:对应域 index/hub 加入链(防 backlink-gap)。
  9. _deep-ingest-pdf-queue.json 该条 status=done(或 merged/skip+原因)+ commit(本地;push=自主可选)。

收口门

  • loop-until-dry:_deep-ingest-pdf-queue.json 全部 status≠queued(deep 全清)即停。
  • 预算:单 session 预算到 → 停在 committed checkpoint,留指针。
  • 硬停:动钱 / 开真仓(本 loop 无)。遇 lint/render 重试后仍挂 → 停、不推破页、记本表。

进度指针

loop_started: 2026-06-27
deep_total: 169
deep_done: 3       # #8 enrich-merged · #11/#12 created(LDO)
last_n: 12         # 上次处理的队列 n
last_date: 2026-06-27
mode: targeted/gap-first(用户 2026-06-27 决策)
triaged: 85/169 (并行 Workflow:gap 1 · covered 40 · book-mine 24 · dup 7 · off-topic 12 · unreadable 1)
gap-pending: #73(Si MOSFET 感性负载关断过冲三段门驱,边界重叠待定)
并行 triage 结论(2026-…

并行 triage 结论(2026-06-27,Workflow 13 agent / 85 候选):wiki 已饱和—— 85 个里仅 1 个真 gap(且边界重叠)。其余 covered 40 / book-mine 24 / dup 7 / off-topic 12。 剩 84 未 triage(多为教科书/工具手册/学术论文,book-mine 概率高)。新页产出已确认极低, 后续按 gap-first:有真 gap 才建页(如本轮 LDO),否则记 merged/book-mine 不空做。

逐页日志(append,新的在上)

格式:#n · file · cre…

格式:#n · file · create/enrich/merged · 页 slug · 修/核要点 · commit

  • #11/#12 · LDO 基础知识 / zhcy089a.pdf · create · topic-ldo-fundamentals-deep.md(新页) —— triage 发现真 gap:LDO 只有应用/选型层覆盖(aux-pol-rail-deep §2 等),无器件级专页。 据 TI「LDO 基础知识」建器件级深页:pass element(PMOS vs NMOS + 为何 NMOS 需 charge pump)/ dropout=Rds(min)×Iout / PSRR 曲线三频段 + 与 dropout 强耦合 / Iq 轻载效率 / 噪声=基准噪声×(1+R1/R2) / 稳定性(CFF 零点 + 电容降额)/ 热(RθJA 比器件更致命)。3 hand-SVG + 全数字独立 grep 原文核验。 lint 0/0 + schema + links + health 0 + SVG 视觉核 + backlink(aux-pol-rail §2)+ mirror。 maker 守纪律标出源盲区(ESR tunnel / Iq-vs-Iground 该 ebook 未覆盖),页内据实 scope。

  • #8 · SAFETY-CONCEPT-WHITE-PAPER.pdf · enrich(merged) · topic-hv-inverter-iso26262-concept.md —— 该 PDF = NXP HV inverter 白皮书,已是此页的源(stale-index 首例)。比对原文补 3 项缺口: ① §4.5 三段嵌套 FTTI 预算(200ms SG / ~100µs motor-interface 反应 / <2µs 桥臂短路) 决定机制硬/软分层;② §4.2 故障驱动 safe-state 选择(short→3PSHS / open→3PSLS)+ NXP 原始术语 3PSHS/3PSLS/3-phase-open 映射到页内 SS_HSS/SS_LSS/SS_3PO;③ GD3100 99% 自检 + SSD 2LTO + redundant channel。所有数字独立 grep 原文核验(maker≠checker),非贵 spec 类 无需跨模型。lint 0/0 + links 全过。