Deep-ingest PDF loop — 持久状态 SSOT(2026-06-27 起)
本质与导读
用户决策(2026-06-27):对
sources/里 on-topic 的 pending PDF 做专家级 deep ingest, 不做 gap 过滤、不限量,接受跨多 session + 高 token。本文件是该 loop 的持久状态,/clear后只读PROJECTS.md+ 本文件即可续跑。
方案与边界(为什么不是浅层 auto-pipeline)
- 现成
auto_ingest.py(OpenRouter 免费档)出浅层摘要页 → 会制造新一轮对抗审计债, 与「真用真提升非页数」相悖。故本 loop 用主循环专家级产页,不跑 auto-pipeline。 - 每页质量门 = wiki deep 契约(R5/R6):专家级深页 + 3 张 hand-SVG + lint 0/0 + 跨模型核标准类断言。
- maker≠checker:PDF 抽取(maker)用 sub-agent,标准/数值断言独立核(checker,sub-agent 或
scripts/audit/xmodel_verify.pyDeepSeek+GLM),主循环综合(别让 sub-agent 综合,会触限废稿)。
队列(清洗后)
源 = wiki/sources-index.json 的 299 pending。清洗分流(脚本逻辑见 commit):
| action | 数 | 处理 |
|---|---|---|
| deep | 169 | 专家级深页候选(本 loop 主线)。明细 → _deep-ingest-pdf-queue.json(tier0 FS/sbc/protect/psu=29 · tier1 mosfet/power/opamp/半导体…=105 · tier2=35) |
| enrich-card | 35 | <0.4MB datasheet/模型卡 → 补现有器件页核值(走 OEM 官网核流程),不单独成页 |
| book-mine | 33 | >25MB 教科书/handbook → 只作参照挖点,不 pageify |
| skip-standard | 47 | ISO/IEC/CISPR/AEC 标准全文 → 只作核验参照,版权不复制、不成页 |
| skip-junk | 15 | JUNK,丢弃 |
队列文件 _deep-ingest-…
队列文件
_deep-ingest-pdf-queue.json:每条{n,file,topic,title,mb,tier,status}。status: queued / done / merged(并入现有页)/ skip(开做后判定不该成页,记原因)。
⚠️ 关键教训 — sources-index 的 "pending" 已 STALE(2026-06-27 实测)
索引 2026-05-10 生成,之后大量 deep 页是手写 session 产出(非 auto_ingest),
未回写索引,也不在 .ingested-hashes.json(那只记 auto_ingest 跑过的 84 条)。
故"pending"里很多其实已 ingest——且文件名常对不上(页 sources: 写的是语义名,
如白皮书写 "NXP Whitepaper — High-Voltage Inverter Safety System Concept",
盘上文件名却是 SAFETY-CONCEPT-WHITE-PAPER.pdf)。
首例:队列 #8 SAFETY-CONCEPT-WHITE-PAPER.pdf = topic-hv-inverter-iso26262-concept.md
的源,早已 ingest。→ dedup 必须做内容级(按厂商/型号/标题 grep),不能只靠文件名/hash。
⚠️ 关键发现 2 — wiki 已成熟,pending 的「新页产出」极低(2026-06-27 实测)
抽样核验 tier0/tier1 聚焦候选,全部已被重度覆盖:HV inverter 白皮书=已有专页 /
clearance-creepage=topic-iec-60664-edition3 专页 / LDO=74 页+aux-pol-rail-deep /
bipolar 晶闸管=60 页 / 系统级 ESD=esd-protection-system-level 专页 / TVS-load-dump=34 页 /
MC33907-08 SBC=54 页+infineon-optireg-sbc-safety-deep / resolver=34 页。
且 tier1 大量是教科书/工具手册/中文学位论文(Erickson 20MB / LTspice help / 碳化硅可靠性
论文 22MB)= book-mine,非干净单页源(我 <25MB 的 deep 切分偏松)。
结论(R9):「ingest 全部 on-topic pending」premise 与地面真相冲突——绝大多数已 ingest 或是 book-mine。真实可产出 = 极少数未覆盖角落 + 像 #8 那样主源补已存在页的已核验细节(targeted enrich)。盲扫 168 项做边际 enrich = 高 token 低价值,违「真用真提升非页数」。推荐改 gap-first / targeted:只做覆盖 grep 真未命中、或主源能给已存在页加可核验硬数据的项。
🌐 Web 源 backlog(厂商官网 deep-search,2026-06-27)
用户加任务:TI 栅驱 FAQ URL + Infineon/NXP/ST 官网 deep search。结果:
- TI 栅驱 FAQ URL(e2echina)硬反爬(WebFetch/headless/curl 全 403)。但并行 recon agent 确认 其全部主题(dead time/UVLO/CMTI/desat/传播延迟/Miller clamp/bootstrap/热/OVP)wiki 已深覆盖 → 实质已 ingest,SSZT249(输入级耦合)仅窄边角,非真 gap。判定:TI FAQ = covered,不建页。
- 并行 recon Workflow(4 agent TI/Infineon/NXP/ST,
_vendor-recon-2026-06-27.json)揪出真 gap backlog:
| 厂商 | gap | 源 | 置信 | 现状 |
|---|---|---|---|---|
| NXP | FS85/FS84 安全 SBC | AN12333 | 高 | ✅ 新页 topic-nxp-fs85-sbc-safety-deep |
| NXP | GD3160 高级 SiC 栅驱 | GD3160 DS | 高 | ✅ 新页 topic-nxp-gd3160-sic-gate-driver-deep |
| ST | SPC5 FCCU + safety manual | AN4446 | 高 | ✅ 新页 topic-st-spc5-fccu-safety-deep |
| ST | L9369 电子驻车制动 IC | L9369 DB+AN4958 | 高 | ✅ 新页 topic-st-l9369-epb-driver-deep(data-brief 级,ASIL/dead-time 未证实如实标) |
| ST | AN4671 SiC 栅驱 loss 微调 | AN4671 | 高 | ✅ enrich 3 页(sic-gate-loop-parameters / driver-vee-negative-bias-deep / miller-clamp-deep) |
| TI | SSZT249 隔离栅驱输入级耦合 | SSZT249 | 中 | 边角,暂缓 |
| NXP | FS23 body/comfort SBC(ASIL B) | AN14041 | 中 | 待定(下批) |
| ST | L9963T ISOSPI 隔离 / L99xx FMEDA 对标 | L9963T DS | 中 | 待定(下批) |
✅ 高置信 5 个全部完成(2026…
✅ 高置信 5 个全部完成(2026-06-27):4 新页 + 1 组 3-页 enrich,全 lint0/0 + SVG 视觉核 + backlink + mirror。 浏览器抓取机制已打通:vendor 站(NXP/ST/TI)对 WebFetch/curl/headless 全反爬;启用 Chrome「允许 Apple 事件中的 JS」开关后, 用
osascript驱动用户真实 Chrome 页内fetch(带已过校验会话)blob 下载 → ~/Downloads → inbox,零用户点击。6 PDF 已抓取入 inbox。 中置信 3 个(SSZT249/FS23/L9963T)留下批。Infineon 路 summary 见_vendor-recon-2026-06-27.json(EiceDRIVER/CoolSiC/OPTIREG 多已覆盖)。
每页全流程(一页一 checkpoint)
- 取队首
status=queued、tier 最小的条目;定位 PDF(sources/<file>或sources/<domain>/<file>)。 - dedup 前置(省下昂贵空做):先按该源的厂商 / 型号 / 标题关键词 grep 现有
wiki/pages/。命中已有深覆盖 → 比对原文,有缺口则 enrich、无缺口则标merged跳过; 未命中 → create 新深页。先抽取文本再 grep 更准(文件名常误导)。 - 抽取(maker,sub-agent):
pdftotext该 PDF → 返回结构化专家要点 + 全部数值/标准断言清单。 - 写:主循环综合成深页(frontmatter schema 合规 /
##散文开头 / 纯 LaTeX 公式 / prereq / sources)。 - 3 张 hand-SVG:font 18/16/11/10 无 bold max-width:100% →
rsvg-convert -w 1400→ Read PNG 视觉核无重叠。 - 核验(checker):标准/spec 类断言过
scripts/audit/xmodel_verify.py(DeepSeek+GLM); datasheet 数值 WebFetch OEM 官网核(守feedback_fetch_datasheets_from_oem)。 - 门:
lint_pages.py --strict0/0 +check_links.py+system_content_health.py0。 - backlink:对应域 index/hub 加入链(防 backlink-gap)。
_deep-ingest-pdf-queue.json该条status=done(或 merged/skip+原因)+ commit(本地;push=自主可选)。
收口门
- loop-until-dry:
_deep-ingest-pdf-queue.json全部status≠queued(deep 全清)即停。 - 预算:单 session 预算到 → 停在 committed checkpoint,留指针。
- 硬停:动钱 / 开真仓(本 loop 无)。遇 lint/render 重试后仍挂 → 停、不推破页、记本表。
进度指针
loop_started: 2026-06-27
deep_total: 169
deep_done: 3 # #8 enrich-merged · #11/#12 created(LDO)
last_n: 12 # 上次处理的队列 n
last_date: 2026-06-27
mode: targeted/gap-first(用户 2026-06-27 决策)
triaged: 85/169 (并行 Workflow:gap 1 · covered 40 · book-mine 24 · dup 7 · off-topic 12 · unreadable 1)
gap-pending: #73(Si MOSFET 感性负载关断过冲三段门驱,边界重叠待定)
并行 triage 结论(2026-…
并行 triage 结论(2026-06-27,Workflow 13 agent / 85 候选):wiki 已饱和—— 85 个里仅 1 个真 gap(且边界重叠)。其余 covered 40 / book-mine 24 / dup 7 / off-topic 12。 剩 84 未 triage(多为教科书/工具手册/学术论文,book-mine 概率高)。新页产出已确认极低, 后续按 gap-first:有真 gap 才建页(如本轮 LDO),否则记 merged/book-mine 不空做。
逐页日志(append,新的在上)
格式:#n · file · cre…
格式:
#n · file · create/enrich/merged · 页 slug · 修/核要点 · commit
-
#11/#12 · LDO 基础知识 / zhcy089a.pdf · create ·
topic-ldo-fundamentals-deep.md(新页) —— triage 发现真 gap:LDO 只有应用/选型层覆盖(aux-pol-rail-deep §2 等),无器件级专页。 据 TI「LDO 基础知识」建器件级深页:pass element(PMOS vs NMOS + 为何 NMOS 需 charge pump)/ dropout=Rds(min)×Iout / PSRR 曲线三频段 + 与 dropout 强耦合 / Iq 轻载效率 / 噪声=基准噪声×(1+R1/R2) / 稳定性(CFF 零点 + 电容降额)/ 热(RθJA 比器件更致命)。3 hand-SVG + 全数字独立 grep 原文核验。 lint 0/0 + schema + links + health 0 + SVG 视觉核 + backlink(aux-pol-rail §2)+ mirror。 maker 守纪律标出源盲区(ESR tunnel / Iq-vs-Iground 该 ebook 未覆盖),页内据实 scope。 -
#8 · SAFETY-CONCEPT-WHITE-PAPER.pdf · enrich(merged) ·
topic-hv-inverter-iso26262-concept.md—— 该 PDF = NXP HV inverter 白皮书,已是此页的源(stale-index 首例)。比对原文补 3 项缺口: ① §4.5 三段嵌套 FTTI 预算(200ms SG / ~100µs motor-interface 反应 / <2µs 桥臂短路) 决定机制硬/软分层;② §4.2 故障驱动 safe-state 选择(short→3PSHS / open→3PSLS)+ NXP 原始术语 3PSHS/3PSLS/3-phase-open 映射到页内 SS_HSS/SS_LSS/SS_3PO;③ GD3100 99% 自检 + SSD 2LTO + redundant channel。所有数字独立 grep 原文核验(maker≠checker),非贵 spec 类 无需跨模型。lint 0/0 + links 全过。