公众号 / 网页剪藏

Telegram bot 抓回的公众号文章、网页链接的原文备份,保真存档,不做 LLM 改写。

wiki/pages/ 的分工

wiki/clippings/wiki/pages/
内容原文(可能含促销尾部)LLM 按 CLAUDE.md 规范重构的主题页
生成telegram_ingest.py 抓链接时直接写auto_ingest.pysources/inbox/ 跑 LLM
可信度原始来源已理解 / 结构化
用途溯源、存档、图文速读学习、索引、SRS

公众号图片由 telegram_ingest.py 下载到 wiki/images/wechat/<slug>/,绕过 mmbiz.qpic.cn 防盗链 → GitHub 可直接渲染。

文件名约定

YYYYMMDD-<slug>.md

  • 公众号:slug = URL 里的 /s/XXX 路径段
  • 其他网页:slug = safe(title) 截前 60 字符

索引

每次 CI 部署时 scripts/build_all_pages.py 会重建 全部页面索引 的 "📎 公众号/网页剪藏" 段。

LLM 把原文重构成 CLAUDE.md 规范的主题页