公众号 / 网页剪藏
Telegram bot 抓回的公众号文章、网页链接的原文备份,保真存档,不做 LLM 改写。
与 wiki/pages/ 的分工
wiki/pages/ 的分工wiki/clippings/ | wiki/pages/ | |
|---|---|---|
| 内容 | 原文(可能含促销尾部) | LLM 按 CLAUDE.md 规范重构的主题页 |
| 生成 | telegram_ingest.py 抓链接时直接写 | auto_ingest.py 读 sources/inbox/ 跑 LLM |
| 可信度 | 原始来源 | 已理解 / 结构化 |
| 用途 | 溯源、存档、图文速读 | 学习、索引、SRS |
公众号图片由 telegram_ingest.py 下载到 wiki/images/wechat/<slug>/,绕过 mmbiz.qpic.cn 防盗链 → GitHub 可直接渲染。
文件名约定
YYYYMMDD-<slug>.md
- 公众号:slug = URL 里的
/s/XXX路径段 - 其他网页:slug = safe(title) 截前 60 字符
索引
每次 CI 部署时 scripts/build_all_pages.py 会重建 全部页面索引 的 "📎 公众号/网页剪藏" 段。