7.8 KiB
categories, tags, created, source, type, aliases, marp
| categories | tags | created | source | type | aliases | marp | |||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
|
2026-04-07 | llm-wiki, 刚刚,Karpathy 开源个人 LLM Wiki, Karpathy知识库「LLM Wiki」火爆了,全网围观讨论 | concept |
|
true |
LLM Wiki
核心思想:LLM 不是每次从原始文档中重新检索,而是增量构建并维护一个持久的 wiki——一个结构化的、互相链接的 Markdown 文件集合,位于你和原始来源之间。
定义
LLM Wiki 是一种由 Andrej Karpathy 提出的个人知识管理模式。与传统 RAG vs 持久化知识库不同,LLM 不是在查询时重新发现知识,而是持续编译、维护和更新一个结构化的知识库。
三层架构
graph LR
A["📂 Raw Sources<br/>(不可变)"] --> B["📝 Wiki<br/>(LLM 维护)"]
B --> C["📋 Schema<br/>(约定规范)"]
C --> B
| 层级 | 位置 | 职责 | 谁维护 |
|---|---|---|---|
| Raw Sources | raw/ |
原始文档、文章、论文、数据文件 | 不可变,LLM 只读 |
| Wiki | wiki/ |
摘要、实体页、概念页、比较、综合 | LLM 全权维护 |
| Schema | AGENTS.md |
Wiki 结构约定、工作流规范 | 人与 LLM 共同演进 |
三种核心操作
1. Ingest(摄入)
将新来源加入 raw 集合,LLM 处理流程:
单个来源可能影响 10-15 个 wiki 页面。
2. Query(查询)
对 wiki 提问,LLM 搜索相关页面并综合回答。
关键洞察:好的回答应归档回 wiki 成为新页面,让探索像摄入一样持续积累。
3. Lint(健康检查)
定期检查 wiki 健康状况:
- 页面间矛盾
- 过时声明
- 孤立页面(无入站链接)
- 缺失的概念页面
- 缺失的交叉引用
索引与日志
| 文件 | 用途 | 格式 |
|---|---|---|
| index | 内容目录,按类别组织 | LLM 每次摄入时更新 |
| log | 时间线日志,按时间记录 | 可用 grep 解析的格式 |
四大优势
Andrej Karpathy 在看到 Farzapedia 后,总结了基于文件系统的 LLM Wiki 做个性化的四个核心优势:
- 可见(Visible) — 记忆不是藏在模型里的黑箱。它就是一个 Wiki,你能看到 AI 知道什么、不知道什么,能检查、能管理。
- 你自己的(Your Own) — 数据在你本地电脑上,不在某个 AI 公司的系统里。你对自己的信息有完全的控制权。
- 文件优先(File-First) — 知识库就是一堆通用格式的文件(Markdown 和图片),可以用 Unix 工具链、任何 CLI 处理,想用什么界面都行。
- 自带 AI(BYOAI) — 可以用 Claude、Codex、OpenCode 或任何 AI 接入,甚至可以用开源模型在 Wiki 上做微调。
详见 BYOAI。
实际规模验证
Karpathy 本人在一个研究方向上积累了约 100 篇章、40 万字。他本以为需要复杂的 RAG 方案,结果 LLM 自己维护索引文件和文档摘要就够了——在这个规模下查什么都顺畅。
Idea File 范式
LLM Wiki 的分享方式体现了 Agent 时代的新范式:
只分享想法(Idea File),不分享代码或应用
在 Agent 时代,分享具体代码或应用的意义正在变弱。Karpathy 将他的 LLM Wiki 构建思路整理成 gist 形式分享——这是一个「想法文件」,不是完整实现。
工作流程:
- 将想法整理成 gist 分发
- 交给 Claude、Grok 等 Agent
- Agent 根据你的需求自动搭建个人知识库
- 提供使用指导和工作流建议
这种模式意味着我们已经不需要再分享具体代码或应用了,只需要把「想法」交给对方的 Agent,让它根据需求自动完成定制和实现。
Meta-Frame(元框架)
观点认为,LLM Wiki 不只是一个 AI 工具,而更像是一种元框架(meta-framework):
- 不依赖某个具体模型或技术栈
- 试图定义一种人类与 AI 协作管理知识的方式
- 随着模型不断迭代、框架持续演进,让 LLM 帮助编译并维护 Wiki 的模式反而具备更长期的稳定性和适用性
从这个角度,LLM Wiki 已经逼近一种自我增强的知识系统形态,也可以被视为一个具备产品潜力的雏形。
与传统 RAG 的对比
在中等规模下,LLM Wiki 并不依赖传统意义上的 RAG。只要 LLM 能够维护好索引和摘要,就已经可以支撑起有效的检索与推理。
| 特性 | 传统 RAG | LLM Wiki |
|---|---|---|
| 知识发现 | 每次查询时重新发现 | 一次编译,持续更新 |
| 积累性 | 每次从零开始 | 交叉引用已建立,矛盾已标注 |
| 复杂问题 | 需要重新检索并拼接多个片段 | 综合结论已反映所有内容 |
| 检索依赖 | 依赖向量检索和重排序 | 依赖 LLM 维护的索引和摘要 |
阅读技巧
Karpathy 关于用 LLM Wiki 读一本书的建议:
- 使用 epub 格式而不是 PDF
- 一章一章地喂给 LLM,让它边读边整理
- 不要指望把一个 PDF 丢进去就让它总结,要"慢慢来"
"别指望把一个 PDF 丢进去就让它总结,得「慢慢来」,一块一块地处理。当我分阶段做的时候,结果好得不得了,已经离不开了。"
适用场景
个人层面
- 个人成长:追踪目标、健康、心理状态、自我提升过程
- 日记整理:整理日记、文章、播客笔记,构建关于你自己的结构化认知
学习与研究
- 深度研究:围绕某个主题深入数周甚至数月,阅读论文、文章、报告,构建不断演化的知识体系
- 阅读场景:逐章记录,建立人物、主题、情节线索之间的关联。类似 Tolkien Gateway 这样的维基,但由个人构建
企业与团队
- 内部 wiki:持续接入 Slack 对话、会议记录、项目文档、客户沟通,由 LLM 维护实时更新的知识库
- 团队协作:减少人工维护负担,知识库随工作自动更新
专业场景
- 竞争分析:收集竞争对手信息,构建对比分析体系
- 尽职调查:系统化收集和整理投资或合作相关信息
- 旅行规划:长期积累目的地信息,构建个性化旅行知识库
- 课程笔记:系统性整理学习内容,建立概念间的关联
任何需要长期积累知识、并希望其被系统化组织而不是零散分布的场景,都可以采用这种模式。
核心工具
- Obsidian — Wiki 的可视化 IDE,Graph View 查看连接形状
- qmd — 本地 Markdown 搜索引擎,支持 BM25/向量混合搜索
- Obsidian Web Clipper — 浏览器扩展,快速抓取网页为 Markdown
实践案例
- Farzapedia — Farza 的个人维基百科:2500 条日记 → 400 篇文章
与相关概念的关系
- RAG vs 持久化知识库 — 与传统 RAG 的对比
- 知识库维护自动化 — 为什么 LLM 解决了 wiki 维护的核心痛点
- Memex — Vannevar Bush 1945 年的愿景,LLM Wiki 的思想源头
- BYOAI — 四大优势的核心概念
- Contamination Mitigation — Steph Ango 的隔离思想
名言
"Obsidian is the IDE; the LLM is the programmer; the wiki is the codebase." — Andrej Karpathy
"这种个性化方式把控制权完全交到你手上。数据是你的,格式是通用的,内容是可检查的。用哪个 AI 随你,让 AI 公司们卷起来吧。" — Andrej Karpathy
来源
- llm-wiki — Karpathy Gist 原文
- 刚刚,Karpathy 开源个人 LLM Wiki — J0hn 的中文解读文章