Initial commit: LLM Wiki with raw and wiki folders only

2026-04-07 21:10:43 +08:00
commit 80bc593b36
25 changed files with 2996 additions and 0 deletions
@@ -0,0 +1,209 @@
+---
+categories:
+  - "[[LLM Wiki]]"
+tags:
+  - wiki
+  - llm
+  - knowledge-management
+  - 知识管理/方法
+created: 2026-04-07
+source: "[[llm-wiki]], [[刚刚，Karpathy 开源个人 LLM Wiki]], [[Karpathy知识库「LLM Wiki」火爆了，全网围观讨论]]"
+type: concept
+aliases:
+  - LLM Wiki 模式
+  - 持久化知识库
+marp: "true"
+---
+
+# LLM Wiki
+
+> **核心思想**：LLM 不是每次从原始文档中重新检索，而是**增量构建并维护一个持久的 wiki**——一个结构化的、互相链接的 Markdown 文件集合，位于你和原始来源之间。
+
+## 定义
+
+LLM Wiki 是一种由 [[Andrej Karpathy]] 提出的个人知识管理模式。与传统 [[RAG vs 持久化知识库|RAG 检索]]不同，LLM 不是在查询时重新发现知识，而是持续编译、维护和更新一个结构化的知识库。
+
+---
+
+## 三层架构
+
+```mermaid
+graph LR
+    A["📂 Raw Sources<br/>(不可变)"] --> B["📝 Wiki<br/>(LLM 维护)"]
+    B --> C["📋 Schema<br/>(约定规范)"]
+    C --> B
+```
+
+| 层级 | 位置 | 职责 | 谁维护 |
+|------|------|------|--------|
+| **Raw Sources** | `raw/` | 原始文档、文章、论文、数据文件 | 不可变，LLM 只读 |
+| **Wiki** | `wiki/` | 摘要、实体页、概念页、比较、综合 | LLM 全权维护 |
+| **Schema** | `AGENTS.md` | Wiki 结构约定、工作流规范 | 人与 LLM 共同演进 |
+
+---
+
+## 三种核心操作
+
+### 1. Ingest（摄入）
+
+将新来源加入 raw 集合，LLM 处理流程：
+
+1. 读取来源 → 讨论关键要点
+2. 写入摘要页 → 更新 [[index]]
+3. 更新相关实体和概念页面 → 追加 [[log]] 条目
+
+> 单个来源可能影响 10-15 个 wiki 页面。
+
+### 2. Query（查询）
+
+对 wiki 提问，LLM 搜索相关页面并综合回答。
+
+> **关键洞察**：好的回答应归档回 wiki 成为新页面，让探索像摄入一样持续积累。
+
+### 3. Lint（健康检查）
+
+定期检查 wiki 健康状况：
+
+- 页面间矛盾
+- 过时声明
+- 孤立页面（无入站链接）
+- 缺失的概念页面
+- 缺失的交叉引用
+
+---
+
+## 索引与日志
+
+| 文件 | 用途 | 格式 |
+|------|------|------|
+| [[index]] | 内容目录，按类别组织 | LLM 每次摄入时更新 |
+| [[log]] | 时间线日志，按时间记录 | 可用 `grep` 解析的格式 |
+
+## 四大优势
+
+[[Andrej Karpathy]] 在看到 [[Farzapedia]] 后，总结了基于文件系统的 LLM Wiki 做个性化的四个核心优势：
+
+1. **可见（Visible）** — 记忆不是藏在模型里的黑箱。它就是一个 Wiki，你能看到 AI 知道什么、不知道什么，能检查、能管理。
+2. **你自己的（Your Own）** — 数据在你本地电脑上，不在某个 AI 公司的系统里。你对自己的信息有完全的控制权。
+3. **文件优先（File-First）** — 知识库就是一堆通用格式的文件（Markdown 和图片），可以用 Unix 工具链、任何 CLI 处理，想用什么界面都行。
+4. **自带 AI（[[BYOAI]]）** — 可以用 Claude、Codex、OpenCode 或任何 AI 接入，甚至可以用开源模型在 Wiki 上做微调。
+
+详见 [[BYOAI]]。
+
+---
+
+## 实际规模验证
+
+Karpathy 本人在一个研究方向上积累了约 **100 篇章、40 万字**。他本以为需要复杂的 RAG 方案，结果 LLM 自己维护索引文件和文档摘要就够了——在这个规模下查什么都顺畅。
+
+---
+
+## Idea File 范式
+
+LLM Wiki 的分享方式体现了 Agent 时代的新范式：
+
+> **只分享想法（Idea File），不分享代码或应用**
+
+在 Agent 时代，分享具体代码或应用的意义正在变弱。Karpathy 将他的 LLM Wiki 构建思路整理成 gist 形式分享——这是一个「想法文件」，不是完整实现。
+
+**工作流程**：
+1. 将想法整理成 gist 分发
+2. 交给 Claude、Grok 等 Agent
+3. Agent 根据你的需求自动搭建个人知识库
+4. 提供使用指导和工作流建议
+
+这种模式意味着我们已经不需要再分享具体代码或应用了，只需要把「想法」交给对方的 Agent，让它根据需求自动完成定制和实现。
+
+---
+
+## Meta-Frame（元框架）
+
+观点认为，LLM Wiki 不只是一个 AI 工具，而更像是一种**元框架（meta-framework）**：
+
+- 不依赖某个具体模型或技术栈
+- 试图定义一种人类与 AI 协作管理知识的方式
+- 随着模型不断迭代、框架持续演进，让 LLM 帮助编译并维护 Wiki 的模式反而具备更长期的稳定性和适用性
+
+从这个角度，LLM Wiki 已经逼近一种**自我增强的知识系统形态**，也可以被视为一个具备产品潜力的雏形。
+
+---
+
+## 与传统 RAG 的对比
+
+在中等规模下，LLM Wiki 并不依赖传统意义上的 RAG。只要 LLM 能够维护好索引和摘要，就已经可以支撑起有效的检索与推理。
+
+| 特性 | 传统 RAG | LLM Wiki |
+|------|---------|----------|
+| 知识发现 | 每次查询时重新发现 | 一次编译，持续更新 |
+| 积累性 | 每次从零开始 | 交叉引用已建立，矛盾已标注 |
+| 复杂问题 | 需要重新检索并拼接多个片段 | 综合结论已反映所有内容 |
+| 检索依赖 | 依赖向量检索和重排序 | 依赖 LLM 维护的索引和摘要 |
+
+---
+
+## 阅读技巧
+
+Karpathy 关于用 LLM Wiki 读一本书的建议：
+
+- 使用 **epub 格式**而不是 PDF
+- **一章一章地喂**给 LLM，让它边读边整理
+- 不要指望把一个 PDF 丢进去就让它总结，要"慢慢来"
+
+> "别指望把一个 PDF 丢进去就让它总结，得「慢慢来」，一块一块地处理。当我分阶段做的时候，结果好得不得了，已经离不开了。"
+
+## 适用场景
+
+### 个人层面
+
+- **个人成长**：追踪目标、健康、心理状态、自我提升过程
+- **日记整理**：整理日记、文章、播客笔记，构建关于你自己的结构化认知
+
+### 学习与研究
+
+- **深度研究**：围绕某个主题深入数周甚至数月，阅读论文、文章、报告，构建不断演化的知识体系
+- **阅读场景**：逐章记录，建立人物、主题、情节线索之间的关联。类似 Tolkien Gateway 这样的维基，但由个人构建
+
+### 企业与团队
+
+- **内部 wiki**：持续接入 Slack 对话、会议记录、项目文档、客户沟通，由 LLM 维护实时更新的知识库
+- **团队协作**：减少人工维护负担，知识库随工作自动更新
+
+### 专业场景
+
+- **竞争分析**：收集竞争对手信息，构建对比分析体系
+- **尽职调查**：系统化收集和整理投资或合作相关信息
+- **旅行规划**：长期积累目的地信息，构建个性化旅行知识库
+- **课程笔记**：系统性整理学习内容，建立概念间的关联
+
+任何需要长期积累知识、并希望其被系统化组织而不是零散分布的场景，都可以采用这种模式。
+
+## 核心工具
+
+- [[Obsidian]] — Wiki 的可视化 IDE，Graph View 查看连接形状
+- [[qmd]] — 本地 Markdown 搜索引擎，支持 BM25/向量混合搜索
+- Obsidian Web Clipper — 浏览器扩展，快速抓取网页为 Markdown
+
+## 实践案例
+
+- [[Farzapedia]] — Farza 的个人维基百科：2500 条日记 → 400 篇文章
+
+## 与相关概念的关系
+
+- [[RAG vs 持久化知识库]] — 与传统 RAG 的对比
+- [[知识库维护自动化]] — 为什么 LLM 解决了 wiki 维护的核心痛点
+- [[Memex]] — Vannevar Bush 1945 年的愿景，LLM Wiki 的思想源头
+- [[BYOAI]] — 四大优势的核心概念
+- [[Contamination Mitigation]] — Steph Ango 的隔离思想
+
+## 名言
+
+> "Obsidian is the IDE; the LLM is the programmer; the wiki is the codebase."
+> — [[Andrej Karpathy]]
+
+> "这种个性化方式把控制权完全交到你手上。数据是你的，格式是通用的，内容是可检查的。用哪个 AI 随你，让 AI 公司们卷起来吧。"
+> — [[Andrej Karpathy]]
+
+## 来源
+
+- [[llm-wiki]] — Karpathy Gist 原文
+- [[刚刚，Karpathy 开源个人 LLM Wiki]] — J0hn 的中文解读文章