Initial commit: LLM Wiki with raw and wiki folders only

This commit is contained in:
2026-04-07 21:10:43 +08:00
commit 80bc593b36
25 changed files with 2996 additions and 0 deletions

209
wiki/LLM Wiki.md Normal file
View File

@@ -0,0 +1,209 @@
---
categories:
- "[[LLM Wiki]]"
tags:
- wiki
- llm
- knowledge-management
- 知识管理/方法
created: 2026-04-07
source: "[[llm-wiki]], [[刚刚Karpathy 开源个人 LLM Wiki]], [[Karpathy知识库「LLM Wiki」火爆了全网围观讨论]]"
type: concept
aliases:
- LLM Wiki 模式
- 持久化知识库
marp: "true"
---
# LLM Wiki
> **核心思想**LLM 不是每次从原始文档中重新检索,而是**增量构建并维护一个持久的 wiki**——一个结构化的、互相链接的 Markdown 文件集合,位于你和原始来源之间。
## 定义
LLM Wiki 是一种由 [[Andrej Karpathy]] 提出的个人知识管理模式。与传统 [[RAG vs 持久化知识库|RAG 检索]]不同LLM 不是在查询时重新发现知识,而是持续编译、维护和更新一个结构化的知识库。
---
## 三层架构
```mermaid
graph LR
A["📂 Raw Sources<br/>(不可变)"] --> B["📝 Wiki<br/>(LLM 维护)"]
B --> C["📋 Schema<br/>(约定规范)"]
C --> B
```
| 层级 | 位置 | 职责 | 谁维护 |
|------|------|------|--------|
| **Raw Sources** | `raw/` | 原始文档、文章、论文、数据文件 | 不可变LLM 只读 |
| **Wiki** | `wiki/` | 摘要、实体页、概念页、比较、综合 | LLM 全权维护 |
| **Schema** | `AGENTS.md` | Wiki 结构约定、工作流规范 | 人与 LLM 共同演进 |
---
## 三种核心操作
### 1. Ingest摄入
将新来源加入 raw 集合LLM 处理流程:
1. 读取来源 → 讨论关键要点
2. 写入摘要页 → 更新 [[index]]
3. 更新相关实体和概念页面 → 追加 [[log]] 条目
> 单个来源可能影响 10-15 个 wiki 页面。
### 2. Query查询
对 wiki 提问LLM 搜索相关页面并综合回答。
> **关键洞察**:好的回答应归档回 wiki 成为新页面,让探索像摄入一样持续积累。
### 3. Lint健康检查
定期检查 wiki 健康状况:
- 页面间矛盾
- 过时声明
- 孤立页面(无入站链接)
- 缺失的概念页面
- 缺失的交叉引用
---
## 索引与日志
| 文件 | 用途 | 格式 |
|------|------|------|
| [[index]] | 内容目录,按类别组织 | LLM 每次摄入时更新 |
| [[log]] | 时间线日志,按时间记录 | 可用 `grep` 解析的格式 |
## 四大优势
[[Andrej Karpathy]] 在看到 [[Farzapedia]] 后,总结了基于文件系统的 LLM Wiki 做个性化的四个核心优势:
1. **可见Visible** — 记忆不是藏在模型里的黑箱。它就是一个 Wiki你能看到 AI 知道什么、不知道什么,能检查、能管理。
2. **你自己的Your Own** — 数据在你本地电脑上,不在某个 AI 公司的系统里。你对自己的信息有完全的控制权。
3. **文件优先File-First** — 知识库就是一堆通用格式的文件Markdown 和图片),可以用 Unix 工具链、任何 CLI 处理,想用什么界面都行。
4. **自带 AI[[BYOAI]]** — 可以用 Claude、Codex、OpenCode 或任何 AI 接入,甚至可以用开源模型在 Wiki 上做微调。
详见 [[BYOAI]]。
---
## 实际规模验证
Karpathy 本人在一个研究方向上积累了约 **100 篇章、40 万字**。他本以为需要复杂的 RAG 方案,结果 LLM 自己维护索引文件和文档摘要就够了——在这个规模下查什么都顺畅。
---
## Idea File 范式
LLM Wiki 的分享方式体现了 Agent 时代的新范式:
> **只分享想法Idea File不分享代码或应用**
在 Agent 时代分享具体代码或应用的意义正在变弱。Karpathy 将他的 LLM Wiki 构建思路整理成 gist 形式分享——这是一个「想法文件」,不是完整实现。
**工作流程**
1. 将想法整理成 gist 分发
2. 交给 Claude、Grok 等 Agent
3. Agent 根据你的需求自动搭建个人知识库
4. 提供使用指导和工作流建议
这种模式意味着我们已经不需要再分享具体代码或应用了,只需要把「想法」交给对方的 Agent让它根据需求自动完成定制和实现。
---
## Meta-Frame元框架
观点认为LLM Wiki 不只是一个 AI 工具,而更像是一种**元框架meta-framework**
- 不依赖某个具体模型或技术栈
- 试图定义一种人类与 AI 协作管理知识的方式
- 随着模型不断迭代、框架持续演进,让 LLM 帮助编译并维护 Wiki 的模式反而具备更长期的稳定性和适用性
从这个角度LLM Wiki 已经逼近一种**自我增强的知识系统形态**,也可以被视为一个具备产品潜力的雏形。
---
## 与传统 RAG 的对比
在中等规模下LLM Wiki 并不依赖传统意义上的 RAG。只要 LLM 能够维护好索引和摘要,就已经可以支撑起有效的检索与推理。
| 特性 | 传统 RAG | LLM Wiki |
|------|---------|----------|
| 知识发现 | 每次查询时重新发现 | 一次编译,持续更新 |
| 积累性 | 每次从零开始 | 交叉引用已建立,矛盾已标注 |
| 复杂问题 | 需要重新检索并拼接多个片段 | 综合结论已反映所有内容 |
| 检索依赖 | 依赖向量检索和重排序 | 依赖 LLM 维护的索引和摘要 |
---
## 阅读技巧
Karpathy 关于用 LLM Wiki 读一本书的建议:
- 使用 **epub 格式**而不是 PDF
- **一章一章地喂**给 LLM让它边读边整理
- 不要指望把一个 PDF 丢进去就让它总结,要"慢慢来"
> "别指望把一个 PDF 丢进去就让它总结,得「慢慢来」,一块一块地处理。当我分阶段做的时候,结果好得不得了,已经离不开了。"
## 适用场景
### 个人层面
- **个人成长**:追踪目标、健康、心理状态、自我提升过程
- **日记整理**:整理日记、文章、播客笔记,构建关于你自己的结构化认知
### 学习与研究
- **深度研究**:围绕某个主题深入数周甚至数月,阅读论文、文章、报告,构建不断演化的知识体系
- **阅读场景**:逐章记录,建立人物、主题、情节线索之间的关联。类似 Tolkien Gateway 这样的维基,但由个人构建
### 企业与团队
- **内部 wiki**:持续接入 Slack 对话、会议记录、项目文档、客户沟通,由 LLM 维护实时更新的知识库
- **团队协作**:减少人工维护负担,知识库随工作自动更新
### 专业场景
- **竞争分析**:收集竞争对手信息,构建对比分析体系
- **尽职调查**:系统化收集和整理投资或合作相关信息
- **旅行规划**:长期积累目的地信息,构建个性化旅行知识库
- **课程笔记**:系统性整理学习内容,建立概念间的关联
任何需要长期积累知识、并希望其被系统化组织而不是零散分布的场景,都可以采用这种模式。
## 核心工具
- [[Obsidian]] — Wiki 的可视化 IDEGraph View 查看连接形状
- [[qmd]] — 本地 Markdown 搜索引擎,支持 BM25/向量混合搜索
- Obsidian Web Clipper — 浏览器扩展,快速抓取网页为 Markdown
## 实践案例
- [[Farzapedia]] — Farza 的个人维基百科2500 条日记 → 400 篇文章
## 与相关概念的关系
- [[RAG vs 持久化知识库]] — 与传统 RAG 的对比
- [[知识库维护自动化]] — 为什么 LLM 解决了 wiki 维护的核心痛点
- [[Memex]] — Vannevar Bush 1945 年的愿景LLM Wiki 的思想源头
- [[BYOAI]] — 四大优势的核心概念
- [[Contamination Mitigation]] — Steph Ango 的隔离思想
## 名言
> "Obsidian is the IDE; the LLM is the programmer; the wiki is the codebase."
> — [[Andrej Karpathy]]
> "这种个性化方式把控制权完全交到你手上。数据是你的,格式是通用的,内容是可检查的。用哪个 AI 随你,让 AI 公司们卷起来吧。"
> — [[Andrej Karpathy]]
## 来源
- [[llm-wiki]] — Karpathy Gist 原文
- [[刚刚Karpathy 开源个人 LLM Wiki]] — J0hn 的中文解读文章