Initial commit: LLM Wiki with raw and wiki folders only
This commit is contained in:
209
wiki/LLM Wiki.md
Normal file
209
wiki/LLM Wiki.md
Normal file
@@ -0,0 +1,209 @@
|
||||
---
|
||||
categories:
|
||||
- "[[LLM Wiki]]"
|
||||
tags:
|
||||
- wiki
|
||||
- llm
|
||||
- knowledge-management
|
||||
- 知识管理/方法
|
||||
created: 2026-04-07
|
||||
source: "[[llm-wiki]], [[刚刚,Karpathy 开源个人 LLM Wiki]], [[Karpathy知识库「LLM Wiki」火爆了,全网围观讨论]]"
|
||||
type: concept
|
||||
aliases:
|
||||
- LLM Wiki 模式
|
||||
- 持久化知识库
|
||||
marp: "true"
|
||||
---
|
||||
|
||||
# LLM Wiki
|
||||
|
||||
> **核心思想**:LLM 不是每次从原始文档中重新检索,而是**增量构建并维护一个持久的 wiki**——一个结构化的、互相链接的 Markdown 文件集合,位于你和原始来源之间。
|
||||
|
||||
## 定义
|
||||
|
||||
LLM Wiki 是一种由 [[Andrej Karpathy]] 提出的个人知识管理模式。与传统 [[RAG vs 持久化知识库|RAG 检索]]不同,LLM 不是在查询时重新发现知识,而是持续编译、维护和更新一个结构化的知识库。
|
||||
|
||||
---
|
||||
|
||||
## 三层架构
|
||||
|
||||
```mermaid
|
||||
graph LR
|
||||
A["📂 Raw Sources<br/>(不可变)"] --> B["📝 Wiki<br/>(LLM 维护)"]
|
||||
B --> C["📋 Schema<br/>(约定规范)"]
|
||||
C --> B
|
||||
```
|
||||
|
||||
| 层级 | 位置 | 职责 | 谁维护 |
|
||||
|------|------|------|--------|
|
||||
| **Raw Sources** | `raw/` | 原始文档、文章、论文、数据文件 | 不可变,LLM 只读 |
|
||||
| **Wiki** | `wiki/` | 摘要、实体页、概念页、比较、综合 | LLM 全权维护 |
|
||||
| **Schema** | `AGENTS.md` | Wiki 结构约定、工作流规范 | 人与 LLM 共同演进 |
|
||||
|
||||
---
|
||||
|
||||
## 三种核心操作
|
||||
|
||||
### 1. Ingest(摄入)
|
||||
|
||||
将新来源加入 raw 集合,LLM 处理流程:
|
||||
|
||||
1. 读取来源 → 讨论关键要点
|
||||
2. 写入摘要页 → 更新 [[index]]
|
||||
3. 更新相关实体和概念页面 → 追加 [[log]] 条目
|
||||
|
||||
> 单个来源可能影响 10-15 个 wiki 页面。
|
||||
|
||||
### 2. Query(查询)
|
||||
|
||||
对 wiki 提问,LLM 搜索相关页面并综合回答。
|
||||
|
||||
> **关键洞察**:好的回答应归档回 wiki 成为新页面,让探索像摄入一样持续积累。
|
||||
|
||||
### 3. Lint(健康检查)
|
||||
|
||||
定期检查 wiki 健康状况:
|
||||
|
||||
- 页面间矛盾
|
||||
- 过时声明
|
||||
- 孤立页面(无入站链接)
|
||||
- 缺失的概念页面
|
||||
- 缺失的交叉引用
|
||||
|
||||
---
|
||||
|
||||
## 索引与日志
|
||||
|
||||
| 文件 | 用途 | 格式 |
|
||||
|------|------|------|
|
||||
| [[index]] | 内容目录,按类别组织 | LLM 每次摄入时更新 |
|
||||
| [[log]] | 时间线日志,按时间记录 | 可用 `grep` 解析的格式 |
|
||||
|
||||
## 四大优势
|
||||
|
||||
[[Andrej Karpathy]] 在看到 [[Farzapedia]] 后,总结了基于文件系统的 LLM Wiki 做个性化的四个核心优势:
|
||||
|
||||
1. **可见(Visible)** — 记忆不是藏在模型里的黑箱。它就是一个 Wiki,你能看到 AI 知道什么、不知道什么,能检查、能管理。
|
||||
2. **你自己的(Your Own)** — 数据在你本地电脑上,不在某个 AI 公司的系统里。你对自己的信息有完全的控制权。
|
||||
3. **文件优先(File-First)** — 知识库就是一堆通用格式的文件(Markdown 和图片),可以用 Unix 工具链、任何 CLI 处理,想用什么界面都行。
|
||||
4. **自带 AI([[BYOAI]])** — 可以用 Claude、Codex、OpenCode 或任何 AI 接入,甚至可以用开源模型在 Wiki 上做微调。
|
||||
|
||||
详见 [[BYOAI]]。
|
||||
|
||||
---
|
||||
|
||||
## 实际规模验证
|
||||
|
||||
Karpathy 本人在一个研究方向上积累了约 **100 篇章、40 万字**。他本以为需要复杂的 RAG 方案,结果 LLM 自己维护索引文件和文档摘要就够了——在这个规模下查什么都顺畅。
|
||||
|
||||
---
|
||||
|
||||
## Idea File 范式
|
||||
|
||||
LLM Wiki 的分享方式体现了 Agent 时代的新范式:
|
||||
|
||||
> **只分享想法(Idea File),不分享代码或应用**
|
||||
|
||||
在 Agent 时代,分享具体代码或应用的意义正在变弱。Karpathy 将他的 LLM Wiki 构建思路整理成 gist 形式分享——这是一个「想法文件」,不是完整实现。
|
||||
|
||||
**工作流程**:
|
||||
1. 将想法整理成 gist 分发
|
||||
2. 交给 Claude、Grok 等 Agent
|
||||
3. Agent 根据你的需求自动搭建个人知识库
|
||||
4. 提供使用指导和工作流建议
|
||||
|
||||
这种模式意味着我们已经不需要再分享具体代码或应用了,只需要把「想法」交给对方的 Agent,让它根据需求自动完成定制和实现。
|
||||
|
||||
---
|
||||
|
||||
## Meta-Frame(元框架)
|
||||
|
||||
观点认为,LLM Wiki 不只是一个 AI 工具,而更像是一种**元框架(meta-framework)**:
|
||||
|
||||
- 不依赖某个具体模型或技术栈
|
||||
- 试图定义一种人类与 AI 协作管理知识的方式
|
||||
- 随着模型不断迭代、框架持续演进,让 LLM 帮助编译并维护 Wiki 的模式反而具备更长期的稳定性和适用性
|
||||
|
||||
从这个角度,LLM Wiki 已经逼近一种**自我增强的知识系统形态**,也可以被视为一个具备产品潜力的雏形。
|
||||
|
||||
---
|
||||
|
||||
## 与传统 RAG 的对比
|
||||
|
||||
在中等规模下,LLM Wiki 并不依赖传统意义上的 RAG。只要 LLM 能够维护好索引和摘要,就已经可以支撑起有效的检索与推理。
|
||||
|
||||
| 特性 | 传统 RAG | LLM Wiki |
|
||||
|------|---------|----------|
|
||||
| 知识发现 | 每次查询时重新发现 | 一次编译,持续更新 |
|
||||
| 积累性 | 每次从零开始 | 交叉引用已建立,矛盾已标注 |
|
||||
| 复杂问题 | 需要重新检索并拼接多个片段 | 综合结论已反映所有内容 |
|
||||
| 检索依赖 | 依赖向量检索和重排序 | 依赖 LLM 维护的索引和摘要 |
|
||||
|
||||
---
|
||||
|
||||
## 阅读技巧
|
||||
|
||||
Karpathy 关于用 LLM Wiki 读一本书的建议:
|
||||
|
||||
- 使用 **epub 格式**而不是 PDF
|
||||
- **一章一章地喂**给 LLM,让它边读边整理
|
||||
- 不要指望把一个 PDF 丢进去就让它总结,要"慢慢来"
|
||||
|
||||
> "别指望把一个 PDF 丢进去就让它总结,得「慢慢来」,一块一块地处理。当我分阶段做的时候,结果好得不得了,已经离不开了。"
|
||||
|
||||
## 适用场景
|
||||
|
||||
### 个人层面
|
||||
|
||||
- **个人成长**:追踪目标、健康、心理状态、自我提升过程
|
||||
- **日记整理**:整理日记、文章、播客笔记,构建关于你自己的结构化认知
|
||||
|
||||
### 学习与研究
|
||||
|
||||
- **深度研究**:围绕某个主题深入数周甚至数月,阅读论文、文章、报告,构建不断演化的知识体系
|
||||
- **阅读场景**:逐章记录,建立人物、主题、情节线索之间的关联。类似 Tolkien Gateway 这样的维基,但由个人构建
|
||||
|
||||
### 企业与团队
|
||||
|
||||
- **内部 wiki**:持续接入 Slack 对话、会议记录、项目文档、客户沟通,由 LLM 维护实时更新的知识库
|
||||
- **团队协作**:减少人工维护负担,知识库随工作自动更新
|
||||
|
||||
### 专业场景
|
||||
|
||||
- **竞争分析**:收集竞争对手信息,构建对比分析体系
|
||||
- **尽职调查**:系统化收集和整理投资或合作相关信息
|
||||
- **旅行规划**:长期积累目的地信息,构建个性化旅行知识库
|
||||
- **课程笔记**:系统性整理学习内容,建立概念间的关联
|
||||
|
||||
任何需要长期积累知识、并希望其被系统化组织而不是零散分布的场景,都可以采用这种模式。
|
||||
|
||||
## 核心工具
|
||||
|
||||
- [[Obsidian]] — Wiki 的可视化 IDE,Graph View 查看连接形状
|
||||
- [[qmd]] — 本地 Markdown 搜索引擎,支持 BM25/向量混合搜索
|
||||
- Obsidian Web Clipper — 浏览器扩展,快速抓取网页为 Markdown
|
||||
|
||||
## 实践案例
|
||||
|
||||
- [[Farzapedia]] — Farza 的个人维基百科:2500 条日记 → 400 篇文章
|
||||
|
||||
## 与相关概念的关系
|
||||
|
||||
- [[RAG vs 持久化知识库]] — 与传统 RAG 的对比
|
||||
- [[知识库维护自动化]] — 为什么 LLM 解决了 wiki 维护的核心痛点
|
||||
- [[Memex]] — Vannevar Bush 1945 年的愿景,LLM Wiki 的思想源头
|
||||
- [[BYOAI]] — 四大优势的核心概念
|
||||
- [[Contamination Mitigation]] — Steph Ango 的隔离思想
|
||||
|
||||
## 名言
|
||||
|
||||
> "Obsidian is the IDE; the LLM is the programmer; the wiki is the codebase."
|
||||
> — [[Andrej Karpathy]]
|
||||
|
||||
> "这种个性化方式把控制权完全交到你手上。数据是你的,格式是通用的,内容是可检查的。用哪个 AI 随你,让 AI 公司们卷起来吧。"
|
||||
> — [[Andrej Karpathy]]
|
||||
|
||||
## 来源
|
||||
|
||||
- [[llm-wiki]] — Karpathy Gist 原文
|
||||
- [[刚刚,Karpathy 开源个人 LLM Wiki]] — J0hn 的中文解读文章
|
||||
Reference in New Issue
Block a user