giteahh/llm_wiki

Fork 0

Files

豆儿雷锋大道 80bc593b36 Initial commit: LLM Wiki with raw and wiki folders only

2026-04-07 21:10:43 +08:00

7.8 KiB

Raw Permalink Blame History

categories, tags, created, source, type, aliases, marp

LLM Wiki

核心思想：LLM 不是每次从原始文档中重新检索，而是增量构建并维护一个持久的 wiki——一个结构化的、互相链接的 Markdown 文件集合，位于你和原始来源之间。

定义

LLM Wiki 是一种由 Andrej Karpathy 提出的个人知识管理模式。与传统 RAG vs 持久化知识库不同，LLM 不是在查询时重新发现知识，而是持续编译、维护和更新一个结构化的知识库。

三层架构

graph LR
    A["📂 Raw Sources<br/>(不可变)"] --> B["📝 Wiki<br/>(LLM 维护)"]
    B --> C["📋 Schema<br/>(约定规范)"]
    C --> B

层级	位置	职责	谁维护
Raw Sources	`raw/`	原始文档、文章、论文、数据文件	不可变，LLM 只读
Wiki	`wiki/`	摘要、实体页、概念页、比较、综合	LLM 全权维护
Schema	`AGENTS.md`	Wiki 结构约定、工作流规范	人与 LLM 共同演进

三种核心操作

1. Ingest（摄入）

将新来源加入 raw 集合，LLM 处理流程：

读取来源 → 讨论关键要点
写入摘要页 → 更新 index
更新相关实体和概念页面 → 追加 log 条目

单个来源可能影响 10-15 个 wiki 页面。

2. Query（查询）

对 wiki 提问，LLM 搜索相关页面并综合回答。

关键洞察：好的回答应归档回 wiki 成为新页面，让探索像摄入一样持续积累。

3. Lint（健康检查）

定期检查 wiki 健康状况：

页面间矛盾
过时声明
孤立页面（无入站链接）
缺失的概念页面
缺失的交叉引用

索引与日志

文件	用途	格式
index	内容目录，按类别组织	LLM 每次摄入时更新
log	时间线日志，按时间记录	可用 `grep` 解析的格式

四大优势

Andrej Karpathy 在看到 Farzapedia 后，总结了基于文件系统的 LLM Wiki 做个性化的四个核心优势：

可见（Visible） — 记忆不是藏在模型里的黑箱。它就是一个 Wiki，你能看到 AI 知道什么、不知道什么，能检查、能管理。
你自己的（Your Own） — 数据在你本地电脑上，不在某个 AI 公司的系统里。你对自己的信息有完全的控制权。
文件优先（File-First） — 知识库就是一堆通用格式的文件（Markdown 和图片），可以用 Unix 工具链、任何 CLI 处理，想用什么界面都行。
自带 AI（BYOAI） — 可以用 Claude、Codex、OpenCode 或任何 AI 接入，甚至可以用开源模型在 Wiki 上做微调。

详见 BYOAI。

实际规模验证

Karpathy 本人在一个研究方向上积累了约 100 篇章、40 万字。他本以为需要复杂的 RAG 方案，结果 LLM 自己维护索引文件和文档摘要就够了——在这个规模下查什么都顺畅。

Idea File 范式

LLM Wiki 的分享方式体现了 Agent 时代的新范式：

只分享想法（Idea File），不分享代码或应用

在 Agent 时代，分享具体代码或应用的意义正在变弱。Karpathy 将他的 LLM Wiki 构建思路整理成 gist 形式分享——这是一个「想法文件」，不是完整实现。

工作流程：

将想法整理成 gist 分发
交给 Claude、Grok 等 Agent
Agent 根据你的需求自动搭建个人知识库
提供使用指导和工作流建议

这种模式意味着我们已经不需要再分享具体代码或应用了，只需要把「想法」交给对方的 Agent，让它根据需求自动完成定制和实现。

Meta-Frame（元框架）

观点认为，LLM Wiki 不只是一个 AI 工具，而更像是一种元框架（meta-framework）：

不依赖某个具体模型或技术栈
试图定义一种人类与 AI 协作管理知识的方式
随着模型不断迭代、框架持续演进，让 LLM 帮助编译并维护 Wiki 的模式反而具备更长期的稳定性和适用性

从这个角度，LLM Wiki 已经逼近一种自我增强的知识系统形态，也可以被视为一个具备产品潜力的雏形。

与传统 RAG 的对比

在中等规模下，LLM Wiki 并不依赖传统意义上的 RAG。只要 LLM 能够维护好索引和摘要，就已经可以支撑起有效的检索与推理。

特性	传统 RAG	LLM Wiki
知识发现	每次查询时重新发现	一次编译，持续更新
积累性	每次从零开始	交叉引用已建立，矛盾已标注
复杂问题	需要重新检索并拼接多个片段	综合结论已反映所有内容
检索依赖	依赖向量检索和重排序	依赖 LLM 维护的索引和摘要

阅读技巧

Karpathy 关于用 LLM Wiki 读一本书的建议：

使用 epub 格式而不是 PDF
一章一章地喂给 LLM，让它边读边整理
不要指望把一个 PDF 丢进去就让它总结，要"慢慢来"

"别指望把一个 PDF 丢进去就让它总结，得「慢慢来」，一块一块地处理。当我分阶段做的时候，结果好得不得了，已经离不开了。"

适用场景

个人层面

个人成长：追踪目标、健康、心理状态、自我提升过程
日记整理：整理日记、文章、播客笔记，构建关于你自己的结构化认知

学习与研究

深度研究：围绕某个主题深入数周甚至数月，阅读论文、文章、报告，构建不断演化的知识体系
阅读场景：逐章记录，建立人物、主题、情节线索之间的关联。类似 Tolkien Gateway 这样的维基，但由个人构建

企业与团队

内部 wiki：持续接入 Slack 对话、会议记录、项目文档、客户沟通，由 LLM 维护实时更新的知识库
团队协作：减少人工维护负担，知识库随工作自动更新

专业场景

竞争分析：收集竞争对手信息，构建对比分析体系
尽职调查：系统化收集和整理投资或合作相关信息
旅行规划：长期积累目的地信息，构建个性化旅行知识库
课程笔记：系统性整理学习内容，建立概念间的关联

任何需要长期积累知识、并希望其被系统化组织而不是零散分布的场景，都可以采用这种模式。

核心工具

Obsidian — Wiki 的可视化 IDE，Graph View 查看连接形状
qmd — 本地 Markdown 搜索引擎，支持 BM25/向量混合搜索
Obsidian Web Clipper — 浏览器扩展，快速抓取网页为 Markdown

实践案例

Farzapedia — Farza 的个人维基百科：2500 条日记 → 400 篇文章

与相关概念的关系

RAG vs 持久化知识库 — 与传统 RAG 的对比
知识库维护自动化 — 为什么 LLM 解决了 wiki 维护的核心痛点
Memex — Vannevar Bush 1945 年的愿景，LLM Wiki 的思想源头
BYOAI — 四大优势的核心概念
Contamination Mitigation — Steph Ango 的隔离思想

名言

"Obsidian is the IDE; the LLM is the programmer; the wiki is the codebase." — Andrej Karpathy

"这种个性化方式把控制权完全交到你手上。数据是你的，格式是通用的，内容是可检查的。用哪个 AI 随你，让 AI 公司们卷起来吧。" — Andrej Karpathy

来源

llm-wiki — Karpathy Gist 原文
刚刚，Karpathy 开源个人 LLM Wiki — J0hn 的中文解读文章

7.8 KiB Raw Permalink Blame History Unescape Escape