Patterns for AI-Augmented Deep Research

一份方法论随笔,写给任何用 AI 助手做严肃研究的人。前提:仅靠 LLM 聊天不是研究 —— 它是有损的初稿。真正的 AI 辅助研究是一个回路,涉及记忆优先的上下文加载、结构化的来源收集、批量综合,以及有纪律地把结果捕获到一个随时间复利的知识库。

为什么需要工作流

没有结构,AI 辅助研究会塌缩到两种失败模式:

临时聊天 —— 会话中有用的答案,在上下文窗口关闭时消失。没有任何积累。
幻觉的自信 —— 没有来源引用的综合,模型的流畅性掩盖了证据的缺失。

工作流存在就是为了击败这两点:每个主张都有可追溯的来源,每次会话都向持久存储中沉积一些东西,下次会话可以在上面构建。

输入

记忆优先的上下文加载

在向模型问研究问题之前,加载已知的内容。一个维护良好的知识库 —— wiki 页面、每日日志、过往会话总结 —— 是比从 web 搜索重新推导便宜得多的上下文。

操作顺序:

先搜本地记忆。 我已经就这个主题、这个实体、这个概念归档了什么?
如果已有 wiki 条目则阅读。 复用并扩展,不要重复。
只有在那之后才去开放 web 寻找缺失或过时的内容。

这不仅是效率举措。它强迫综合步骤把新信息与之前的信念对账 —— 这就是大多数洞见实际产生的地方。

来源收集

一次典型的研究会话从分层 stack 中拉取:

层级	例子	用例
搜索 API	tavily、Perplexity、Brave、Exa	宽泛初步扫描,有引用支持
一手来源	公司网站、GitHub、白皮书、SEC 文件	验证具体主张
结构化数据	Crunchbase、RootData、Token Terminal	融资、指标、定量事实
长篇	播客、演讲、长读	创始人声音、论点深度
聚合器 LLM	通过 openrouter 或类似路由	用不同模型偏见交叉核对

模式:API 搜索覆盖宽度,一手来源验证,结构化 DB 取数字,长篇取上下文。没有任何单一工具覆盖全部四个。

值得跟进的触发器

不是每个好奇都值得深挖。真正能回本的触发器:

投资级问题 —— 任何你愿意把钱押在正确性上的问题
重复模式 —— 一个名字在不相关来源中第三次出现,归档
逆向信号 —— 一个可信来源与共识不同
建造决策 —— 门控具体下一步的研究

不值得的触发器:伪装成研究的闲适好奇、加了步骤的 doomscrolling、"有趣"但无后续行动。

综合

批量优于流式

LLM 引诱人做增量 Q&A —— 问、得到答案、问下一个。这是研究的错误形状。高杠杆动作是 把原材料批量塞进一次长上下文调用 并要求对整堆做综合。

一次典型批量:

5–15 个来源 URL 或摘录
该主题之前的 wiki 页面(如有)
明确的综合 prompt:对比、识别模式、标记矛盾

claude-code-sessions 特别适合这个,因为工作目录本身就是上下文 —— 原始笔记、之前的页面、抓取的内容全部作为文件,模型一次性读取。

跨模型交叉核对

不同模型有不同的训练截止、不同的偏见、不同的幻觉模式。对高风险主张,把同一个综合在两个不同家族的模型上跑。分歧是信号 —— 它们告诉你哪些主张稳定,哪些依赖模型。

openrouter 让这一切便宜;一个 client,多个后端。

把逆向视角保留在框架内

单来源主张、供应商自报告、纯共识叙事都低估了风险。一个没有浮现至少一个可信逆向视角的综合是不完整的 —— 标记为如此,继续挖。

捕获与引用

每个主张都有来源

不可妥协的规则:当一个事实落入 wiki,它带着引用。两种格式覆盖几乎所有内容:

local: <filename> 用于来自你自己笔记或会话日志的材料
https://<url> (YYYY-MM-DD) 用于 web 来源,带访问日期 —— 内容漂移,日期锚定

对数值敏感的主张(融资轮次、估值、用户数、营收),内联 [1] [2] 引用,关联到底部的 Sources 块,可在页面后续编辑时防漂移。

页面类型

研究 wiki 的有用拆分:

模块页 —— 一个空间、概念或工作流的分析。多个实体可以位于内部。
实体页 —— 一个具体的公司、产品、协议或人物。一页,一个对象。
来源页(可选)—— 单个重要来源的提炼总结,从任何受其影响处链接。

模块与实体的区分很重要:它是"代理支付协议,这个空间"与"Skyfire,这家公司"之间的区别。研究通常以模块扫描开始,然后随着特定名字赢得自己的处理,衍生出实体页面。

密集链接

wiki 链接慷慨。知识库的价值不在其页面 —— 在页面之间的图。一个连接良好的 wiki 浮现出不明显的连接(这个创始人也资助了那个协议;这个概念与那个论点重叠),平铺的笔记永远做不到。

使用有效 slug 的封闭词表,把未知链接降级为纯文本而不是 404。这让你可以憧憬地写 future-page 而不破坏构建。

编译循环

研究会话产出原材料。编译把原材料变成可导航的知识。它们是不同的工作,把它们混淆是大多数个人 wiki 衰败的原因。

节奏

可行的节奏:

窗口	活动
每次会话	原始笔记进入按日期的每日日志
每周	回顾日志,把重要发现提升到 wiki 页面
每月	交叉链接扫描、整合重复、删除死页
每季度	主题回顾 —— 什么变了、什么错了、什么稳定

每周提升步骤是承重的。没有它,每日日志堆积,wiki 腐烂。

幂等更新

编译应该可以安全重跑。如果一个实体的 wiki 页面已存在,下次会话把新信息合并进去,而非从头开始。Frontmatter 时间戳(last_compiled)让这可审计:比最相关来源更老的页面是刷新候选。

"我会告诉一个聪明朋友什么"测试

当你愿意把它交给一个问同样问题的聪明朋友,并觉得它诚实地回答了他们 —— 包括缝隙和你不确定的事情 —— wiki 页面就通过评审。如果页面主要是供应商文案或模型生成的陈词滥调,它不值得占位。

维护循环

衰败来源

wiki 以可预测方式衰败:

过时事实 —— 融资轮次、人数、产品名变化
死链接 —— 一手来源重组其网站
漂移定义 —— 一个术语两年后含义不同
孤儿页面 —— 不再有任何东西链接到的实体

维护循环是用新鲜眼光读老页面,问:仍然真实?仍然相关?仍然链接?

质量信号

健康的研究 wiki 显示:

大多数页面有多个入站链接
来源包含本地笔记和带日期的 web 引用
你正在主动思考的主题上有近期 last_compiled 日期
一个小、无情的 slug 集合 —— 没有蔓延

蔓延是沉默的杀手。一个有 400 个稀疏填充实体页面的 wiki 比一个有 80 个强页面的更差,因为图的价值取决于密度。

工具栈

具体工具不如形状重要,但一个有代表性的 AI 增强栈:

搜索:tavily 用于 agent 友好搜索 API,Perplexity / Brave / Exa 作为替代
综合:claude-code-sessions 用于长上下文多文件推理;openrouter 用于跨模型核对
存储:一个 markdown 文件平铺目录,带 frontmatter,在 git 中版本控制
渲染:静态站点生成器(Next.js 导出、Hugo、mkdocs 等),用于可浏览输出
捕获:按日期的每日日志作为通用收件箱;按每周节奏提升到模块/实体页

带 frontmatter 的 markdown 目录格式是刻意的:它是人类编辑和 LLM 上下文加载两者摩擦最低的形状。JSON 数据库和专有笔记应用都输给 cat *.md。

反模式

看起来像研究但不是的东西:

一次性 LLM Q&A,无来源验证、无捕获 —— 纯多巴胺,零积累
书签囤积 —— 保存链接不是阅读它们
仅供应商来源 —— 只读公司自己说的关于自己的话
单模型依赖 —— 从不与不同家族的模型交叉核对
没有矛盾的综合 —— 一个忽略混乱部分的整洁故事通常是错的
没有维护的 wiki —— 只写的知识库几个月内腐烂

复利下注

投资这个工作流的原因是复利。第 N+1 次会话比第 N 次会话更聪明,因为第 N 次会话归档了一些有用的东西。一年后,wiki 做着真正的工作:作为新调查的承重上下文,浮现你会错过的连接,把"让我再搜一次"替换为"让我读读我已经得出的结论"。

那种复利是把 AI 增强研究与 AI 作为搜索替代品区分开的东西。模型是引擎;wiki 是底盘。