Patterns for AI-Augmented Deep Research
一份方法论随笔,写给任何用 AI 助手做严肃研究的人。前提:仅靠 LLM 聊天不是研究 —— 它是有损的初稿。真正的 AI 辅助研究是一个回路,涉及记忆优先的上下文加载、结构化的来源收集、批量综合,以及有纪律地把结果捕获到一个随时间复利的知识库。
为什么需要工作流
没有结构,AI 辅助研究会塌缩到两种失败模式:
- 临时聊天 —— 会话中有用的答案,在上下文窗口关闭时消失。没有任何积累。
- 幻觉的自信 —— 没有来源引用的综合,模型的流畅性掩盖了证据的缺失。
工作流存在就是为了击败这两点:每个主张都有可追溯的来源,每次会话都向持久存储中沉积一些东西,下次会话可以在上面构建。
输入
记忆优先的上下文加载
在向模型问研究问题之前,加载已知的内容。一个维护良好的知识库 —— wiki 页面、每日日志、过往会话总结 —— 是比从 web 搜索重新推导便宜得多的上下文。
操作顺序:
- 先搜本地记忆。 我已经就这个主题、这个实体、这个概念归档了什么?
- 如果已有 wiki 条目则阅读。 复用并扩展,不要重复。
- 只有在那之后才去开放 web 寻找缺失或过时的内容。
这不仅是效率举措。它强迫综合步骤把新信息与之前的信念对账 —— 这就是大多数洞见实际产生的地方。
来源收集
一次典型的研究会话从分层 stack 中拉取:
| 层级 | 例子 | 用例 |
|---|---|---|
| 搜索 API | tavily、Perplexity、Brave、Exa | 宽泛初步扫描,有引用支持 |
| 一手来源 | 公司网站、GitHub、白皮书、SEC 文件 | 验证具体主张 |
| 结构化数据 | Crunchbase、RootData、Token Terminal | 融资、指标、定量事实 |
| 长篇 | 播客、演讲、长读 | 创始人声音、论点深度 |
| 聚合器 LLM | 通过 openrouter 或类似路由 | 用不同模型偏见交叉核对 |
模式:API 搜索覆盖宽度,一手来源验证,结构化 DB 取数字,长篇取上下文。没有任何单一工具覆盖全部四个。
值得跟进的触发器
不是每个好奇都值得深挖。真正能回本的触发器:
- 投资级问题 —— 任何你愿意把钱押在正确性上的问题
- 重复模式 —— 一个名字在不相关来源中第三次出现,归档
- 逆向信号 —— 一个可信来源与共识不同
- 建造决策 —— 门控具体下一步的研究
不值得的触发器:伪装成研究的闲适好奇、加了步骤的 doomscrolling、"有趣"但无后续行动。
综合
批量优于流式
LLM 引诱人做增量 Q&A —— 问、得到答案、问下一个。这是研究的错误形状。高杠杆动作是 把原材料批量塞进一次长上下文调用 并要求对整堆做综合。
一次典型批量:
- 5–15 个来源 URL 或摘录
- 该主题之前的 wiki 页面(如有)
- 明确的综合 prompt:对比、识别模式、标记矛盾
claude-code-sessions 特别适合这个,因为工作目录本身就是上下文 —— 原始笔记、之前的页面、抓取的内容全部作为文件,模型一次性读取。
跨模型交叉核对
不同模型有不同的训练截止、不同的偏见、不同的幻觉模式。对高风险主张,把同一个综合在两个不同家族的模型上跑。分歧是信号 —— 它们告诉你哪些主张稳定,哪些依赖模型。
openrouter 让这一切便宜;一个 client,多个后端。
把逆向视角保留在框架内
单来源主张、供应商自报告、纯共识叙事都低估了风险。一个没有浮现至少一个可信逆向视角的综合是不完整的 —— 标记为如此,继续挖。
捕获与引用
每个主张都有来源
不可妥协的规则:当一个事实落入 wiki,它带着引用。两种格式覆盖几乎所有内容:
local: <filename>用于来自你自己笔记或会话日志的材料https://<url> (YYYY-MM-DD)用于 web 来源,带访问日期 —— 内容漂移,日期锚定
对数值敏感的主张(融资轮次、估值、用户数、营收),内联 [1] [2] 引用,关联到底部的 Sources 块,可在页面后续编辑时防漂移。
页面类型
研究 wiki 的有用拆分:
- 模块页 —— 一个空间、概念或工作流的分析。多个实体可以位于内部。
- 实体页 —— 一个具体的公司、产品、协议或人物。一页,一个对象。
- 来源页(可选)—— 单个重要来源的提炼总结,从任何受其影响处链接。
模块与实体的区分很重要:它是"代理支付协议,这个空间"与"Skyfire,这家公司"之间的区别。研究通常以模块扫描开始,然后随着特定名字赢得自己的处理,衍生出实体页面。
密集链接
wiki 链接慷慨。知识库的价值不在其页面 —— 在页面之间的图。一个连接良好的 wiki 浮现出不明显的连接(这个创始人也资助了那个协议;这个概念与那个论点重叠),平铺的笔记永远做不到。
使用有效 slug 的封闭词表,把未知链接降级为纯文本而不是 404。这让你可以憧憬地写 future-page 而不破坏构建。
编译循环
研究会话产出原材料。编译把原材料变成可导航的知识。它们是不同的工作,把它们混淆是大多数个人 wiki 衰败的原因。
节奏
可行的节奏:
| 窗口 | 活动 |
|---|---|
| 每次会话 | 原始笔记进入按日期的每日日志 |
| 每周 | 回顾日志,把重要发现提升到 wiki 页面 |
| 每月 | 交叉链接扫描、整合重复、删除死页 |
| 每季度 | 主题回顾 —— 什么变了、什么错了、什么稳定 |
每周提升步骤是承重的。没有它,每日日志堆积,wiki 腐烂。
幂等更新
编译应该可以安全重跑。如果一个实体的 wiki 页面已存在,下次会话把新信息合并进去,而非从头开始。Frontmatter 时间戳(last_compiled)让这可审计:比最相关来源更老的页面是刷新候选。
"我会告诉一个聪明朋友什么"测试
当你愿意把它交给一个问同样问题的聪明朋友,并觉得它诚实地回答了他们 —— 包括缝隙和你不确定的事情 —— wiki 页面就通过评审。如果页面主要是供应商文案或模型生成的陈词滥调,它不值得占位。
维护循环
衰败来源
wiki 以可预测方式衰败:
- 过时事实 —— 融资轮次、人数、产品名变化
- 死链接 —— 一手来源重组其网站
- 漂移定义 —— 一个术语两年后含义不同
- 孤儿页面 —— 不再有任何东西链接到的实体
维护循环是用新鲜眼光读老页面,问:仍然真实?仍然相关?仍然链接?
质量信号
健康的研究 wiki 显示:
- 大多数页面有多个入站链接
- 来源包含本地笔记和带日期的 web 引用
- 你正在主动思考的主题上有近期
last_compiled日期 - 一个小、无情的 slug 集合 —— 没有蔓延
蔓延是沉默的杀手。一个有 400 个稀疏填充实体页面的 wiki 比一个有 80 个强页面的更差,因为图的价值取决于密度。
工具栈
具体工具不如形状重要,但一个有代表性的 AI 增强栈:
- 搜索:tavily 用于 agent 友好搜索 API,Perplexity / Brave / Exa 作为替代
- 综合:claude-code-sessions 用于长上下文多文件推理;openrouter 用于跨模型核对
- 存储:一个 markdown 文件平铺目录,带 frontmatter,在 git 中版本控制
- 渲染:静态站点生成器(Next.js 导出、Hugo、mkdocs 等),用于可浏览输出
- 捕获:按日期的每日日志作为通用收件箱;按每周节奏提升到模块/实体页
带 frontmatter 的 markdown 目录格式是刻意的:它是人类编辑和 LLM 上下文加载两者摩擦最低的形状。JSON 数据库和专有笔记应用都输给 cat *.md。
反模式
看起来像研究但不是的东西:
- 一次性 LLM Q&A,无来源验证、无捕获 —— 纯多巴胺,零积累
- 书签囤积 —— 保存链接不是阅读它们
- 仅供应商来源 —— 只读公司自己说的关于自己的话
- 单模型依赖 —— 从不与不同家族的模型交叉核对
- 没有矛盾的综合 —— 一个忽略混乱部分的整洁故事通常是错的
- 没有维护的 wiki —— 只写的知识库几个月内腐烂
复利下注
投资这个工作流的原因是复利。第 N+1 次会话比第 N 次会话更聪明,因为第 N 次会话归档了一些有用的东西。一年后,wiki 做着真正的工作:作为新调查的承重上下文,浮现你会错过的连接,把"让我再搜一次"替换为"让我读读我已经得出的结论"。
那种复利是把 AI 增强研究与 AI 作为搜索替代品区分开的东西。模型是引擎;wiki 是底盘。
相关
- claude-code-sessions —— 长上下文综合作为主研究环境
- tavily-search-integration —— 为 agent 工作流设计的搜索 API
- openrouter —— 跨核对的多模型路由