DeepSeek

杭州的开源权重 LLM 实验室,由量化对冲基金资助 —— 2025 年 1 月后成为成本高效前沿 AI 的象征。

1. 核心产品 / 服务

DeepSeek 使用 Mixture-of-Experts (MoE) 架构构建开源权重大语言模型。面向公众的表面：

DeepSeek API —— 聊天 + 推理端点,OpenAI 兼容。
开源权重发布在 Hugging Face 上（V3、V3.1、V3.2、R1、V4 Flash、V4 Pro）,代码在 MIT 下,权重在 DeepSeek 自己的模型许可证下 [1][2]。
Web/app 聊天在 chat.deepseek.com。

最新版本（截至 2026-05-09）：

V4 Pro（preview,2026-04-24）：1.6T 总 / 49B 活跃参数,1M 上下文。声称每 token 推理 FLOPs 是 V3.2 的约 27%,1M 上下文的 KV cache 约 10% [3][4]。
V4 Flash：284B 总 / 13B 活跃,1M 上下文 [3]。
R1：推理模型线,最初于 2025-01-20 发布 [5]。

2. 目标用户与痛点

开发者 / 创业公司,希望前沿层推理以 OpenAI/Anthropic 价格的一小部分。
自托管者 / 主权 AI —— 开源权重意味着他们可以在自己的 GPU 上运行（vLLM/SGLang Day-0 支持；见 ai-inference-engines）。
研究人员 —— V3 和 R1 的发布技术报告对前沿实验室而言异常详细。

解决痛点：闭源模型锁定、美国 API 出口成本、训练成本透明度。

3. 竞争格局

实验室	起源	开源权重？	最新旗舰	定位
DeepSeek	中国（杭州）	是（MIT 代码 + 模型许可证）	V4 Pro 1.6T MoE	最便宜的前沿层,MoE 原生
OpenAI	美国	否	GPT-5 家族	闭源领导者,高端价格
Anthropic	美国	否	Claude Opus/Sonnet 4.x	闭源,agentic / 编码焦点
kimi（Moonshot）	中国	部分（K2 权重开源）	K2.6	长上下文 + agent 工具
Qwen（阿里巴巴）	中国	是（Apache 2.0）	Qwen3 家族	最广泛的模型动物园,多模态

差异化：DeepSeek 在每质量单位的推理成本和架构新颖性（MoE 路由、多头潜在注意力）上最激进。战略选择将优化上游到 ai-inference-engines（vLLM）而不是构建自己的引擎 —— 保持团队专注于模型训练 [local: daily_log-2026-04-08.md]。

4. 独立观察

推理引擎战略：DeepSeek 明确选择将优化合并回 vLLM 和 SGLang,而不是推出竞争推理产品。根据内部笔记的推理：约 500 人的团队不能同时训练新模型和维护多硬件推理栈 —— 让引擎生态系统为他们分发模型 [local: daily_log-2026-04-08.md]。
搜索栈：据报道独立的中国实验室（DeepSeek、Kimi、MiniMax）混合自建爬虫与 Exa.ai 进行接地,与使用内部引擎的百度/阿里巴巴/腾讯不同 [local: 2026-04-01-diary.md]。
OpenRouter 行为怪癖：通过 openrouter 服务的 DeepSeek 模型可以由主机启用推理,而直接 DeepSeek API 默认推理关闭 —— 与 hermes-openrouter-models 路由相关。
V4 推理 FLOP 声明：V4 Pro 在 1M 上下文中的 V3.2 单 token 算力的 27% 是头条架构改进,而不是原始基准分数 [3][4]。

5. 财务 / 融资

没有外部风险投资融资。 DeepSeek 没有筹集公开 VC 轮次；风投公司最初放弃是因为没有近期退出 [6]。
母公司 / 资助者：High-Flyer（幻方量化）,2016 年由梁文锋和浙江大学同学在杭州创立的中国量化对冲基金。High-Flyer 补贴 DeepSeek 的 GPU 集群和运营成本 [6][7]。
所有权：截至 2024 年 5 月,梁文锋通过两家壳实体个人持有约 84% 的 DeepSeek [6]。
披露的训练成本：V3 基础模型在 H800 租赁等效中训练 ~$5.576M（2,048× H800,约 55 天）,加上 R1 RL 阶段的 ~$294K —— 数字仅涵盖算力,不包括工资 / 数据 / 失败的运行 / 硬件资本支出 [8]。$5.6M 数字是触发下面市场反应的那个。
市场冲击事件（2025-01-27）：2025-01-20 R1 发布加上廉价训练叙事推动 Nvidia 下跌约 17%,单日抹去约 $589B 的市值 —— 当时美国股市历史上最大的单日损失。Broadcom（-17%）、Micron（-12%）、AMD（-6%）同情性抛售 [9]。Nvidia 到 2026 年 4 月从该低点恢复了约 76%。

6. 团队与关系

创始人 / CEO：梁文锋（Liang Wenfeng）—— 也是 High-Flyer 的 CEO,浙江大学毕业,在 2008 年金融危机期间开始算法交易。
母公司：High-Flyer 对冲基金（杭州,2016 年创立）。
生态系统盟友：vLLM / ai-inference-engines（DeepSeek 将 MoE / 专家并行优化上游到那里）；SGLang（V3/R1 的 Day-0 支持）。
分销合作伙伴：openrouter（第三方主机,通常比直接 API 便宜）、DeepInfra、Together。
同行中国实验室：kimi（Moonshot）、MiniMax、Qwen —— 重叠但差异化定位（见第 3 节）。