Company
DeepSeek
杭州的开源权重 LLM 实验室,由量化对冲基金资助 —— 2025 年 1 月后成为成本高效前沿 AI 的象征。
1. 核心产品 / 服务
DeepSeek 使用 Mixture-of-Experts (MoE) 架构构建开源权重大语言模型。面向公众的表面:
- DeepSeek API —— 聊天 + 推理端点,OpenAI 兼容。
- 开源权重发布在 Hugging Face 上(V3、V3.1、V3.2、R1、V4 Flash、V4 Pro),代码在 MIT 下,权重在 DeepSeek 自己的模型许可证下 [1][2]。
- Web/app 聊天在 chat.deepseek.com。
最新版本(截至 2026-05-09):
- V4 Pro(preview,2026-04-24):1.6T 总 / 49B 活跃参数,1M 上下文。声称每 token 推理 FLOPs 是 V3.2 的约 27%,1M 上下文的 KV cache 约 10% [3][4]。
- V4 Flash:284B 总 / 13B 活跃,1M 上下文 [3]。
- R1:推理模型线,最初于 2025-01-20 发布 [5]。
2. 目标用户与痛点
- 开发者 / 创业公司,希望前沿层推理以 OpenAI/Anthropic 价格的一小部分。
- 自托管者 / 主权 AI —— 开源权重意味着他们可以在自己的 GPU 上运行(vLLM/SGLang Day-0 支持;见 ai-inference-engines)。
- 研究人员 —— V3 和 R1 的发布技术报告对前沿实验室而言异常详细。
解决痛点:闭源模型锁定、美国 API 出口成本、训练成本透明度。
3. 竞争格局
| 实验室 | 起源 | 开源权重? | 最新旗舰 | 定位 |
|---|---|---|---|---|
| DeepSeek | 中国(杭州) | 是(MIT 代码 + 模型许可证) | V4 Pro 1.6T MoE | 最便宜的前沿层,MoE 原生 |
| OpenAI | 美国 | 否 | GPT-5 家族 | 闭源领导者,高端价格 |
| Anthropic | 美国 | 否 | Claude Opus/Sonnet 4.x | 闭源,agentic / 编码焦点 |
| kimi(Moonshot) | 中国 | 部分(K2 权重开源) | K2.6 | 长上下文 + agent 工具 |
| Qwen(阿里巴巴) | 中国 | 是(Apache 2.0) | Qwen3 家族 | 最广泛的模型动物园,多模态 |
差异化:DeepSeek 在每质量单位的推理成本和架构新颖性(MoE 路由、多头潜在注意力)上最激进。战略选择将优化上游到 ai-inference-engines(vLLM)而不是构建自己的引擎 —— 保持团队专注于模型训练 [local: daily_log-2026-04-08.md]。
4. 独立观察
- 推理引擎战略:DeepSeek 明确选择将优化合并回 vLLM 和 SGLang,而不是推出竞争推理产品。根据内部笔记的推理:约 500 人的团队不能同时训练新模型和维护多硬件推理栈 —— 让引擎生态系统为他们分发模型 [local: daily_log-2026-04-08.md]。
- 搜索栈:据报道独立的中国实验室(DeepSeek、Kimi、MiniMax)混合自建爬虫与 Exa.ai 进行接地,与使用内部引擎的百度/阿里巴巴/腾讯不同 [local: 2026-04-01-diary.md]。
- OpenRouter 行为怪癖:通过 openrouter 服务的 DeepSeek 模型可以由主机启用推理,而直接 DeepSeek API 默认推理关闭 —— 与 hermes-openrouter-models 路由相关。
- V4 推理 FLOP 声明:V4 Pro 在 1M 上下文中的 V3.2 单 token 算力的 27% 是头条架构改进,而不是原始基准分数 [3][4]。
5. 财务 / 融资
- 没有外部风险投资融资。 DeepSeek 没有筹集公开 VC 轮次;风投公司最初放弃是因为没有近期退出 [6]。
- 母公司 / 资助者:High-Flyer(幻方量化),2016 年由梁文锋和浙江大学同学在杭州创立的中国量化对冲基金。High-Flyer 补贴 DeepSeek 的 GPU 集群和运营成本 [6][7]。
- 所有权:截至 2024 年 5 月,梁文锋通过两家壳实体个人持有约 84% 的 DeepSeek [6]。
- 披露的训练成本:V3 基础模型在 H800 租赁等效中训练 ~$5.576M(2,048× H800,约 55 天),加上 R1 RL 阶段的 ~$294K —— 数字仅涵盖算力,不包括工资 / 数据 / 失败的运行 / 硬件资本支出 [8]。$5.6M 数字是触发下面市场反应的那个。
- 市场冲击事件(2025-01-27):2025-01-20 R1 发布加上廉价训练叙事推动 Nvidia 下跌约 17%,单日抹去约 $589B 的市值 —— 当时美国股市历史上最大的单日损失。Broadcom(-17%)、Micron(-12%)、AMD(-6%)同情性抛售 [9]。Nvidia 到 2026 年 4 月从该低点恢复了约 76%。
6. 团队与关系
- 创始人 / CEO:梁文锋(Liang Wenfeng)—— 也是 High-Flyer 的 CEO,浙江大学毕业,在 2008 年金融危机期间开始算法交易。
- 母公司:High-Flyer 对冲基金(杭州,2016 年创立)。
- 生态系统盟友:vLLM / ai-inference-engines(DeepSeek 将 MoE / 专家并行优化上游到那里);SGLang(V3/R1 的 Day-0 支持)。
- 分销合作伙伴:openrouter(第三方主机,通常比直接 API 便宜)、DeepInfra、Together。
- 同行中国实验室:kimi(Moonshot)、MiniMax、Qwen —— 重叠但差异化定位(见第 3 节)。
Related
Last compiled: 2026-05-09