AI Inference Engine Landscape
相关: inferact、radixark、gpu-kernel-optimization
概览
AI 推理引擎是把训练好的 LLM 模型大规模提供给用户的基建层。市场正围绕两个主导的开源项目快速商业化:vLLM 和 SGLang。
市场结构(2026)
开源领军者
| 项目 | Stars | 商业实体 | 估值 | 领投方 |
|---|---|---|---|---|
| vLLM | ~65K | Inferact | $800M | a16z + Lightspeed |
| SGLang | ~16K | RadixArk | $400M | Accel |
其他玩家
| 引擎 | 开发者 | 备注 |
|---|---|---|
| TensorRT-LLM | NVIDIA | 对 NVIDIA 硬件优化最深,偏闭源 |
| LMDeploy | 上海 AI Lab(InternLM) | 强 INT4、TurboMind C++ 引擎 |
| Xinference | Xorbits(阿里系) | 中国市场,分布式推理 |
| Fireworks AI | Fireworks Inc. | $10B+ 估值,自有引擎 |
DeepSeek 的战略选择
DeepSeek(模型 V3、R1、V3-0324)选择 把优化贡献回 vLLM,而非自建推理引擎。
逻辑:
- DeepSeek 是模型公司,不是基建公司 —— 维护引擎要花一个团队
- vLLM 部署基础最大 —— 贡献 vLLM = DeepSeek 模型触达更多用户
- vLLM 硬件无关 —— 无论用户在什么硬件上,DeepSeek 都受益
AI 实验室官方推荐
| 实验室 | 模型 | 推荐引擎 |
|---|---|---|
| DeepSeek | V3、R1、V3-0324 | SGLang(Day-0) + vLLM |
| Meta | Llama 4 | vLLM + SGLang + TensorRT-LLM |
| Gemma 3/4 | vLLM | |
| Mistral | Mistral Large 3 | vLLM + SGLang |
| Moonshot | Kimi K2、K2.5 | vLLM + SGLang |
关键指标
| 指标 | SGLang | vLLM |
|---|---|---|
| H100 吞吐 | ~16,200 tok/s | ~12,500 tok/s |
| 多 GPU 扩展 | TP + PP + EP | TP + PP |
| MoE 支持 | 是(DeepSeek V3/R1) | 是 |
| FP8 支持 | 部分 | 是(Hopper) |
商业模式
所有商业玩家都遵循:开源免费 + 企业托管服务付费
收费的服务:SLA 保障、专属 GPU 集群、商业支持、硬件协同开发。
来源
- Inferact $150M 种子轮报道(Fintool、Pulse2、a16z)
- SGLang GitHub:lmsys-org/sglang
- DeepSeek 官方模型卡
- 来自各种推理测试的 H100 基准数据