Home/AI Infrastructure/AI Inference Engine Landscape
中文English

AI Inference Engine Landscape

相关: inferactradixarkgpu-kernel-optimization

概览

AI 推理引擎是把训练好的 LLM 模型大规模提供给用户的基建层。市场正围绕两个主导的开源项目快速商业化:vLLMSGLang

市场结构(2026)

开源领军者

项目 Stars 商业实体 估值 领投方
vLLM ~65K Inferact $800M a16z + Lightspeed
SGLang ~16K RadixArk $400M Accel

其他玩家

引擎 开发者 备注
TensorRT-LLM NVIDIA 对 NVIDIA 硬件优化最深,偏闭源
LMDeploy 上海 AI Lab(InternLM) 强 INT4、TurboMind C++ 引擎
Xinference Xorbits(阿里系) 中国市场,分布式推理
Fireworks AI Fireworks Inc. $10B+ 估值,自有引擎

DeepSeek 的战略选择

DeepSeek(模型 V3、R1、V3-0324)选择 把优化贡献回 vLLM,而非自建推理引擎。

逻辑:

  1. DeepSeek 是模型公司,不是基建公司 —— 维护引擎要花一个团队
  2. vLLM 部署基础最大 —— 贡献 vLLM = DeepSeek 模型触达更多用户
  3. vLLM 硬件无关 —— 无论用户在什么硬件上,DeepSeek 都受益

AI 实验室官方推荐

实验室 模型 推荐引擎
DeepSeek V3、R1、V3-0324 SGLang(Day-0) + vLLM
Meta Llama 4 vLLM + SGLang + TensorRT-LLM
Google Gemma 3/4 vLLM
Mistral Mistral Large 3 vLLM + SGLang
Moonshot Kimi K2、K2.5 vLLM + SGLang

关键指标

指标 SGLang vLLM
H100 吞吐 ~16,200 tok/s ~12,500 tok/s
多 GPU 扩展 TP + PP + EP TP + PP
MoE 支持 是(DeepSeek V3/R1)
FP8 支持 部分 是(Hopper)

商业模式

所有商业玩家都遵循:开源免费 + 企业托管服务付费

收费的服务:SLA 保障、专属 GPU 集群、商业支持、硬件协同开发。

来源

  • Inferact $150M 种子轮报道(Fintool、Pulse2、a16z)
  • SGLang GitHub:lmsys-org/sglang
  • DeepSeek 官方模型卡
  • 来自各种推理测试的 H100 基准数据