jimmy·research

Home OpenRouter Log

Home/AI Infrastructure/AI Inference Engine Landscape

中文↔English

AI Inference Engine Landscape

相关: inferact、radixark、gpu-kernel-optimization

概览

AI 推理引擎是把训练好的 LLM 模型大规模提供给用户的基建层。市场正围绕两个主导的开源项目快速商业化:vLLM 和 SGLang。

市场结构(2026)

开源领军者

项目	Stars	商业实体	估值	领投方
vLLM	~65K	Inferact	$800M	a16z + Lightspeed
SGLang	~16K	RadixArk	$400M	Accel

其他玩家

引擎	开发者	备注
TensorRT-LLM	NVIDIA	对 NVIDIA 硬件优化最深,偏闭源
LMDeploy	上海 AI Lab(InternLM)	强 INT4、TurboMind C++ 引擎
Xinference	Xorbits(阿里系)	中国市场,分布式推理
Fireworks AI	Fireworks Inc.	$10B+ 估值,自有引擎

DeepSeek 的战略选择

DeepSeek(模型 V3、R1、V3-0324)选择 把优化贡献回 vLLM,而非自建推理引擎。

逻辑:

DeepSeek 是模型公司,不是基建公司 —— 维护引擎要花一个团队
vLLM 部署基础最大 —— 贡献 vLLM = DeepSeek 模型触达更多用户
vLLM 硬件无关 —— 无论用户在什么硬件上,DeepSeek 都受益

AI 实验室官方推荐

实验室	模型	推荐引擎
DeepSeek	V3、R1、V3-0324	SGLang(Day-0) + vLLM
Meta	Llama 4	vLLM + SGLang + TensorRT-LLM
Google	Gemma 3/4	vLLM
Mistral	Mistral Large 3	vLLM + SGLang
Moonshot	Kimi K2、K2.5	vLLM + SGLang

关键指标

指标	SGLang	vLLM
H100 吞吐	~16,200 tok/s	~12,500 tok/s
多 GPU 扩展	TP + PP + EP	TP + PP
MoE 支持	是(DeepSeek V3/R1)	是
FP8 支持	部分	是(Hopper)

商业模式

所有商业玩家都遵循:开源免费 + 企业托管服务付费

收费的服务:SLA 保障、专属 GPU 集群、商业支持、硬件协同开发。

来源

Inferact $150M 种子轮报道(Fintool、Pulse2、a16z)
SGLang GitHub:lmsys-org/sglang
DeepSeek 官方模型卡
来自各种推理测试的 H100 基准数据