Home/AI Infrastructure/AI Inference Engine Landscape
中文English

AI Inference Engine Landscape

相关: inferactradixarkgpu-kernel-optimization

概览

AI 推理引擎是把训练好的 LLM 模型大规模提供给用户的基建层。市场正围绕三大引擎快速商业化:两个开源领军者 vLLMSGLang,加上 NVIDIA 的 TensorRT-LLM

这一层正出现结构性转变。引擎之间的原始功能差距已基本抹平——三家都实现了 continuous batching、paged KV cache、FP8——竞争因此同时向上下两个方向迁移。向下,每个主要引擎的作者如今都站在 VC 撑腰的公司背后卖托管服务,威胁纯平台中间商;向上,NVIDIA 推出了一个编排层(Dynamo),把三大引擎当成可互换的后端来调度。而在最底层,价值单位正从"卖 GPU 算力"向"卖 token"迁移:微软已表示约一半 GPU 客户现在通过 AI API 而非预留裸机消费算力(仅 ~20–25% 锁裸机),且推理预计将吞掉 2026 全部 AI 算力的约三分之二 [https://siliconangle.com/ (2026-06-28)]。这一迁移把经济价值拉向引擎与服务层——正是本模块这些玩家所处的位置。

市场结构(2026)

开源领军者

项目 Stars 商业实体 估值 领投方
vLLM ~65K Inferact $800M a16z + Lightspeed
SGLang ~16K RadixArk $400M Accel

其他玩家

引擎 开发者 备注
TensorRT-LLM NVIDIA 对 NVIDIA 硬件优化最深,仅限 NVIDIA
LMDeploy 上海 AI Lab(InternLM) 强 INT4、TurboMind C++ 引擎
Xinference Xorbits(阿里系) 中国市场,分布式推理
Fireworks AI Fireworks Inc. $10B+ 估值,自有引擎(fireworks-ai)

引擎作者集体下场(2026)

2026 年最重要的发展是:三大引擎的核心作者如今都站在公司背后,而且在往下游走、卖托管服务,而不只是维护开源项目。这就是"向上游收税"的模式——谁写的引擎,谁对性能理解最深,也最适合把它当托管产品运营。这直接威胁纯平台玩家(fireworks-aibaseten),它们的护城河本是围绕一个并非自己所写的引擎的运营经验。

引擎 商业载体 轮次 估值 领投方
vLLM inferact $150M 种子(2026/01) $800M a16z + Lightspeed [https://techcrunch.com/ (2026-06-28)]
SGLang radixark $100M 种子(2026/05) $400M Accel(NVIDIA、AMD、MediaTek + 天使)[https://lmsys.org/blog/ (2026-06-28)]
TensorRT-LLM NVIDIA(自家)

inferact 由 vLLM 原作者 Simon Mo 和 Woosuk Kwon 从 UC Berkeley 的 Ion Stoica 实验室创立,计划推出付费 serverless vLLM。另一边,Red Hat 早已收购 vLLM 头号商业贡献者 Neural Magic(2025/01),锚定企业私有云部署——所以 vLLM 生态如今同时有创始人主导的创业公司和 Red Hat 企业线 [https://techcrunch.com/ (2026-06-28)]。radixark 孵化于 LMSYS,拿了三家芯片厂(NVIDIA、AMD、MediaTek)的战略资金,说明硬件一侧希望把 SGLang 调度器在各自芯片上调优 [https://lmsys.org/blog/ (2026-06-28)]。TensorRT-LLM 没有独立公司——它留在 NVIDIA 内部,作为卖更多 GPU 的入口。

编排层:NVIDIA Dynamo

2026 年 3 月(GTC 上 GA),NVIDIA 发布 Dynamo,一个框架无关的"推理操作系统",把 SGLang、vLLM、TensorRT-LLM 一起调度而非与之竞争。其招牌能力是 prefill/decode 分离(把两个阶段拆到不同 GPU)、KV-cache 感知的智能请求路由、以及多级 KV-cache offload——在 Blackwell 级硬件上最高约 7× 吞吐 [https://nvidianews.nvidia.com/ (2026-06-28)]。已被 basetenfireworks-ai、Deep Infra 采用 [https://www.baseten.co/blog/ (2026-06-28)]。

战略逻辑和 TensorRT-LLM 一致:NVIDIA 把编排软件免费送出,正是因为引擎中立、开放的基建降低了运营大规模集群的门槛,而部署的集群越多,卖出的 GPU 就越多。Dynamo 刻意不在引擎间选边——它把引擎商品化成可互换的后端,垫在一个由 NVIDIA 控制的调度器之下。

本地 / 单用户引擎

与生产级服务引擎不同的一类——它们为在消费级硬件上跑模型而设计:

引擎 开发者 后端 备注
ollama Ollama Inc. llama.cpp 一条命令本地服务、模型注册表,2026-04 融资 $20M
llama.cpp 社区(ggerganov) 纯 C++/CUDA/Metal 最大硬件兼容性、GGUF 量化(2-8 bit),无内建注册表
MLX Apple Apple 原生 Metal M 系列 Mac 上最佳每瓦性能,SWA 原生
LM Studio LM Studio Inc. llama.cpp GUI + 模型浏览器,macOS/Windows

架构关系:Ollama 和 LM Studio 是 llama.cpp 之上的 UX 层;llama.cpp 提供带 GGUF 量化的 C++ 推理后端。MLX 是独立的 Apple 原生栈,在 Apple Silicon 上完全绕过 llama.cpp。生产级多用户服务以 vLLM/SGLang 为标准;本地引擎用于原型和单用户场景。

滑动窗口注意力(SWA)优化

多个模型家族现在用滑动窗口注意力来降低长文本推理时的 KV cache 显存压力:

  • Mimo-v2.5(minimax):60 层 SWA,只算 128-token 窗口。长文本 prefill 计算量约等于传统 10 层全局 GQA [local: 2026-05-30-summary.md]。
  • Gemma3(Google):SWA 在支持的引擎里自动激活,对用户透明。
  • Qwen3(qwen):混合 SWA 架构,对用户透明。

KV Cache 显存公式:2 × L × H_kv × D_h × T × B × bytes——L = 层数,H_kv = KV 注意力头数,D_h = 头维度,T = 序列长度,B = batch size。对 Kimi K2(kimi)这类 1T+ MoE 模型的部署容量规划至关重要。

引擎支持:vLLM、SGLang、llama.cpp/Ollama、MLX 都支持 SWA 模型——该优化是架构级(模型层)的,不是引擎特有。模型用 SWA 时,引擎自动应用滑动窗口,无需用户配置。

DeepSeek 的战略选择

DeepSeek(模型 V3、R1、V3-0324)选择 把优化贡献回 vLLM,而非自建推理引擎。

逻辑:

  1. DeepSeek 是模型公司,不是基建公司 —— 维护引擎要花一个团队
  2. vLLM 部署基础最大 —— 贡献 vLLM = DeepSeek 模型触达更多用户
  3. vLLM 硬件无关 —— 无论用户在什么硬件上,DeepSeek 都受益

AI 实验室官方推荐

实验室 模型 推荐引擎
DeepSeek V3、R1、V3-0324 SGLang(Day-0) + vLLM
Meta Llama 4 vLLM + SGLang + TensorRT-LLM
Google Gemma 3/4 vLLM
Mistral Mistral Large 3 vLLM + SGLang
Moonshot Kimi K2、K2.5 vLLM + SGLang

关键指标

指标 SGLang vLLM
H100 吞吐 ~16,200 tok/s ~12,500 tok/s
多 GPU 扩展 TP + PP + EP TP + PP
MoE 支持 是(DeepSeek V3/R1)
FP8 支持 部分 是(Hopper)

引擎差异化(2026)

核心功能集(continuous batching、paged KV cache、FP8)三家如今都有了,差异化收窄到几处不同的锋利点:

引擎 锋利点 取舍
vLLM 最广的硬件/模型覆盖;行为可预测、稳定 在任一单芯片上未必是原始吞吐冠军
SGLang RadixAttention 前缀缓存 + 多调用调度;高并发与 MoE 负载占优;新硬件 day-0 支持激进 更新、变动更快
TensorRT-LLM 编译式引擎 → NVIDIA 硬件上原始吞吐最高 仅限 NVIDIA;编译步骤带来运营摩擦

实用读法:要可移植性和广度选 vLLM,要高并发 / MoE / 新芯片启用选 SGLang,被 NVIDIA 锁定且追求峰值 tokens/sec 时选 TensorRT-LLM。

平台自研引擎的开 vs 闭

自建引擎的平台玩家,在开放程度上分化:

  • Fireworks(fireworks-ai)——FireAttention 完全专有、闭源。护城河只有性能本身;什么都不回馈 [https://fireworks.ai/blog (2026-06-28)]。
  • together-ai——服务引擎闭源,但底座是 FlashAttention(Tri Dao),它开源且如今是行业标准原语。这是"开源地基 + 闭源变现"的姿态:把积木给整个领域,把组装好的产品留作专有。

这个对比关乎可持续性。纯性能护城河(FireAttention)会随开源引擎追平而侵蚀;"开源地基"姿态(Together 旗下的 FlashAttention)在仍能对集成栈变现的同时,赢得生态善意和定标准的杠杆。

商业模式

所有商业玩家都遵循:开源免费 + 企业托管服务付费

收费的服务:SLA 保障、专属 GPU 集群、商业支持、硬件协同开发。

2026 年的新变化是有资格收费。随着引擎作者往下游走(inferactradixark)、NVIDIA 从上方把引擎选择商品化(Dynamo),被挤的位置是那种既没写引擎、也不拥有芯片的纯平台——它必须在运营上,跟写了它所运行代码的人竞争。从卖 GPU 到卖 token 的价值迁移强化了这一点:利润归于拥有 token 真正被产出的服务/引擎层的那一方。

来源

  • Inferact $150M 种子轮报道(Fintool、Pulse2、a16z)
  • SGLang GitHub:lmsys-org/sglang
  • DeepSeek 官方模型卡
  • 来自各种推理测试的 H100 基准数据
  • local: 2026-05-30-summary.md —— SWA 优化、KV cache 公式、Ollama/vLLM/llama.cpp/MLX 全景
  • local: 2026-05-31-ai-infrastructure.md —— 原始研究笔记
  • LMSYS 博客 —— SGLang / RadixArk $100M 种子、引擎差异化(https://lmsys.org/blog/, 2026-06-28)
  • TechCrunch —— Inferact $150M 种子 @ $800M、Red Hat / Neural Magic(https://techcrunch.com/, 2026-06-28)
  • SiliconANGLE —— 卖卡 vs 卖 token 经济学、微软 GPU 客户结构(https://siliconangle.com/, 2026-06-28)
  • NVIDIA Newsroom —— Dynamo 1.0 GA、分离式服务、KV-cache 路由(https://nvidianews.nvidia.com/, 2026-06-28)
  • Baseten 博客 —— Dynamo 采用(https://www.baseten.co/blog/, 2026-06-28)
  • Fireworks 博客 —— FireAttention 专有引擎(https://fireworks.ai/blog, 2026-06-28)