AI Inference Engine Landscape
相关: inferact、radixark、gpu-kernel-optimization
概览
AI 推理引擎是把训练好的 LLM 模型大规模提供给用户的基建层。市场正围绕三大引擎快速商业化:两个开源领军者 vLLM 和 SGLang,加上 NVIDIA 的 TensorRT-LLM。
这一层正出现结构性转变。引擎之间的原始功能差距已基本抹平——三家都实现了 continuous batching、paged KV cache、FP8——竞争因此同时向上下两个方向迁移。向下,每个主要引擎的作者如今都站在 VC 撑腰的公司背后卖托管服务,威胁纯平台中间商;向上,NVIDIA 推出了一个编排层(Dynamo),把三大引擎当成可互换的后端来调度。而在最底层,价值单位正从"卖 GPU 算力"向"卖 token"迁移:微软已表示约一半 GPU 客户现在通过 AI API 而非预留裸机消费算力(仅 ~20–25% 锁裸机),且推理预计将吞掉 2026 全部 AI 算力的约三分之二 [https://siliconangle.com/ (2026-06-28)]。这一迁移把经济价值拉向引擎与服务层——正是本模块这些玩家所处的位置。
市场结构(2026)
开源领军者
| 项目 | Stars | 商业实体 | 估值 | 领投方 |
|---|---|---|---|---|
| vLLM | ~65K | Inferact | $800M | a16z + Lightspeed |
| SGLang | ~16K | RadixArk | $400M | Accel |
其他玩家
| 引擎 | 开发者 | 备注 |
|---|---|---|
| TensorRT-LLM | NVIDIA | 对 NVIDIA 硬件优化最深,仅限 NVIDIA |
| LMDeploy | 上海 AI Lab(InternLM) | 强 INT4、TurboMind C++ 引擎 |
| Xinference | Xorbits(阿里系) | 中国市场,分布式推理 |
| Fireworks AI | Fireworks Inc. | $10B+ 估值,自有引擎(fireworks-ai) |
引擎作者集体下场(2026)
2026 年最重要的发展是:三大引擎的核心作者如今都站在公司背后,而且在往下游走、卖托管服务,而不只是维护开源项目。这就是"向上游收税"的模式——谁写的引擎,谁对性能理解最深,也最适合把它当托管产品运营。这直接威胁纯平台玩家(fireworks-ai、baseten),它们的护城河本是围绕一个并非自己所写的引擎的运营经验。
| 引擎 | 商业载体 | 轮次 | 估值 | 领投方 |
|---|---|---|---|---|
| vLLM | inferact | $150M 种子(2026/01) | $800M | a16z + Lightspeed [https://techcrunch.com/ (2026-06-28)] |
| SGLang | radixark | $100M 种子(2026/05) | $400M | Accel(NVIDIA、AMD、MediaTek + 天使)[https://lmsys.org/blog/ (2026-06-28)] |
| TensorRT-LLM | NVIDIA(自家) | — | — | — |
inferact 由 vLLM 原作者 Simon Mo 和 Woosuk Kwon 从 UC Berkeley 的 Ion Stoica 实验室创立,计划推出付费 serverless vLLM。另一边,Red Hat 早已收购 vLLM 头号商业贡献者 Neural Magic(2025/01),锚定企业私有云部署——所以 vLLM 生态如今同时有创始人主导的创业公司和 Red Hat 企业线 [https://techcrunch.com/ (2026-06-28)]。radixark 孵化于 LMSYS,拿了三家芯片厂(NVIDIA、AMD、MediaTek)的战略资金,说明硬件一侧希望把 SGLang 调度器在各自芯片上调优 [https://lmsys.org/blog/ (2026-06-28)]。TensorRT-LLM 没有独立公司——它留在 NVIDIA 内部,作为卖更多 GPU 的入口。
编排层:NVIDIA Dynamo
2026 年 3 月(GTC 上 GA),NVIDIA 发布 Dynamo,一个框架无关的"推理操作系统",把 SGLang、vLLM、TensorRT-LLM 一起调度而非与之竞争。其招牌能力是 prefill/decode 分离(把两个阶段拆到不同 GPU)、KV-cache 感知的智能请求路由、以及多级 KV-cache offload——在 Blackwell 级硬件上最高约 7× 吞吐 [https://nvidianews.nvidia.com/ (2026-06-28)]。已被 baseten、fireworks-ai、Deep Infra 采用 [https://www.baseten.co/blog/ (2026-06-28)]。
战略逻辑和 TensorRT-LLM 一致:NVIDIA 把编排软件免费送出,正是因为引擎中立、开放的基建降低了运营大规模集群的门槛,而部署的集群越多,卖出的 GPU 就越多。Dynamo 刻意不在引擎间选边——它把引擎商品化成可互换的后端,垫在一个由 NVIDIA 控制的调度器之下。
本地 / 单用户引擎
与生产级服务引擎不同的一类——它们为在消费级硬件上跑模型而设计:
| 引擎 | 开发者 | 后端 | 备注 |
|---|---|---|---|
| ollama | Ollama Inc. | llama.cpp | 一条命令本地服务、模型注册表,2026-04 融资 $20M |
| llama.cpp | 社区(ggerganov) | 纯 C++/CUDA/Metal | 最大硬件兼容性、GGUF 量化(2-8 bit),无内建注册表 |
| MLX | Apple | Apple 原生 Metal | M 系列 Mac 上最佳每瓦性能,SWA 原生 |
| LM Studio | LM Studio Inc. | llama.cpp | GUI + 模型浏览器,macOS/Windows |
架构关系:Ollama 和 LM Studio 是 llama.cpp 之上的 UX 层;llama.cpp 提供带 GGUF 量化的 C++ 推理后端。MLX 是独立的 Apple 原生栈,在 Apple Silicon 上完全绕过 llama.cpp。生产级多用户服务以 vLLM/SGLang 为标准;本地引擎用于原型和单用户场景。
滑动窗口注意力(SWA)优化
多个模型家族现在用滑动窗口注意力来降低长文本推理时的 KV cache 显存压力:
- Mimo-v2.5(minimax):60 层 SWA,只算 128-token 窗口。长文本 prefill 计算量约等于传统 10 层全局 GQA [local: 2026-05-30-summary.md]。
- Gemma3(Google):SWA 在支持的引擎里自动激活,对用户透明。
- Qwen3(qwen):混合 SWA 架构,对用户透明。
KV Cache 显存公式:2 × L × H_kv × D_h × T × B × bytes——L = 层数,H_kv = KV 注意力头数,D_h = 头维度,T = 序列长度,B = batch size。对 Kimi K2(kimi)这类 1T+ MoE 模型的部署容量规划至关重要。
引擎支持:vLLM、SGLang、llama.cpp/Ollama、MLX 都支持 SWA 模型——该优化是架构级(模型层)的,不是引擎特有。模型用 SWA 时,引擎自动应用滑动窗口,无需用户配置。
DeepSeek 的战略选择
DeepSeek(模型 V3、R1、V3-0324)选择 把优化贡献回 vLLM,而非自建推理引擎。
逻辑:
- DeepSeek 是模型公司,不是基建公司 —— 维护引擎要花一个团队
- vLLM 部署基础最大 —— 贡献 vLLM = DeepSeek 模型触达更多用户
- vLLM 硬件无关 —— 无论用户在什么硬件上,DeepSeek 都受益
AI 实验室官方推荐
| 实验室 | 模型 | 推荐引擎 |
|---|---|---|
| DeepSeek | V3、R1、V3-0324 | SGLang(Day-0) + vLLM |
| Meta | Llama 4 | vLLM + SGLang + TensorRT-LLM |
| Gemma 3/4 | vLLM | |
| Mistral | Mistral Large 3 | vLLM + SGLang |
| Moonshot | Kimi K2、K2.5 | vLLM + SGLang |
关键指标
| 指标 | SGLang | vLLM |
|---|---|---|
| H100 吞吐 | ~16,200 tok/s | ~12,500 tok/s |
| 多 GPU 扩展 | TP + PP + EP | TP + PP |
| MoE 支持 | 是(DeepSeek V3/R1) | 是 |
| FP8 支持 | 部分 | 是(Hopper) |
引擎差异化(2026)
核心功能集(continuous batching、paged KV cache、FP8)三家如今都有了,差异化收窄到几处不同的锋利点:
| 引擎 | 锋利点 | 取舍 |
|---|---|---|
| vLLM | 最广的硬件/模型覆盖;行为可预测、稳定 | 在任一单芯片上未必是原始吞吐冠军 |
| SGLang | RadixAttention 前缀缓存 + 多调用调度;高并发与 MoE 负载占优;新硬件 day-0 支持激进 | 更新、变动更快 |
| TensorRT-LLM | 编译式引擎 → NVIDIA 硬件上原始吞吐最高 | 仅限 NVIDIA;编译步骤带来运营摩擦 |
实用读法:要可移植性和广度选 vLLM,要高并发 / MoE / 新芯片启用选 SGLang,被 NVIDIA 锁定且追求峰值 tokens/sec 时选 TensorRT-LLM。
平台自研引擎的开 vs 闭
自建引擎的平台玩家,在开放程度上分化:
- Fireworks(fireworks-ai)——FireAttention 完全专有、闭源。护城河只有性能本身;什么都不回馈 [https://fireworks.ai/blog (2026-06-28)]。
- together-ai——服务引擎闭源,但底座是 FlashAttention(Tri Dao),它开源且如今是行业标准原语。这是"开源地基 + 闭源变现"的姿态:把积木给整个领域,把组装好的产品留作专有。
这个对比关乎可持续性。纯性能护城河(FireAttention)会随开源引擎追平而侵蚀;"开源地基"姿态(Together 旗下的 FlashAttention)在仍能对集成栈变现的同时,赢得生态善意和定标准的杠杆。
商业模式
所有商业玩家都遵循:开源免费 + 企业托管服务付费
收费的服务:SLA 保障、专属 GPU 集群、商业支持、硬件协同开发。
2026 年的新变化是谁有资格收费。随着引擎作者往下游走(inferact、radixark)、NVIDIA 从上方把引擎选择商品化(Dynamo),被挤的位置是那种既没写引擎、也不拥有芯片的纯平台——它必须在运营上,跟写了它所运行代码的人竞争。从卖 GPU 到卖 token 的价值迁移强化了这一点:利润归于拥有 token 真正被产出的服务/引擎层的那一方。
来源
- Inferact $150M 种子轮报道(Fintool、Pulse2、a16z)
- SGLang GitHub:lmsys-org/sglang
- DeepSeek 官方模型卡
- 来自各种推理测试的 H100 基准数据
- local: 2026-05-30-summary.md —— SWA 优化、KV cache 公式、Ollama/vLLM/llama.cpp/MLX 全景
- local: 2026-05-31-ai-infrastructure.md —— 原始研究笔记
- LMSYS 博客 —— SGLang / RadixArk $100M 种子、引擎差异化(https://lmsys.org/blog/, 2026-06-28)
- TechCrunch —— Inferact $150M 种子 @ $800M、Red Hat / Neural Magic(https://techcrunch.com/, 2026-06-28)
- SiliconANGLE —— 卖卡 vs 卖 token 经济学、微软 GPU 客户结构(https://siliconangle.com/, 2026-06-28)
- NVIDIA Newsroom —— Dynamo 1.0 GA、分离式服务、KV-cache 路由(https://nvidianews.nvidia.com/, 2026-06-28)
- Baseten 博客 —— Dynamo 采用(https://www.baseten.co/blog/, 2026-06-28)
- Fireworks 博客 —— FireAttention 专有引擎(https://fireworks.ai/blog, 2026-06-28)