Company

Inferact

vLLM 核心团队成立的商业化公司,把全球部署最广的开源推理引擎做成企业级托管平台。

1. 核心产品 / 服务

  • 底层引擎 = vLLM(开源继续维护,独立项目身份不变)。Inferact 在其上构建商业版本:自动扩缩、多节点编排、故障恢复 [1]
  • 规划中的 paid serverless vLLM:自动 provisioning、更新、运维,含 observability / troubleshooting / disaster recovery,预计基于 Kubernetes 部署 [3]
  • 企业级硬件优化 kernels:针对特定 GPU 配置的专有 kernel(详见 gpu-kernel-optimization),目标 SLA 客户
  • 关键 vLLM 技术能力:PagedAttention 内存管理、Tensor Parallelism(70B+ 模型单实例多卡)、multi-step scheduling(vLLM 0.6.0+)、支持 Llama / DeepSeek / Mistral / Gemma / Moonshot Kimi 等主流模型
  • vLLM 的部署规模:a16z/Inferact 自述全球同时运行的 GPU 上跑 vLLM 约 400,000+ 张 [3]

2. 服务对象 & 痛点

目标客户:自己不愿运维 GPU 集群、又需要 SLA 保障的企业 —— 金融、医疗、政府、AI app 公司。

核心痛点:

  • 开源 vLLM 自己跑要解决 multi-node orchestration、scaling、监控、灾备
  • 企业要 SOC2、私有云部署、安全模型管理
  • 需要保证 throughput / latency 的 SLA,开源版本没有任何责任承诺
  • 新硬件(非 H100/H200)适配工作量大

vLLM 的"universal inference layer"思路:和现有 inference provider 共存而非取代,做底层标准化软件层 [1]。

3. 竞争格局

对手 路线差异
radixark (SGLang 商业化) 直接对标。SGLang H100 ~16,200 tok/s 高于 vLLM ~12,500 tok/s;估值 $400M vs Inferact $800M;GitHub stars 16K vs 65K
together-ai 自研引擎 + 托管 API,已成熟商业化(早 Inferact 2-3 年)
Fireworks AI 闭源自研引擎,估值约 $10B,2022 年成立,已有大量企业客户
Anyscale Ray 生态商业化,多 workload(不止推理),Ion Stoica 重叠创始
Modal / Replicate serverless GPU 推理,更偏开发者侧
runpod / Lambda Labs / Nebius 纯 GPU 算力出租,没有 inference engine 层

Inferact 的差异化:唯一直接绑定全球部署量第一的开源推理引擎。所有大厂模型(Meta Llama、Google Gemma、Mistral、Moonshot、DeepSeek 等)发布时官方推荐 vLLM → Inferact 是天然 default。

详见 ai-inference-engines

4. 独特观察

  • vLLM 团队商业化前,DeepSeek 战略性选择把自己的推理优化合并回 vLLM 而不是搞独立商业化 —— 印证 vLLM 在生态层面的"统治级"位置。这给 Inferact 上市前已锁定一个"事实标准"渠道。
  • 估值 $800M / 种子轮 $150M 的 ratio (~5.3x) 在 2026 年 AI infra 种子里属于偏高,反映投资人对 vLLM 装机量(40 万 GPU)的开源 → 商业转化叙事买单。
  • 真正风险不在技术,在 enterprise GTM:vLLM 团队是 Berkeley 学术派,没有 Together AI / Fireworks 那种企业销售肌肉。Ion Stoica 的存在(Databricks/Anyscale 共同创始)是该团队最强的"商业化保险"。
  • radixark 之争更像 vLLM vs SGLang 生态战的延伸:性能 SGLang 略优,生态广度 vLLM 压倒。

5. 财务 / 融资

轮次 时间 金额 估值 投资方
Seed 2026-01 公布(2025-11 成立) $150M $800M post a16z + Lightspeed Venture Partners 共同领投;Sequoia Capital、Altimeter Capital、Redpoint Ventures、ZhenFund 跟投 [2][4]

收入模式:

  1. 企业级托管 vLLM 推理(按调用量 / 订阅)
  2. SLA 商业支持(金融、医疗、政府)
  3. 硬件厂商适配付费(让新芯片快速进 vLLM 生态)

vLLM 开源继续免费 → 用户增长 → 部分自然过渡到付费托管。

6. 关联人 & 公司

创始团队

  • Simon Mo — CEO,UC Berkeley PhD,vLLM 核心维护者
  • Woosuk Kwon — co-founder,vLLM 项目发起人,Berkeley PhD(Ion Stoica 学生)
  • Kaichao You(游凯超) — co-founder,清华特奖得主,vLLM 核心 contributor
  • Roger Wang — co-founder
  • Joseph Gonzalez — co-founder,UC Berkeley 教授
  • Ion Stoica — co-founder,UC Berkeley 教授,Databricks / Anyscale 共同创始人

投资方:a16z、Lightspeed Venture Partners、Sequoia Capital、Altimeter Capital、Redpoint Ventures、ZhenFund

生态 / 竞争


Sources

  • [1] a16z 官方公告 Investing in Inferacthttps://a16z.com/announcement/investing-in-inferact/ (2026-05-09)
  • [2] Bloomberg, Inferact Raises $150 Million in Seed Funding Led by Andreessen Horowitz — 2026-01-22 (2026-05-09)
  • [3] SiliconANGLE, Inferact launches with $150M in funding to commercialize vLLM — 2026-01-22 (2026-05-09)
  • [4] TechCrunch, Inference startup Inferact lands $150M to commercialize vLLM — 2026-01-22 (2026-05-09)
  • local: raw/daily_log-2026-04-08.md(Jimmy 自己 2026-04-07 的 OpenClaw 调研笔记)
Last compiled: 2026-05-09