Company
Inferact
vLLM 核心团队成立的商业化公司,把全球部署最广的开源推理引擎做成企业级托管平台。
1. 核心产品 / 服务
- 底层引擎 = vLLM(开源继续维护,独立项目身份不变)。Inferact 在其上构建商业版本:自动扩缩、多节点编排、故障恢复 [1]
- 规划中的 paid serverless vLLM:自动 provisioning、更新、运维,含 observability / troubleshooting / disaster recovery,预计基于 Kubernetes 部署 [3]
- 企业级硬件优化 kernels:针对特定 GPU 配置的专有 kernel(详见 gpu-kernel-optimization),目标 SLA 客户
- 关键 vLLM 技术能力:PagedAttention 内存管理、Tensor Parallelism(70B+ 模型单实例多卡)、multi-step scheduling(vLLM 0.6.0+)、支持 Llama / DeepSeek / Mistral / Gemma / Moonshot Kimi 等主流模型
- vLLM 的部署规模:a16z/Inferact 自述全球同时运行的 GPU 上跑 vLLM 约 400,000+ 张 [3]
2. 服务对象 & 痛点
目标客户:自己不愿运维 GPU 集群、又需要 SLA 保障的企业 —— 金融、医疗、政府、AI app 公司。
核心痛点:
- 开源 vLLM 自己跑要解决 multi-node orchestration、scaling、监控、灾备
- 企业要 SOC2、私有云部署、安全模型管理
- 需要保证 throughput / latency 的 SLA,开源版本没有任何责任承诺
- 新硬件(非 H100/H200)适配工作量大
vLLM 的"universal inference layer"思路:和现有 inference provider 共存而非取代,做底层标准化软件层 [1]。
3. 竞争格局
| 对手 | 路线差异 |
|---|---|
| radixark (SGLang 商业化) | 直接对标。SGLang H100 ~16,200 tok/s 高于 vLLM ~12,500 tok/s;估值 $400M vs Inferact $800M;GitHub stars 16K vs 65K |
| together-ai | 自研引擎 + 托管 API,已成熟商业化(早 Inferact 2-3 年) |
| Fireworks AI | 闭源自研引擎,估值约 $10B,2022 年成立,已有大量企业客户 |
| Anyscale | Ray 生态商业化,多 workload(不止推理),Ion Stoica 重叠创始 |
| Modal / Replicate | serverless GPU 推理,更偏开发者侧 |
| runpod / Lambda Labs / Nebius | 纯 GPU 算力出租,没有 inference engine 层 |
Inferact 的差异化:唯一直接绑定全球部署量第一的开源推理引擎。所有大厂模型(Meta Llama、Google Gemma、Mistral、Moonshot、DeepSeek 等)发布时官方推荐 vLLM → Inferact 是天然 default。
4. 独特观察
- vLLM 团队商业化前,DeepSeek 战略性选择把自己的推理优化合并回 vLLM 而不是搞独立商业化 —— 印证 vLLM 在生态层面的"统治级"位置。这给 Inferact 上市前已锁定一个"事实标准"渠道。
- 估值 $800M / 种子轮 $150M 的 ratio (~5.3x) 在 2026 年 AI infra 种子里属于偏高,反映投资人对 vLLM 装机量(40 万 GPU)的开源 → 商业转化叙事买单。
- 真正风险不在技术,在 enterprise GTM:vLLM 团队是 Berkeley 学术派,没有 Together AI / Fireworks 那种企业销售肌肉。Ion Stoica 的存在(Databricks/Anyscale 共同创始)是该团队最强的"商业化保险"。
- 和 radixark 之争更像 vLLM vs SGLang 生态战的延伸:性能 SGLang 略优,生态广度 vLLM 压倒。
5. 财务 / 融资
| 轮次 | 时间 | 金额 | 估值 | 投资方 |
|---|---|---|---|---|
| Seed | 2026-01 公布(2025-11 成立) | $150M | $800M post | a16z + Lightspeed Venture Partners 共同领投;Sequoia Capital、Altimeter Capital、Redpoint Ventures、ZhenFund 跟投 [2][4] |
收入模式:
- 企业级托管 vLLM 推理(按调用量 / 订阅)
- SLA 商业支持(金融、医疗、政府)
- 硬件厂商适配付费(让新芯片快速进 vLLM 生态)
vLLM 开源继续免费 → 用户增长 → 部分自然过渡到付费托管。
6. 关联人 & 公司
创始团队
- Simon Mo — CEO,UC Berkeley PhD,vLLM 核心维护者
- Woosuk Kwon — co-founder,vLLM 项目发起人,Berkeley PhD(Ion Stoica 学生)
- Kaichao You(游凯超) — co-founder,清华特奖得主,vLLM 核心 contributor
- Roger Wang — co-founder
- Joseph Gonzalez — co-founder,UC Berkeley 教授
- Ion Stoica — co-founder,UC Berkeley 教授,Databricks / Anyscale 共同创始人
投资方:a16z、Lightspeed Venture Partners、Sequoia Capital、Altimeter Capital、Redpoint Ventures、ZhenFund
生态 / 竞争
- 直接竞争:radixark
- 邻接生态:together-ai、openrouter、runpod
- 模型层用户(vLLM 上游):deepseek、kimi
- 相关 module:ai-inference-engines、gpu-kernel-optimization
Sources
- [1] a16z 官方公告 Investing in Inferact — https://a16z.com/announcement/investing-in-inferact/ (2026-05-09)
- [2] Bloomberg, Inferact Raises $150 Million in Seed Funding Led by Andreessen Horowitz — 2026-01-22 (2026-05-09)
- [3] SiliconANGLE, Inferact launches with $150M in funding to commercialize vLLM — 2026-01-22 (2026-05-09)
- [4] TechCrunch, Inference startup Inferact lands $150M to commercialize vLLM — 2026-01-22 (2026-05-09)
- local:
raw/daily_log-2026-04-08.md(Jimmy 自己 2026-04-07 的 OpenClaw 调研笔记)
Last compiled: 2026-05-09