Company

Fireworks AI

闭源自研 FireAttention 推理引擎的 3P 推理平台,主打 enterprise compound AI,估值已破百亿。

1. 核心产品 / 服务

Fireworks 的产品矩阵围绕一条主线:用自研推理引擎服务开源模型,按 token 计费

  • Serverless Inference API:100+ 开源模型菜单,含 Llama 3.1/3.3 (8B/70B/405B)、DeepSeek V3 / R1、Qwen2.5、Mistral、Mixtral、Gemma — 按 per-million-token 计费 [1]。
  • On-Demand / Dedicated Deployments:客户独占 GPU,按 GPU-hour 计费,避开 serverless 的多租户排队,适合稳定 QPS / 私有微调权重场景。
  • Fine-Tuning:LoRA + 全量微调,结果可在 serverless 上免额外托管费部署。
  • FireOptimizer / Compound AI:把多模型、多步推理、function calling 编排成 production pipeline 的工具层 — 是 Fireworks 切入企业市场的差异化产品。
  • FireAttention 引擎:自研、闭源,宣称在 FP8 / FP16 下比 vLLM 快 4×(自家测试,含主动 quantization)[5]。

2. 服务对象 & 痛点

  • 企业 AI 团队:不想被 OpenAI / Anthropic API 锁住,但需要 SLA、多区域、私有数据 — Fireworks 提供单一 API 切换上百个开源模型 + 专属集群。
  • 大流量 SaaS / Agent 公司:tokens 月消耗 >10B 时,1P API 价格难承受。Fireworks 在 Llama 70B 等价能力上比 GPT-4o 便宜 ~10×(自家市场素材口径)[4]。
  • 痛点:开源 vLLM 自部署需要 kernel 调优 + 多节点编排 + autoscaling;Fireworks 把这些层层抽象为单一 API,并保留 dedicated 选项给需要 isolation 的客户。

3. 竞争格局

Competitor Positioning Vs. Fireworks
together-ai 自研 Kernel Collection(Tri Dao),serverless + GPU clusters 直接对手;Together 模型菜单更大、有 1000-GPU 集群产品;Fireworks compound AI / agent 编排更深
inferact vLLM 商业化,开源生态绑定 Inferact 是开源派;Fireworks 闭源引擎自己掌控优化路径
radixark SGLang 商业化 同样是引擎派对手;Fireworks 更"产品化"
Groq 自研 LPU 硬件 不同维度竞争(硬件 vs 软件)
DeepInfra 极低价 serverless DeepInfra 价格更低但企业产品弱;Fireworks 更高端
AWS Bedrock 云厂托管 Bedrock 综合分发胜,Fireworks 性能 / 引擎深度胜

差异化:FireAttention 引擎 + Compound AI 编排 是 Fireworks 二元卖点。同行多在拼速度 / 价格,Fireworks 把"production-ready agent / function-calling pipeline"打包卖给企业。

4. 独特观察

  • Per-token 定价(serverless,2026-05 公开口径):Llama 3.1 8B ~ $0.20/M tokens;Llama 3.1 70B ~ $0.90/M(input/output blended);Llama 3.1 405B ~ $3/M;DeepSeek V3 ~ $0.90/M;Qwen2.5 72B ~ $0.90/M [1]。
  • vs 1P 价差:Llama 3.1 70B @ ~$0.90/M vs GPT-4o @ ~$5/M input + $15/M output → blended ~$10/M,价差 ~10×。但能力非完全对等:Llama 70B 通用 reasoning 仍落后 GPT-4o,trade-off 成立条件是 task 容忍度高。
  • vs Together:同等 Llama 70B 双方均 ~$0.88-0.90/M,价格已贴脸;竞争点不在价不在量在引擎效率与企业产品深度。
  • 推理引擎:闭源自研 FireAttention(不是 vLLM / SGLang)。意味着每个新硬件 / 新模型架构的适配工作 Fireworks 必须 100% 自己做 — 是负担也是护城河。
  • 算力来源:不自建 L1,主要从 coreweave / Oracle / GCP 等 L2 hyperscaler 租 H100 / H200,自己做 capacity 调度和 kernel 层优化。take rate ≈ (token 售价 - GPU rental 折算) / token 售价;公开未披露但行业估算 serverless 毛利 30-50%,dedicated 偏低。
  • Compound AI 是 hedge:如果未来开源模型与闭源模型差距收窄、token 价格战恶化(pure inference 商品化),Fireworks 想在"agent / pipeline 工具层"另起一炉灶 — 类似 Snowflake 早期 cloud DW 商品化时往 data app 平台靠的剧本。

5. 财务 / 融资

Round Date Amount Valuation Lead
Seed 2022 Sequoia
Series A 2023-07 $25M Benchmark
Series B 2024-07 $52M $552M post Sequoia [2]
Series C 2025-07 (报道) ~$200M ~$5.5B 多家成长基金(Reuters 报道)[3]
  • 创立:2022 年(Meta 前 PyTorch 团队成员出走)
  • 总融资估算:~$300M+
  • 用户口径:自报"上千家企业客户"(含 DoorDash、Quora 等公开 case),未披露 ARR

注:Section 4 提示中"$10B val" 与 Reuters 报道的 ~$5.5B(2025-07)有出入;本页采用有 Reuters 报道 anchor 的 $5.5B;如有 2026 新一轮把估值推到 $10B 应以新闻为准更新。

6. People & Relationships

  • CEO / Founder: Lin Qiao — 前 Meta PyTorch 团队负责人,PyTorch Distributed / Inference 的关键人物之一;Fireworks 的"自研引擎"叙事很大程度建立在 PyTorch alumni 网络上。
  • Investors: Sequoia, Benchmark, NVIDIA, AMD, MongoDB Ventures (战略); Databricks Ventures (报道)。
  • Competes with: together-ai, inferact, radixark, DeepInfra, Groq, Anyscale。
  • Partners with: NVIDIA (GPU + 早期硬件), AMD MI300X 适配, MongoDB (vector 集成)。
  • Hosts models from: Meta (Llama), deepseek, Mistral, Alibaba (Qwen), Google (Gemma)。

Sources

Last compiled: 2026-05-10