Company

DeepInfra

极简定价、菜单极广的 budget 级 3P 推理 — 同等开源模型常常是市场最低价区间的玩家。

1. 核心产品 / 服务

  • Serverless Token API:上百个开源模型一键调用 — Llama 3 全家族、Qwen2.5、Mistral、Mixtral、DeepSeek V3 / R1、Gemma、Phi、whisper、bge embeddings、SDXL、FLUX 等。
  • Dedicated Deployments:按 GPU-hour 卖,A100 / H100 / H200,客户独占。
  • Embedding & Vision API:在文本 LLM 之外覆盖 embeddings / image gen / TTS / STT,少见的 "all-in-one" 开源模型仓。
  • OpenAI 兼容 endpoint:直接 drop-in 替换 OpenAI SDK。
  • 公司位于 Palo Alto,团队 ex-IMO / 系统出身的工程师为主,非典型 VC-funded 大手笔玩家。

2. 服务对象 & 痛点

  • 价格敏感的开发者 / 中小 SaaS:把 OpenAI 调用迁到 Llama 70B,省 5-10×,DeepInfra 是市场最低价候选。
  • 跑 batch / 离线 pipeline 的团队:embeddings 大批量、长文档 summarization — 单价决定项目能不能做。
  • 痛点:自建 vLLM 集群门槛高、其他 3P 价格仍然偏贵;DeepInfra 卡在"最低价 + 菜单宽"的细分位。
  • Trade-off:SLA / latency 不如 Together、Fireworks、Groq;高峰期 rate limit 紧。适合"价格优先、SLA 次要"的工作负载。

3. 竞争格局

Competitor Positioning Vs. DeepInfra
together-ai 自研 kernel + GPU 集群 Together 性能 / 企业产品深度强;DeepInfra 价格更低
fireworks-ai FireAttention + compound AI Fireworks 偏中高端
Replicate image / dev API Replicate 偏开发者实验、按秒计费;DeepInfra 偏 token 计费、价更低
OpenRouter 聚合器路由 OpenRouter 把 DeepInfra 当 upstream 之一
Hugging Face Inference Endpoints 模型仓自带托管 HF 走 dedicated 多;DeepInfra 走 serverless 多

差异化:价位(最低价区间)+ 菜单宽度(embeddings / image / audio 全包)+ OpenAI 兼容。是 openrouter 上常出现的 cheapest provider,OpenRouter 流量分配里份额可观。

4. 独特观察

  • Per-token 定价(serverless,2026-05 公开口径):Llama 3.1 8B $0.04 input + $0.04 output / M(即 ~$0.04/M blended,是市场地板价);Llama 3.1 70B ~$0.23 input + $0.40 output / M(blended ~$0.30/M);Llama 3.1 405B ~$0.80 input + $0.80 output / M;DeepSeek V3 ~$0.49/M blended;Qwen2.5 72B ~$0.13 + $0.39 / M [1]。Section 4 prompt 中的 "$0.20/M Llama" 在 8B 上是过高、在 70B 上是接近、在 405B 上是过低 — 严格说是"不同尺寸下的低价区间"。
  • vs 1P 价差:Llama 3.1 70B @ $0.30/M blended vs GPT-4o blended ~$10/M → **33× 价差**。当任务可以 tolerate Llama 70B 输出质量,DeepInfra 是"花一份 GPT 的钱跑 30 份 Llama"的极端经济学位。
  • vs 同行:DeepInfra Llama 70B ~$0.30/M < Together / Fireworks ~$0.88/M < Groq blended ~$0.70/M(但 Groq 快 5×)。说明 3P 已经清楚分层:speed-tier(Groq)/ premium-tier(Fireworks, Together)/ budget-tier(DeepInfra)。
  • 推理引擎:未公开宣称自研引擎;从 throughput / latency 表现及岗位描述看 vLLM 为主 + 自家 patch。差异化在 ops + 极致 batching 而非 kernel 层。
  • 算力来源:H100 / H200 多来自 nebius / coreweave / 自有数据中心 mix,自报有部分自管 colo(保守路线,capex 不重)。
  • Take rate:行业估算 budget tier 毛利薄(10-25%),靠 batching 密度 + 长尾 embeddings 流量补量。和 OpenRouter 上"价格战"耦合 — 一旦 OpenRouter 把 DeepInfra 显示为 cheapest 就吸量。
  • 资本模型:少见的 未披露大额 VC 融资 但盈利运营 — 行业暗暗的"小而精"案例。多数同行从 VC 融数亿美金;DeepInfra 偏 bootstrap / 小额融资。
  • 风险:上游 GPU 涨价 + token 单价持续探底,毛利继续被挤;如果 OpenRouter 成为绝对入口,DeepInfra 议价权下降。

5. 财务 / 融资

  • 创立: 2022 年(Palo Alto)
  • 融资: 公开记录较少;Crunchbase 显示 seed / pre-seed 数百万级,未披露大额 Series A/B;行业认为可能 bootstrapped + 小额 strategic 投资者 [3]
  • 客户: 大量 long-tail dev + 通过 OpenRouter 来的 indirect 流量;未披露具体 ARR / token 量

注:DeepInfra 是本批 10 家中财务最不透明的;如有新一轮披露应更新。

6. People & Relationships

  • Founder / CEO: Nikola Borisov — ex-IMO / 早期 Google / Slashdot 工程师背景;team 以系统 / GPU / 编译器工程师为主。
  • Investors: 未披露主要 VC(少数 strategic / angel)。
  • Partners: openrouter(最大 indirect 流量入口)、Hugging Face(模型层同步)。
  • Competes with: together-ai, fireworks-ai, Replicate, groq (在 tier 下沉时)。
  • Hosts models from: Meta (Llama), deepseek, Mistral, Alibaba (Qwen), Google (Gemma), Black Forest Labs (FLUX), Stability AI (SDXL)。

Sources

Last compiled: 2026-05-10