DeepInfra

极简定价、菜单极广的 budget 级 3P 推理 — 同等开源模型常常是市场最低价区间的玩家。

1. 核心产品 / 服务

Serverless Token API：上百个开源模型一键调用 — Llama 3 全家族、Qwen2.5、Mistral、Mixtral、DeepSeek V3 / R1、Gemma、Phi、whisper、bge embeddings、SDXL、FLUX 等。
Dedicated Deployments：按 GPU-hour 卖，A100 / H100 / H200，客户独占。
Embedding & Vision API：在文本 LLM 之外覆盖 embeddings / image gen / TTS / STT，少见的 "all-in-one" 开源模型仓。
OpenAI 兼容 endpoint：直接 drop-in 替换 OpenAI SDK。
公司位于 Palo Alto，团队 ex-IMO / 系统出身的工程师为主，非典型 VC-funded 大手笔玩家。

2. 服务对象 & 痛点

价格敏感的开发者 / 中小 SaaS：把 OpenAI 调用迁到 Llama 70B，省 5-10×，DeepInfra 是市场最低价候选。
跑 batch / 离线 pipeline 的团队：embeddings 大批量、长文档 summarization — 单价决定项目能不能做。
痛点：自建 vLLM 集群门槛高、其他 3P 价格仍然偏贵；DeepInfra 卡在"最低价 + 菜单宽"的细分位。
Trade-off：SLA / latency 不如 Together、Fireworks、Groq；高峰期 rate limit 紧。适合"价格优先、SLA 次要"的工作负载。

3. 竞争格局

Competitor	Positioning	Vs. DeepInfra
together-ai	自研 kernel + GPU 集群	Together 性能 / 企业产品深度强；DeepInfra 价格更低
fireworks-ai	FireAttention + compound AI	Fireworks 偏中高端
Replicate	image / dev API	Replicate 偏开发者实验、按秒计费；DeepInfra 偏 token 计费、价更低
OpenRouter	聚合器路由	OpenRouter 把 DeepInfra 当 upstream 之一
Hugging Face Inference Endpoints	模型仓自带托管	HF 走 dedicated 多；DeepInfra 走 serverless 多

差异化：价位（最低价区间）+ 菜单宽度（embeddings / image / audio 全包）+ OpenAI 兼容。是 openrouter 上常出现的 cheapest provider，OpenRouter 流量分配里份额可观。

4. 独特观察

Per-token 定价（serverless，2026-05 公开口径）：Llama 3.1 8B $0.04 input + $0.04 output / M（即 ~$0.04/M blended，是市场地板价）；Llama 3.1 70B ~$0.23 input + $0.40 output / M（blended ~$0.30/M）；Llama 3.1 405B ~$0.80 input + $0.80 output / M；DeepSeek V3 ~$0.49/M blended；Qwen2.5 72B ~$0.13 + $0.39 / M [1]。Section 4 prompt 中的 "$0.20/M Llama" 在 8B 上是过高、在 70B 上是接近、在 405B 上是过低 — 严格说是"不同尺寸下的低价区间"。
vs 1P 价差：Llama 3.1 70B @ $0.30/M blended vs GPT-4o blended ~$10/M → **33× 价差**。当任务可以 tolerate Llama 70B 输出质量，DeepInfra 是"花一份 GPT 的钱跑 30 份 Llama"的极端经济学位。
vs 同行：DeepInfra Llama 70B ~$0.30/M < Together / Fireworks ~$0.88/M < Groq blended ~$0.70/M（但 Groq 快 5×）。说明 3P 已经清楚分层：speed-tier（Groq）/ premium-tier（Fireworks, Together）/ budget-tier（DeepInfra）。
推理引擎：未公开宣称自研引擎；从 throughput / latency 表现及岗位描述看 vLLM 为主 + 自家 patch。差异化在 ops + 极致 batching 而非 kernel 层。
算力来源：H100 / H200 多来自 nebius / coreweave / 自有数据中心 mix，自报有部分自管 colo（保守路线，capex 不重）。
Take rate：行业估算 budget tier 毛利薄（10-25%），靠 batching 密度 + 长尾 embeddings 流量补量。和 OpenRouter 上"价格战"耦合 — 一旦 OpenRouter 把 DeepInfra 显示为 cheapest 就吸量。
资本模型：少见的 未披露大额 VC 融资 但盈利运营 — 行业暗暗的"小而精"案例。多数同行从 VC 融数亿美金；DeepInfra 偏 bootstrap / 小额融资。
风险：上游 GPU 涨价 + token 单价持续探底，毛利继续被挤；如果 OpenRouter 成为绝对入口，DeepInfra 议价权下降。

5. 财务 / 融资

创立: 2022 年（Palo Alto）
融资: 公开记录较少；Crunchbase 显示 seed / pre-seed 数百万级，未披露大额 Series A/B；行业认为可能 bootstrapped + 小额 strategic 投资者 [3]
客户: 大量 long-tail dev + 通过 OpenRouter 来的 indirect 流量；未披露具体 ARR / token 量

注：DeepInfra 是本批 10 家中财务最不透明的；如有新一轮披露应更新。

6. People & Relationships

Founder / CEO: Nikola Borisov — ex-IMO / 早期 Google / Slashdot 工程师背景；team 以系统 / GPU / 编译器工程师为主。
Investors: 未披露主要 VC（少数 strategic / angel）。
Partners: openrouter（最大 indirect 流量入口）、Hugging Face（模型层同步）。
Competes with: together-ai, fireworks-ai, Replicate, groq (在 tier 下沉时)。
Hosts models from: Meta (Llama), deepseek, Mistral, Alibaba (Qwen), Google (Gemma), Black Forest Labs (FLUX), Stability AI (SDXL)。

Sources

[1] https://deepinfra.com/pricing (2026-05-10)
[2] https://deepinfra.com/models (2026-05-10)
[3] https://www.crunchbase.com/organization/deepinfra (2026-05-10)
[4] https://artificialanalysis.ai/providers/deepinfra (2026-05-10)

DeepInfra

1. 核心产品 / 服务

2. 服务对象 & 痛点

3. 竞争格局

4. 独特观察

5. 财务 / 融资

6. People & Relationships

Related