Company

Replicate

把任何开源模型(图像、视频、语音、LLM)一键变成 HTTP API;按 GPU-second 计费的 dev-first 推理平台。

1. 核心产品 / 服务

Replicate 是 3P 推理里 最 dev-first 的玩家,卖点是开发者体验 + 模型菜单宽度:

  • Cog 框架:开源工具(Replicate 维护),把任意 ML 模型打包成可托管的容器;任何人 push 模型到 Replicate 就拿到一个 HTTP API。是平台的护城河 — 大量长尾 image / video / audio 模型作者用 Cog 发模型,Replicate 顺势成为聚合站。
  • Run on Replicate:使用别人发的公开模型。菜单含 SDXL、FLUX、Stable Video Diffusion、Whisper、Llama 3、Llava、CLIP、各种社区微调模型 —— 万级别模型量。
  • Deployments:私有 / dedicated 部署,独享 GPU pool,避开 cold-start。
  • 计费按 GPU-second(不是 per-token)—— 这是 Replicate 与其他 3P 区别的根本。LLM 上 token 计费也存在但非主轴。
  • 目标用户场景:图像 / 视频生成 prototyping、indie 开发者、社区微调展示、需要"一段代码就能调任何模型"的场景。

2. 服务对象 & 痛点

  • Indie / 早期开发者 / 周末项目:5 行 Python / curl 调用任何 SOTA 开源模型,不必 own GPU、不必跑 inference 栈。
  • 图像 / 视频 / 音频生产 pipeline:图像类模型生态在 Replicate 上最丰富,比 token-only 平台领先一代。
  • 痛点:自托管 SDXL / FLUX 需要 A100 / H100 + 预热模型 + 优化 latency;Replicate 把这些藏到 API 后面。
  • vs 自家 GPU:少量调用 Replicate 经济;大流量稳态长跑(每月数百美金以上)self-host 更便宜 —— 但许多用户从未到那个临界点。

3. 竞争格局

Competitor Positioning Vs. Replicate
modal serverless GPU compute Modal 是 raw 函数 + GPU;Replicate 是托管模型库 + API;Modal 更灵活、Replicate 更便携
fireworks-ai / together-ai LLM token API 两者主打 LLM;Replicate 主打 image/video + 长尾
deepinfra budget LLM API 价位竞争弱(Replicate 不主打 LLM 价位)
Hugging Face Inference Endpoints model hub + 托管 HF 模型仓更大;Replicate API UX + Cog 工具体验更好
fal.ai 图像 / 视频生成专门 直接竞争 image / video tier;fal.ai 更快但模型菜单 narrow
runpod raw GPU 出租 RunPod 不做 model hosting 抽象;Replicate 是上层产品

差异化:Cog 工具链 + 模型生态社区 + GPU-second 计费 + 最低门槛 dev UX

4. 独特观察

  • Per-token 定价(LLM,2026-05):Llama 3 70B ~$0.65/M input + $2.75/M output(blended ~$1.5/M);Llama 3 8B ~$0.05 input + $0.25 output / M;不少 LLM 是按 token 包装但底层仍按 GPU-second。LLM 价位中等偏贵,不是 Replicate 卖点。
  • GPU-second 计费:Nvidia A100 (80GB) ~$0.001400/s;Nvidia H100 ~$0.001525/s;T4 ~$0.000225/s [1]。一个 SDXL 生图通常 ~3-5 秒 → ~$0.005-0.008/张。
  • vs 1P 价差(LLM):Llama 3 70B blended ~$1.5/M vs GPT-4o ~$10/M → ~6× 价差。但 vs DeepInfra 的 Llama 70B ~$0.30/M → Replicate 贵 5×。说明 Replicate 在 LLM tier 不参与 token 价格战
  • vs 1P 价差(image / video):FLUX-1.1-pro ~$0.04/img on Replicate vs MJ subscription ~$10/月 200 images — 算单图 ~$0.05;Replicate 与 fal.ai / FLUX 官方 API 持平 —— 媒体生成是 Replicate 真正核心战场。
  • 推理引擎:每个模型自己带(Cog 容器内随作者)—— Replicate 平台不强制统一 engine。所以 Replicate 是 "调度层 + 容器编排" 公司,不是引擎公司。这与 Together / Fireworks 路线本质不同。
  • 算力来源:从 runpod / coreweave / GCP 等 L2 hyperscaler 租 GPU;不自有数据中心。take rate 是 (GPU-second 售价 - 上游 rental) / 售价;行业估算 30-40%。
  • 战略 trade-off:Cog + 社区模式让长尾覆盖无人能比,但任何按 token 卖的模型上 Replicate 都不便宜——因为打包到 Cog 容器后 cold-start + per-call overhead 高,单位 token 成本结构差。所以 Replicate 在 LLM 的份额一直在被 Together / Fireworks / DeepInfra 蚕食,但在 image / video 仍稳。
  • 资本模型:Y Combinator + a16z + Sequoia / NVentures 加持,估值约 $400M(2024 报道)—— 远低于 Together、Fireworks、Groq。反映"dev tool / 模型聚合"vs"重资本推理基础设施"市场对其的不同定价。

5. 财务 / 融资

Round Date Amount Valuation Lead
Seed 2020 $2.4M Y Combinator
Series A 2022 $17.8M Andreessen Horowitz
Series B 2023-12 $40M ~$350M post Andreessen Horowitz [3]
Series C (报道) 2024-12 ~$50M ~$500M post a16z 续投
  • 创立:2019 年
  • 总融资:~$120M
  • 公开口径:百万级月活开发者;具体 ARR 未披露

6. People & Relationships

  • Co-founders: Ben Firshman (CEO, ex-Docker Compose 维护者) + Andreas Jansson (ex-Spotify)。
  • Investors: a16z, Sequoia, Y Combinator, NVentures (NVIDIA), HOF Capital。
  • Partners: Black Forest Labs (FLUX 早期独家发布), Stability AI, Meta (Llama)。
  • Competes with: modal, fal.ai, Hugging Face Inference Endpoints, fireworks-ai / together-ai (在 LLM tier)。
  • Hosts models from: 数千个社区作者 + Black Forest Labs, Meta, Mistral, Stability AI, OpenAI Whisper。

Sources

Last compiled: 2026-05-10