Company
Replicate
把任何开源模型(图像、视频、语音、LLM)一键变成 HTTP API;按 GPU-second 计费的 dev-first 推理平台。
1. 核心产品 / 服务
Replicate 是 3P 推理里 最 dev-first 的玩家,卖点是开发者体验 + 模型菜单宽度:
- Cog 框架:开源工具(Replicate 维护),把任意 ML 模型打包成可托管的容器;任何人 push 模型到 Replicate 就拿到一个 HTTP API。是平台的护城河 — 大量长尾 image / video / audio 模型作者用 Cog 发模型,Replicate 顺势成为聚合站。
- Run on Replicate:使用别人发的公开模型。菜单含 SDXL、FLUX、Stable Video Diffusion、Whisper、Llama 3、Llava、CLIP、各种社区微调模型 —— 万级别模型量。
- Deployments:私有 / dedicated 部署,独享 GPU pool,避开 cold-start。
- 计费:按 GPU-second(不是 per-token)—— 这是 Replicate 与其他 3P 区别的根本。LLM 上 token 计费也存在但非主轴。
- 目标用户场景:图像 / 视频生成 prototyping、indie 开发者、社区微调展示、需要"一段代码就能调任何模型"的场景。
2. 服务对象 & 痛点
- Indie / 早期开发者 / 周末项目:5 行 Python / curl 调用任何 SOTA 开源模型,不必 own GPU、不必跑 inference 栈。
- 图像 / 视频 / 音频生产 pipeline:图像类模型生态在 Replicate 上最丰富,比 token-only 平台领先一代。
- 痛点:自托管 SDXL / FLUX 需要 A100 / H100 + 预热模型 + 优化 latency;Replicate 把这些藏到 API 后面。
- vs 自家 GPU:少量调用 Replicate 经济;大流量稳态长跑(每月数百美金以上)self-host 更便宜 —— 但许多用户从未到那个临界点。
3. 竞争格局
| Competitor | Positioning | Vs. Replicate |
|---|---|---|
| modal | serverless GPU compute | Modal 是 raw 函数 + GPU;Replicate 是托管模型库 + API;Modal 更灵活、Replicate 更便携 |
| fireworks-ai / together-ai | LLM token API | 两者主打 LLM;Replicate 主打 image/video + 长尾 |
| deepinfra | budget LLM API | 价位竞争弱(Replicate 不主打 LLM 价位) |
| Hugging Face Inference Endpoints | model hub + 托管 | HF 模型仓更大;Replicate API UX + Cog 工具体验更好 |
| fal.ai | 图像 / 视频生成专门 | 直接竞争 image / video tier;fal.ai 更快但模型菜单 narrow |
| runpod | raw GPU 出租 | RunPod 不做 model hosting 抽象;Replicate 是上层产品 |
差异化:Cog 工具链 + 模型生态社区 + GPU-second 计费 + 最低门槛 dev UX。
4. 独特观察
- Per-token 定价(LLM,2026-05):Llama 3 70B ~$0.65/M input + $2.75/M output(blended ~$1.5/M);Llama 3 8B ~$0.05 input + $0.25 output / M;不少 LLM 是按 token 包装但底层仍按 GPU-second。LLM 价位中等偏贵,不是 Replicate 卖点。
- GPU-second 计费:Nvidia A100 (80GB) ~$0.001400/s;Nvidia H100 ~$0.001525/s;T4 ~$0.000225/s [1]。一个 SDXL 生图通常 ~3-5 秒 → ~$0.005-0.008/张。
- vs 1P 价差(LLM):Llama 3 70B blended ~$1.5/M vs GPT-4o ~$10/M → ~6× 价差。但 vs DeepInfra 的 Llama 70B ~$0.30/M → Replicate 贵 5×。说明 Replicate 在 LLM tier 不参与 token 价格战。
- vs 1P 价差(image / video):FLUX-1.1-pro ~$0.04/img on Replicate vs MJ subscription ~$10/月 200 images — 算单图 ~$0.05;Replicate 与 fal.ai / FLUX 官方 API 持平 —— 媒体生成是 Replicate 真正核心战场。
- 推理引擎:每个模型自己带(Cog 容器内随作者)—— Replicate 平台不强制统一 engine。所以 Replicate 是 "调度层 + 容器编排" 公司,不是引擎公司。这与 Together / Fireworks 路线本质不同。
- 算力来源:从 runpod / coreweave / GCP 等 L2 hyperscaler 租 GPU;不自有数据中心。take rate 是 (GPU-second 售价 - 上游 rental) / 售价;行业估算 30-40%。
- 战略 trade-off:Cog + 社区模式让长尾覆盖无人能比,但任何按 token 卖的模型上 Replicate 都不便宜——因为打包到 Cog 容器后 cold-start + per-call overhead 高,单位 token 成本结构差。所以 Replicate 在 LLM 的份额一直在被 Together / Fireworks / DeepInfra 蚕食,但在 image / video 仍稳。
- 资本模型:Y Combinator + a16z + Sequoia / NVentures 加持,估值约 $400M(2024 报道)—— 远低于 Together、Fireworks、Groq。反映"dev tool / 模型聚合"vs"重资本推理基础设施"市场对其的不同定价。
5. 财务 / 融资
| Round | Date | Amount | Valuation | Lead |
|---|---|---|---|---|
| Seed | 2020 | $2.4M | — | Y Combinator |
| Series A | 2022 | $17.8M | — | Andreessen Horowitz |
| Series B | 2023-12 | $40M | ~$350M post | Andreessen Horowitz [3] |
| Series C (报道) | 2024-12 | ~$50M | ~$500M post | a16z 续投 |
- 创立:2019 年
- 总融资:~$120M
- 公开口径:百万级月活开发者;具体 ARR 未披露
6. People & Relationships
- Co-founders: Ben Firshman (CEO, ex-Docker Compose 维护者) + Andreas Jansson (ex-Spotify)。
- Investors: a16z, Sequoia, Y Combinator, NVentures (NVIDIA), HOF Capital。
- Partners: Black Forest Labs (FLUX 早期独家发布), Stability AI, Meta (Llama)。
- Competes with: modal, fal.ai, Hugging Face Inference Endpoints, fireworks-ai / together-ai (在 LLM tier)。
- Hosts models from: 数千个社区作者 + Black Forest Labs, Meta, Mistral, Stability AI, OpenAI Whisper。
Sources
- [1] https://replicate.com/pricing (2026-05-10)
- [2] https://replicate.com/docs (2026-05-10)
- [3] https://www.crunchbase.com/organization/replicate (2026-05-10)
- [4] https://replicate.com/blog (2026-05-10)
Last compiled: 2026-05-10