Replicate

把任何开源模型（图像、视频、语音、LLM）一键变成 HTTP API；按 GPU-second 计费的 dev-first 推理平台。

1. 核心产品 / 服务

Replicate 是 3P 推理里 最 dev-first 的玩家，卖点是开发者体验 + 模型菜单宽度：

Cog 框架：开源工具（Replicate 维护），把任意 ML 模型打包成可托管的容器；任何人 push 模型到 Replicate 就拿到一个 HTTP API。是平台的护城河 — 大量长尾 image / video / audio 模型作者用 Cog 发模型，Replicate 顺势成为聚合站。
Run on Replicate：使用别人发的公开模型。菜单含 SDXL、FLUX、Stable Video Diffusion、Whisper、Llama 3、Llava、CLIP、各种社区微调模型 —— 万级别模型量。
Deployments：私有 / dedicated 部署，独享 GPU pool，避开 cold-start。
计费：按 GPU-second（不是 per-token）—— 这是 Replicate 与其他 3P 区别的根本。LLM 上 token 计费也存在但非主轴。
目标用户场景：图像 / 视频生成 prototyping、indie 开发者、社区微调展示、需要"一段代码就能调任何模型"的场景。

2. 服务对象 & 痛点

Indie / 早期开发者 / 周末项目：5 行 Python / curl 调用任何 SOTA 开源模型，不必 own GPU、不必跑 inference 栈。
图像 / 视频 / 音频生产 pipeline：图像类模型生态在 Replicate 上最丰富，比 token-only 平台领先一代。
痛点：自托管 SDXL / FLUX 需要 A100 / H100 + 预热模型 + 优化 latency；Replicate 把这些藏到 API 后面。
vs 自家 GPU：少量调用 Replicate 经济；大流量稳态长跑（每月数百美金以上）self-host 更便宜 —— 但许多用户从未到那个临界点。

3. 竞争格局

Competitor	Positioning	Vs. Replicate
modal	serverless GPU compute	Modal 是 raw 函数 + GPU；Replicate 是托管模型库 + API；Modal 更灵活、Replicate 更便携
fireworks-ai / together-ai	LLM token API	两者主打 LLM；Replicate 主打 image/video + 长尾
deepinfra	budget LLM API	价位竞争弱（Replicate 不主打 LLM 价位）
Hugging Face Inference Endpoints	model hub + 托管	HF 模型仓更大；Replicate API UX + Cog 工具体验更好
fal.ai	图像 / 视频生成专门	直接竞争 image / video tier；fal.ai 更快但模型菜单 narrow
runpod	raw GPU 出租	RunPod 不做 model hosting 抽象；Replicate 是上层产品

差异化：Cog 工具链 + 模型生态社区 + GPU-second 计费 + 最低门槛 dev UX。

4. 独特观察

Per-token 定价（LLM，2026-05）：Llama 3 70B ~$0.65/M input + $2.75/M output（blended ~$1.5/M）；Llama 3 8B ~$0.05 input + $0.25 output / M；不少 LLM 是按 token 包装但底层仍按 GPU-second。LLM 价位中等偏贵，不是 Replicate 卖点。
GPU-second 计费：Nvidia A100 (80GB) ~$0.001400/s；Nvidia H100 ~$0.001525/s；T4 ~$0.000225/s [1]。一个 SDXL 生图通常 ~3-5 秒 → ~$0.005-0.008/张。
vs 1P 价差（LLM）：Llama 3 70B blended ~$1.5/M vs GPT-4o ~$10/M → ~6× 价差。但 vs DeepInfra 的 Llama 70B ~$0.30/M → Replicate 贵 5×。说明 Replicate 在 LLM tier 不参与 token 价格战。
vs 1P 价差（image / video）：FLUX-1.1-pro ~$0.04/img on Replicate vs MJ subscription ~$10/月 200 images — 算单图 ~$0.05；Replicate 与 fal.ai / FLUX 官方 API 持平 —— 媒体生成是 Replicate 真正核心战场。
推理引擎：每个模型自己带（Cog 容器内随作者）—— Replicate 平台不强制统一 engine。所以 Replicate 是 "调度层 + 容器编排" 公司，不是引擎公司。这与 Together / Fireworks 路线本质不同。
算力来源：从 runpod / coreweave / GCP 等 L2 hyperscaler 租 GPU；不自有数据中心。take rate 是 (GPU-second 售价 - 上游 rental) / 售价；行业估算 30-40%。
战略 trade-off：Cog + 社区模式让长尾覆盖无人能比，但任何按 token 卖的模型上 Replicate 都不便宜——因为打包到 Cog 容器后 cold-start + per-call overhead 高，单位 token 成本结构差。所以 Replicate 在 LLM 的份额一直在被 Together / Fireworks / DeepInfra 蚕食，但在 image / video 仍稳。
资本模型：Y Combinator + a16z + Sequoia / NVentures 加持，估值约 $400M（2024 报道）—— 远低于 Together、Fireworks、Groq。反映"dev tool / 模型聚合"vs"重资本推理基础设施"市场对其的不同定价。

5. 财务 / 融资

Round	Date	Amount	Valuation	Lead
Seed	2020	$2.4M	—	Y Combinator
Series A	2022	$17.8M	—	Andreessen Horowitz
Series B	2023-12	$40M	~$350M post	Andreessen Horowitz [3]
Series C (报道)	2024-12	~$50M	~$500M post	a16z 续投

创立：2019 年
总融资：~$120M
公开口径：百万级月活开发者；具体 ARR 未披露

6. People & Relationships

Co-founders: Ben Firshman (CEO, ex-Docker Compose 维护者) + Andreas Jansson (ex-Spotify)。
Investors: a16z, Sequoia, Y Combinator, NVentures (NVIDIA), HOF Capital。
Partners: Black Forest Labs (FLUX 早期独家发布), Stability AI, Meta (Llama)。
Competes with: modal, fal.ai, Hugging Face Inference Endpoints, fireworks-ai / together-ai (在 LLM tier)。
Hosts models from: 数千个社区作者 + Black Forest Labs, Meta, Mistral, Stability AI, OpenAI Whisper。

Sources

[1] https://replicate.com/pricing (2026-05-10)
[2] https://replicate.com/docs (2026-05-10)
[3] https://www.crunchbase.com/organization/replicate (2026-05-10)
[4] https://replicate.com/blog (2026-05-10)

Replicate

1. 核心产品 / 服务

2. 服务对象 & 痛点

3. 竞争格局

4. 独特观察

5. 财务 / 融资

6. People & Relationships

Related