Company
Together AI
面向开源模型推理、微调和专属 NVIDIA GPU 集群的 AI 原生云 —— 围绕 FlashAttention 作者 Tri Dao 的 Together Kernel Collection 构建。
1. 核心产品 / 服务
同一平台上的三条产品线:
- Together Inference —— 面向 200+ 开源 LLM(Llama、Qwen、Mistral、DeepSeek 等)的 serverless API,按 token 定价。声称在要求高的开源模型上输出速度第一,通过 FlashAttention-4 kernel、融合 MoE kernel 和"实际上无损"的 FP8/FP4 量化,实现最高 2× 更快的 serverless 推理 [1]。
- Together Fine-Tuning —— 在开源权重上做完整微调加 LoRA,客户保留权重。瞄准生产工作负载而非仅实验。
- Together GPU Clusters —— 两档:Instant GPU Clusters(自助,最多 64 NVIDIA Hopper GPU,几分钟内通过 console 启动,2025 年 9 月 GA)和 Dedicated GPU Clusters(64–1,000 GPU,自定义配置,支持 Skypilot/Terraform IaC)。在 GTC 2025 宣布扩展 Blackwell(B200/GB200)部署 [2]。
核心技术护城河是首席科学家 Tri Dao(FlashAttention 作者)主导的 Together Kernel Collection —— 为注意力、MoE 路由和低位量化的硬件感知 kernel。
2. 服务对象 & 痛点
- 开源优先的 AI 创业公司与企业,不想被闭源 API 厂商(OpenAI/Anthropic)锁定,想要 Llama/Qwen/DeepSeek 级别的质量。
- 解决的痛点:内部托管开源模型需要 GPU 采购、kernel 调优、自动扩缩、评估 —— Together 吸收这些。定价定位为同类 Llama-3 比 GPT-4 便宜约 11× [3]。
- 突发训练 / 微调:需要 64–1000 GPU 数周但不想承诺 AWS/Azure 预留容量的客户。
3. 竞争格局
| 竞争对手 | 定位 | 相对 Together |
|---|---|---|
| Fireworks AI | 按 token 定价的推理,FireAttention 引擎 | 直接竞争对手;Fireworks 在某些工作负载上声称更低延迟,Together 模型目录更广 + GPU 集群档 |
| Anyscale | Ray 原生、RayTurbo、企业治理 | Anyscale 更偏"基建框架",Together 更偏"API 产品" |
| Modal | 商品级 GPU 主机,按秒计费 | Modal = 面向开发者的裸金属控制;Together = 托管推理 + 训练栈 |
| runpod | 按分钟 GPU 租赁,广泛加速器菜单 | RunPod 是裸 GPU;Together 加上推理引擎 + 微调 UX |
| lambda-labs | 训练优化的 GPU 云 | Lambda 更偏训练/研究,Together 覆盖完整推理→训练循环 |
| coreweave | 超大规模 GPU IaaS,NVIDIA 对齐 | CoreWeave 是批发 GPU 算力(常是 Together 底层供应级同侪);Together 在上面一层作为托管 AI 平台 |
| openrouter | 跨厂商的聚合器/路由器 | OpenRouter 把流量路由到 Together(和其他);更多是互补而非竞争 |
差异化:Tri Dao 的 kernel 工作 + 唯一在同一 console 下同时提供 serverless token 和专属 1000-GPU 集群的玩家。
4. 独立观察
- Tri Dao 招聘是技术故事的承重件 —— FlashAttention 是所有现代推理栈的基础,所以"我们先出 kernel"对比 Fireworks/Anyscale 是可信的护城河叙事。
- 押注开源模型保持足够竞争力,使企业想要中立托管方。若前沿闭源模型(GPT-5、Claude 5)持续拉大领先而开源模型停滞,Together 的 TAM 会压缩。deepseek / Llama / Qwen 的持续强势是生存性的。
- 介于 coreweave(批发 GPU)和 OpenAI/Anthropic(闭源 API)之间的战略定位 —— Together 是"开源 AI 推理的 Snowflake"宣传。
- 自助 Instant Clusters(2025 年 9 月)是有意义的产品扩张 —— 把 Together 从"API 厂商"推向"面向 GPU 的 Vercel"UX。技术背景见 ai-inference-engines 和 gpu-kernel-optimization。
- 与 NVIDIA 深度合作(NVIDIA 在股东名单,GTC 2025 早期 Blackwell 访问)—— 命运与 NVIDIA 路线图相关。
5. 财务 / 融资
- 创立:2022 年 6 月。
- B 轮(2025 年 2 月):$305M,由 General Catalyst 领投,Prosperity7 联合领投。估值 $3.3B,相对 2024 年 3 月 Salesforce 领投 $106M 轮后的 $1.25B 上涨 >160% [4]。
- 累计融资:截至 2025 年 2 月约 $534M。
- 投资人:General Catalyst、Prosperity7、Salesforce Ventures、NVIDIA、Kleiner Perkins、Coatue、Lux Capital、Greycroft、Emergence、March Capital、SK Telecom、John Chambers、Scott Banister、DAMAC Capital。
- 报告:根据 DCD 报道(2025),正寻求约 $1B 跟投 —— 若关闭将把估值显著推高。
6. People & Relationships
- 创始人 / CEO:Vipul Ved Prakash —— 连续创业者(先前在搜索/数据基建有退出),2022 年 6 月创办 Together。
- 首席科学家:Tri Dao —— FlashAttention 作者,普林斯顿 CS,技术可信度锚点。
- 领投人:General Catalyst、Prosperity7、NVIDIA(战略)。
- 合作方:[openrouter]、NVIDIA(Blackwell 早期访问)。
- 竞争对手:Fireworks AI、Anyscale、Modal、runpod、[lambda-labs]。
- 托管的模型来自:deepseek、Meta(Llama)、Alibaba(Qwen)、Mistral。
Sources
- [1] https://www.together.ai/products (2026-05-09)
- [2] https://siliconangle.com/2025/09/09/exclusive-together-ai-launches-self-service-gpu-infrastructure/ (2026-05-09)
- [3] https://northflank.com/blog/fireworks-ai-vs-together-ai (2026-05-09)
- [4] https://news.crunchbase.com/cloud/together-ai-valuation-jump-general-catalyst-nvda/ (2026-05-09)
- https://www.together.ai/blog/together-ai-announcing-305m-series-b (2026-05-09)
Last compiled: 2026-05-09