Company

Together AI

面向开源模型推理、微调和专属 NVIDIA GPU 集群的 AI 原生云 —— 围绕 FlashAttention 作者 Tri Dao 的 Together Kernel Collection 构建。

1. 核心产品 / 服务

同一平台上的三条产品线:

  • Together Inference —— 面向 200+ 开源 LLM(Llama、Qwen、Mistral、DeepSeek 等)的 serverless API,按 token 定价。声称在要求高的开源模型上输出速度第一,通过 FlashAttention-4 kernel、融合 MoE kernel 和"实际上无损"的 FP8/FP4 量化,实现最高 2× 更快的 serverless 推理 [1]。
  • Together Fine-Tuning —— 在开源权重上做完整微调加 LoRA,客户保留权重。瞄准生产工作负载而非仅实验。
  • Together GPU Clusters —— 两档:Instant GPU Clusters(自助,最多 64 NVIDIA Hopper GPU,几分钟内通过 console 启动,2025 年 9 月 GA)和 Dedicated GPU Clusters(64–1,000 GPU,自定义配置,支持 Skypilot/Terraform IaC)。在 GTC 2025 宣布扩展 Blackwell(B200/GB200)部署 [2]。

核心技术护城河是首席科学家 Tri Dao(FlashAttention 作者)主导的 Together Kernel Collection —— 为注意力、MoE 路由和低位量化的硬件感知 kernel。

2. 服务对象 & 痛点

  • 开源优先的 AI 创业公司与企业,不想被闭源 API 厂商(OpenAI/Anthropic)锁定,想要 Llama/Qwen/DeepSeek 级别的质量。
  • 解决的痛点:内部托管开源模型需要 GPU 采购、kernel 调优、自动扩缩、评估 —— Together 吸收这些。定价定位为同类 Llama-3 比 GPT-4 便宜约 11× [3]。
  • 突发训练 / 微调:需要 64–1000 GPU 数周但不想承诺 AWS/Azure 预留容量的客户。

3. 竞争格局

竞争对手 定位 相对 Together
Fireworks AI 按 token 定价的推理,FireAttention 引擎 直接竞争对手;Fireworks 在某些工作负载上声称更低延迟,Together 模型目录更广 + GPU 集群档
Anyscale Ray 原生、RayTurbo、企业治理 Anyscale 更偏"基建框架",Together 更偏"API 产品"
Modal 商品级 GPU 主机,按秒计费 Modal = 面向开发者的裸金属控制;Together = 托管推理 + 训练栈
runpod 按分钟 GPU 租赁,广泛加速器菜单 RunPod 是裸 GPU;Together 加上推理引擎 + 微调 UX
lambda-labs 训练优化的 GPU 云 Lambda 更偏训练/研究,Together 覆盖完整推理→训练循环
coreweave 超大规模 GPU IaaS,NVIDIA 对齐 CoreWeave 是批发 GPU 算力(常是 Together 底层供应级同侪);Together 在上面一层作为托管 AI 平台
openrouter 跨厂商的聚合器/路由器 OpenRouter 把流量路由到 Together(和其他);更多是互补而非竞争

差异化:Tri Dao 的 kernel 工作 + 唯一在同一 console 下同时提供 serverless token 专属 1000-GPU 集群的玩家。

4. 独立观察

  • Tri Dao 招聘是技术故事的承重件 —— FlashAttention 是所有现代推理栈的基础,所以"我们先出 kernel"对比 Fireworks/Anyscale 是可信的护城河叙事。
  • 押注开源模型保持足够竞争力,使企业想要中立托管方。若前沿闭源模型(GPT-5、Claude 5)持续拉大领先而开源模型停滞,Together 的 TAM 会压缩。deepseek / Llama / Qwen 的持续强势是生存性的。
  • 介于 coreweave(批发 GPU)和 OpenAI/Anthropic(闭源 API)之间的战略定位 —— Together 是"开源 AI 推理的 Snowflake"宣传。
  • 自助 Instant Clusters(2025 年 9 月)是有意义的产品扩张 —— 把 Together 从"API 厂商"推向"面向 GPU 的 Vercel"UX。技术背景见 ai-inference-enginesgpu-kernel-optimization
  • 与 NVIDIA 深度合作(NVIDIA 在股东名单,GTC 2025 早期 Blackwell 访问)—— 命运与 NVIDIA 路线图相关。

5. 财务 / 融资

  • 创立:2022 年 6 月。
  • B 轮(2025 年 2 月):$305M,由 General Catalyst 领投,Prosperity7 联合领投。估值 $3.3B,相对 2024 年 3 月 Salesforce 领投 $106M 轮后的 $1.25B 上涨 >160% [4]。
  • 累计融资:截至 2025 年 2 月约 $534M。
  • 投资人:General Catalyst、Prosperity7、Salesforce Ventures、NVIDIA、Kleiner Perkins、Coatue、Lux Capital、Greycroft、Emergence、March Capital、SK Telecom、John Chambers、Scott Banister、DAMAC Capital。
  • 报告:根据 DCD 报道(2025),正寻求约 $1B 跟投 —— 若关闭将把估值显著推高。

6. People & Relationships

  • 创始人 / CEO:Vipul Ved Prakash —— 连续创业者(先前在搜索/数据基建有退出),2022 年 6 月创办 Together。
  • 首席科学家:Tri Dao —— FlashAttention 作者,普林斯顿 CS,技术可信度锚点。
  • 领投人:General Catalyst、Prosperity7、NVIDIA(战略)。
  • 合作方:[openrouter]、NVIDIA(Blackwell 早期访问)。
  • 竞争对手:Fireworks AI、Anyscale、Modal、runpod[lambda-labs]
  • 托管的模型来自:deepseek、Meta(Llama)、Alibaba(Qwen)、Mistral。

Sources

Last compiled: 2026-05-09