Together AI

面向开源模型推理、微调和专属 NVIDIA GPU 集群的 AI 原生云 —— 围绕 FlashAttention 作者 Tri Dao 的 Together Kernel Collection 构建。

1. 核心产品 / 服务

同一平台上的三条产品线:

Together Inference —— 面向 200+ 开源 LLM(Llama、Qwen、Mistral、DeepSeek 等)的 serverless API,按 token 定价。声称在要求高的开源模型上输出速度第一,通过 FlashAttention-4 kernel、融合 MoE kernel 和"实际上无损"的 FP8/FP4 量化,实现最高 2× 更快的 serverless 推理 [1]。
Together Fine-Tuning —— 在开源权重上做完整微调加 LoRA,客户保留权重。瞄准生产工作负载而非仅实验。
Together GPU Clusters —— 两档:Instant GPU Clusters(自助,最多 64 NVIDIA Hopper GPU,几分钟内通过 console 启动,2025 年 9 月 GA)和 Dedicated GPU Clusters(64–1,000 GPU,自定义配置,支持 Skypilot/Terraform IaC)。在 GTC 2025 宣布扩展 Blackwell(B200/GB200)部署 [2]。

核心技术护城河是首席科学家 Tri Dao(FlashAttention 作者)主导的 Together Kernel Collection —— 为注意力、MoE 路由和低位量化的硬件感知 kernel。

开源优先的 AI 创业公司与企业,不想被闭源 API 厂商(OpenAI/Anthropic)锁定,想要 Llama/Qwen/DeepSeek 级别的质量。
解决的痛点:内部托管开源模型需要 GPU 采购、kernel 调优、自动扩缩、评估 —— Together 吸收这些。定价定位为同类 Llama-3 比 GPT-4 便宜约 11× [3]。
突发训练 / 微调:需要 64–1000 GPU 数周但不想承诺 AWS/Azure 预留容量的客户。

竞争对手	定位	相对 Together
Fireworks AI	按 token 定价的推理,FireAttention 引擎	直接竞争对手;Fireworks 在某些工作负载上声称更低延迟,Together 模型目录更广 + GPU 集群档
Anyscale	Ray 原生、RayTurbo、企业治理	Anyscale 更偏"基建框架",Together 更偏"API 产品"
Modal	商品级 GPU 主机,按秒计费	Modal = 面向开发者的裸金属控制;Together = 托管推理 + 训练栈
runpod	按分钟 GPU 租赁,广泛加速器菜单	RunPod 是裸 GPU;Together 加上推理引擎 + 微调 UX
lambda-labs	训练优化的 GPU 云	Lambda 更偏训练/研究,Together 覆盖完整推理→训练循环
coreweave	超大规模 GPU IaaS,NVIDIA 对齐	CoreWeave 是批发 GPU 算力(常是 Together 底层供应级同侪);Together 在上面一层作为托管 AI 平台
openrouter	跨厂商的聚合器/路由器	OpenRouter 把流量路由到 Together(和其他);更多是互补而非竞争

差异化:Tri Dao 的 kernel 工作 + 唯一在同一 console 下同时提供 serverless token 和专属 1000-GPU 集群的玩家。

Tri Dao 招聘是技术故事的承重件 —— FlashAttention 是所有现代推理栈的基础,所以"我们先出 kernel"对比 Fireworks/Anyscale 是可信的护城河叙事。
押注开源模型保持足够竞争力,使企业想要中立托管方。若前沿闭源模型(GPT-5、Claude 5)持续拉大领先而开源模型停滞,Together 的 TAM 会压缩。deepseek / Llama / Qwen 的持续强势是生存性的。
介于 coreweave(批发 GPU)和 OpenAI/Anthropic(闭源 API)之间的战略定位 —— Together 是"开源 AI 推理的 Snowflake"宣传。
自助 Instant Clusters(2025 年 9 月)是有意义的产品扩张 —— 把 Together 从"API 厂商"推向"面向 GPU 的 Vercel"UX。技术背景见 ai-inference-engines 和 gpu-kernel-optimization。
与 NVIDIA 深度合作(NVIDIA 在股东名单,GTC 2025 早期 Blackwell 访问)—— 命运与 NVIDIA 路线图相关。

创立:2022 年 6 月。
B 轮(2025 年 2 月):$305M,由 General Catalyst 领投,Prosperity7 联合领投。估值 $3.3B,相对 2024 年 3 月 Salesforce 领投 $106M 轮后的 $1.25B 上涨 >160% [4]。
累计融资:截至 2025 年 2 月约 $534M。
投资人:General Catalyst、Prosperity7、Salesforce Ventures、NVIDIA、Kleiner Perkins、Coatue、Lux Capital、Greycroft、Emergence、March Capital、SK Telecom、John Chambers、Scott Banister、DAMAC Capital。
报告:根据 DCD 报道(2025),正寻求约 $1B 跟投 —— 若关闭将把估值显著推高。

Sources

[1] https://www.together.ai/products (2026-05-09)
[2] https://siliconangle.com/2025/09/09/exclusive-together-ai-launches-self-service-gpu-infrastructure/ (2026-05-09)
[3] https://northflank.com/blog/fireworks-ai-vs-together-ai (2026-05-09)
[4] https://news.crunchbase.com/cloud/together-ai-valuation-jump-general-catalyst-nvda/ (2026-05-09)
https://www.together.ai/blog/together-ai-announcing-305m-series-b (2026-05-09)