AWS Trainium 2

Amazon 的训练级 ASIC —— Anthropic 的标准底层,首个单一锚点客户达到吉瓦规模的超大规模云厂商自有芯片。

1. 核心产品 / 服务

Trainium 是 AWS 的定制训练加速器,由 Annapurna Labs（Amazon 于 2015 年收购）设计,在 tsmc 流片。2026 年的世代：

Trainium 1 —— 自 2022 年量产,较小规模部署
Trainium 2 —— 当前旗舰；每芯片约 1.3 PFLOPS 密集 FP16 / 约 5 PFLOPS 稀疏 FP8；96 GB HBM3；部署于带 64 芯片的 Trn2 UltraServer 和带 16 芯片的 Trn2 实例。Project Rainier（约 50 万 Trainium 2 芯片）的底层 [3]
Trainium 3 —— 下一代,性能 2 倍,2026 年放量；与 Trainium 2 一起捆绑入 Anthropic 的 $100B 承诺
Trainium 4 —— 已宣布；目标 6 倍 FP4 性能和 4 倍代际显存带宽提升 [2]

软件：AWS Neuron SDK + Neuron Compiler。支持 PyTorch 和 JAX；生态系统比 CUDA 窄,但鉴于 Anthropic 共同投资,正在快速成熟。

分销：仅 AWS,从不作为独立硅片销售。

2. 目标用户与痛点

实际上是一个客户故事加上 AWS 自用：

Anthropic —— 主要客户。 2026 年 4 月的 Amazon-Anthropic 扩展承诺 Anthropic 10 年 >$100B AWS 支出,以及高达 5 GW 的 Trainium 容量用于训练和服务 Claude [2]。仅 Project Rainier 就是约 50 万 Trn2 芯片；到 2026 年末 Trn2+Trn3 合计上线近 1 GW [3][4]。
Amazon 内部 AI —— Bedrock 模型微调、Alexa、Amazon 零售推荐、AGI Labs 工作
一些 AWS 客户（Databricks、Ricoh、Datadog、Typhoon AI）使用 Trn2 实例进行训练,但相比 Anthropic 体量适中 [1]
解决痛点：在具有竞争力的性能下大约是 NVIDIA H100 实例成本的一半 [6]；在 NVIDIA 受限的世界中获得分配
未解决痛点：软件可移植性；比 CUDA 更小的库/内核生态系统

3. 竞争格局

芯片	锚点客户	成本声明	分销
AWS Trainium 2	Anthropic	约为同等 NVIDIA H100 的 50% [6]	仅 AWS
google-tpu Trillium	Google + Anthropic	相对前一代 perf/$ 提升 2.1–2.5 倍 [Google]	仅 GCP
microsoft-maia 200	Microsoft + OpenAI	未披露	Azure（有限）
nvidia B200	每个人	参考	所有云 + 直接
aws-inferentia 2	AWS Bedrock	相比同等 EC2 $/perf 高出 40%	仅 AWS

4. 独立观察

Anthropic 深度合作伙伴关系就是整个故事。 Project Rainier（约 50 万 Trn2 芯片,完全运行）,>100 万 Trn2 芯片服务 Claude 推理,以及 10 年/$100B/5GW 未来承诺使 Anthropic 实际上成为该芯片的共同开发者 [3][4][2]。耦合类似于 2023 年左右的 Microsoft↔OpenAI,但在自有芯片而非 NVIDIA 上。Amazon 对 Anthropic 的投资现总计高达约 $33B（已有 $8B + 新 $5B + 里程碑相关高达 $20B）[2]。
"NVIDIA 一半价格"成本声明 —— 根据 AWS 营销,Trn2 实例成本约为同等 H100 实例的 50% [6]；Anthropic 披露的单位经济学暗示每 GW 有效硅片成本约 $20B —— 远低于等效的 NVIDIA 建设。该声明在自用成本基础上似乎是真实的,但掩盖了 Neuron-SDK 移植工作的成本和较低的软件效率。
自用成本 vs 市场替代品。 AWS 不公布 Trn2 硅片 COGS。行业估计将其放置在远低于 NVIDIA ASP —— 一枚 Trn2 芯片的全成本估计为 $5–8K,而 B200 为 $40K。完整 TCO 图必须包括软件可移植性税：如果 Anthropic 想要离开 Trainium,它将承担多个季度的重训练成本。
Anthropic 多归属。 Anthropic 还在 2025 年 11 月签署了 Google 历史上最大的 google-tpu 交易 —— 意味着 Claude 跨 NVIDIA + Trainium + TPU 运行。这是第一个在三个不同加速器架构上可信运行单一模型的前沿实验室,验证了 gpu-kernel-optimization 可移植性故事在前沿规模上是可实现的。
战略风险：AWS 对 Anthropic 的整个推介依赖于 Anthropic 继续作为主要自用客户。如果 Anthropic 的训练支出比 Trainium 路线图能够交付的更快增长,该交易将 Anthropic 推回 NVIDIA —— 这正是 GCP TPU 副交易所对冲的。

5. 财务 / 融资

母公司：Amazon (NASDAQ: AMZN)
Trainium 营收：未单独披露；嵌入 AWS 基建板块
AWS Q1 2026 营收：约 $30B；高利润率,同比增长低 20% 区间
Anthropic 承诺：10 年 >$100B,高达 5 GW Trainium 容量 [2]
Project Rainier 状态：约 50 万 Trn2 芯片,完全运行 [3][4]；到 2026 年末 Trn2+Trn3 上线近 1 GW [4]
Amazon → Anthropic 股权：2026 年扩展后累计高达约 $33B [2]

6. 团队与关系

工程起源：Annapurna Labs（2015 年以约 $370M 收购）—— 还设计了 AWS Graviton CPU 和 aws-inferentia
AWS CEO：Matt Garman
计算 / 硅片：Dave Brown（VP EC2）、Gadi Hutt（Annapurna）
晶圆代工：tsmc
HBM：SK hynix、Samsung
锚点客户：Anthropic（5 GW 承诺）[2]
其他公开客户：Databricks、Ricoh、Datadog、Typhoon AI、Lyft
自用消费者：Bedrock、Alexa、Amazon 零售
姊妹产品：aws-inferentia（推理优化变体）
直接竞争对手：nvidia google-tpu microsoft-maia amd