Product
AWS Inferentia 2
Amazon 自研芯片栈中针对推理优化的一半 —— Bedrock 之下的廉价 token 引擎,与 aws-trainium 搭配用于训练。
1. 核心产品 / 服务
Inferentia 是 AWS 的推理加速器系列,同样由 Annapurna Labs 设计。在售 SKU:
- Inferentia 2(Inf2 实例) —— 每芯片 12 个 NeuronCore,32 GB HBM,约 190 TFLOPS BF16;相比 Inferentia 1,算力提升 3 倍,显存增大 4 倍,吞吐量提升 4 倍,延迟降低 10 倍 [2]
- 在支持的工作负载上相比同等 EC2 GPU 实例 $/perf 高出多达 40% [1]
- 为 transformer 推理、嵌入生成、实时推荐设计
- Inferentia 3 路线图未正式公布;Anthropic 驱动的推理工作负载现主要运行于 Trainium 2/3(已演变为统一的推理+训练角色),暗示 Inferentia 和 Trainium 可能合并。
软件:与 aws-trainium 相同的 Neuron SDK。支持 PyTorch、TensorFlow、Hugging Face Transformers,需要模型编译步骤。
分销:仅 AWS,既以 Inf2 实例形式暴露,也作为更高级别服务底层基座。
2. 目标用户与痛点
- AWS Bedrock 主干。 Bedrock 的托管模型服务(Anthropic Claude、Llama、Mistral、Titan 等)运行在 Inferentia 2、Trainium 和 NVIDIA 的组合上 —— Inferentia 是 AWS 管理的 1P 服务廉价 token 层。
- AWS 上的高量推理工作负载 —— 推荐系统、搜索排名、实时 NLP、嵌入服务
- 规模化成本敏感推理 —— 运行 1 亿+ token/天的客户,40% $/perf 增量远超移植成本
- 解决痛点:稳定、支持良好的模型架构上的每 token 成本
- 未解决痛点:新型模型架构(自定义内核、奇异注意力)—— 这些仍需要 NVIDIA 的灵活性
3. 竞争格局
| 推理加速器 | $/token 声明 | 分销 | 软件 |
|---|---|---|---|
| AWS Inferentia 2 | 相比 EC2 GPU $/perf 高出 40% [1] | 仅 AWS | Neuron SDK |
| aws-trainium 2(用于推理) | 约为 H100 实例价格的 50% [AWS] | 仅 AWS | Neuron SDK |
| google-tpu v6e (Trillium) | perf/$ 相对 v5e 提升 2.1 倍 | 仅 GCP | XLA |
| microsoft-maia 200 | 成本目标,未披露 | Azure | MS 工具链 |
| nvidia B200 / H200 | 参考基线 | 各处 | CUDA + TensorRT-LLM |
| Bedrock 中的 cerebras CS-3 | 约 5 倍吞吐量,约 80% 成本降低(Cerebras 声明)[4] | AWS Bedrock | Cerebras 栈 |
4. 独立观察
- Bedrock 主干才是真正的产品,而非芯片。 Inferentia 2 之所以成功是因为它不可见 —— 客户购买"Bedrock",AWS 将其路由到任何能以最便宜方式服务工作负载的硅片。终端客户从不需要学习 Neuron SDK。这与 google-tpu 和 microsoft-maia 的销售方式(或者说,不销售方式)相反。
- 40% $/perf 是楔子。 对于 GPT-3.5/Claude-Haiku 级别的推理工作负载,从 H100 切换到 Inferentia 2 + Neuron SDK 是一次性 1–2 个季度的工程成本,然后持续节省约 40%。对于 Amazon 自己的 1P 服务,数学总是行得通;对于 3P Bedrock 客户,节省以他们不知道自己在获得的更低 Bedrock 定价流过 [1]。
- 更广泛市场的推理经济学。 2026 年 Bedrock 定价大致从 $100/月(轻量使用)到 $5,000+/月(带 Agent/KB/高吞吐量)[4]。批量推理提供 50% 折扣。跨区域推理零附加费。这些旋钮之所以可行,只因为 AWS 拥有推理底层成本。
- Cerebras-in-Bedrock 是战略先例。 AWS 让一家第三方硅片供应商(cerebras)进入 Bedrock,为支持的工作负载声称约 5 倍吞吐量和约 80% 成本降低 [4]。Inferentia 2 并非对每个模型类别都是最优 —— 特别是非常大的 MoE 或奇异架构 —— AWS 愿意用非 NVIDIA、非 Inferentia 硅片做后盾以维持每 token 成本领先。
- 融合问题。 Trainium 2 已展示推理能力(正在服务 Claude);Inferentia 的独立身份越来越薄。2027 年可能的结果:统一的 Annapurna AI 加速器线,"训练"和"推理"成为配置选择,镜像 google-tpu 拆分(然后部分重新合并)v5e/v5p 的方式。
5. 财务 / 融资
- 母公司:Amazon (NASDAQ: AMZN)
- Inferentia 营收:未单独披露;嵌入 AWS 板块
- AWS Bedrock 定价:客户范围 $100/月–$5,000+/月 [4];批量任务约 50% 折扣
- Inf2 实例定价(按需,us-east-1):从 inf2.xlarge 的约 $0.76/小时 起到 inf2.48xlarge(12 芯片)的约 $12.98/小时
6. 团队与关系
- 工程起源:Annapurna Labs(以色列)—— 同时设计 Trainium 和 Graviton
- AWS CEO:Matt Garman
- Bedrock 领导:Atul Deo(GM, Bedrock)
- 晶圆代工:tsmc
- HBM:SK hynix、Samsung
- 客户(Inf2 / Bedrock 底层):Bedrock 托管模型服务(Anthropic Claude 家族、Meta Llama、Mistral、AI21、Cohere、Stability、Amazon Titan);直接 Inf2 客户包括 Sprinklr、Money Forward、ByteDance(有限)、Adobe(遗留)
- 姊妹产品:aws-trainium
- 相邻(在 Bedrock 中):cerebras CS-3 绑定条款书
- 直接竞争对手:google-tpu microsoft-maia nvidia H200/B200,amd MI355X
Last compiled: 2026-05-10