AWS Inferentia 2

Amazon 自研芯片栈中针对推理优化的一半 —— Bedrock 之下的廉价 token 引擎,与 aws-trainium 搭配用于训练。

1. 核心产品 / 服务

Inferentia 是 AWS 的推理加速器系列,同样由 Annapurna Labs 设计。在售 SKU：

Inferentia 2（Inf2 实例） —— 每芯片 12 个 NeuronCore,32 GB HBM,约 190 TFLOPS BF16;相比 Inferentia 1,算力提升 3 倍,显存增大 4 倍,吞吐量提升 4 倍,延迟降低 10 倍 [2]
在支持的工作负载上相比同等 EC2 GPU 实例 $/perf 高出多达 40% [1]
为 transformer 推理、嵌入生成、实时推荐设计
Inferentia 3 路线图未正式公布；Anthropic 驱动的推理工作负载现主要运行于 Trainium 2/3（已演变为统一的推理+训练角色）,暗示 Inferentia 和 Trainium 可能合并。

软件：与 aws-trainium 相同的 Neuron SDK。支持 PyTorch、TensorFlow、Hugging Face Transformers,需要模型编译步骤。

分销：仅 AWS,既以 Inf2 实例形式暴露,也作为更高级别服务底层基座。

2. 目标用户与痛点

AWS Bedrock 主干。 Bedrock 的托管模型服务（Anthropic Claude、Llama、Mistral、Titan 等）运行在 Inferentia 2、Trainium 和 NVIDIA 的组合上 —— Inferentia 是 AWS 管理的 1P 服务廉价 token 层。
AWS 上的高量推理工作负载 —— 推荐系统、搜索排名、实时 NLP、嵌入服务
规模化成本敏感推理 —— 运行 1 亿+ token/天的客户,40% $/perf 增量远超移植成本
解决痛点：稳定、支持良好的模型架构上的每 token 成本
未解决痛点：新型模型架构（自定义内核、奇异注意力）—— 这些仍需要 NVIDIA 的灵活性

3. 竞争格局

推理加速器	$/token 声明	分销	软件
AWS Inferentia 2	相比 EC2 GPU $/perf 高出 40% [1]	仅 AWS	Neuron SDK
aws-trainium 2（用于推理）	约为 H100 实例价格的 50% [AWS]	仅 AWS	Neuron SDK
google-tpu v6e (Trillium)	perf/$ 相对 v5e 提升 2.1 倍	仅 GCP	XLA
microsoft-maia 200	成本目标,未披露	Azure	MS 工具链
nvidia B200 / H200	参考基线	各处	CUDA + TensorRT-LLM
Bedrock 中的 cerebras CS-3	约 5 倍吞吐量,约 80% 成本降低（Cerebras 声明）[4]	AWS Bedrock	Cerebras 栈

4. 独立观察

Bedrock 主干才是真正的产品,而非芯片。 Inferentia 2 之所以成功是因为它不可见 —— 客户购买"Bedrock",AWS 将其路由到任何能以最便宜方式服务工作负载的硅片。终端客户从不需要学习 Neuron SDK。这与 google-tpu 和 microsoft-maia 的销售方式（或者说,不销售方式）相反。
40% $/perf 是楔子。 对于 GPT-3.5/Claude-Haiku 级别的推理工作负载,从 H100 切换到 Inferentia 2 + Neuron SDK 是一次性 1–2 个季度的工程成本,然后持续节省约 40%。对于 Amazon 自己的 1P 服务,数学总是行得通；对于 3P Bedrock 客户,节省以他们不知道自己在获得的更低 Bedrock 定价流过 [1]。
更广泛市场的推理经济学。 2026 年 Bedrock 定价大致从 $100/月（轻量使用）到 $5,000+/月（带 Agent/KB/高吞吐量）[4]。批量推理提供 50% 折扣。跨区域推理零附加费。这些旋钮之所以可行,只因为 AWS 拥有推理底层成本。
Cerebras-in-Bedrock 是战略先例。 AWS 让一家第三方硅片供应商（cerebras）进入 Bedrock,为支持的工作负载声称约 5 倍吞吐量和约 80% 成本降低 [4]。Inferentia 2 并非对每个模型类别都是最优 —— 特别是非常大的 MoE 或奇异架构 —— AWS 愿意用非 NVIDIA、非 Inferentia 硅片做后盾以维持每 token 成本领先。
融合问题。 Trainium 2 已展示推理能力（正在服务 Claude）；Inferentia 的独立身份越来越薄。2027 年可能的结果：统一的 Annapurna AI 加速器线,"训练"和"推理"成为配置选择,镜像 google-tpu 拆分（然后部分重新合并）v5e/v5p 的方式。

5. 财务 / 融资

母公司：Amazon (NASDAQ: AMZN)
Inferentia 营收：未单独披露；嵌入 AWS 板块
AWS Bedrock 定价：客户范围 $100/月–$5,000+/月 [4]；批量任务约 50% 折扣
Inf2 实例定价（按需,us-east-1）：从 inf2.xlarge 的约 $0.76/小时起到 inf2.48xlarge（12 芯片）的约 $12.98/小时

6. 团队与关系

工程起源：Annapurna Labs（以色列）—— 同时设计 Trainium 和 Graviton
AWS CEO：Matt Garman
Bedrock 领导：Atul Deo（GM, Bedrock）
晶圆代工：tsmc
HBM：SK hynix、Samsung
客户（Inf2 / Bedrock 底层）：Bedrock 托管模型服务（Anthropic Claude 家族、Meta Llama、Mistral、AI21、Cohere、Stability、Amazon Titan）；直接 Inf2 客户包括 Sprinklr、Money Forward、ByteDance（有限）、Adobe（遗留）
姊妹产品：aws-trainium
相邻（在 Bedrock 中）：cerebras CS-3 绑定条款书
直接竞争对手：google-tpu microsoft-maia nvidia H200/B200,amd MI355X

AWS Inferentia 2

1. 核心产品 / 服务

2. 目标用户与痛点

3. 竞争格局

4. 独立观察

5. 财务 / 融资

6. 团队与关系

Related