Microsoft Maia 100/200

Microsoft 的第三位自用硅芯片 —— Maia 100 是没出场,Maia 200 是与 OpenAI 共同设计的最终出货的推理芯片。

1. 核心产品 / 服务

Maia 是 Microsoft 的定制 AI 加速器家族,内部构建,深度参考 OpenAI。纸面上存在两代:

Maia 100 —— 2023 年 11 月宣布,由 OpenAI 共同设计;从未对外可用,从未租给云客户 [3]。仅用于有限的内部工作负载。实际上是开机生成代。
Maia 200(代号 "Braga") —— 2026 年 1 月宣布为第二代 [1][2]。规格:
- TSMC 3nm、140B+ 晶体管 [3]
- 216 GB HBM3e
- >10 PFLOPS FP4、>5 PFLOPS FP8,在 750W TDP 中 [3]
- 截至 2026 年 1 月部署在 Microsoft 的 Central 区域(Iowa Des Moines);扩展到 West 3 (Phoenix) [1]
- 大规模生产因 OpenAI 请求的设计变更使芯片在模拟中不稳定而推迟约 6 个月 [7]

软件:Microsoft 的内部 AI 编译器栈(专有;比 Neuron SDK 或 XLA 不太成熟,比 CUDA 少得多)。

2. 目标用户与痛点

实际上是两个自用客户:

Microsoft 自己 —— Azure AI 服务、Microsoft 365 Copilot 推理、Bing/Edge Copilot、Github Copilot 服务
OpenAI —— 在 Maia 200 上运行 GPT-5.2 家族推理的子集 [1],但大部分 OpenAI 算力仍然是 NVIDIA + Stargate 建设

外部可用性 计划但尚未广泛 —— Scott Guthrie 表示 "未来更广客户可用性" [1],但截至 2026 年中期没有公开 Maia 200 实例类型。

3. 竞争格局

芯片	HBM	状态	锚
Maia 100	64 GB HBM2e	仅内部,不对外可用 [3]	Microsoft(有限)
Maia 200	216 GB HBM3e [3]	有限内部部署,Iowa 区域	Microsoft + OpenAI(部分)
aws-trainium 2	96 GB HBM3	生产规模,~50 万芯片	Anthropic + AWS
google-tpu v6e (Trillium)	32 GB HBM	生产规模,GA	Google + Anthropic
nvidia B200	192 GB HBM3e	大众市场	每个人

在自用超大规模厂商硅芯片中,Microsoft 是 第三个大规模出货的 —— 明显落后于 Google(TPU v5p 多年前出货)和 Amazon(Trainium 2 已经在吉瓦部署)。

4. 独立观察

Maia 100 vs Maia 200 状态 —— 坦率解读。 Maia 100 实际上是从未达到客户租用的开机练习 [3]。Maia 200 是真正的产品;尽管"任何主要云提供商的首款自用硅芯片"声明 [2],它在 google-tpu 和 aws-trainium 达到可比部署规模数年后出货。
OpenAI 作为基底共同设计者是最有趣的结构性故事。 OpenAI 请求的设计变更将 Maia 200 大规模生产推迟约 6 个月并使模拟不稳定 [7]。OpenAI 对 Microsoft 芯片的输入水平类似于 Anthropic↔Trainium 关系 —— 每个主要前沿实验室现在都有与超大规模厂商关联的自用硅芯片故事。OpenAI 对 Maia 200 推理的股份是否扩展部分取决于 2025 年后 OpenAI-Microsoft 合同重组(将 OpenAI 部分从 Azure 独占中移走)。
216 GB HBM3e 真正级领先。 大于 B200(192 GB)和 Trainium 2(96 GB);只有 amd MI355X(288 GB)更多。对于非常大的 MoE 服务,这是实际技术楔形 —— "任何云构建的最 HBM 丰富的自用硅芯片"。
TSMC 3nm + 140B 晶体管 [3] 将 Maia 200 放在与 B200 相同的先进节点层 —— 意味着 Microsoft 在与 NVIDIA 竞争相同的 tsmc CoWoS 分配,除了为自己构建需求侧之外。这是 CoWoS 在 2026 年售罄的部分原因。
自用成本声明到目前为止无法验证。 Microsoft 尚未发布 Maia 200 对 NVIDIA 的 $/推理比较。战略逻辑类似于 aws-inferentia/aws-trainium —— 通过降低每 token COGS 来驱动 Azure AI 利润率 —— 但证明是私人的。6 个月生产延迟也暗示 Microsoft 支付了自用硅芯片供应商通常不披露吸收的重设计工作。
"更广可用性"挑逗。 如果 Maia 200 在 2026 年末/2027 年达到 Azure 通用可用性,它成为有意义的定价可比对象;如果它像 Maia 100 那样保持仅内部,该项目看起来更像 Microsoft-OpenAI 垂直整合的栈,而不是真正的开放自用硅芯片提供。

5. 财务 / 融资

母公司:Microsoft (NASDAQ: MSFT);市值 ~3 万亿美元+ 区间(2026 年中期)
Maia 营收:外部为零;影响通过 Azure AI 利润率
Microsoft AI 资本支出 (FY26):800 亿美元+ 指引;Maia 建设的部分未披露但实质性小于 NVIDIA 支出
OpenAI 商业关系:2025 年后重组减少 Azure 独占;OpenAI 现在跨 Microsoft(含 Maia 200)+ 自己的 Stargate + Oracle + 其他多托管

6. 团队与关系

Microsoft Cloud + AI EVP:Scott Guthrie
定制硅芯片项目:Rani Borkar(CVP,Azure Hardware Systems and Infrastructure)
晶圆代工:tsmc (3nm)
HBM:SK hynix(领先)、Samsung、Micron
共同设计者:OpenAI(Maia 200 上的特定设计请求 [7])
自用消费者:Microsoft 365 Copilot、Azure AI、Bing/Edge Copilot、GitHub Copilot、Microsoft Security Copilot
外部试点客户:OpenAI(GPT-5.2 推理的子集)[1]
直接竞争对手:google-tpu aws-trainium aws-inferentia nvidia amd