Company

AMD

AI 加速器领域可信的 #2 —— 在芯片层面拥有比 NVIDIA 更大的显存,但在其他每一层的软件生态都更小。

1. 核心产品 / 服务

AMD 的 Instinct MI 产品线是 2026 年唯一在数据中心拥有实质份额的非 NVIDIA 独立 GPU:

  • MI300X —— TSMC N5 + N6 chiplet,192 GB HBM3,1.3 PFLOPS FP16 / 2.6 PFLOPS FP8;2023 年末发货。
  • MI325X —— 升级版,256 GB HBM3e;Llama-2 70B LoRA 微调在 8 个 GPU 上 21.75 分钟完成,在 MLPerf 风格测试中比 H200 快约 8% [2]。
  • MI355X —— CDNA 4,288 GB HBM3e,训练上与 B200 接近持平(Llama-2 70B LoRA 上 10.18 分钟 vs 9.85 分钟),在 Llama 3.1 405B 上的推理比 B200 快约 30%,在厂商自利基准中 tokens/$ 好约 40% [1]。
  • MI400 / CDNA Next —— 目标 2026 年末/2027 年与 Rubin 竞争。

软件栈是 ROCm(开源 CUDA 同类品),辅以近期在 PyTorch 上游化、vLLM/SGLang ROCm 移植,以及通过 SiloAI / ZT Systems / Nod.ai 收购获得的 AMD 内部模型编译工作。

2. 目标用户与痛点

  • 从 NVIDIA 风险中多元化的超大规模云厂商 —— Microsoft 和 Meta 是可见的 MI300X 买家;两者都希望在成本和供应上有可信的第二来源。
  • 推理重度客户,对他们而言 192–288 GB HBM 意味着完整的 405B 级模型可以装入更少 GPU(更低 TCO)。
  • 主权和 HPC 实验室,已有 AMD CPU 部署(El Capitan、Frontier)。

解决痛点:NVIDIA 分配队列 + 价格;显存敏感型推理的 HBM 余量。未解决的痛点:每个框架、内核和参考实现都是 CUDA 优先。

3. 竞争格局

芯片 HBM 峰值 FP8 / FP4 软件 备注
AMD MI300X 192 GB HBM3 2.6 PF FP8 ROCm 6 微基准中达到理论 FLOPS 约 45% vs H100 上约 93% [2]
AMD MI355X 288 GB HBM3e ~10 PF FP4(声称) ROCm 6 大模型推理的显存优势
nvidia H100 80 GB 4 PF FP8 CUDA 参考主力
nvidia B200 192 GB HBM3e ~10 PF FP4 CUDA 直接竞争者;FlashAttention 在 CUDA 上比 ROCm 快约 20% [4]
intel Gaudi 3 128 GB HBM2e ~1.8 PF FP8 SynapseAI 更便宜但放量更慢
google-tpu Trillium 32 GB HBM ~0.9 PF BF16 XLA 自用

4. 独立观察

  • 纸面硬件 vs 生产硬件差距是 AMD 的定义性问题。MI300X 拥有 H100 的 2.4 倍 HBM 和相似 FLOPS,但在常见工作负载上仅达到理论峰值的约 45%,而 H100/B200 达到约 93% [2]。瓶颈是内核/编译器栈 —— 见 gpu-kernel-optimization —— 而非硅片本身。
  • ROCm 正在缩小与 CUDA 的差距,但很慢。Flash Attention 这一 transformer 推理的承重原语,截至 2026 年在 ROCm 上比 CUDA 慢约 20%;ROCm 6 添加了 PyTorch 2.x 和 TF 支持,但优化仍需手动工作,而 CUDA 是自动的 [4]。每一代大约缩小 20–30% 的差距。
  • MI355X 每美元 token 数叙事是楔子。比 B200 多 50% 的 HBM 加上 AMD 为份额激进定价,显存敏感型服务(大型 MoE、长上下文)的边际成本故事确实更好。这是 Microsoft 和 Meta 正在购买的。是否能扩展到 2027 年 20%+ 份额,几乎完全取决于 ROCm 追赶的速度。
  • 市场份额轨迹:2026 年 5–7% [1];AMD 自己的指引推向高个位数。可信的熊市情景:AMD 成为结构性 #2,份额 10–15%,NVIDIA 保持约 80%,自用芯片(google-tpu aws-trainium microsoft-maia)吸收其余。牛市情景要求 ROCm 达到 CUDA 对等,这是一个 3–5 年的项目。
  • 收购策略是"买软件栈"。ZT Systems(系统集成)、SiloAI(芬兰开源模型团队)、Nod.ai(编译器)、Pensando(DPU)—— 所有这些都加强了 AMD 历来薄弱的非硅片层。

5. 财务 / 融资

  • 上市:NASDAQ: AMD;2026 年市值区间约 $200–300B
  • 数据中心板块:现为 AMD 最大板块;MI 加速器贡献年化运行率 >$5B
  • MI300/325/355 累计 AI 营收:AMD 已指引多年数百亿美元的轨迹;具体 2026 数字取决于季度披露
  • 研发:每年约 $6–7B;相当份额现以 AI 为目标
  • 晶圆代工tsmc N5/N4P → N3/N2 用于 MI400

6. 团队与关系

  • CEO:Lisa Su —— 工程师 CEO,2014 年将 AMD 从濒临破产中扭转过来;半导体行业最受尊敬的运营者之一
  • CTO:Mark Papermaster
  • DC GPU 负责人:Vamsi Boppana(SVP, AI)
  • 晶圆代工tsmc(N5 → N3 → N2)
  • HBM 供应商:SK hynix、Micron、Samsung
  • 大客户:Microsoft Azure(MI300X)、Meta(用于 Llama 服务的 MI300X)、Oracle、lambda-labscoreweave(有限)、HPE/Dell OEM
  • 收购(AI 相关,2024–2025):ZT Systems(约 $4.9B,系统集成)、SiloAI(约 $665M,模型)、Nod.ai(编译器)、Pensando($1.9B,网络)
  • 直接竞争对手nvidia intel huawei-ascend google-tpu aws-trainium microsoft-maia cerebras
Last compiled: 2026-05-10