Company
AMD
AI 加速器领域可信的 #2 —— 在芯片层面拥有比 NVIDIA 更大的显存,但在其他每一层的软件生态都更小。
1. 核心产品 / 服务
AMD 的 Instinct MI 产品线是 2026 年唯一在数据中心拥有实质份额的非 NVIDIA 独立 GPU:
- MI300X —— TSMC N5 + N6 chiplet,192 GB HBM3,1.3 PFLOPS FP16 / 2.6 PFLOPS FP8;2023 年末发货。
- MI325X —— 升级版,256 GB HBM3e;Llama-2 70B LoRA 微调在 8 个 GPU 上 21.75 分钟完成,在 MLPerf 风格测试中比 H200 快约 8% [2]。
- MI355X —— CDNA 4,288 GB HBM3e,训练上与 B200 接近持平(Llama-2 70B LoRA 上 10.18 分钟 vs 9.85 分钟),在 Llama 3.1 405B 上的推理比 B200 快约 30%,在厂商自利基准中 tokens/$ 好约 40% [1]。
- MI400 / CDNA Next —— 目标 2026 年末/2027 年与 Rubin 竞争。
软件栈是 ROCm(开源 CUDA 同类品),辅以近期在 PyTorch 上游化、vLLM/SGLang ROCm 移植,以及通过 SiloAI / ZT Systems / Nod.ai 收购获得的 AMD 内部模型编译工作。
2. 目标用户与痛点
- 从 NVIDIA 风险中多元化的超大规模云厂商 —— Microsoft 和 Meta 是可见的 MI300X 买家;两者都希望在成本和供应上有可信的第二来源。
- 推理重度客户,对他们而言 192–288 GB HBM 意味着完整的 405B 级模型可以装入更少 GPU(更低 TCO)。
- 主权和 HPC 实验室,已有 AMD CPU 部署(El Capitan、Frontier)。
解决痛点:NVIDIA 分配队列 + 价格;显存敏感型推理的 HBM 余量。未解决的痛点:每个框架、内核和参考实现都是 CUDA 优先。
3. 竞争格局
| 芯片 | HBM | 峰值 FP8 / FP4 | 软件 | 备注 |
|---|---|---|---|---|
| AMD MI300X | 192 GB HBM3 | 2.6 PF FP8 | ROCm 6 | 微基准中达到理论 FLOPS 约 45% vs H100 上约 93% [2] |
| AMD MI355X | 288 GB HBM3e | ~10 PF FP4(声称) | ROCm 6 | 大模型推理的显存优势 |
| nvidia H100 | 80 GB | 4 PF FP8 | CUDA | 参考主力 |
| nvidia B200 | 192 GB HBM3e | ~10 PF FP4 | CUDA | 直接竞争者;FlashAttention 在 CUDA 上比 ROCm 快约 20% [4] |
| intel Gaudi 3 | 128 GB HBM2e | ~1.8 PF FP8 | SynapseAI | 更便宜但放量更慢 |
| google-tpu Trillium | 32 GB HBM | ~0.9 PF BF16 | XLA | 自用 |
4. 独立观察
- 纸面硬件 vs 生产硬件差距是 AMD 的定义性问题。MI300X 拥有 H100 的 2.4 倍 HBM 和相似 FLOPS,但在常见工作负载上仅达到理论峰值的约 45%,而 H100/B200 达到约 93% [2]。瓶颈是内核/编译器栈 —— 见 gpu-kernel-optimization —— 而非硅片本身。
- ROCm 正在缩小与 CUDA 的差距,但很慢。Flash Attention 这一 transformer 推理的承重原语,截至 2026 年在 ROCm 上比 CUDA 慢约 20%;ROCm 6 添加了 PyTorch 2.x 和 TF 支持,但优化仍需手动工作,而 CUDA 是自动的 [4]。每一代大约缩小 20–30% 的差距。
- MI355X 每美元 token 数叙事是楔子。比 B200 多 50% 的 HBM 加上 AMD 为份额激进定价,显存敏感型服务(大型 MoE、长上下文)的边际成本故事确实更好。这是 Microsoft 和 Meta 正在购买的。是否能扩展到 2027 年 20%+ 份额,几乎完全取决于 ROCm 追赶的速度。
- 市场份额轨迹:2026 年 5–7% [1];AMD 自己的指引推向高个位数。可信的熊市情景:AMD 成为结构性 #2,份额 10–15%,NVIDIA 保持约 80%,自用芯片(google-tpu aws-trainium microsoft-maia)吸收其余。牛市情景要求 ROCm 达到 CUDA 对等,这是一个 3–5 年的项目。
- 收购策略是"买软件栈"。ZT Systems(系统集成)、SiloAI(芬兰开源模型团队)、Nod.ai(编译器)、Pensando(DPU)—— 所有这些都加强了 AMD 历来薄弱的非硅片层。
5. 财务 / 融资
- 上市:NASDAQ: AMD;2026 年市值区间约 $200–300B
- 数据中心板块:现为 AMD 最大板块;MI 加速器贡献年化运行率 >$5B
- MI300/325/355 累计 AI 营收:AMD 已指引多年数百亿美元的轨迹;具体 2026 数字取决于季度披露
- 研发:每年约 $6–7B;相当份额现以 AI 为目标
- 晶圆代工:tsmc N5/N4P → N3/N2 用于 MI400
6. 团队与关系
- CEO:Lisa Su —— 工程师 CEO,2014 年将 AMD 从濒临破产中扭转过来;半导体行业最受尊敬的运营者之一
- CTO:Mark Papermaster
- DC GPU 负责人:Vamsi Boppana(SVP, AI)
- 晶圆代工:tsmc(N5 → N3 → N2)
- HBM 供应商:SK hynix、Micron、Samsung
- 大客户:Microsoft Azure(MI300X)、Meta(用于 Llama 服务的 MI300X)、Oracle、lambda-labs、coreweave(有限)、HPE/Dell OEM
- 收购(AI 相关,2024–2025):ZT Systems(约 $4.9B,系统集成)、SiloAI(约 $665M,模型)、Nod.ai(编译器)、Pensando($1.9B,网络)
- 直接竞争对手:nvidia intel huawei-ascend google-tpu aws-trainium microsoft-maia cerebras
Last compiled: 2026-05-10