AMD

AI 加速器领域可信的 #2 —— 在芯片层面拥有比 NVIDIA 更大的显存，但在其他每一层的软件生态都更小。

1. 核心产品 / 服务

AMD 的 Instinct MI 产品线是 2026 年唯一在数据中心拥有实质份额的非 NVIDIA 独立 GPU：

MI300X —— TSMC N5 + N6 chiplet，192 GB HBM3，1.3 PFLOPS FP16 / 2.6 PFLOPS FP8；2023 年末发货。
MI325X —— 升级版，256 GB HBM3e；Llama-2 70B LoRA 微调在 8 个 GPU 上 21.75 分钟完成，在 MLPerf 风格测试中比 H200 快约 8% [2]。
MI355X —— CDNA 4，288 GB HBM3e，训练上与 B200 接近持平（Llama-2 70B LoRA 上 10.18 分钟 vs 9.85 分钟），在 Llama 3.1 405B 上的推理比 B200 快约 30%，在厂商自利基准中 tokens/$ 好约 40% [1]。
MI400 / CDNA Next —— 目标 2026 年末/2027 年与 Rubin 竞争。

软件栈是 ROCm（开源 CUDA 同类品），辅以近期在 PyTorch 上游化、vLLM/SGLang ROCm 移植，以及通过 SiloAI / ZT Systems / Nod.ai 收购获得的 AMD 内部模型编译工作。

从 NVIDIA 风险中多元化的超大规模云厂商 —— Microsoft 和 Meta 是可见的 MI300X 买家；两者都希望在成本和供应上有可信的第二来源。
推理重度客户，对他们而言 192–288 GB HBM 意味着完整的 405B 级模型可以装入更少 GPU（更低 TCO）。
主权和 HPC 实验室，已有 AMD CPU 部署（El Capitan、Frontier）。

解决痛点：NVIDIA 分配队列 + 价格；显存敏感型推理的 HBM 余量。未解决的痛点：每个框架、内核和参考实现都是 CUDA 优先。

芯片	HBM	峰值 FP8 / FP4	软件	备注
AMD MI300X	192 GB HBM3	2.6 PF FP8	ROCm 6	微基准中达到理论 FLOPS 约 45% vs H100 上约 93% [2]
AMD MI355X	288 GB HBM3e	~10 PF FP4（声称）	ROCm 6	大模型推理的显存优势
nvidia H100	80 GB	4 PF FP8	CUDA	参考主力
nvidia B200	192 GB HBM3e	~10 PF FP4	CUDA	直接竞争者；FlashAttention 在 CUDA 上比 ROCm 快约 20% [4]
intel Gaudi 3	128 GB HBM2e	~1.8 PF FP8	SynapseAI	更便宜但放量更慢
google-tpu Trillium	32 GB HBM	~0.9 PF BF16	XLA	自用

纸面硬件 vs 生产硬件差距是 AMD 的定义性问题。MI300X 拥有 H100 的 2.4 倍 HBM 和相似 FLOPS，但在常见工作负载上仅达到理论峰值的约 45%，而 H100/B200 达到约 93% [2]。瓶颈是内核/编译器栈 —— 见 gpu-kernel-optimization —— 而非硅片本身。
ROCm 正在缩小与 CUDA 的差距，但很慢。Flash Attention 这一 transformer 推理的承重原语，截至 2026 年在 ROCm 上比 CUDA 慢约 20%；ROCm 6 添加了 PyTorch 2.x 和 TF 支持，但优化仍需手动工作，而 CUDA 是自动的 [4]。每一代大约缩小 20–30% 的差距。
MI355X 每美元 token 数叙事是楔子。比 B200 多 50% 的 HBM 加上 AMD 为份额激进定价，显存敏感型服务（大型 MoE、长上下文）的边际成本故事确实更好。这是 Microsoft 和 Meta 正在购买的。是否能扩展到 2027 年 20%+ 份额，几乎完全取决于 ROCm 追赶的速度。
市场份额轨迹：2026 年 5–7% [1]；AMD 自己的指引推向高个位数。可信的熊市情景：AMD 成为结构性 #2，份额 10–15%，NVIDIA 保持约 80%，自用芯片（google-tpu aws-trainium microsoft-maia）吸收其余。牛市情景要求 ROCm 达到 CUDA 对等，这是一个 3–5 年的项目。
收购策略是"买软件栈"。ZT Systems（系统集成）、SiloAI（芬兰开源模型团队）、Nod.ai（编译器）、Pensando（DPU）—— 所有这些都加强了 AMD 历来薄弱的非硅片层。

CEO：Lisa Su —— 工程师 CEO，2014 年将 AMD 从濒临破产中扭转过来；半导体行业最受尊敬的运营者之一
CTO：Mark Papermaster
DC GPU 负责人：Vamsi Boppana（SVP, AI）
晶圆代工：tsmc（N5 → N3 → N2）
HBM 供应商：SK hynix、Micron、Samsung
大客户：Microsoft Azure（MI300X）、Meta（用于 Llama 服务的 MI300X）、Oracle、lambda-labs、coreweave（有限）、HPE/Dell OEM
收购（AI 相关，2024–2025）：ZT Systems（约 $4.9B，系统集成）、SiloAI（约 $665M，模型）、Nod.ai（编译器）、Pensando（$1.9B，网络）
直接竞争对手：nvidia intel huawei-ascend google-tpu aws-trainium microsoft-maia cerebras