Product
Google TPU
Google 十年之久的自用 AI 硅芯片 —— 为在 Google 网络上以 Google 价格运行 Google 模型而构建,现在已开放足够多,以锚定 Anthropic 历史最大训练合同。
1. 核心产品 / 服务
Tensor Processing Unit 是 Google + Broadcom 设计的定制 AI ASIC,在 tsmc 制造。2026 年活跃代次:
- TPU v5e —— 推理优化;阵容中每 token 服务最便宜的 SKU
- TPU v5p —— Trillium 之前的训练旗舰;每芯片 95 TFLOPS BF16,459 TB/s HBM 带宽
- TPU v6e (Trillium) —— 当前 GA 代次;算力 4.7× / HBM 容量与带宽 2× vs v5e;在密集 LLM 训练上相比 v5e 2.1× perf/$,相比 v5p 2.5× perf/$ [1][2]
- TPU v7 (Ironwood) —— 宣布为推理优先代次,2026 年内部署
Pod 通过 Google 专有的 OCS (光路交换) + ICI (片间互连) 扩展到数千芯片 —— 一种替代 NVIDIA NVLink 的拓扑,优先考虑集群范围的对分带宽。软件栈:JAX + XLA + Pathways,带 PyTorch/XLA 桥接以服务非 Google 客户。
分发:TPU 仅通过 GCP 租用(无直销)。Google 内部自用(Search、Ads、Gemini、YouTube)消耗大多数机群产能;外部租用是其余部分。
2. 目标用户与痛点
- Google 自己 —— Search 排序、Gemini 训练/服务、Ads 排序、YouTube 转码/推荐。自用是迄今为止最大的 TPU 客户。
- Anthropic —— 2025 年 11 月承诺"Google 历史上最大的 TPU 交易":2026 年数十万 Trillium TPU,到 2027 年扩展至 ~100 万 [1]。Anthropic 现在跨 Trainium (aws-trainium) 和 TPU 多托管。
- GCP 上的前沿实验室 / 大企业 —— Salesforce、Anthropic、Mid-journey、Character.ai(历史上)、Hugging Face —— 在支持的工作负载上选择 TPU 以获得 perf/$
- 解决的痛点:训练和密集推理的每 token 成本;通过 OCS 拓扑访问极端规模集群
- 未解决的痛点:模型可移植性 —— 将 TPU 训练的模型迁移到 GPU(或反向)是数周的工程项目
3. 竞争格局
| 芯片 | 买方画像 | 软件 | 分发 |
|---|---|---|---|
| Google TPU v6e (Trillium) | 自用 + GCP 租用 | JAX/XLA、PyTorch/XLA | 仅 GCP |
| nvidia B200 | 开放市场 | CUDA | 所有云 + 直销 |
| aws-trainium 2 | 自用 + AWS 租用 | Neuron SDK | 仅 AWS |
| microsoft-maia 200 | 自用 | Microsoft 工具链 | 仅 Azure(有限) |
| amd MI355X | 开放市场 | ROCm | 所有云 |
自用芯片队列(TPU/Trainium/Maia)集体威胁 NVIDIA 在超大规模厂商内部需求上的垄断,而从不在开放市场上竞争。
4. 独立观察
- 自用成本 vs 市场替代 —— 核心经济问题。 Google 不发布每芯片 TPU 成本;供应链分析师的估计将 Trillium 硅芯片 COGS 放在 $3-5K/芯片区间,vs NVIDIA 对 H100 收取的 $25-40K / B200 的 $40K。即使在 tsmc 摊销内部设计(前 Broadcom + Google 芯片团队)和共享 CoWoS 分配后,Google 在自用工作负载上的有效每 FLOP 成本可能比 GPU 租用低 40-60% —— 尽管公开披露的数字不存在。Anthropic 交易定价(未披露)锚定了唯一的外部基准。
- Anthropic 锚点重新定义 TPU 为可信第二货源。 在 TPU 历史的大部分时间,战略问题是"Google 是否在补贴内部使用以证明自用项目?"2025 年 Anthropic 承诺数十万 Trillium 芯片使 TPU 仅依靠外部营收就在经济上自给自足 —— 并向 NVIDIA 发出信号,超大规模厂商自用硅芯片不仅仅是防御性的 [1]。
- JAX/XLA 重力井。 在 TPU 上训练的任何人都写 JAX 或 PyTorch/XLA,然后在没有重新优化的情况下在 GPU 上运行不佳。这与 CUDA 锁定相反 —— 同样具有黏性,只是装机量较小。见 gpu-kernel-optimization。
- Trillium 定价揭示策略。 Trillium 声称比 v5p 2.5× perf/$,比 v5e 2.1× —— 但价格不公开 list;通过承诺使用定价。Google 故意不公布 NVIDIA 可以反向定价的数字。有效客户定价是谈判的(Anthropic 费率传言实质性低于 GCP H100 list)。
- Ironwood v7 信号一个分叉:TPU 正在成为双轨产品,训练(v6/v7p 等价)和推理(v6e/Ironwood)分别优化 —— 与 aws-trainium vs aws-inferentia 分裂相同。
5. 财务 / 融资
- 母公司:Alphabet/Google Cloud
- 披露的 TPU 营收:未从 GCP 分部分离
- GCP 营收 (2025 全年):~500 亿美元+ 运行率;AI 算力(TPU + GPU 租用)是增长最快的线
- 资本支出 (Alphabet 2025):2025 年指引 750 亿美元+,其中相当一部分是包括 TPU 建设的 AI 基建
- Trillium GA 定价(承诺使用):list 范围大致 $1.20-$2.70/芯片-小时,取决于承诺层(因地区而异)
6. 团队与关系
- TPU 工程起源:Norman Jouppi(TPU 主架构师),从 Google Research 领导
- Google Cloud CEO:Thomas Kurian
- Cloud AI VP:Amin Vahdat(TPU 系统 / 网络)、Mark Lohmeyer(计算)
- 晶圆代工合作伙伴:tsmc(先进制程;使用 CoWoS)
- 设计合作伙伴:Broadcom(定制 ASIC 实现/IP)
- 主要外部客户:Anthropic(锚点)、Salesforce、Hugging Face、Mid-journey
- 自用消费者:Google Search、Ads、Gemini、YouTube、Workspace AI 功能
- 直接竞争对手:nvidia aws-trainium aws-inferentia microsoft-maia amd cerebras
Last compiled: 2026-05-10