Google TPU

Google 十年之久的自用 AI 硅芯片 —— 为在 Google 网络上以 Google 价格运行 Google 模型而构建,现在已开放足够多,以锚定 Anthropic 历史最大训练合同。

1. 核心产品 / 服务

Tensor Processing Unit 是 Google + Broadcom 设计的定制 AI ASIC,在 tsmc 制造。2026 年活跃代次:

TPU v5e —— 推理优化;阵容中每 token 服务最便宜的 SKU
TPU v5p —— Trillium 之前的训练旗舰;每芯片 95 TFLOPS BF16,459 TB/s HBM 带宽
TPU v6e (Trillium) —— 当前 GA 代次;算力 4.7× / HBM 容量与带宽 2× vs v5e;在密集 LLM 训练上相比 v5e 2.1× perf/$,相比 v5p 2.5× perf/$ [1][2]
TPU v7 (Ironwood) —— 宣布为推理优先代次,2026 年内部署

Pod 通过 Google 专有的 OCS (光路交换) + ICI (片间互连) 扩展到数千芯片 —— 一种替代 NVIDIA NVLink 的拓扑,优先考虑集群范围的对分带宽。软件栈:JAX + XLA + Pathways,带 PyTorch/XLA 桥接以服务非 Google 客户。

分发:TPU 仅通过 GCP 租用(无直销)。Google 内部自用(Search、Ads、Gemini、YouTube)消耗大多数机群产能;外部租用是其余部分。

2. 目标用户与痛点

Google 自己 —— Search 排序、Gemini 训练/服务、Ads 排序、YouTube 转码/推荐。自用是迄今为止最大的 TPU 客户。
Anthropic —— 2025 年 11 月承诺"Google 历史上最大的 TPU 交易":2026 年数十万 Trillium TPU,到 2027 年扩展至 ~100 万 [1]。Anthropic 现在跨 Trainium (aws-trainium) 和 TPU 多托管。
GCP 上的前沿实验室 / 大企业 —— Salesforce、Anthropic、Mid-journey、Character.ai(历史上)、Hugging Face —— 在支持的工作负载上选择 TPU 以获得 perf/$
解决的痛点:训练和密集推理的每 token 成本;通过 OCS 拓扑访问极端规模集群
未解决的痛点:模型可移植性 —— 将 TPU 训练的模型迁移到 GPU(或反向)是数周的工程项目

3. 竞争格局

芯片	买方画像	软件	分发
Google TPU v6e (Trillium)	自用 + GCP 租用	JAX/XLA、PyTorch/XLA	仅 GCP
nvidia B200	开放市场	CUDA	所有云 + 直销
aws-trainium 2	自用 + AWS 租用	Neuron SDK	仅 AWS
microsoft-maia 200	自用	Microsoft 工具链	仅 Azure(有限)
amd MI355X	开放市场	ROCm	所有云

自用芯片队列(TPU/Trainium/Maia)集体威胁 NVIDIA 在超大规模厂商内部需求上的垄断,而从不在开放市场上竞争。

4. 独立观察

自用成本 vs 市场替代 —— 核心经济问题。 Google 不发布每芯片 TPU 成本;供应链分析师的估计将 Trillium 硅芯片 COGS 放在 $3-5K/芯片区间,vs NVIDIA 对 H100 收取的 $25-40K / B200 的 $40K。即使在 tsmc 摊销内部设计(前 Broadcom + Google 芯片团队)和共享 CoWoS 分配后,Google 在自用工作负载上的有效每 FLOP 成本可能比 GPU 租用低 40-60% —— 尽管公开披露的数字不存在。Anthropic 交易定价(未披露)锚定了唯一的外部基准。
Anthropic 锚点重新定义 TPU 为可信第二货源。 在 TPU 历史的大部分时间,战略问题是"Google 是否在补贴内部使用以证明自用项目?"2025 年 Anthropic 承诺数十万 Trillium 芯片使 TPU 仅依靠外部营收就在经济上自给自足 —— 并向 NVIDIA 发出信号,超大规模厂商自用硅芯片不仅仅是防御性的 [1]。
JAX/XLA 重力井。 在 TPU 上训练的任何人都写 JAX 或 PyTorch/XLA,然后在没有重新优化的情况下在 GPU 上运行不佳。这与 CUDA 锁定相反 —— 同样具有黏性,只是装机量较小。见 gpu-kernel-optimization。
Trillium 定价揭示策略。 Trillium 声称比 v5p 2.5× perf/$,比 v5e 2.1× —— 但价格不公开 list;通过承诺使用定价。Google 故意不公布 NVIDIA 可以反向定价的数字。有效客户定价是谈判的(Anthropic 费率传言实质性低于 GCP H100 list)。
Ironwood v7 信号一个分叉:TPU 正在成为双轨产品,训练(v6/v7p 等价)和推理(v6e/Ironwood)分别优化 —— 与 aws-trainium vs aws-inferentia 分裂相同。

5. 财务 / 融资

母公司:Alphabet/Google Cloud
披露的 TPU 营收:未从 GCP 分部分离
GCP 营收 (2025 全年):~500 亿美元+ 运行率;AI 算力(TPU + GPU 租用)是增长最快的线
资本支出 (Alphabet 2025):2025 年指引 750 亿美元+,其中相当一部分是包括 TPU 建设的 AI 基建
Trillium GA 定价(承诺使用):list 范围大致 $1.20-$2.70/芯片-小时,取决于承诺层(因地区而异)

6. 团队与关系

TPU 工程起源:Norman Jouppi(TPU 主架构师),从 Google Research 领导
Google Cloud CEO:Thomas Kurian
Cloud AI VP:Amin Vahdat(TPU 系统 / 网络)、Mark Lohmeyer(计算)
晶圆代工合作伙伴:tsmc(先进制程;使用 CoWoS)
设计合作伙伴:Broadcom(定制 ASIC 实现/IP)
主要外部客户:Anthropic(锚点)、Salesforce、Hugging Face、Mid-journey
自用消费者:Google Search、Ads、Gemini、YouTube、Workspace AI 功能
直接竞争对手:nvidia aws-trainium aws-inferentia microsoft-maia amd cerebras