Google TPU 8 一刀两断：训练和推理为什么必须分家

Thu, 02 Jul 2026 00:00:00 +0000

Google Cloud Next 2026 上有个消息被很多人忽略了——不是 Gemini 又更新了，不是新 Region 上线了，而是 TPU 第一次被拆成了两颗芯片。

不是迭代升级，不是加个 SKU，而是把沿用了八代的统一架构直接劈开。一颗叫 TPU 8t（代号 Sunfish），专攻训练；一颗叫 TPU 8i（代号 Zebrafish），专攻推理。

干了十年 TPU 的 Google，为什么要做这个决定？

需求已经分叉了

2017 年 TPU 刚出来的时候，训练和推理的差别没这么大。你训练一个 Bert，推理它，用的是差不多的计算模式——矩阵乘法，密集计算，一次性跑完。

但现在的情况完全不同了。

训练的规模在疯狂膨胀。GPT-4 级别的模型参数量已经是万亿级，训练集群从千卡到了十万卡。训练芯片要的是：互联带宽、高精度浮点、大规模并行。TPU 8t 的定位就是这块。

推理则走向了另一个方向。尤其是 AI Agent 的兴起——不再是问一句答一句，而是你要推理、规划、调用工具、多步执行，每一步都在推理解码。这要求推理芯片不仅要快，还要低延迟、高吞吐、成本可控。

一颗芯片同时满足这两个方向，已经开始吃力了。

TPU 8t（训练芯片）

TPU 8i（推理芯片）

这个分工非常有意思。Broadcom 在高速互联领域的积累正好对训练有用，而 MediaTek 在功耗效率和移动端 SoC 的经验正好适合推理场景。Google 选合作伙伴的思路，紧扣了每颗芯片的实际需求。

TPU 8 的分裂不是一个孤立事件。它反映的是整个 AI 硬件行业的一个深层趋势：AI 计算正在从"通用加速器"走向"场景专用芯片"。

过去大家觉得一块 GPU 能搞定所有事情——训练跑它，推理跑它，甚至科学计算也用同一块 H100。但 AI 的负载分化速度比硬件迭代速度快得多。

训练和推理对算力的需求曲线完全不同：

你不可能用一把螺丝刀干完电钻和螺丝刀的活。

对用 Google Cloud 的人来说，TPU 8 的分裂带来一个直接的好处：你不用为训练买单的价格去跑推理了。

TPU 8i 的推理成本预计会比 TPU 8t 低一个数量级。如果你有推理密集型负载（Agent 应用、实时翻译、代码补全），这可能意味着你的云端 GPU 账单直接减半。

而对于做 MLOps 的人，这意味着两套集群、两套调度策略、两套监控指标。训练集群关注利用率，推理集群关注 P99 延迟。这其实是好事——各管各的，反而更容易优化。

Google 分裂 TPU 8 这个决定，技术上的解读有很多，但我更愿意把它看作一个产业的成人礼。

当 AI 计算开始细分到训练和推理需要不同的芯片时，说明这个行业已经足够成熟，成熟到不再需要"万能药"。就像通用 CPU 最终分化出 GPU、DPU、NPU 一样，AI 芯片也正在走上同样的路。

下一代 AI 基础设施的竞争力，可能不再取决于谁的芯片算力最猛，而取决于谁能在正确的地方放正确的芯片。

TPU 8t 和 TPU 8i 不只是一次芯片发布，他们是 Google 对 AI 硬件未来的一次表态：分而治之，才是最好的加速。