AI基础设施 on AI博士万戈

Google TPU 8 一刀两断：训练和推理为什么必须分家

Thu, 02 Jul 2026 00:00:00 +0000

Google Cloud Next 2026 上有个消息被很多人忽略了——不是 Gemini 又更新了，不是新 Region 上线了，而是 TPU 第一次被拆成了两颗芯片。

不是迭代升级，不是加个 SKU，而是把沿用了八代的统一架构直接劈开。一颗叫 TPU 8t（代号 Sunfish），专攻训练；一颗叫 TPU 8i（代号 Zebrafish），专攻推理。

干了十年 TPU 的 Google，为什么要做这个决定？

需求已经分叉了

2017 年 TPU 刚出来的时候，训练和推理的差别没这么大。你训练一个 Bert，推理它，用的是差不多的计算模式——矩阵乘法，密集计算，一次性跑完。

但现在的情况完全不同了。

训练的规模在疯狂膨胀。GPT-4 级别的模型参数量已经是万亿级，训练集群从千卡到了十万卡。训练芯片要的是：互联带宽、高精度浮点、大规模并行。TPU 8t 的定位就是这块。

推理则走向了另一个方向。尤其是 AI Agent 的兴起——不再是问一句答一句，而是你要推理、规划、调用工具、多步执行，每一步都在推理解码。这要求推理芯片不仅要快，还要低延迟、高吞吐、成本可控。

一颗芯片同时满足这两个方向，已经开始吃力了。

TPU 8t 和 TPU 8i 各管一摊

TPU 8t（训练芯片）

代号 Sunfish
与 Broadcom 联合设计
专为万卡级集群优化，强调高带宽互联和 FP8/BF16 矩阵运算
目标：把万亿参数模型的训练时间从月缩短到周

TPU 8i（推理芯片）

代号 Zebrafish
与 MediaTek 联合设计
专为 AI Agent 推理优化，强调低延迟和高吞吐
目标：让多步推理的响应时间控制在百毫秒级

这个分工非常有意思。Broadcom 在高速互联领域的积累正好对训练有用，而 MediaTek 在功耗效率和移动端 SoC 的经验正好适合推理场景。Google 选合作伙伴的思路，紧扣了每颗芯片的实际需求。

更大的信号：AI 硬件正在"去通用化"

TPU 8 的分裂不是一个孤立事件。它反映的是整个 AI 硬件行业的一个深层趋势：AI 计算正在从"通用加速器"走向"场景专用芯片"。

过去大家觉得一块 GPU 能搞定所有事情——训练跑它，推理跑它，甚至科学计算也用同一块 H100。但 AI 的负载分化速度比硬件迭代速度快得多。

训练和推理对算力的需求曲线完全不同：

训练：峰值算力 × 持续吞吐 → 越猛越好
推理：响应延迟 × 成本效率 → 够用就行，但要快且便宜

你不可能用一把螺丝刀干完电钻和螺丝刀的活。

对云上开发者意味着什么

对用 Google Cloud 的人来说，TPU 8 的分裂带来一个直接的好处：你不用为训练买单的价格去跑推理了。

TPU 8i 的推理成本预计会比 TPU 8t 低一个数量级。如果你有推理密集型负载（Agent 应用、实时翻译、代码补全），这可能意味着你的云端 GPU 账单直接减半。

而对于做 MLOps 的人，这意味着两套集群、两套调度策略、两套监控指标。训练集群关注利用率，推理集群关注 P99 延迟。这其实是好事——各管各的，反而更容易优化。

写在最后

Google 分裂 TPU 8 这个决定，技术上的解读有很多，但我更愿意把它看作一个产业的成人礼。

当 AI 计算开始细分到训练和推理需要不同的芯片时，说明这个行业已经足够成熟，成熟到不再需要"万能药"。就像通用 CPU 最终分化出 GPU、DPU、NPU 一样，AI 芯片也正在走上同样的路。

下一代 AI 基础设施的竞争力，可能不再取决于谁的芯片算力最猛，而取决于谁能在正确的地方放正确的芯片。

TPU 8t 和 TPU 8i 不只是一次芯片发布，他们是 Google 对 AI 硬件未来的一次表态：分而治之，才是最好的加速。

Meta 也要做云？社交巨头卖算力，云计算格局要变天了

Thu, 02 Jul 2026 00:00:00 +0000

如果你关注云计算市场，昨天晚上 Bloomberg 爆出的那条消息绝对值得多看两眼。

Meta 正在秘密打造一个云业务。

不是那种"在云上跑自己的业务"，而是真刀真枪地要把过剩的 AI 算力卖给第三方。这个内部代号为 Meta Compute 的项目，由 Meta 基础设施负责人 Santosh Janardhan 牵头，目标直指 AWS、Azure 和 Google Cloud 的地盘。

消息一出，Meta 股价盘前飙升 8.6%，而靠 GPU 租赁起家的 CoreWeave 应声暴跌了近 10%。

算力多到用不完，也是一种烦恼

Meta 到底有多少算力？

看看数字：2026 年 Q1 单季资本支出 198 亿美元，全年预估 1250-1450 亿美元。 这些钱砸向了 Prometheus 和 Hyperion 超级集群，目标总功率超过 6GW——相当于好几个核电站的出力。

问题来了：Llama 模型的训练和推理用不了这么多。那些花了几百亿买来的 H100/B200 集群，空闲就是浪费。

扎克伯格在今年 5 月的股东电话会上其实已经打过预防针：

“几乎每周都有外部公司找上门，问我们能不能提供 API 服务，或者有没有多余的算力可以卖……我们之前没这么做，是因为觉得自己用得完。但如果我们确实建多了，这确实是个选项。”

这话在当时没引起太大波澜。现在回头看，Meta Compute 的项目显然早就秘密启动了。

两条腿走路

根据 Bloomberg 的报道，Meta Compute 的商业模式分成两条线：

第一条：模型即服务（Model-as-a-Service）

有点像 AWS Bedrock。Meta 把自己的 Muse Spark 系列模型托管在自己的基础设施上，对外提供 API 调用。企业不用管底层 GPU 集群和网络拓扑，直接调接口就行。

第二条：裸算力租赁（Raw Compute）

这就是 CoreWeave 正在做的事情——把 GPU 算力当水电煤一样卖。Meta 如果走这条路，直接跟 CoreWeave 正面竞争，而后者正是 Meta 目前的算力供应商之一。

这种"一边从你那里买算力，一边跟你抢生意"的操作，在科技圈也不是头一回了。

这不是孤例

Meta 的算力变现计划并非孤立事件。一个更大的趋势正在形成：AI 基础设施不再是成本中心，正在变成独立的营收引擎。

Elon Musk 的 xAI（通过 SpaceX）已经在把孟菲斯数据中心的闲置算力租给 Anthropic。Bloomberg Intelligence 估算，这笔生意到 2028 年可能产生超过 500 亿美元的收入，2030 年突破 1000 亿。

想想看，那些为了训练大模型而建设的超大规模集群，一旦训练完成，推理负载又填不满的时候，把空余算力变现几乎是必然的选择。

对行业意味着什么

对云厂商来说，这是一个明确的信号：GPU 算力的供给池正在扩大。AWS/Azure/GCP 不再是唯一的选择，Meta Compute 可能带来更激进的价格竞争。

对企业来说，选择变多了。但 Meta 的企业级服务能力是个问号——它不像 AWS 有十几年积累的合规体系、SLA 和生态圈。卖算力不难，难的是让 CIO 信任你。

对 DevOps/SRE 团队来说，多一个云 provider 意味着多一套 Terraform provider、多一组监控指标、多一种故障模式。好消息是 Meta 的 infra 团队用的是标准化的以太网架构和开放生态，迁移成本理论上比想象中低。

写在最后

Meta Compute 目前还处于内部规划阶段，没有正式产品发布，没有定价，甚至还没有一个公开的官网。

但这件事本身的意义已经超越了 Meta 一家公司。

它标志着 AI 算力从一个"内部资源"正在变成"可交易商品"。当每个拥有超大规模 GPU 集群的公司都开始思考"要不要顺便做个云生意"的时候，整个云计算市场的游戏规则可能会被重新书写。

未来 12 个月，我会盯紧这三件事：

Meta Compute 的第一份定价表——按 token 还是按 GPU 小时？
第一个公开客户——是哪家 AI 创业公司愿意第一个吃螃蟹？
竞争对手的反应——CoreWeave 是被打趴还是被收购？

变天的时候，站对了位置比什么都重要。

AI基础设施 on AI博士 万戈

Google TPU 8 一刀两断：训练和推理为什么必须分家

需求已经分叉了

TPU 8t 和 TPU 8i 各管一摊

更大的信号：AI 硬件正在"去通用化"

对云上开发者意味着什么

写在最后

Meta 也要做云？社交巨头卖算力，云计算格局要变天了

算力多到用不完，也是一种烦恼

两条腿走路

这不是孤例

对行业意味着什么

写在最后

AI基础设施 on AI博士万戈