<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>AI推理 on AI博士 万戈</title>
        <link>https://www.yesmiracle.net/tags/ai%E6%8E%A8%E7%90%86/</link>
        <description>Recent content in AI推理 on AI博士 万戈</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Thu, 02 Jul 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://www.yesmiracle.net/tags/ai%E6%8E%A8%E7%90%86/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Google TPU 8 一刀两断：训练和推理为什么必须分家</title>
        <link>https://www.yesmiracle.net/post/20260702-google-tpu-8-training-inference-split/</link>
        <pubDate>Thu, 02 Jul 2026 00:00:00 +0000</pubDate>
        
        <guid>https://www.yesmiracle.net/post/20260702-google-tpu-8-training-inference-split/</guid>
        <description>&lt;img src="https://www.yesmiracle.net/post/20260702-google-tpu-8-training-inference-split/cover.svg" alt="Featured image of post Google TPU 8 一刀两断：训练和推理为什么必须分家" /&gt;&lt;p&gt;Google Cloud Next 2026 上有个消息被很多人忽略了——不是 Gemini 又更新了，不是新 Region 上线了，而是 &lt;strong&gt;TPU 第一次被拆成了两颗芯片。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;不是迭代升级，不是加个 SKU，而是把沿用了八代的统一架构直接劈开。一颗叫 TPU 8t（代号 Sunfish），专攻训练；一颗叫 TPU 8i（代号 Zebrafish），专攻推理。&lt;/p&gt;
&lt;p&gt;干了十年 TPU 的 Google，为什么要做这个决定？&lt;/p&gt;
&lt;h2 id=&#34;需求已经分叉了&#34;&gt;需求已经分叉了&lt;/h2&gt;
&lt;p&gt;2017 年 TPU 刚出来的时候，训练和推理的差别没这么大。你训练一个 Bert，推理它，用的是差不多的计算模式——矩阵乘法，密集计算，一次性跑完。&lt;/p&gt;
&lt;p&gt;但现在的情况完全不同了。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;训练&lt;/strong&gt; 的规模在疯狂膨胀。GPT-4 级别的模型参数量已经是万亿级，训练集群从千卡到了十万卡。训练芯片要的是：互联带宽、高精度浮点、大规模并行。TPU 8t 的定位就是这块。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;推理&lt;/strong&gt; 则走向了另一个方向。尤其是 AI Agent 的兴起——不再是问一句答一句，而是你要推理、规划、调用工具、多步执行，每一步都在推理解码。这要求推理芯片不仅要快，还要&lt;strong&gt;低延迟、高吞吐、成本可控&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;一颗芯片同时满足这两个方向，已经开始吃力了。&lt;/p&gt;
&lt;h2 id=&#34;tpu-8t-和-tpu-8i-各管一摊&#34;&gt;TPU 8t 和 TPU 8i 各管一摊&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;TPU 8t（训练芯片）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;代号 Sunfish&lt;/li&gt;
&lt;li&gt;与 Broadcom 联合设计&lt;/li&gt;
&lt;li&gt;专为万卡级集群优化，强调高带宽互联和 FP8/BF16 矩阵运算&lt;/li&gt;
&lt;li&gt;目标：把万亿参数模型的训练时间从月缩短到周&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;TPU 8i（推理芯片）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;代号 Zebrafish&lt;/li&gt;
&lt;li&gt;与 MediaTek 联合设计&lt;/li&gt;
&lt;li&gt;专为 AI Agent 推理优化，强调低延迟和高吞吐&lt;/li&gt;
&lt;li&gt;目标：让多步推理的响应时间控制在百毫秒级&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这个分工非常有意思。Broadcom 在高速互联领域的积累正好对训练有用，而 MediaTek 在功耗效率和移动端 SoC 的经验正好适合推理场景。Google 选合作伙伴的思路，紧扣了每颗芯片的实际需求。&lt;/p&gt;
&lt;h2 id=&#34;更大的信号ai-硬件正在去通用化&#34;&gt;更大的信号：AI 硬件正在&amp;quot;去通用化&amp;quot;&lt;/h2&gt;
&lt;p&gt;TPU 8 的分裂不是一个孤立事件。它反映的是整个 AI 硬件行业的一个深层趋势：&lt;strong&gt;AI 计算正在从&amp;quot;通用加速器&amp;quot;走向&amp;quot;场景专用芯片&amp;quot;。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;过去大家觉得一块 GPU 能搞定所有事情——训练跑它，推理跑它，甚至科学计算也用同一块 H100。但 AI 的负载分化速度比硬件迭代速度快得多。&lt;/p&gt;
&lt;p&gt;训练和推理对算力的需求曲线完全不同：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;训练&lt;/strong&gt;：峰值算力 × 持续吞吐 → 越猛越好&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;推理&lt;/strong&gt;：响应延迟 × 成本效率 → 够用就行，但要快且便宜&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;你不可能用一把螺丝刀干完电钻和螺丝刀的活。&lt;/p&gt;
&lt;h2 id=&#34;对云上开发者意味着什么&#34;&gt;对云上开发者意味着什么&lt;/h2&gt;
&lt;p&gt;对用 Google Cloud 的人来说，TPU 8 的分裂带来一个直接的好处：&lt;strong&gt;你不用为训练买单的价格去跑推理了。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;TPU 8i 的推理成本预计会比 TPU 8t 低一个数量级。如果你有推理密集型负载（Agent 应用、实时翻译、代码补全），这可能意味着你的云端 GPU 账单直接减半。&lt;/p&gt;
&lt;p&gt;而对于做 MLOps 的人，这意味着两套集群、两套调度策略、两套监控指标。训练集群关注利用率，推理集群关注 P99 延迟。这其实是好事——各管各的，反而更容易优化。&lt;/p&gt;
&lt;h2 id=&#34;写在最后&#34;&gt;写在最后&lt;/h2&gt;
&lt;p&gt;Google 分裂 TPU 8 这个决定，技术上的解读有很多，但我更愿意把它看作一个产业的成人礼。&lt;/p&gt;
&lt;p&gt;当 AI 计算开始细分到训练和推理需要不同的芯片时，说明这个行业已经足够成熟，成熟到不再需要&amp;quot;万能药&amp;quot;。就像通用 CPU 最终分化出 GPU、DPU、NPU 一样，AI 芯片也正在走上同样的路。&lt;/p&gt;
&lt;p&gt;下一代 AI 基础设施的竞争力，可能不再取决于谁的芯片算力最猛，而取决于谁能在正确的地方放正确的芯片。&lt;/p&gt;
&lt;p&gt;TPU 8t 和 TPU 8i 不只是一次芯片发布，他们是 Google 对 AI 硬件未来的一次表态：&lt;strong&gt;分而治之，才是最好的加速。&lt;/strong&gt;&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
