<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>AI基础设施 on AI博士 万戈</title>
        <link>https://www.yesmiracle.net/categories/ai%E5%9F%BA%E7%A1%80%E8%AE%BE%E6%96%BD/</link>
        <description>Recent content in AI基础设施 on AI博士 万戈</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Thu, 02 Jul 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://www.yesmiracle.net/categories/ai%E5%9F%BA%E7%A1%80%E8%AE%BE%E6%96%BD/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Google TPU 8 一刀两断：训练和推理为什么必须分家</title>
        <link>https://www.yesmiracle.net/post/20260702-google-tpu-8-training-inference-split/</link>
        <pubDate>Thu, 02 Jul 2026 00:00:00 +0000</pubDate>
        
        <guid>https://www.yesmiracle.net/post/20260702-google-tpu-8-training-inference-split/</guid>
        <description>&lt;img src="https://www.yesmiracle.net/post/20260702-google-tpu-8-training-inference-split/cover.svg" alt="Featured image of post Google TPU 8 一刀两断：训练和推理为什么必须分家" /&gt;&lt;p&gt;Google Cloud Next 2026 上有个消息被很多人忽略了——不是 Gemini 又更新了，不是新 Region 上线了，而是 &lt;strong&gt;TPU 第一次被拆成了两颗芯片。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;不是迭代升级，不是加个 SKU，而是把沿用了八代的统一架构直接劈开。一颗叫 TPU 8t（代号 Sunfish），专攻训练；一颗叫 TPU 8i（代号 Zebrafish），专攻推理。&lt;/p&gt;
&lt;p&gt;干了十年 TPU 的 Google，为什么要做这个决定？&lt;/p&gt;
&lt;h2 id=&#34;需求已经分叉了&#34;&gt;需求已经分叉了&lt;/h2&gt;
&lt;p&gt;2017 年 TPU 刚出来的时候，训练和推理的差别没这么大。你训练一个 Bert，推理它，用的是差不多的计算模式——矩阵乘法，密集计算，一次性跑完。&lt;/p&gt;
&lt;p&gt;但现在的情况完全不同了。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;训练&lt;/strong&gt; 的规模在疯狂膨胀。GPT-4 级别的模型参数量已经是万亿级，训练集群从千卡到了十万卡。训练芯片要的是：互联带宽、高精度浮点、大规模并行。TPU 8t 的定位就是这块。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;推理&lt;/strong&gt; 则走向了另一个方向。尤其是 AI Agent 的兴起——不再是问一句答一句，而是你要推理、规划、调用工具、多步执行，每一步都在推理解码。这要求推理芯片不仅要快，还要&lt;strong&gt;低延迟、高吞吐、成本可控&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;一颗芯片同时满足这两个方向，已经开始吃力了。&lt;/p&gt;
&lt;h2 id=&#34;tpu-8t-和-tpu-8i-各管一摊&#34;&gt;TPU 8t 和 TPU 8i 各管一摊&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;TPU 8t（训练芯片）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;代号 Sunfish&lt;/li&gt;
&lt;li&gt;与 Broadcom 联合设计&lt;/li&gt;
&lt;li&gt;专为万卡级集群优化，强调高带宽互联和 FP8/BF16 矩阵运算&lt;/li&gt;
&lt;li&gt;目标：把万亿参数模型的训练时间从月缩短到周&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;TPU 8i（推理芯片）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;代号 Zebrafish&lt;/li&gt;
&lt;li&gt;与 MediaTek 联合设计&lt;/li&gt;
&lt;li&gt;专为 AI Agent 推理优化，强调低延迟和高吞吐&lt;/li&gt;
&lt;li&gt;目标：让多步推理的响应时间控制在百毫秒级&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这个分工非常有意思。Broadcom 在高速互联领域的积累正好对训练有用，而 MediaTek 在功耗效率和移动端 SoC 的经验正好适合推理场景。Google 选合作伙伴的思路，紧扣了每颗芯片的实际需求。&lt;/p&gt;
&lt;h2 id=&#34;更大的信号ai-硬件正在去通用化&#34;&gt;更大的信号：AI 硬件正在&amp;quot;去通用化&amp;quot;&lt;/h2&gt;
&lt;p&gt;TPU 8 的分裂不是一个孤立事件。它反映的是整个 AI 硬件行业的一个深层趋势：&lt;strong&gt;AI 计算正在从&amp;quot;通用加速器&amp;quot;走向&amp;quot;场景专用芯片&amp;quot;。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;过去大家觉得一块 GPU 能搞定所有事情——训练跑它，推理跑它，甚至科学计算也用同一块 H100。但 AI 的负载分化速度比硬件迭代速度快得多。&lt;/p&gt;
&lt;p&gt;训练和推理对算力的需求曲线完全不同：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;训练&lt;/strong&gt;：峰值算力 × 持续吞吐 → 越猛越好&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;推理&lt;/strong&gt;：响应延迟 × 成本效率 → 够用就行，但要快且便宜&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;你不可能用一把螺丝刀干完电钻和螺丝刀的活。&lt;/p&gt;
&lt;h2 id=&#34;对云上开发者意味着什么&#34;&gt;对云上开发者意味着什么&lt;/h2&gt;
&lt;p&gt;对用 Google Cloud 的人来说，TPU 8 的分裂带来一个直接的好处：&lt;strong&gt;你不用为训练买单的价格去跑推理了。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;TPU 8i 的推理成本预计会比 TPU 8t 低一个数量级。如果你有推理密集型负载（Agent 应用、实时翻译、代码补全），这可能意味着你的云端 GPU 账单直接减半。&lt;/p&gt;
&lt;p&gt;而对于做 MLOps 的人，这意味着两套集群、两套调度策略、两套监控指标。训练集群关注利用率，推理集群关注 P99 延迟。这其实是好事——各管各的，反而更容易优化。&lt;/p&gt;
&lt;h2 id=&#34;写在最后&#34;&gt;写在最后&lt;/h2&gt;
&lt;p&gt;Google 分裂 TPU 8 这个决定，技术上的解读有很多，但我更愿意把它看作一个产业的成人礼。&lt;/p&gt;
&lt;p&gt;当 AI 计算开始细分到训练和推理需要不同的芯片时，说明这个行业已经足够成熟，成熟到不再需要&amp;quot;万能药&amp;quot;。就像通用 CPU 最终分化出 GPU、DPU、NPU 一样，AI 芯片也正在走上同样的路。&lt;/p&gt;
&lt;p&gt;下一代 AI 基础设施的竞争力，可能不再取决于谁的芯片算力最猛，而取决于谁能在正确的地方放正确的芯片。&lt;/p&gt;
&lt;p&gt;TPU 8t 和 TPU 8i 不只是一次芯片发布，他们是 Google 对 AI 硬件未来的一次表态：&lt;strong&gt;分而治之，才是最好的加速。&lt;/strong&gt;&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Meta 也要做云？社交巨头卖算力，云计算格局要变天了</title>
        <link>https://www.yesmiracle.net/post/20260702-meta-cloud-compute-ai-infrastructure/</link>
        <pubDate>Thu, 02 Jul 2026 00:00:00 +0000</pubDate>
        
        <guid>https://www.yesmiracle.net/post/20260702-meta-cloud-compute-ai-infrastructure/</guid>
        <description>&lt;img src="https://www.yesmiracle.net/post/20260702-meta-cloud-compute-ai-infrastructure/cover.svg" alt="Featured image of post Meta 也要做云？社交巨头卖算力，云计算格局要变天了" /&gt;&lt;p&gt;如果你关注云计算市场，昨天晚上 Bloomberg 爆出的那条消息绝对值得多看两眼。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Meta 正在秘密打造一个云业务。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;不是那种&amp;quot;在云上跑自己的业务&amp;quot;，而是真刀真枪地要把过剩的 AI 算力卖给第三方。这个内部代号为 &lt;strong&gt;Meta Compute&lt;/strong&gt; 的项目，由 Meta 基础设施负责人 Santosh Janardhan 牵头，目标直指 AWS、Azure 和 Google Cloud 的地盘。&lt;/p&gt;
&lt;p&gt;消息一出，Meta 股价盘前飙升 8.6%，而靠 GPU 租赁起家的 CoreWeave 应声暴跌了近 10%。&lt;/p&gt;
&lt;h2 id=&#34;算力多到用不完也是一种烦恼&#34;&gt;算力多到用不完，也是一种烦恼&lt;/h2&gt;
&lt;p&gt;Meta 到底有多少算力？&lt;/p&gt;
&lt;p&gt;看看数字：&lt;strong&gt;2026 年 Q1 单季资本支出 198 亿美元，全年预估 1250-1450 亿美元。&lt;/strong&gt; 这些钱砸向了 Prometheus 和 Hyperion 超级集群，目标总功率超过 6GW——相当于好几个核电站的出力。&lt;/p&gt;
&lt;p&gt;问题来了：Llama 模型的训练和推理用不了这么多。那些花了几百亿买来的 H100/B200 集群，空闲就是浪费。&lt;/p&gt;
&lt;p&gt;扎克伯格在今年 5 月的股东电话会上其实已经打过预防针：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&amp;ldquo;几乎每周都有外部公司找上门，问我们能不能提供 API 服务，或者有没有多余的算力可以卖……我们之前没这么做，是因为觉得自己用得完。但如果我们确实建多了，这确实是个选项。&amp;rdquo;&lt;/p&gt;&lt;/blockquote&gt;
&lt;p&gt;这话在当时没引起太大波澜。现在回头看，Meta Compute 的项目显然早就秘密启动了。&lt;/p&gt;
&lt;h2 id=&#34;两条腿走路&#34;&gt;两条腿走路&lt;/h2&gt;
&lt;p&gt;根据 Bloomberg 的报道，Meta Compute 的商业模式分成两条线：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第一条：模型即服务（Model-as-a-Service）&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;有点像 AWS Bedrock。Meta 把自己的 Muse Spark 系列模型托管在自己的基础设施上，对外提供 API 调用。企业不用管底层 GPU 集群和网络拓扑，直接调接口就行。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第二条：裸算力租赁（Raw Compute）&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这就是 CoreWeave 正在做的事情——把 GPU 算力当水电煤一样卖。Meta 如果走这条路，直接跟 CoreWeave 正面竞争，而后者正是 Meta 目前的算力供应商之一。&lt;/p&gt;
&lt;p&gt;这种&amp;quot;一边从你那里买算力，一边跟你抢生意&amp;quot;的操作，在科技圈也不是头一回了。&lt;/p&gt;
&lt;h2 id=&#34;这不是孤例&#34;&gt;这不是孤例&lt;/h2&gt;
&lt;p&gt;Meta 的算力变现计划并非孤立事件。一个更大的趋势正在形成：&lt;strong&gt;AI 基础设施不再是成本中心，正在变成独立的营收引擎。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Elon Musk 的 xAI（通过 SpaceX）已经在把孟菲斯数据中心的闲置算力租给 Anthropic。Bloomberg Intelligence 估算，这笔生意到 2028 年可能产生超过 500 亿美元的收入，2030 年突破 1000 亿。&lt;/p&gt;
&lt;p&gt;想想看，那些为了训练大模型而建设的超大规模集群，一旦训练完成，推理负载又填不满的时候，把空余算力变现几乎是必然的选择。&lt;/p&gt;
&lt;h2 id=&#34;对行业意味着什么&#34;&gt;对行业意味着什么&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;对云厂商来说&lt;/strong&gt;，这是一个明确的信号：GPU 算力的供给池正在扩大。AWS/Azure/GCP 不再是唯一的选择，Meta Compute 可能带来更激进的价格竞争。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;对企业来说&lt;/strong&gt;，选择变多了。但 Meta 的企业级服务能力是个问号——它不像 AWS 有十几年积累的合规体系、SLA 和生态圈。卖算力不难，难的是让 CIO 信任你。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;对 DevOps/SRE 团队来说&lt;/strong&gt;，多一个云 provider 意味着多一套 Terraform provider、多一组监控指标、多一种故障模式。好消息是 Meta 的 infra 团队用的是标准化的以太网架构和开放生态，迁移成本理论上比想象中低。&lt;/p&gt;
&lt;h2 id=&#34;写在最后&#34;&gt;写在最后&lt;/h2&gt;
&lt;p&gt;Meta Compute 目前还处于内部规划阶段，没有正式产品发布，没有定价，甚至还没有一个公开的官网。&lt;/p&gt;
&lt;p&gt;但这件事本身的意义已经超越了 Meta 一家公司。&lt;/p&gt;
&lt;p&gt;它标志着 AI 算力从一个&amp;quot;内部资源&amp;quot;正在变成&amp;quot;可交易商品&amp;quot;。当每个拥有超大规模 GPU 集群的公司都开始思考&amp;quot;要不要顺便做个云生意&amp;quot;的时候，整个云计算市场的游戏规则可能会被重新书写。&lt;/p&gt;
&lt;p&gt;未来 12 个月，我会盯紧这三件事：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Meta Compute 的第一份定价表——按 token 还是按 GPU 小时？&lt;/li&gt;
&lt;li&gt;第一个公开客户——是哪家 AI 创业公司愿意第一个吃螃蟹？&lt;/li&gt;
&lt;li&gt;竞争对手的反应——CoreWeave 是被打趴还是被收购？&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;变天的时候，站对了位置比什么都重要。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
