马斯克把 SpaceX 和 Tesla 变成了 Grok 的训练场！1.5T V9 + Cursor 数据飞轮全面启动

Sun, 05 Jul 2026 00:00:00 +0000

你有没有想过，如果让一个 AI 模型在造火箭和造汽车的环境里训练，它会学到什么？

2026 年 6 月 28 日，Elon Musk 在 X 上扔了一枚深水炸弹：Grok 4.5 正式进入 SpaceX 和 Tesla 的私有 Beta 测试。没有公共 API，没有独立基准测试，只有一个 1.5 万亿参数的 V9 基础模型，正在两家地球上最复杂的工业公司内部跑着。这根本不是一次常规的产品发布——这是一套强化学习管道穿上了一个 Beta 版本的马甲。

V9：从零开始，1.5 万亿参数的野心

先聊聊参数规模。当前你在 API 里能调用的 Grok 4.3 基于 V8-small 架构，约 5000 亿参数。五月底发布的 Grok 4.4 升级到了 1 万亿（V8-medium）。而 Grok 4.5 搭载的 V9 直接干到 1.5 万亿参数——是当前生产版本的 3 倍。

但数字只是表象。真正重要的是：V9 是从零开始训练的。不是微调，不是挂 LoRA 适配器。xAI 的 Colossus 2 训练集群——2026 年 4 月上线的全球首个 1.5 吉瓦超算集群——跑了一次完整的从头训练。而且这不是一次性的：xAI 正在这个集群上同时训练 7 个模型变体，参数范围从 1T 到 10T。Grok 5 通往 10 万亿参数的道路已经铺好了。

Cursor 数据：学的是"怎么写代码"，不是"代码长什么样"

这可能是整个故事里最让人兴奋的技术细节。

SpaceX 在 6 月 16 日以 600 亿美元 收购了 Cursor（Anysphere）——这是历史上对风投支持的最大收购。而 Grok 4.5 正是这个交易之后的第一个产物。

大多数编程模型的训练数据来自 GitHub 仓库——它们学的是成品代码。GPT-5.5、Gemini 3 Flash 都是这条路。Cursor 的数据完全不同。Cursor 拥有 100 万+ 付费用户 和 5 万企业客户，它捕获的是代码被提交之前发生的一切：

哪个 AI 生成的建议被接受了、哪个被改写了
开发者是如何经过三次重构才选出最终方案的
真实的 Debug 过程、真实的架构决策、真实的"这个方案不行，换一条路"

研究者把这叫做 “人类开发者思维映射”（Human Developer Thought Mapping）。这跟静态仓库训练有着本质的区别——一个教模型结果长什么样，一个教模型过程怎么走。

目前没有任何其他前沿实验室拥有这个数据集。OpenAI 没有一个八位数用户的代码编辑器。Anthropic 也没有。这就是 xAI 真正的护城河。

SpaceX 和 Tesla：活着的 RLHF 循环

把模型放在 SpaceX 和 Tesla 内部跑，绝不只是"内部吃狗粮"。

每次 SpaceX 的工程师接受或拒绝 Grok 4.5 的建议，那个信号就会回流到训练管道。每次 Tesla 的软件团队使用 Grok 生成代码，产生的反馈也进入下一轮迭代。这本质上是一个工业级的强化学习回路。

想想这个差别：OpenAI 用 ChatGPT 用户做 RLHF，Anthropic 用 Claude.ai 用户。这些是消费级的信号。xAI 的 RLHF 信号来自造火箭和造自动驾驶汽车的一线工程师。信号密度不在一个量级。

更绝的是 xAI 内部的 Grok Build 训练框架——一个强化学习回路，Grok 自己写代码、执行代码、观察测试通过/失败，然后根据客观的执行结果更新权重。测试过就是过，没过就是不过，不存在人类评估者的主观偏好。这个机制在 V9 的训练中被大规模使用，直接决定了 Grok 4.5 代码生成行为的方式。

每月一新模型：xAI 的"月更"节奏

ChaptForest 的报道指出，xAI 最激进的不是 Grok 4.5 本身，而是它的发布策略：从现在到 2026 年底，每个月发布一个从零训练的新基础模型。

对，你没看错。每个月。

V9（5 月 26 日完成预训练）→ Grok 4.5 Beta（6 月 28 日）→ 7 月的新变体 → 8 月、9 月……直到 Grok 5。

这相当于 AI 界的敏捷开发。其他实验室半年到一年发布一个主要版本，xAI 把模型训练做成了一个 CI/CD 管道。

“媲美 Opus”——等等，先别急着信

Musk 的原话是：“内部评估显示 Grok 4.5 的表现接近，可能超过 Claude Opus 4.8。”

值得认真拆解这句话：

Claude Opus 4.8 目前在 SWE-bench Verified 上的得分是 88.6%——2026 年 6 月所有前沿模型的最高公开得分。Grok 4.3（当前公共 API 版本）没有官方 SWE-bench 数字，第三方估计在 75% 左右。这是一个 13 个百分点的差距。

而且评估 Grok 4.5 的工程师是 SpaceX 和 Tesla 的员工——和 xAI 同属一个母公司。这不是独立评测。xAI 以前也做过类似承诺（Grok 4 发布时暗示与 GPT-5.5 同级，独立测试发现差距明显）。

所以"媲美 Opus"可能准确，也可能只是愿景。在独立基准出来之前，把它当一则推文，而不是计分板。

对开发者意味着什么

说点实在的：

现在：Grok 4.3 是你能调用的唯一 xAI 模型。价格 $1.25/$2.50 每百万 token，AWS Bedrock 可用——是目前最便宜的前沿推理模型。xAI 还提供每月 $175 的免费 API 额度（需启用数据共享），是主要供应商里最大方的免费额度。

短期（7-8 月）：Grok 4.5 大概率会在 7 月底到 8 月初公开。基于参数规模定价的惯例（4.3→4.4 的价格阶梯），预计定价在 $2-3/百万输入 token 区间。

中期（Q3-Q4）：每月一个新模型。如果你在评估 AI 基础设施栈，不要把赌注押在单一模型上——xAI 的迭代速度意味着"最佳模型"这个标签每个月都会变。

长期：最大的不确定性是 Cursor 的锁定风险。Cursor 目前保持模型无关，但你得认真思考：当一个代码编辑器的母公司也在卖模型的时候，长期来看它会保持中立吗？

写在最后

Elon Musk 在 2026 年构建的 AI 版图，正在形成一个前所未有的闭环：Colossus 超算 → 训练 V9 → 部署到 SpaceX/Tesla → 收集工程反馈 → 训练 V9.1 → 再部署。每转一圈，数据飞轮就加速一点。

其他实验室有更好的模型。但 xAI 有更好的训练机器——不是 GPU，而是整个 SpaceX 和 Tesla 的工程体系。这才是 Grok 4.5 背后真正值得关注的事情。

下一个问题是：当这架飞轮全速运转的时候，其他玩家跟得上吗？

SpaceX on AI博士 万戈