你有没有想过,如果让一个 AI 模型在造火箭和造汽车的环境里训练,它会学到什么?
2026 年 6 月 28 日,Elon Musk 在 X 上扔了一枚深水炸弹:Grok 4.5 正式进入 SpaceX 和 Tesla 的私有 Beta 测试。没有公共 API,没有独立基准测试,只有一个 1.5 万亿参数的 V9 基础模型,正在两家地球上最复杂的工业公司内部跑着。这根本不是一次常规的产品发布——这是一套强化学习管道穿上了一个 Beta 版本的马甲。
V9:从零开始,1.5 万亿参数的野心
先聊聊参数规模。当前你在 API 里能调用的 Grok 4.3 基于 V8-small 架构,约 5000 亿参数。五月底发布的 Grok 4.4 升级到了 1 万亿(V8-medium)。而 Grok 4.5 搭载的 V9 直接干到 1.5 万亿参数——是当前生产版本的 3 倍。
但数字只是表象。真正重要的是:V9 是从零开始训练的。不是微调,不是挂 LoRA 适配器。xAI 的 Colossus 2 训练集群——2026 年 4 月上线的全球首个 1.5 吉瓦超算集群——跑了一次完整的从头训练。而且这不是一次性的:xAI 正在这个集群上同时训练 7 个模型变体,参数范围从 1T 到 10T。Grok 5 通往 10 万亿参数的道路已经铺好了。
Cursor 数据:学的是"怎么写代码",不是"代码长什么样"
这可能是整个故事里最让人兴奋的技术细节。
SpaceX 在 6 月 16 日以 600 亿美元 收购了 Cursor(Anysphere)——这是历史上对风投支持的最大收购。而 Grok 4.5 正是这个交易之后的第一个产物。
大多数编程模型的训练数据来自 GitHub 仓库——它们学的是成品代码。GPT-5.5、Gemini 3 Flash 都是这条路。Cursor 的数据完全不同。Cursor 拥有 100 万+ 付费用户 和 5 万企业客户,它捕获的是代码被提交 之前 发生的一切:
- 哪个 AI 生成的建议被接受了、哪个被改写了
- 开发者是如何经过三次重构才选出最终方案的
- 真实的 Debug 过程、真实的架构决策、真实的"这个方案不行,换一条路"
研究者把这叫做 “人类开发者思维映射”(Human Developer Thought Mapping)。这跟静态仓库训练有着本质的区别——一个教模型结果长什么样,一个教模型过程怎么走。
目前没有任何其他前沿实验室拥有这个数据集。OpenAI 没有一个八位数用户的代码编辑器。Anthropic 也没有。这就是 xAI 真正的护城河。
SpaceX 和 Tesla:活着的 RLHF 循环
把模型放在 SpaceX 和 Tesla 内部跑,绝不只是"内部吃狗粮"。
每次 SpaceX 的工程师接受或拒绝 Grok 4.5 的建议,那个信号就会回流到训练管道。每次 Tesla 的软件团队使用 Grok 生成代码,产生的反馈也进入下一轮迭代。这本质上是一个工业级的强化学习回路。
想想这个差别:OpenAI 用 ChatGPT 用户做 RLHF,Anthropic 用 Claude.ai 用户。这些是消费级的信号。xAI 的 RLHF 信号来自造火箭和造自动驾驶汽车的一线工程师。信号密度不在一个量级。
更绝的是 xAI 内部的 Grok Build 训练框架——一个强化学习回路,Grok 自己写代码、执行代码、观察测试通过/失败,然后根据客观的执行结果更新权重。测试过就是过,没过就是不过,不存在人类评估者的主观偏好。这个机制在 V9 的训练中被大规模使用,直接决定了 Grok 4.5 代码生成行为的方式。
每月一新模型:xAI 的"月更"节奏
ChaptForest 的报道指出,xAI 最激进的不是 Grok 4.5 本身,而是它的发布策略:从现在到 2026 年底,每个月发布一个从零训练的新基础模型。
对,你没看错。每个月。
V9(5 月 26 日完成预训练)→ Grok 4.5 Beta(6 月 28 日)→ 7 月的新变体 → 8 月、9 月……直到 Grok 5。
这相当于 AI 界的敏捷开发。其他实验室半年到一年发布一个主要版本,xAI 把模型训练做成了一个 CI/CD 管道。
“媲美 Opus”——等等,先别急着信
Musk 的原话是:“内部评估显示 Grok 4.5 的表现接近,可能超过 Claude Opus 4.8。”
值得认真拆解这句话:
Claude Opus 4.8 目前在 SWE-bench Verified 上的得分是 88.6%——2026 年 6 月所有前沿模型的最高公开得分。Grok 4.3(当前公共 API 版本)没有官方 SWE-bench 数字,第三方估计在 75% 左右。这是一个 13 个百分点的差距。
而且评估 Grok 4.5 的工程师是 SpaceX 和 Tesla 的员工——和 xAI 同属一个母公司。这不是独立评测。xAI 以前也做过类似承诺(Grok 4 发布时暗示与 GPT-5.5 同级,独立测试发现差距明显)。
所以"媲美 Opus"可能准确,也可能只是愿景。在独立基准出来之前,把它当一则推文,而不是计分板。
对开发者意味着什么
说点实在的:
现在:Grok 4.3 是你能调用的唯一 xAI 模型。价格 $1.25/$2.50 每百万 token,AWS Bedrock 可用——是目前最便宜的前沿推理模型。xAI 还提供每月 $175 的免费 API 额度(需启用数据共享),是主要供应商里最大方的免费额度。
短期(7-8 月):Grok 4.5 大概率会在 7 月底到 8 月初公开。基于参数规模定价的惯例(4.3→4.4 的价格阶梯),预计定价在 $2-3/百万输入 token 区间。
中期(Q3-Q4):每月一个新模型。如果你在评估 AI 基础设施栈,不要把赌注押在单一模型上——xAI 的迭代速度意味着"最佳模型"这个标签每个月都会变。
长期:最大的不确定性是 Cursor 的锁定风险。Cursor 目前保持模型无关,但你得认真思考:当一个代码编辑器的母公司也在卖模型的时候,长期来看它会保持中立吗?
写在最后
Elon Musk 在 2026 年构建的 AI 版图,正在形成一个前所未有的闭环:Colossus 超算 → 训练 V9 → 部署到 SpaceX/Tesla → 收集工程反馈 → 训练 V9.1 → 再部署。每转一圈,数据飞轮就加速一点。
其他实验室有更好的模型。但 xAI 有更好的训练机器——不是 GPU,而是整个 SpaceX 和 Tesla 的工程体系。这才是 Grok 4.5 背后真正值得关注的事情。
下一个问题是:当这架飞轮全速运转的时候,其他玩家跟得上吗?