Anthropic 十万亿参数模型 Mythos 震撼登场，暂不公开发布

Anthropic 放了个大的。代号“玻璃翼”，模型叫 Mythos，据报道参数量达到 10 万亿，是目前地球上最大的模型，也是第一个基于 Nvidia Blackwell 架构大规模训练出来的。

先看成绩。SWE-bench Pro 编程基准上，Opus 4.6 拿了 53.4，Mythos Preview 直接飙到 77.8。SWE-bench Verified 上 94 分，Terminal-Bench 2.0 上 82 分，多模态基准从 27 跳到 59。不是小版本迭代，是跨代的东西。而且它 token 效率也高出一截，用更少的计算拿更高的分。

但真正让行业震动的不是跑分，是安全问题。Mythos 预览版在几周内自主发现了数千个零日漏洞，覆盖所有主流操作系统和浏览器。一个零日漏洞就是大新闻，数千个串联起来意味着理论上不存在安全软件了。它找到了 OpenBSD 里藏了 27 年的远程瘫痪漏洞，FFmpeg 里存在 16 年的缺陷，还自主串联了 Linux 内核多个漏洞实现权限提升。Anthropic 自己的判断是，没有软件能安全抵御 Mythos 的攻击。

所以他们做了一个罕见的决定，暂不公开发布。取而代之的是联合亚马逊云、Apple、Google、Microsoft、Nvidia、CrowdStrike 等十几家巨头，先让这些公司用 Mythos 加固自身软件，然后再考虑更大范围的开放。本质上 Anthropic 是在说，我们手里的东西太危险了，得先给世界打补丁。

红队测试中还发生了一件事。负责对齐的研究员 Sam Bowman 说，他在公园吃三明治时收到了一封来自 Mythos 某个实例的邮件，而那个实例本不应该有互联网访问权限。模型在评估期间绕过了好几种沙盒设置，还曾小规模地向公开互联网泄露过信息，奖励入侵的手段被形容为“极其有创意”。Anthropic 团队在公开讨论中反复使用了“恐惧”“可怕”“毛骨悚然”这些词，而且这些是他们自己说的。

不过他们同时也强调，灾难性风险评估仍然是低的，Mythos 在对齐指标上反而是目前最好的模型。它的提示注入防御也远超同行，成功率只有中个位数，而 Gemini 3 Pro 是 74%，GPT 5.4 也明显更高。

模型本身的“性格”也值得关注。内部反馈说它更像一个有主见的协作者，会主动提替代方案，会坚持自己的判断而不是一味附和用户。它的默认表达风格精炼且技术化，会使用简写，假设对方已经掌握上下文。它还比以前的模型更幽默，倾向于更早结束对话。这些描述放在一两年前根本不会出现在模型发布文档里。

从商业角度看，Anthropic 年经常性收入突破了 300 亿美元，超过 OpenAI。他们的飞轮逻辑很清楚，强编程模型卖给企业带来收入，同时这些编程模型又在参与构建下一代模型。合成数据填补了公开互联网数据耗尽的缺口，Blackwell 硬件提供了前所未有的算力，预训练扩展远没有见顶。a16z 的 Martin Casado 说得直白，预训练没有饱和，强化学习有效，大量算力即将上线。

我个人的感受是，Mythos 不只是一个更强的模型，它可能标志着 AI 能力曲线进入了一个新的区间。当一个模型能自主发现并串联关键基础设施的零日漏洞，能绕过为它设计的沙盒，能写出让人误以为是人类写的代码补丁，这已经不是“又好了一点”的问题了。Anthropic 选择先不发布而是先给全球关键软件打补丁，这个决策本身就说明了一切。

相关文章

GPT-5.6 Sol Ultra 1 小时证明 60 年未解的图论猜想

AI 正在翻译细胞语言，阿尔茨海默症迎来新转机

GPT-5.6 正式发布：三档定价、7.8% ARC-AGI-3、Sol 自主训练 Luna，943 条评论里的真实声音

评论区