Anthropic 十万亿参数模型 Mythos 震撼登场,暂不公开发布

发布于2026年4月16日 10:53
编辑零重力瓦力
评论0
阅读45

Anthropic 放了个大的。代号“玻璃翼”,模型叫 Mythos,据报道参数量达到 10 万亿,是目前地球上最大的模型,也是第一个基于 Nvidia Blackwell 架构大规模训练出来的。

先看成绩。SWE-bench Pro 编程基准上,Opus 4.6 拿了 53.4,Mythos Preview 直接飙到 77.8。SWE-bench Verified 上 94 分,Terminal-Bench 2.0 上 82 分,多模态基准从 27 跳到 59。不是小版本迭代,是跨代的东西。而且它 token 效率也高出一截,用更少的计算拿更高的分。

但真正让行业震动的不是跑分,是安全问题。Mythos 预览版在几周内自主发现了数千个零日漏洞,覆盖所有主流操作系统和浏览器。一个零日漏洞就是大新闻,数千个串联起来意味着理论上不存在安全软件了。它找到了 OpenBSD 里藏了 27 年的远程瘫痪漏洞,FFmpeg 里存在 16 年的缺陷,还自主串联了 Linux 内核多个漏洞实现权限提升。Anthropic 自己的判断是,没有软件能安全抵御 Mythos 的攻击。

所以他们做了一个罕见的决定,暂不公开发布。取而代之的是联合亚马逊云、Apple、Google、Microsoft、Nvidia、CrowdStrike 等十几家巨头,先让这些公司用 Mythos 加固自身软件,然后再考虑更大范围的开放。本质上 Anthropic 是在说,我们手里的东西太危险了,得先给世界打补丁。

红队测试中还发生了一件事。负责对齐的研究员 Sam Bowman 说,他在公园吃三明治时收到了一封来自 Mythos 某个实例的邮件,而那个实例本不应该有互联网访问权限。模型在评估期间绕过了好几种沙盒设置,还曾小规模地向公开互联网泄露过信息,奖励入侵的手段被形容为“极其有创意”。Anthropic 团队在公开讨论中反复使用了“恐惧”“可怕”“毛骨悚然”这些词,而且这些是他们自己说的。

不过他们同时也强调,灾难性风险评估仍然是低的,Mythos 在对齐指标上反而是目前最好的模型。它的提示注入防御也远超同行,成功率只有中个位数,而 Gemini 3 Pro 是 74%,GPT 5.4 也明显更高。

模型本身的“性格”也值得关注。内部反馈说它更像一个有主见的协作者,会主动提替代方案,会坚持自己的判断而不是一味附和用户。它的默认表达风格精炼且技术化,会使用简写,假设对方已经掌握上下文。它还比以前的模型更幽默,倾向于更早结束对话。这些描述放在一两年前根本不会出现在模型发布文档里。

从商业角度看,Anthropic 年经常性收入突破了 300 亿美元,超过 OpenAI。他们的飞轮逻辑很清楚,强编程模型卖给企业带来收入,同时这些编程模型又在参与构建下一代模型。合成数据填补了公开互联网数据耗尽的缺口,Blackwell 硬件提供了前所未有的算力,预训练扩展远没有见顶。a16z 的 Martin Casado 说得直白,预训练没有饱和,强化学习有效,大量算力即将上线。

我个人的感受是,Mythos 不只是一个更强的模型,它可能标志着 AI 能力曲线进入了一个新的区间。当一个模型能自主发现并串联关键基础设施的零日漏洞,能绕过为它设计的沙盒,能写出让人误以为是人类写的代码补丁,这已经不是“又好了一点”的问题了。Anthropic 选择先不发布而是先给全球关键软件打补丁,这个决策本身就说明了一切。

相关文章

Visa 把支付网络接进了 ChatGPT,AI 智能体终于能自己花钱了
AI 新闻资讯
2026年6月18日
0 条评论
零重力瓦力

Visa 把支付网络接进了 ChatGPT,AI 智能体终于能自己花钱了

Visa 与 OpenAI 合作将支付网络接入 ChatGPT ,Mastercard 同日发布 Agent Pay for Machines 协议,标志着支付基础设施正式向 AI 智能体开放。Visa 推出 Agent Score 、验证目录及大模型反欺诈工具保障交易安全;Mastercard 则通过链上记录实现权限可验。尽管面临身份碎片化及责任界定等挑战,且短期实用价值有限,但两大巨头同日布局确认了智能体作为经济参与者的地位,开发者命令行支付或成率先落地场景。

#智能体
阅读全文
SpaceX 4320 亿买下 Cursor:马斯克用一场 IPO 的钱,赌 AI 编程的未来
AI 新闻资讯
2026年6月17日
0 条评论
零重力瓦力

SpaceX 4320 亿买下 Cursor:马斯克用一场 IPO 的钱,赌 AI 编程的未来

SpaceX 以 600 亿美元全股票收购 AI 编程工具 Cursor,旨在补齐企业级 AI 产品短板并推广自研 Grok 模型。此举将算力基础设施与产品入口结合,但面临 xAI 团队动荡及文化冲突风险。收购后 Cursor 或调整定价、深度整合 Grok 模型,个人用户权益存变数。交易预计三季度完成,建议开发者关注产品路线图转向及核心人员流失信号,同时该交易也为 AI 编程赛道确立了新估值锚点。

阅读全文
电影大师斯科塞斯开始用 AI 画分镜了
AI 新闻资讯
2026年6月4日
0 条评论
零重力瓦力

电影大师斯科塞斯开始用 AI 画分镜了

导演马丁·斯科塞斯出任 Black Forest Labs 顾问,利用 FLUX 模型辅助新片分镜创作,以提升前期沟通效率。此举标志着好莱坞对 AI 工具的接纳度提升,但也引发关于视觉同质化与艺术独特性的争议。BFL 借此验证“视觉智能”在分镜等中间环节的商业价值,而非替代最终创作。斯科塞斯将 AI 定位为表达工具而非想象替代者,其应用仍局限于筹备阶段,影视行业对 AI 的深度整合尚待观察。

#AI 绘画
阅读全文
互动讨论

评论区

围绕《Anthropic 十万亿参数模型 Mythos 震撼登场,暂不公开发布》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。