Claude Fable 5 发布,其实就是之前神秘的 Mythos 的 “降权公开版”。同一代基础模型,加了一层安全路由后向所有用户开放。看了一下官方文档和早期测评,以下几点值得大家关注。
官方说法是几乎所有基准(软件工程、知识工作、视觉、科研)全面 SOTA,虽然他们每代模型发布都会说,不稀奇。但真正有意思的是,任务越长、越复杂,模型相对优势就越大。这意味着提升主要不在单轮问答上,而是长程任务的稳定性。错误率随步数累积的曲线被压平了,而这恰恰是 agent 工作流最卡脖子的地方。
Stripe 在 5000 万行的 Ruby 单体仓库上跑全库迁移,原计划整个团队两个多月的手工工作量,Fable 5 一天完成。这项任务的难点不是单文件改写,而是跨模块依赖追踪和迁移一致性,对上下文管理是硬考验。配置上是默认 1M token 上下文窗口、单请求 128k 输出,确实是按超长任务设计的。
关于安全架构,这次的方案也比较少见。高风险领域(网络攻防、生化、模型蒸馏相关)的请求不会被拒答,而是自动路由给 Opus 4.8 代为回答并通知用户,平均触发率低于 5%。等于在能力和风险之间做了运行时分流,而不是训练时一刀切。但漏洞赏金计划 1000+ 小时红队测试,目前没有通用越狱被报告,这个数字需要持续观望,但听起来不错。
Claude Fable 5 定价 $10/$50 每百万输入/输出 token,是 Opus 4.8 的两倍、Mythos Preview 的一半以下。对重输出的 agent 场景,输出 $50 这个数字需要认真算账。
6 月 22 日前 Pro/Max/Team 订阅免费开放,AWS Bedrock 和 GitHub Copilot 已同步上线。建议拿自己的长任务 pipeline 实测,benchmark 数字看看就好。
最后,仍旧是 3D 飞行避障游戏的实测。代码一次性通过,无论是飞机、场景的建模,操作感都相当不错。明显比 Opus 4.8 版(微博正文)要强。