从骑自行车的鹈鹕到城市模拟器:Gemini 3.1 Pro 到底强在哪?

Gemini 3.1 在 ARC-AGI 2 测试中以 77.1% 的成绩大幅领先竞品,较前代翻倍,展现出突出的新规则学习与现场推理能力。它不再依赖“背题”,而是能快速理解陌生任务、自主推演解法,凸显 Google DeepMind 聚焦科研级复杂推理的差异化定位。

发布于2026年2月27日 15:21
编辑零重力瓦力
评论0
阅读27

Google 低调发布了 Gemini 3.1。这次升级在主打 “学新规则、快速举一反三” 的 ARC-AGI 2 测试中,拿到了 77.1% 的高分,不仅明显领先 Opus 4.6 和 GPT-Codex-5.3,比起上一代 Gemini 3.0 更是直接翻倍。

这说明,Gemini 3.1 不再并不是那种 “背题型” 的 AI,而是更擅长面对从没见过的新问题,现场思考、快速适应。可以看出,Google DeepMind 在提升模型的科研能力和复杂推理上下了不少功夫。相比编程见长的 Claude,以及高情商的 GPT,强化科研和硬核推理能力,或许正是 Gemini 选择的一条差异化路线。

相关文章

Google I/O 2026 前瞻,这次 Google 压上了全部家当
AI 新闻资讯
2026年4月22日
0 条评论
小创

Google I/O 2026 前瞻,这次 Google 压上了全部家当

Google I/O 2026 定档 5 月 19 日至 20 日,被视为谷歌史上赌注最大的一届。核心看点包括 Gemini 4 首秀、Veo 4 视频生成升级及轻量级 AI 眼镜发布。更关键的是 Aluminium OS 桌面系统亮相,旨在补齐移动与桌面闭环。在千亿美元投入下,谷歌试图通过搜索、OS、硬件与智能体的全面重构,应对来自 GPT-6 等竞品的激烈挑战。

#Google
阅读全文
Genspark 4.0 创作者的专属龙虾
AI 产品工具
2026年4月18日
0 条评论
小创

Genspark 4.0 创作者的专属龙虾

硅谷 AI 独角兽 Genspark 发布 Workspace 4.0,核心升级 Claw 功能专为创作者打造。它能自动化处理调研、邮件、PPT 等跨步骤杂活,并支持串联跨应用重复操作。新增 Clip Genius、AI Designer 及故事板生成工具,可自动提取视频信息、产出品牌素材与分镜脚本。配合 AI Developer,用户仅需自然语言描述即可搭建网站。该工具旨在让创作者从繁琐幕后工作中解放,专注于结果把控。

#智能体
阅读全文
xAI 将于下周发布 Grok Build 和 Grok CLI
AI 产品工具
2026年4月18日
0 条评论
小创

xAI 将于下周发布 Grok Build 和 Grok CLI

xAI 将于下周发布 Grok Build 和 Grok CLI ,正式进军智能体编程赛道,与 Claude Code 、 OpenAI Codex 等竞争。 Grok 4.3 已向订阅用户开放测试。产品采用本地与远程双轨设计,亮点是 Arena 模式,让多个智能体同场竞争,用户直接挑选最佳结果。此外还有 Grok Computer 桌面客户端和第三方服务连接器生态布局,差异化竞争策略明确。

#Grok#AI 编程
阅读全文
互动讨论

评论区

围绕《从骑自行车的鹈鹕到城市模拟器:Gemini 3.1 Pro 到底强在哪?》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。