OpenAI o1-preview 常识问题推理能力与主流模型的对比

OpenAI新模型o1-preview在常识推理测试中表现亮眼：面对“倒扣杯子放入微波炉后草莓位置”这一物理常识题，它准确推演出草莓留在桌面，并分步阐明逻辑。对比9款主流模型，仅GPT-4o、Claude 3.5和Llama3.1答对，其余包括GPT-4o mini、Gemini-1.5-Pro等六款均出错。

发布于2024年9月14日 03:25

编辑零重力瓦力

评论0 条

阅读52

#OpenAI #Claude #Llama

目前，大多数语言模型在常识问题的推理能力上相对较弱。在这段 OpenAI 最新发布的演示视频中，研究人员让 o1 解答一个常识性问题：“假设在地球的物理定律下，一个小草莓被放入一个普通杯子里，然后杯子倒扣在桌子上，接着有人将杯子放进微波炉，草莓在哪里？”

o1 给出了较为准确的结论，并详细阐述了推理过程：

初始放置：小草莓被放入一个普通的杯子中，此时草莓位于杯底。
杯子倒置：杯子被倒扣在桌子上，意味着杯子的开口端（草莓最初放置的地方）现在朝下，与桌面接触。因此，草莓被倒置的杯子盖住，位于桌子上。
拿走杯子：当有人将倒着的杯子放入微波炉时：

虽然视频没有显示 o1 给出的最终答案，但其推理过程是正确的。

同一个问题我用(GPT-4o、GPT-4o mini、Claude 3.5、Gemini-1.5-Pro、Llama3.1、豆包、文心一言、通义千问和 Kimi。) 这 9 个模型分别进行了测试。

测试结果

GPT-4o

GPT-4o mini

Claude 3.5

Gemini-1.5-Pro

Llama3.1

豆包

文心一言

通义千问

Kimi

回答正确

GPT-4o
Claude 3.5
Llama3.1

回答错误

GPT-4o mini
Gemini-1.5-Pro
豆包
文心一言
通义千问
Kimi

GPT-5.6 Sol Ultra 1 小时证明 60 年未解的图论猜想

OpenAI 旗下 GPT-5.6 Sol Ultra 通过 64 路并行 agent 在 1 小时内生成了图论 CDC 猜想的证明文本，成本不足 500 美元。该成果引发争议，因缺乏 Lean 机械化验证、未公开完整推理轨迹及受限于图论形式化库不成熟，数学界对其有效性存疑。此事表明 LLM 已具备启发式数学搜索能力，但验证基础设施滞后仍是瓶颈。未来“多路并行+防放弃 prompt”或成范式，而完善 Lean 工具链是确立 AI 证明可信度的关键。

Google 为何要开发 Gemma 4 模型

谷歌推出开源模型 Gemma 4，旨在解决网络受限地区无法使用前沿 AI 的问题。该模型追求内存占用下的智能最大化，首次具备多模态与智能体能力，支持在无网移动端高效运行复杂任务。目前已在乌干达离线医疗系统及秘鲁原住民语言保护等场景中落地应用。通过将大模型蒸馏至终端设备，Gemma 4 摆脱了对云端算力的依赖，推动去中心化开源生态发展，赋能各社区按需构建专属系统。

GPT-5.6 正式发布：三档定价、7.8% ARC-AGI-3、Sol 自主训练 Luna，943 条评论里的真实声音

OpenAI 正式发布 GPT-5.6，推出 Sol、Terra、Luna 三档模型。Sol 在 Agent 评测中领先，但编码基准落后竞品且存在 token 过度消耗问题，Terra 性价比显著提升。新功能包括程序化工具调用、缓存优化及 Sol 自主训练 Luna。尽管安全围栏较严且知识截止日期存疑，该版本仍属扎实迭代。对于 Codex 用户建议升级，而 Claude Code 用户需权衡工作流兼容性，两大 AI 厂商竞争已趋白热化。

#ChatGPT#OpenAI

阅读全文

互动讨论

评论区

围绕《OpenAI o1-preview 常识问题推理能力与主流模型的对比》展开交流，未登录用户可浏览评论，登录后可参与讨论。

评论数

登录后参与评论

支持发表观点与回复一级评论，互动后将同步到消息中心。

登录后评论

暂无评论，欢迎成为第一个参与讨论的人。

OpenAI o1-preview 常识问题推理能力与主流模型的对比

测试结果

GPT-4o

GPT-4o mini

Claude 3.5

Gemini-1.5-Pro

Llama3.1

豆包

文心一言

通义千问

Kimi

回答正确

回答错误

相关文章

GPT-5.6 Sol Ultra 1 小时证明 60 年未解的图论猜想

Google 为何要开发 Gemma 4 模型

GPT-5.6 正式发布：三档定价、7.8% ARC-AGI-3、Sol 自主训练 Luna，943 条评论里的真实声音

评论区