12 Days of OpenAI 第十二天(最后一天)。OpenAI 宣布了其最新的推理模型:o3 及其轻量版本 o3 mini。这不仅是 AI 技术的一次升级,更是向通用人工智能(AGI)迈出的重要一步。
AI 推理能力的“新前沿”
早在 12 天前,OpenAI 就启动了一项为期 12 天的活动,展示其首款推理模型 o1。令人惊喜的是,短短几天内,o1 已经在编程、数学等复杂任务中崭露头角,获得了用户的广泛好评。然而,OpenAI 的团队并未止步,他们在 12 days 活动的最后一天为大家带来了全新的 o3 模型。
奥特曼表示,o3 是一个 “非常非常智能” 的模型,而 OpenAI 同时还推出了一个更高性价比的版本:o3 mini。o3 mini 是专为高性能和低成本需求设计的推理模型,虽为 “小” ,但能力丝毫不逊色。OpenAI 称,这些模型是 AI 推理能力的 “新前沿”,能完成更复杂、更高难度的任务。
AI 编程和数学能力再创新高
OpenAI 的研究主管 Mark 分享了 o3 在技术基准测试中的表现。他们重点展示了模型在编程和数学领域的强大实力。例如,在编程平台 CodeForces 的 Elo 评分中,o3 的得分达到了惊人的 2727,相比 o1 提升了近 800 分。这一成绩不仅超过了许多顶尖的竞赛程序员,甚至超越了 OpenAI 公司内部的技术大咖。Mark 笑称:“o3 的编程水平已经比我高了!”
数学方面,o3 的表现同样耀眼。在美国数学奥林匹克竞赛(AMC)的测试中,o3 的准确率达到了 96.7%,而 o1 仅为 83.3%。对于 PhD 级别的科学问题数据集 GPQA Diamond,o3 更是创下了 87.7% 的新纪录,大幅超越专业博士通常能达到的 70%。
挑战最难的基准测试:ARC AGI
发布会的高潮之一,是宣布 o3 在 ARC 基准测试中的突破性成绩。ARC AGI 是由 ARC 基金会开发的一个智能评估基准,被认为是通向通用智能的重要里程碑。自 2019 年发布以来,它一直是 AI 界的 “难题”。然而,o3 成功打破了五年来无人能破的纪录。
ARC 基准测试的独特之处在于,它要求 AI 在运行时学习新技能,而不是简单地重复记忆。OpenAI 的模型不仅在低运算条件下获得了 75.7% 的得分,在高运算条件下更是达到了 87.5%,超过了人类测试者的平均水平。ARC 基金会主席 Greg 激动地表示:“这真的是 AI 世界的新领域!”
o3 Mini:高效推理的新选择
除了强大的 o3,轻量版的 o3 Mini 同样令人惊喜。这个小巧但高效的模型能以更低的成本提供卓越的性能。比如,在编程任务中,o3 Mini 在中等 “思考时间”(推理时间)下的表现甚至超越了 o1,而延迟却减少了一半多。
为了展示 o3 Mini 的能力,OpenAI 的研究员 Hongyu 现场演示了一个复杂的任务:让 o3 Mini 自己生成一段代码,然后通过该代码在一个用户界面中评估自身的性能。整个过程自动化完成,令人叹为观止。
安全性:AI 的未来关键
在技术能力之外,OpenAI 还特别强调了安全性。在 o3 的开发中,他们引入了一项名为“审议式对齐”的新技术。通过让模型“推理”哪些输入是安全的,o3 能更准确地判断用户意图,从而有效防止被滥用。OpenAI 表示,这种创新方法让 AI 的安全边界更加清晰,并显著减少了误判率。
为了进一步确保模型的安全性,OpenAI 宣布 o3 系列将向外部研究人员开放安全测试。任何有兴趣的安全研究员都可以申请参与,帮助 OpenAI 改进模型。
未来展望
尽管 o3 和 o3 Mini 尚未全面上线,OpenAI 已经计划在 2024 年 1 月底正式推出 o3 Mini,并在此后正式发布 o3。这两个新模型将支持多种功能,包括函数调用、结构化输出以及更灵活的推理时间选项。
OpenAI 希望,通过这些创新和努力,不仅能让用户体验到更强大的 AI 工具,还能推动整个行业迈向更高的技术水平。
圣诞节前夕,OpenAI 为全球 AI 爱好者送上了一份绝妙的科技 “大礼包”。正如发布会最后所说:“这只是 AI 发展的早期阶段,未来还有无限可能。”
评论(0)