OpenAI 于 9月12日宣布推出一款全新的 AI 模型系统, 旨在解决复杂问题。这个名为 o1-preview 的模型是该系列的首个版本,现已在ChatGPT 和 OpenAI API 中提供使用。
突破性的推理能力
o1-preview 模型在科学、编程和数学等领域展现出卓越的问题解决能力。OpenAI 表示, 该模型被训练成在回应前花更多时间思考问题, 类似于人类的思考过程。通过训练,模型学会了完善的思维过程、尝试不同策略并识别自身错误。
在 OpenAI 的测试中, o1-preview 在物理、化学和生物学等领域的挑战性基准任务上表现堪比博士生水平。在国际数学奥林匹克竞赛(IMO)的资格考试中,o1-preview 正确解决了83%的问题,远超 GPT-4o 的13%。在编程方面, o1-preview 在 Codeforces 竞赛中达到了89百分位的水平。
安全性提升
OpenAI 强调,他们采用了新的安全训练方法,利用模型的推理能力使其更好地遵守安全和对齐准则。在一项最严格的"越狱"测试中, o1-preview 的得分为 84分(满分100分),而 GPT-4o 仅为22分。
为匹配模型的新能力,OpenAI 加强了安全工作、内部治理和与政府的合作。这包括使用其"准备框架"进行严格测试和评估,以及最佳实践的红队测试和董事会级别的审查流程。
应用前景
OpenAI 表示,o1-preview 的增强推理能力特别适用于科学、编程、数学等领域的复杂问题。例如,医疗保健研究人员可以用它来注释细胞测序数据,物理学家可以生成量子光学所需的复杂数学公式,各领域的开发人员则可以构建和执行多步骤工作流程。
尽管 o1-preview 尚未具备 GPT-4o 的许多实用功能,如网络浏览和文件上传,但 OpenAI 认为这代表了 AI 能力的新水平。公司将继续更新和改进这一模型系列,并已开始为下一版本进行评估。
评论(0)