OpenAI 发布最新推理模型 o3-mini:性能提升,首次向免费用户开放

OpenAI 今日正式发布了其最新的小型推理模型 OpenAI o3-mini。这款模型是 OpenAI 推理系列中最具成本效益的版本,现已在 ChatGPT 和 API 平台上开放使用。早在 2024 年 12 月的预览中,o3-mini 便展示了其强大的科学、数学及编程能力。作为一款高效、快速的小型模型,o3-mini 在保持低成本和低延迟的同时,进一步推动了小型 AI 模型的能力边界。

功能升级:支持开发者需求的多样化特性

OpenAI o3-mini 是首款支持多项备受开发者期待功能的小型推理模型,包括“函数调用”、“结构化输出”和“开发者消息”。这些功能使 o3-mini 一经推出便具备直接用于生产环境的能力。此外,o3-mini 延续了 o1-mini 和o1-preview 的特性,支持流式输出。

开发者还可以根据具体需求,在低、中、高三个推理强度选项中灵活切换。这种调整机制能够让 o3-mini 在应对复杂问题时 “深度思考”,或者在低延迟要求下优先优化响应速度。不过,o3-mini 尚不支持视觉能力,因此视觉推理任务仍需使用 OpenAI o1。

自发布起,o3-mini 已通过 Chat Completions API、Assistants API 和 Batch API 向 API 使用等级为 3-5 的开发者逐步开放。

面向广泛用户的多样化访问方式

ChatGPT 的 Plus、Team 和 Pro 用户现已可以使用 o3-mini,企业用户的访问权限预计将在2月开放。与此同时,o3-mini 将取代 o1-mini 成为模型选择器中的默认选项,其提升的速率限制和更低的延迟使其成为编程、STEM 领域以及逻辑问题解决的理想选择。

为了回馈用户,Plus 和 Team 用户的每日使用限制将从 o1-mini 的 50 条提升至 o3-mini 的 150 条。此外,o3-mini 新增了搜索功能,可以实时查找最新答案并附带相关网页链接。目前,这项搜索功能仍处于原型阶段,未来将在更多推理模型中实现整合。

免费用户也可以通过在消息编辑器中选择 “Reason” 或重新生成响应来首次体验推理模型。这是 OpenAI 首次向免费用户开放推理模型。(这里需要开源推理模型 DeepSeek 给予 OpenAI 带来的压力)

技术领域的高效助手:速度与精确度的平衡

尽管 OpenAI o1 仍是通用知识推理的主力模型,但 o3-mini 为需要更高精度与速度的技术领域提供了一种优化方案。在 ChatGPT 中,o3-mini 默认使用中等推理强度,以平衡速度与准确性。付费用户还可以选择 o3-mini-high 这一更高智能版本,虽然响应时间稍长,但推理能力更强。Pro 用户还享有 o3-mini 和 o3-mini-high 的无限制访问权限。

o3-mini 在 STEM 推理方面的表现尤为突出。与 o1 相比,o3-mini 在中等推理强度下实现了对数学、科学和编程任务的快速响应,同时保持了与 o1 相当的性能。在专家评测中,o3-mini 在复杂的现实问题上表现出更强的推理能力,其回答的准确性和清晰度均优于 o1-mini。测试者更倾向于选择 o3-mini 的回答,并观察到其在困难问题上的重大错误率减少了39%。

性能提升:数学与编程领域的显著进步

OpenAI 发布最新推理模型 o3-mini:性能提升,首次向免费用户开放

OpenAI 发布最新推理模型 o3-mini:性能提升,首次向免费用户开放

OpenAI 发布最新推理模型 o3-mini:性能提升,首次向免费用户开放

OpenAI 发布最新推理模型 o3-mini:性能提升,首次向免费用户开放

OpenAI 发布最新推理模型 o3-mini:性能提升,首次向免费用户开放

OpenAI 发布最新推理模型 o3-mini:性能提升,首次向免费用户开放

OpenAI 发布最新推理模型 o3-mini:性能提升,首次向免费用户开放

OpenAI 发布最新推理模型 o3-mini:性能提升,首次向免费用户开放

OpenAI 发布最新推理模型 o3-mini:性能提升,首次向免费用户开放

用户偏好与响应速度

在用户偏好评测中,o3-mini 的 STEM 任务响应更为精准,非 STEM 任务的表现也优于 o1-mini。测试者在 56% 的情况下选择了o3-mini 的回答,并发现其在复杂问题上减少了 39% 的重大错误。

在响应速度上,o3-mini 的表现同样令人印象深刻。与 o1-mini 相比,o3-mini 的平均响应时间快了24%,达到 7.7 秒,而 o1-mini 的平均响应时间为 10.16 秒。此外,o3-mini 在生成首个响应 Token 的时间上比 o1-mini快了 2500 毫秒。

OpenAI 发布最新推理模型 o3-mini:性能提升,首次向免费用户开放

安全性与可靠性

OpenAI 在 o3-mini 的开发中采用了深度对齐(Deliberative Alignment)技术,使其能够在回答用户问题前参考人类撰写的安全规范。安全性评估显示,o3-mini 在应对复杂安全和 “越狱” 测试方面的表现显著优于 GPT-4o。

OpenAI 发布最新推理模型 o3-mini:性能提升,首次向免费用户开放

OpenAI 发布最新推理模型 o3-mini:性能提升,首次向免费用户开放

在正式发布前,OpenAI通过外部团队的测试以及系统性的安全评估对 o3-mini 进行了全面的风险评估,其详细结果及可能的风险缓解措施已在 o3-mini 的系统卡中公布。