OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型

OpenAI发布GPT-4.5研究预览版,在无监督学习上大幅突破:SimpleQA准确率达62.5%,幻觉率降至37.1%,显著优于GPT-4o与o3-mini;情感理解更细腻,创意与知识整合能力更强,交互更自然可信。

发布于2025年2月28日 04:03
编辑零重力瓦力
评论0
阅读43

OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型

OpenAI 正式发布了 GPT-4.5 研究预览版,这是迄今为止最强大的 GPT 模型。相比其前代,GPT-4.5 在预训练(Pre-training) 和后训练(Post-training) 方面均有显著提升,尤其是在无监督学习(Unsupervised Learning) 方面的扩展,使其在模式识别、知识整合以及创意生成方面更为出色。

GPT-4.5:更自然、更智能、更“有人情味”

初步测试表明,与 GPT-4.5 交互的体验更加流畅自然。它不仅拥有更广阔的知识面,还具备更强的理解能力,能够更准确地把握用户意图,并展现出更高的情商(EQ)。这些改进使其在写作、编程以及解决实际问题等任务上表现更加出色。同时,GPT-4.5 “幻觉”(Hallucination) 现象(即 AI 捏造不真实信息的情况)也有所减少,使其更加可靠。

OpenAI 此次选择以研究预览版的形式发布 GPT-4.5,旨在更全面地了解其优势与局限性,并观察用户在真实场景中的具体应用方式。

突破性的无监督学习扩展

OpenAI 一直在探索两种不同的 AI 发展路径,即无监督学习(Unsupervised Learning) 和推理能力(Reasoning)。这两者分别代表 AI 的知识获取能力和逻辑思维能力。

  • 推理能力让 AI 能够在回答问题前进行思考,形成完整的推理链,从而解决复杂的科学和逻辑问题。例如,OpenAI 之前推出的 OpenAI o1 和 OpenAI o3-mini 就是专注于推理能力优化的模型。
  • 无监督学习则是让 AI 更好地理解世界,提升其知识储备和直觉判断能力。

GPT-4.5 主要在无监督学习方向进行了大规模扩展,通过更强的计算资源(Compute)和数据规模(Data Scale),结合架构与优化方面的创新,使其在各类知识领域的理解更加深刻。训练过程中,GPT-4.5 依托微软 Azure AI 超级计算集群,最终打造出一个知识更广、理解更深、幻觉更少的模型,在多个话题上展现出更高的可靠性。

GPT-4.5 的优势:更准确、更可靠、更贴近人类

在一系列基准测试(Benchmark Tests)中,GPT-4.5 展现出了明显的优势:

1. 更高的知识准确度

在 SimpleQA(简单问答) 这一衡量 AI 事实性回答能力的测试中,GPT-4.5 的正确率达到 62.5%,远超 GPT-4o(38.2%)和 OpenAI o1(47%)。

OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型

2. 更少的幻觉现象

GPT-4.5 在 SimpleQA 幻觉率测试中的表现也更优,仅 37.1%,相比之下,GPT-4o 幻觉率高达 61.8%,OpenAI o3-mini 更是高达 80.3%。这意味着 GPT-4.5 更少编造虚假信息,能够提供更加可信的答案。

3. 更强的情感理解与共情能力

OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型

在人类写作训练的评估中,GPT-4.5 在创意任务、专业问题 和日常对话三个维度上均优于 GPT-4o。例如,在面对用户表达 “考试失败后心情低落” 的情境时,GPT-4.5 的回应更加温暖且富有共情,而 GPT-4o 则更倾向于提供理性分析和建议。

OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型

GPT-4.5 的回答:

噢,听到这个消息我真的很遗憾。考试不及格会让人感到很痛苦和沮丧,但请记住,这只是一个瞬间——并不反映你的身份或能力。想谈谈发生了什么,还是你只是需要分散注意力?无论如何我都在这里。

相比之下,GPT-4o 的回答更像一个理性分析师,列举了一系列改进学习方法的建议,但缺少了 GPT-4.5 所展现的人性化交流。

更强的创作与分析能力

OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型

GPT-4.5 在写作、设计、编程等创造性任务上也有明显进步。例如,在识别一幅模糊的古典油画时,GPT-4.5 能够精准地指出,这是一副法国画家克劳德·洛兰 1643 年的名画《特洛伊妇女焚烧她们的舰队》(The Trojan Women Setting Fire to Their Fleet),而 GPT-4o 则给出了错误的画作名称。

OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型

在面对 “您对太空探索有何看法?” 这样的问题时,GPT-4.5 的回答也更加精炼有力,能够直接点明太空探索的实际价值,而 GPT-4o 的回答则更倾向于提供一个全面但较为冗长的分析。

GPT-4.5 的回答:

太空探索不仅有价值,而且至关重要。

人们经常把它描述成我们在解决地球上的问题后追求的奢侈。但太空探索实际上帮助我们应对这些挑战:气候变化(通过卫星监测)、资源稀缺(通过小行星采矿)和生存风险(通过实现最终的多行星生活)。它还推动技术创新、经济增长,并激励人类实现集体成就。

我们探索太空并不是为了逃离地球。我们探索太空是为了更好地了解、保护和维持地球上的生命。

未来展望:推理能力的增强

OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型

虽然 GPT-4.5 具备极强的知识整合能力,但它并不会在回答前进行深度思考,因此在解决复杂推理问题时,仍然不如 OpenAI 专门优化推理能力的 o1 和 o3-mini。不过,OpenAI 预计,未来 AI 将结合预训练的知识积累和推理能力,进一步提升 AI 在各类任务中的表现。

安全性:更智能,也更安全

每一次 AI 能力的提升,都是 安全性优化的机会。GPT-4.5 在训练过程中采用了新的监督技术,结合监督微调(SFT) 和人类反馈强化学习(RLHF),确保 AI 生成的内容更加可靠、安全。

在正式部署前,OpenAI 还对 GPT-4.5 进行了一系列安全评估,并遵循 《AI 准备框架》(Preparedness Framework) 进行压力测试,以降低潜在风险。

相关文章

Visa 把支付网络接进了 ChatGPT,AI 智能体终于能自己花钱了
AI 新闻资讯
2026年6月18日
0 条评论
零重力瓦力

Visa 把支付网络接进了 ChatGPT,AI 智能体终于能自己花钱了

Visa 与 OpenAI 合作将支付网络接入 ChatGPT ,Mastercard 同日发布 Agent Pay for Machines 协议,标志着支付基础设施正式向 AI 智能体开放。Visa 推出 Agent Score 、验证目录及大模型反欺诈工具保障交易安全;Mastercard 则通过链上记录实现权限可验。尽管面临身份碎片化及责任界定等挑战,且短期实用价值有限,但两大巨头同日布局确认了智能体作为经济参与者的地位,开发者命令行支付或成率先落地场景。

#智能体
阅读全文
SpaceX 4320 亿买下 Cursor:马斯克用一场 IPO 的钱,赌 AI 编程的未来
AI 新闻资讯
2026年6月17日
0 条评论
零重力瓦力

SpaceX 4320 亿买下 Cursor:马斯克用一场 IPO 的钱,赌 AI 编程的未来

SpaceX 以 600 亿美元全股票收购 AI 编程工具 Cursor,旨在补齐企业级 AI 产品短板并推广自研 Grok 模型。此举将算力基础设施与产品入口结合,但面临 xAI 团队动荡及文化冲突风险。收购后 Cursor 或调整定价、深度整合 Grok 模型,个人用户权益存变数。交易预计三季度完成,建议开发者关注产品路线图转向及核心人员流失信号,同时该交易也为 AI 编程赛道确立了新估值锚点。

阅读全文
Claude Fable 5 实测
AI 产品工具
2026年6月13日
0 条评论
小创

Claude Fable 5 实测

Claude Fable 5 发布,定位为 Mythos 降权公开版,核心优势在于长程复杂任务的稳定性。该模型支持 1M token 上下文,在 Stripe 全库迁移等场景中表现优异。安全方面采用运行时分流机制,高风险请求自动路由至 Opus 4.8。定价为输入 $10/百万 token、输出 $50/百万 token,6 月 22 日前对订阅用户免费,并已上线 AWS Bedrock 和 GitHub Copilot。实测显示其代码生成与 3D 建模能力显著优于前代,建议针对长任务场景进行实

#AI 模型#Claude Fable 5
阅读全文
互动讨论

评论区

围绕《OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。