OpenAI 正式发布了 GPT-4.5 研究预览版,这是迄今为止最强大的 GPT 模型。相比其前代,GPT-4.5 在预训练(Pre-training) 和后训练(Post-training) 方面均有显著提升,尤其是在无监督学习(Unsupervised Learning) 方面的扩展,使其在模式识别、知识整合以及创意生成方面更为出色。
GPT-4.5:更自然、更智能、更“有人情味”
初步测试表明,与 GPT-4.5 交互的体验更加流畅自然。它不仅拥有更广阔的知识面,还具备更强的理解能力,能够更准确地把握用户意图,并展现出更高的情商(EQ)。这些改进使其在写作、编程以及解决实际问题等任务上表现更加出色。同时,GPT-4.5 “幻觉”(Hallucination) 现象(即 AI 捏造不真实信息的情况)也有所减少,使其更加可靠。
OpenAI 此次选择以研究预览版的形式发布 GPT-4.5,旨在更全面地了解其优势与局限性,并观察用户在真实场景中的具体应用方式。
突破性的无监督学习扩展
OpenAI 一直在探索两种不同的 AI 发展路径,即无监督学习(Unsupervised Learning) 和推理能力(Reasoning)。这两者分别代表 AI 的知识获取能力和逻辑思维能力。
- 推理能力让 AI 能够在回答问题前进行思考,形成完整的推理链,从而解决复杂的科学和逻辑问题。例如,OpenAI 之前推出的 OpenAI o1 和 OpenAI o3-mini 就是专注于推理能力优化的模型。
- 无监督学习则是让 AI 更好地理解世界,提升其知识储备和直觉判断能力。
GPT-4.5 主要在无监督学习方向进行了大规模扩展,通过更强的计算资源(Compute)和数据规模(Data Scale),结合架构与优化方面的创新,使其在各类知识领域的理解更加深刻。训练过程中,GPT-4.5 依托微软 Azure AI 超级计算集群,最终打造出一个知识更广、理解更深、幻觉更少的模型,在多个话题上展现出更高的可靠性。
GPT-4.5 的优势:更准确、更可靠、更贴近人类
在一系列基准测试(Benchmark Tests)中,GPT-4.5 展现出了明显的优势:
1. 更高的知识准确度
在 SimpleQA(简单问答) 这一衡量 AI 事实性回答能力的测试中,GPT-4.5 的正确率达到 62.5%,远超 GPT-4o(38.2%)和 OpenAI o1(47%)。
2. 更少的幻觉现象
GPT-4.5 在 SimpleQA 幻觉率测试中的表现也更优,仅 37.1%,相比之下,GPT-4o 幻觉率高达 61.8%,OpenAI o3-mini 更是高达 80.3%。这意味着 GPT-4.5 更少编造虚假信息,能够提供更加可信的答案。
3. 更强的情感理解与共情能力
在人类写作训练的评估中,GPT-4.5 在创意任务、专业问题 和日常对话三个维度上均优于 GPT-4o。例如,在面对用户表达 “考试失败后心情低落” 的情境时,GPT-4.5 的回应更加温暖且富有共情,而 GPT-4o 则更倾向于提供理性分析和建议。
GPT-4.5 的回答:
相比之下,GPT-4o 的回答更像一个理性分析师,列举了一系列改进学习方法的建议,但缺少了 GPT-4.5 所展现的人性化交流。
更强的创作与分析能力
GPT-4.5 在写作、设计、编程等创造性任务上也有明显进步。例如,在识别一幅模糊的古典油画时,GPT-4.5 能够精准地指出,这是一副法国画家克劳德·洛兰 1643 年的名画《特洛伊妇女焚烧她们的舰队》(The Trojan Women Setting Fire to Their Fleet),而 GPT-4o 则给出了错误的画作名称。
在面对 “您对太空探索有何看法?” 这样的问题时,GPT-4.5 的回答也更加精炼有力,能够直接点明太空探索的实际价值,而 GPT-4o 的回答则更倾向于提供一个全面但较为冗长的分析。
GPT-4.5 的回答:
人们经常把它描述成我们在解决地球上的问题后追求的奢侈。但太空探索实际上帮助我们应对这些挑战:气候变化(通过卫星监测)、资源稀缺(通过小行星采矿)和生存风险(通过实现最终的多行星生活)。它还推动技术创新、经济增长,并激励人类实现集体成就。
我们探索太空并不是为了逃离地球。我们探索太空是为了更好地了解、保护和维持地球上的生命。
未来展望:推理能力的增强
虽然 GPT-4.5 具备极强的知识整合能力,但它并不会在回答前进行深度思考,因此在解决复杂推理问题时,仍然不如 OpenAI 专门优化推理能力的 o1 和 o3-mini。不过,OpenAI 预计,未来 AI 将结合预训练的知识积累和推理能力,进一步提升 AI 在各类任务中的表现。
安全性:更智能,也更安全
每一次 AI 能力的提升,都是 安全性优化的机会。GPT-4.5 在训练过程中采用了新的监督技术,结合监督微调(SFT) 和人类反馈强化学习(RLHF),确保 AI 生成的内容更加可靠、安全。
在正式部署前,OpenAI 还对 GPT-4.5 进行了一系列安全评估,并遵循 《AI 准备框架》(Preparedness Framework) 进行压力测试,以降低潜在风险。
评论(0)