OpenAI 发布 GPT-4o 原生图像生成功能

OpenAI 为 GPT-4o 推出原生图像生成功能，成为继 Gemini、Grok 3 后第三款全能多模态模型。支持文生图、风格迁移、带准确文本的图像生成、教育漫画创作、个性化设计及多轮编辑，兼顾创作自由与实用性，图像质量优异，速度将持续优化。

发布于2025年3月26日 05:28

编辑零重力瓦力

评论0 条

阅读70

#OpenAI #图像生成 #多模态

今天，OpenAI 宣布了一项重磅更新：为 GPT-4o 模型加入了原生的图像生成功能。这样一来，GPT-4o 成为了继 Google 的 Gemini 和 Grok 3 之后，第三款支持多模态、功能全面的 AI 模型。简单来说，它不仅能处理文字，还能生成图片，能力得到了大幅增强！

从 DALL·E 到 GPT-4o：图像生成的进化

其实，OpenAI 早在 DALL·E 时代就开始探索 AI 图像生成技术了。不过，当时的 DALL·E 更像是一个用来创作有趣艺术作品的工具，实用性相对有限。而如今，GPT-4o 的原生图像生成功能则标志着这一领域的一次质的飞跃。

在发布会上，OpenAI 的研究团队展示了这款模型的强大能力。首席研究员 Gabriel 提到，这个项目其实始于两年前。当时，团队对“如果在像 GPT-4o 这样强大的模型中加入原生图像生成功能会是什么样子”这个问题产生了兴趣。经过一年的训练，模型展现出了“非常令人兴奋的生命迹象”。随后，团队又花了一年时间对其进行优化，让它变得更加可靠和易用。

全能模型的无缝体验

GPT-4o 被设计成一款“全能模型”（omni model），也就是说，它不仅能理解语言，还能处理图像、音频等多种类型的数据输入和输出。正如 OpenAI 的研究人员所说，这种设计让用户可以在不同模态之间无缝切换，大大提升了模型的实用性和灵活性。

发布会上展示了许多令人印象深刻的应用场景：

模型可以将一张普通自拍照变成动漫风格的图像，甚至进一步制作成表情包。
新模型能够生成包含清晰、无错误文本的图像，这是之前许多图像生成模型（比如 MidJourney）难以做到的。
研究科学家 Allan 展示了如何让模型创建一页色彩丰富的漫画，用来解释相对论的概念，证明了它在教育领域的巨大潜力。
工程师 Mengchao 展示了如何基于现有设计模板，将自己的宠物狗 Sanji 融入到一张模型交易卡片中，突显了模型满足个人创意需求的能力。
研究科学家 Lu Liu 演示了如何通过多轮对话引导模型设计一枚纪念币，并实现背景透明等图像编辑功能，展现了模型在保持一致性以及理解复杂指令方面的能力。

创作自由与实用性之间平衡

OpenAI 表示，这次发布赋予了用户 “比以往更高程度的创作自由和表达空间”。虽然他们承认可能无法在第一天就完美把握这个界限，但他们认为应该“倾向于给予相当大的创作自由”，让用户能从中获得最大的实用价值。

尽管新功能的图像生成速度比之前的解决方案稍慢，但 OpenAI 的 CEO 山姆·奥特曼表示，目前图像的质量与所需时间的比例已经很理想了。他们也承诺，随着时间推移，会让生成速度变得更快。

总之，GPT-4o 的这次更新不仅是一次技术上的突破，也为未来的多模态 AI 应用打开了更多可能性！

OpenAI 发布 GPT-4o 原生图像生成功能

从 DALL·E 到 GPT-4o：图像生成的进化

全能模型的无缝体验

创作自由与实用性之间平衡

相关文章

GPT-5.6 Sol Ultra 1 小时证明 60 年未解的图论猜想

Google 为何要开发 Gemma 4 模型

GPT-5.6 正式发布：三档定价、7.8% ARC-AGI-3、Sol 自主训练 Luna，943 条评论里的真实声音

评论区