OpenAI 升级 ChatGPT 图像生成模型

OpenAI 发布 ChatGPT Images 2.0 ,在图像细节控制和英文文字渲染上有显著提升,并支持灵活画幅比例。模型通过整合 ChatGPT 推理能力实现内容更精细、更完整的输出。但测试显示,在中文等多语言场景中表现仍不稳定。生成的中文往往只是视觉模仿,字符层面容易失真。当前英文用户已接近“能做成品”的门槛,而其他语言用户拿到的大多是风格化草稿。对中文用户而言,将其定位为灵感图、情绪板工具更为稳妥,直接产出可发布海报还为时尚早。

发布于2026年5月2日 22:52
编辑小创
评论0
阅读34

OpenAI 推出 ChatGPT Images 2.0 。细节更强,文字生成进步明显,但多语言仍不稳定

OpenAI 在本周二发布新一代图像生成模型 ChatGPT Images 2.0 ,面向全球 ChatGPT 和 Codex 用户开放,付费订阅者还能使用能力更强的版本。实际测试显示,这一模型在图像细节、版式控制和英文文字渲染上都有明显提升,已经能从一条提示词中同时生成多张图片,甚至做出整本学习手册一类的复杂内容。不过,它在英语之外的语言上仍有短板,尤其是中文这类非英文文本,离“可直接交付”还有距离。

图像模型每次迭代,都会重新点燃用户热情。原因也很直接。一旦社交平台出现可复制、可模仿的视觉玩法,使用量就会迅速抬升。去年, Google 推出 Nano Banana 模型后,用户批量上传自己的超写实玩偶形象,那一波传播就是典型案例。今年早些时候, ChatGPT Images 也曾因 AI 生成夸张漫画头像在社交媒体上走红。 OpenAI 这次更新,显然也瞄准了类似的传播效应。

这次变化的核心,在于 ChatGPT Images 2.0 能调用 ChatGPT 的“推理”能力。换句话说,它不再只是机械地从提示词里抓关键词生成图片,而是可以借助联网搜索获取较新的信息,并用更多中间步骤来组织输出。 OpenAI 也更新了模型的知识截止时间,最新到 2025 年 12 月。

这带来的直接结果,是生成内容更细,也更像“完整作品”而不是一张孤立图片。测试中,记者要求模型生成一张旧金山次日天气预报信息图,并附上适合当天安排的活动建议。生成结果不仅给出了与雨天相符的天气信息,还画出了 Ferry Building 、 Castro Theater 、 Painted Ladies 和 Transamerica Pyramid 等地标,视觉上已经接近一张可分享的城市资讯海报。

新模型的可控性也更高。用户现在可以在提示词里直接指定图片比例,范围从 3 : 1 的超宽画幅到 1 : 3 的纵向长图。这看上去像小改动,实际很实用。因为很多生成式图像的问题,不在“画不出来”,而在“画出来没法用”。比例自由度上来后,封面、海报、社交媒体长图这些场景就更顺手了。

英文文本渲染,是这次升级里最扎实的一部分。过去几年,不少主流图像模型一碰到文字就露怯。字母变形、单词拼错、莫名多出字符,几乎是行业通病。两年前, ChatGPT 甚至还很难把图上的标签写对。现在看, Images 2.0 在英文里的表现已经明显干净许多,复杂版面中的文字也更稳定。 Google 最近几轮 Nano Banana 的迭代,同样在强化这件事,说明“图像里把字写对”已经成了新一轮竞争焦点。

问题出在多语言。测试中,记者让 ChatGPT 生成一张 “Timothée Chalamet 中文粉丝风格拼贴海报”。结果从视觉上看相当热闹,里面有大量近似写实的明星照片,还有传统服饰、猫耳元素,以及饺子、珍珠奶茶、熊猫等常见文化符号,文本碎片超过 20 处,整体非常像社交平台上的饭制海报。

但当记者进一步追问“这些字写的是什么”时, ChatGPT 自己给出的解释却相当不留情面。它承认,图里大量文字是假中文,或者说是“半胡话式”的 AI 文本,只是被包装成了看起来像中文网络海报的样子,因此并不能完整翻译。模型还指出,其中一些区域混入了看起来像日文的字符,像清单卡片和右侧装饰线条那几处,基本属于“为了模仿东亚粉圈编辑风格而制造出来的无意义文本”,并不是准确句子。

这其实说明了一个很现实的问题。 ChatGPT Images 2.0 在英文世界里已经开始接近“能做成品”的门槛,但到了中文、印地语等语言环境,它更像一个视觉模仿器,而不是一个真正理解文字系统的排版工具。它会抓住风格信号,复制审美套路,也能生成很像那么回事的版面气质,但一到具体字符和语义层面,还是容易失真。

OpenAI 这次发布时提到,新模型支持包括中文和印地语在内的非英文文本输出。从能力定义上说,这话不算错。模型确实能生成这些语言的字符外观,也能在局部做出接近目标语言的文本质感。但从测试结果看,“支持”离“稳定可用”之间,差的不是一点点。对全球用户来说,这会直接影响落地体验。英文用户看到的是生产力工具,其他语言用户拿到的,很多时候仍是风格化草稿。

相关文章

一段代码让网站出海,这个 AI 翻译工具把多语言 SEO 玩明白了
AI 产品工具
2026年6月1日
0 条评论
小创

一段代码让网站出海,这个 AI 翻译工具把多语言 SEO 玩明白了

跨境电商网站常因语言壁垒导致高跳出率。Weglot 是一款 AI 翻译工具,仅需几分钟即可通过添加脚本实现网站多语言本地化,且保持原有排版。该工具支持可视化编辑、术语表锁定及团队协作,便于后续维护。同时,它能自动优化 hreflang 标签、独立 URL 及元数据,解决多语言 SEO 难题。借助母语内容布局小语种市场,企业可以低成本获取流量红利,有效提升海外转化率。

阅读全文
SCOPE 给 AI 绘画装上了 “语义追踪器”,复杂提示词终于不用反复抽卡了
AI 产品工具
2026年6月1日
0 条评论
零重力瓦力

SCOPE 给 AI 绘画装上了 “语义追踪器”,复杂提示词终于不用反复抽卡了

中科大团队发布 SCOPE 框架,通过结构化语义规格解决 AI 绘画中复杂提示词语义丢失问题。该系统将提示词拆解为实体、约束及未知项,构建包含分解、合成、生成、验证的四步循环,并辅以检索、推理和修复技能,实现生成过程全程可追溯与精准修复。团队还推出 Gen-Arena 评测基准及 EGIP 指标。实验显示 SCOPE 在多项基准中表现优异,为多元素控制场景提供了工程化解决方案,代码已开源。

#AI 绘画
阅读全文
Stable Audio 3.0 发布:开源音频生成从 11 秒走到 6 分钟
AI 产品工具
2026年5月28日
0 条评论
零重力瓦力

Stable Audio 3.0 发布:开源音频生成从 11 秒走到 6 分钟

Stability AI 发布开源音频模型 Stable Audio 3.0,最长可生成 6 分 20 秒立体声音频。该模型采用 SAME 架构实现 4096 倍压缩,支持变量长度生成与局部编辑,Small 版本可在移动端离线运行。训练数据均获授权,规避版权风险。提供四个变体及 LoRA 微调文档,社区许可允许商用。此次升级标志着开源音频生成从短音效迈向完整歌曲创作,为开发者提供了本地化、合规的高质量音频生成方案。

#开源模型#AI 音乐
阅读全文
互动讨论

评论区

围绕《OpenAI 升级 ChatGPT 图像生成模型》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。