Google 图像模型 Gemini 2.5 Flash Image 介绍

Google 推出 Gemini 2.5 Flash Image(nano-banana),支持多图融合、角色一致性保持、自然语言精准编辑及基于世界知识的语义理解,已在 Gemini API、AI Studio 和 Vertex AI 开放预览,定价约 0.039 美元/张,附带 SynthID 水印。

发布于2025年8月27日 05:31
编辑零重力瓦力
评论0
阅读48

Google 图像模型 Gemini 2.5 Flash Image 介绍

Gemini 2.5 Flash Image(又名 nano-banana),是 Google 目前最先进的图像生成与编辑模型。本次更新能够让用户将多张图片融合为一张,保持角色形象的一致性,实现丰富的叙事,用自然语言实现定向编辑,并利用 Gemini 的世界知识生成和编辑图片。

在今年早些时候 Google 首次在 Gemini 2.0 Flash 上推出原生图像生成功能时,用户普遍表示很喜欢它的低延迟、性价比高、易于使用。但也希望图片质量更高、创作控制力更强。

现在,这款模型已通过 Gemini APIGoogle AI Studio 向开发者开放,同时还可在 Vertex AI 企业平台使用。Gemini 2.5 Flash Image 的价格为每 100 万输出 token 30美元,每张图片为 1290 输出 token(即每张图片约0.039美元)。其余输入输出方式均遵循 Gemini 2.5 Flash 的定价

(lmarena 结果来自:https://lmarena.ai/leaderboard)

(lmarena 结果来自:https://lmarena.ai/leaderboard)

Gemini 2.5 Flash Image 实际应用

为了让 Gemini 2.5 Flash Image 的开发体验更轻松,Google 对 Google AI Studio “构建模式”进行了重大更新(后续还有更多更新)。在下面的示例中,你不仅可以快速测试模型能力,还可以通过自定义 AI 应用进行 remix,只需一句提示词就能实现你的想法。准备好后,你可以直接从 Google AI Studio 部署你的应用,或将代码保存到 GitHub。

你可以尝试这样的提示词:“为我构建一个图片编辑应用,允许用户上传图片并应用不同滤镜”,也可以选择预设模板进行 remix,这一切都是免费的!

角色一致性

在图像生成领域,一个核心挑战是让同一个角色或物体在多次生成和编辑中保持外观一致。现在你可以让同一个角色出现在不同环境里,将同一产品从多个角度在新场景中展示,或为品牌生成风格统一的视觉资产,且都能准确保留主体形象。

Google AI Studio 内已经有了一个模板应用(你可以轻松自定义并基于它扩展代码),来展示角色一致性的能力。

除了角色一致性外,模型在遵循视觉模板方面表现也很优秀。开发者已经在探索如房产卡片、员工证件照、产品目录动态 mockup 等多种案例,都可以基于同一个设计模板批量生成。

Google 图像模型 Gemini 2.5 Flash Image 介绍

基于提示词的图片编辑

Gemini 2.5 Flash Image 支持用自然语言进行定向、精细的图片编辑。例如,你可以让模型模糊背景、去除T恤污渍、从照片中移除某个人、调整姿势、为黑白照片上色,甚至更多,只需一句提示。

AI Studio 还内置了一个图片编辑模板应用,支持界面操作和提示词编辑两种方式。

基于提示词的图片编辑

原生世界知识

以往的图片生成模型虽然美学表现出色,但对真实世界的语义理解有限。Gemini 2.5 Flash Image 利用 Gemini 的世界知识,带来了全新用途。

为此,Google 做了一个 Google AI Studio 模板应用,可将画布变成互动教育助手。它能读懂手绘图,帮助解答现实问题,支持复杂编辑指令一步执行。

多图片融合

Gemini 2.5 Flash Image 能理解并融合多张输入图片。你可以将一个物体放进新场景,为房间更换色彩和材质风格,或者一句话融合多张图片为一体。

Google 在 Google AI Studio 内为此制作了一个多图片融合模板应用,让你拖拽产品到场景中,快速生成新的真实感融合图片。

立即开始构建

大家可参考 开发文档,立即用 Gemini 2.5 Flash Image 进行开发。该模型目前通过 Gemini APIGoogle AI Studio 提供预览版,几周后将进入稳定版。上面展示的所有 Demo 应用都是在 Google AI Studio 里 “vibe coding” 出来的,支持用提示词 remix 和自定义。

OpenRouter.ai 已与 Google 合作,将 Gemini 2.5 Flash Image 带给全球 300 万开发者。这是 OpenRouter 上第一个可生成图片的模型(目前已有480多个模型上线)。

Google 还与领先的生成式媒体开发平台 fal.ai 合作,让更广泛的开发社区也能使用 Gemini 2.5 Flash Image。

所有由 Gemini 2.5 Flash Image 创建或编辑的图片,都会嵌入不可见的 SynthID 数字水印,确保图片可被识别为 AI 生成或编辑。

Python 示例代码

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"

image = Image.open('/path/to/image.png')

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt, image],
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))   
    image.save("generated_image.png")

原文链接

Introducing Gemini 2.5 Flash Image, our state-of-the-art image model

相关文章

微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍
AI 产品工具
2026年6月21日
0 条评论
零重力瓦力

微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍

微软研究院联合多所高校发布 Mirage 模型,通过在扩散模型隐空间直接存储三维记忆,解决了 AI 视频生成中场景一致性差及计算昂贵的问题。该方案摒弃传统 RGB 点云渲染流程,使生成速度提升最高 10.57 倍,显存占用降低 55 倍,且长视频边际成本几乎不增。测试显示其三维与光度一致性优于现有方案,虽暂不支持动态物体记忆,但已开源并适用于机器人仿真等静态场景任务。

#世界模型
阅读全文
Google 搜索变身全天候智能体:Information Agents 上线,你的数据终于开始替你干活了
AI 产品工具
2026年6月15日
0 条评论
零重力瓦力

Google 搜索变身全天候智能体:Information Agents 上线,你的数据终于开始替你干活了

Google 推出 Information Agents 功能,面向 AI Ultra 订阅用户开放。该功能将搜索从被动查询转变为主动监测,智能体可 7×24 小时追踪用户需求并推送变化信息。其底层依托 Personal Intelligence 战略,通过整合 Gmail、Photos 等跨应用数据实现个性化推理。尽管存在隐私与准确性挑战,但凭借二十年数据积累,Google 正推动 AI 助手从对话工具向自主代理进化,重塑“信息找人”的交互范式。

#Google#智能体
阅读全文
Kimi Work 上线:300 个子智能体在你的电脑上同时干活,个人 Agent 之战正式开打
AI 产品工具
2026年6月14日
0 条评论
零重力瓦力

Kimi Work 上线:300 个子智能体在你的电脑上同时干活,个人 Agent 之战正式开打

6 月首周,月之暗面、微软、Google 及 Databricks 密集发布智能体产品,标志着 AI 正从对话助手转向持续行动系统。其中 Kimi Work 主打本地桌面运行,支持多智能体并行与浏览器接管;Microsoft Scout 定位永远在线的个人助理;Google 推出 24 小时信息追踪智能体;Databricks 开源 Omnigent 实现跨智能体互操作。行业共识逐渐形成,智能体将具备自主调度、任务拆解及持续运行能力。

#智能体框架#智能体
阅读全文
互动讨论

评论区

围绕《Google 图像模型 Gemini 2.5 Flash Image 介绍》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。