Google 推出 Gemini 2.0 Flash 原生图像生成功能

去年 12 月，Google 首次向受信任的测试者开放了 Gemini 2.0 Flash 的原生图像生成功能。而现在，这项功能正式面向所有受支持地区的开发者开放，让大家可以在 Google AI Studio 或 Gemini API 中体验这一创新技术。

Gemini 2.0 Flash：文本 + 图像的多模态 AI

相比传统 AI 只能处理文字或图片，Gemini 2.0 Flash 具备多模态能力，可以同时理解文本、图像，并结合强大的推理能力生成视觉内容。这意味着，它不仅能根据文字生成图片，还能在对话过程中持续优化图像，甚至能结合世界知识，确保生成的内容更加真实、合理。

Gemini 2.0 Flash 的原生图像生成的典型应用场景

1. AI 自动配图，让故事“跃然纸上”

你可以让 Gemini 2.0 Flash 讲述一个故事，它会自动生成风格统一的插图，确保人物形象和场景保持一致。而且，你可以随时调整，比如更改画风或修改某个场景的细节，AI 都能即时响应。

2. 对话式图像编辑，实时调整细节

普通的 AI 生成图片后就无法修改，但 Gemini 2.0 Flash 可以像一个智能设计师一样，在对话中不断调整图像。比如，你可以先让它生成一张图片，然后告诉它：“把背景换成夜晚”、“让主角微笑一点” 它都会理解你的需求，并立即调整。

3. 结合世界知识，智能生成“正确”的图片

与一些仅靠模式匹配生成图像的 AI 不同，Gemini 2.0 Flash 具备一定的常识推理能力。比如，你让它绘制一道菜的插图，它不仅能画出精美的美食，还能确保食材和烹饪步骤符合现实，而不会出现“鱼香肉丝里加整条鱼” 这种低级错误。不过需要注意，尽管它的知识覆盖面广，但仍然不可能做到 100% 准确，因此在专业领域使用时仍需谨慎验证。

4. 文字渲染更精准，适用于广告和社交媒体

很多 AI 生成的图像在文字渲染上表现不佳，字体往往会变形、错位，甚至拼写错误。而 Gemini 2.0 Flash 经过优化，能更准确地在图像中呈现完整的文本，适用于广告设计、社交媒体海报，甚至是电子请柬。

如何体验 Gemini 2.0 Flash？

如果你是开发者，现在就可以通过 Gemini API 开始尝试这项新功能。例如，以下是一个 Python 示例代码，展示如何使用 Gemini 2.0 Flash 生成带插图的故事：

from google import genai
from google.genai import types

client = genai.Client(api_key="GEMINI_API_KEY")

response = client.models.generate_content(
    model="gemini-2.0-flash-exp",
    contents=(
        "生成一个关于可爱小海龟的 3D 数字艺术风格故事。"
        "每个场景都生成一张配图。"
    ),
    config=types.GenerateContentConfig(
        response_modalities=["Text", "Image"]
    ),
)

Gemini 2.0 Flash 的意义：AI 生成内容的新里程碑

无论是开发智能 AI 助手、设计互动故事，还是在对话中进行创意头脑风暴，Gemini 2.0 Flash 都让文字和图像的生成变得更加自然流畅。Google 也表示，希望开发者们多多尝试，并提供反馈，帮助他们进一步优化，让这项技术早日进入正式生产版本。

Gemini 2.0 Flash：文本 + 图像的多模态 AI

Gemini 2.0 Flash 的原生图像生成的典型应用场景

1. AI 自动配图，让故事“跃然纸上”

2. 对话式图像编辑，实时调整细节

3. 结合世界知识，智能生成“正确”的图片

4. 文字渲染更精准，适用于广告和社交媒体

如何体验 Gemini 2.0 Flash？

Gemini 2.0 Flash 的意义：AI 生成内容的新里程碑

相关文章

Google 为何要开发 Gemma 4 模型

微软 Mirage：让世界模型学会“过目不忘”，速度快 10 倍、显存省 55 倍

Google 搜索变身全天候智能体：Information Agents 上线，你的数据终于开始替你干活了

评论区