Gemini 图像生成：如何写出有效的提示词

Gemini 已在 Gemini 应用、AI Studio 和 Vertex AI 中提供了图像生成（Imagen 4）与编辑（Nano Banana）功能。通过精确的提示词，你可以实现角色一致、精准编辑和多元素融合的图片生成。试着在你的提示词中加入主体、构图、动作、地点、风格和编辑说明，以获得最佳效果。

Gemini 图像生成的核心能力

在开始之前，了解 Gemini 的改进之处，有助于你探索各种应用场景：

角色一致性设计：在多次生成和编辑中保留角色或物体的外观。
创意构图：将多个概念中的不同元素、主体和风格融合到一张统一的图片中。
局部编辑：用简单的语言对图片的特定部分进行精确编辑。
风格与外观适配：将某个概念的风格、材质或设计应用到另一个对象上。
逻辑与推理：利用对现实世界的理解生成复杂场景，或预测下一步会发生什么。

高效提示词的6大要素

虽然用简短的提示词就可以得到不错的结果，但如果你想获得更具创意和细节的图片，可以在提示词中包含以下要素：

主体：图片里是谁或什么？尽量具体。（如：“一位拥有蓝色发光眼睛的坚毅机器人咖啡师”；“戴着小巫师帽的蓬松三花猫”）
构图：画面怎么取景？（如：“特写”、“广角”、“低角度”、“肖像”等）
动作：正在发生什么？（如：“冲泡咖啡”、“施展魔法”、“在田野中奔跑”等）
地点：场景在哪里？（如：“火星上的未来咖啡馆”、“杂乱的炼金术士图书馆”、“金色阳光下的草地”等）
风格：整体美学风格？（如：“3D 动画”、“黑色电影”、“水彩画”、“写实”、“90年代产品摄影”等）
编辑说明：如需修改现有图片，请直接具体说明。（如：“把男人的领带改成绿色”、“移除背景中的汽车”等）

提示词示例：五种创意技巧展示

不同的提示策略可以带来从写实到奇幻世界的各种效果。以下是五种值得尝试的技巧，并配有示例：

1. 保持角色外观一致

Gemini 可以在不同姿势、光线和环境下保持同一个角色的特征，还能将角色应用到新风格中。

示例：
提示词1：一只发光的蘑菇小精灵插画，精灵头戴大型生物发光蘑菇帽，双眼明亮好奇，身体由交织的藤蔓组成。
提示词2（同一对话中）：现在让这只精灵骑在一只长满苔藓的友好蜗牛背上，穿越阳光明媚、开满野花的草地。

只要在首个提示词中描述清楚角色细节，后续就可以将“同一角色”置于全新场景，Gemini 会保留其面部特征、外观和服饰等核心要素。

2. 精准局部变换

通过新一代图像编辑模型，你可以快速、精准地修改照片的某一部分，非常适合产品设计或个人照片美化。

示例：
提示词1：一张高质量的现代极简风格客厅照片，灰色沙发、浅木茶几和大型盆栽。
提示词2（编辑）：把沙发颜色改成深藏青色。
提示词3（编辑）：现在在茶几上放三本书。

Gemini 擅长局部编辑。用简明对话式指令即可修改图片中的特定元素，无需复杂软件或重新生成整个场景。

3. 创意融合多种概念

尝试将两个或以上的想法融合到一张图片里。可以先各生成一张，然后将它们的主体和环境巧妙结合。

示例：
提示词1：生成一张宇航员头戴头盔、穿全套服装的写实照片。
提示词2：生成一张热带雨林里被植物覆盖的篮球场照片。
提示词3（上传并融合）：让宇航员在这片球场上扣篮。

4. 灵活切换艺术风格

通过更换风格、色彩或材质，完全改变图片的氛围和美学，但核心主体依然保留。

示例：
提示词1：一辆经典摩托车停在都市街头的写实图片。
提示词2（编辑）：将这张图片变成建筑素描风格。

Gemini 能够识别摩托车及其形态，并用指定艺术风格重新绘制。这适用于设计灵感、艺术探索等场景。

5. 逻辑推理生成复杂场景

给 Gemini 一个简明概念，让其用推理能力丰富细节，适合需要理解现实关系或过程的内容创作。

示例：
提示词1：生成一张人站着手捧三层蛋糕的图片。
提示词2（同一会话）：生成他们绊倒后会发生什么的图片。

模型会结合上下文和物理逻辑，模拟“绊倒”后蛋糕掉落的合理场面，生成动态且符合情境的新图片。

关于当前局限性

我们会持续完善模型，目前仍有以下改进空间：

风格化：有时风格化效果可能不稳定或结果超出预期。
文字渲染：模型偶尔会拼错单词或难以处理复杂字体。
角色特征：虽然角色一致性已很强，但仍可能偶有失误，团队正在进一步优化。
比例设置：模型目前难以严格保持图片比例，虽然可以在提示词中指定尺寸，但生成结果未必完全符合要求。

原文链接

Tips for getting the best image generation and editing in the Gemini app