2024 年 12 月 16 日,谷歌实验室(Google Labs)发布了一款全新的生成式 AI 工具:Whisk,它能够通过图片而非文字提示生成创意图像。这项新技术让用户能够通过将图片作为输入,重新混合主题、场景和风格,打造独一无二的视觉作品。
Whisk是什么?
Whisk 是一款以图片为核心的生成式 AI 工具,用户可以拖拽图片作为输入,包括以下三部分:
- 主题:定义创作的核心对象。
- 场景:设置背景环境。
- 风格:决定图像的整体视觉效果。
奇幻鱼 - Whisk 生成的图像示例
古怪海象 - Whisk 生成的图像示例
撒糖釉面甜甜圈 - Whisk 生成的搪瓷徽章示例
长角奇幻猫 - Whisk 生成的图像示例
Whisk 的特别之处在于,它并不复制输入图片,而是通过 AI 捕捉图片的 “精髓”,然后重新组合成全新的创意作品。无论是为数字艺术、贴纸设计,还是其他创意项目,Whisk 都能为用户提供快速试验和探索的可能性。
背后的技术
Whisk由两大AI模型驱动:
- Gemini模型:分析用户输入的图片,自动生成详细的描述性文字。
- Imagen 3模型:基于这些描述生成最终的图像。
这一过程让用户可以随意混合各种主题、场景和风格,而生成的作品总是带有独特的新意。虽然生成的图像并非完全还原原始图片,但这种“重塑”过程为创意提供了更多可能性。
测试与用户反馈
在早期测试中,艺术家和创意人士将 Whisk 视为一种全新的创作工具,而非传统的图片编辑器。它侧重于快速探索创意,而不是精确的像素编辑。用户可以尝试不同的设计选项,并下载自己满意的作品。
值得注意的是,由于 Whisk 仅提取图片的关键特征,生成的图像可能会在高度、体型、发型或肤色等方面与预期有所不同。但用户可以随时查看和编辑底层文字提示,以调整生成效果。
如何试用?
用户可以通过 labs.google/whisk (需使用美国 IP 访问) 体验这项创新技术并提供反馈。谷歌实验室表示,Whisk 的目标是为用户提供新的创意工具,同时让技术更贴近用户需求。
评论(0)