谷歌发布全新视频与图像生成技术更新:Veo 2、Imagen 3 和 Whisk

Google 宣布了一系列重磅更新,包括最新的视频生成模型 Veo 2、图像生成模型 Imagen 3,以及一款全新的创意工具 Whisk。这些技术为视频创作、图片生成和创意表达带来了全新的可能性。

Veo 2:让视频生成更具电影感

Veo 2 是谷歌新一代视频生成模型,能够制作出高质量的视频,覆盖多种题材和风格。它不仅提升了对现实物理和人物动作的理解,还能捕捉电影级的细节和质感。例如,你可以要求它生成:低角度的动态镜头,穿梭于场景中;科学家在实验室中显微镜下专注的特写;35mm镜头拍摄的乡村蜂窝场景,阳光洒在蜂农和蜂蜜罐上等各种风格的视频。这些画面不仅清晰度高达 4K,还充满艺术性和电影感,甚至可以在几分钟时长的视频中保持一致的风格。Veo 2 还支持用户通过提示词选择各种镜头参数(如“18mm镜头”)或视觉效果(如“浅景深”),生成专业级画面。

在测试中,Veo 2 的生成质量在与其他领先的 AI 视频模型性比,它还减少了常见的 AI 生成问题,比如多余的物体或不合理的细节,让生成结果更加真实自然。

Veo 2 亮点

  • 高质量与高分辨率,可生成4K视频,时长扩展至数分钟。
  • 电影级的提示词理解能力,支持镜头语言,如焦距、景深和拍摄角度。
  • 安全性与透明度高,所有生成的视频均嵌入 SynthID 水印,标明其为AI生成,避免误用或误导。

目前,Veo 2 已在谷歌实验室的 VideoFX 工具中上线,部分用户可以抢先体验。未来,它还将被扩展到 YouTube Shorts 等平台。

Imagen 3:图像生成更精美多样

相比上一代,Imagen 3 的图像生成能力有了显著提升。无论是逼真的摄影风格,还是抽象的艺术风格,它都能以更高的细节和更丰富的质感还原用户的创意。

例如,你可以通过提示词生成:瓦片质感的陶艺场景,手工艺人用金色能量塑造陶器;雪林中一只红松鼠,毛发细节清晰可见;充满蒸汽与离别情感的1940年代欧洲火车站。Imagen 3 对用户提示的响应更准确,并在多种艺术风格之间切换自如。从印象派到动漫,从抽象艺术到写实摄影,它都能满足用户需求。

谷歌发布全新视频与图像生成技术更新:Imagen 3

谷歌发布全新视频与图像生成技术更新:Imagen 3

谷歌发布全新视频与图像生成技术更新:Imagen 3

谷歌发布全新视频与图像生成技术更新:Imagen 3

谷歌发布全新视频与图像生成技术更新:Imagen 3

Imagen 3 亮点

  • 更亮眼的图像效果,色彩更鲜艳,构图更优秀,细节更丰富。
  • 支持多种艺术风格,从写实到幻想,转换流畅。

Whisk:用图片而非文字激发创意

谷歌还推出了一款全新实验工具 Whisk,它让用户可以通过图片来生成创意图像,而不是传统的文字提示。这款工具主要适合快速视觉化创作,让用户可以将主题、场景和风格的图片拖拽到工具中,由 AI 将它们重新混合成独一无二的新作品。

Whisk 背后的技术结合了 Imagen 3 和 Gemini 模型。Gemini 会为输入图片生成详细描述,再通过 Imagen 3 转化为最终的创意图像。无论是数字玩偶、搪瓷徽章还是贴纸设计,Whisk 都能让用户的创意瞬间成真。

Whisk 详细介绍:谷歌推出 Whisk:用图片和 AI 重新定义创意表达

亮点

  • 通过拖拽图片生成创意。
  • 简单快捷,无需复杂提示词,适合快速试验创意。

AI 创意技术的新纪元

谷歌实验室的 Veo 2、Imagen 3 和 Whisk 展示了生成式 AI 在视频和图像创作领域的巨大潜力。从电影级视频制作到个性化艺术创作,这些工具不仅为专业创作者提供了便捷的创意解决方案,也让普通用户可以轻松尝试。未来,谷歌计划将这些技术扩展到更多产品和平台,让 AI 赋能每个人的创意表达。

参考资料
State-of-the-art video and image generation with Veo 2 and Imagen 3