Meta 今天发布了自己的 AI 视频生成模型 Movie Gen,他们认为是迄今为止最先进的媒体基础模型。

Meta 今天发布了其 AI 视频生成模型 Movie Gen,称其为迄今为止最先进的媒体基础模型。

Movie Gen 是一个拥有 30 亿参数的变换器模型,能够从单一文本提示生成高质量、高分辨率的视频和图像。

除了视频生成,Movie Gen 还包括一个 13 亿参数的音频模型,能够通过视频输入和文本提示生成与视频同步的高保真音频,涵盖环境音、背景音和音效,确保音质优良且视频与音频精确对齐。

此外,Movie Gen 还具备编辑功能,可以通过生成的视频及文本指令执行局部编辑,如添加、删除或替换元素,或进行全局样式和背景的更改。

Movie Gen 还能够利用个人图像和文本提示,生成保留角色特征和自然运动效果的视频。

就目前发布的演示视频来看,画面质量和动态效果和 Sora 无异,总体效果甚至优于 Runway、可灵等目前最主流的 AI 视频生成工具。

详细介绍

Movie Gen