阿里推出新的视频合成模型:MIMO

阿里发布视频合成模型MIMO,仅需单张角色图、动作描述和场景图,即可生成高可控动画视频。其创新性地将2D视频解耦为身份、动作与场景三部分,并转化为紧凑3D表征,支持跨角色动作迁移、真实遮挡交互与高效编辑,显著降低专业视频创作门槛。

发布于2024年9月26日 02:16
编辑零重力瓦力
评论0
阅读14

角色视频合成的目的是制作看起来真实的动画角色视频,这些角色可以在生动的场景中活动。传统的 3D 模型通常需要从多个角度拍摄来训练,这让它们很难快速创建不同的角色。最近的一些 2D 方法改善了这一点,使用了预训练的扩散模型,但在处理姿势变化和场景互动方面仍有困难。

为了解决这些问题,阿里提出了一个新的模型:MIMO。这个模型可以根据简单的用户输入生成可控的角色视频,能够灵活处理各种角色,适应新的 3D 动作,并在现实场景中实现互动。

MIMO 的核心思想是将 2D 视频转化为紧凑的 3D 形式。具体来说,就是用单镜头深度估计技术把 2D 图像提升为3D,并把视频分解为三个主要部分:主要人物、背景场景和漂浮的遮挡物。这些部分转化为控制信号,帮助生成视频。这种分解方法使得用户可以灵活控制视频内容,表现空间运动,也让合成过程更好地与场景互动。

实验结果显示,这种方法在效果和稳定性上都表现得很好。

核心思想

阿里视频合成模型 MIMO

模型能够把你提供的角色图片、动作描述和场景图片,这三种信息转化为内部的指令,然后组合起来,生成一个符合要求的动画视频。这样你就可以轻松控制角色在特定场景中的动作和表现,无需复杂的操作。

实现方法

阿里视频合成模型 MIMO

MIMO 会将一个视频分解成几个部分,然后再重新组合生成新的、相似的视频。具体步骤如下:

将视频分成三部分

  • 主要人物(Main Human): 视频中的主要角色,比如一个人在跳舞。
  • 背景场景(Underlying Scene): 人物所在的环境,比如舞台或公园。
  • 漂浮的遮挡物(Floating Occlusion): 视频中可能挡住视线的物体,比如飘落的叶子或飞舞的纸屑。

深入处理主要人物

  • 身份属性(Identity):识别出这个人物是谁,比如穿什么衣服、长什么样子。
  • 动作属性(Motion):记录这个人物在视频中的动作,比如跳跃、挥手。

这些信息分别被转换成三个内部代码

  • 身份代码(Cid):记录人物的外观和身份信息。
  • 动作代码(Cmo):记录人物的动作和运动方式。
  • 处理背景和遮挡物:场景代码(Cso):背景和遮挡物的信息被一起处理,转换成一个综合的内部代码,表示整个场景的布局和细节。

重建视频

这些内部代码(身份代码、动作代码和场景代码)被输入到一个“扩散解码器”(diffusion-based decoder),这个解码器根据这些条件重新生成视频。

为什么要这么做

通过将视频分解成这些部分并分别处理,可以更好地控制和调整每个部分。例如,你可以更改人物的动作,换一个背景,或者添加更多的遮挡物,而不需要重新制作整个视频。这使得视频生成和编辑变得更加灵活和高效。

效果演示

任意角色控制

通过单张输入图像制作人类、卡通或拟人角色的动画

新颖的3D动作控制

从现实视频中提取复杂动作

来自数据库的空间3D动作

交互式场景控制

复杂的现实场景,包含物体交互和遮挡效果

MIMO 项目地址

相关文章

Genspark 4.0 创作者的专属龙虾
AI 产品工具
2026年4月18日
0 条评论
小创

Genspark 4.0 创作者的专属龙虾

硅谷 AI 独角兽 Genspark 发布 Workspace 4.0,核心升级 Claw 功能专为创作者打造。它能自动化处理调研、邮件、PPT 等跨步骤杂活,并支持串联跨应用重复操作。新增 Clip Genius、AI Designer 及故事板生成工具,可自动提取视频信息、产出品牌素材与分镜脚本。配合 AI Developer,用户仅需自然语言描述即可搭建网站。该工具旨在让创作者从繁琐幕后工作中解放,专注于结果把控。

#智能体
阅读全文
xAI 将于下周发布 Grok Build 和 Grok CLI
AI 产品工具
2026年4月18日
0 条评论
小创

xAI 将于下周发布 Grok Build 和 Grok CLI

xAI 将于下周发布 Grok Build 和 Grok CLI ,正式进军智能体编程赛道,与 Claude Code 、 OpenAI Codex 等竞争。 Grok 4.3 已向订阅用户开放测试。产品采用本地与远程双轨设计,亮点是 Arena 模式,让多个智能体同场竞争,用户直接挑选最佳结果。此外还有 Grok Computer 桌面客户端和第三方服务连接器生态布局,差异化竞争策略明确。

#Grok#AI 编程
阅读全文
Anthropic 推出 Claude Design :快速生成视觉素材
AI 产品工具
2026年4月18日
0 条评论
小创

Anthropic 推出 Claude Design :快速生成视觉素材

Anthropic 推出 Claude Design ,用户通过自然语言描述即可生成原型图、幻灯片等视觉内容,面向缺乏设计背景的创业者和产品经理。该产品定位为与 Canva 互补而非竞争,支持导出多种格式并可导入 Canva 进行精修。企业用户还能利用品牌一致性功能,保持统一的视觉风格。此举被视为 Anthropic 深化企业市场的重要举措,估值或达 8000 亿美元。

#Anthropic
阅读全文
互动讨论

评论区

围绕《阿里推出新的视频合成模型:MIMO》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。