字节跳动推出新一代人像 AI 视频生成模型：OmniHuman-1-创艺提示符

字节跳动推出了一款极为出色的多模态 AI 人像视频生成模型，能够基于单张人物图像和运动信号（如音频、视频，以及两者结合）生成人物视频。通过引入多模态运动条件混合训练策略，这款模型克服了高质量数据稀缺的问题，在弱信号输入（特别是音频）下依然能够生成高度逼真的人类视频。它支持任意纵横比的输入图像，包括人像、半身和全身，展现出细腻的运动、光照和纹理细节。OmniHuman 在唱歌、讲话等场景中表现十分出色，支持多种姿势、风格以及复杂动作，适配卡通、人工物体及动物等多样化输入。同时，它兼容音频驱动、视频驱动以及两者的结合，通过混合条件训练实现对特定身体部位的精准控制！