继 Loopy 之后,字节又发布了一款开源口型同步模型:LatentSync。效果丝毫不逊色于阿里的 EMO,微软的 Vasa-1。
模型亮点
1. 能够一步到位,直接将声音转换成匹配的嘴型画面。
2. 借助 Stable Diffusion 的 AI 绘画技术让视频的画面更加自然。
3. LatentSync 开发了一个叫 TREPA 的新技术,能够让连续的画面更流畅,不会出现不自然的跳变。
继 Loopy 之后,字节又发布了一款开源口型同步模型:LatentSync。效果丝毫不逊色于阿里的 EMO,微软的 Vasa-1。
1. 能够一步到位,直接将声音转换成匹配的嘴型画面。
2. 借助 Stable Diffusion 的 AI 绘画技术让视频的画面更加自然。
3. LatentSync 开发了一个叫 TREPA 的新技术,能够让连续的画面更流畅,不会出现不自然的跳变。
拆成可复用角色;hermes-agent 主打任务后自动沉淀技能、让智能体越用越聪明;Superpowers 以测试驱动流程串起开发全链路;Paperclip 则尝试用多智能体编排“零人工公司”。
Adobe Firefly上线自定义图像模型功能,用户上传10张以上图片即可训练专属艺术风格模型,聚焦AI美学方向;但该能力比Midjourney晚半年推出,AI视频部分未采用自研模型,转而接入可灵2.6,引发对其技术节奏与生态策略的质疑。
AI科幻短篇《零号竞技场》(Arena Zero)全程由AI生成,仅用4天完成制作,画面质感与叙事节奏达到好莱坞科幻短片水准,刷新AI内容创作的效率与质量边界。
围绕《字节跳动开源口型同步模型:LatentSync》展开交流,未登录用户可浏览评论,登录后可参与讨论。