字节跳动开源口型同步模型:LatentSync

字节跳动开源口型同步模型LatentSync,支持音频一键生成高自然度嘴型动画;融合Stable Diffusion提升画质,创新TREPA技术显著改善帧间连贯性,有效抑制嘴型跳变,效果媲美EMO、Vasa-1。

发布于2025年1月6日 07:12
作者零重力瓦力
评论0
阅读0

Loopy 之后,字节又发布了一款开源口型同步模型:LatentSync。效果丝毫不逊色于阿里的 EMO,微软的 Vasa-1。

模型亮点

1. 能够一步到位,直接将声音转换成匹配的嘴型画面。
2. 借助 Stable Diffusion 的 AI 绘画技术让视频的画面更加自然。
3. LatentSync 开发了一个叫 TREPA 的新技术,能够让连续的画面更流畅,不会出现不自然的跳变。

模型演示

相关文章

互动讨论

评论区

围绕《字节跳动开源口型同步模型:LatentSync》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。