
一款音频驱动动态人像生成的新技术:KDTalker。KDTalker 主要围绕隐式关键点(Implicit Keypoint)和时空扩散模型(Spatiotemporal Diffusion)展开,能够实现更加逼真的面部表情合成,同时提升姿态的多样性和生成效率。并且能够在单张 RTX 4090 或 RTX 3090 级别的 GPU 上运行。
传统音频驱动人脸合成技术往往依赖于预定义的关键点检测,或者直接使用 GAN(生成对抗网络)进行端到端映射。然而,这种方式往往导致面部动作的刻板,缺乏自然的细节变化。而KDTalker 采用了隐式关键点的方式,这意味着它不再完全依赖于显式的人脸关键点,而是通过深度学习模型自主学习音频与面部动作之间的映射关系。这种方式不仅提高了模型对不同风格面部的泛化能力,还能在不牺牲精度的前提下,生成更加生动的表情变化。
KDTalker 还引入了时空扩散模型。扩散模型最初主要用于图像生成任务,其核心思想是通过逐步去噪的方式,从随机噪声中恢复出目标图像。在 KDTalker 中,这一方法被巧妙地应用于时间序列数据,使得模型能够更好地捕捉连续帧之间的动态变化,从而生成更加平滑、自然的口型与面部表情。相比传统的 LSTM 或 Transformer 模型,KDTalker 这种方法更擅长处理连续画面之间的关联,使生成的人物动作更加流畅自然,避免生硬的画面跳动或不连贯的表情变化。
项目地址:https://github.com/chaolongy/KDTalker
试用地址:https://kdtalker.com/
评论(0)