不用出镜也能拍视频,如何制作一个和你一模一样的 AI 虚拟形象

AI博主Alec分享零出镜视频制作方案:用ElevenLabs克隆声音(十几秒快速版/30分钟专业版),结合Nano Banana Pro生成高分辨率虚拟形象,再通过Creatify Aurora、OmniHuman等工具实现口型同步,一键输出多平台适配的AI视频。

发布于2026年2月4日 15:36
作者零重力瓦力
评论0
阅读0

不用出镜也能拍视频!AI 创作博主 Alec 教你如何 ElevenLabs,制作一个声音、形象和你一模一样的 AI 克隆人。

流程很简单,先解决声音,再解决形象,最后把两者合在一起。

先说声音。ElevenLabs 提供了两种声音克隆方式。一种是快速克隆,只需要十几秒的音频,就能生成一个可用的声音版本。另一种是专业声音克隆,需要至少三十分钟的高质量录音,但换来的是真实度更高、可长期使用的声音模型。音频质量越好,最终效果越稳定。声音克隆完成后,你只需要打字,就可以用自己的声音生成配音,不用反复录音。

有了声音,下一步是做虚拟形象。平台里有现成的默认人物,也可以用文字描述从零生成,还可以直接上传自己的照片,做一个长得和自己一样的形象。通过图像生成模型,比如 Nano Banana Pro,可以生成分辨率很高的人物图像,还能调整穿着、背景和光线。这里有一个很重要的细节,给视频模型用的图片质量越高,最终视频看起来就越自然,所以建议直接生成 2K 或 4K 的图像。

接下来是把图片和声音变成会说话的视频。ElevenLabs 提供了多种对口型或音频驱动的视频模型。Creatify Aurora 能一次性制作 60 秒的视频,适合稳定讲解类视频。OmniHuman 1.5 的清晰度更高,但一次性只能生成 30 秒视频。LTX Audio to Video 是音频驱动,可以在一定程度上根据提示词生成动作,适合更有创意的画面。不同模型各有取舍,可以根据内容类型来选。

在实际使用中,你可以自由选择视频比例。横版 16:9 适合 YouTube,竖版 9:6 适合 TikTok 和 Reels。同一个声音和形象,可以快速生成不同平台需要的版本。整个过程不需要真正面对镜头,只要输入文字,就能产出一条专业的真人视频。

当然,这个工作流并不只是用来克隆自己。你也可以用真实录音去对口型,或者用变声器把声音换成另一个角色,再配上其他虚拟形象,做成完全虚构的人物。总之,对内容创作者来说,这意味着可以把时间更多放在脚本和创意上,而不是反复拍摄和剪辑。

相关文章

互动讨论

评论区

围绕《不用出镜也能拍视频,如何制作一个和你一模一样的 AI 虚拟形象》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。