如何实现 AI 文生视频的人物一致性

海螺AI提出文生视频人物一致性提示词公式:头发+年龄与性别+服装颜色+环境+动作/镜头等,通过强化非面部视觉特征、限定年龄与光照环境提升角色稳定性;实测显示同角色在不同时段生成的多镜头中面部特征保持较强一致性。

发布于2024年9月13日 02:19
编辑零重力瓦力
评论0
阅读190

在 AI 绘画中,我们可以通过 LoRA 和 Midjourney 的角色参考(--cref)实现人物的一致性。然而,在 AI 视频领域,尤其是文本生成视频方面,保持人物一致性一直被认为是一个不可能完成的任务。然而,海螺 AI 提出了一种实现视频人物一致性的提示词公式。

公式

Hair + Age & Gender + Color of the clothes + Environment + Other (Action, Camera, etc.)

头发 + 年龄 + 性别 + 服装的颜色 + 环境 + 其他(动作,镜头……)

  • 头发 / 服装:尽可能多地构建角色的非面部视觉元素,从而为观众创造“统一的外观”。
  • 年龄:限制角色的年龄跨度。
  • 环境:限制环境空间,特别是光照环境,以产生相同的感知,从而增强观众对画面的一致性感受。

示例

镜头一

Close-up of a little Chinese boy with black hair and wearing a white T-shirt, facing the camera, his face illuminated by candlelight, his expression of surprise, the environment is dim and the contrast between light and dark is strong
一个黑发、白T恤的中国小男孩的特写,面对镜头,他的脸被烛光照亮,他惊讶的表情,环境昏暗,明暗对比强烈

镜头二

Close-up of a little Chinese boy with black hair and wearing a white T-shirt, facing the camera sideways, slightly tilting his head as he walks through a dark green forest, his face illuminated by an oil lamp in his hand, the environment is dim and the contrast between light and dark is strong.
一个黑发、白T恤的中国小男孩的特写,侧身面对镜头,微微歪着头,走在深绿色的森林里,他的脸被手里的油灯照亮,环境昏暗,明暗对比强烈。

镜头三

Side shot of a little Chinese boy with black hair and wearing a white T-shirt, looking at a candle on a table in front of him, the environment is dark and the contrast is strong
一个黑发、白T恤的中国小男孩的侧影,看着面前桌子上的蜡烛,环境黑暗,对比强烈

镜头四

Medium shot of a little Chinese boy with black hair and wearing a white T-shirt, facing the camera, in a dreamy, warm-toned room, concentrating fully on assembling the building blocks in front of him.
中景镜头,一个黑发、白T恤的中国小男孩,面对镜头,在一个梦幻般的暖色调房间里,全神贯注地组装面前的积木。

以上四组镜头的生成时间间隔大约5分钟。

镜头五

这个镜头与第一个镜头使用了完全相同的提示词,尽管生成时间间隔了12小时,人物仍具备较强的一致性。从这组测试来看,只要设定相同的年龄、性别和发型,海螺 AI 生成的人物在面部特征上表现出相对的稳定性。对于其他年龄、种族和性别的人物一致性还有待进一步测试,也期待大家的反馈。

相关文章

拜耳用 3 层反思循环把 AI 拉进制药生产线:上下文工程和 harness 工程到底在干什么
智能体工程
2026年6月21日
0 条评论
零重力瓦力

拜耳用 3 层反思循环把 AI 拉进制药生产线:上下文工程和 harness 工程到底在干什么

拜耳制药和 Thoughtworks 在 Martin Fowler 的博客上发表了一篇完整案例,讲他们花了两年多时间把 PRINCE(Preclinical Information Center)从关键词搜索工具演变成多智能体 RAG 系

#智能体工程
阅读全文
Vercel 发布 eve 开源智能体框架:Agent 界的 Next.js 终于来了
智能体工程
2026年6月18日
0 条评论
零重力瓦力

Vercel 发布 eve 开源智能体框架:Agent 界的 Next.js 终于来了

Vercel 发布开源智能体框架 eve,采用文件系统优先设计,将 Agent 定义为目录结构以降低理解成本。框架内置持久化会话、沙盒计算、人类审批、安全连接、多渠道部署及可观测性六大生产级能力,解决重复造轮子痛点。eve 目前处于公开预览阶段,框架免费但托管服务收费。该框架标志着 AI Agent 开发正从混乱走向标准化,大幅缩短从 demo 到上线的距离,但需注意 beta 阶段的 API 变动及供应商锁定风险。

#智能体框架#智能体工程
阅读全文
可灵 3.0 原生 4K:AI 视频终于跨过了影视工业的最后一道门槛
AI 产品工具
2026年6月14日
0 条评论
零重力瓦力

可灵 3.0 原生 4K:AI 视频终于跨过了影视工业的最后一道门槛

可灵 AI 发布 Video 3.0 原生 4K 模式,支持 3840×2160 分辨率、60fps 及 16bit HDR,首次在多维度达到广播级交付标准。该模式区别于后期放大,细节真实度显著提升,并新增多镜头分镜与原生音频生成功能,大幅提高制作效率。尽管 4K 生成成本较高,但其在 ELO 测试中排名第一,标志着 AI 视频从娱乐工具迈向影视工业级生产设施,解决了商业交付难题。

#可灵#视频生成
阅读全文
互动讨论

评论区

围绕《如何实现 AI 文生视频的人物一致性》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。