如何实现 AI 文生视频的人物一致性

海螺AI提出文生视频人物一致性提示词公式:头发+年龄与性别+服装颜色+环境+动作/镜头等,通过强化非面部视觉特征、限定年龄与光照环境提升角色稳定性;实测显示同角色在不同时段生成的多镜头中面部特征保持较强一致性。

发布于2024年9月13日 02:19
编辑零重力瓦力
评论0
阅读122

在 AI 绘画中,我们可以通过 LoRA 和 Midjourney 的角色参考(--cref)实现人物的一致性。然而,在 AI 视频领域,尤其是文本生成视频方面,保持人物一致性一直被认为是一个不可能完成的任务。然而,海螺 AI 提出了一种实现视频人物一致性的提示词公式。

公式

Hair + Age & Gender + Color of the clothes + Environment + Other (Action, Camera, etc.)

头发 + 年龄 + 性别 + 服装的颜色 + 环境 + 其他(动作,镜头……)

  • 头发 / 服装:尽可能多地构建角色的非面部视觉元素,从而为观众创造“统一的外观”。
  • 年龄:限制角色的年龄跨度。
  • 环境:限制环境空间,特别是光照环境,以产生相同的感知,从而增强观众对画面的一致性感受。

示例

镜头一

Close-up of a little Chinese boy with black hair and wearing a white T-shirt, facing the camera, his face illuminated by candlelight, his expression of surprise, the environment is dim and the contrast between light and dark is strong
一个黑发、白T恤的中国小男孩的特写,面对镜头,他的脸被烛光照亮,他惊讶的表情,环境昏暗,明暗对比强烈

镜头二

Close-up of a little Chinese boy with black hair and wearing a white T-shirt, facing the camera sideways, slightly tilting his head as he walks through a dark green forest, his face illuminated by an oil lamp in his hand, the environment is dim and the contrast between light and dark is strong.
一个黑发、白T恤的中国小男孩的特写,侧身面对镜头,微微歪着头,走在深绿色的森林里,他的脸被手里的油灯照亮,环境昏暗,明暗对比强烈。

镜头三

Side shot of a little Chinese boy with black hair and wearing a white T-shirt, looking at a candle on a table in front of him, the environment is dark and the contrast is strong
一个黑发、白T恤的中国小男孩的侧影,看着面前桌子上的蜡烛,环境黑暗,对比强烈

镜头四

Medium shot of a little Chinese boy with black hair and wearing a white T-shirt, facing the camera, in a dreamy, warm-toned room, concentrating fully on assembling the building blocks in front of him.
中景镜头,一个黑发、白T恤的中国小男孩,面对镜头,在一个梦幻般的暖色调房间里,全神贯注地组装面前的积木。

以上四组镜头的生成时间间隔大约5分钟。

镜头五

这个镜头与第一个镜头使用了完全相同的提示词,尽管生成时间间隔了12小时,人物仍具备较强的一致性。从这组测试来看,只要设定相同的年龄、性别和发型,海螺 AI 生成的人物在面部特征上表现出相对的稳定性。对于其他年龄、种族和性别的人物一致性还有待进一步测试,也期待大家的反馈。

相关文章

多智能体为什么比单智能体强?Anthropic 用 90.2% 的数据给了答案
智能体工程
2026年6月2日
0 条评论
零重力瓦力

多智能体为什么比单智能体强?Anthropic 用 90.2% 的数据给了答案

Anthropic 研究显示,多智能体系统性能比单智能体提升 90.2%,其核心在于主智能体拆解任务与子智能体并行执行。尽管该架构 token 消耗约为单智能体的 15 倍,但在复杂任务中优势显著。业界已总结出五种协作模式,并有 n8n、CAMEL-AI 等落地案例。然而,多智能体仍面临调试难、输出不稳定等挑战。建议仅在任务复杂需并行、分工明确且能承担高成本时采用,简单任务直接使用强模型即可。

#智能体#智能体工程
阅读全文
别被多智能体的概念吓住,真正跑通工作流的人都在关注这些细节
智能体工程
2026年6月1日
0 条评论
零重力瓦力

别被多智能体的概念吓住,真正跑通工作流的人都在关注这些细节

多智能体协作在创意交付端仍存短板,但在结构化任务中价值显著。实测显示,Super Agent 生成幻灯片虽快但排版难控,而自动化销售线索处理及编程辅助等场景因规则明确、流程可定义,能实现高效落地。多智能体的核心竞争力在于清晰定义职责边界、输出格式与异常处理,而非概念本身。建议优先梳理任务结构化程度与人机分工,注重参数配置等实操细节,避免盲目追求平台概念,以构建真正可用的生产力工作流。

#智能体工程#智能体
阅读全文
OpenClaw 遇到对手了:Hermes Agent 的自我进化路线到底能不能跑通
智能体工程
2026年5月28日
0 条评论
零重力瓦力

OpenClaw 遇到对手了:Hermes Agent 的自我进化路线到底能不能跑通

开源个人 Agent 领域呈现 OpenClaw 与 Hermes Agent 的路线之争。OpenClaw 主打全平台覆盖与可视化协作,强调交互广度;Hermes Agent 则聚焦自我进化与跨会话用户建模,追求认知深度,并提供一键迁移工具争夺用户。尽管 Hermes v0.14.0 已具备生产级能力,但其自我进化机制仍面临技能质量、记忆膨胀及 token 效率等挑战。这场竞争标志着个人 Agent 赛道已从功能验证迈向设计哲学比拼的新阶段。

#Hermes Agent#OpenClaw#智能体工程
阅读全文
互动讨论

评论区

围绕《如何实现 AI 文生视频的人物一致性》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。