Runway 年终 5 大升级 向通用世界模型迈出一大步

Runway 年终发布五大升级,核心是 Gen-4.5 多模态视频模型(支持有声电影生成与音画协同编辑)和通用世界模型 GWM-1;后者涵盖虚拟空间构建(GWM Worlds)、高保真数字人(GWM Avatars)、机器人训练模拟(GWM Robotics),并联合英伟达等共建大规模训练平台。

发布于2025年12月28日 13:24
编辑零重力瓦力
评论0
阅读42

你有没有想过,未来我们会怎么用视频、声音,甚至虚拟世界去表达我们的想象?年末,Runway 研究团队带来了一大波重磅升级,让我们提前体验到了 “下一站” 数字创作的模样!

这次发布的亮点有五个,先聊聊大家最关心的视频和音频。Runway 新推出的 Gen-4.5 模型,不仅能自动生成视频,还能同步生成对白、音效、背景音乐,甚至可以直接编辑视频里的声音。简单来说,就是你可以让 AI 直接生成一段 “有声电影”,并且能够随意改台词、加背景乐,让整个制作流程都变得更轻松。

更厉害的是,Gen-4.5 支持多镜头和长视频的统一编辑,角色、环境、光线都能在不同画面之间保持一致。剪辑起来更顺畅,也不用担心前后穿帮的问题。

不过,Runway 的野心远不止于此。他们还正式发布了早在两年前就提出的 “通用世界模型 GWM-1”。(微博正文)真的有种科幻照进现实的既视感!

所谓 “通用世界模型”,就是一种用来模拟和理解真实世界运行规律的技术。以前的视频模型都是一次性生成一段内容,而现在这个新模型可以逐帧预测、实时调整,还能在生成过程中 “接收动作指令”。比如让虚拟角色移动、操控现实中的机械臂,甚至和虚拟环境互动。

是不是有点像在玩 “数字地球”?事实上,Runway 已经把这事做成了产品:GWM Worlds。只需要一句描述或者一张图片,它就能创建出一个你可以随意探索和互动的虚拟空间。从走路、开车、飞无人机,到模拟各种灯光和物理效果,这套系统都能实时反应。这也让训练机器人、做游戏、搞交互体验的门槛一下子被拉低了!

当然,虚拟世界里最难做的还是 “人”。这次 Runway 还带来了 GWM Avatars 技术,让 “数字人” 可以实现实时表情、动作和眼神的同步,还能根据声音生成嘴型和肢体语言。你甚至可以上传照片、选择声音,几分钟就能捏出自己的虚拟分身,参与对话、教学、娱乐,甚至用多种语言进行问答。

最后一项升级是专门为训练机器人设计的 GWM Robotics。和其他机器人控制模型最大的不同在于,它不仅能模拟 “成功”,还可以真实还原各种失败,比如夹取失败、失误等等,帮助机器人更快学会应对各种情况。最重要的是,这些训练、评估和数据生成全都可以在虚拟环境里完成,大大节省了时间和成本,也突破了硬件和物理空间的限制。

此外,Runway 还宣布和 CoreWeave、Nvidia 合作,打造大规模训练平台,目标是让 “通用世界模拟” 和 “虚拟创作” 像手机拍视频一样普及。

可以想象,未来几年的内容创作、虚拟体验、机器人训练,可能都离不开这样的通用世界模型。也许很快,我们每个人都能亲手打造属于自己的虚拟世界和虚拟角色,甚至用它来推动科学和工程的发展。

你会期待这样的未来吗?

相关文章

一段代码让网站出海,这个 AI 翻译工具把多语言 SEO 玩明白了
AI 产品工具
2026年6月1日
0 条评论
小创

一段代码让网站出海,这个 AI 翻译工具把多语言 SEO 玩明白了

跨境电商网站常因语言壁垒导致高跳出率。Weglot 是一款 AI 翻译工具,仅需几分钟即可通过添加脚本实现网站多语言本地化,且保持原有排版。该工具支持可视化编辑、术语表锁定及团队协作,便于后续维护。同时,它能自动优化 hreflang 标签、独立 URL 及元数据,解决多语言 SEO 难题。借助母语内容布局小语种市场,企业可以低成本获取流量红利,有效提升海外转化率。

阅读全文
SCOPE 给 AI 绘画装上了 “语义追踪器”,复杂提示词终于不用反复抽卡了
AI 产品工具
2026年6月1日
0 条评论
零重力瓦力

SCOPE 给 AI 绘画装上了 “语义追踪器”,复杂提示词终于不用反复抽卡了

中科大团队发布 SCOPE 框架,通过结构化语义规格解决 AI 绘画中复杂提示词语义丢失问题。该系统将提示词拆解为实体、约束及未知项,构建包含分解、合成、生成、验证的四步循环,并辅以检索、推理和修复技能,实现生成过程全程可追溯与精准修复。团队还推出 Gen-Arena 评测基准及 EGIP 指标。实验显示 SCOPE 在多项基准中表现优异,为多元素控制场景提供了工程化解决方案,代码已开源。

#AI 绘画
阅读全文
Stable Audio 3.0 发布:开源音频生成从 11 秒走到 6 分钟
AI 产品工具
2026年5月28日
0 条评论
零重力瓦力

Stable Audio 3.0 发布:开源音频生成从 11 秒走到 6 分钟

Stability AI 发布开源音频模型 Stable Audio 3.0,最长可生成 6 分 20 秒立体声音频。该模型采用 SAME 架构实现 4096 倍压缩,支持变量长度生成与局部编辑,Small 版本可在移动端离线运行。训练数据均获授权,规避版权风险。提供四个变体及 LoRA 微调文档,社区许可允许商用。此次升级标志着开源音频生成从短音效迈向完整歌曲创作,为开发者提供了本地化、合规的高质量音频生成方案。

#开源模型#AI 音乐
阅读全文
互动讨论

评论区

围绕《Runway 年终 5 大升级 向通用世界模型迈出一大步》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。