什么是 JEPA ,它和世界模型有什么关系?

JEPA(联合嵌入预测架构)不生成像素或token,而是在潜空间中学习数据的抽象表示并预测状态变化,天然承担世界模型中的状态表征与动态预测功能。它更关注“理解与模拟”,而非“生成与表达”,为机器人、自动驾驶等需长期推理与多模态交互的系统提供更高效稳定的基础能力。

发布于2026年2月17日 11:17
编辑零重力瓦力
评论0
阅读60

或许你听说过 JEPA 这个词,但它究竟在做什么的?AI 科普达人 New Machina 将用 4 分钟的时间让大家了解这个世界模型背后的重要概念!

简单说,JEPA 是一种让模型学会 “预测” 的方法,不过它预测的不是像素,也不是下一个 Token,而是更抽象的东西:数据背后的“表示”。

JEPA 的全称是 Joint Embedding Predictive Architecture,联合嵌入预测架构。这个名字听起来复杂,其实核心思想不难理解:就是把图像、文本、传感器信号等不同形式的数据都转成一种共同的表达形式,然后在这个空间里做预测。

这里的关键是 “嵌入空间”,也叫潜空间。你可以把它理解为一种压缩后的表达。模型不再盯着每一个像素、每一个字词,而是提取出更有意义的结构,比如物体之间的关系、语义信息、因果线索。噪声、纹理、随机性会被过滤掉,留下对理解和决策更重要的部分。

和常见的生成模型不同,JEPA 不负责 “生成” 图像或文本。它不去逐个像素还原画面,也不去一个字一个字往外写。它做的是在潜在空间中预测,如果当前状态是这样,接下来可能会怎样?换句话说,它更像是在做模拟,而不是创作。

这点在世界模型中尤其重要。一个完整的世界模型,通常包括以下5个部分:

1. 把输入变成状态表示
2. 根据当前状态做预测
3. 决定可以采取哪些动作
4. 记录历史信息
5. 通过模拟未来来做规划

在这个框架里,JEPA 天然适合承担 “状态” 和 “预测” 这两块。它把原始输入转成紧凑的潜在表示,然后预测下一个潜在状态。规划模块再基于这些预测,模拟不同动作带来的结果,选出更优的方案。整个过程都在潜在空间里完成,不需要频繁生成像素或文本,效率更高,也更稳定。

这也是 JEPA 受到关注的原因之一。传统生成式方法在很多任务上表现不错,但当目标变成长期预测、复杂决策或多模态融合时,逐 Token 或逐像素生成就显得笨重。JEPA 提供了一种不同的方式。它不急着生成结果,而是先建立对世界结构的内部表示。

长远看,这种思路将对机器人、自动驾驶以及需要与真实环境持续交互的系统更有意义。因为这些系统的核心问题不是 “生成一段话”,而是 “理解当前发生了什么,以及下一步会发生什么”。

当然,JEPA 本身并不是完整的世界模型。它更像是一种训练原则和架构思想,可以嵌入到更大的系统中。它解决的是表示和预测的问题,而动作选择、记忆管理和长期规划,还需要其他模块配合。

如果说生成模型擅长表达,JEPA 更强调理解和预测。未来的智能系统,也许需要两者结合。既能生成,也能在抽象空间中稳定地模拟世界。

JEPA 会成为主流吗?现在还难下定论。但可以确定的是,它把 “预测” 重新放到了人工智能的核心位置。这一点,本身就值得关注。

相关文章

10 分钟搞定整套设计,AI 工作流的终极闭环
AI 教程知识
2026年5月28日
0 条评论
小创

10 分钟搞定整套设计,AI 工作流的终极闭环

AI 设计智能体 Lovart 搭配 GPT Image 2 引擎,有效解决了 AI 营销素材风格不统一的痛点。该工具通过多轮追问明确需求后并行生成素材,确保品牌视觉高度一致。其支持可编辑图层修改及无限画布内静态图转视频,无需跨工具操作。相比传统流程,制作包含 7 个素材的广告活动耗时从近 3 小时缩短至 10 分钟,显著提升设计效率与工作流闭环能力。

#AI 绘画
阅读全文
14 天 50 万美元,AI 长片杀进戛纳的 28 个实战技巧
AI 教程知识
2026年5月22日
0 条评论
小创

14 天 50 万美元,AI 长片杀进戛纳的 28 个实战技巧

一个 15 人团队在 14 天内通过10.8万次生成,制作出一部90分钟的AI长片并入围戛纳影展。创作博主ADIL分享了制作过程,包括将影片从 110 分钟剪至 90 分钟、修复 40 个场景,并展示了三个典型问题场景的修复案例。他总结了28 个技巧,涵盖提示词、前期制作、团队协作和剪辑。关键技巧包括:情感场景需描述身体细微反应以消除“机器人感”.图像提示词应指定镜头焦距、光圈等参数,避免空泛描述。避免正面视角,使用四分之三或天花板角度。通过 X 轴 Y 轴百分比坐标系统精确控制角色位置。

#Higgsfield#视频生成
阅读全文
Runway 不想只做视频工具了
AI 新闻资讯
2026年5月16日
0 条评论
零重力瓦力

Runway 不想只做视频工具了

Runway 估值达 530 亿,正从视频生成工具转型构建 AI 世界模型。其核心逻辑是利用视频数据中蕴含的物理规律,弥补文本数据的偏见,目前已发布 Gen-4.5 并规划了交互式模拟、机器人训练等五步路线图。凭借好莱坞付费用户形成的反馈闭环与经常性收入,Runway 具备较强商业基础。尽管面临算力瓶颈及 Google、Luma 等激烈竞争,且 Sora 退出留下市场真空,但 Runway 通过“先有生意再有研究”的策略,试图验证视频生成通向世界理解的工程化路径。

#世界模型#Runway
阅读全文
互动讨论

评论区

围绕《什么是 JEPA ,它和世界模型有什么关系?》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。