#世界模型
【AI工具】不是语言模型,也不是图像模型,Luma 的 UNI-1 到底是什么
Luma 推出 UNI-1,一种突破性多模态推理模型:它并非语言或图像模型的拼接,而是将世界理解与图像生成统一于单次前向推理中,实现“先看懂、再画出”。架构上尝试融合逻辑推理与视觉想象,被称作“左右脑合一”,或预示AI建模范式的转向。
什么是 JEPA ,它和世界模型有什么关系?
JEPA(联合嵌入预测架构)不生成像素或token,而是在潜空间中学习数据的抽象表示并预测状态变化,天然承担世界模型中的状态表征与动态预测功能。它更关注“理解与模拟”,而非“生成与表达”,为机器人、自动驾驶等需长期推理与多模态交互的系统提供更高效稳定的基础能力。
科幻照进现实,《十三层空间》中的社会模拟系统真的来了
《十三层空间》式社会模拟成真:Smallville 构建由生成式智能体组成的自主小镇,Simile 平台则基于人类决策建模,支持反事实推演——改一个变量,整个社会重新演算,助力政策制定、商业策略等高风险决策提前验证影响与风险。
1X 发布最新世界模型,称为机器人 NEO 的认知核心
1X为机器人NEO推出全新世界模型,使其能基于视觉与人类交互视频预训练,在脑中预演符合物理规律的动作,再执行真实操作;支持多方案并行、动态环境适应及自我强化学习闭环,显著提升泛化能力与自主性。
Runway 年终 5 大升级 向通用世界模型迈出一大步
Runway 年终发布五大升级,核心是 Gen-4.5 多模态视频模型(支持有声电影生成与音画协同编辑)和通用世界模型 GWM-1;后者涵盖虚拟空间构建(GWM Worlds)、高保真数字人(GWM Avatars)、机器人训练模拟(GWM Robotics),并联合英伟达等共建大规模训练平台。
MIT 教授探索类人智能的奥秘
MIT副教授Phillip Isola通过心理物理学实验与视频预测等生成模型,探索人类如何直觉理解物理世界、推断物体功能并预测事件;其研究强调AI与人类认知的双向启发,旨在揭示智能本质的多样性。
DeepMind 通过神经网络建立果蝇全身物理仿真
DeepMind 基于 MuJoCo 构建高保真果蝇全身物理仿真,集成空气动力学与足部吸附模拟,并用神经网络从真实视频学习运动控制,实现逼真飞行与视觉导航。该“数字果蝇”可解析身体、神经与环境协同机制,技术正延伸至小鼠和斑马鱼。
AI 让游戏成为“活生生”的世界?WAM 的无限可能!
微软WAM是一种生成式AI模型,能根据游戏画面实时预测角色动作并逐帧生成新画面,让游戏从固定脚本变为玩家可干预、可创作的动态世界。它同样有望革新影视制作与VR/AR体验,推动内容生产向“意图驱动”演进。
NVIDIA Cosmos:加速物理 AI 的开源平台
NVIDIA Cosmos 是开源物理AI平台,提供基于2000万小时视频训练的世界基础模型(WFMs),支持文本/视频到视频生成,兼顾扩散与自回归架构。可高效生成符合物理规律的合成数据,加速机器人、自动驾驶等现实场景AI开发,并已集成Omniverse,支持微调与商用。