Google DeepMind 推出的全新 4D AI 模型 CAT4D,能够将普通视频转化为沉浸式的 4D 体验。让观众仿佛置身于影片之中,能够从不同角度身临其境地感受场景中的每个细节。
CAT4D 工作原理
CAT4D 利用多视角视频扩散模型(multi-view video diffusion model)将任何真实的视频转化为动态的 3D 模型。观众还可以随时冻结画面,从全新的视角进行观赏。
CAT4D项目地址
CAT4D论文地址
Google DeepMind 推出的全新 4D AI 模型 CAT4D,能够将普通视频转化为沉浸式的 4D 体验。让观众仿佛置身于影片之中,能够从不同角度身临其境地感受场景中的每个细节。
CAT4D 利用多视角视频扩散模型(multi-view video diffusion model)将任何真实的视频转化为动态的 3D 模型。观众还可以随时冻结画面,从全新的视角进行观赏。
CAT4D项目地址
CAT4D论文地址
Google I/O 2026 定档 5 月 19 日至 20 日,被视为谷歌史上赌注最大的一届。核心看点包括 Gemini 4 首秀、Veo 4 视频生成升级及轻量级 AI 眼镜发布。更关键的是 Aluminium OS 桌面系统亮相,旨在补齐移动与桌面闭环。在千亿美元投入下,谷歌试图通过搜索、OS、硬件与智能体的全面重构,应对来自 GPT-6 等竞品的激烈挑战。
硅谷 AI 独角兽 Genspark 发布 Workspace 4.0,核心升级 Claw 功能专为创作者打造。它能自动化处理调研、邮件、PPT 等跨步骤杂活,并支持串联跨应用重复操作。新增 Clip Genius、AI Designer 及故事板生成工具,可自动提取视频信息、产出品牌素材与分镜脚本。配合 AI Developer,用户仅需自然语言描述即可搭建网站。该工具旨在让创作者从繁琐幕后工作中解放,专注于结果把控。

xAI 将于下周发布 Grok Build 和 Grok CLI ,正式进军智能体编程赛道,与 Claude Code 、 OpenAI Codex 等竞争。 Grok 4.3 已向订阅用户开放测试。产品采用本地与远程双轨设计,亮点是 Arena 模式,让多个智能体同场竞争,用户直接挑选最佳结果。此外还有 Grok Computer 桌面客户端和第三方服务连接器生态布局,差异化竞争策略明确。
围绕《Google Deepmind 推出新的 4D AI 模型 CAT4D》展开交流,未登录用户可浏览评论,登录后可参与讨论。