Google DeepMind 推出的全新 4D AI 模型 CAT4D,能够将普通视频转化为沉浸式的 4D 体验。让观众仿佛置身于影片之中,能够从不同角度身临其境地感受场景中的每个细节。
CAT4D 工作原理
CAT4D 利用多视角视频扩散模型(multi-view video diffusion model)将任何真实的视频转化为动态的 3D 模型。观众还可以随时冻结画面,从全新的视角进行观赏。
CAT4D项目地址 CAT4D论文地址Google DeepMind 推出的全新 4D AI 模型 CAT4D,能够将普通视频转化为沉浸式的 4D 体验。让观众仿佛置身于影片之中,能够从不同角度身临其境地感受场景中的每个细节。
CAT4D 利用多视角视频扩散模型(multi-view video diffusion model)将任何真实的视频转化为动态的 3D 模型。观众还可以随时冻结画面,从全新的视角进行观赏。
CAT4D项目地址 CAT4D论文地址拆成可复用角色;hermes-agent 主打任务后自动沉淀技能、让智能体越用越聪明;Superpowers 以测试驱动流程串起开发全链路;Paperclip 则尝试用多智能体编排“零人工公司”。
Adobe Firefly上线自定义图像模型功能,用户上传10张以上图片即可训练专属艺术风格模型,聚焦AI美学方向;但该能力比Midjourney晚半年推出,AI视频部分未采用自研模型,转而接入可灵2.6,引发对其技术节奏与生态策略的质疑。
ElevenLabs推出Flows——基于画布的多模态广告创作平台,整合图像、视频、语音、音效与音乐生成,支持Veo、可灵、Nano Banana等模型及真人配音库;内置商用授权Eleven Music,可一键生成70+语言版本,宣称一天完成香水广告全流程,为出海团队大幅降本提效。
围绕《Google Deepmind 推出新的 4D AI 模型 CAT4D》展开交流,未登录用户可浏览评论,登录后可参与讨论。