MIT 教授探索类人智能的奥秘

MIT副教授Phillip Isola通过心理物理学实验与视频预测等生成模型,探索人类如何直觉理解物理世界、推断物体功能并预测事件;其研究强调AI与人类认知的双向启发,旨在揭示智能本质的多样性。

发布于2025年11月11日 09:44
编辑零重力瓦力
评论0
阅读34

MIT 教授探索类人智能的奥秘

MIT 电气工程与计算机科学系副教授 Phillip Isola 致力于开发能够执行类人任务的模型,比如预测即将发生的事件,或想象物体被操作时的状态变化。

Isola 认为,通过研究这些模型的运作机理,研究人员能够更深入地理解人类的感知和认知能力。他表示,构建更优秀的智能系统模型,能够帮助我们更好地理解自身的智能。而对自身智能的深入理解,反过来又能促进更出色的人工智能系统的构建。这两者能够形成良性互动。

视觉感知的基础能力

Isola 的研究重点关注人类如何识别场景中的物体及其相互关系。他认为,这是最基础的视觉能力,一旦掌握了它,就能完成各种后续任务。

他的研究探讨了人类如何学会识别新物体,即便此前只见过寥寥几次。他还研究了 “功能性” 概念,即通过物体的外观推断其用途的能力。比如,即使从未见过某个特定的杯子,人们也能推断出可以用它来盛水。

为了研究这些现象,Isola 设计心理物理学实验来测试人类受试者,随后训练计算模型执行相同的任务。他说,思路是建立人类完成这些任务的模型,然后深入剖析模型内部,试图理解其工作机制,以此来推测人类可能采用的类似方式。

生成模型:预测未来的能力

目前,Isola 的实验室主要专注于 “生成模型” 研究——这类模型经过训练后能够生成新的数据,如图像或视频。DALL-E 就是这类模型的一个知名案例。

Isola 及其学生正在研究的视频预测模型能够预测视频接下来将会发生什么。这些模型在大量展示人与物体互动或物体之间相互作用的视频上进行训练。训练完成后,即使面对从未见过的类似场景,模型也能进行预测。

Isola 说,核心思想是,如果模型能够预测接下来会发生什么,那么它必然学习到了关于世界运作方式的某些知识。

这种预测未来的能力对机器人技术尤为重要,因为机器人需要能够预测在操纵物体或在环境中移动时会产生什么结果。Isola 认为,这类模型有助于揭示人类进行此类预测的机制。

他表示,人类在预测事物方面显然非常出色,我们时刻都在进行预测。当伸手去拿咖啡杯时,就会预测移动手臂会产生什么结果。研究团队希望更深入地理解这在人类大脑中是如何运作的,以及如何在机器中复现这种能力。

直觉物理学:无师自通的理解

Isola 的另一个研究方向是 “直觉物理学”,即人类理解物理世界运作规律的能力。即使没有接受过正式的物理学教育,人类也能很好地预测,比如从桌边推开一个杯子会发生什么。

他说,我们对物理学拥有良好的直觉,研究团队想要了解这种直觉的来源,以及如何在机器中复现它。

为了探索这一问题,Isola 和学生们正在训练模型来预测物理场景中会发生的情况,例如物体碰撞时的结果。他们还在研究这些模型如何能够从观察物体的图像或视频中学习,而不需要被明确告知支配物体行为的物理定律。

理解智能的多样性

除了开发新模型,Isola 还致力于更深入地理解现有模型的工作原理,包括研究这些模型学习到的表示方式,即它们用来编码世界信息的内部表征。

他说,我们想要了解这些模型在做什么,以及它们如何做到的。如果能够更好地理解它们,我们就能改进这些模型,同时也能更好地理解我们自身的智能。

Isola 对探索不同类型智能的细微差别充满兴趣,不仅包括人类智能,还有动物智能和人工智能。他认为,智能存在多种不同的类型,通过研究所有这些不同类型的智能,我们能够更好地理解智能的本质是什么,以及它可以呈现出哪些不同的形式。

参考链接

相关文章

三种记忆模式解决 AI 智能体的金鱼记忆
AI 新闻资讯
2026年5月12日
0 条评论
小创

三种记忆模式解决 AI 智能体的金鱼记忆

很多 AI 智能体表现“迟钝”,往往并非模型能力不足,而是缺乏记忆机制。Google 技术专家基于 ADK 提出三种解决方案:会话记忆让助手在单次对话中记住上下文;多智能体状态共享支持多个智能体通过键值对协作传递信息;持久化存储则利用数据库替代内存,使智能体能跨越重启记录用户偏好。这些方法能有效解决“金鱼记忆”问题,帮助开发者构建更连贯、具备长期服务能力的个人助理应用。

#智能体工程
阅读全文
ChatGPT 开始卖广告了,但 OpenAI 真正的野心在语音
AI 新闻资讯
2026年5月8日
0 条评论
小创

ChatGPT 开始卖广告了,但 OpenAI 真正的野心在语音

5 月 7 日,OpenAI 在英、巴等五国启动 ChatGPT 广告内测,并推出三款具备 GPT-5 级推理能力的实时语音模型。广告业务强调隐私与回答独立性,旨在探索免费用户变现路径。新语音模型则支持复杂任务操作,加速企业付费场景落地。此举标志 OpenAI 从技术验证转向商业模式规模化,证明 AI 产品可兼顾用户体验与多元盈利,为行业商业化提供了关键风向标。

#OpenAI
阅读全文
让 AI 视频拥有电影质感的九层结构提示词
AI 新闻资讯
2026年5月8日
0 条评论
小创

让 AI 视频拥有电影质感的九层结构提示词

如何让 AI 视频拥有电影质感?提示词应采用导演语言而非被动描述,需包含主体、微动作、环境、摄像机、灯光、风格、情绪、物理细节、渲染质量九层结构。文章还总结了微动作工程、摄像机定义、布光逻辑、情绪编码及可控混乱等策略,并提供了多条完整示例。创作者需注意框架易致同质化,真正的竞争壁垒在于对细节分寸和不可模板化判断的把握。

#Runway#视频生成
阅读全文
互动讨论

评论区

围绕《MIT 教授探索类人智能的奥秘》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。