Gemini 机器人具身智能 1.6

Google DeepMind 发布 Gemini Robotics-ER 1.6 推理模型,专为机器人应用设计。该模型在空间逻辑、多视角理解和任务规划能力上实现突破,新增复杂工业仪表读数功能,得益于与 Boston Dynamics 的深度合作。安全性方面表现突出,成为 Google 最安全的机器人模型。此次发布表明大语言模型正加速向物理世界渗透, Google 以空间智能为切入点务实布局,而 Boston Dynamics 在真实环境部署方面的经验恰好弥补了互联网公司的短板。

发布于2026年4月15日 09:16
编辑小创
评论0
阅读113

Google DeepMind 正式推出 Gemini Robotics-ER 1.6 ,这是一款专为机器人应用设计的推理优先模型升级版本。通过增强空间逻辑和多视角理解能力,该模型使机器人能够以前所未有的精度感知和理解周围环境。

Gemini Robotics-ER 1.6 在多项关键技术指标上实现突破。在视觉和空间理解方面,模型能够准确解析复杂的三维场景;在任务规划领域,系统可自主生成并执行多步骤操作序列;在成功检测环节,模型能够实时评估任务完成状态并做出相应调整。

值得关注的是,这款模型还新增了仪器读数能力,可读取复杂的工业仪表和视镜。这一功能的实现得益于与 Boston Dynamics 的深度合作。 Boston Dynamics 在足式机器人领域的丰富经验,为模型在非结构化环境中的适应性提供了重要支撑。

安全性能方面, Gemini Robotics-ER 1.6 同样达到新高。测试数据显示,该模型在应对对抗性空间推理任务时,展现出对安全策略的卓越遵从能力,目前已成为 Google 最安全的机器人模型。

即日起,开发者可通过 Gemini API 和 Google AI Studio 访问该模型。

创艺洞察

Gemini Robotics-ER 1.6 的发布,标志着大语言模型向物理世界渗透的进程正在加速。与单纯追求语言能力的参数竞赛不同, Google 选择了一条更务实的路径,将空间智能作为切入点。仪器读数能力的加入尤其值得注意,它意味着机器人在工业场景中的落地不再是理论构想。然而,从展示能力到可靠部署之间,仍横亘着漫长的调试与优化周期。 Boston Dynamics 的参与或许正是为了弥补这一断层。后者在真实环境部署方面的积累,恰是互联网公司所缺乏的。

相关文章

三种记忆模式解决 AI 智能体的金鱼记忆
AI 新闻资讯
2026年5月12日
0 条评论
小创

三种记忆模式解决 AI 智能体的金鱼记忆

很多 AI 智能体表现“迟钝”,往往并非模型能力不足,而是缺乏记忆机制。Google 技术专家基于 ADK 提出三种解决方案:会话记忆让助手在单次对话中记住上下文;多智能体状态共享支持多个智能体通过键值对协作传递信息;持久化存储则利用数据库替代内存,使智能体能跨越重启记录用户偏好。这些方法能有效解决“金鱼记忆”问题,帮助开发者构建更连贯、具备长期服务能力的个人助理应用。

#智能体工程
阅读全文
ChatGPT 开始卖广告了,但 OpenAI 真正的野心在语音
AI 新闻资讯
2026年5月8日
0 条评论
小创

ChatGPT 开始卖广告了,但 OpenAI 真正的野心在语音

5 月 7 日,OpenAI 在英、巴等五国启动 ChatGPT 广告内测,并推出三款具备 GPT-5 级推理能力的实时语音模型。广告业务强调隐私与回答独立性,旨在探索免费用户变现路径。新语音模型则支持复杂任务操作,加速企业付费场景落地。此举标志 OpenAI 从技术验证转向商业模式规模化,证明 AI 产品可兼顾用户体验与多元盈利,为行业商业化提供了关键风向标。

#OpenAI
阅读全文
让 AI 视频拥有电影质感的九层结构提示词
AI 新闻资讯
2026年5月8日
0 条评论
小创

让 AI 视频拥有电影质感的九层结构提示词

如何让 AI 视频拥有电影质感?提示词应采用导演语言而非被动描述,需包含主体、微动作、环境、摄像机、灯光、风格、情绪、物理细节、渲染质量九层结构。文章还总结了微动作工程、摄像机定义、布光逻辑、情绪编码及可控混乱等策略,并提供了多条完整示例。创作者需注意框架易致同质化,真正的竞争壁垒在于对细节分寸和不可模板化判断的把握。

#Runway#视频生成
阅读全文
互动讨论

评论区

围绕《Gemini 机器人具身智能 1.6》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。