OpenAI Operator：能模拟人类操作浏览器来完成各种任务

OpenAI推出Operator智能体，基于GPT-4驱动的计算机操作智能体（CUA），能像人一样看屏幕、点鼠标、输文字，在各类网站自主完成订餐、购票、购物等任务；支持关键步骤确认与人工接管，不依赖API，兼顾效率与安全。

发布于2025年1月24日 11:38

编辑零重力瓦力

评论0 条

阅读49

OpenAI 发布重磅智能体工具：Operator 它能通过模拟人类操作浏览器来完成各种任务，比如预订餐厅、购买杂货、订票，甚至安排清洁服务。用户只需输入简单的指令，Operator 就能高效执行任务，并在关键节点寻求确认，确保任务准确完成。它的用户体验十分贴心，既能独立操作，又能随时让用户接管，灵活又安全。

Operator 的强大功能源于其背后的核心技术：计算机操作智能体（CUA）。CUA 基于 GPT-4 构建，具备“看屏幕、动鼠标、敲键盘”的能力，完全模拟人类使用电脑的方式。通过屏幕截图，Operator 能理解页面内容。通过总结思维链，它能规划每一步操作。即使遇到错误，它也能自我调整。这种通用界面技术让 Operator 不再依赖 API，无论是复杂的电商网站还是普通网页，它都能轻松应对。

Operator 这款现象级的产品能够帮人们节省时间、提高效率，让我们把琐事交给 AI 处理，专注于更重要的工作或生活。

GPT-5.6 Sol Ultra 1 小时证明 60 年未解的图论猜想

OpenAI 旗下 GPT-5.6 Sol Ultra 通过 64 路并行 agent 在 1 小时内生成了图论 CDC 猜想的证明文本，成本不足 500 美元。该成果引发争议，因缺乏 Lean 机械化验证、未公开完整推理轨迹及受限于图论形式化库不成熟，数学界对其有效性存疑。此事表明 LLM 已具备启发式数学搜索能力，但验证基础设施滞后仍是瓶颈。未来“多路并行+防放弃 prompt”或成范式，而完善 Lean 工具链是确立 AI 证明可信度的关键。

Google 为何要开发 Gemma 4 模型

谷歌推出开源模型 Gemma 4，旨在解决网络受限地区无法使用前沿 AI 的问题。该模型追求内存占用下的智能最大化，首次具备多模态与智能体能力，支持在无网移动端高效运行复杂任务。目前已在乌干达离线医疗系统及秘鲁原住民语言保护等场景中落地应用。通过将大模型蒸馏至终端设备，Gemma 4 摆脱了对云端算力的依赖，推动去中心化开源生态发展，赋能各社区按需构建专属系统。

GPT-5.6 正式发布：三档定价、7.8% ARC-AGI-3、Sol 自主训练 Luna，943 条评论里的真实声音

OpenAI 正式发布 GPT-5.6，推出 Sol、Terra、Luna 三档模型。Sol 在 Agent 评测中领先，但编码基准落后竞品且存在 token 过度消耗问题，Terra 性价比显著提升。新功能包括程序化工具调用、缓存优化及 Sol 自主训练 Luna。尽管安全围栏较严且知识截止日期存疑，该版本仍属扎实迭代。对于 Codex 用户建议升级，而 Claude Code 用户需权衡工作流兼容性，两大 AI 厂商竞争已趋白热化。

#ChatGPT#OpenAI

阅读全文

互动讨论

评论区

围绕《OpenAI Operator：能模拟人类操作浏览器来完成各种任务》展开交流，未登录用户可浏览评论，登录后可参与讨论。

评论数

登录后参与评论

支持发表观点与回复一级评论，互动后将同步到消息中心。

登录后评论

暂无评论，欢迎成为第一个参与讨论的人。

OpenAI Operator：能模拟人类操作浏览器来完成各种任务

相关文章

GPT-5.6 Sol Ultra 1 小时证明 60 年未解的图论猜想

Google 为何要开发 Gemma 4 模型

GPT-5.6 正式发布：三档定价、7.8% ARC-AGI-3、Sol 自主训练 Luna，943 条评论里的真实声音

评论区