Claude 开发电脑操控模型

原文链接:https://www.anthropic.com/research/developing-computer-use
翻译:零重力瓦力

开发电脑操控模型

Claude 现已具备操控电脑的能力。最新版本的 Claude 3.5 Sonnet 通过适当的配置,可以按照用户的指令移动光标、点击特定位置,并通过虚拟键盘输入信息,模拟人类与电脑的交互方式。

我们认为这项目前处于公测阶段的功能是人工智能发展的重要突破。以下我们将分享在开发电脑操控模型及其安全保障方面的一些见解。

为什么要开发电脑操控能力?

这项新功能为什么如此重要?当今社会的大量工作都通过电脑完成。让 AI 能够像人类一样直接与电脑软件交互,将开启目前 AI 助手无法实现的巨大应用空间。

近年来,人工智能发展已经实现了许多重要里程碑——例如执行复杂逻辑推理的能力,以及看懂和理解图像的能力。下一个前沿领域是对电脑的操控:AI模型不必依赖定制工具,而是能够按照指示使用几乎任何软件。

研究过程

我们之前在工具使用和多模态方面的工作为这些新的电脑操控技能奠定了基础。操作电脑需要能够查看和解释图像(在这种情况下是电脑屏幕的图像),同时还需要根据屏幕上显示的内容推理如何及何时执行特定操作。结合这些能力,我们训练 Claude 解释屏幕上发生的事情,然后使用可用的软件工具执行任务。

当开发人员要求 Claude 使用某个电脑软件并授予必要权限时, Claude 会查看用户可见的屏幕截图,然后计算需要在垂直或水平方向让光标移动多少像素才能点击正确位置。训练 Claude 准确统计像素至关重要。没有这项技能,模型就难以控制鼠标完成任务——这类似于模型经常在看似简单的问题上遇到困难,比如"'banana'这个词中有多少个字母'a'?"。

让我们感到惊讶的是,Claude 仅通过对少数简单软件(如计算器和文本编辑器)的电脑操控训练就能快速泛化(出于安全考虑,我们在训练期间不允许模型访问互联网)。结合 Claude 的其他技能,这种训练使其具备了将用户的书面提示转化为逻辑步骤序列并在电脑上采取行动的非凡能力。我们观察到,模型甚至会在遇到障碍时进行自我纠正和重试任务。

虽然取得初步突破后随之而来的进展很快,但要达到这一点需要大量的反复尝试。一些研究人员指出,开发电脑操控能力接近他们刚进入该领域时想象的 AI 研究的 "理想" 方式:不断迭代和反复回馈到绘图板,直到取得进展。

这项研究取得了成效。目前,在那些能够像人一样使用电脑的模型中(即通过观察屏幕并作出响应),Claude 处于技术的最前沿。在一个用于测试开发人员尝试让模型使用电脑的评估 (OSWorld) 中, Claude 目前达到14.9%。这远低于人类水平(通常在70-75%之间),但远高于同类中排名第二的AI模型的7.7%。

确保电脑操控的安全性

AI 的每一项进步都带来新的安全挑战。电脑操控主要是降低 AI 系统应用其现有认知技能的门槛,而不是从根本上提升这些技能,因此我们对电脑操控技术的主要担忧,集中在当前的危害而非未来的危害。我们通过评估电脑擦空技术是否会根据我们负责任的扩展策略中概述的,增加前沿威胁风险来确认这一点。我们发现,包括新的电脑操控技能在内的更新版 Claude 3.5 Sonnet 仍然处于 AI 安全级别 2。也就是说,它不需要比我们提高已有的安全标准和安保措施。

当未来的模型因存在灾难性风险而需要 AI 安全级别 3 或 4 的保障措施时,电脑操控可能会加剧这些风险。我们认为现在引入电脑操控技术可能更好,因为模型仍然只需要 AI 安全级别 2 的保障措施。这意味着我们可以在风险不太高的情况下开始应对任何安全问题,而不是在具有更严重风险的模型中再添加电脑操控功能。

本着这种精神,我们的信任与安全团队对新的电脑操控模型进行了广泛分析,以识别潜在的漏洞。他们识别的一个问题是"提示注入"。这是一种将恶意指令输入 AI 模型的网络攻击,导致它要么覆盖先前的指令,要么执行偏离用户原始意图的意外操作。由于 Claude 可以解释来自连接互联网的电脑截图,它可能会接触到包含提示注入攻击的内容。

参与我们公测的,具有电脑操控能力的 Claude 用户应该采取相关预防措施来最小化这类风险。作为开发者的资源,我们在参考实现中提供了进一步的指导。

与我们的标准数据隐私方法一致,默认情况下我们不会用用户提交的数据(包括Claude收到的任何截图)来训练我们的生成式 AI 模型。

电脑操控的未来

电脑操控是一种全新的 AI 开发方法。到目前为止,LLM 开发者一直在使工具适应模型,创建特殊环境让 AI 使用专门设计的工具完成各种任务。现在,我们可以让模型适应工具。 Claude可以融入我们每天使用的电脑环境。我们的目标是让 Claude 像人一样使用已有的电脑软件。

还有很多工作要做。尽管作为当前最先进的技术,Claude 的电脑操控仍然缓慢且经常出错。人们用电脑进行的许多日常操作(拖动、缩放等) Claude 还无法实现。目前 Claude 只能通过拍摄电脑的屏幕截图并将它们拼接在一起,而不是观察更细粒度的视频流,这意味着它可能会错过那些短暂的操作或通知。

即使在我们为今天的发布会录制电脑操控的演示时,我们也遇到了一些有趣的问题。在一次演示中,Claude 不小心点击停止了一个长时间运行的屏幕录制,导致所有录像都丢失了。在另一次演示中,Claude 突然从我们的编码演示中抽身,开始浏览黄石国家公园的照片。

我们预计电脑操控能力将迅速提升,变得更快、更可靠,更适合用户想要完成的任务。对于软件开发经验较少的人来说,实现这些功能也将变得更加容易。在每个阶段,我们的研究人员都将与安全团队密切合作,确保 Claude 的新功能配备适当的安全措施。

我们邀请在我们公测中尝试电脑操控功能的开发者通过此表格与我们联系,提供反馈,以便我们的研究人员继续改进这项新功能的实用性和安全性。