普林斯顿大学的 Alex Zhang 和 Ofir Press 发布了一项名为 VideoGameBench 的研究项目,这是一个专门设计用来测试视觉-语言模型(VLM)在完成经典视频游戏方面能力的基准测试。该平台包含 20 款不同的经典游戏,涵盖了掌机游戏和早期 PC 游戏,用来评估 AI 模型在面对复杂游戏环境时的理解、推理和行动能力。

为什么游戏成为测试 AI 能力的新战场

虽然现代大型语言模型(LLMs)已经能够解决复杂的推理任务,如数学问题和编程,但在视频游戏方面的表现却远远落后于人类。游戏环境需要模型同时具备短期和长期推理能力、空间理解能力以及直觉能力,比如理解"需要找到钥匙才能打开锁着的门"这类游戏逻辑。传统上,AI 游戏模型通常是针对单一游戏进行专门训练,而视觉-语言模型则有可能在不需要特定训练的情况下解决多种类型的游戏。

VideoGameBench 的技术框架

该基准测试框架提供了一个统一的环境,使智能体能够在所选的 20 款游戏中进行游戏测试,这些游戏运行在 Game Boy 和 MS-DOS 平台上。框架抽象了游戏模拟器(通过 PyBoy 支持 Game Boy,通过 DOSBOX 支持 MS-DOS),并为智能体提供了必要的输入和输出:

  • 观察值:即游戏屏幕的图像
  • 与游戏"控制器"通信的接口,可以执行单个动作、动作序列或定时动作
  • 游戏是否成功完成的指示

值得注意的是,该框架仅向模型提供游戏屏幕,而不包括额外的游戏信息,如解析文本或游戏内遮罩。

VideoGameBench-Lite:让 AI 有时间思考

研究者们还介绍了 VideoGameBench-Lite,这是原平台的一个子集,特点是在模型思考时暂停游戏,从而解决了现代视觉-语言模型推理延迟的问题。当智能体拍摄屏幕截图并查询模型下一步行动时,由于响应时间较长,游戏状态可能已经发生显著变化,导致行动不再相关。

初步观察结果

研究者们通过实验发现,目前最先进的视觉-语言模型在完成整个游戏,甚至仅仅是完成大多数游戏的第一关方面都存在显著困难。他们使用了一个基本的 VideoGameAgent,该智能体使用 ReAct 方法与记忆功能,基于 5-10 帧的序列发出按键和鼠标移动指令。

实验中发现了几个关键挑战:

  • 思想组织和目标导向性:智能体经常误解游戏屏幕上的事件,导致行为偏差。例如,一个使用 Claude Sonnet 3.7 的智能体在《毁灭战士II》中反复将已死亡的敌人误认为活着的,浪费了所有弹药。
  • "动作"的粒度:VLM 在返回动作时的 3-5 秒推理延迟是一个显著问题。这引发了一个有趣的问题:VLM "动作"应该是单个按键、按键序列、代码还是简单的迷你策略?
  • 控制器、鼠标和键盘精度:智能体在理解动作(如向右移动)对屏幕的影响方面存在困难。在所有测试过的前沿模型中,最明显的问题是无法准确移动鼠标,这对需要频繁鼠标移动的游戏如《文明》和《魔兽争霸 II》至关重要。
  • 非直观的游戏机制:除非明确给出适当的指示,否则许多游戏机制对 VLM 来说并不明显。例如,一个使用 GPT-4o 的智能体到达《星之卡比梦之大陆》的第一个小 BOSS 时,不知道它可以在吞下炸弹后复制能力并使用它来轻松击败 BOSS。

与以往工作的对比

VideoGameBench 与之前的工作有所不同,它使用了固定且多样化的具有挑战性的游戏集(包括掌机游戏、射击游戏、即时战略游戏、角色扮演游戏等),并提供了标准的通用接口。该环境设计还允许未来轻松插入各种模拟器。

VideoGameBench 项目地址:https://www.vgbench.com/