VideoGameBench: AI 模型游戏智能的基准测试-创艺提示符

普林斯顿大学的 Alex Zhang 和 Ofir Press 发布了一项名为 VideoGameBench 的研究项目，这是一个专门设计用来测试视觉-语言模型（VLM）在完成经典视频游戏方面能力的基准测试。该平台包含 20 款不同的经典游戏，涵盖了掌机游戏和早期 PC 游戏，用来评估 AI 模型在面对复杂游戏环境时的理解、推理和行动能力。

为什么游戏成为测试 AI 能力的新战场

虽然现代大型语言模型（LLMs）已经能够解决复杂的推理任务，如数学问题和编程，但在视频游戏方面的表现却远远落后于人类。游戏环境需要模型同时具备短期和长期推理能力、空间理解能力以及直觉能力，比如理解"需要找到钥匙才能打开锁着的门"这类游戏逻辑。传统上，AI 游戏模型通常是针对单一游戏进行专门训练，而视觉-语言模型则有可能在不需要特定训练的情况下解决多种类型的游戏。

VideoGameBench 的技术框架

该基准测试框架提供了一个统一的环境，使智能体能够在所选的 20 款游戏中进行游戏测试，这些游戏运行在 Game Boy 和 MS-DOS 平台上。框架抽象了游戏模拟器(通过 PyBoy 支持 Game Boy，通过 DOSBOX 支持 MS-DOS)，并为智能体提供了必要的输入和输出:

观察值：即游戏屏幕的图像
与游戏"控制器"通信的接口，可以执行单个动作、动作序列或定时动作
游戏是否成功完成的指示

值得注意的是，该框架仅向模型提供游戏屏幕，而不包括额外的游戏信息，如解析文本或游戏内遮罩。

VideoGameBench-Lite：让 AI 有时间思考

研究者们还介绍了 VideoGameBench-Lite，这是原平台的一个子集，特点是在模型思考时暂停游戏，从而解决了现代视觉-语言模型推理延迟的问题。当智能体拍摄屏幕截图并查询模型下一步行动时，由于响应时间较长，游戏状态可能已经发生显著变化，导致行动不再相关。

初步观察结果

研究者们通过实验发现，目前最先进的视觉-语言模型在完成整个游戏，甚至仅仅是完成大多数游戏的第一关方面都存在显著困难。他们使用了一个基本的 VideoGameAgent，该智能体使用 ReAct 方法与记忆功能，基于 5-10 帧的序列发出按键和鼠标移动指令。

实验中发现了几个关键挑战：

思想组织和目标导向性：智能体经常误解游戏屏幕上的事件，导致行为偏差。例如，一个使用 Claude Sonnet 3.7 的智能体在《毁灭战士II》中反复将已死亡的敌人误认为活着的，浪费了所有弹药。
"动作"的粒度：VLM 在返回动作时的 3-5 秒推理延迟是一个显著问题。这引发了一个有趣的问题：VLM "动作"应该是单个按键、按键序列、代码还是简单的迷你策略？
控制器、鼠标和键盘精度：智能体在理解动作(如向右移动)对屏幕的影响方面存在困难。在所有测试过的前沿模型中，最明显的问题是无法准确移动鼠标，这对需要频繁鼠标移动的游戏如《文明》和《魔兽争霸 II》至关重要。
非直观的游戏机制：除非明确给出适当的指示，否则许多游戏机制对 VLM 来说并不明显。例如，一个使用 GPT-4o 的智能体到达《星之卡比梦之大陆》的第一个小 BOSS 时，不知道它可以在吞下炸弹后复制能力并使用它来轻松击败 BOSS。

与以往工作的对比

VideoGameBench 与之前的工作有所不同，它使用了固定且多样化的具有挑战性的游戏集(包括掌机游戏、射击游戏、即时战略游戏、角色扮演游戏等)，并提供了标准的通用接口。该环境设计还允许未来轻松插入各种模拟器。

VideoGameBench 项目地址：https://www.vgbench.com/

VideoGameBench: AI 模型游戏智能的基准测试

为什么游戏成为测试 AI 能力的新战场

VideoGameBench 的技术框架

VideoGameBench-Lite：让 AI 有时间思考

初步观察结果

与以往工作的对比

评论(0)

提示：请文明发言取消回复

作者信息

热门文章

11个超赞的AI绘画提示词工具网站

10分钟搞定！本地安装 DeepSeek-R1，全流程教程

如何用 Midjourney 制作 3D 卡通头像

十种 AI 绘画常用的插画风格

如何用 Midjourney 制作 3D 卡通人物

Midjourney 的20种构图视角

最新文章

微软发布万能 Office 文档转换 MCP 服务器：markitdown-mcp

微软推出 BitNet 推理框架，实现 1-bit 大模型本地部署

Replit、Bolt、Lovable、v0, 四款 AI 开发工具对比

一站式 AI 小说与视频创作平台：SkyReels

Flora 商品广告制作工作流