NVIDIA ACE：AI 驱动的自主游戏角色

作者：Andrew Burnes、Seth Schneider、Jason Paul
翻译：零重力瓦力

“AI” 这一术语在游戏中已被使用数十年。那些非玩家角色（NPC）通常会遵循严格的规则，虽然具有一定的智能、但智能根据预先设定的剧情，按照脚本与玩家进行互动。然而，随着大语言模型的兴起，游戏 AI 正迎来真正智能化的革新。

在 2025 年的消费电子展会（Consumer Electronics Show，简称 CES）上，NVIDIA 通过推出 NVIDIA ACE 自主游戏角色，重新定义了游戏 AI。

NVIDIA ACE（Avatar Cloud Engine）最初于 2023 年推出，是一套基于 RTX 加速的数字人技术，通过生成式 AI 赋予游戏角色生命。如今，NVIDIA 将 ACE 从对话型 NPC 扩展到能够感知、规划，并像人类玩家一样行动的自主游戏角色。借助生成式 AI，ACE 将实现有生命力的动态游戏世界，其中的伙伴角色能理解并支持玩家目标，而敌人（BOSS）也会动态适应玩家的战术。

实现这些自主角色的关键是全新的 ACE 小型语言模型（SLM），它们能够以类似人类的方式进行决策，满足现实决策的需求。此外，多模态 SLM 支持视觉和音频功能，使 AI 角色能够听取音频线索并感知环境。

NVIDIA 正与领先的游戏开发商合作，将 ACE 自主游戏角色引入到他们的作品中。例如，在《PUBG: BATTLEGROUNDS》、《inZOI》和《NARAKA: BLADEPOINT MOBILE PC VERSION》中，玩家可以与类人化的 AI 角色和伙伴互动。在《MIR 5》中，玩家还可以与具有自学能力的 AI 驱动的 Boss 战斗，这些 Boss 会根据玩家的游戏方式动态调整策略。在《AI People》、《Dead Meat》和《ZooPunk》中，AI 创造了全新的游戏机制。

模仿人类决策过程

让我们从一个简单的模型开始，来了解人类如何做决策。

决策的核心，是一种与自我对话的内部过程，不断重复同一个问题：“我接下来应该做什么？”

要很好地回答这个问题，我们需要几个关键数据：

来自周围世界的信息
我们的动机和欲望
对先前事件和经历的记忆

举个例子，当你听到手机响起时，这是由你的感官生成的外部感知。你是否应该接电话？

你记得自己正在等待一个电话，不想错过。这时，你的动机和记忆结合在一起，为你提供了做出决定所需的一切。这就是认知。

你选择接电话，这一行动就是认知的结果。

这些感知、认知和行动通常会储存在记忆中，以便在以后的决策中回忆。

NVIDIA ACE AI 模型：让游戏角色具有自主性

用传统的基于规则的 AI 系统，无法实现在无数不同场景中模仿人类的特质。而借助生成式 AI 和在数万亿句子上训练的大语言模型（描述了人类如何对世界做出反应），则可以让 AI 拥有人类般的决策过程。

NVIDIA ACE 自主游戏角色则由一套用于感知、认知、行动和渲染的生成式 AI 模型提供支持，使开发者能够创造出更像人类的游戏 AI 角色。

感知世界的模型

为了让 SLM（小型语言模型）做出良好的决策，必须为自主游戏角色提供高频率的感知数据流。以下是用于捕获这些感知数据的模型和技术：

音频

NemoAudio-4B-Instruct：一个新的音频 + 文本输入和文本输出 SLM，能够描述游戏环境中的声音场景。
Parakeet-CTC-XXL-1.1B-Multilingual：将多语言音频转录为文本。

视觉

NemoVision-4B-128k-Instruct：一个新的音频 + 图像输入和文本输出 SLM，具备简单的空间理解能力。

游戏状态

游戏世界中最好的信息来源之一是游戏本身。游戏状态可以被转录为文本，供 SLM 推理游戏世界。

认知：思考世界的模型

根据 NVIDIA 对电竞的研究，大多数玩家每秒会做出 8-13 次微决策（称为“子动作”），例如校正瞄准方向、决定何时使用技能，或进行更复杂的策略调整。

总体而言，认知任务非常频繁，这需要一个小型语言模型在低延迟和高吞吐量的条件下完成任务。 ACE的认知SLM包括：

Mistral-Nemo-Minitron-8B-128k-Instruct：最先进的小型语言模型，在指令遵循能力方面表现出色，这是自主游戏角色的一项关键技能。
Mistral-Nemo-Minitron-4B-128k-Instruct：同样的模型，但更小。
Mistral-Nemo-Minitron-2B-128k-Instruct：更小的版本，仅需1.5GB的显存即可运行。

行动：在世界中采取行动的模型

采取行动有多种形式，从对话到游戏动作，再到长期规划。为了有效采取行动，开发者可以结合多种模型和策略：

行动选择：SLM可以从游戏中有限的可执行动作中选择最合适的动作（例如《inZOI》中的应用）。
文本转语音（Text-to-Speech）：高质量的文本转语音模型（如 Elevenlabs.io 或 Cartesia）可将文本响应转换为语音响应。
战略规划：在处理和推理大量数据时，这些智能体可以访问更大的模型，提供更高层次、较低频率的战略建议。
反思：反思是重要的一种行动。通过问自己“我是否做出了正确的选择？”，角色可以改进未来的行动，并实现自我纠正。

记忆：记住世界的模型

记忆对于自主游戏角色至关重要，它们需要能够回忆先前的感知、行动和认知。记忆还可以用于追踪长期目标和动机。通过一种称为 “检索增强生成”（RAG）的技术，开发者可以使用相似性搜索来“记住”与当前提示相关的信息：

E5-Large-Unsupervised：开发者可以通过 NVIDIA 的优化嵌入模型，在游戏过程中生成嵌入。

模仿人类决策过程

NVIDIA ACE AI 模型：让游戏角色具有自主性

感知世界的模型

音频

视觉

游戏状态

认知：思考世界的模型

行动：在世界中采取行动的模型

记忆：记住世界的模型

原文及相关示例

相关文章

Google 为何要开发 Gemma 4 模型

微软 Mirage：让世界模型学会“过目不忘”，速度快 10 倍、显存省 55 倍

JetBrains Junie 正式版：AI 编程 Agent 学会了用调试器断点

评论区