作者:Andrew Burnes、Seth Schneider、Jason Paul
翻译:零重力瓦力
“AI” 这一术语在游戏中已被使用数十年。那些非玩家角色(NPC)通常会遵循严格的规则,虽然具有一定的智能、但智能根据预先设定的剧情,按照脚本与玩家进行互动。然而,随着大语言模型的兴起,游戏 AI 正迎来真正智能化的革新。
在 2025 年的消费电子展会(Consumer Electronics Show,简称 CES) 上,NVIDIA 通过推出 NVIDIA ACE 自主游戏角色,重新定义了游戏 AI。
NVIDIA ACE(Avatar Cloud Engine) 最初于 2023 年推出,是一套基于 RTX 加速的数字人技术,通过生成式 AI 赋予游戏角色生命。如今,NVIDIA 将 ACE 从对话型 NPC 扩展到能够感知、规划,并像人类玩家一样行动的自主游戏角色。借助生成式 AI,ACE 将实现有生命力的动态游戏世界,其中的伙伴角色能理解并支持玩家目标,而敌人(BOSS)也会动态适应玩家的战术。
实现这些自主角色的关键是全新的 ACE 小型语言模型(SLM),它们能够以类似人类的方式进行决策,满足现实决策的需求。此外,多模态 SLM 支持视觉和音频功能,使 AI 角色能够听取音频线索并感知环境。
NVIDIA 正与领先的游戏开发商合作,将 ACE 自主游戏角色引入到他们的作品中。例如,在《PUBG: BATTLEGROUNDS》、《inZOI》和《NARAKA: BLADEPOINT MOBILE PC VERSION》中,玩家可以与类人化的 AI 角色和伙伴互动。在《MIR 5》中,玩家还可以与具有自学能力的 AI 驱动的 Boss 战斗,这些 Boss 会根据玩家的游戏方式动态调整策略。在《AI People》、《Dead Meat》和《ZooPunk》中,AI 创造了全新的游戏机制。
模仿人类决策过程
让我们从一个简单的模型开始,来了解人类如何做决策。
决策的核心,是一种与自我对话的内部过程,不断重复同一个问题:“我接下来应该做什么?”
要很好地回答这个问题,我们需要几个关键数据:
- 来自周围世界的信息
- 我们的动机和欲望
- 对先前事件和经历的记忆
举个例子,当你听到手机响起时,这是由你的感官生成的外部感知。你是否应该接电话?
你记得自己正在等待一个电话,不想错过。这时,你的动机和记忆结合在一起,为你提供了做出决定所需的一切。这就是认知。
你选择接电话,这一行动就是认知的结果。
这些感知、认知和行动通常会储存在记忆中,以便在以后的决策中回忆。
NVIDIA ACE AI 模型:让游戏角色具有自主性
用传统的基于规则的 AI 系统,无法实现在无数不同场景中模仿人类的特质。而借助生成式 AI 和在数万亿句子上训练的大语言模型(描述了人类如何对世界做出反应),则可以让 AI 拥有人类般的决策过程。
NVIDIA ACE 自主游戏角色则由一套用于感知、认知、行动和渲染的生成式 AI 模型提供支持,使开发者能够创造出更像人类的游戏 AI 角色。
感知世界的模型
为了让 SLM(小型语言模型)做出良好的决策,必须为自主游戏角色提供高频率的感知数据流。以下是用于捕获这些感知数据的模型和技术:
音频
- NemoAudio-4B-Instruct:一个新的音频 + 文本输入和文本输出 SLM,能够描述游戏环境中的声音场景。
- Parakeet-CTC-XXL-1.1B-Multilingual:将多语言音频转录为文本。
视觉
- NemoVision-4B-128k-Instruct:一个新的音频 + 图像输入和文本输出 SLM,具备简单的空间理解能力。
游戏状态
- 游戏世界中最好的信息来源之一是游戏本身。游戏状态可以被转录为文本,供 SLM 推理游戏世界。
认知:思考世界的模型
根据 NVIDIA 对电竞的研究,大多数玩家每秒会做出 8-13 次微决策(称为“子动作”),例如校正瞄准方向、决定何时使用技能,或进行更复杂的策略调整。
总体而言,认知任务非常频繁,这需要一个小型语言模型在低延迟和高吞吐量的条件下完成任务。 ACE的认知SLM包括:
- Mistral-Nemo-Minitron-8B-128k-Instruct:最先进的小型语言模型,在指令遵循能力方面表现出色,这是自主游戏角色的一项关键技能。
- Mistral-Nemo-Minitron-4B-128k-Instruct:同样的模型,但更小。
- Mistral-Nemo-Minitron-2B-128k-Instruct:更小的版本,仅需1.5GB的显存即可运行。
行动:在世界中采取行动的模型
采取行动有多种形式,从对话到游戏动作,再到长期规划。为了有效采取行动,开发者可以结合多种模型和策略:
- 行动选择:SLM可以从游戏中有限的可执行动作中选择最合适的动作(例如《inZOI》中的应用)。
- 文本转语音(Text-to-Speech):高质量的文本转语音模型(如 Elevenlabs.io 或 Cartesia)可将文本响应转换为语音响应。
- 战略规划:在处理和推理大量数据时,这些智能体可以访问更大的模型,提供更高层次、较低频率的战略建议。
- 反思:反思是重要的一种行动。通过问自己“我是否做出了正确的选择?”,角色可以改进未来的行动,并实现自我纠正。
记忆:记住世界的模型
记忆对于自主游戏角色至关重要,它们需要能够回忆先前的感知、行动和认知。记忆还可以用于追踪长期目标和动机。通过一种称为 “检索增强生成”(RAG)的技术,开发者可以使用相似性搜索来“记住”与当前提示相关的信息:
- E5-Large-Unsupervised:开发者可以通过 NVIDIA 的优化嵌入模型,在游戏过程中生成嵌入。
评论(0)