NVIDIA ACE:AI 驱动的自主游戏角色

NVIDIA在2025年CES推出ACE自主游戏角色,依托多模态小型语言模型,赋予NPC感知环境、理解意图、动态决策、语音交互与自我反思能力。已落地《PUBG》《MIR 5》等游戏,让伙伴更懂玩家,Boss更能学习对抗。

发布于2025年1月10日 04:32
编辑零重力瓦力
评论0
阅读74

NVIDIA ACE:AI 驱动的自主游戏角色

作者:Andrew Burnes、Seth Schneider、Jason Paul
翻译:零重力瓦力

“AI” 这一术语在游戏中已被使用数十年。那些非玩家角色(NPC)通常会遵循严格的规则,虽然具有一定的智能、但智能根据预先设定的剧情,按照脚本与玩家进行互动。然而,随着大语言模型的兴起,游戏 AI 正迎来真正智能化的革新。

在 2025 年的消费电子展会(Consumer Electronics Show,简称 CES) 上,NVIDIA 通过推出 NVIDIA ACE 自主游戏角色,重新定义了游戏 AI。

NVIDIA ACE(Avatar Cloud Engine) 最初于 2023 年推出,是一套基于 RTX 加速的数字人技术,通过生成式 AI 赋予游戏角色生命。如今,NVIDIA 将 ACE 从对话型 NPC 扩展到能够感知、规划,并像人类玩家一样行动的自主游戏角色。借助生成式 AI,ACE 将实现有生命力的动态游戏世界,其中的伙伴角色能理解并支持玩家目标,而敌人(BOSS)也会动态适应玩家的战术。

实现这些自主角色的关键是全新的 ACE 小型语言模型(SLM),它们能够以类似人类的方式进行决策,满足现实决策的需求。此外,多模态 SLM 支持视觉和音频功能,使 AI 角色能够听取音频线索并感知环境。

NVIDIA 正与领先的游戏开发商合作,将 ACE 自主游戏角色引入到他们的作品中。例如,在《PUBG: BATTLEGROUNDS》、《inZOI》和《NARAKA: BLADEPOINT MOBILE PC VERSION》中,玩家可以与类人化的 AI 角色和伙伴互动。在《MIR 5》中,玩家还可以与具有自学能力的 AI 驱动的 Boss 战斗,这些 Boss 会根据玩家的游戏方式动态调整策略。在《AI People》、《Dead Meat》和《ZooPunk》中,AI 创造了全新的游戏机制。

模仿人类决策过程

让我们从一个简单的模型开始,来了解人类如何做决策。

NVIDIA ACE:AI 驱动的自主游戏角色

决策的核心,是一种与自我对话的内部过程,不断重复同一个问题:“我接下来应该做什么?”

要很好地回答这个问题,我们需要几个关键数据:

  1. 来自周围世界的信息
  2. 我们的动机和欲望
  3. 对先前事件和经历的记忆

举个例子,当你听到手机响起时,这是由你的感官生成的外部感知。你是否应该接电话?

你记得自己正在等待一个电话,不想错过。这时,你的动机和记忆结合在一起,为你提供了做出决定所需的一切。这就是认知。

你选择接电话,这一行动就是认知的结果。

这些感知、认知和行动通常会储存在记忆中,以便在以后的决策中回忆。

NVIDIA ACE AI 模型:让游戏角色具有自主性

用传统的基于规则的 AI 系统,无法实现在无数不同场景中模仿人类的特质。而借助生成式 AI 和在数万亿句子上训练的大语言模型(描述了人类如何对世界做出反应),则可以让 AI 拥有人类般的决策过程。

NVIDIA ACE 自主游戏角色则由一套用于感知、认知、行动和渲染的生成式 AI 模型提供支持,使开发者能够创造出更像人类的游戏 AI 角色。

NVIDIA ACE:AI 驱动的自主游戏角色

感知世界的模型

为了让 SLM(小型语言模型)做出良好的决策,必须为自主游戏角色提供高频率的感知数据流。以下是用于捕获这些感知数据的模型和技术:

音频

  • NemoAudio-4B-Instruct:一个新的音频 + 文本输入和文本输出 SLM,能够描述游戏环境中的声音场景。
  • Parakeet-CTC-XXL-1.1B-Multilingual:将多语言音频转录为文本。

视觉

  • NemoVision-4B-128k-Instruct:一个新的音频 + 图像输入和文本输出 SLM,具备简单的空间理解能力。

游戏状态

  • 游戏世界中最好的信息来源之一是游戏本身。游戏状态可以被转录为文本,供 SLM 推理游戏世界。

认知:思考世界的模型

根据 NVIDIA 对电竞的研究,大多数玩家每秒会做出 8-13 次微决策(称为“子动作”),例如校正瞄准方向、决定何时使用技能,或进行更复杂的策略调整。

总体而言,认知任务非常频繁,这需要一个小型语言模型在低延迟和高吞吐量的条件下完成任务。 ACE的认知SLM包括:

  • Mistral-Nemo-Minitron-8B-128k-Instruct:最先进的小型语言模型,在指令遵循能力方面表现出色,这是自主游戏角色的一项关键技能。
  • Mistral-Nemo-Minitron-4B-128k-Instruct:同样的模型,但更小。
  • Mistral-Nemo-Minitron-2B-128k-Instruct:更小的版本,仅需1.5GB的显存即可运行。

行动:在世界中采取行动的模型

采取行动有多种形式,从对话到游戏动作,再到长期规划。为了有效采取行动,开发者可以结合多种模型和策略:

  • 行动选择:SLM可以从游戏中有限的可执行动作中选择最合适的动作(例如《inZOI》中的应用)。
  • 文本转语音(Text-to-Speech):高质量的文本转语音模型(如 Elevenlabs.io 或 Cartesia)可将文本响应转换为语音响应。
  • 战略规划:在处理和推理大量数据时,这些智能体可以访问更大的模型,提供更高层次、较低频率的战略建议。
  • 反思:反思是重要的一种行动。通过问自己“我是否做出了正确的选择?”,角色可以改进未来的行动,并实现自我纠正。

记忆:记住世界的模型

记忆对于自主游戏角色至关重要,它们需要能够回忆先前的感知、行动和认知。记忆还可以用于追踪长期目标和动机。通过一种称为 “检索增强生成”(RAG)的技术,开发者可以使用相似性搜索来“记住”与当前提示相关的信息:

  • E5-Large-Unsupervised:开发者可以通过 NVIDIA 的优化嵌入模型,在游戏过程中生成嵌入。

原文及相关示例

相关文章

微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍
AI 产品工具
2026年6月21日
0 条评论
零重力瓦力

微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍

微软研究院联合多所高校发布 Mirage 模型,通过在扩散模型隐空间直接存储三维记忆,解决了 AI 视频生成中场景一致性差及计算昂贵的问题。该方案摒弃传统 RGB 点云渲染流程,使生成速度提升最高 10.57 倍,显存占用降低 55 倍,且长视频边际成本几乎不增。测试显示其三维与光度一致性优于现有方案,虽暂不支持动态物体记忆,但已开源并适用于机器人仿真等静态场景任务。

#世界模型
阅读全文
JetBrains Junie 正式版:AI 编程 Agent 学会了用调试器断点
AI 编程开发
2026年6月19日
0 条评论
零重力瓦力

JetBrains Junie 正式版:AI 编程 Agent 学会了用调试器断点

JetBrains AI 编程 Agent Junie 正式 GA,在 SWE-Rebench 基准测试中排名第一。其核心优势在于深度集成 IDE 原生工具链,而非模拟替代。主要特性包括:Plan 模式生成结构化计划文档以防跑偏;原生调试器集成支持断点与运行时状态检查;支持异步远程控制长任务;基于项目上下文的交互式代码审查;以及模型自由切换以优化成本。Junie 标志着 AI 编程竞争正从模型能力转向工具集成深度。

#智能体#AI 编程
阅读全文
Visa 把支付网络接进了 ChatGPT,AI 智能体终于能自己花钱了
AI 新闻资讯
2026年6月18日
0 条评论
零重力瓦力

Visa 把支付网络接进了 ChatGPT,AI 智能体终于能自己花钱了

Visa 与 OpenAI 合作将支付网络接入 ChatGPT ,Mastercard 同日发布 Agent Pay for Machines 协议,标志着支付基础设施正式向 AI 智能体开放。Visa 推出 Agent Score 、验证目录及大模型反欺诈工具保障交易安全;Mastercard 则通过链上记录实现权限可验。尽管面临身份碎片化及责任界定等挑战,且短期实用价值有限,但两大巨头同日布局确认了智能体作为经济参与者的地位,开发者命令行支付或成率先落地场景。

#智能体
阅读全文
互动讨论

评论区

围绕《NVIDIA ACE:AI 驱动的自主游戏角色》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。