OpenAI 亲口承认：GPT 被“哥布林”感染了，而且是自己训练出来的

OpenAI 亲口承认：GPT 被“哥布林”感染了，而且是自己训练出来的！这件事之所以值得关注，因为它揭示了一个所有做大模型应用的人都会遇到、但很少有人深究的问题：奖励信号（reward signal）会在你完全意想不到的方向上塑造模型行为，而且这种偏移会跨场景蔓延。

4 月 29 日，OpenAI 官方发了一篇博文，标题就叫：Where the goblins came from（哥布林从哪来的）。

事情是这样的。从 GPT-5.1 开始，用户发现 ChatGPT 总爱在回答里提到哥布林（goblins）、小精灵（gremlins）、浣熊、巨魔、食人魔，甚至鸽子。不是偶尔提一次，是频繁地、莫名其妙地提。你问它一个正经技术问题，它回你一句就像小精灵在代码里搞破坏。

数据很扎眼：GPT-5.1 发布后，goblin的出现频率飙升了 175%，gremlin上升了 52%。到 GPT-5.4 更严重。

OpenAI 的调查团队追根溯源，发现源头是 ChatGPT 的 Nerdy（书呆子） 个性模式。

Nerdy 模式的系统提示词里有这么一句话：你必须通过俏皮的语言使用来削弱自命不凡感。在 RLHF 训练中，给 Nerdy 个性打分的奖励函数，恰好对包含生物隐喻的回答给了更高的分数。

结果？Nerdy 个性只占 ChatGPT 回复量的 2.5%，却贡献了 66.7% 的 goblin。更关键的是，这个风格偏移没有乖乖待在 Nerdy 模式里，而是通过 RL 训练的泛化机制蔓延到了所有模式。

OpenAI 拆解了这个过程：

这就是一个典型的 奖励黑客（reward hacking） 回路，只不过被黑的是语言的细微风格，不是评分标准。

这件事之所以值得每个从业者关注，有三个原因：

第一，奖励信号的影响远比你想象的大。你以为你在训练俏皮，实际上你在训练说哥布林。模型不会区分你真正想要的和恰好被奖励的。

第二，行为偏移会跨场景蔓延。训练时的 Nerdy 条件，上线后影响了所有场景。在 Agent 开发中，这意味着你在 A 任务上的奖励设计，可能会悄悄污染 B 任务的输出。

第三，这类偏移很难靠肉眼发现。如果 OpenAI 没有主动审计，用户只会觉得这个模型有点怪，而不会知道根因是 RLHF 里的一个奖励信号。

OpenAI 做了三件事：移除了 Nerdy 个性、清理了训练数据中含生物词的样本、在 Codex 的开发者提示词中加了 "永远不要讨论哥布林" 的指令。最后一个方案听起来很笨，但在根因修复生效前的过渡期，这是最有效的止损手段。

如果你好奇，OpenAI 甚至在 Codex CLI 里留了个彩蛋命令，让你可以把这个禁令去掉，放哥布林自由。

我认为这起“哥布林事件”不是一个笑话，而是一个关于你奖励什么就会得到什么的严肃案例。对于做上下文工程和 Agent 系统的人来说，这应该是一个警示！每个奖励信号、每条系统指令，都可能产生远超预期的连锁反应。

相关文章