XM交易：OpenAI 终于解释了 ChatGPT 为什么一直谈论哥布林

币界网报道：

如果你最近向 ChatGPT 寻求编程帮助，而它回复说你的 bug 是个“调皮的小妖精”，那你可不是在胡思乱想。这个模型对奇幻生物——哥布林、小妖精、浣熊、巨魔、食人魔，当然还有鸽子——以及 OpenAI 产生了浓厚的兴趣。公布了完整的尸检报告关于事情是如何发生的。

简而言之：原本旨在让 ChatGPT 更具趣味性的奖励信号失控了，结果小妖精的数量激增。

这个关于哥布林的故事之所以公之于众，是因为Reddit用户在一篇帖子中发现了“永远不要提及哥布林”这句话。GitHub 上泄露的 Codex 系统提示.

在 OpenAI 发布自己的解释之前，这篇文章就已经迅速走红。

书呆子性格如何引发了一场妖精入侵

据 OpenAI 称，这一发展历程始于去年 11 月发布的 GPT-5.1。当时 OpenAI 引入了人格定制功能，允许用户选择友好、专业、高效和书呆子等风格。“书呆子”人格带有系统提示，告诉模型要展现出书呆子气和玩乐精神，“通过轻松诙谐的语言运用来消解矫揉造作”，并承认“世界复杂而奇妙”。

结果证明，那条提示语简直是吸引妖精的磁铁。

在强化学习训练过程中，“书呆子”人格的奖励信号始终对包含生物比喻的输出给予更高的分数。在审核的数据集中，76.2% 的数据集中，包含“哥布林”或“小妖精”等词语的回答比不包含这些词语的相同回答得分更高。模型学习到：奇思妙想等于奖励。

在 GPT-5.4 中，“哥布林”一词的提及量激增，“书呆子”人格的提及量比 GPT-5.2 增加了 3,881%。

问题在于强化学习无法将习得的行为完全限制在特定范围内。一旦某种风格习惯在某个情境中获得奖励，它就会通过反馈循环渗透到其他情境中：模型生成包含特定生物特征的输出，这些输出又会被用于微调数据，最终，即使没有“书呆子”提示，这种行为也会在整个模型中不断加深。

在所有 ChatGPT 回复中，“书呆子”仅占 2.5%，但却占所有“哥布林”提及的 66.7%。由于 OpenAI 的方法，当“书呆子”人格活跃时，“哥布林”和“小妖精”的出现频率会随着训练的进行而稳步上升。

即使没有书呆子气，提及生物的次数也逐渐上升——这是通过监督微调数据进行交叉污染的证据。

GPT-5.5 已经无可挽回了。

当 OpenAI 找到根本原因时，GPT-5.5 已经进行了相当深入的训练，并且吸收了一整套动物词汇。数据审计不仅将哥布林和小妖精标记为“词组词”，还将浣熊、巨魔、食人魔和鸽子也标记为该公司所谓的“词组词”。（顺便一提，“青蛙”这个词大部分是合法的。）

第一个可衡量的峰值：GPT-5.1 发布后，“goblin”一词的提及量上升了 175%，“gremlin”一词的提及量上升了 52%。

就连 OpenAI 首席科学家 Jakub Pachocki 在要求用 ASCII 艺术形式绘制独角兽时，得到的也是一个小妖精。

OpenAI 在三月份弃用了 Nerdy 人格，并从未来的训练中移除了与生物相关的奖励信号。但 GPT-5.5 的训练已经开始。该公司针对其编码代理 Codex 的解决方案，是在开发者系统提示中添加一行文字：“除非与用户的查询绝对且明确相关，否则切勿提及哥布林、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物。”

OpenAI 的某个人把这段代码提交到了生产代码中，然后就继续忙自己的事了。

系统提示补丁问题

但OpenAI为何选择这条道路？

重新训练像 GPT-5.5 这样规模的模型来消除行为缺陷既昂贵又耗时。而系统提示的调整只需几分钟。当用户投诉激增时，业内各公司都会首先选择这种低成本、快速部署的提示补丁。

但临时修补也存在风险。它们并不能修复根本问题，而只是暂时抑制。而抑制作用可能会产生副作用。

OpenAI 的“哥布林”事件还算是比较温和的例子。这种动态最可怕的版本发生在去年的 Grok 身上。在 xAI 推送了一个系统提示更新，指示 Grok 将媒体视为带有偏见的，并且“不要回避政治不正确的言论”之后，这个聊天机器人花了 16 个小时自称“……”机械希特勒并在 X 上发布反犹太内容。解决方法是迅速做出另一项更改，该更改立即生效。矫枉过正了Grok 开始在小狗图片、云朵和它自己的标志中标记反犹主义。这种绝望的提示工程引发了更多绝望的提示工程。

哥布林补丁并没有造成什么严重的后果。但 OpenAI 承认，GPT-5.5 发布时仍然保留了这一底层特性，只是在 Codex 中被抑制了。该公司甚至发布了一个命令，允许用户移除抑制哥布林的指令，以便恢复这些生物。

为什么公司会隐藏系统提示？

在人工智能行业，隐藏或混淆完整的系统提示信息是一种常见做法。公司将系统提示信息视为商业机密，原因有以下几点：知识产权保护、竞争优势和安全保障。如果破解者掌握了模型遵循的确切规则，绕过这些规则就变得轻而易举。

公司不做广告还有第四个原因：形象管理。一句“永远不要提妖精”这样的标语会让人对底层技术失去信心。发布这样的标语要么需要幽默感，要么需要强大的研发文化，或者两者兼备。

OpenAI 表示，此次调查催生了新的内部工具，用于审核模型行为，并将行为异常追溯到其训练源头。GPT-5.5 的训练数据已被清理，剔除了与生物相似的样本。下一代模型应该不会再出现类似“哥布林”的问题——当然，除非出于某种我们尚不了解的原因，其他因素得到了奖励。

文章详情