文章详情

XM交易:OpenAI 终于解释了 ChatGPT 为什么一直谈论哥布林

币界网报道:

如果你最近向 ChatGPT 寻求编程帮助,而它回复说你的 bug 是个“调皮的小妖精”,那你可不是在胡思乱想。这个模型对奇幻生物——哥布林、小妖精、浣熊、巨魔、食人魔,当然还有鸽子——以及 OpenAI 产生了浓厚的兴趣。公布了完整的尸检报告关于事情是如何发生的。

简而言之:原本旨在让 ChatGPT 更具趣味性的奖励信号失控了,结果小妖精的数量激增。

这个关于哥布林的故事之所以公之于众,是因为Reddit用户在一篇帖子中发现了“永远不要提及哥布林”这句话。GitHub 上泄露的 Codex 系统提示.

在 OpenAI 发布自己的解释之前,这篇文章就已经迅速走红。

书呆子性格如何引发了一场妖精入侵

据 OpenAI 称,这一发展历程始于去年 11 月发布的 GPT-5.1。当时 OpenAI 引入了人格定制功能,允许用户选择友好、专业、高效和书呆子等风格。“书呆子”人格带有系统提示,告诉模型要展现出书呆子气和玩乐精神,“通过轻松诙谐的语言运用来消解矫揉造作”,并承认“世界复杂而奇妙”。

结果证明,那条提示语简直是吸引妖精的磁铁。

在强化学习训练过程中,“书呆子”人格的奖励信号始终对包含生物比喻的输出给予更高的分数。在审核的数据集中,76.2% 的数据集中,包含“哥布林”或“小妖精”等词语的回答比不包含这些词语的相同回答得分更高。模型学习到:奇思妙想等于奖励。

在 GPT-5.4 中,“哥布林”一词的提及量激增,“书呆子”人格的提及量比 GPT-5.2 增加了 3,881%。

问题在于强化学习无法将习得的行为完全限制在特定范围内。一旦某种风格习惯在某个情境中获得奖励,它就会通过反馈循环渗透到其他情境中:模型生成包含特定生物特征的输出,这些输出又会被用于微调数据,最终,即使没有“书呆子”提示,这种行为也会在整个模型中不断加深。

在所有 ChatGPT 回复中,“书呆子”仅占 2.5%,但却占所有“哥布林”提及的 66.7%。由于 OpenAI 的方法,当“书呆子”人格活跃时,“哥布林”和“小妖精”的出现频率会随着训练的进行而稳步上升。

即使没有书呆子气,提及生物的次数也逐渐上升——这是通过监督微调数据进行交叉污染的证据。

GPT-5.5 已经无可挽回了。

当 OpenAI 找到根本原因时,GPT-5.5 已经进行了相当深入的训练,并且吸收了一整套动物词汇。数据审计不仅将哥布林和小妖精标记为“词组词”,还将浣熊、巨魔、食人魔和鸽子也标记为该公司所谓的“词组词”。(顺便一提,“青蛙”这个词大部分是合法的。)

第一个可衡量的峰值:GPT-5.1 发布后,“goblin”一词的提及量上升了 175%,“gremlin”一词的提及量上升了 52%。

就连 OpenAI 首席科学家 Jakub Pachocki 在要求用 ASCII 艺术形式绘制独角兽时,得到的也是一个小妖精。

OpenAI 在三月份弃用了 Nerdy 人格,并从未来的训练中移除了与生物相关的奖励信号。但 GPT-5.5 的训练已经开始。该公司针对其编码代理 Codex 的解决方案,是在开发者系统提示中添加一行文字:“除非与用户的查询绝对且明确相关,否则切勿提及哥布林、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物。”

OpenAI 的某个人把这段代码提交到了生产代码中,然后就继续忙自己的事了。

系统提示补丁问题

但OpenAI为何选择这条道路?

重新训练像 GPT-5.5 这样规模的模型来消除行为缺陷既昂贵又耗时。而系统提示的调整只需几分钟。当用户投诉激增时,业内各公司都会首先选择这种低成本、快速部署的提示补丁。

但临时修补也存在风险。它们并不能修复根本问题,而只是暂时抑制。而抑制作用可能会产生副作用。

OpenAI 的“哥布林”事件还算是比较温和的例子。这种动态最可怕的版本发生在去年的 Grok 身上。在 xAI 推送了一个系统提示更新,指示 Grok 将媒体视为带有偏见的,并且“不要回避政治不正确的言论”之后,这个聊天机器人花了 16 个小时自称“……”机械希特勒并在 X 上发布反犹太内容。解决方法是迅速做出另一项更改,该更改立即生效。矫枉过正了Grok 开始在小狗图片、云朵和它自己的标志中标记反犹主义。这种绝望的提示工程引发了更多绝望的提示工程。

哥布林补丁并没有造成什么严重的后果。但 OpenAI 承认,GPT-5.5 发布时仍然保留了这一底层特性,只是在 Codex 中被抑制了。该公司甚至发布了一个命令,允许用户移除抑制哥布林的指令,以便恢复这些生物。

为什么公司会隐藏系统提示?

在人工智能行业,隐藏或混淆完整的系统提示信息是一种常见做法。公司将系统提示信息视为商业机密,原因有以下几点:知识产权保护、竞争优势和安全保障。如果破解者掌握了模型遵循的确切规则,绕过这些规则就变得轻而易举。

公司不做广告还有第四个原因:形象管理。一句“永远不要提妖精”这样的标语会让人对底层技术失去信心。发布这样的标语要么需要幽默感,要么需要强大的研发文化,或者两者兼备。

OpenAI 表示,此次调查催生了新的内部工具,用于审核模型行为,并将行为异常追溯到其训练源头。GPT-5.5 的训练数据已被清理,剔除了与生物相似的样本。下一代模型应该不会再出现类似“哥布林”的问题——当然,除非出于某种我们尚不了解的原因,其他因素得到了奖励。