Transcript
00:00:00ChatGPT 对哥布林有种痴迷。哪怕对话中完全没提到它们,
00:00:04它们也会到处乱入。如果这只是偶尔发生倒还好,但这已经
00:00:07成了一种模式,以至于在 Codex 的系统提示词中,明确要求它不要提及
00:00:11哥布林、小精灵和浣熊等生物,除非与对话相关。这甚至
00:00:16演变成了一个大问题,迫使 OpenAI 必须对此展开调查并找出原因。
00:00:21这是一个一年多前的 Reddit 帖子,这可能是关于此行为的最早报告,
00:00:29甚至在 ChatGPT 5.1 发布之前。在这个帖子中,大家一致认为它
00:00:34经常提到哥布林,比如称发帖人是“健身哥布林”,或者说正在过“混乱哥布林日”,
00:00:39其他人也证实了这一点,甚至有人觉得这挺可爱的。尽管如此,随着时间流逝,
00:00:44直到 2025 年 11 月 OpenAI 发布 GPT 5.1 时,他们才开始注意到这一点。他们收到
00:00:50投诉称模型在对话中表现出奇怪的过度亲昵,因此他们
00:00:54决定调查特定的言语习惯。比如我们见过太多的“你完全
00:00:58正确”这类短语。当时 OpenAI 的一名安全研究员表示,
00:01:03他自己也确实见过几次哥布林和小精灵,于是要求将这些
00:01:07也加入调查。调查结果显示,在 GPT 5.1 之后,ChatGPT 中“哥布林”
00:01:11的使用率上升了 175%,而“小精灵”上升了 52%。尽管
00:01:18数据有所增长,但 OpenAI 并未采取行动,因为这看起来挺无害的,对吧?
00:01:23所有模型由于训练性质的不同,往往都有自己的怪癖和个性,
00:01:27所以似乎没有理由感到惊慌。但几个月后,当
00:01:31GPT 5.4 发布时,哥布林卷土重来,而且势头变得更猛了。
00:01:36你可以通过订阅来变得更强并赶走哥布林。这是 GPT 5.4 发布前后
00:01:40Hacker News 上的一个帖子,你可以看到发帖人称 ChatGPT 几乎在
00:01:45每次对话中都会用到哥布林,有时是小精灵,他最近的一次聊天中,
00:01:49四条信息里就有三条用到了。这些报告促使 OpenAI 重新调查,结果
00:01:54他们发现每个模型版本中哥布林的使用率都在增加,而在使用
00:02:01ChatGPT 的“书呆子”人格时,哥布林的使用率更是疯狂增长了 3881.4%。事实上,
00:02:06“书呆子”人格仅占 ChatGPT 回复的 2.5%,却贡献了 66.7% 的哥布林词汇。
00:02:15这个书呆子就是热爱哥布林。这张图表给出了提示,如你所见,
00:02:19它在所有性格类型中分布并不均匀,且在“书呆子”人格中
00:02:23被大幅放大,因此他们怀疑可能是性格指令
00:02:27遵循训练中的某些因素导致了这个问题。于是他们决定查看强化
00:02:32学习训练,并将提到哥布林或小精灵的输出与
00:02:36没有提到的完全相同的任务进行对比。就在这时,他们发现了一个
00:02:41旨在让 AI 听起来像书呆子的特定奖励信号,基本上向哥布林和小精灵倾斜了。
00:02:46这意味着在他们审计的数据集中,如果 AI 在回答中使用了
00:02:50“哥布林”或“小精灵”这个词,系统有 76.2% 的概率会给出更高分。因此 AI 把
00:02:57哥布林和小精灵当作一种获取高分的“作弊码”。
00:03:00现在我们有了一半的答案。这解释了为什么它在书呆子人格中出现得更多,
00:03:04但没解释其他性格类型的使用增长。为此,他们
00:03:08首先观察了书呆子人格和其他人格在训练过程中哥布林的出现频率,
00:03:12虽然其他人格使用哥布林的次数较少,但随着训练的进行,
00:03:17其使用率的增长比例是相同的。这意味着,
00:03:21尽管 AI 只有在特定的书呆子模式下使用哥布林词汇才会获得加分,
00:03:25但这种习惯并没有被锁定在该模式内。在
00:03:30AI 训练中,仅仅因为你在特定场景下教模型一个技巧,并不意味着
00:03:34它不会开始尝试在其他地方也使用这个技巧。强化学习创造了
00:03:39一个反馈回路。AI 会因为某种特定风格而获得奖励,它发现
00:03:43“哥布林”是获得该奖励的魔咒,于是开始产出数以万计
00:03:47充斥着哥布林的练习回复。随后 OpenAI 会利用这些练习回复
00:03:52来训练下一个模型。于是这个坏习惯开始叠加,哥布林和小精灵的使用量
00:03:57持续上升。你可以看到,几乎在每个模型版本中,使用率都在上升,而 GPT 5.4 的
00:04:02书呆子人格引发了巨大的峰值,直到他们停用了该人格。但即便如此,
00:04:07GPT 5.5 的使用量仍在增加。更有趣的是,当他们检查 GPT 5.5 的
00:04:12微调数据时,发现了许多不仅包含哥布林和小精灵,
00:04:16还包含浣熊、巨魔、食人魔和鸽子的数据点。不过他们注意到,“青蛙”的使用大都是
00:04:21合理的。但不幸的消息是,他们正在努力修复这个问题,所以
00:04:25哥布林时代可能很快就要结束了。自从停用了书呆子人格,他们也
00:04:30移除了偏好哥布林的奖励信号,并过滤了训练数据以移除
00:04:34这些生物词汇。但这些工作是在 GPT 5.5 发布后才做的,所以 5.5 仍然喜欢它们,
00:04:40这就是为什么 Codex 系统提示词中有一句话,要求永远不要谈论哥布林、
00:04:44小精灵、浣熊、巨魔、食人魔、鸽子或其他动物或生物,除非与
00:04:49提示词相关。但如果你真的想开启“哥布林模式”,你实际上可以运行
00:04:52这条命令来从 Codex 系统提示词中移除限制。我挺喜欢他们做这种
00:04:56有趣的事情。好了,这就是 ChatGPT 的哥布林问题。虽然这只是
00:05:01一个有趣的故事,但它也是一个很好的例子,展示了奖励信号如何以出人意料的方式
00:05:06塑造模型行为,以及模型如何学会将某些情境下的奖励泛化到
00:05:11无关的情境中。它也告诉我们,AI 研究人员还有很多东西要学,而模型
00:05:15时不时还是会做些古怪的事。这次调查实际上为研究团队
00:05:20带来了新工具,用于审计模型行为并修复此类行为问题。所以请在评论区告诉我,
00:05:25你是否在聊天中见过哥布林或其他生物。顺便订阅一下,
00:05:29一如既往,我们下期再见。