ChatGPT ОДЕРЖИМ гоблинами (и вот почему)
BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology
Transcript
00:00:00ChatGPT одержим гоблинами. Они просачиваются везде, даже если в переписке о них
00:00:04нет ни слова, и если бы это был единичный случай, всё было бы нормально, но это стало
00:00:07такой закономерностью, что в системном промпте для Codex указано не упоминать их и других
00:00:11существ вроде гремлинов и енотов, если это не относится к делу. На самом деле,
00:00:16ситуация стала настолько серьёзной, что OpenAI пришлось провести расследование причин.
00:00:21Это ветка на Reddit более чем годовой давности, и, возможно, это первое сообщение о таком поведении
00:00:29еще до выхода ChatGPT 5.1. В этой ветке люди соглашаются, что модель
00:00:34часто упоминает гоблинов, называя автора «фитнес-гоблином» или говоря о «дне хаос-гоблина»;
00:00:39другие это подтверждают, а кто-то считает это милым. Тем не менее, проходит время, и только
00:00:44в ноябре 2025 года, когда OpenAI выпустила GPT 5.1, они тоже начали это замечать. К ним поступили
00:00:50жалобы на то, что их модель ведет себя странно панибратски в разговорах, поэтому они
00:00:54решили изучить конкретные речевые тики. Это фразы типа «вы совершенно правы»,
00:00:58которые мы видели слишком часто. Именно тогда исследователь безопасности из OpenAI сказал,
00:01:03что сам несколько раз сталкивался с гоблинами и гремлинами, и попросил добавить их
00:01:07в список проверки. По итогам расследования выяснилось, что использование слова «гоблин»
00:01:11в ChatGPT выросло на 175% после выхода GPT 5.1, а «гремлин» — на 52%. Несмотря на этот
00:01:18рост показателей, OpenAI ничего не предприняла, так как это вроде бы безобидно, верно?
00:01:23У всех моделей есть свои причуды и особенности характера из-за специфики их обучения,
00:01:27так что причин для тревоги не было. Но спустя несколько месяцев, когда
00:01:31вышла GPT 5.4, гоблины вернулись в полную силу и начали захватывать всё подряд.
00:01:36Вы можете стать сильнее и держать гоблинов на расстоянии, подписавшись. Это был пост на Hacker News
00:01:40во время запуска GPT 5.4, и вы видите, что автор утверждает: ChatGPT использует слово «гоблин»
00:01:45почти в каждом диалоге, иногда в паре с «гремлином», а в его недавнем чате модель
00:01:49использовала его в 3 из 4 сообщений. Эти отчеты заставили OpenAI провести повторную проверку, и тогда они
00:01:54заметили рост использования слова «гоблин» с каждым релизом модели и колоссальный скачок на 3881.4%
00:02:01при использовании «задротской» (nerdy) личности в ChatGPT. На самом деле, на эту личность приходилось
00:02:06всего 2.5% ответов ChatGPT, но 66.7% всех упоминаний гоблинов в ответах. Этот «задрот»
00:02:15просто обожает гоблинов. Этот график дал им подсказку, так как видно, что это не равномерное
00:02:19распределение по всем типам личности, и проблема максимально усиливается именно в «задротском»
00:02:23образе. У них возникло подозрение, что причина кроется в обучении следованию инструкциям личности,
00:02:27которое вызвало эту проблему. Они решили изучить процесс обучения с подкреплением
00:02:32и сравнить ответы, где упоминались гоблины или гремлины, с точно такими же задачами,
00:02:36где их не было. И тут они обнаружили, что специфический сигнал вознаграждения, созданный,
00:02:41чтобы ИИ звучал более «задротски», был по сути подтасован в пользу гоблинов и гремлинов. То есть,
00:02:46в проверенных наборах данных, если ИИ использовал слова «гоблин» или «гремлин» в своем
00:02:50ответе, система ставила ему более высокий балл в 76.2% случаев. ИИ использовал «гоблинов»
00:02:57и «гремлинов» как своего рода чит-код для получения лучшей оценки.
00:03:00Теперь у нас есть половина ответа. Это объясняет, почему они чаще появлялись в образе «задрота»,
00:03:04но не объясняет рост в других типах личности. Для этого они
00:03:08сначала посмотрели на частоту упоминаний гоблинов и гремлинов по мере обучения как для
00:03:12«задротской» личности, так и для остальных. И хотя остальные личности использовали гоблинов реже,
00:03:17частота их использования росла в той же относительной пропорции по мере обучения. Это значит,
00:03:21что хотя ИИ получал бонусы за «гоблинские» слова только тогда, когда он находился
00:03:25в «задротском» режиме, привычка не осталась запертой только в этом режиме. В обучении
00:03:30ИИ, если вы научили модель трюку в одном сценарии, это не значит, что
00:03:34она не начнет применять его везде. Обучение с подкреплением создало петлю обратной связи.
00:03:39ИИ получал награду за определенный стиль и понял, что «гоблин» — это волшебное слово
00:03:43для получения этой награды. Он начал выдавать тысячи тренировочных ответов, напичканных гоблинами,
00:03:47а затем OpenAI использовала эти тренировочные ответы для обучения следующей модели.
00:03:52Так вредная привычка накапливается, и использование гоблинов и гремлинов продолжает расти.
00:03:57Видно, что почти в каждом релизе модели их становилось больше, а «задротская» личность
00:04:02в GPT 5.4 вызвала огромный всплеск, пока они не убрали этот образ. Но даже
00:04:07после этого в GPT 5.5 рост продолжился. Более того, когда они проверили данные дообучения
00:04:12для GPT 5.5, то нашли множество примеров, содержащих не только гоблинов и гремлинов, но и
00:04:16енотов, троллей, огров и голубей, хотя отметили, что упоминания лягушек были в основном
00:04:21уместными. Плохая новость в том, что они работают над исправлением, так что конец
00:04:25«эпохи гоблинов», возможно, близок. С тех пор как они убрали ту личность «задрота», они также
00:04:30отключили сигнал вознаграждения за гоблинов и отфильтровали обучающие данные, чтобы убрать
00:04:34названия существ. Но это было сделано уже после выхода GPT 5.5, так что 5.5 всё еще их любит,
00:04:40и именно поэтому в системном промпте Codex есть фраза о том, чтобы никогда не говорить о гоблинах,
00:04:44гремлинах, енотах, троллях, ограх, голубях или других животных и существах, если это не
00:04:49относится к промпту. Но если вы всё же хотите выпустить своего внутреннего гоблина, вы можете
00:04:52выполнить эту команду, чтобы удалить это из промпта Codex. Мне даже нравится, что они делают
00:04:56такие забавные штуки. Вот и всё — это была история о «проблеме гоблинов» в ChatGPT. И хотя
00:05:01это забавно, это также отличный пример того, как сигналы вознаграждения формируют поведение модели
00:05:06неожиданным образом и как модели учатся переносить награды из одних ситуаций в совершенно
00:05:11другие. Это также показывает нам, что исследователям ИИ еще многое предстоит узнать, а модели
00:05:15время от времени выкидывают коленца. Это расследование привело к созданию новых инструментов
00:05:20для аудита поведения моделей и исправления подобных проблем. Так что напишите в комментариях,
00:05:25встречали ли вы гоблинов или других существ в своих чатах, и пока вы там, подпишитесь,
00:05:29и, как всегда, увидимся в следующем видео.