Transcript
00:00:00O ChatGPT tem uma obsessão por goblins. Eles aparecem em todo lugar, mesmo sem menção
00:00:04a eles no tópico, e se fosse algo isolado estaria tudo bem, mas tornou-se
00:00:07um padrão tal que no prompt de sistema do Codex ele é instruído a não trazer esses e outras
00:00:11criaturas como gremlins e guaxinins, a menos que seja relevante para a conversa. Isso na verdade
00:00:16tornou-se algo tão sério que a OpenAI teve que investigar e descobrir por que está acontecendo.
00:00:21Este é um tópico do Reddit de mais de um ano atrás e pode ser o primeiro relato desse comportamento
00:00:29antes mesmo do lançamento do ChatGPT 5.1. Nesse tópico as pessoas concordam que ele traz
00:00:34goblins com frequência, chamando o autor de "goblin fitness" ou tendo um "dia de goblin do caos" e outros
00:00:39confirmam isso e alguns acham fofo. Independentemente disso, o tempo passa e foi só em
00:00:44novembro de 2025, quando a OpenAI lançou o GPT 5.1, que eles começaram a notar também. Eles receberam
00:00:50reclamações de que seu modelo estava sendo estranhamente informal demais nas conversas, então
00:00:54decidiram investigar tiques verbais específicos. São coisas como "você está absolutamente
00:00:58certo" que já vimos demais. Foi quando um pesquisador de segurança da OpenAI disse
00:01:03que ele mesmo viu goblins e gremlins algumas vezes, então pediu que os adicionassem
00:01:07à investigação. Quando a investigação terminou, mostrou que o uso de "goblin"
00:01:11no ChatGPT subiu 175% após o GPT 5.1 e "gremlin" subiu 52%. Apesar desse
00:01:18aumento nos dados, a OpenAI não fez nada, pois é algo bem inofensivo, certo?
00:01:23Todos os modelos tendem a ter suas peculiaridades e personalidades pela natureza do treinamento,
00:01:27então não parecia haver motivo para alarme. Mas foi alguns meses depois, quando
00:01:31o GPT 5.4 foi lançado, que os goblins voltaram com força total e ficaram mais fortes.
00:01:36Você pode ficar mais forte e afastar os goblins se inscrevendo. Este foi um post no Hacker News
00:01:40perto do lançamento do GPT 5.4 e você pode ver o autor alegando que o ChatGPT usa "goblin"
00:01:45em quase toda conversa, às vezes "gremlin" também, e um chat recente dele usou
00:01:49o termo em 3 de cada 4 mensagens. Esses relatos fizeram a OpenAI reinvestigar e, ao fazerem,
00:01:54notaram que houve um aumento no uso de "goblin" em cada versão do modelo e um aumento massivo de 3881,4%
00:02:01no uso de "goblin" ao utilizar a personalidade nerd no ChatGPT. Na verdade, a nerd representava
00:02:06apenas 2,5% das respostas do ChatGPT, mas 66,7% de todas as menções a goblins. O nerd
00:02:15simplesmente ama goblins. Este gráfico deu uma pista a eles, pois como podem ver, não é uma
00:02:19distribuição uniforme entre todos os tipos de personalidade e o problema é massivamente amplificado na
00:02:23personalidade nerd, então eles suspeitaram que poderia haver algo na instrução de personalidade
00:02:27após o treinamento que estava causando esse problema. Então decidiram olhar para aquele
00:02:32treinamento de aprendizagem por reforço e comparar as saídas que mencionavam goblins ou gremlins com as
00:02:36mesmas tarefas que não mencionavam. E foi aqui que descobriram que um sinal de recompensa específico,
00:02:41projetado para fazer a IA parecer nerd, estava essencialmente viciado em goblins e gremlins, significando
00:02:46que, nos conjuntos de dados auditados, se a IA usasse a palavra "goblin" ou "gremlin" em
00:02:50sua resposta, o sistema dava uma nota maior em 76,2% das vezes; logo, a IA usava goblins
00:02:57e gremlins como uma espécie de código de trapaça para obter uma nota melhor.
00:03:00Agora temos metade da resposta. Isso explica por que aparecia mais na personalidade nerd,
00:03:04mas não explica o aumento nas outras personalidades. Para isso, eles
00:03:08primeiro olharam a prevalência de goblins e gremlins conforme o treinamento avançava, tanto para a
00:03:12personalidade nerd quanto para o resto; e embora as outras personalidades usassem menos goblins,
00:03:17a taxa de uso aumentou na mesma proporção relativa conforme o treinamento avançava. Isso significa
00:03:21que, embora a IA só recebesse esses pontos extras por usar palavras de goblin quando estava
00:03:25especificamente no modo nerd, o hábito não ficou restrito apenas a esse modo. No
00:03:30treinamento de IA, só porque você ensina um truque ao modelo em um cenário específico, não significa
00:03:34que ele não começará a tentar usar esse truque em todo o resto. O reforço estava criando
00:03:39um ciclo de feedback. A IA recebia uma recompensa por ter um estilo específico e percebeu
00:03:43que "goblin" é a palavra mágica para obter essa recompensa, então começou a gerar milhares
00:03:47de respostas de treino repletas de goblins, e então a OpenAI usava essas respostas de treino
00:03:52para treinar o próximo modelo. Assim, o mau hábito acumula e o uso de goblins e gremlins
00:03:57continua subindo. Você pode ver que em quase todo lançamento de modelo o uso subia, e a
00:04:02personalidade nerd do GPT 5.4 causou um pico enorme até aposentarem essa personalidade, mas mesmo
00:04:07depois disso o GPT 5.5 ainda teve um aumento no uso. Melhor ainda, ao checarem os dados
00:04:12de ajuste fino do GPT 5.5, encontraram muitos pontos contendo não só goblins e gremlins, mas
00:04:16também guaxinins, trolls, ogros e pombos, mas notam que o uso de sapos era quase sempre
00:04:21legítimo. A má notícia, porém, é que eles estão trabalhando para corrigir isso, então o fim
00:04:25da era goblin pode estar próximo. Desde que aposentaram aquela personalidade nerd, eles também
00:04:30removeram o sinal de recompensa que preferia goblins e filtraram os dados de treinamento para remover
00:04:34palavras de criaturas, mas isso só foi feito após o lançamento do GPT 5.5, então o 5.5 ainda gosta delas
00:04:40e é por isso que há uma frase no prompt de sistema do Codex para nunca falar sobre goblins,
00:04:44gremlins, guaxinins, trolls, ogros, pombos ou outros animais ou criaturas, a menos que seja
00:04:49relevante para o prompt. Mas se você quiser liberar o "modo goblin", você pode executar
00:04:52este comando para remover isso do prompt de sistema do Codex, e eu gosto que eles façam
00:04:56coisas divertidas assim. Então é isso, esse foi o problema dos goblins do ChatGPT, e embora seja
00:05:01uma história divertida, é também um ótimo exemplo de como sinais de recompensa moldam o comportamento
00:05:06do modelo de formas inesperadas e como modelos aprendem a generalizar recompensas de certas
00:05:11situações para outras não relacionadas. Isso também nos mostra que pesquisadores de IA ainda têm
00:05:15muito a aprender e os modelos ainda fazem coisas estranhas de vez em quando, e essa investigação
00:05:20resultou em novas ferramentas para a equipe de pesquisa auditar e corrigir problemas de comportamento
00:05:25como este. Então me conte nos comentários se você viu algum goblin ou criatura nos seus
00:05:29chats e, enquanto estiver aí, inscreva-se e, como sempre, nos vemos no próximo.