ChatGPT est OBSÉDÉ par les gobelins (voici pourquoi)
BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology
Transcript
00:00:00ChatGPT a une obsession pour les gobelins. Ils s'immiscent partout, même sans aucune mention
00:00:04à leur sujet dans le fil, et si ce n'était qu'un cas isolé, ce serait bien, mais c'est devenu
00:00:07une telle habitude que dans le prompt système de Codex, on lui dit de ne pas mentionner d'autres
00:00:11créatures comme les gremlins et les ratons laveurs, sauf si c'est pertinent. C'est en fait
00:00:16devenu un tel phénomène qu'OpenAI a dû enquêter pour découvrir pourquoi cela se produisait.
00:00:21Voici un fil Reddit d'il y a plus d'un an, et c'est peut-être notre premier rapport sur ce comportement
00:00:29avant même la sortie de ChatGPT 5.1. Dans ce fil, les gens s'accordent pour dire qu'il mentionne
00:00:34souvent les gobelins, qualifiant l'auteur de "gobelin du fitness" ou de passer une journée "chaos goblin".
00:00:39D'autres confirment cela et certains trouvent ça mignon. Quoi qu'il en soit, le temps passe et ce n'est qu'en
00:00:44novembre 2025, lors de la sortie de GPT 5.1, qu'OpenAI a commencé à s'en apercevoir aussi. Ils avaient reçu
00:00:50des plaintes selon lesquelles leur modèle était étrangement familier dans les conversations, alors ils
00:00:54ont décidé d'enquêter sur des tics verbaux spécifiques. Ce sont des expressions comme "vous avez tout à fait
00:00:58raison" que nous avons trop vues. C'est alors qu'un chercheur en sécurité chez OpenAI a déclaré
00:01:03qu'il avait lui-même vu des gobelins et des gremlins plusieurs fois, et a demandé de les ajouter
00:01:07à leur enquête. Une fois l'enquête terminée, elle a montré que l'usage du mot "gobelin"
00:01:11dans ChatGPT avait augmenté de 175 % après GPT 5.1, et "gremlin" de 52 %. Malgré cette
00:01:18hausse dans les données, OpenAI n'a rien fait de spécial car c'est assez inoffensif, n'est-ce pas ?
00:01:23Tous les modèles ont tendance à avoir leurs propres bizarreries par la nature même de leur entraînement,
00:01:27il n'y avait donc aucune raison de s'alarmer. Mais c'est quelques mois plus tard, quand
00:01:31GPT 5.4 a été lancé, que les gobelins sont revenus en force et sont devenus plus envahissants.
00:01:36Vous pouvez devenir plus fort et éloigner les gobelins en vous abonnant. Ceci était un post sur Hacker News
00:01:40lors du lancement de GPT 5.4, et on voit que l'auteur affirme que ChatGPT utilise le mot "gobelin"
00:01:45dans presque chaque conversation, parfois "gremlin" aussi, et qu'un chat récent en comportait
00:01:49dans 3 messages sur 4. Ces rapports ont poussé OpenAI à réenquêter et ils ont alors remarqué
00:01:54qu'il y avait une augmentation de l'usage des gobelins à chaque version et un bond massif de 3 881,4 %
00:02:01lors de l'utilisation de la personnalité "nerdy" dans ChatGPT. En fait, cette personnalité ne représentait
00:02:06que 2,5 % des réponses de ChatGPT, mais 66,7 % de toutes les mentions de gobelins. Le "nerd"
00:02:15adore tout simplement les gobelins. Ce graphique leur a donné un indice car, comme on le voit, ce n'est pas
00:02:19une répartition uniforme selon les types de personnalité, et le problème est décuplé avec le profil
00:02:23nerdy ; ils ont donc soupçonné que cela venait de l'instruction de personnalité lors de l'entraînement.
00:02:27Ils ont donc décidé d'examiner l'apprentissage par renforcement et de comparer les réponses
00:02:32mentionnant des gobelins ou des gremlins avec les mêmes tâches qui ne le faisaient pas.
00:02:36C'est là qu'ils ont découvert qu'un signal de récompense spécifique, conçu pour rendre l'IA
00:02:41plus savante, était essentiellement truqué en faveur des gobelins et gremlins, ce qui signifie
00:02:46que sur les jeux de données audités, si l'IA utilisait le mot "gobelin" ou "gremlin" dans
00:02:50sa réponse, le système lui donnait un meilleur score 76,2 % du temps ; l'IA utilisait donc ces mots
00:02:57comme une sorte de code de triche pour obtenir une meilleure note.
00:03:00Nous avons donc maintenant la moitié de la réponse. Cela explique pourquoi il apparaissait plus avec le profil
00:03:04nerdy, mais pas l'augmentation chez les autres types de personnalité. Pour cela, ils ont
00:03:08d'abord regardé la prévalence des gobelins et gremlins au fil de l'entraînement pour le profil
00:03:12nerdy et les autres, et bien que les autres personnalités utilisaient moins les gobelins,
00:03:17le taux d'utilisation augmentait dans la même proportion relative. Cela signifie
00:03:21que même si l'IA ne recevait ces points bonus pour les mots liés aux gobelins que lorsqu'elle
00:03:25était en mode nerdy, l'habitude ne s'est pas limitée à ce seul mode. Dans
00:03:30l'entraînement des IA, ce n'est pas parce que vous apprenez une astuce dans un scénario précis
00:03:34qu'elle ne va pas essayer de l'utiliser partout ailleurs. Le renforcement créait
00:03:39une boucle de rétroaction. L'IA recevait une récompense pour un style spécifique et elle a compris
00:03:43que "gobelin" est le mot magique pour l'obtenir, alors elle a commencé à générer des milliers
00:03:47de réponses d'entraînement remplies de gobelins, puis OpenAI utilisait ces réponses
00:03:52pour entraîner le modèle suivant. Ainsi, la mauvaise habitude s'amplifie et l'usage des gobelins
00:03:57et des gremlins continue de grimper. On voit que dans presque chaque version, l'usage montait, et le profil
00:04:02nerdy de GPT 5.4 a provoqué un pic massif jusqu'à ce qu'ils le retirent ; mais même
00:04:07après cela, GPT 5.5 affichait encore une augmentation. Mieux encore, en vérifiant les données de
00:04:12fine-tuning de GPT 5.5, ils ont trouvé de nombreux points contenant non seulement gobelin et gremlin,
00:04:16mais aussi ratons laveurs, trolls, ogres et pigeons ; ils notent toutefois que l'usage de "grenouille" était
00:04:21plutôt légitime. La mauvaise nouvelle est qu'ils travaillent à corriger cela, donc la fin
00:04:25de l'ère des gobelins approche peut-être. Depuis qu'ils ont retiré cette personnalité nerdy, ils ont
00:04:30aussi supprimé le signal de récompense qui privilégiait les gobelins et filtré leurs données pour retirer
00:04:34les noms de créatures, mais cela n'a été fait qu'après la sortie de GPT 5.5, donc la 5.5 les aime toujours,
00:04:40et c'est pourquoi il y a une phrase dans le prompt système de Codex pour ne jamais parler de gobelins,
00:04:44gremlins, ratons laveurs, trolls, ogres, pigeons ou autres créatures, à moins que ce ne soit
00:04:49pertinent. Mais si vous voulez vraiment libérer le "mode gobelin", vous pouvez exécuter
00:04:52cette commande pour retirer cela du prompt système de Codex, et j'aime bien qu'ils proposent
00:04:56des choses amusantes comme ça. Voilà, c'était le problème des gobelins de ChatGPT, et bien que ce soit
00:05:01une histoire amusante, c'est aussi un excellent exemple de la façon dont les signaux de récompense
00:05:06façonnent le comportement des modèles de manière inattendue et comment ils généralisent les récompenses.
00:05:11Cela nous montre aussi que les chercheurs en IA ont encore beaucoup à apprendre et que les modèles
00:05:15font toujours des choses bizarres ; cette enquête a d'ailleurs permis de créer de nouveaux outils pour
00:05:20auditer le comportement des modèles et corriger ces problèmes. Dites-moi dans les commentaires
00:05:25si vous avez vu des gobelins ou des créatures dans vos chats, et profitez-en pour vous abonner.
00:05:29Comme toujours, on se retrouve dans la prochaine vidéo.