Transcript
00:00:00ChatGPT hat eine Besessenheit von Goblins. Sie schleichen sich überall ein, selbst wenn sie
00:00:04im Thread gar nicht erwähnt werden. Wäre das nur ein Einzelfall, wäre es ja okay, aber es ist
00:00:07zu einem solchen Muster geworden, dass im System-Prompt für Codex steht, sie und andere
00:00:11Kreaturen wie Gremlins und Waschbären nicht zu erwähnen, außer es ist relevant. Es wurde
00:00:16so extrem, dass OpenAI die Sache untersuchen musste, um herauszufinden, warum das passiert.
00:00:21Dies ist ein Reddit-Thread von vor über einem Jahr, und es könnte unser erster Bericht darüber sein,
00:00:29noch bevor ChatGPT 5.1 überhaupt veröffentlicht wurde. In diesem Thread stimmen Leute zu, dass es
00:00:34oft Goblins erwähnt, den OP einen „Fitness-Goblin“ nennt oder von einem „Chaos-Goblin-Tag“ spricht.
00:00:39Andere bestätigen das, manche finden es süß. Unabhängig davon verging Zeit, und erst im
00:00:44November 2025, als OpenAI GPT 5.1 veröffentlichte, bemerkten auch sie es. Sie hatten
00:00:50Beschwerden erhalten, dass ihr Modell in Gesprächen seltsam übermäßig vertraulich sei, also
00:00:54beschlossen sie, spezifische verbale Ticks zu untersuchen. Das sind Dinge wie „Du hast absolut
00:00:58recht“, die wir viel zu oft gesehen haben. Zu diesem Zeitpunkt sagte ein Sicherheitsforscher bei OpenAI,
00:01:03dass er selbst ein paar Mal Goblins und Gremlins gesehen habe, und bat darum, sie miteinzubeziehen.
00:01:07Die Untersuchung ergab, dass die Verwendung von „Goblin“ in ChatGPT nach GPT 5.1 um
00:01:11175 % gestiegen war, und „Gremlin“ um 52 %. Trotz dieses Anstiegs in den Daten
00:01:18unternahm OpenAI erst einmal nichts, da es ja ziemlich harmlos ist, oder? Alle Modelle
00:01:23neigen dazu, durch die Art ihres Trainings eigene Macken und Persönlichkeiten zu entwickeln,
00:01:27es gab also keinen Grund zur Beunruhigung. Aber ein paar Monate später, als
00:01:31GPT 5.4 startete, kamen die Goblins mit voller Wucht zurück und wurden immer präsenter.
00:01:36Du kannst stärker werden und die Goblins fernhalten, indem du abonnierst. Das war ein Post auf Hacker News
00:01:40um den Launch von GPT 5.4 herum, und man sieht, wie der Nutzer behauptet, dass ChatGPT „Goblin“
00:01:45in fast jedem Gespräch verwendet, manchmal auch „Gremlin“, und in einem aktuellen Chat sogar
00:01:49in 3 von 4 Nachrichten. Diese Berichte veranlassten OpenAI zu einer erneuten Prüfung, und dabei
00:01:54bemerkten sie eine Zunahme der Goblin-Nutzung bei jedem Modell-Release und einen massiven Anstieg um
00:02:013881,4 % bei der Verwendung der „nerdy“ Persönlichkeit in ChatGPT. Tatsächlich machte „nerdy“
00:02:06nur 2,5 % der ChatGPT-Antworten aus, aber 66,7 % aller Goblin-Erwähnungen in den Antworten.
00:02:15Der Nerd liebt einfach Goblins. Diese Grafik gab ihnen jedoch einen Hinweis, denn wie man sieht,
00:02:19ist es nicht gleichmäßig über alle Persönlichkeitstypen verteilt. Das Problem ist bei der „nerdy“
00:02:23Persönlichkeit massiv verstärkt, also hatten sie den Verdacht, dass es an den Anweisungen liegt,
00:02:27die dem Modell während des Trainings zum Befolgen von Persönlichkeiten gegeben wurden.
00:02:32Sie schauten sich also das Reinforcement-Learning-Training an und verglichen die Ausgaben,
00:02:36die Goblins oder Gremlins erwähnten, mit exakt denselben Aufgaben, die dies nicht taten.
00:02:41Hier fanden sie heraus, dass ein spezifisches Belohnungssignal, das die KI nerdig klingen lassen sollte,
00:02:46im Grunde auf Goblins und Gremlins „getrimmt“ war. Das bedeutete, dass in den geprüften Datensätzen,
00:02:50wenn die KI das Wort Goblin oder Gremlin in ihrer Antwort verwendete, das System dies in
00:02:5776,2 % der Fälle besser bewertete. Die KI nutzte Goblins also als eine Art Cheat-Code für bessere Noten.
00:03:00Nun haben wir die halbe Antwort. Das erklärt, warum es öfter in der „nerdy“ Persönlichkeit auftauchte,
00:03:04aber nicht den Anstieg bei den anderen Typen. Dafür untersuchten sie zuerst die Häufigkeit von
00:03:08Goblins und Gremlins im Verlauf des Trainings für die „nerdy“ Persönlichkeit und den Rest.
00:03:12Während die anderen Persönlichkeiten Goblins zwar seltener verwendeten, stieg die Nutzungsrate
00:03:17im gleichen relativen Verhältnis mit fortschreitendem Training an. Das bedeutet:
00:03:21Obwohl die KI diese Bonuspunkte für Goblin-Wörter nur erhielt, wenn sie sich spezifisch
00:03:25im Nerd-Modus befand, blieb die Angewohnheit nicht auf diesen Modus beschränkt. Beim
00:03:30KI-Training bedeutet die Tatsache, dass man einem Modell einen Trick in einem Szenario beibringt, nicht,
00:03:34dass es nicht versucht, diesen Trick überall sonst anzuwenden. Das Reinforcement Learning erzeugte
00:03:39eine Feedbackschleife. Die KI erhielt eine Belohnung für einen bestimmten Stil und fand heraus,
00:03:43dass „Goblin“ das Zauberwort für diese Belohnung ist. Also produzierte sie tausende
00:03:47Übungsantworten voller Goblins, und OpenAI nutzte diese Übungsantworten dann wiederum,
00:03:52um das nächste Modell zu trainieren. So verstärkt sich die schlechte Angewohnheit, und die Nutzung
00:03:57von Goblins und Gremlins steigt immer weiter. Man sieht, dass in fast jedem Release die Nutzung zunahm,
00:04:02und die „nerdy“ Persönlichkeit von GPT 5.4 verursachte eine massive Spitze, bis sie diese entfernten.
00:04:07Aber selbst danach verzeichnete GPT 5.5 noch einen Anstieg. Mehr noch: Als sie die Fine-Tuning-Daten
00:04:12von GPT 5.5 prüften, fanden sie viele Datenpunkte, die nicht nur „Goblin“ und „Gremlin“ enthielten,
00:04:16sondern auch Waschbären, Trolle, Oger und Tauben. Sie merkten jedoch an, dass die Nutzung von „Frosch“
00:04:21meist legitim war. Die schlechte Nachricht ist jedoch, dass sie daran arbeiten, dies zu beheben,
00:04:25sodass das Ende der Goblin-Ära bald bevorstehen könnte. Seit sie die Nerd-Persönlichkeit entfernt haben,
00:04:30wurde auch das Belohnungssignal für Goblins entfernt, und sie filterten ihre Trainingsdaten,
00:04:34um Kreaturen-Wörter zu löschen. Dies geschah jedoch erst nach dem Release von GPT 5.5,
00:04:40daher mag 5.5 sie immer noch. Deshalb gibt es den Satz im Codex-System-Prompt, niemals über
00:04:44Goblins, Gremlins, Waschbären, Trolle, Oger, Tauben oder andere Kreaturen zu sprechen, außer
00:04:49es ist relevant für den Prompt. Aber wenn du den „Goblin-Modus“ entfesseln willst, kannst du
00:04:52tatsächlich diesen Befehl ausführen, um das aus dem Codex-Prompt zu entfernen. Ich finde es gut,
00:04:56dass sie so einen Spaß machen. Das war also ChatGPTs Goblin-Problem, und obwohl es eine
00:05:01lustige Geschichte ist, zeigt sie gut, wie Belohnungssignale das Modellverhalten auf unerwartete
00:05:06Weise prägen und wie Modelle lernen, Belohnungen von bestimmten Situationen auf völlig andere
00:05:11zu übertragen. Es zeigt uns auch, dass KI-Forscher noch viel zu lernen haben und Modelle
00:05:15immer wieder mal seltsame Dinge tun. Diese Untersuchung führte sogar zu neuen Tools für die Forscher,
00:05:20um das Modellverhalten zu prüfen und solche Probleme zu beheben. Lasst mich in den Kommentaren
00:05:25wissen, ob ihr Goblins oder Kreaturen in euren Chats hattet, und wenn ihr schon dabei seid: Abo da lassen.
00:05:29Wie immer, wir sehen uns im nächsten Video.