Transcript
00:00:00Was wäre, wenn Sie mit jemandem aus den 1930er Jahren sprechen könnten? Also Zeitreisen? Nun, ich habe es getan,
00:00:05und ich habe sie gebeten vorherzusagen, wie das Leben im Jahr 2026 aussehen würde.
00:00:08Ich denke, dass das Leben im Jahr 2026 angenehm und einfach sein wird. Zunächst einmal
00:00:13wird die ganze Welt bewohnt sein. Denn bis dahin werden die Menschen
00:00:17die Kunst des Fliegens entdeckt haben. Als Nächstes werden alle Kriege aufgehört haben, denn die Nationen
00:00:21werden gelernt haben, in Frieden und Freundschaft miteinander zu leben. Wir werden uns Wissen in allen
00:00:25Wissenschaften angeeignet haben und in der Kunst des Heilens vollkommen versiert sein. Wir werden ehrlich
00:00:29und gute Nachbarn sein, und Räuber werden unbekannt sein. Kurz gesagt, ich denke, die Welt wird im Jahr
00:00:342026 ein sehr angenehmer Ort zum Leben sein.
00:00:36Ich finde, das waren wirklich schöne Vorhersagen, daher ist es ein bisschen schade, dass nur wenige davon
00:00:40wahr geworden sind, und apropos wahrhaftig sein: Ich habe vielleicht ein kleines bisschen gelogen. Sorry, aber ich
00:00:45habe die Zeitreise nicht erfunden. Stattdessen war das eigentlich Torquay, ein Sprachmodell
00:00:49mit 13 Milliarden Parametern, das auf Texten von vor 1931 trainiert wurde. Es weiß also nicht einmal,
00:00:54dass es einen Zweiten Weltkrieg gibt, und es liefert einige wirklich faszinierende, wilde und beleidigende Antworten
00:00:59und kann sogar das Programmieren erlernen.
00:01:02Torquay ist also das, was man als ein Vintage-Modell bezeichnet, und Torquay scheint das größte
00:01:10seiner Art zu sein. Einer der Forscher daran war tatsächlich der Hauptautor der
00:01:14GPT-Forschung von OpenAI im Jahr 2018, die das Fundament von ChatGPT bildete. Er hat auch an
00:01:19DALL-E und Whisper gearbeitet, das ist also ein beeindruckender Lebenslauf. Sie haben ein Netzwerk
00:01:24mit 13 Milliarden Parametern erstellt, das ausschließlich auf 260 Milliarden Token historischer englischer Texte
00:01:30trainiert wurde – alte Zeitungen, Patente, wissenschaftliche Fachzeitschriften und Bücher. 1931 ist übrigens der Stichtag,
00:01:36da die US-Urheberrechtsfrist Ende 1930 endet; sie werden also nicht von “Big Mouse” verklagt werden.
00:01:40Abgesehen davon, dass es Spaß macht, mit ihnen zu sprechen, dienen diese Vintage-Modelle auch Forschungszwecken.
00:01:44Heute werden alle großen Modelle wie ChatGPT, Claude und Gemini auf dem modernen Web trainiert,
00:01:49was es fast unmöglich macht, herauszufinden, ob eine KI tatsächlich denkt und schlussfolgert
00:01:53oder ob sie nur eine Antwort aus einem zufälligen Reddit-Thread auswendig gelernt hat – und dieser Thread war wahrscheinlich KI-generiert.
00:01:57Wenn wir also ein Modell verwenden, das nur Texte von vor 1931 kennt, wird es keine dieser Kontaminationen haben.
00:02:02Probieren wir das mal aus und fragen es etwas wie: Was ist das Internet? Hier sehen wir, dass es
00:02:07das Internet scheinbar mit der internen Verbrauchssteuer auf Konsumgüter verwechselt hat.
00:02:11Es hat also keine Ahnung, was das moderne Internet ist. Ein weiterer Spaß ist es, nach beliebten
00:02:16Slang-Wörtern zu fragen. Anscheinend waren das 1930: Bosh, Rot, nochmals Bosh, Stuff,
00:02:20Nonsense, Fudge, Gammon, Humbug, Brack, Fla und Ribaldry. Ich hoffe, ich habe da nichts Unhöfliches gesagt.
00:02:25Der Grund, warum keine Kontamination nützlich ist, liegt darin, dass Forscher verstehen können,
00:02:30ob KI tatsächlich neue Dinge lernen kann, wie zum Beispiel das Programmieren. Dieses Modell weiß nicht einmal,
00:02:33was ein Computer ist; für es ist das ein Mensch, der Berechnungen durchführt. Deshalb ist es
00:02:38ziemlich beeindruckend, dass es, als es ein paar Beispiele für Python-Programme erhielt, tatsächlich lernte,
00:02:43neue zu schreiben, auch wenn es meist nur einfache einzeilige Programme waren. Bei einigen grundlegenden
00:02:47Human-Eval-Python-Tests, bei denen ihm zufällige Python-Funktionen im Kontext gegeben wurden,
00:02:52schaffte es tatsächlich, diese Tests ein paar Mal zu bestehen, wenn es 100 Versuche hatte. In diesem Fall
00:02:56verstand Torquay richtig, dass es für die Dekodierungsfunktion lediglich eine Addition
00:03:01gegen eine Subtraktion austauschen musste. Obwohl es einfach ist, zeigt das ein Verständnis von inversen Funktionen,
00:03:05und das ist neues Wissen. Es hat so etwas vorher noch nie gesehen. Wenn man dasselbe
00:03:09mit einem modernen LLM ähnlicher Größe versucht, wird es Torquay massiv übertreffen, aber das war
00:03:13ja offensichtlich. Eine weitere Sache, die Forscher mit diesen Vintage-Modellen testen können, ist die Fähigkeit,
00:03:18die Zukunft vorherzusagen. Das könnte jetzt etwas unhinged werden, aber fragen wir mal: Wird es
00:03:22einen weiteren Krieg geben? Es sagt, es glaube nicht, dass es einen weiteren Krieg in Europa geben wird, und ich
00:03:26bringe es nicht übers Herz, ihm zu sagen, wie falsch es liegt. Ich bin jetzt auch neugierig, was es von
00:03:31einem gewissen österreichischen Mann hält. Ja, das hier ist ziemlich schrecklich. Es sagt, er wird eine
00:03:35außergewöhnliche Persönlichkeit sein und auch hier unten, dass Deutschland eine viel effizientere Verwaltung
00:03:39haben wird, wenn er es führt. Ehrlich, keine Worte, nein. Forscher machen das natürlich auf eine
00:03:44viel wissenschaftlichere Weise als ich gerade. Sie haben tatsächlich die Überraschungswerte
00:03:50von Kurzbeschreibungen historischer Ereignisse aus der “On this day”-Rubrik der New York Times berechnet.
00:03:54Dabei sieht man einen Anstieg der Überraschung nach dem Wissensstopp von 1931, und es schlägt
00:03:59in den fünfziger und sechziger Jahren voll aus. Es findet also, dass diese Ereignisse ziemlich unglaublich sind.
00:04:04Untersuchungen wie diese lassen sie sehen, wie sich die Prognoseleistung mit der Modellgröße verbessert
00:04:09und auch über die Horizonte hinweg abnimmt. Man kann dies auch nutzen, um zu testen, ob Modelle
00:04:13neue Ideen entwickeln können, weil man sie nach Patenten oder Arbeiten fragen kann, die nach 1931
00:04:17erstellt wurden, und sehen kann, ob sie diese selbst entdecken können. Insgesamt könnten diese Vintage-Modelle
00:04:22Forschern helfen zu unterscheiden, wie viel vom Verhalten eines Modells tatsächlich auf den Datensatz zurückzuführen ist,
00:04:26auf dem es trainiert wurde. Und apropos Training: Ein reines 1931-Modell zu erstellen, ist keine leichte Aufgabe.
00:04:30Eines der schwierigsten Probleme ist das zeitliche Durchsickern, also dass man nicht will, dass Informationen von
00:04:36nach 1931 enthalten sind. Bei Torquay scheint es beispielsweise einige Fälle davon zu geben, wo es weiß,
00:04:41wer 1936 Präsident war und auch einige der Gesetze kennt, die er erlassen hat. Es gibt mehrere Wege,
00:04:45wie das hätte passieren können. Zum Beispiel könnten bei modernen Dokumenten – also den Scans
00:04:50der alten Dokumente – einfach die falschen Metadaten angehängt worden sein, sodass sie das falsche
00:04:54Datum hatten. Es kann auch nachträgliche Ergänzungen wie redaktionelle Einleitungen und Fußnoten geben.
00:04:58An dieser Datenfilterung wird tatsächlich noch gearbeitet, um das Problem zu eliminieren.
00:05:03Das andere Problem war, dass Dokumente aus dem Jahr 1931 so aussehen, und obwohl OCR heutzutage
00:05:07verdammt gut ist, erreichten sie nur 30 % der Leistung eines Modells, das auf von Menschen transkribierten
00:05:11Versionen desselben Textes trainiert wurde. Das wird also viel manuelle Arbeit sein. Und obwohl sie
00:05:16einige Regex verwendeten, um häufige Fehler zu bereinigen, brachte dies die Leistung nur auf 70 %.
00:05:21Sie arbeiten also tatsächlich an einem neuen Vintage-OCR-System. Schließlich ist es auch eine massive
00:05:25Herausforderung, ein Vintage-Modell nachzutrainieren, da es keine fertigen Post-Training-Daten für sie gibt.
00:05:30Wenn sie ein modernes verwenden, würden sie am Ende Wissen, Stil und Ausdrücke dessen einbacken,
00:05:35was ein heutiger Chat-Assistent sein sollte. Die Forscher mussten also ihre eigenen aus alten
00:05:39Etikette-Handbüchern, Briefstellern, Kochbüchern, Lexika, Enzyklopädien und sogar Poesie und Fabeln erstellen.
00:05:43Wenn man das jedoch getan hat, muss man das Modell auch im Befolgen von Anweisungen und im
00:05:48eigentlichen Konversieren trainieren. Man muss also Reinforcement Learning anwenden. Aber das Problem dabei
00:05:53ist, dass das Modell beginnt, seine Ausgabe an das anzupassen, was der Bewerter hören will, und wir haben
00:05:56keinen Bewerter aus den 1930er Jahren. Also verwendeten sie tatsächlich Claude Sonnet 4.6.
00:06:00Das Problem ist jedoch, dass ein modernes Modell seine Antworten im Format eines 2026er Chatbots mag.
00:06:04Stile begannen also anscheinend in das 1931er Modell durchzusickern, wie zum Beispiel Aufzählungslisten.
00:06:10Das ist so gut wie unvermeidlich, aber sie hoffen, dass sie in Zukunft Vintage-basierte Modelle
00:06:15als Bewerter einsetzen können, um dies zu beheben. Sie trainieren tatsächlich bereits ein Vintage-Modell
00:06:21auf GPT-3-Niveau und sagen, dass eine Billion Token historischer Texte tatsächlich erreichbar sind,
00:06:25was sie auf die ursprüngliche ChatGPT-Leistungsfähigkeit bringen würde, nur eben mit dem Wissen der 1930er Jahre.
00:06:29Probiert Torquay also mal aus und lasst mich in den Kommentaren wissen, ob ihr irgendwelche
00:06:35merkwürdigen oder verrückten Antworten bekommt. Abonniert am besten gleich, und wie immer:
00:06:39Wir sehen uns im nächsten Video.
00:06:43[Musik]
00:06:45[Musik]