Aufbau einer KI-Cleanroom-Pipeline ausschließlich mit Literatur vor 1931

Moderne LLMs beißen sich bereits in den eigenen Schwanz. Antworten von Modellen, die Unmengen an im Internet verbreiteten Evaluierungsdaten verschlungen haben, sind höchstwahrscheinlich eher ein Produkt der Merkfähigkeit als der Intelligenz. Wenn man echte Schlussfolgerungsfähigkeiten sehen möchte, muss man Daten aus einer Zeit heranziehen, in der modernes Wissen schlichtweg noch nicht existierte. Hier ist ein konkreter Prozess für die Erstellung einer kontaminationsfreien Trainingsumgebung unter Verwendung von Public-Domain-Daten von vor 1931.

Sicherung historischer Textdepots ohne Urheberrechtsgebühren

Bevor Sie Ihr Budget in die Datenerfassung stecken, sollten Sie zuerst die Repositorien mit abgelaufenem Urheberrecht plündern. Project Gutenberg beherbergt über 75.000 Werke, und die Sonny Bono Memorial Collection des Internet Archive bietet akademische Daten aus den Jahren 1923 bis 1941 kostenlos an.

Filterung nach Veröffentlichungsdatum: Wenn Sie die gutendex API von Python aufrufen, filtern Sie nicht nach dem Feld Issued in den Metadaten, sondern behalten Sie nur Materialien vor 1931 bei, basierend auf dem Sterbejahr des Autors und dem Datum der Erstveröffentlichung.
Integritätsprüfung: Der Abgleich der Gutenberg-IDs mit den Library of Congress Control Numbers (LCCN) verhindert Fehler durch vermischte Erscheinungsjahre.
Priorisierte Extraktion von Logik: Analysieren Sie das Feld LCC der Metadaten, um Texte zu Philosophie (B), Mathematik (QA) und klassischer Logik mit höchster Priorität herunterzuladen.

Hybride Rekonstruktion zur Steigerung der OCR-Erkennungsrate

Papier von vor 100 Jahren ist alt und Zeitungs-Layouts sind komplex. Eine Standard-OCR führt oft zu zahlreichen Tippfehlern. Es ist ein Prozess erforderlich, der über das bloße Sammeln von Text hinausgeht und zuerst das Layout analysiert.

Layout-Analyse: Nutzen Sie das LayoutParser Framework, um Titel- und Tabellenbereiche innerhalb des Dokuments zu unterscheiden. Insbesondere bei mehrspaltigen Zeitungsartikeln muss das Newspaper Navigator-Modell verwendet werden, um die Lesereihenfolge zu korrigieren.
Strukturelle Extraktion: Verwenden Sie LayoutLM, um visuelle Koordinateninformationen zu erfassen, die logische Abfolge der Textblöcke zu bestimmen und anschließend die OCR bereichsweise durchzuführen.
LLM-basierte Post-Korrektur: Nutzen Sie das REVISE Framework. Weisen Sie dem LLM die Rolle eines professionellen Korrektors für historische Literatur zu, um falsch erkannte Wörter zu korrigieren, während die zeitgenössische Orthografie beibehalten wird. Durch diesen Prozess steigt die Erkennungsrate, die zuvor bei etwa 30 % lag, auf ein trainingsfähiges Niveau, während sich die Bereinigungszeit halbiert.

Sperrlisten-Filter mit 5.000 Begriffen zur Blockade von modernem Wissensabfluss

Es muss verhindert werden, dass das Modell so tut, als sei es intelligent, indem es modernes Wissen stiehlt. Erstellen Sie ein System zur Überwachung des Trainingsdatensatzes mit einer Liste von Begriffen, die nach 1931 entstanden sind.

N-gram Scanning: Basierend auf den Daten des Oxford English Dictionary (OED) zur ersten Erwähnung legen Sie 5.000 moderne Konzepte wie Computer, DNA oder Internet als verbotene Wörter fest und scannen den gesamten Trainingstext auf Unigramm-Ebene.
Dokumentenweite Verwerfung: Wenn auch nur ein verbotenes Wort gefunden wird, löschen Sie nicht nur den betreffenden Satz, sondern das gesamte Dokument. Damit wird die Möglichkeit, dass sich moderne Anmerkungen oder Fälschungen eingeschlichen haben, an der Wurzel gepackt.
Prüfung auf Anachronismen: Setzen Sie Modelle wie Claude Sonnet als Validatoren ein, um zu quantifizieren, ob in den vom Modell generierten Antworten zeitlich unpassende Konzepte enthalten sind.

Messung echter Fähigkeiten durch den 1926 SAT-Benchmark

Dass die Daten alt sind, bedeutet nicht, dass es auch die Intelligenz ist. Im Gegenteil: Werke wie Bertrand Russells Principia Mathematica (1910) sind hervorragende Lehrmaterialien für deduktives Denken, die modernen Webdaten oft überlegen sind.

Nutzen Sie für die Evaluierung historische Prüfungsbögen, deren Lösungen nicht das moderne Internet überfluten. Verwenden Sie die Fragen zu künstlichen Sprachen und logischem Schließen aus dem ersten SAT von 1926 als Testdaten. Wenn Sie die Zero-Shot-Schlussfolgerungsfähigkeit mit Fragen aus dem Stanford-Binet-Intelligenztest (Revision von 1916) messen, wird deutlich, ob das Modell Antworten auswendig gelernt hat oder ob es vorgegebene Regeln spontan verstehen und anwenden kann. Ein Modell, das Fragen von vor 100 Jahren korrekt beantwortet, ist eine echte Intelligenz, frei vom Verdacht der Datenkontamination.

Aufbau einer KI-Cleanroom-Pipeline ausschließlich mit Literatur vor 1931

Sicherung historischer Textdepots ohne Urheberrechtsgebühren

Filterung nach Veröffentlichungsdatum: Wenn Sie die gutendex API von Python aufrufen, filtern Sie nicht nach dem Feld Issued in den Metadaten, sondern behalten Sie nur Materialien vor 1931 bei, basierend auf dem Sterbejahr des Autors und dem Datum der Erstveröffentlichung.

Integritätsprüfung: Der Abgleich der Gutenberg-IDs mit den Library of Congress Control Numbers (LCCN) verhindert Fehler durch vermischte Erscheinungsjahre.

Priorisierte Extraktion von Logik: Analysieren Sie das Feld LCC der Metadaten, um Texte zu Philosophie (B), Mathematik (QA) und klassischer Logik mit höchster Priorität herunterzuladen.

Hybride Rekonstruktion zur Steigerung der OCR-Erkennungsrate

Layout-Analyse: Nutzen Sie das LayoutParser Framework, um Titel- und Tabellenbereiche innerhalb des Dokuments zu unterscheiden. Insbesondere bei mehrspaltigen Zeitungsartikeln muss das Newspaper Navigator-Modell verwendet werden, um die Lesereihenfolge zu korrigieren.

Strukturelle Extraktion: Verwenden Sie LayoutLM, um visuelle Koordinateninformationen zu erfassen, die logische Abfolge der Textblöcke zu bestimmen und anschließend die OCR bereichsweise durchzuführen.

LLM-basierte Post-Korrektur: Nutzen Sie das REVISE Framework. Weisen Sie dem LLM die Rolle eines professionellen Korrektors für historische Literatur zu, um falsch erkannte Wörter zu korrigieren, während die zeitgenössische Orthografie beibehalten wird. Durch diesen Prozess steigt die Erkennungsrate, die zuvor bei etwa 30 % lag, auf ein trainingsfähiges Niveau, während sich die Bereinigungszeit halbiert.

Sperrlisten-Filter mit 5.000 Begriffen zur Blockade von modernem Wissensabfluss

N-gram Scanning: Basierend auf den Daten des Oxford English Dictionary (OED) zur ersten Erwähnung legen Sie 5.000 moderne Konzepte wie Computer, DNA oder Internet als verbotene Wörter fest und scannen den gesamten Trainingstext auf Unigramm-Ebene.

Dokumentenweite Verwerfung: Wenn auch nur ein verbotenes Wort gefunden wird, löschen Sie nicht nur den betreffenden Satz, sondern das gesamte Dokument. Damit wird die Möglichkeit, dass sich moderne Anmerkungen oder Fälschungen eingeschlichen haben, an der Wurzel gepackt.

Prüfung auf Anachronismen: Setzen Sie Modelle wie Claude Sonnet als Validatoren ein, um zu quantifizieren, ob in den vom Modell generierten Antworten zeitlich unpassende Konzepte enthalten sind.

Messung echter Fähigkeiten durch den 1926 SAT-Benchmark

Aufbau einer KI-Cleanroom-Pipeline ausschließlich mit Literatur vor 1931

Related Video

Diese KI steckt im Jahr 1930 fest (und es ist faszinierend)

Aufbau einer KI-Cleanroom-Pipeline ausschließlich mit Literatur vor 1931

Sicherung historischer Textdepots ohne Urheberrechtsgebühren

Hybride Rekonstruktion zur Steigerung der OCR-Erkennungsrate

Sperrlisten-Filter mit 5.000 Begriffen zur Blockade von modernem Wissensabfluss

Messung echter Fähigkeiten durch den 1926 SAT-Benchmark

Comments (0)

Aufbau einer KI-Cleanroom-Pipeline ausschließlich mit Literatur vor 1931

Sicherung historischer Textdepots ohne Urheberrechtsgebühren

Hybride Rekonstruktion zur Steigerung der OCR-Erkennungsrate

Sperrlisten-Filter mit 5.000 Begriffen zur Blockade von modernem Wissensabfluss

Messung echter Fähigkeiten durch den 1926 SAT-Benchmark