Aufbau einer KI-Cleanroom-Pipeline ausschließlich mit Literatur vor 1931
2026년 5월 8일
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
Moderne LLMs beißen sich bereits in den eigenen Schwanz. Antworten von Modellen, die Unmengen an im Internet verbreiteten Evaluierungsdaten verschlungen haben, sind höchstwahrscheinlich eher ein Produkt der Merkfähigkeit als der Intelligenz. Wenn man echte Schlussfolgerungsfähigkeiten sehen möchte, muss man Daten aus einer Zeit heranziehen, in der modernes Wissen schlichtweg noch nicht existierte. Hier ist ein konkreter Prozess für die Erstellung einer kontaminationsfreien Trainingsumgebung unter Verwendung von Public-Domain-Daten von vor 1931.
Bevor Sie Ihr Budget in die Datenerfassung stecken, sollten Sie zuerst die Repositorien mit abgelaufenem Urheberrecht plündern. Project Gutenberg beherbergt über 75.000 Werke, und die Sonny Bono Memorial Collection des Internet Archive bietet akademische Daten aus den Jahren 1923 bis 1941 kostenlos an.
gutendex API von Python aufrufen, filtern Sie nicht nach dem Feld Issued in den Metadaten, sondern behalten Sie nur Materialien vor 1931 bei, basierend auf dem Sterbejahr des Autors und dem Datum der Erstveröffentlichung.LCC der Metadaten, um Texte zu Philosophie (B), Mathematik (QA) und klassischer Logik mit höchster Priorität herunterzuladen.Papier von vor 100 Jahren ist alt und Zeitungs-Layouts sind komplex. Eine Standard-OCR führt oft zu zahlreichen Tippfehlern. Es ist ein Prozess erforderlich, der über das bloße Sammeln von Text hinausgeht und zuerst das Layout analysiert.
LayoutParser Framework, um Titel- und Tabellenbereiche innerhalb des Dokuments zu unterscheiden. Insbesondere bei mehrspaltigen Zeitungsartikeln muss das Newspaper Navigator-Modell verwendet werden, um die Lesereihenfolge zu korrigieren.LayoutLM, um visuelle Koordinateninformationen zu erfassen, die logische Abfolge der Textblöcke zu bestimmen und anschließend die OCR bereichsweise durchzuführen.REVISE Framework. Weisen Sie dem LLM die Rolle eines professionellen Korrektors für historische Literatur zu, um falsch erkannte Wörter zu korrigieren, während die zeitgenössische Orthografie beibehalten wird. Durch diesen Prozess steigt die Erkennungsrate, die zuvor bei etwa 30 % lag, auf ein trainingsfähiges Niveau, während sich die Bereinigungszeit halbiert.Es muss verhindert werden, dass das Modell so tut, als sei es intelligent, indem es modernes Wissen stiehlt. Erstellen Sie ein System zur Überwachung des Trainingsdatensatzes mit einer Liste von Begriffen, die nach 1931 entstanden sind.
Dass die Daten alt sind, bedeutet nicht, dass es auch die Intelligenz ist. Im Gegenteil: Werke wie Bertrand Russells Principia Mathematica (1910) sind hervorragende Lehrmaterialien für deduktives Denken, die modernen Webdaten oft überlegen sind.
Nutzen Sie für die Evaluierung historische Prüfungsbögen, deren Lösungen nicht das moderne Internet überfluten. Verwenden Sie die Fragen zu künstlichen Sprachen und logischem Schließen aus dem ersten SAT von 1926 als Testdaten. Wenn Sie die Zero-Shot-Schlussfolgerungsfähigkeit mit Fragen aus dem Stanford-Binet-Intelligenztest (Revision von 1916) messen, wird deutlich, ob das Modell Antworten auswendig gelernt hat oder ob es vorgegebene Regeln spontan verstehen und anwenden kann. Ein Modell, das Fragen von vor 100 Jahren korrekt beantwortet, ist eine echte Intelligenz, frei vom Verdacht der Datenkontamination.