Pipeline Clean Room d'IA : Construire avec des documents antérieurs à 1931 uniquement
8 Mei 2026
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
Les LLM modernes se mordent déjà la queue. Les réponses fournies par des modèles ayant ingéré l'intégralité des données d'évaluation éparpillées sur Internet sont probablement le produit d'une capacité de mémorisation plutôt que d'une réelle intelligence. Pour observer une véritable capacité de raisonnement, il faut extraire des données d'une époque où les connaissances modernes n'existaient pas encore. Voici les étapes concrètes pour créer un environnement d'apprentissage sans contamination en utilisant des données du domaine public antérieures à 1931.
Avant de consacrer un budget à la collecte de données, il faut exploiter les dépôts dont les droits d'auteur ont expiré. Le Projet Gutenberg abrite plus de 75 000 ouvrages, et la Sonny Bono Memorial Collection d'Internet Archive propose gratuitement des données académiques publiées entre 1923 et 1941.
gutendex de Python, ne vous fiez pas au champ Issued des métadonnées, mais conservez uniquement les documents dont l'année de décès de l'auteur et la date de première édition sont antérieures à 1931.LCC des métadonnées pour télécharger en priorité les textes relatifs à la philosophie (B), aux mathématiques (QA) et à la logique classique.Le papier d'il y a 100 ans est usé et les mises en page des journaux sont complexes. Un OCR classique génère d'innombrables fautes de frappe. Au-delà de la simple récupération de texte, un processus d'extraction de la mise en page est nécessaire.
LayoutParser pour distinguer les titres et les zones de tableaux dans les documents. Pour les colonnes multiples des journaux, utilisez le modèle Newspaper Navigator pour corriger l'ordre de lecture.LayoutLM pour déterminer l'ordre logique des blocs de texte avant de lancer l'OCR par zone.REVISE. Attribuez au LLM le rôle d'un correcteur expert en littérature historique pour corriger les mots mal reconnus tout en respectant l'orthographe de l'époque. Ce processus permet de faire passer le taux de reconnaissance d'environ 30 % à un niveau exploitable pour l'apprentissage, tout en divisant par deux le temps de raffinage.Il faut empêcher le modèle de simuler l'intelligence en utilisant des connaissances modernes. Mettez en place un système de surveillance du jeu de données d'apprentissage en listant les termes nés après 1931.
Ce n'est pas parce que les données sont anciennes que l'intelligence l'est aussi. Au contraire, des ouvrages comme les Principia Mathematica (1910) de Bertrand Russell sont de meilleurs supports pédagogiques pour enseigner la pensée déductive que les données du Web moderne.
Pour l'évaluation, utilisez des sujets d'examens passés dont les corrigés ne saturent pas l'Internet moderne. Utilisez les questions de langue artificielle et de raisonnement logique du premier SAT administré en 1926. En mesurant la capacité de raisonnement zero-shot avec les questions du test de quotient intellectuel Stanford-Binet révisé en 1916, vous verrez clairement si le modèle a mémorisé la réponse ou s'il comprend et applique instantanément les règles données. Un modèle capable de répondre correctement à des questions d'il y a 100 ans est une véritable intelligence, exempte de tout soupçon de contamination de données.