Pipeline de Clean Room de IA construido exclusivamente con literatura anterior a 1931

Los LLM modernos ya se están muerden la cola. Es muy probable que las respuestas de un modelo que ha engullido datos de evaluación esparcidos por todo Internet sean producto de la memorización y no de la inteligencia. Si queremos observar la verdadera capacidad de razonamiento, debemos extraer datos de una época en la que el conocimiento moderno ni siquiera existía. He aquí los procesos específicos para crear un entorno de aprendizaje libre de contaminación utilizando datos de dominio público anteriores a 1931.

Obtención de repositorios de textos históricos sin derechos de autor

Antes de gastar presupuesto en la recopilación de datos, hay que saquear los repositorios con derechos de autor expirados. Project Gutenberg alberga más de 75,000 volúmenes, y la Sonny Bono Memorial Collection de Internet Archive ofrece datos académicos entre 1923 y 1941 de forma gratuita.

Filtrado por fecha de publicación: Al llamar a la API gutendex de Python, conserve solo los materiales anteriores a 1931 basándose en el año de fallecimiento del autor y la fecha de la primera edición, no en el campo Issued de los metadatos.
Verificación de integridad: Contrastar los ID de Gutenberg con el Número de Control de la Biblioteca del Congreso (LCCN) puede evitar accidentes donde los años de publicación se mezclen.
Extracción prioritaria de lógica: Analice el campo LCC de los metadatos para descargar con prioridad textos relacionados con filosofía (B), matemáticas (QA) y lógica clásica.

Restauración híbrida para maximizar la tasa de reconocimiento OCR

El papel de hace 100 años está deteriorado y los diseños de los periódicos son complejos. Ejecutar un OCR convencional provocará innumerables errores tipográficos. Es necesario un proceso que desmonte primero el diseño en lugar de simplemente raspar el texto.

Análisis de diseño (Layout): Ejecute el framework LayoutParser para distinguir áreas de títulos y tablas dentro del documento. Especialmente para las columnas de los periódicos, se debe usar el modelo Newspaper Navigator para corregir el orden de lectura.
Extracción estructural: Utilice LayoutLM para identificar la información de coordenadas visuales y determinar el orden lógico de los bloques de texto antes de ejecutar el OCR por regiones.
Post-corrección basada en LLM: Utilice el framework REVISE. Asigne al LLM el rol de un corrector de textos históricos profesionales para corregir palabras mal reconocidas manteniendo la ortografía de la época. Mediante este proceso, la tasa de reconocimiento, que solía estancarse en el 30%, sube a niveles aptos para el aprendizaje, reduciendo el tiempo de refinamiento a la mitad.

Bloqueo de filtración de conocimiento moderno con filtro de 5,000 palabras prohibidas

Debemos evitar que el modelo finja ser inteligente robando conocimiento moderno. Se construye un sistema para monitorear el conjunto de datos de entrenamiento creando una lista de términos nacidos después de 1931.

Escaneo N-gram: Basándose en los datos de la primera cita del Oxford English Dictionary (OED), establezca 5,000 conceptos modernos como "computadora", "ADN" o "Internet" como palabras prohibidas y escanee todo el texto de aprendizaje en unidades de unigrama.
Descarte por unidad de documento: Si se detecta una sola palabra prohibida, no se borra solo esa frase, sino el documento completo. Esto erradica de raíz la posibilidad de que se mezclen anotaciones modernas o falsificaciones.
Verificación de anacronismos: Utilice modelos como Claude Sonnet como verificadores para cuantificar si existen conceptos anacrónicos mezclados en las respuestas generadas por el modelo.

Medición de la capacidad real mediante el benchmark SAT de 1926

Que los datos sean antiguos no significa que la inteligencia lo sea. Por el contrario, obras como Principia Mathematica (1910) de Bertrand Russell son mejores materiales educativos para enseñar el pensamiento deductivo que los datos de la web moderna.

Para la evaluación, utilice exámenes del pasado cuyas respuestas no inunden el Internet moderno. Emplee las preguntas de lenguaje artificial y razonamiento lógico del primer SAT realizado en 1926. Al medir la capacidad de razonamiento zero-shot con las preguntas del test de inteligencia Stanford-Binet revisado en 1916, quedará claro si el modelo memorizó la respuesta o si entendió y aplicó las reglas dadas al instante. Un modelo que responde correctamente a preguntas de hace 100 años es la verdadera inteligencia, libre de sospechas de contaminación de datos.

Pipeline de Clean Room de IA construido exclusivamente con literatura anterior a 1931

Obtención de repositorios de textos históricos sin derechos de autor

Filtrado por fecha de publicación: Al llamar a la API gutendex de Python, conserve solo los materiales anteriores a 1931 basándose en el año de fallecimiento del autor y la fecha de la primera edición, no en el campo Issued de los metadatos.

Verificación de integridad: Contrastar los ID de Gutenberg con el Número de Control de la Biblioteca del Congreso (LCCN) puede evitar accidentes donde los años de publicación se mezclen.

Extracción prioritaria de lógica: Analice el campo LCC de los metadatos para descargar con prioridad textos relacionados con filosofía (B), matemáticas (QA) y lógica clásica.

Restauración híbrida para maximizar la tasa de reconocimiento OCR

Análisis de diseño (Layout): Ejecute el framework LayoutParser para distinguir áreas de títulos y tablas dentro del documento. Especialmente para las columnas de los periódicos, se debe usar el modelo Newspaper Navigator para corregir el orden de lectura.

Extracción estructural: Utilice LayoutLM para identificar la información de coordenadas visuales y determinar el orden lógico de los bloques de texto antes de ejecutar el OCR por regiones.

Post-corrección basada en LLM: Utilice el framework REVISE. Asigne al LLM el rol de un corrector de textos históricos profesionales para corregir palabras mal reconocidas manteniendo la ortografía de la época. Mediante este proceso, la tasa de reconocimiento, que solía estancarse en el 30%, sube a niveles aptos para el aprendizaje, reduciendo el tiempo de refinamiento a la mitad.

Bloqueo de filtración de conocimiento moderno con filtro de 5,000 palabras prohibidas

Escaneo N-gram: Basándose en los datos de la primera cita del Oxford English Dictionary (OED), establezca 5,000 conceptos modernos como "computadora", "ADN" o "Internet" como palabras prohibidas y escanee todo el texto de aprendizaje en unidades de unigrama.

Descarte por unidad de documento: Si se detecta una sola palabra prohibida, no se borra solo esa frase, sino el documento completo. Esto erradica de raíz la posibilidad de que se mezclen anotaciones modernas o falsificaciones.

Verificación de anacronismos: Utilice modelos como Claude Sonnet como verificadores para cuantificar si existen conceptos anacrónicos mezclados en las respuestas generadas por el modelo.

Medición de la capacidad real mediante el benchmark SAT de 1926

Pipeline de Clean Room de IA construido exclusivamente con literatura anterior a 1931

Related Video

Esta IA vive en 1930 (y es fascinante)

Pipeline de Clean Room de IA construido exclusivamente con literatura anterior a 1931

Obtención de repositorios de textos históricos sin derechos de autor

Restauración híbrida para maximizar la tasa de reconocimiento OCR

Bloqueo de filtración de conocimiento moderno con filtro de 5,000 palabras prohibidas

Medición de la capacidad real mediante el benchmark SAT de 1926

Comments (0)

Pipeline de Clean Room de IA construido exclusivamente con literatura anterior a 1931

Obtención de repositorios de textos históricos sin derechos de autor

Restauración híbrida para maximizar la tasa de reconocimiento OCR

Bloqueo de filtración de conocimiento moderno con filtro de 5,000 palabras prohibidas

Medición de la capacidad real mediante el benchmark SAT de 1926