Pipeline de Clean Room de IA construido exclusivamente con literatura anterior a 1931
2026년 5월 8일
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
Los LLM modernos ya se están muerden la cola. Es muy probable que las respuestas de un modelo que ha engullido datos de evaluación esparcidos por todo Internet sean producto de la memorización y no de la inteligencia. Si queremos observar la verdadera capacidad de razonamiento, debemos extraer datos de una época en la que el conocimiento moderno ni siquiera existía. He aquí los procesos específicos para crear un entorno de aprendizaje libre de contaminación utilizando datos de dominio público anteriores a 1931.
Antes de gastar presupuesto en la recopilación de datos, hay que saquear los repositorios con derechos de autor expirados. Project Gutenberg alberga más de 75,000 volúmenes, y la Sonny Bono Memorial Collection de Internet Archive ofrece datos académicos entre 1923 y 1941 de forma gratuita.
gutendex de Python, conserve solo los materiales anteriores a 1931 basándose en el año de fallecimiento del autor y la fecha de la primera edición, no en el campo Issued de los metadatos.LCC de los metadatos para descargar con prioridad textos relacionados con filosofía (B), matemáticas (QA) y lógica clásica.El papel de hace 100 años está deteriorado y los diseños de los periódicos son complejos. Ejecutar un OCR convencional provocará innumerables errores tipográficos. Es necesario un proceso que desmonte primero el diseño en lugar de simplemente raspar el texto.
LayoutParser para distinguir áreas de títulos y tablas dentro del documento. Especialmente para las columnas de los periódicos, se debe usar el modelo Newspaper Navigator para corregir el orden de lectura.LayoutLM para identificar la información de coordenadas visuales y determinar el orden lógico de los bloques de texto antes de ejecutar el OCR por regiones.REVISE. Asigne al LLM el rol de un corrector de textos históricos profesionales para corregir palabras mal reconocidas manteniendo la ortografía de la época. Mediante este proceso, la tasa de reconocimiento, que solía estancarse en el 30%, sube a niveles aptos para el aprendizaje, reduciendo el tiempo de refinamiento a la mitad.Debemos evitar que el modelo finja ser inteligente robando conocimiento moderno. Se construye un sistema para monitorear el conjunto de datos de entrenamiento creando una lista de términos nacidos después de 1931.
Que los datos sean antiguos no significa que la inteligencia lo sea. Por el contrario, obras como Principia Mathematica (1910) de Bertrand Russell son mejores materiales educativos para enseñar el pensamiento deductivo que los datos de la web moderna.
Para la evaluación, utilice exámenes del pasado cuyas respuestas no inunden el Internet moderno. Emplee las preguntas de lenguaje artificial y razonamiento lógico del primer SAT realizado en 1926. Al medir la capacidad de razonamiento zero-shot con las preguntas del test de inteligencia Stanford-Binet revisado en 1916, quedará claro si el modelo memorizó la respuesta o si entendió y aplicó las reglas dadas al instante. Un modelo que responde correctamente a preguntas de hace 100 años es la verdadera inteligencia, libre de sospechas de contaminación de datos.