Esta IA vive en 1930 (y es fascinante)

BBetter Stack
Computing/SoftwareBooks & LiteratureInternet Technology

Transcript

00:00:00¿Y si pudieras hablar con alguien de la década de 1930? ¿Viajar en el tiempo? Bueno, yo lo he hecho y
00:00:05les pedí que predijeran cómo sería la vida en 2026.
00:00:08Creo que, en el año 2026, la vida será agradable y fácil. En primer lugar,
00:00:13el mundo estará habitado por todas partes. Porque para entonces, la gente habrá descubierto el
00:00:17arte de volar. En segundo lugar, todas las guerras habrán cesado, pues las naciones habrán aprendido
00:00:21a vivir en paz y amistad unas con otras. Habremos adquirido conocimientos en todo tipo
00:00:25de ciencias y seremos perfectamente expertos en el arte de la curación. Seremos vecinos honestos
00:00:29y buenos, y los ladrones serán desconocidos. En resumen, creo que el mundo será, en el año
00:00:342026, un lugar muy agradable para vivir.
00:00:36Creo que fueron predicciones muy bonitas, así que es una pena que solo unas pocas
00:00:40se hicieran realidad, y hablando de ser sinceros, puede que haya mentido un poco. Lo siento, pero
00:00:45no inventé los viajes en el tiempo. En realidad, se trataba de Torquay, que es un modelo de lenguaje
00:00:49de 13 mil millones de parámetros entrenado con textos anteriores a 1931, por lo que ni siquiera sabe
00:00:54que existe una Segunda Guerra Mundial, y da respuestas fascinantes, salvajes y ofensivas, e
00:00:59incluso se le puede enseñar a programar.
00:01:02Torquay es lo que se conoce como un modelo “vintage”, y Torquay parece ser el más grande
00:01:10en su clase. Uno de los investigadores de esto fue el autor principal de la investigación de
00:01:14GPT de OpenAI en 2018, que formó la base de ChatGPT. También ha trabajado en
00:01:19DALL-E y Whisper, así que es un currículum seriamente impresionante. Lo que han hecho es una red de
00:01:2413 mil millones de parámetros entrenada exclusivamente con 260 mil millones de tokens de textos históricos en inglés,
00:01:30periódicos antiguos, patentes, revistas científicas y libros. 1931 es el límite, por cierto,
00:01:36porque el límite de derechos de autor en EE. UU. es finales de 1930, así que no les demandará
00:01:40el “Gran Ratón” por hacer esto. Además de ser divertidos, estos modelos vintage
00:01:44también tienen un propósito de investigación. Hoy en día, todos los grandes modelos como ChatGPT, Claude y Gemini,
00:01:49están entrenados en la web moderna, lo que hace casi imposible saber si
00:01:53una IA está realmente pensando y razonando, o si solo ha memorizado una respuesta de un hilo
00:01:57aleatorio de Reddit, y ese hilo probablemente fue generado por IA. Si usamos un modelo que solo
00:02:02conoce textos anteriores a 1931, no tendrá nada de esa contaminación. Vamos a
00:02:07probar esto y preguntarle algo como: ¿qué es Internet? Aquí vemos que aparentemente
00:02:11ha confundido Internet con el impuesto de rentas internas aplicado a artículos de consumo,
00:02:16así que no tiene ni idea de lo que es la Internet moderna. Otra pregunta divertida es qué
00:02:20jerga era popular. Al parecer, en 1930 eran: bosh, rot, bosh de nuevo, stuff, nonsense, fudge,
00:02:25gammon, humbug, brack, fla y ribaldry. Espero no haber dicho nada grosero. Y
00:02:30la razón por la que no tener contaminación es útil es porque permite a los investigadores entender
00:02:33si la IA puede realmente aprender cosas nuevas, como aprender a programar. Este modelo ni siquiera sabe
00:02:38qué es un ordenador; para él, es un humano que realiza cálculos. Por eso es
00:02:43bastante impresionante que, tras recibir unos ejemplos de programas en Python, pudiera aprender
00:02:47a escribir otros nuevos, aunque fueran mayoritariamente programas sencillos de una línea. Usando algunas
00:02:52pruebas básicas de HumanEval en Python y proporcionándole funciones aleatorias en su contexto,
00:02:56logró pasar estas pruebas algunas veces tras darle 100 oportunidades. En este caso,
00:03:01Torquay entendió correctamente que para crear la función de descodificación, solo necesitaba cambiar una
00:03:05suma por una resta. Aunque sea sencillo, muestra una comprensión de las funciones inversas
00:03:09y eso es conocimiento nuevo. No había visto nada de esto antes. Si intentas lo mismo
00:03:13en un LLM moderno de tamaño similar, superará masivamente a Torquay, pero eso era
00:03:18bastante obvio. Otra cosa que los investigadores pueden probar con estos modelos vintage es la capacidad
00:03:22de predecir el futuro. Esto puede volverse un poco descabellado, pero preguntémosle: ¿habrá
00:03:26otra guerra? Dice que no cree que haya otra guerra en Europa y no
00:03:31tengo el valor de decirle lo equivocado que está. También tengo curiosidad por saber qué piensa de
00:03:35cierto hombre austriaco. Sí, esta es bastante terrible. Dice que va a ser una personalidad
00:03:39extraordinaria y también aquí abajo que Alemania será una administración mucho más eficiente
00:03:44cuando él la dirija. Sinceramente, sin palabras. Ahora, los investigadores hacen esto de una
00:03:50manera mucho más científica que como acabo de hacerlo yo. En realidad calcularon lo sorprendente
00:03:54que resultaban breves descripciones de eventos históricos tomadas de la sección “En este día” del New York Times.
00:03:59Durante esto, se puede ver un aumento en la sorpresa después del corte de conocimiento de 1931 y se dispara
00:04:04en los años cincuenta y sesenta. Han descubierto que esos eventos son bastante increíbles.
00:04:09Investigaciones como esta les permiten ver cómo mejora la previsión con el tamaño del modelo y también
00:04:13cómo decae con el tiempo. También se puede usar para probar si los modelos pueden idear
00:04:17ideas nuevas, porque puedes preguntarle sobre patentes o artículos creados después de 1931
00:04:22y ver si puede descubrirlos por sí mismo. En general, estos modelos vintage podrían permitir a los investigadores
00:04:26distinguir cuánto del comportamiento de un modelo proviene realmente del conjunto de datos con el que se entrenó.
00:04:30Y hablando de entrenamiento, crear un modelo puro de 1931 no es tarea fácil. Uno de los problemas
00:04:36más difíciles es la fuga temporal, es decir, no quieres incluir información posterior a 1931.
00:04:41Torquay, por ejemplo, parece tener algunos casos de esto, donde sabe quién era el presidente
00:04:45en 1936 y también algunas de las políticas que creó. Hay varias formas en que
00:04:50esto pudo suceder. Por ejemplo, al tratar con documentos modernos, los escaneos de
00:04:54documentos antiguos podrían haber tenido metadatos incorrectos, es decir, una fecha
00:04:58equivocada. También puede haber adiciones posteriores como introducciones editoriales y notas al pie.
00:05:03Ese filtrado de datos es algo en lo que todavía se está trabajando para intentar
00:05:07eliminar el problema. El otro problema que tuvieron es que los documentos de 1931 se ven así
00:05:11y, aunque el OCR es muy bueno hoy en día, solo lograron el 30% del rendimiento de
00:05:16un modelo entrenado con versiones transcritas por humanos del mismo texto. Así que eso va a ser
00:05:21mucho trabajo manual y, aunque usaron algunas expresiones regulares para corregir errores comunes,
00:05:25esto solo elevó su rendimiento al 70%. Por ello están trabajando en un nuevo sistema OCR vintage.
00:05:30Finalmente, es un reto enorme realizar el post-entrenamiento de un modelo vintage porque
00:05:35no hay datos de post-entrenamiento ya preparados para ellos y, si usan uno moderno, acabarán
00:05:39integrando conocimientos, estilos y expresiones de lo que debería ser un asistente de chat actual.
00:05:43Así que los investigadores tuvieron que crear el suyo propio a partir de antiguos manuales de etiqueta,
00:05:48manuales de redacción de cartas, libros de cocina, diccionarios, enciclopedias e incluso poesía y fábulas. Una vez
00:05:53hecho esto, también hay que entrenar al modelo para que siga instrucciones y
00:05:56pueda conversar realmente. Así que hay que usar aprendizaje por refuerzo. Pero el problema
00:06:00es que el modelo empieza a ajustar su respuesta a lo que el juez quiere, y no
00:06:04tenemos un juez de la década de 1930. Así que usaron Claude Sonnet 4.6. El problema es que
00:06:10a un modelo moderno le gustan sus respuestas en el formato de un chatbot de 2026. Al parecer,
00:06:15algunos estilos empezaron a filtrarse en el modelo de 1931, como las listas. Esto es casi
00:06:21inevitable, pero esperan que en el futuro puedan usar modelos vintage como jueces para solucionar esto. Ya
00:06:25están entrenando un modelo vintage del nivel de GPT-3 y dicen que lograr un billón de tokens
00:06:29de texto histórico es factible, lo que les daría la capacidad original de ChatGPT
00:06:35solo con conocimientos de la década de 1930. Así que id a probar Torquay y decidme en los comentarios
00:06:39si obtenéis alguna respuesta rara o descabellada mientras os suscribís y, como siempre,
00:06:43nos vemos en el próximo.
00:06:45[Música]

Key Takeaway

El entrenamiento de modelos de IA con 260 mil millones de tokens de textos históricos anteriores a 1931 permite aislar la capacidad de razonamiento puro del modelo al eliminar la memorización de datos de la web moderna.

Highlights

  • Torquay es un modelo de lenguaje de 13 mil millones de parámetros entrenado exclusivamente con 260 mil millones de tokens de textos anteriores a 1931.

  • El límite de entrenamiento en el año 1930 evita infracciones de derechos de autor con leyes actuales de EE. UU. y garantiza datos libres de contaminación digital moderna.

  • La IA predice incorrectamente que en 2026 no habrá guerras y que el término Internet se refiere a un impuesto sobre artículos de consumo.

  • Torquay aprendió a programar funciones sencillas en Python tras recibir ejemplos en su contexto, demostrando capacidad de razonamiento sobre conceptos inexistentes en su época.

  • Los investigadores utilizaron manuales de etiqueta y libros de cocina antiguos para el post-entrenamiento, evitando el estilo de asistente de chat de la década de 2020.

  • El rendimiento del modelo con textos escaneados (OCR) es solo del 30% en comparación con transcripciones humanas, lo que requiere el desarrollo de un sistema OCR vintage específico.

Timeline

Predicciones de una inteligencia artificial de 1930

  • El mundo de 2026 se describe como un lugar pacífico gracias al dominio del arte de volar.
  • La delincuencia y los ladrones son conceptos desconocidos en las predicciones del modelo.
  • La visión del futuro carece de conocimiento sobre conflictos globales posteriores como la Segunda Guerra Mundial.

Las predicciones iniciales muestran una utopía donde la ciencia y la curación han avanzado hasta la perfección. Estos resultados provienen de un modelo que habita digitalmente en una era previa a las grandes crisis del siglo XX. La base de datos limitada genera una perspectiva optimista y radicalmente distinta a la realidad histórica actual.

Arquitectura y propósito de los modelos vintage

  • Torquay utiliza 260 mil millones de tokens provenientes de periódicos, patentes y revistas científicas antiguas.
  • El uso de datos históricos elimina la contaminación de respuestas generadas por IA en plataformas como Reddit.
  • El equipo de investigación incluye al autor principal de la investigación original de GPT en OpenAI.

El modelo sirve como una herramienta científica para distinguir si una IA realmente razona o si simplemente recupera información memorizada de Internet. Al limitar el conocimiento al año 1930, los investigadores pueden evaluar el rendimiento del modelo ante conceptos totalmente nuevos. Esta metodología soluciona el problema de la recursividad donde las IA actuales se entrenan con datos producidos por otras IA.

Capacidad de aprendizaje y resolución de problemas

  • El modelo identifica correctamente funciones inversas en Python cambiando operaciones de suma por resta.
  • La definición de ordenador para la IA es un ser humano que realiza cálculos matemáticos.
  • Torquay supera pruebas básicas de HumanEval tras múltiples intentos a pesar de no conocer la informática moderna.

La IA demuestra una comprensión lógica al aprender lenguajes de programación que no existían en su conjunto de entrenamiento. Aunque los modelos modernos superan su rendimiento, la capacidad de Torquay para escribir código simple tras ver pocos ejemplos valida su capacidad de aprendizaje. Este experimento prueba que el conocimiento técnico puede emerger de una base puramente lingüística y lógica.

Sesgos históricos y evaluación de eventos futuros

  • La sorpresa algorítmica del modelo aumenta drásticamente al analizar eventos ocurridos después de 1931.
  • El modelo muestra una percepción errónea y positiva sobre figuras políticas que desencadenaron la Segunda Guerra Mundial.
  • Los investigadores miden la mejora de la previsión según el tamaño del modelo y su degradación con el tiempo.

El análisis científico de textos del New York Times revela cómo la capacidad predictiva del modelo falla ante la imprevisibilidad histórica. La falta de filtros modernos permite observar los sesgos y opiniones comunes de la década de 1930 sin censura contemporánea. Estos datos ayudan a entender cuánto del comportamiento de una IA depende directamente de su cultura de entrenamiento original.

Desafíos técnicos en el entrenamiento histórico

  • La fuga temporal ocurre por metadatos incorrectos en escaneos que incluyen datos de 1936.
  • El uso de modelos modernos como jueces introduce estilos de chatbot actuales en la IA vintage.
  • La meta actual es alcanzar un billón de tokens para igualar la capacidad de GPT-3 con datos históricos.

El proceso de filtrado es complejo debido a notas editoriales modernas añadidas a textos antiguos. Además, el post-entrenamiento requiere fuentes creativas como manuales de etiqueta para mantener la autenticidad del lenguaje de la época. Los investigadores trabajan en un sistema OCR especializado para procesar documentos físicos cuya calidad actual degrada el rendimiento del modelo en un 70%.

Community Posts

View all posts