Transcript
00:00:00¿Y si pudieras hablar con alguien de la década de 1930? ¿Viajar en el tiempo? Bueno, yo lo he hecho y
00:00:05les pedí que predijeran cómo sería la vida en 2026.
00:00:08Creo que, en el año 2026, la vida será agradable y fácil. En primer lugar,
00:00:13el mundo estará habitado por todas partes. Porque para entonces, la gente habrá descubierto el
00:00:17arte de volar. En segundo lugar, todas las guerras habrán cesado, pues las naciones habrán aprendido
00:00:21a vivir en paz y amistad unas con otras. Habremos adquirido conocimientos en todo tipo
00:00:25de ciencias y seremos perfectamente expertos en el arte de la curación. Seremos vecinos honestos
00:00:29y buenos, y los ladrones serán desconocidos. En resumen, creo que el mundo será, en el año
00:00:342026, un lugar muy agradable para vivir.
00:00:36Creo que fueron predicciones muy bonitas, así que es una pena que solo unas pocas
00:00:40se hicieran realidad, y hablando de ser sinceros, puede que haya mentido un poco. Lo siento, pero
00:00:45no inventé los viajes en el tiempo. En realidad, se trataba de Torquay, que es un modelo de lenguaje
00:00:49de 13 mil millones de parámetros entrenado con textos anteriores a 1931, por lo que ni siquiera sabe
00:00:54que existe una Segunda Guerra Mundial, y da respuestas fascinantes, salvajes y ofensivas, e
00:00:59incluso se le puede enseñar a programar.
00:01:02Torquay es lo que se conoce como un modelo “vintage”, y Torquay parece ser el más grande
00:01:10en su clase. Uno de los investigadores de esto fue el autor principal de la investigación de
00:01:14GPT de OpenAI en 2018, que formó la base de ChatGPT. También ha trabajado en
00:01:19DALL-E y Whisper, así que es un currículum seriamente impresionante. Lo que han hecho es una red de
00:01:2413 mil millones de parámetros entrenada exclusivamente con 260 mil millones de tokens de textos históricos en inglés,
00:01:30periódicos antiguos, patentes, revistas científicas y libros. 1931 es el límite, por cierto,
00:01:36porque el límite de derechos de autor en EE. UU. es finales de 1930, así que no les demandará
00:01:40el “Gran Ratón” por hacer esto. Además de ser divertidos, estos modelos vintage
00:01:44también tienen un propósito de investigación. Hoy en día, todos los grandes modelos como ChatGPT, Claude y Gemini,
00:01:49están entrenados en la web moderna, lo que hace casi imposible saber si
00:01:53una IA está realmente pensando y razonando, o si solo ha memorizado una respuesta de un hilo
00:01:57aleatorio de Reddit, y ese hilo probablemente fue generado por IA. Si usamos un modelo que solo
00:02:02conoce textos anteriores a 1931, no tendrá nada de esa contaminación. Vamos a
00:02:07probar esto y preguntarle algo como: ¿qué es Internet? Aquí vemos que aparentemente
00:02:11ha confundido Internet con el impuesto de rentas internas aplicado a artículos de consumo,
00:02:16así que no tiene ni idea de lo que es la Internet moderna. Otra pregunta divertida es qué
00:02:20jerga era popular. Al parecer, en 1930 eran: bosh, rot, bosh de nuevo, stuff, nonsense, fudge,
00:02:25gammon, humbug, brack, fla y ribaldry. Espero no haber dicho nada grosero. Y
00:02:30la razón por la que no tener contaminación es útil es porque permite a los investigadores entender
00:02:33si la IA puede realmente aprender cosas nuevas, como aprender a programar. Este modelo ni siquiera sabe
00:02:38qué es un ordenador; para él, es un humano que realiza cálculos. Por eso es
00:02:43bastante impresionante que, tras recibir unos ejemplos de programas en Python, pudiera aprender
00:02:47a escribir otros nuevos, aunque fueran mayoritariamente programas sencillos de una línea. Usando algunas
00:02:52pruebas básicas de HumanEval en Python y proporcionándole funciones aleatorias en su contexto,
00:02:56logró pasar estas pruebas algunas veces tras darle 100 oportunidades. En este caso,
00:03:01Torquay entendió correctamente que para crear la función de descodificación, solo necesitaba cambiar una
00:03:05suma por una resta. Aunque sea sencillo, muestra una comprensión de las funciones inversas
00:03:09y eso es conocimiento nuevo. No había visto nada de esto antes. Si intentas lo mismo
00:03:13en un LLM moderno de tamaño similar, superará masivamente a Torquay, pero eso era
00:03:18bastante obvio. Otra cosa que los investigadores pueden probar con estos modelos vintage es la capacidad
00:03:22de predecir el futuro. Esto puede volverse un poco descabellado, pero preguntémosle: ¿habrá
00:03:26otra guerra? Dice que no cree que haya otra guerra en Europa y no
00:03:31tengo el valor de decirle lo equivocado que está. También tengo curiosidad por saber qué piensa de
00:03:35cierto hombre austriaco. Sí, esta es bastante terrible. Dice que va a ser una personalidad
00:03:39extraordinaria y también aquí abajo que Alemania será una administración mucho más eficiente
00:03:44cuando él la dirija. Sinceramente, sin palabras. Ahora, los investigadores hacen esto de una
00:03:50manera mucho más científica que como acabo de hacerlo yo. En realidad calcularon lo sorprendente
00:03:54que resultaban breves descripciones de eventos históricos tomadas de la sección “En este día” del New York Times.
00:03:59Durante esto, se puede ver un aumento en la sorpresa después del corte de conocimiento de 1931 y se dispara
00:04:04en los años cincuenta y sesenta. Han descubierto que esos eventos son bastante increíbles.
00:04:09Investigaciones como esta les permiten ver cómo mejora la previsión con el tamaño del modelo y también
00:04:13cómo decae con el tiempo. También se puede usar para probar si los modelos pueden idear
00:04:17ideas nuevas, porque puedes preguntarle sobre patentes o artículos creados después de 1931
00:04:22y ver si puede descubrirlos por sí mismo. En general, estos modelos vintage podrían permitir a los investigadores
00:04:26distinguir cuánto del comportamiento de un modelo proviene realmente del conjunto de datos con el que se entrenó.
00:04:30Y hablando de entrenamiento, crear un modelo puro de 1931 no es tarea fácil. Uno de los problemas
00:04:36más difíciles es la fuga temporal, es decir, no quieres incluir información posterior a 1931.
00:04:41Torquay, por ejemplo, parece tener algunos casos de esto, donde sabe quién era el presidente
00:04:45en 1936 y también algunas de las políticas que creó. Hay varias formas en que
00:04:50esto pudo suceder. Por ejemplo, al tratar con documentos modernos, los escaneos de
00:04:54documentos antiguos podrían haber tenido metadatos incorrectos, es decir, una fecha
00:04:58equivocada. También puede haber adiciones posteriores como introducciones editoriales y notas al pie.
00:05:03Ese filtrado de datos es algo en lo que todavía se está trabajando para intentar
00:05:07eliminar el problema. El otro problema que tuvieron es que los documentos de 1931 se ven así
00:05:11y, aunque el OCR es muy bueno hoy en día, solo lograron el 30% del rendimiento de
00:05:16un modelo entrenado con versiones transcritas por humanos del mismo texto. Así que eso va a ser
00:05:21mucho trabajo manual y, aunque usaron algunas expresiones regulares para corregir errores comunes,
00:05:25esto solo elevó su rendimiento al 70%. Por ello están trabajando en un nuevo sistema OCR vintage.
00:05:30Finalmente, es un reto enorme realizar el post-entrenamiento de un modelo vintage porque
00:05:35no hay datos de post-entrenamiento ya preparados para ellos y, si usan uno moderno, acabarán
00:05:39integrando conocimientos, estilos y expresiones de lo que debería ser un asistente de chat actual.
00:05:43Así que los investigadores tuvieron que crear el suyo propio a partir de antiguos manuales de etiqueta,
00:05:48manuales de redacción de cartas, libros de cocina, diccionarios, enciclopedias e incluso poesía y fábulas. Una vez
00:05:53hecho esto, también hay que entrenar al modelo para que siga instrucciones y
00:05:56pueda conversar realmente. Así que hay que usar aprendizaje por refuerzo. Pero el problema
00:06:00es que el modelo empieza a ajustar su respuesta a lo que el juez quiere, y no
00:06:04tenemos un juez de la década de 1930. Así que usaron Claude Sonnet 4.6. El problema es que
00:06:10a un modelo moderno le gustan sus respuestas en el formato de un chatbot de 2026. Al parecer,
00:06:15algunos estilos empezaron a filtrarse en el modelo de 1931, como las listas. Esto es casi
00:06:21inevitable, pero esperan que en el futuro puedan usar modelos vintage como jueces para solucionar esto. Ya
00:06:25están entrenando un modelo vintage del nivel de GPT-3 y dicen que lograr un billón de tokens
00:06:29de texto histórico es factible, lo que les daría la capacidad original de ChatGPT
00:06:35solo con conocimientos de la década de 1930. Así que id a probar Torquay y decidme en los comentarios
00:06:39si obtenéis alguna respuesta rara o descabellada mientras os suscribís y, como siempre,
00:06:43nos vemos en el próximo.
00:06:45[Música]