Transcript
00:00:00Hace un par de horas hubo un anuncio bastante importante. O un revuelo bastante grande. Aún
00:00:06no lo sabemos y, desde luego, no descartaría que sea solo revuelo. Revuelo sin sentido. Pero si
00:00:13es verdad, sí que es un gran anuncio. Porque Alexander Wedin, a quien yo no conocía y probablemente
00:00:20ustedes tampoco, anunció "sub-q", que significa subcuadrático, un gran avance en la
00:00:28inteligencia de los LLM. Y lo que anunció aquí es un nuevo tipo de modelo de lenguaje grande que destaca
00:00:36en tareas de contexto largo sin perder —o al menos eso es lo que afirma— sin perder la "inteligencia"
00:00:45—entre comillas, los modelos generan tokens pero eso es lo que al final les da su inteligencia—, o sea,
00:00:52sin perder la inteligencia a la que estamos acostumbrados en los modelos frontera actuales como Opus 4.7,
00:00:59GPT 5.5, etc. Ahora, lo que menciona en la publicación del anuncio en X —y también
00:01:04hay una publicación en el blog del anuncio con más detalles técnicos que analizaremos
00:01:08porque profundizaremos en este episodio y video—, lo que anuncia aquí es un modelo que es
00:01:16mucho más rápido al hacer inferencia en tareas con contextos de un millón de tokens y cuesta mucho menos. El cinco
00:01:26por ciento de lo que cuesta Opus. También promete que su modelo inicial tendrá una ventana
00:01:35de contexto de 12 millones de tokens, lo que, para poner esa cifra en perspectiva, significa que se pueden meter
00:01:42bases de código enteras, bases de código enormes, en esa ventana de contexto. Se pueden meter
00:01:49múltiples documentos legales extensos y, por eso, por supuesto, si estos modelos existen y funcionan, podrían
00:01:57ser superútiles y cambiar por completo las reglas del juego. No hay otra forma de decirlo. Si funcionan —no
00:02:02tenemos muchos detalles todavía, ya volveré a eso—, pero si funcionan, eso significa que todas las
00:02:08soluciones provisionales que usamos ahora, como subagentes, RAG, etc., que son solo parches
00:02:15para el problema de que el modelo solo ve una pequeña parte de lo que debería ver. Si estás trabajando en una base de código,
00:02:22los modelos frontera existentes, según el tamaño de tu base de código, no pueden verla entera.
00:02:28No pueden cargar toda la base de código. Así que, si le pides que cambie algo, tienes que esperar
00:02:33que el modelo encuentre las partes correctas en tu base de código para realizar el cambio que pides.
00:02:40Y eso, por supuesto, se convierte en un problema cada vez mayor cuanto más grande es la base de código o
00:02:45mayor es la cantidad de documentos con los que quieres que trabaje el modelo. Por tanto, si tienes un modelo que puede
00:02:52usar de forma fiable una ventana de contexto de 12 millones de tokens con buena calidad, eso sin duda cambiaría las reglas del juego.
00:02:59Hablando de cambiar las reglas del juego, profundizaré en este video y en todos mis cursos. Así que
00:03:06si te interesa aprender a usar de forma práctica herramientas como Claude Code, Codex, otras tareas de IA,
00:03:13o programación, o la combinación de todo eso, entonces valdría la pena que mires mis cursos. Son prácticos,
00:03:19son interactivos, son detallados, y puedes adquirir los cursos individuales o la suscripción,
00:03:24que te da acceso a todos los cursos por un único precio mensual o anual. Enlaces abajo.
00:03:31Profundicemos un poco más ahora. Como mencioné, hay una publicación de anuncio en el blog con
00:03:36algunos detalles técnicos, pero para ser muy claros, no son muchos. Falta mucha información,
00:03:43y tampoco tenemos muchas pruebas de rendimiento. En concreto, solo publicaron tres
00:03:49pruebas de rendimiento. La prueba "ruler", que evalúa comportamientos de recuperación y razonamiento más allá de la simple
00:03:56búsqueda de información específica, incluyendo recuperación multi-salto, agregación, seguimiento de variables y filtrado
00:04:01selectivo. Así que esta es una prueba de rendimiento que, al fin y al cabo, trata sobre si un modelo puede encontrar múltiples
00:04:06fragmentos de información relevante en una ventana de contexto relativamente grande. 128 000 tokens. No es una ventana
00:04:15de contexto supergrande, ni de lejos cercana a los 12 millones que prometen, pero tampoco es de solo 5000 tokens.
00:04:22Esta es una prueba que evalúa qué tan bien puede un modelo encontrar y unir diferentes partes de una
00:04:28ventana de contexto o base de documentos más o menos grande. Y aquí su modelo está al mismo nivel que
00:04:36OPUS 4.6. En esa publicación, también mencionan otra prueba de rendimiento, la MRCRv2, que también trata sobre tareas
00:04:45de recuperación de contexto largo, donde su modelo está en el rango, según indicaron, de OPUS 4.6. Aunque,
00:04:53bueno, está en el rango si miras todos los demás resultados de aquí, pero definitivamente es peor.
00:05:00Lo cual, por supuesto, es curioso ya que toda su propuesta es la recuperación de contexto largo. Pero,
00:05:07por otra parte, se podría argumentar que para casos de uso con ventanas de contexto superlargas, los otros
00:05:15modelos no sirven para nada, mientras que el suyo podría seguir dando muy buenos resultados, lo cual puede ser
00:05:22mejor que nada. Y, por supuesto, sus modelos también pueden mejorar con el tiempo. Así que no
00:05:29consideraría esto como una señal pésima para el modelo inicial. Es solo algo digno de mención. Y,
00:05:35desde luego, también cabe destacar que es mucho mejor que Gemini 3.1 Pro, por ejemplo, u OPUS 4.7 en
00:05:43esa tabla. También publicaron una prueba de rendimiento que me pareció interesante, que trata sobre tareas
00:05:49relacionadas con la programación. Debo decir que todas estas pruebas de rendimiento no me entusiasman mucho. Todos sabemos
00:05:56que se pueden manipular de alguna manera, al menos muchas de ellas; los modelos pueden ser optimizados o
00:06:05ajustados intencionadamente o no para dar buenos resultados en las pruebas de rendimiento. Ya tuvimos bastantes casos así en el pasado,
00:06:12pero aun así, nos dan algo que analizar. Y esta prueba de rendimiento de ingeniería de software me parece
00:06:20interesante, porque aquí podemos ver que su modelo está bastante en el rango de los modelos
00:06:27OPUS. Y eso, por supuesto, demuestra que no solo es capaz de encontrar información en ventanas de contexto
00:06:36largas, en muchos documentos o en grandes bases de código, sino que también es capaz de hacer algo útil con ella,
00:06:42que es capaz de generar código bueno y significativo como resultado de su inteligencia y de los datos que es
00:06:50capaz de recuperar en estas ventanas de contexto largo, por así decirlo. No se trata solo de recuperar,
00:06:54sino también de hacer cosas útiles. Y parece que es bueno en eso. Pero como mencioné, eso es todo.
00:07:00No tenemos más análisis profundos ni detalles técnicos. Aún no hay una ficha del modelo y, por lo tanto,
00:07:09todo lo que tenemos es una descripción, básicamente, de cómo su modelo usa atención dispersa en lugar de atención
00:07:16densa para hacer que estas tareas de contexto largo funcionen o para que el modelo funcione de manera eficiente
00:07:22en escenarios de ventanas de contexto largo, y cómo el modelo logra su aumento de velocidad y su rentabilidad,
00:07:29porque es más rápido y más barato, ¿verdad? Eso es lo que anunciaron. Así que echemos un vistazo a
00:07:37la atención densa frente a la dispersa para entender qué está pasando aquí. La atención densa es
00:07:45la que se tiene en los modelos frontera actuales. GPT 5.5, Opus 4.7 y todos los demás modelos,
00:07:52todos estos son modelos densos, lo que básicamente significa que por cada nuevo token, digamos el token D,
00:07:58para poder generar ese token, se deben evaluar todos los demás tokens y se deben evaluar las conexiones
00:08:08entre estos tokens porque la idea central de los modelos de lenguaje grande es que
00:08:13derivas un token futuro, que podría ser una palabra entera o parte de ella, basándote en lo que vino antes
00:08:20de ese token. Por ejemplo, si tienes una frase como "un contrato puede ser rescindido en cualquier..."
00:08:28entonces la siguiente palabra es la que quieres predecir. Quizá le hayas preguntado al modelo: "Oye,
00:08:35¿cuándo puedo rescindir mi contrato?" Y tal vez hayas introducido ese contrato como un documento PDF o como texto
00:08:42sin formato dentro de tu instrucción. Así que la instrucción anterior a esta frase, que el modelo está
00:08:48generando como salida, es tu pregunta y luego tal vez algún otro contexto. El contrato, por
00:08:57ejemplo, ¿verdad? Así es como usamos actualmente los modelos. Y para producir este token aquí,
00:09:03y para producir cada token que vino antes de él, el modelo básicamente analizó
00:09:10toda la conversación, todos los tokens que contiene. O sea, tu pregunta y cualquier contexto adicional
00:09:16que hayas puesto allí. Y dividió eso en múltiples tokens y luego combinó todos esos tokens o
00:09:23calculó ponderaciones al final basándose en todas las combinaciones de los tokens anteriores. Por ejemplo,
00:09:30si esa fuera toda nuestra conversación, obviamente corta de forma deliberada por ser un ejemplo, entonces así
00:09:38es como se habría dividido en tokens para los modelos GPT-5, por ejemplo. Algunos tokens son
00:09:46solo una palabra, o una palabra con un espacio en blanco delante. Algunos tokens son solo caracteres especiales.
00:09:51Y para generar el siguiente token, todos los tokens anteriores se combinan al final con
00:09:58los demás para comprender el significado final. Porque, por supuesto, un signo de interrogación tiene un significado
00:10:05y una implicación muy diferente para un token futuro, dependiendo de lo que vino antes de ese
00:10:11signo de interrogación. Así que ese signo de interrogación se combina con todos los tokens anteriores. Y es la combinación
00:10:17de todas estas combinaciones al final la que se usa para derivar ese token final. Eso es, a
00:10:22un nivel muy general, cómo puedes pensar en la atención densa y cómo funciona. Ahora bien, lógicamente,
00:10:29eso es muy ineficiente, pero es de lo mejor que tenemos ahora mismo, al menos en lo que respecta a la
00:10:36inteligencia y la calidad de la salida. Pero es cuadrático porque es n por n,
00:10:44lo que significa que para derivar un nuevo token, tenemos que combinar todos los tokens anteriores. Hay
00:10:49mecanismos de optimización como el almacenamiento en caché de KV (claves-valores), que al final almacena en caché los resultados de las ponderaciones calculadas
00:10:56en el pasado. De modo que, para un nuevo token, no tienes que volver a calcular
00:11:01todas las combinaciones anteriores, pero aun así tienes que calcular ese nuevo token comparándolo con todas
00:11:08las ponderaciones previas almacenadas en caché. Por lo tanto, sigues estando en esa situación cuadrática. Y eso, por supuesto,
00:11:16es ineficiente y lento, razón por la cual estos modelos frontera que tenemos ahora consumen mucho cómputo,
00:11:24son lentos, especialmente cuando entras en áreas con ventanas de contexto más altas, y por lo que hay límites
00:11:31bastante estrictos en el tamaño de la ventana de contexto. Como es cuadrático, lógicamente, calcular una ventana
00:11:38de contexto de 12 millones es casi imposible. Tardaría una eternidad, y el tiempo de cómputo es solo una
00:11:46dimensión; la memoria que se debe reservar es otra. Así funcionan los modelos densos en pocas palabras
00:11:54y esas son sus limitaciones. Ahora, el enfoque opuesto o una alternativa que utiliza ese
00:12:00nuevo modelo, el modelo "sub q" anunciado ayer, es usar atención dispersa. Pero,
00:12:06¿cómo funciona la atención dispersa? La idea con la atención dispersa es que para calcular un nuevo
00:12:14token, no miras todos los tokens anteriores, no tienes las combinaciones de todos los tokens
00:12:20anteriores, sino solo de unos pocos tokens seleccionados. Por ejemplo, si quieres derivar el token D aquí,
00:12:28es posible que solo mires B y C, pero no A. Ahora bien, la gran pregunta entonces es:
00:12:33¿cómo decides qué tokens anteriores mirar o qué tokens anteriores son interesantes para
00:12:40producir ese nuevo token? Y hay diferentes enfoques que se han usado en el pasado porque
00:12:46este nuevo modelo no es el primer modelo con atención dispersa. Pero la razón por la que realmente no han
00:12:52despegado aquí es porque tienen serias limitaciones. Por ejemplo, una forma es utilizar un
00:12:59enfoque de ventana local. ¿Qué significa eso? Significa que para producir un nuevo token,
00:13:06digamos el token número cinco, el quinto token de una secuencia, echamos un vistazo a, por ejemplo,
00:13:13solo los dos tokens anteriores. O sea, el tres más el cuatro, por ejemplo. Así tienes una ventana deslizante de tokens
00:13:22y siempre miras únicamente los tokens que están delante del token que vas a generar. Ahora bien,
00:13:27como puedes imaginar, esto tiene serias limitaciones porque si solo miro los últimos
00:13:33pocos tokens, si, por ejemplo, me pregunto cuándo se puede rescindir un contrato, la información
00:13:39puede estar aquí en el contexto adicional que incluí en la instrucción, pero no forma parte de esa ventana local
00:13:45si la ventana local son solo los últimos tokens, por ejemplo. De modo que el siguiente token que se va a
00:13:50predecir no tiene idea de lo que había antes en ese contexto. Así que eso no es útil. Puedes tener un
00:13:55tamaño de ventana de contexto ilimitado con este enfoque, pero todo el contexto da igual. Esa es una
00:14:01limitación obvia. Otro enfoque es el llamado enfoque de token global. Aquí la idea es que
00:14:09tienes un token de resumen global. A un nivel muy general, puedes pensar en esto como un token especial que va
00:14:16al principio de la secuencia de tokens, insertado al principio de la secuencia de tokens
00:14:20por el modelo, por así decirlo, el cual resume los tokens que le siguen. Así es como puedes visualizarlo.
00:14:27Y luego, para predecir el siguiente token, se tiene en cuenta ese token global. Esto puede funcionar
00:14:34muy bien si volvemos a este ejemplo de aquí con el texto legal que pudiste haberle pasado a un modelo
00:14:40en tu instrucción. Si ese resumen que se generó aquí para tu conversación incluye los
00:14:46términos de rescisión del contrato, por ejemplo, entonces por supuesto este siguiente token se puede predecir muy bien
00:14:53basándose en ese resumen. Pero si tienes mala suerte y el resumen no incluye estos detalles,
00:15:00bueno, entonces no tienes suerte y vuelves al estado en el que la información falta por completo.
00:15:04Un enfoque de token global puede funcionar, pero, por supuesto, cuanto más larga sea la ventana de contexto,
00:15:12más genérico se vuelve el resumen. Es fácil de imaginar. Si tienes un
00:15:16documento PDF de cien páginas y tuvieras que resumirlo en una frase o dos, sería muy
00:15:22impreciso, ¿verdad? Por lo tanto, predecir el siguiente token basándose en ese resumen no va a funcionar realmente.
00:15:29Otro enfoque sería utilizar un enrutador, que consiste en tener como una red neuronal
00:15:37adicional. Tienes dos modelos, básicamente tu modelo de lenguaje grande y luego un modelo
00:15:43de enrutamiento adicional. Y ese modelo de enrutamiento analiza la instrucción del usuario o el contexto del
00:15:51siguiente token que se va a generar y luego dirige ese token, por así decirlo, a los otros tokens que considera
00:15:59relevantes. Pero ahora eso, por supuesto, significa que tienes un modelo de enrutamiento que de alguna manera necesita
00:16:04hacer un seguimiento de todos los demás tokens que vienen detrás. Así que probablemente eso vuelva al área de la atención
00:16:10cuadrática o sea muy impreciso y dependas de ello. Por lo tanto, o bien vuelves a
00:16:17la complejidad cuadrática y no ganas tanto en comparación con un modelo denso, o bien no
00:16:23haces eso y probablemente tengas alguna pérdida porque el enrutador no es muy bueno. Al igual que con el
00:16:30resumen, esperarías que el enrutador haga un buen trabajo y active los tokens correctos para
00:16:37predecir el siguiente token. Y por eso la atención dispersa es interesante pero realmente no ha
00:16:46despegado hasta ahora, porque todos estos enfoques diferentes tienen un equilibrio de pros y contras importante y hasta la fecha,
00:16:54que yo sepa, no ha habido un modelo de atención dispersa que haya producido
00:17:00una calidad igual o comparable a los modelos densos frontera actuales y que sea capaz de actuar en una gran
00:17:07ventana de contexto. Y ellos prometen cambiar esto con su nuevo modelo. En esa publicación del anuncio en el blog,
00:17:14mencionan que su modelo realiza una selección dependiente del contenido. Para cada consulta, el modelo selecciona qué
00:17:22partes de la secuencia vale la pena atender y calcula la atención exactamente sobre esas posiciones. Así
00:17:28que, al final, volvemos a este enfoque de enrutamiento, pero aquí prometen, mencionan,
00:17:35 que su mecanismo parece ser muy eficiente para activar los tokens correctos para predecir
00:17:43el siguiente token. Mencionan que la atención densa asume que cada par podría importar, por lo que los evalúa
00:17:49a todos. En la práctica, casi ninguno importa. SSA, que significa atención selectiva subcuadrática,
00:17:55que es su enfoque, elimina esa suposición. No aproxima la atención. Limita
00:18:01la atención a las posiciones que realmente contienen señal y omite el resto. Ese es su enfoque.
00:18:08Hacen un enrutamiento dependiente del contenido para activar los tokens adecuados o para usar los tokens idóneos para
00:18:14predecir el siguiente token y eso es lo que les da su aumento de eficiencia. Y aún tenemos que ver
00:18:21qué tan bien funciona esto realmente porque, como se ha mencionado, tenemos un subconjunto muy limitado de pruebas de rendimiento aquí.
00:18:30No hay muchas otras pruebas de rendimiento o ninguna. No tenemos ficha del modelo. No tenemos detalles sobre cómo funciona exactamente
00:18:36su selección dependiente del contenido y, por lo tanto, tenemos muchos interrogantes aquí.
00:18:42Y si hay algo que definitivamente hemos aprendido en los últimos meses y años es que
00:18:49la IA es obviamente una herramienta útil y yo la uso todos los días. Probablemente tú la uses todos los días y
00:18:57herramientas como Codex o Claude Code son muy útiles. No tengo ninguna duda al respecto y, bueno, esa es mi
00:19:04experiencia con ellas, pero también aprendimos que estamos en una industria con mucho revuelo y exageración. Estamos en un
00:19:10período de transición. Todo está cambiando o mucho está cambiando ahora mismo y, por lo tanto, por supuesto que hay
00:19:16muchas promesas por todas partes y no todas se cumplen, materializándose en realidad
00:19:26en algo útil. Me refiero a los modelos de Meta, por ejemplo, que eran modelos densos. Los modelos Llama 4
00:19:35tenían unas cifras increíbles en las pruebas de rendimiento, pero no eran tan buenos. Así que hay muchos ejemplos exagerados,
00:19:42y ese es solo un ejemplo, por supuesto. Hay muchísimos ejemplos por ahí. Sin duda, vale la pena
00:19:49ser cautelosos, pero si publican estos modelos y ya se puede solicitar acceso anticipado ahora mismo,
00:19:56yo lo hice pero aún no me han dado acceso. Si estos modelos cumplen sus promesas, si son útiles,
00:20:05e inteligentes en ventanas de contexto de gran tamaño, eso, por supuesto, cambiará mucho las cosas. Ayudará con
00:20:13las limitaciones de cómputo que tenemos ahora mismo porque no hay ni de lejos suficiente cómputo disponible
00:20:19en el mundo. Necesitamos muchos más centros de datos, chips, electricidad y todo. Así que tener un modelo que
00:20:25sea mucho más eficiente ayudaría con eso. Bueno, tal vez lo usaríamos tanto más que el
00:20:33problema seguiría siendo el mismo, pero de todos modos, sin duda permitiría un mayor uso ahora mismo. Y, por supuesto,
00:20:40abriría casos de uso totalmente nuevos. Haría posible simplemente meter una base de código entera
00:20:45allí y trabajar sobre ella. Así que todas estas soluciones provisionales que estamos usando ahora desaparecerían. No
00:20:52necesitaríamos subagentes necesariamente. No necesitaríamos sistemas RAG si eso funcionara. Pero eso es un "si",
00:21:00por supuesto, y aún está por verse si esto cumple con las grandes promesas que están haciendo. Si lo hace,
00:21:07sin duda habrán fundado una empresa de miles de millones o de billones de dólares.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video