¿Adiós a OpenAI y Anthropic?

Españolالعربية Deutsch English Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

MMaximilian Schwarzmüller

Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Hace un par de horas hubo un anuncio bastante importante. O un revuelo bastante grande. Aún

00:00:06no lo sabemos y, desde luego, no descartaría que sea solo revuelo. Revuelo sin sentido. Pero si

00:00:13es verdad, sí que es un gran anuncio. Porque Alexander Wedin, a quien yo no conocía y probablemente

00:00:20ustedes tampoco, anunció "sub-q", que significa subcuadrático, un gran avance en la

00:00:28inteligencia de los LLM. Y lo que anunció aquí es un nuevo tipo de modelo de lenguaje grande que destaca

00:00:36en tareas de contexto largo sin perder —o al menos eso es lo que afirma— sin perder la "inteligencia"

00:00:45—entre comillas, los modelos generan tokens pero eso es lo que al final les da su inteligencia—, o sea,

00:00:52sin perder la inteligencia a la que estamos acostumbrados en los modelos frontera actuales como Opus 4.7,

00:00:59GPT 5.5, etc. Ahora, lo que menciona en la publicación del anuncio en X —y también

00:01:04hay una publicación en el blog del anuncio con más detalles técnicos que analizaremos

00:01:08porque profundizaremos en este episodio y video—, lo que anuncia aquí es un modelo que es

00:01:16mucho más rápido al hacer inferencia en tareas con contextos de un millón de tokens y cuesta mucho menos. El cinco

00:01:26por ciento de lo que cuesta Opus. También promete que su modelo inicial tendrá una ventana

00:01:35de contexto de 12 millones de tokens, lo que, para poner esa cifra en perspectiva, significa que se pueden meter

00:01:42bases de código enteras, bases de código enormes, en esa ventana de contexto. Se pueden meter

00:01:49múltiples documentos legales extensos y, por eso, por supuesto, si estos modelos existen y funcionan, podrían

00:01:57ser superútiles y cambiar por completo las reglas del juego. No hay otra forma de decirlo. Si funcionan —no

00:02:02tenemos muchos detalles todavía, ya volveré a eso—, pero si funcionan, eso significa que todas las

00:02:08soluciones provisionales que usamos ahora, como subagentes, RAG, etc., que son solo parches

00:02:15para el problema de que el modelo solo ve una pequeña parte de lo que debería ver. Si estás trabajando en una base de código,

00:02:22los modelos frontera existentes, según el tamaño de tu base de código, no pueden verla entera.

00:02:28No pueden cargar toda la base de código. Así que, si le pides que cambie algo, tienes que esperar

00:02:33que el modelo encuentre las partes correctas en tu base de código para realizar el cambio que pides.

00:02:40Y eso, por supuesto, se convierte en un problema cada vez mayor cuanto más grande es la base de código o

00:02:45mayor es la cantidad de documentos con los que quieres que trabaje el modelo. Por tanto, si tienes un modelo que puede

00:02:52usar de forma fiable una ventana de contexto de 12 millones de tokens con buena calidad, eso sin duda cambiaría las reglas del juego.

00:02:59Hablando de cambiar las reglas del juego, profundizaré en este video y en todos mis cursos. Así que

00:03:06si te interesa aprender a usar de forma práctica herramientas como Claude Code, Codex, otras tareas de IA,

00:03:13o programación, o la combinación de todo eso, entonces valdría la pena que mires mis cursos. Son prácticos,

00:03:19son interactivos, son detallados, y puedes adquirir los cursos individuales o la suscripción,

00:03:24que te da acceso a todos los cursos por un único precio mensual o anual. Enlaces abajo.

00:03:31Profundicemos un poco más ahora. Como mencioné, hay una publicación de anuncio en el blog con

00:03:36algunos detalles técnicos, pero para ser muy claros, no son muchos. Falta mucha información,

00:03:43y tampoco tenemos muchas pruebas de rendimiento. En concreto, solo publicaron tres

00:03:49pruebas de rendimiento. La prueba "ruler", que evalúa comportamientos de recuperación y razonamiento más allá de la simple

00:03:56búsqueda de información específica, incluyendo recuperación multi-salto, agregación, seguimiento de variables y filtrado

00:04:01selectivo. Así que esta es una prueba de rendimiento que, al fin y al cabo, trata sobre si un modelo puede encontrar múltiples

00:04:06fragmentos de información relevante en una ventana de contexto relativamente grande. 128 000 tokens. No es una ventana

00:04:15de contexto supergrande, ni de lejos cercana a los 12 millones que prometen, pero tampoco es de solo 5000 tokens.

00:04:22Esta es una prueba que evalúa qué tan bien puede un modelo encontrar y unir diferentes partes de una

00:04:28ventana de contexto o base de documentos más o menos grande. Y aquí su modelo está al mismo nivel que

00:04:36OPUS 4.6. En esa publicación, también mencionan otra prueba de rendimiento, la MRCRv2, que también trata sobre tareas

00:04:45de recuperación de contexto largo, donde su modelo está en el rango, según indicaron, de OPUS 4.6. Aunque,

00:04:53bueno, está en el rango si miras todos los demás resultados de aquí, pero definitivamente es peor.

00:05:00Lo cual, por supuesto, es curioso ya que toda su propuesta es la recuperación de contexto largo. Pero,

00:05:07por otra parte, se podría argumentar que para casos de uso con ventanas de contexto superlargas, los otros

00:05:15modelos no sirven para nada, mientras que el suyo podría seguir dando muy buenos resultados, lo cual puede ser

00:05:22mejor que nada. Y, por supuesto, sus modelos también pueden mejorar con el tiempo. Así que no

00:05:29consideraría esto como una señal pésima para el modelo inicial. Es solo algo digno de mención. Y,

00:05:35desde luego, también cabe destacar que es mucho mejor que Gemini 3.1 Pro, por ejemplo, u OPUS 4.7 en

00:05:43esa tabla. También publicaron una prueba de rendimiento que me pareció interesante, que trata sobre tareas

00:05:49relacionadas con la programación. Debo decir que todas estas pruebas de rendimiento no me entusiasman mucho. Todos sabemos

00:05:56que se pueden manipular de alguna manera, al menos muchas de ellas; los modelos pueden ser optimizados o

00:06:05ajustados intencionadamente o no para dar buenos resultados en las pruebas de rendimiento. Ya tuvimos bastantes casos así en el pasado,

00:06:12pero aun así, nos dan algo que analizar. Y esta prueba de rendimiento de ingeniería de software me parece

00:06:20interesante, porque aquí podemos ver que su modelo está bastante en el rango de los modelos

00:06:27OPUS. Y eso, por supuesto, demuestra que no solo es capaz de encontrar información en ventanas de contexto

00:06:36largas, en muchos documentos o en grandes bases de código, sino que también es capaz de hacer algo útil con ella,

00:06:42que es capaz de generar código bueno y significativo como resultado de su inteligencia y de los datos que es

00:06:50capaz de recuperar en estas ventanas de contexto largo, por así decirlo. No se trata solo de recuperar,

00:06:54sino también de hacer cosas útiles. Y parece que es bueno en eso. Pero como mencioné, eso es todo.

00:07:00No tenemos más análisis profundos ni detalles técnicos. Aún no hay una ficha del modelo y, por lo tanto,

00:07:09todo lo que tenemos es una descripción, básicamente, de cómo su modelo usa atención dispersa en lugar de atención

00:07:16densa para hacer que estas tareas de contexto largo funcionen o para que el modelo funcione de manera eficiente

00:07:22en escenarios de ventanas de contexto largo, y cómo el modelo logra su aumento de velocidad y su rentabilidad,

00:07:29porque es más rápido y más barato, ¿verdad? Eso es lo que anunciaron. Así que echemos un vistazo a

00:07:37la atención densa frente a la dispersa para entender qué está pasando aquí. La atención densa es

00:07:45la que se tiene en los modelos frontera actuales. GPT 5.5, Opus 4.7 y todos los demás modelos,

00:07:52todos estos son modelos densos, lo que básicamente significa que por cada nuevo token, digamos el token D,

00:07:58para poder generar ese token, se deben evaluar todos los demás tokens y se deben evaluar las conexiones

00:08:08entre estos tokens porque la idea central de los modelos de lenguaje grande es que

00:08:13derivas un token futuro, que podría ser una palabra entera o parte de ella, basándote en lo que vino antes

00:08:20de ese token. Por ejemplo, si tienes una frase como "un contrato puede ser rescindido en cualquier..."

00:08:28entonces la siguiente palabra es la que quieres predecir. Quizá le hayas preguntado al modelo: "Oye,

00:08:35¿cuándo puedo rescindir mi contrato?" Y tal vez hayas introducido ese contrato como un documento PDF o como texto

00:08:42sin formato dentro de tu instrucción. Así que la instrucción anterior a esta frase, que el modelo está

00:08:48generando como salida, es tu pregunta y luego tal vez algún otro contexto. El contrato, por

00:08:57ejemplo, ¿verdad? Así es como usamos actualmente los modelos. Y para producir este token aquí,

00:09:03y para producir cada token que vino antes de él, el modelo básicamente analizó

00:09:10toda la conversación, todos los tokens que contiene. O sea, tu pregunta y cualquier contexto adicional

00:09:16que hayas puesto allí. Y dividió eso en múltiples tokens y luego combinó todos esos tokens o

00:09:23calculó ponderaciones al final basándose en todas las combinaciones de los tokens anteriores. Por ejemplo,

00:09:30si esa fuera toda nuestra conversación, obviamente corta de forma deliberada por ser un ejemplo, entonces así

00:09:38es como se habría dividido en tokens para los modelos GPT-5, por ejemplo. Algunos tokens son

00:09:46solo una palabra, o una palabra con un espacio en blanco delante. Algunos tokens son solo caracteres especiales.

00:09:51Y para generar el siguiente token, todos los tokens anteriores se combinan al final con

00:09:58los demás para comprender el significado final. Porque, por supuesto, un signo de interrogación tiene un significado

00:10:05y una implicación muy diferente para un token futuro, dependiendo de lo que vino antes de ese

00:10:11signo de interrogación. Así que ese signo de interrogación se combina con todos los tokens anteriores. Y es la combinación

00:10:17de todas estas combinaciones al final la que se usa para derivar ese token final. Eso es, a

00:10:22un nivel muy general, cómo puedes pensar en la atención densa y cómo funciona. Ahora bien, lógicamente,

00:10:29eso es muy ineficiente, pero es de lo mejor que tenemos ahora mismo, al menos en lo que respecta a la

00:10:36inteligencia y la calidad de la salida. Pero es cuadrático porque es n por n,

00:10:44lo que significa que para derivar un nuevo token, tenemos que combinar todos los tokens anteriores. Hay

00:10:49mecanismos de optimización como el almacenamiento en caché de KV (claves-valores), que al final almacena en caché los resultados de las ponderaciones calculadas

00:10:56en el pasado. De modo que, para un nuevo token, no tienes que volver a calcular

00:11:01todas las combinaciones anteriores, pero aun así tienes que calcular ese nuevo token comparándolo con todas

00:11:08las ponderaciones previas almacenadas en caché. Por lo tanto, sigues estando en esa situación cuadrática. Y eso, por supuesto,

00:11:16es ineficiente y lento, razón por la cual estos modelos frontera que tenemos ahora consumen mucho cómputo,

00:11:24son lentos, especialmente cuando entras en áreas con ventanas de contexto más altas, y por lo que hay límites

00:11:31bastante estrictos en el tamaño de la ventana de contexto. Como es cuadrático, lógicamente, calcular una ventana

00:11:38de contexto de 12 millones es casi imposible. Tardaría una eternidad, y el tiempo de cómputo es solo una

00:11:46dimensión; la memoria que se debe reservar es otra. Así funcionan los modelos densos en pocas palabras

00:11:54y esas son sus limitaciones. Ahora, el enfoque opuesto o una alternativa que utiliza ese

00:12:00nuevo modelo, el modelo "sub q" anunciado ayer, es usar atención dispersa. Pero,

00:12:06¿cómo funciona la atención dispersa? La idea con la atención dispersa es que para calcular un nuevo

00:12:14token, no miras todos los tokens anteriores, no tienes las combinaciones de todos los tokens

00:12:20anteriores, sino solo de unos pocos tokens seleccionados. Por ejemplo, si quieres derivar el token D aquí,

00:12:28es posible que solo mires B y C, pero no A. Ahora bien, la gran pregunta entonces es:

00:12:33¿cómo decides qué tokens anteriores mirar o qué tokens anteriores son interesantes para

00:12:40producir ese nuevo token? Y hay diferentes enfoques que se han usado en el pasado porque

00:12:46este nuevo modelo no es el primer modelo con atención dispersa. Pero la razón por la que realmente no han

00:12:52despegado aquí es porque tienen serias limitaciones. Por ejemplo, una forma es utilizar un

00:12:59enfoque de ventana local. ¿Qué significa eso? Significa que para producir un nuevo token,

00:13:06digamos el token número cinco, el quinto token de una secuencia, echamos un vistazo a, por ejemplo,

00:13:13solo los dos tokens anteriores. O sea, el tres más el cuatro, por ejemplo. Así tienes una ventana deslizante de tokens

00:13:22y siempre miras únicamente los tokens que están delante del token que vas a generar. Ahora bien,

00:13:27como puedes imaginar, esto tiene serias limitaciones porque si solo miro los últimos

00:13:33pocos tokens, si, por ejemplo, me pregunto cuándo se puede rescindir un contrato, la información

00:13:39puede estar aquí en el contexto adicional que incluí en la instrucción, pero no forma parte de esa ventana local

00:13:45si la ventana local son solo los últimos tokens, por ejemplo. De modo que el siguiente token que se va a

00:13:50predecir no tiene idea de lo que había antes en ese contexto. Así que eso no es útil. Puedes tener un

00:13:55tamaño de ventana de contexto ilimitado con este enfoque, pero todo el contexto da igual. Esa es una

00:14:01limitación obvia. Otro enfoque es el llamado enfoque de token global. Aquí la idea es que

00:14:09tienes un token de resumen global. A un nivel muy general, puedes pensar en esto como un token especial que va

00:14:16al principio de la secuencia de tokens, insertado al principio de la secuencia de tokens

00:14:20por el modelo, por así decirlo, el cual resume los tokens que le siguen. Así es como puedes visualizarlo.

00:14:27Y luego, para predecir el siguiente token, se tiene en cuenta ese token global. Esto puede funcionar

00:14:34muy bien si volvemos a este ejemplo de aquí con el texto legal que pudiste haberle pasado a un modelo

00:14:40en tu instrucción. Si ese resumen que se generó aquí para tu conversación incluye los

00:14:46términos de rescisión del contrato, por ejemplo, entonces por supuesto este siguiente token se puede predecir muy bien

00:14:53basándose en ese resumen. Pero si tienes mala suerte y el resumen no incluye estos detalles,

00:15:00bueno, entonces no tienes suerte y vuelves al estado en el que la información falta por completo.

00:15:04Un enfoque de token global puede funcionar, pero, por supuesto, cuanto más larga sea la ventana de contexto,

00:15:12más genérico se vuelve el resumen. Es fácil de imaginar. Si tienes un

00:15:16documento PDF de cien páginas y tuvieras que resumirlo en una frase o dos, sería muy

00:15:22impreciso, ¿verdad? Por lo tanto, predecir el siguiente token basándose en ese resumen no va a funcionar realmente.

00:15:29Otro enfoque sería utilizar un enrutador, que consiste en tener como una red neuronal

00:15:37adicional. Tienes dos modelos, básicamente tu modelo de lenguaje grande y luego un modelo

00:15:43de enrutamiento adicional. Y ese modelo de enrutamiento analiza la instrucción del usuario o el contexto del

00:15:51siguiente token que se va a generar y luego dirige ese token, por así decirlo, a los otros tokens que considera

00:15:59relevantes. Pero ahora eso, por supuesto, significa que tienes un modelo de enrutamiento que de alguna manera necesita

00:16:04hacer un seguimiento de todos los demás tokens que vienen detrás. Así que probablemente eso vuelva al área de la atención

00:16:10cuadrática o sea muy impreciso y dependas de ello. Por lo tanto, o bien vuelves a

00:16:17la complejidad cuadrática y no ganas tanto en comparación con un modelo denso, o bien no

00:16:23haces eso y probablemente tengas alguna pérdida porque el enrutador no es muy bueno. Al igual que con el

00:16:30resumen, esperarías que el enrutador haga un buen trabajo y active los tokens correctos para

00:16:37predecir el siguiente token. Y por eso la atención dispersa es interesante pero realmente no ha

00:16:46despegado hasta ahora, porque todos estos enfoques diferentes tienen un equilibrio de pros y contras importante y hasta la fecha,

00:16:54que yo sepa, no ha habido un modelo de atención dispersa que haya producido

00:17:00una calidad igual o comparable a los modelos densos frontera actuales y que sea capaz de actuar en una gran

00:17:07ventana de contexto. Y ellos prometen cambiar esto con su nuevo modelo. En esa publicación del anuncio en el blog,

00:17:14mencionan que su modelo realiza una selección dependiente del contenido. Para cada consulta, el modelo selecciona qué

00:17:22partes de la secuencia vale la pena atender y calcula la atención exactamente sobre esas posiciones. Así

00:17:28que, al final, volvemos a este enfoque de enrutamiento, pero aquí prometen, mencionan,

00:17:35 que su mecanismo parece ser muy eficiente para activar los tokens correctos para predecir

00:17:43el siguiente token. Mencionan que la atención densa asume que cada par podría importar, por lo que los evalúa

00:17:49a todos. En la práctica, casi ninguno importa. SSA, que significa atención selectiva subcuadrática,

00:17:55que es su enfoque, elimina esa suposición. No aproxima la atención. Limita

00:18:01la atención a las posiciones que realmente contienen señal y omite el resto. Ese es su enfoque.

00:18:08Hacen un enrutamiento dependiente del contenido para activar los tokens adecuados o para usar los tokens idóneos para

00:18:14predecir el siguiente token y eso es lo que les da su aumento de eficiencia. Y aún tenemos que ver

00:18:21qué tan bien funciona esto realmente porque, como se ha mencionado, tenemos un subconjunto muy limitado de pruebas de rendimiento aquí.

00:18:30No hay muchas otras pruebas de rendimiento o ninguna. No tenemos ficha del modelo. No tenemos detalles sobre cómo funciona exactamente

00:18:36su selección dependiente del contenido y, por lo tanto, tenemos muchos interrogantes aquí.

00:18:42Y si hay algo que definitivamente hemos aprendido en los últimos meses y años es que

00:18:49la IA es obviamente una herramienta útil y yo la uso todos los días. Probablemente tú la uses todos los días y

00:18:57herramientas como Codex o Claude Code son muy útiles. No tengo ninguna duda al respecto y, bueno, esa es mi

00:19:04experiencia con ellas, pero también aprendimos que estamos en una industria con mucho revuelo y exageración. Estamos en un

00:19:10período de transición. Todo está cambiando o mucho está cambiando ahora mismo y, por lo tanto, por supuesto que hay

00:19:16muchas promesas por todas partes y no todas se cumplen, materializándose en realidad

00:19:26en algo útil. Me refiero a los modelos de Meta, por ejemplo, que eran modelos densos. Los modelos Llama 4

00:19:35tenían unas cifras increíbles en las pruebas de rendimiento, pero no eran tan buenos. Así que hay muchos ejemplos exagerados,

00:19:42y ese es solo un ejemplo, por supuesto. Hay muchísimos ejemplos por ahí. Sin duda, vale la pena

00:19:49ser cautelosos, pero si publican estos modelos y ya se puede solicitar acceso anticipado ahora mismo,

00:19:56yo lo hice pero aún no me han dado acceso. Si estos modelos cumplen sus promesas, si son útiles,

00:20:05e inteligentes en ventanas de contexto de gran tamaño, eso, por supuesto, cambiará mucho las cosas. Ayudará con

00:20:13las limitaciones de cómputo que tenemos ahora mismo porque no hay ni de lejos suficiente cómputo disponible

00:20:19en el mundo. Necesitamos muchos más centros de datos, chips, electricidad y todo. Así que tener un modelo que

00:20:25sea mucho más eficiente ayudaría con eso. Bueno, tal vez lo usaríamos tanto más que el

00:20:33problema seguiría siendo el mismo, pero de todos modos, sin duda permitiría un mayor uso ahora mismo. Y, por supuesto,

00:20:40abriría casos de uso totalmente nuevos. Haría posible simplemente meter una base de código entera

00:20:45allí y trabajar sobre ella. Así que todas estas soluciones provisionales que estamos usando ahora desaparecerían. No

00:20:52necesitaríamos subagentes necesariamente. No necesitaríamos sistemas RAG si eso funcionara. Pero eso es un "si",

00:21:00por supuesto, y aún está por verse si esto cumple con las grandes promesas que están haciendo. Si lo hace,

00:21:07sin duda habrán fundado una empresa de miles de millones o de billones de dólares.

Key Takeaway

La arquitectura de atención selectiva subcuadrática (SSA) promete reducir el costo de inferencia al 5% y permitir ventanas de contexto de 12 millones de tokens al evitar la ineficiencia de la atención densa tradicional.

Highlights

El nuevo modelo 'sub-q' propone una arquitectura de atención selectiva subcuadrática (SSA) diseñada para gestionar ventanas de contexto de hasta 12 millones de tokens.
El costo de inferencia de este modelo es el 5% del costo actual de Opus 4.7.
A diferencia de la atención densa, que requiere evaluar cada conexión entre todos los tokens (complejidad cuadrática), el enfoque SSA selecciona únicamente los tokens relevantes mediante un enrutamiento dependiente del contenido.
Los resultados en pruebas de rendimiento como 'ruler' y 'MRCRv2' sitúan al modelo en un nivel comparable a Opus 4.6, aunque con una capacidad teórica de manejo de contexto significativamente mayor.
La implementación exitosa de este modelo eliminaría la necesidad de soluciones actuales como RAG o subagentes al permitir el procesamiento directo de bases de código completas.

Timeline

Anuncio de sub-q y sus promesas técnicas

El modelo sub-q promete inteligencia comparable a los modelos frontera actuales con una eficiencia superior.
La ventana de contexto de 12 millones de tokens permite el análisis completo de bases de código masivas.
El costo de operación se reduce al 5% en comparación con el modelo Opus.

Alexander Wedin presentó sub-q, un modelo de lenguaje que utiliza una arquitectura subcuadrática. Su capacidad principal radica en procesar grandes volúmenes de datos sin sacrificar la calidad de las respuestas. Si estas promesas se cumplen, dejarían obsoletas las estrategias de fragmentación como RAG.

Análisis de pruebas de rendimiento

Las pruebas 'ruler' y 'MRCRv2' muestran un desempeño del modelo en el rango de Opus 4.6.
Los resultados iniciales sugieren capacidad para generar código útil y significativo tras recuperar información.
Existe una escasez de detalles técnicos profundos y de fichas técnicas completas sobre el modelo.

Los datos disponibles son limitados y se centran en pruebas de recuperación de contexto largo y programación. Aunque el modelo compite con los estándares actuales, la ausencia de una ficha técnica detallada genera cautela sobre la consistencia de los resultados prometidos.

Diferencias entre atención densa y dispersa

Los modelos densos actuales presentan una complejidad cuadrática de n por n, lo que limita drásticamente la escalabilidad del contexto.
La atención dispersa busca seleccionar solo los tokens relevantes para la predicción, reduciendo el costo computacional.
El modelo sub-q implementa una selección dependiente del contenido que omite posiciones irrelevantes en la secuencia.

La atención densa evalúa cada par de tokens, lo que resulta en un consumo masivo de recursos computacionales e imposibilita ventanas de contexto de millones de tokens. El enfoque SSA evita la aproximación simple y utiliza un mecanismo de enrutamiento para enfocarse únicamente en la información que contiene señal real.

Implicaciones y cautela ante el hype

El sector de la inteligencia artificial atraviesa un periodo de alta volatilidad con muchas promesas que no llegan a materializarse.
Un modelo más eficiente mitigaría la escasez global de infraestructura, chips y centros de datos.
La adopción exitosa de sub-q cambiaría el paradigma de trabajo con IA al eliminar la necesidad de parches técnicos como los subagentes.

La industria ha visto modelos con resultados de rendimiento exagerados anteriormente, lo que justifica una actitud cautelosa. Sin embargo, si la tecnología logra escalar eficientemente a 12 millones de tokens, su impacto en la productividad de desarrollo y gestión de documentos sería masivo.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video