00:00:00Opus 4.7 acaba de salir y, por los números,
00:00:04esta es una mejora masiva. Así que profundicemos. Primero,
00:00:08los benchmarks. Ahora muestran Mythos aquí a la derecha,
00:00:12solo para tentarnos con cosas que ya existen.
00:00:15Pero a lo que realmente quiero prestar atención es a 4.7 frente a 4.6 porque quién sabe
00:00:20cuándo estará disponible Mythos y, por las cifras,
00:00:23este es un salto adelante muy sólido, especialmente en temas como programación.
00:00:28Si observamos la programación agéntica, vemos un salto de 53 a 64,
00:00:32de 80 a 87,
00:00:34y luego de 65 a 69 en las tres grandes pruebas que son SWE-bench
00:00:39Pro, SWE-bench Verified y Terminal Bench 2.0.
00:00:42Los únicos lugares donde vemos que los benchmarks de Opus 4.7
00:00:46no están por encima de todos los demás modelos,
00:00:49excepto por Mythos, es en búsqueda agéntica donde miramos a GPT 5.4.
00:00:54Está en 89.3 frente a Opus 4.7,
00:00:57que curiosamente ha bajado respecto a 4.6, lo cual, ya sabes,
00:01:01cuando ves cosas así,
00:01:02donde muestran benchmarks en los que ha bajado desde Opus 4.6,
00:01:06te preguntas si simplemente los insertan. Es como: "Oh no,
00:01:08estos benchmarks son legítimos, chicos. No mentiríamos sobre esto. Miren,
00:01:11miren esto". Eh,
00:01:12pero 5.4 va por delante en búsqueda agéntica y también lo ves por delante en razonamiento
00:01:17de nivel de posgrado. Ahora, otra área donde vemos una mejora masiva es el razonamiento visual.
00:01:21Saltamos de 69 a 82,
00:01:25y eso podría tener algo que ver con el hecho de que este modelo tiene una visión
00:01:29mucho mejor.
00:01:29Nos dicen que las imágenes que introduces en Opus 4.7 tienen ahora
00:01:34el triple de resolución, lo cual es enorme.
00:01:36Si estás haciendo algo con diagramas o texto pequeño,
00:01:38y vemos esas mismas cifras reflejadas aquí en estos gráficos.
00:01:42Mejoras en trabajo de conocimiento, visión, un salto enorme en razonamiento de documentos,
00:01:46de 57.1 a 80.6, lo cual es una gran ventaja.
00:01:50Si eres alguien que usa algo como Cowork,
00:01:52lo usas en un entorno de oficina y todo lo que haces en el día es alimentarlo
00:01:55con documentos. El razonamiento de contexto largo también es importante.
00:01:57Constantemente insistimos en este canal sobre el deterioro del contexto y la idea de que
00:02:02debemos estar muy enfocados en la gestión de la sesión. No creo que eso cambie en absoluto.
00:02:07Pasar de 71 a 75 es genial.
00:02:09No creo que debas cambiar la agresividad con la que limpias, es decir, cada vez que estés al 20%
00:02:13o 25% de la ventana de contexto, deberías limpiar, pero esto es una mejora.
00:02:17Nos encanta ver esto. Y este también es interesante.
00:02:19Este benchmark de programación que tiene que ver con lo multimodal. Están programando,
00:02:22pero esto también incluye situaciones en las que le lanzan un contexto que contiene
00:02:25cosas como imágenes. Y no creo que esto sea ninguna sorpresa.
00:02:28Y creo que mucho de eso tiene que ver con la resolución.
00:02:30Ahora, además del modelo en sí, se hicieron algunas actualizaciones más.
00:02:32La más grande es un mayor control del esfuerzo. Ahora hay un nivel "X-high",
00:02:37probablemente copiado de OpenAI, entre "high" y "max".
00:02:40Y además de eso, Claude Code ahora viene por defecto en "extra high".
00:02:44Creo que esto es probablemente una respuesta a mucha gente que afirmaba que Opus 4.6
00:02:48estaba limitado. Y luego Boris Cherny, el creador de Opus, bueno, no el creador de Opus,
00:02:52el creador de Claude Code, salió y dijo, bueno,
00:02:54en realidad movimos el nivel de razonamiento por defecto, el nivel de esfuerzo por defecto,
00:02:58a medio. Así que el hecho de que salieran con "X-high",
00:03:01creo que es una respuesta a eso para hacerlo, entre comillas, "mejor" e
00:03:05intentar que se esfuerce más sin empujar a la gente al máximo, porque entonces la balanza se inclina
00:03:10y todos se quejan de que su límite de uso se agota. Y recuerda,
00:03:12si quieres cambiar eso,
00:03:13todo lo que necesitas hacer es escribir /effort y luego establecer tu nivel.
00:03:16La mayor resolución también está en la API.
00:03:19Y luego también han lanzado el nuevo comando de barra /ultra-review.
00:03:24Así que obtiene una sesión de revisión dedicada además de eso.
00:03:28También han extendido el modo automático. Y si no conoces el modo automático,
00:03:31es básicamente una alternativa a saltarse los permisos peligrosamente. Ahora,
00:03:34una cosa que señalan aquí es que Opus 4.7 va a usar más tokens
00:03:39que 4.6.
00:03:40Explícitamente declaran que Opus 4.7 usa un tokenizador actualizado y mejora cómo
00:03:45procesa el texto, pero que eso aumenta la cantidad de tokens en la entrada,
00:03:50aproximadamente entre 1 y 1.35 veces, dependiendo del tipo de contenido.
00:03:54Y en segundo lugar, Opus 4.7 piensa más en niveles de esfuerzo más altos.
00:03:58Recuerda eso, porque están configurando el esfuerzo predeterminado en "extra high"
00:04:03cuando antes estaba en medio y Opus 4.7 usa más tokens.
00:04:07Así que si has estado en medio todo este tiempo,
00:04:09nunca lo cambiaste y ya estabas alcanzando los ritmos o límites de uso en
00:04:134.6, ten cuidado con esto. Entiende que definitivamente podrías tener problemas de uso
00:04:18si eres alguien que ya los tenía,
00:04:19porque ahora va a usar incluso más tokens.
00:04:21Lo que también es interesante es que han eliminado el pensamiento extendido también.
00:04:25Y si quieres leer más y profundizar en esta migración,
00:04:28han publicado un documento entero en la documentación.
00:04:30En resumen, parece una actualización realmente sólida.
00:04:32Y estoy emocionado de entrar ahí y probarla por mí mismo.