Claude lanzó Opus 4.7 y no tiene competencia

CChase AI
컴퓨터/소프트웨어경제 뉴스가전제품/카메라AI/미래기술

Transcript

00:00:00Opus 4.7 acaba de salir y, por los números,
00:00:04esta es una mejora masiva. Así que profundicemos. Primero,
00:00:08los benchmarks. Ahora muestran Mythos aquí a la derecha,
00:00:12solo para tentarnos con cosas que ya existen.
00:00:15Pero a lo que realmente quiero prestar atención es a 4.7 frente a 4.6 porque quién sabe
00:00:20cuándo estará disponible Mythos y, por las cifras,
00:00:23este es un salto adelante muy sólido, especialmente en temas como programación.
00:00:28Si observamos la programación agéntica, vemos un salto de 53 a 64,
00:00:32de 80 a 87,
00:00:34y luego de 65 a 69 en las tres grandes pruebas que son SWE-bench
00:00:39Pro, SWE-bench Verified y Terminal Bench 2.0.
00:00:42Los únicos lugares donde vemos que los benchmarks de Opus 4.7
00:00:46no están por encima de todos los demás modelos,
00:00:49excepto por Mythos, es en búsqueda agéntica donde miramos a GPT 5.4.
00:00:54Está en 89.3 frente a Opus 4.7,
00:00:57que curiosamente ha bajado respecto a 4.6, lo cual, ya sabes,
00:01:01cuando ves cosas así,
00:01:02donde muestran benchmarks en los que ha bajado desde Opus 4.6,
00:01:06te preguntas si simplemente los insertan. Es como: "Oh no,
00:01:08estos benchmarks son legítimos, chicos. No mentiríamos sobre esto. Miren,
00:01:11miren esto". Eh,
00:01:12pero 5.4 va por delante en búsqueda agéntica y también lo ves por delante en razonamiento
00:01:17de nivel de posgrado. Ahora, otra área donde vemos una mejora masiva es el razonamiento visual.
00:01:21Saltamos de 69 a 82,
00:01:25y eso podría tener algo que ver con el hecho de que este modelo tiene una visión
00:01:29mucho mejor.
00:01:29Nos dicen que las imágenes que introduces en Opus 4.7 tienen ahora
00:01:34el triple de resolución, lo cual es enorme.
00:01:36Si estás haciendo algo con diagramas o texto pequeño,
00:01:38y vemos esas mismas cifras reflejadas aquí en estos gráficos.
00:01:42Mejoras en trabajo de conocimiento, visión, un salto enorme en razonamiento de documentos,
00:01:46de 57.1 a 80.6, lo cual es una gran ventaja.
00:01:50Si eres alguien que usa algo como Cowork,
00:01:52lo usas en un entorno de oficina y todo lo que haces en el día es alimentarlo
00:01:55con documentos. El razonamiento de contexto largo también es importante.
00:01:57Constantemente insistimos en este canal sobre el deterioro del contexto y la idea de que
00:02:02debemos estar muy enfocados en la gestión de la sesión. No creo que eso cambie en absoluto.
00:02:07Pasar de 71 a 75 es genial.
00:02:09No creo que debas cambiar la agresividad con la que limpias, es decir, cada vez que estés al 20%
00:02:13o 25% de la ventana de contexto, deberías limpiar, pero esto es una mejora.
00:02:17Nos encanta ver esto. Y este también es interesante.
00:02:19Este benchmark de programación que tiene que ver con lo multimodal. Están programando,
00:02:22pero esto también incluye situaciones en las que le lanzan un contexto que contiene
00:02:25cosas como imágenes. Y no creo que esto sea ninguna sorpresa.
00:02:28Y creo que mucho de eso tiene que ver con la resolución.
00:02:30Ahora, además del modelo en sí, se hicieron algunas actualizaciones más.
00:02:32La más grande es un mayor control del esfuerzo. Ahora hay un nivel "X-high",
00:02:37probablemente copiado de OpenAI, entre "high" y "max".
00:02:40Y además de eso, Claude Code ahora viene por defecto en "extra high".
00:02:44Creo que esto es probablemente una respuesta a mucha gente que afirmaba que Opus 4.6
00:02:48estaba limitado. Y luego Boris Cherny, el creador de Opus, bueno, no el creador de Opus,
00:02:52el creador de Claude Code, salió y dijo, bueno,
00:02:54en realidad movimos el nivel de razonamiento por defecto, el nivel de esfuerzo por defecto,
00:02:58a medio. Así que el hecho de que salieran con "X-high",
00:03:01creo que es una respuesta a eso para hacerlo, entre comillas, "mejor" e
00:03:05intentar que se esfuerce más sin empujar a la gente al máximo, porque entonces la balanza se inclina
00:03:10y todos se quejan de que su límite de uso se agota. Y recuerda,
00:03:12si quieres cambiar eso,
00:03:13todo lo que necesitas hacer es escribir /effort y luego establecer tu nivel.
00:03:16La mayor resolución también está en la API.
00:03:19Y luego también han lanzado el nuevo comando de barra /ultra-review.
00:03:24Así que obtiene una sesión de revisión dedicada además de eso.
00:03:28También han extendido el modo automático. Y si no conoces el modo automático,
00:03:31es básicamente una alternativa a saltarse los permisos peligrosamente. Ahora,
00:03:34una cosa que señalan aquí es que Opus 4.7 va a usar más tokens
00:03:39que 4.6.
00:03:40Explícitamente declaran que Opus 4.7 usa un tokenizador actualizado y mejora cómo
00:03:45procesa el texto, pero que eso aumenta la cantidad de tokens en la entrada,
00:03:50aproximadamente entre 1 y 1.35 veces, dependiendo del tipo de contenido.
00:03:54Y en segundo lugar, Opus 4.7 piensa más en niveles de esfuerzo más altos.
00:03:58Recuerda eso, porque están configurando el esfuerzo predeterminado en "extra high"
00:04:03cuando antes estaba en medio y Opus 4.7 usa más tokens.
00:04:07Así que si has estado en medio todo este tiempo,
00:04:09nunca lo cambiaste y ya estabas alcanzando los ritmos o límites de uso en
00:04:134.6, ten cuidado con esto. Entiende que definitivamente podrías tener problemas de uso
00:04:18si eres alguien que ya los tenía,
00:04:19porque ahora va a usar incluso más tokens.
00:04:21Lo que también es interesante es que han eliminado el pensamiento extendido también.
00:04:25Y si quieres leer más y profundizar en esta migración,
00:04:28han publicado un documento entero en la documentación.
00:04:30En resumen, parece una actualización realmente sólida.
00:04:32Y estoy emocionado de entrar ahí y probarla por mí mismo.

Key Takeaway

Claude Opus 4.7 supera a la versión 4.6 mediante una resolución de imagen triplicada y mejoras en programación agéntica, aunque incrementa el consumo de tokens hasta en un 35% al establecer el nivel de esfuerzo 'X-high' por defecto.

Highlights

Opus 4.7 incrementa el rendimiento en programación agéntica con saltos de 53 a 64 en SWE-bench Pro y de 80 a 87 en SWE-bench Verified.

La resolución de las imágenes procesadas por el modelo es ahora tres veces mayor que en versiones anteriores.

El razonamiento de documentos mejora drásticamente de un puntaje de 57.1 a 80.6.

El uso de tokens de entrada aumenta entre 1 y 1.35 veces respecto a la versión 4.6 debido a un nuevo tokenizador y procesos de texto actualizados.

El nivel de esfuerzo predeterminado cambia de medio a 'X-high', lo que incrementa el consumo de recursos pero mejora la calidad de las respuestas.

El razonamiento visual sube de 69 a 82 puntos gracias a la mayor capacidad de procesamiento de detalles en diagramas y textos pequeños.

Timeline

Comparativa de benchmarks y rendimiento técnico

  • Opus 4.7 muestra un progreso sólido frente a la versión 4.6 en pruebas de programación como Terminal Bench 2.0.
  • GPT 5.4 mantiene la ventaja sobre Opus 4.7 en búsqueda agéntica y razonamiento de nivel de posgrado.
  • El rendimiento en búsqueda agéntica de Opus 4.7 registró un descenso ligero en comparación con la versión 4.6.

Los datos reflejan un avance significativo en tareas de código y ejecución de agentes. Mientras Opus 4.7 domina en la mayoría de las métricas de programación, todavía compite por debajo de modelos específicos de OpenAI en áreas de razonamiento académico complejo. La transparencia en los benchmarks incluye resultados donde el modelo actual rinde menos que su predecesor, lo que otorga legitimidad a las cifras presentadas.

Capacidades visuales y procesamiento de documentos

  • El razonamiento visual asciende a 82 puntos debido a la triplicación de la resolución de entrada.
  • El razonamiento de contexto largo mejora de 71 a 75 puntos.
  • La integración multimodal permite programar con contextos que incluyen imágenes de alta precisión.

La mayor densidad de píxeles facilita la interpretación de diagramas complejos y tipografías reducidas en entornos de oficina. A pesar de la mejora en la ventana de contexto, la gestión de la sesión sigue siendo crítica, recomendando limpiar el historial al alcanzar el 25% de la capacidad para evitar el deterioro del rendimiento. El salto en el razonamiento de documentos de 57.1 a 80.6 posiciona al modelo como una herramienta robusta para el análisis de archivos extensos.

Nuevos controles de esfuerzo y actualizaciones de API

  • El comando /effort permite configurar el nivel de razonamiento entre 'high', 'X-high' y 'max'.
  • Claude Code utiliza ahora el nivel 'extra high' de forma predeterminada para maximizar resultados.
  • El nuevo comando /ultra-review habilita sesiones de revisión dedicadas para tareas críticas.

La introducción del nivel 'X-high' responde a las percepciones de limitaciones en la versión 4.6, buscando un equilibrio entre potencia de razonamiento y límites de uso. Esta actualización se refleja tanto en la interfaz de usuario como en la API, permitiendo a los desarrolladores mayor control sobre cuánto intenta 'pensar' el modelo antes de entregar una respuesta. Además, se ha extendido el modo automático como una alternativa segura para gestionar permisos de ejecución.

Impacto en el consumo de tokens y cambios en la arquitectura

  • El nuevo tokenizador de Opus 4.7 genera un incremento de hasta el 35% en la cantidad de tokens procesados.
  • El pensamiento extendido ha sido eliminado en esta versión del modelo.
  • El nivel de esfuerzo predeterminado más alto acelera el agotamiento de los límites de uso diario.

La mejora en la calidad del procesamiento de texto conlleva un costo operativo mayor para el usuario. Los usuarios que ya alcanzaban sus límites de mensajes en la versión 4.6 notarán una restricción más rápida debido a la combinación de un tokenizador más denso y un nivel de esfuerzo inicial más exigente. Anthropic ha documentado estos cambios estructurales para facilitar la migración de los desarrolladores que dependen de la precisión del modelo.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video