Opus 4.7 es GENIAL (excepto por el uso de tokens)

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Ya está aquí el mejor modelo nuevo, Opus 4.7. Parece ser una mejora bastante buena, obviamente
00:00:05es mejor programando, pero también ha mejorado en visión, autoverificación y supuestamente
00:00:09es mejor creando interfaces de usuario, haciéndolas más elegantes y creativas.
00:00:12Lo malo es que, aunque el coste no cambió, el tokenizador sí lo hizo, por lo que exactamente
00:00:17el mismo prompt de entrada podría usar ahora hasta un 35% más de tokens y también piensa más, así que
00:00:22son aún más tokens para gastar. Definitivamente hay algunos detalles muy interesantes en este lanzamiento
00:00:26y probablemente un cambio que querrás hacer en Claude Code ahora, así que entremos de lleno, veamos qué
00:00:30hay de nuevo y probémoslo.
00:00:31Ahora, voy a empezar con los benchmarks porque mentí un poco antes cuando dije que este
00:00:40era el nuevo mejor modelo. Es el mejor disponible públicamente, pero estos benchmarks también incluyen
00:00:44a Mythos, el modelo tan potente que aún no se nos permite usar.
00:00:47Según Anthropic, Opus 4.7 está probando nuevas salvaguardas cibernéticas para bloquear peticiones
00:00:52que indiquen usos de ciberseguridad prohibidos o de alto riesgo, y lo que aprendan de eso
00:00:56les ayudará a trabajar hacia un lanzamiento general de los modelos de clase Mythos, así que espero que en el futuro
00:01:00pueda hacer un vídeo sobre el lanzamiento de Mythos y cómo es el fin del desarrollo de software tal
00:01:03como lo conocemos. Suscríbete si no quieres perdértelo.
00:01:06Por ahora, ignoraré a Mythos y me centraré en el que realmente podemos usar, que
00:01:10es Opus 4.7, y este realmente ha logrado grandes avances en los benchmarks.
00:01:13No entraré en demasiados detalles sobre estos y puedes pausar la pantalla si quieres
00:01:16leer los individuales. Puedes ver que en benchmarks como SWE Bench Pro ha dado un salto del 10%
00:01:21sobre Opus 4.6 y en Verified ha dado uno del 7%, y ese patrón continúa prácticamente
00:01:26en el resto de los benchmarks, excepto en ciberseguridad, donde bajó ligeramente, aparentemente
00:01:30relacionado con las salvaguardas que mencioné antes; parece que mantienen
00:01:34esta puntuación baja artificialmente para intentar salvar el mundo o algo así.
00:01:37También encontré un benchmark muy interesante en esa tarjeta del sistema donde parece que el
00:01:40rendimiento de contexto largo aparentemente ha caído en picado comparado con Opus 4.6 al usar
00:01:45una prueba de "aguja en un pajar", así que tengo curiosidad por ver cómo impactará eso en el uso real
00:01:50con el tiempo. Fuera de los benchmarks, también hay otras mejoras notables que podrían
00:01:54incluso cambiar la forma en que usas Claude. La primera es que sigue mejor las instrucciones,
00:01:58lo que significa que podrías tener resultados inesperados con prompts que ya hayas usado
00:02:01antes, ya que los modelos antiguos interpretaban las instrucciones de forma laxa o se saltaban partes, mientras que Opus 4.7
00:02:07está muy enfocado en seguir las instrucciones literalmente, por lo que podrías tener que ajustar
00:02:11algunos prompts. Además, tiene soporte multimodal mejorado, por lo que puede aceptar imágenes de mayor resolución,
00:02:16tres veces la de los modelos antiguos, así que esto debería hacerlo mejor en tareas como el uso del ordenador
00:02:20y la extracción de datos. Su uso de memoria también mejoró, por lo que Opus 4.7 debería ser mejor usando
00:02:25memoria basada en el sistema de archivos, donde recuerda notas importantes a través de largas sesiones de trabajo
00:02:30y las usa para pasar a nuevas tareas que, como resultado, necesitan menos contexto inicial. Quizás
00:02:34eso me ahorre algunos tokens, lo cual es bastante importante ahora, ya que el siguiente cambio es en el tokenizador
00:02:39y el pensamiento. Opus 4.7 utiliza un tokenizador actualizado que mejora cómo el modelo procesa el texto,
00:02:45pero también significa que el mismo prompt de entrada puede costar hasta un 35% más de tokens y cuando
00:02:49combinas esto con el hecho de que Opus 4.7 piensa más en niveles de esfuerzo más altos, este modelo
00:02:54realmente va a quemar muchos tokens. Para empeorar las cosas, también hay un nuevo nivel
00:02:58de esfuerzo extra alto y de hecho está configurado por defecto en Claude Code, así que te recomiendo
00:03:02encarecidamente que pruebes los distintos niveles de esfuerzo y encuentres el que mejor se adapte a ti para ver
00:03:05si podrías bajar de nivel sin notar un impacto. Para comparar, el nuevo
00:03:09nivel de esfuerzo extra alto usa aproximadamente la misma cantidad de tokens que el nivel de esfuerzo máximo de Opus 4.6,
00:03:14y el nivel de esfuerzo alto de Opus 4.7 de hecho supera al nivel de esfuerzo máximo de Opus 4.6 con
00:03:19menos tokens usados. Así que si ya estabas cómodo con lo que tenías antes, usaría esa tabla
00:03:24para comparar porque sé que, en mi caso, probablemente lo cambiaré para usar el nivel de esfuerzo
00:03:27alto en la mayoría de los casos. Con el resumen de lo nuevo terminado, voy a gastar
00:03:31mi cuota de uso y probarlo. Lo primero que voy a comprobar es si es mejor en diseño de interfaces,
00:03:35así que le di un prompt muy sencillo para crear una web de una cafetería solo con un index.html y
00:03:40estoy usando el nivel de esfuerzo máximo en todos los modelos que estoy probando, así que voy a intentar
00:03:43esto en Opus 4.7, 4.6, Gemini 3.1 y GPT 5.4. Este es el resultado que obtuve de Opus 4.7
00:03:51y creo que se ve bastante bien; tiene un buen ambiente de cafetería, ha usado una
00:03:55buena fuente, ha cogido imágenes de Unsplash. En general, no puedo quejarme, es
00:03:59una web bastante sencilla, tiene una buena sección de menú, todo es responsivo y, en general,
00:04:04sí, diría que se ve bastante bien. Si comparamos esto con lo que me dio Opus 4.6, puedes ver que
00:04:09eligió un estilo un poco diferente, pero tiene una fuente similar y una sección de menú parecida
00:04:12y, en general, es un poco peor, diría yo, simplemente porque no ha usado un buen
00:04:16fondo y este degradado no es un buen cambio en absoluto, pero aun así no puedo
00:04:20quejarme mucho; diría que Opus 4.7 está solo un paso por encima de esto. Gemini 3.1, por otro
00:04:25lado, creo que me dio el mejor resultado; al menos este es mi favorito, así que decidme
00:04:29en los comentarios de abajo cuál es el vuestro. Me gusta mucho que tenga este fondo que no
00:04:33se mueve cuando hacemos scroll; creo que lo ha hecho muy bien con esta sección de imágenes en la
00:04:36sección "nuestra historia", el menú se parece a los otros, pero de nuevo, creo que está muy bien
00:04:40diseñado, igual que el pie de página, así que creo que 3.1 gana en esta ocasión. Quedando
00:04:45en último lugar está definitivamente GPT 5.4; tiene ese aspecto y sensación tan típicos de GPT,
00:04:50le encantan este tipo de tarjetas con un bonito desenfoque, y simplemente no es una buena
00:04:55web de cafetería en mi opinión, parece cualquier otra app de GPT que haya visto jamás, así que
00:04:59Opus 4.7 es definitivamente bueno en interfaces y probablemente lo hará aún mejor si se le da
00:05:04más dirección; por el momento, en Design Arena, Opus 4.6 lidera en sitios web,
00:05:09así que espero que 4.7 ocupe su lugar. Obviamente, esa prueba era bastante
00:05:13sencilla, así que a continuación les daré a todos una tarea más avanzada; podéis ver aquí en Claude Code
00:05:17con Opus 4.6 que estoy pidiendo un panel de gestión de finanzas personales que ofrezca una visión
00:05:21detallada de la salud financiera de un individuo con un montón de funciones que tengo en el
00:05:25prompt, y no le estoy dando ninguna indicación sobre el stack tecnológico que debe usar; va a
00:05:30elegirlo todo y empezar de cero. Primero tenemos el resultado de Opus 4.7 y
00:05:34lo hizo todo en un solo prompt en unos 20 minutos y mi reacción inicial es simplemente
00:05:39vaya, esto se ve realmente bien; la interfaz es muy limpia, tiene unos gráficos muy bonitos, todo
00:05:44está bien distribuido, utiliza una buena combinación de colores y, para ser sincero,
00:05:48no hay mucho que yo mismo mejoraría; ha hecho un trabajo fantástico en el diseño de la interfaz
00:05:53y también tiene todas las páginas individuales que pedí; podemos ver todas nuestras cuentas,
00:05:57nuestras transacciones y nuestros presupuestos; en este momento no podemos añadir nuevos presupuestos,
00:06:02parece que esa función no está, igual que con los objetivos, pero sí podemos
00:06:05añadir a nuestros objetivos aquí, los números suben y se actualiza la API del backend
00:06:10que construyó, y lo mismo ocurre si enviamos dinero a personas también; así que si
00:06:14pruebo a pagar mi suscripción a Claude Code aquí, esto debería enviarse con éxito y
00:06:17veo que se ha enviado y en el panel principal mi patrimonio neto se ha actualizado con esa transacción,
00:06:22así que todo funciona ahí y está usando una base de datos en el backend, y también
00:06:26aparece en nuestras transacciones recientes. Mirando el código que generaron,
00:06:30todo se ve bastante bien; usó React y Vite para mi frontend, lo mismo que yo habría
00:06:34hecho, y también usó React Router; tal vez yo habría usado TanStack, pero no importa
00:06:38realmente, ambas son opciones bastante buenas; en todo esto puedes ver que todo está
00:06:42bien organizado, tenemos todos nuestros componentes individuales de interfaz, en general el frontend está muy bien hecho;
00:06:46donde le quitaré puntos es en el backend, porque estamos usando
00:06:51un servidor Express; no hay nada malo en ello, pero yo habría optado por algo
00:06:54como Bun tal vez, o Hono, por lo simple que es esta aplicación, y también la forma en que
00:06:59está almacenando estos datos es toda en memoria; así que si ahora apago el servicio de backend y lo
00:07:04enciendo de nuevo, va a cargar los datos de este script de semilla y estos son solo
00:07:08arrays locales; no tenía ninguna base de datos que respaldara esto. Pasando a lo que me dio Opus 4.6,
00:07:13tengo que decir de inmediato que Opus 4.7 definitivamente hizo un mejor trabajo en cuanto al diseño de la interfaz;
00:07:18hay algo en esta interfaz que no me termina de gustar; no sé si es que tiene
00:07:21demasiado relleno o el hecho de que está en modo claro mientras que la otra estaba
00:07:24en modo oscuro; definitivamente prefiero la de Opus 4.7 en general; tiene componentes bastante similares,
00:07:29sin embargo, puedes ver que tenemos las tarjetas con nuestro patrimonio neto, tenemos un gráfico de tendencia,
00:07:33transacciones recientes y nuestros objetivos financieros, y también tenemos las páginas individuales para seguir
00:07:38estos también. Además de la interfaz, también podemos probar algunas de las funciones; añadiré una nueva
00:07:42transacción aquí, esta va a ser de ciento cincuenta dólares para la compra;
00:07:46parece que se actualiza aquí y también en el panel mi patrimonio neto se actualizó,
00:07:50así que parece estar funcionando; un punto donde Opus 4.6 podría haber superado a Opus
00:07:544.7 en el único prompt es que puedo añadir cuentas aquí; acabo de añadir esta cuenta,
00:07:58y lo mismo ocurre con los objetivos y el presupuesto; también añadí el presupuesto de educación,
00:08:03así que parece que Opus 4.6 añadió algunas funciones más, pero para ser sincero,
00:08:07simplemente le pedí a Opus 4.7 que las añadiera por mí; obviamente, normalmente no estarías haciendo un solo prompt.
00:08:12Echando un vistazo al código, Opus 4.6 siguió una ruta similar con una aplicación Vite-React, pero
00:08:16algo interesante que acabo de notar es que está usando React 19 y React Router
00:08:20DOM 7, mientras que Opus 4.7 optó por React 18 y también React Router 6, a pesar de que estoy bastante
00:08:27seguro de que Opus 4.7 tiene la fecha de corte de conocimiento más reciente. Además de eso, otra victoria para Opus 4.6 es que
00:08:32sí usó una base de datos para el backend, por lo que persistirá los datos; puedes ver que está usando
00:08:36una de SQLite aquí y tenemos algunas de las bases de datos, así que eso es definitivamente una victoria; pero donde
00:08:40pierde es que aparentemente usó JavaScript para todo este proyecto, mientras que Opus 4.7 usó
00:08:45correctamente TypeScript. A continuación tenemos el resultado de GPT 5.4 y, para ser sincero, no tengo
00:08:50ni idea de qué está haciendo aquí; esto no es una interfaz utilizable, se ve muy mal en mi opinión, todo
00:08:55está muy amontonado, no me gusta la fuente y sí, no voy a dedicar
00:08:59mucho tiempo a esto; se ve mucho peor que los de Claude. Puedo confirmar, sin embargo, que
00:09:03sí funciona cuando añadimos algo de dinero, excepto que simplemente refresca toda la página; además,
00:09:07tampoco mejora mucho en el código; aparentemente GPT 5.4 simplemente no quiso empezar
00:09:11un proyecto completo a partir de esto, así que ha optado por un enfoque muy simple donde solo tenemos
00:09:14nuestro index.html, nuestro archivo JavaScript y nuestros estilos, y para la base de datos es también solo
00:09:19un único script de JavaScript; no está usando realmente una base de datos, lo está haciendo todo
00:09:23en memoria como Opus 4.7 y, de nuevo, también ha optado por JavaScript para todo en lugar
00:09:28de TypeScript. En cuanto a Gemini 3.1, seré sincero, tuve muchos problemas intentando hacer que
00:09:32esta app funcionara y de hecho tuve que enviar múltiples prompts de seguimiento solo porque tenía curiosidad
00:09:36por ver qué aspecto tenía esto, y se parece exactamente al de Opus 4.6; no
00:09:41sé si tienen los mismos datos de entrenamiento para la interfaz, pero es muy similar,
00:09:45y ninguna de estas funciones funciona realmente y ninguna de estas pestañas es clicable; Gemini 3.1
00:09:50probablemente lo hizo peor, aunque 5.4 anda cerca, solo por la forma en que creó
00:09:54la aplicación. Diré que Gemini 3.1 sí intentó tomar un buen enfoque al respecto; de hecho,
00:09:59optó por Next.js en lugar de React Router, lo cual es una buena idea porque significa que puedes
00:10:02usar las rutas del servidor API, y esta era una app bastante simple, así que no me opongo a hacerlo,
00:10:07pero diré que usó Prisma cuando yo habría preferido algo como Drizzle.
00:10:10Estas pruebas sinceramente me sorprendieron porque hasta ahora he sido un usuario habitual de Codex
00:10:15y me había alejado de Claude Code, pero Opus 4.7 podría hacerme volver porque tenía
00:10:19un diseño de interfaz muy bonito y la mayor parte de la app parecía funcionar; obviamente todo depende
00:10:24de la calidad del prompt y yo estaba dando un prompt bastante vago sobre el stack; normalmente indicaría
00:10:28exactamente las cosas que quiero, pero aun así, estoy bastante impresionado con el resultado que
00:10:32obtuvimos aquí. Tengo curiosidad por saber qué pensáis, ¿cuál es vuestro modelo preferido en este momento? Decidme
00:10:36en la descripción de abajo mientras estáis por ahí, suscribíos y, como siempre, nos vemos en el
00:10:49próximo.

Key Takeaway

Opus 4.7 domina el desarrollo de software y diseño de interfaces con mejoras del 10% en benchmarks técnicos, aunque penaliza al usuario con un aumento del 35% en el gasto de tokens por el nuevo procesamiento del modelo.

Highlights

Opus 4.7 incrementa el consumo de tokens en un 35% por prompt debido a un nuevo tokenizador y niveles de pensamiento más profundos.

El rendimiento en SWE Bench Pro mejora un 10% respecto a la versión 4.6, consolidando su liderazgo en programación y resolución de problemas técnicos.

El soporte multimodal ahora procesa imágenes con una resolución tres veces mayor que los modelos anteriores para optimizar tareas de extracción de datos.

Un nuevo nivel de esfuerzo "Extra Alto" se establece por defecto en Claude Code, igualando el gasto de tokens del nivel máximo de la versión anterior.

En pruebas de desarrollo de interfaces, Opus 4.7 generó un panel financiero completo y funcional en 20 minutos utilizando React, Vite y TypeScript.

Timeline

Novedades técnicas y rendimiento en benchmarks

  • Opus 4.7 supera a la versión 4.6 con saltos de rendimiento del 10% en SWE Bench Pro y del 7% en Verified.
  • Nuevas salvaguardas cibernéticas restringen artificialmente la capacidad del modelo en tareas de ciberseguridad para mitigar riesgos de uso prohibido.
  • Pruebas de contexto largo muestran una degradación en la precisión del modelo al localizar información específica en grandes volúmenes de datos.

El modelo se posiciona como el mejor disponible públicamente, quedando solo por debajo de la serie Mythos que aún no tiene lanzamiento general. Estas mejoras en la programación vienen acompañadas de un enfoque estricto en la seguridad, lo que explica la ligera caída en los puntajes de ciberseguridad. La arquitectura actual prioriza la eficiencia en tareas lógicas sobre la retención perfecta en contextos masivos según las pruebas de aguja en un pajar.

Cambios en instrucciones, visión y memoria

  • La adherencia literal a las instrucciones requiere ajustar prompts antiguos que dependían de la interpretación laxa de modelos previos.
  • La capacidad multimodal mejorada permite procesar detalles visuales más finos al triplicar la resolución de entrada admitida.
  • El sistema de memoria optimizado reduce la necesidad de contexto inicial al recordar notas y estados previos de archivos del sistema.

El seguimiento de instrucciones es ahora más estricto, eliminando la tendencia del modelo a saltarse partes del comando. Esta precisión se traslada a la visión, donde el aumento de resolución facilita el uso del ordenador por parte del agente y la lectura de documentos complejos. La mejora en la gestión de memoria permite transiciones más fluidas entre tareas sin saturar la ventana de contexto con información repetitiva.

Impacto del nuevo tokenizador y gestión de costes

  • El tokenizador actualizado procesa el texto de forma más granular, elevando el coste de un mismo prompt hasta en un 35%.
  • El nivel de esfuerzo 'Alto' de Opus 4.7 supera en razonamiento al nivel 'Máximo' de la versión 4.6 consumiendo menos recursos.
  • La configuración predeterminada en Claude Code utiliza el nivel 'Extra Alto', lo que acelera el agotamiento de las cuotas de uso.

El aumento en el consumo de tokens es el principal inconveniente de esta actualización. Se recomienda a los usuarios probar niveles de esfuerzo inferiores para equilibrar la calidad de la respuesta con el presupuesto de tokens. El modelo piensa más tiempo y con mayor profundidad, lo que se traduce en respuestas más precisas pero significativamente más caras en términos de recursos computacionales.

Comparativa de diseño de interfaces y generación de código

  • Opus 4.7 genera interfaces de usuario con estéticas más modernas y limpias que GPT 5.4 y versiones anteriores de Claude.
  • El modelo optó por TypeScript y React 18 para el desarrollo de un panel financiero, priorizando la estructura del código sobre la persistencia de datos.
  • Gemini 3.1 mostró una arquitectura superior al elegir Next.js y rutas de servidor, aunque falló en la ejecución de la lógica del lado del cliente.

En una prueba de creación de una web para una cafetería y un panel financiero, Opus 4.7 demostró una sensibilidad de diseño superior, aunque no incluyó persistencia de datos en base de datos. Por el contrario, Opus 4.6 sí integró SQLite pero falló al usar JavaScript simple en lugar de TypeScript. GPT 5.4 quedó rezagado con diseños saturados y arquitecturas de archivo único que no cumplen con los estándares modernos de desarrollo web.

Community Posts

View all posts