00:00:00Ya está aquí el mejor modelo nuevo, Opus 4.7. Parece ser una mejora bastante buena, obviamente
00:00:05es mejor programando, pero también ha mejorado en visión, autoverificación y supuestamente
00:00:09es mejor creando interfaces de usuario, haciéndolas más elegantes y creativas.
00:00:12Lo malo es que, aunque el coste no cambió, el tokenizador sí lo hizo, por lo que exactamente
00:00:17el mismo prompt de entrada podría usar ahora hasta un 35% más de tokens y también piensa más, así que
00:00:22son aún más tokens para gastar. Definitivamente hay algunos detalles muy interesantes en este lanzamiento
00:00:26y probablemente un cambio que querrás hacer en Claude Code ahora, así que entremos de lleno, veamos qué
00:00:30hay de nuevo y probémoslo.
00:00:31Ahora, voy a empezar con los benchmarks porque mentí un poco antes cuando dije que este
00:00:40era el nuevo mejor modelo. Es el mejor disponible públicamente, pero estos benchmarks también incluyen
00:00:44a Mythos, el modelo tan potente que aún no se nos permite usar.
00:00:47Según Anthropic, Opus 4.7 está probando nuevas salvaguardas cibernéticas para bloquear peticiones
00:00:52que indiquen usos de ciberseguridad prohibidos o de alto riesgo, y lo que aprendan de eso
00:00:56les ayudará a trabajar hacia un lanzamiento general de los modelos de clase Mythos, así que espero que en el futuro
00:01:00pueda hacer un vídeo sobre el lanzamiento de Mythos y cómo es el fin del desarrollo de software tal
00:01:03como lo conocemos. Suscríbete si no quieres perdértelo.
00:01:06Por ahora, ignoraré a Mythos y me centraré en el que realmente podemos usar, que
00:01:10es Opus 4.7, y este realmente ha logrado grandes avances en los benchmarks.
00:01:13No entraré en demasiados detalles sobre estos y puedes pausar la pantalla si quieres
00:01:16leer los individuales. Puedes ver que en benchmarks como SWE Bench Pro ha dado un salto del 10%
00:01:21sobre Opus 4.6 y en Verified ha dado uno del 7%, y ese patrón continúa prácticamente
00:01:26en el resto de los benchmarks, excepto en ciberseguridad, donde bajó ligeramente, aparentemente
00:01:30relacionado con las salvaguardas que mencioné antes; parece que mantienen
00:01:34esta puntuación baja artificialmente para intentar salvar el mundo o algo así.
00:01:37También encontré un benchmark muy interesante en esa tarjeta del sistema donde parece que el
00:01:40rendimiento de contexto largo aparentemente ha caído en picado comparado con Opus 4.6 al usar
00:01:45una prueba de "aguja en un pajar", así que tengo curiosidad por ver cómo impactará eso en el uso real
00:01:50con el tiempo. Fuera de los benchmarks, también hay otras mejoras notables que podrían
00:01:54incluso cambiar la forma en que usas Claude. La primera es que sigue mejor las instrucciones,
00:01:58lo que significa que podrías tener resultados inesperados con prompts que ya hayas usado
00:02:01antes, ya que los modelos antiguos interpretaban las instrucciones de forma laxa o se saltaban partes, mientras que Opus 4.7
00:02:07está muy enfocado en seguir las instrucciones literalmente, por lo que podrías tener que ajustar
00:02:11algunos prompts. Además, tiene soporte multimodal mejorado, por lo que puede aceptar imágenes de mayor resolución,
00:02:16tres veces la de los modelos antiguos, así que esto debería hacerlo mejor en tareas como el uso del ordenador
00:02:20y la extracción de datos. Su uso de memoria también mejoró, por lo que Opus 4.7 debería ser mejor usando
00:02:25memoria basada en el sistema de archivos, donde recuerda notas importantes a través de largas sesiones de trabajo
00:02:30y las usa para pasar a nuevas tareas que, como resultado, necesitan menos contexto inicial. Quizás
00:02:34eso me ahorre algunos tokens, lo cual es bastante importante ahora, ya que el siguiente cambio es en el tokenizador
00:02:39y el pensamiento. Opus 4.7 utiliza un tokenizador actualizado que mejora cómo el modelo procesa el texto,
00:02:45pero también significa que el mismo prompt de entrada puede costar hasta un 35% más de tokens y cuando
00:02:49combinas esto con el hecho de que Opus 4.7 piensa más en niveles de esfuerzo más altos, este modelo
00:02:54realmente va a quemar muchos tokens. Para empeorar las cosas, también hay un nuevo nivel
00:02:58de esfuerzo extra alto y de hecho está configurado por defecto en Claude Code, así que te recomiendo
00:03:02encarecidamente que pruebes los distintos niveles de esfuerzo y encuentres el que mejor se adapte a ti para ver
00:03:05si podrías bajar de nivel sin notar un impacto. Para comparar, el nuevo
00:03:09nivel de esfuerzo extra alto usa aproximadamente la misma cantidad de tokens que el nivel de esfuerzo máximo de Opus 4.6,
00:03:14y el nivel de esfuerzo alto de Opus 4.7 de hecho supera al nivel de esfuerzo máximo de Opus 4.6 con
00:03:19menos tokens usados. Así que si ya estabas cómodo con lo que tenías antes, usaría esa tabla
00:03:24para comparar porque sé que, en mi caso, probablemente lo cambiaré para usar el nivel de esfuerzo
00:03:27alto en la mayoría de los casos. Con el resumen de lo nuevo terminado, voy a gastar
00:03:31mi cuota de uso y probarlo. Lo primero que voy a comprobar es si es mejor en diseño de interfaces,
00:03:35así que le di un prompt muy sencillo para crear una web de una cafetería solo con un index.html y
00:03:40estoy usando el nivel de esfuerzo máximo en todos los modelos que estoy probando, así que voy a intentar
00:03:43esto en Opus 4.7, 4.6, Gemini 3.1 y GPT 5.4. Este es el resultado que obtuve de Opus 4.7
00:03:51y creo que se ve bastante bien; tiene un buen ambiente de cafetería, ha usado una
00:03:55buena fuente, ha cogido imágenes de Unsplash. En general, no puedo quejarme, es
00:03:59una web bastante sencilla, tiene una buena sección de menú, todo es responsivo y, en general,
00:04:04sí, diría que se ve bastante bien. Si comparamos esto con lo que me dio Opus 4.6, puedes ver que
00:04:09eligió un estilo un poco diferente, pero tiene una fuente similar y una sección de menú parecida
00:04:12y, en general, es un poco peor, diría yo, simplemente porque no ha usado un buen
00:04:16fondo y este degradado no es un buen cambio en absoluto, pero aun así no puedo
00:04:20quejarme mucho; diría que Opus 4.7 está solo un paso por encima de esto. Gemini 3.1, por otro
00:04:25lado, creo que me dio el mejor resultado; al menos este es mi favorito, así que decidme
00:04:29en los comentarios de abajo cuál es el vuestro. Me gusta mucho que tenga este fondo que no
00:04:33se mueve cuando hacemos scroll; creo que lo ha hecho muy bien con esta sección de imágenes en la
00:04:36sección "nuestra historia", el menú se parece a los otros, pero de nuevo, creo que está muy bien
00:04:40diseñado, igual que el pie de página, así que creo que 3.1 gana en esta ocasión. Quedando
00:04:45en último lugar está definitivamente GPT 5.4; tiene ese aspecto y sensación tan típicos de GPT,
00:04:50le encantan este tipo de tarjetas con un bonito desenfoque, y simplemente no es una buena
00:04:55web de cafetería en mi opinión, parece cualquier otra app de GPT que haya visto jamás, así que
00:04:59Opus 4.7 es definitivamente bueno en interfaces y probablemente lo hará aún mejor si se le da
00:05:04más dirección; por el momento, en Design Arena, Opus 4.6 lidera en sitios web,
00:05:09así que espero que 4.7 ocupe su lugar. Obviamente, esa prueba era bastante
00:05:13sencilla, así que a continuación les daré a todos una tarea más avanzada; podéis ver aquí en Claude Code
00:05:17con Opus 4.6 que estoy pidiendo un panel de gestión de finanzas personales que ofrezca una visión
00:05:21detallada de la salud financiera de un individuo con un montón de funciones que tengo en el
00:05:25prompt, y no le estoy dando ninguna indicación sobre el stack tecnológico que debe usar; va a
00:05:30elegirlo todo y empezar de cero. Primero tenemos el resultado de Opus 4.7 y
00:05:34lo hizo todo en un solo prompt en unos 20 minutos y mi reacción inicial es simplemente
00:05:39vaya, esto se ve realmente bien; la interfaz es muy limpia, tiene unos gráficos muy bonitos, todo
00:05:44está bien distribuido, utiliza una buena combinación de colores y, para ser sincero,
00:05:48no hay mucho que yo mismo mejoraría; ha hecho un trabajo fantástico en el diseño de la interfaz
00:05:53y también tiene todas las páginas individuales que pedí; podemos ver todas nuestras cuentas,
00:05:57nuestras transacciones y nuestros presupuestos; en este momento no podemos añadir nuevos presupuestos,
00:06:02parece que esa función no está, igual que con los objetivos, pero sí podemos
00:06:05añadir a nuestros objetivos aquí, los números suben y se actualiza la API del backend
00:06:10que construyó, y lo mismo ocurre si enviamos dinero a personas también; así que si
00:06:14pruebo a pagar mi suscripción a Claude Code aquí, esto debería enviarse con éxito y
00:06:17veo que se ha enviado y en el panel principal mi patrimonio neto se ha actualizado con esa transacción,
00:06:22así que todo funciona ahí y está usando una base de datos en el backend, y también
00:06:26aparece en nuestras transacciones recientes. Mirando el código que generaron,
00:06:30todo se ve bastante bien; usó React y Vite para mi frontend, lo mismo que yo habría
00:06:34hecho, y también usó React Router; tal vez yo habría usado TanStack, pero no importa
00:06:38realmente, ambas son opciones bastante buenas; en todo esto puedes ver que todo está
00:06:42bien organizado, tenemos todos nuestros componentes individuales de interfaz, en general el frontend está muy bien hecho;
00:06:46donde le quitaré puntos es en el backend, porque estamos usando
00:06:51un servidor Express; no hay nada malo en ello, pero yo habría optado por algo
00:06:54como Bun tal vez, o Hono, por lo simple que es esta aplicación, y también la forma en que
00:06:59está almacenando estos datos es toda en memoria; así que si ahora apago el servicio de backend y lo
00:07:04enciendo de nuevo, va a cargar los datos de este script de semilla y estos son solo
00:07:08arrays locales; no tenía ninguna base de datos que respaldara esto. Pasando a lo que me dio Opus 4.6,
00:07:13tengo que decir de inmediato que Opus 4.7 definitivamente hizo un mejor trabajo en cuanto al diseño de la interfaz;
00:07:18hay algo en esta interfaz que no me termina de gustar; no sé si es que tiene
00:07:21demasiado relleno o el hecho de que está en modo claro mientras que la otra estaba
00:07:24en modo oscuro; definitivamente prefiero la de Opus 4.7 en general; tiene componentes bastante similares,
00:07:29sin embargo, puedes ver que tenemos las tarjetas con nuestro patrimonio neto, tenemos un gráfico de tendencia,
00:07:33transacciones recientes y nuestros objetivos financieros, y también tenemos las páginas individuales para seguir
00:07:38estos también. Además de la interfaz, también podemos probar algunas de las funciones; añadiré una nueva
00:07:42transacción aquí, esta va a ser de ciento cincuenta dólares para la compra;
00:07:46parece que se actualiza aquí y también en el panel mi patrimonio neto se actualizó,
00:07:50así que parece estar funcionando; un punto donde Opus 4.6 podría haber superado a Opus
00:07:544.7 en el único prompt es que puedo añadir cuentas aquí; acabo de añadir esta cuenta,
00:07:58y lo mismo ocurre con los objetivos y el presupuesto; también añadí el presupuesto de educación,
00:08:03así que parece que Opus 4.6 añadió algunas funciones más, pero para ser sincero,
00:08:07simplemente le pedí a Opus 4.7 que las añadiera por mí; obviamente, normalmente no estarías haciendo un solo prompt.
00:08:12Echando un vistazo al código, Opus 4.6 siguió una ruta similar con una aplicación Vite-React, pero
00:08:16algo interesante que acabo de notar es que está usando React 19 y React Router
00:08:20DOM 7, mientras que Opus 4.7 optó por React 18 y también React Router 6, a pesar de que estoy bastante
00:08:27seguro de que Opus 4.7 tiene la fecha de corte de conocimiento más reciente. Además de eso, otra victoria para Opus 4.6 es que
00:08:32sí usó una base de datos para el backend, por lo que persistirá los datos; puedes ver que está usando
00:08:36una de SQLite aquí y tenemos algunas de las bases de datos, así que eso es definitivamente una victoria; pero donde
00:08:40pierde es que aparentemente usó JavaScript para todo este proyecto, mientras que Opus 4.7 usó
00:08:45correctamente TypeScript. A continuación tenemos el resultado de GPT 5.4 y, para ser sincero, no tengo
00:08:50ni idea de qué está haciendo aquí; esto no es una interfaz utilizable, se ve muy mal en mi opinión, todo
00:08:55está muy amontonado, no me gusta la fuente y sí, no voy a dedicar
00:08:59mucho tiempo a esto; se ve mucho peor que los de Claude. Puedo confirmar, sin embargo, que
00:09:03sí funciona cuando añadimos algo de dinero, excepto que simplemente refresca toda la página; además,
00:09:07tampoco mejora mucho en el código; aparentemente GPT 5.4 simplemente no quiso empezar
00:09:11un proyecto completo a partir de esto, así que ha optado por un enfoque muy simple donde solo tenemos
00:09:14nuestro index.html, nuestro archivo JavaScript y nuestros estilos, y para la base de datos es también solo
00:09:19un único script de JavaScript; no está usando realmente una base de datos, lo está haciendo todo
00:09:23en memoria como Opus 4.7 y, de nuevo, también ha optado por JavaScript para todo en lugar
00:09:28de TypeScript. En cuanto a Gemini 3.1, seré sincero, tuve muchos problemas intentando hacer que
00:09:32esta app funcionara y de hecho tuve que enviar múltiples prompts de seguimiento solo porque tenía curiosidad
00:09:36por ver qué aspecto tenía esto, y se parece exactamente al de Opus 4.6; no
00:09:41sé si tienen los mismos datos de entrenamiento para la interfaz, pero es muy similar,
00:09:45y ninguna de estas funciones funciona realmente y ninguna de estas pestañas es clicable; Gemini 3.1
00:09:50probablemente lo hizo peor, aunque 5.4 anda cerca, solo por la forma en que creó
00:09:54la aplicación. Diré que Gemini 3.1 sí intentó tomar un buen enfoque al respecto; de hecho,
00:09:59optó por Next.js en lugar de React Router, lo cual es una buena idea porque significa que puedes
00:10:02usar las rutas del servidor API, y esta era una app bastante simple, así que no me opongo a hacerlo,
00:10:07pero diré que usó Prisma cuando yo habría preferido algo como Drizzle.
00:10:10Estas pruebas sinceramente me sorprendieron porque hasta ahora he sido un usuario habitual de Codex
00:10:15y me había alejado de Claude Code, pero Opus 4.7 podría hacerme volver porque tenía
00:10:19un diseño de interfaz muy bonito y la mayor parte de la app parecía funcionar; obviamente todo depende
00:10:24de la calidad del prompt y yo estaba dando un prompt bastante vago sobre el stack; normalmente indicaría
00:10:28exactamente las cosas que quiero, pero aun así, estoy bastante impresionado con el resultado que
00:10:32obtuvimos aquí. Tengo curiosidad por saber qué pensáis, ¿cuál es vuestro modelo preferido en este momento? Decidme
00:10:36en la descripción de abajo mientras estáis por ahí, suscribíos y, como siempre, nos vemos en el
00:10:49próximo.