00:00:00Ya pueden reiniciar el contador de días sin novedades porque hay un nuevo mejor modelo.
00:00:03Esta vez es GPT 5.4; lo he estado probando y esto es lo que necesitan saber, además
00:00:07de sus pros y contras, en 5 minutos y 40 segundos.
00:00:11Aquí están los puntos clave.
00:00:17GPT 5.4 es mejor en trabajo intelectual y búsqueda web, tiene capacidades nativas de uso de PC,
00:00:22hay una nueva función de búsqueda de herramientas que explicaré luego, y se puede guiar a mitad de respuesta,
00:00:26tiene un nuevo modo rápido y también una ventana de contexto de 1 millón de tokens.
00:00:30Al parecer, el objetivo con 5.4 era combinar las capacidades de programación de Codex 5.3 con el conocimiento,
00:00:34la búsqueda web y las habilidades profesionales de GPT 5.2 para hacer del 5.4 el modelo
00:00:40todoterreno definitivo.
00:00:41Y según las pruebas de rendimiento externas de Artificial Analysis, realmente han logrado
00:00:45ese objetivo.
00:00:46Está clasificado como el mejor modelo de programación, el mejor modelo agéntico y también empata con
00:00:49Gemini como el mejor modelo de inteligencia.
00:00:51Si nos centramos en lo que me pareció el punto más interesante, fue su
00:00:55uso nativo de la computadora.
00:00:56OpenAI aparentemente ha diseñado este como su primer modelo de propósito general con capacidades integradas
00:01:00de uso de PC, por lo que debería destacar escribiendo código para operar computadoras mediante librerías como
00:01:04Playwright, así como ejecutando comandos de ratón y teclado en respuesta a capturas de pantalla.
00:01:08Lanzaron una habilidad experimental de Playwright, así que la probé.
00:01:12En Codex, usando 5.4 y razonamiento superior, le di una instrucción para crear una experiencia 3D interactiva
00:01:16del Tower Bridge en Londres.
00:01:18También utilicé la nueva habilidad junto con una de generación de imágenes para que pudiera generar sus propios
00:01:22recursos para usar como texturas.
00:01:24La experiencia en sí fue bastante similar a Codex 5.3, que hasta ahora era mi
00:01:29modelo favorito.
00:01:30Tras unos 20 minutos trabajando en la tarea, fue cuando empezó a usar la
00:01:33nueva habilidad de Playwright, y esa experiencia fue bastante buena.
00:01:37Abría el navegador, hacía clic, navegaba por la escena e identificaba cualquier problema visual
00:01:41que necesitara corregir, como que este fondo no se integraba bien en la escena, y luego volvía
00:01:45al código, lo arreglaba y repetía el proceso; todo se sentía muy fluido y natural.
00:01:50La primera iteración de este proyecto tardó unos 30 minutos en completarse a partir de
00:01:54esa única instrucción, y después envié algunos seguimientos pidiendo más detalles y
00:01:58algunos arreglos, como barcos de lado o que la carretera se cortara con otras texturas, y
00:02:03de nuevo se puso a trabajar en esas tareas durante unos 30 minutos por instrucción, abriendo
00:02:07Chrome, verificando y haciendo cambios hasta darme esta versión final en una hora
00:02:11y media de trabajo y 3 instrucciones; no es perfecta ni mucho menos, pero para ser un
00:02:16desarrollo totalmente autónomo, no creo que esté nada mal. Para mí, este modelo es una
00:02:20actualización lógica para quienes ya les gustaba Codex 5.3.
00:02:24Me pareció gracioso que, tras unas 2 horas de uso, me avisara de
00:02:27que podría haber ahorrado una hora de mi tiempo si me pasaba al nuevo modo rápido.
00:02:31Es exactamente el mismo modelo, con la misma inteligencia y experiencia, solo que ofrece
00:02:35una velocidad de tokens hasta 1.5 veces mayor porque se factura al doble de uso; es esencialmente
00:02:41un nivel de prioridad y no un modelo diferente en absoluto.
00:02:44El otro punto que me pareció especialmente interesante de este lanzamiento fue la búsqueda de herramientas.
00:02:48Esto resuelve el problema de tener todas las definiciones de herramientas cargadas en la instrucción del sistema
00:02:52desde el principio; si tienes demasiadas herramientas y servidores MCP, acabas desperdiciando tokens
00:02:56y saturando el contexto, lo que puede afectar la calidad de la respuesta.
00:03:00Ahora con GPT 5.4, la instrucción tiene una lista ligera de herramientas disponibles y el modelo tiene
00:03:05capacidad de búsqueda de herramientas, así que cuando necesita una, simplemente busca
00:03:09la definición de dicha herramienta y la añade a la conversación justo cuando hace falta.
00:03:13OpenAI afirma que esto reduce el uso de tokens hasta en un 47% y lo demostraron en una prueba
00:03:18con 36 servidores MCP donde mantuvo la misma precisión.
00:03:22Aparte de esas nuevas funciones, este modelo se enfoca realmente en mejorar las herramientas,
00:03:26tanto en cómo las usa el modelo como en cuándo decide usarlas, y esto
00:03:30ha dado sus frutos en las pruebas, aunque sinceramente no hay mucho más que
00:03:34decir aparte de que, sí, el nuevo modelo es mejor que el anterior.
00:03:38Creo que se pueden resumir los pros en que es más inteligente, funciona por más tiempo y
00:03:42usa mejor las herramientas, lo que significa que puede completar tareas más difíciles que el modelo anterior.
00:03:47Sí, noticia de última hora: este modelo es mejor que la versión anterior, pero hablemos
00:03:51ahora de algunos de los contras.
00:03:52El más notable para mí fue la velocidad.
00:03:54Aunque me gusta que mis modelos piensen un poco más, a veces parece que GPT 5.4
00:03:59lo hace demasiado, o tal vez simplemente es lento procesando el pensamiento, y
00:04:04definitivamente no soy el único que lo cree.
00:04:05Los resultados de Artificial Analysis mostraron que GPT 5.4 es el que más tarda en devolver
00:04:09un token por un margen bastante amplio, y lo mismo ocurre con el tiempo
00:04:14en devolver los primeros 500 tokens.
00:04:15No estoy seguro de si es un problema del modelo o del proveedor por ahora, así que quizá
00:04:19mejore con el tiempo, pero una visión más pesimista es que es lento para que
00:04:24uses el nuevo modo rápido.
00:04:26Otro contra es la subida de precio para quienes usan la API.
00:04:29El modelo base cuesta $2.50 por millón de tokens de entrada y $15 por millón de tokens de salida,
00:04:34pero el modelo Pro es el realmente caro.
00:04:37Se cobra a $30 por millón de tokens de entrada y $180 por millón de tokens de salida, e incluso
00:04:43peor: si quieres aprovechar esa nueva ventana de contexto de 1 millón de tokens, cualquier entrada
00:04:47que pase de los 272,000 tokens se facturará al doble de la tarifa normal.
00:04:52Así que quizás convenga compactar el contexto por ahora.
00:04:55El último contra, sin embargo, es el diseño de la interfaz y, aunque es algo subjetivo, le pedí
00:04:59a Opus 4.6 y a GPT 5.4 una web para una cafetería y creo que prefiero a Opus aquí, aunque
00:05:05ninguno de los dos me dejó impresionado.
00:05:07Creo que lo que más me cuesta con GPT 5.4 y algunos otros modelos de GPT
00:05:11es que todos parecen tener una interfaz muy similar.
00:05:14Parece que les encanta este tipo de interfaz de tarjetas translúcidas y, por supuesto, los degradados.
00:05:19Obviamente esta fue solo una prueba que hice, pero en Design Arena este modelo no está
00:05:23muy bien posicionado, así que es algo en lo que OpenAI no es muy fuerte por ahora.
00:05:27En general, diré que lo usaré a diario ya que soy fan de Codex, pero tengo curiosidad
00:05:32por saber qué piensan ustedes.
00:05:33¿Cuál es su modelo preferido?
00:05:34Cuéntenme en los comentarios, y ya que están ahí, suscríbanse y, como siempre, nos vemos
00:05:37en el próximo video.