Ya llegó el nuevo mejor modelo (GPT-5.4)

BBetter Stack
Computing/SoftwareSmall Business/StartupsBusiness NewsInternet Technology

Transcript

00:00:00Ya pueden reiniciar el contador de días sin novedades porque hay un nuevo mejor modelo.
00:00:03Esta vez es GPT 5.4; lo he estado probando y esto es lo que necesitan saber, además
00:00:07de sus pros y contras, en 5 minutos y 40 segundos.
00:00:11Aquí están los puntos clave.
00:00:17GPT 5.4 es mejor en trabajo intelectual y búsqueda web, tiene capacidades nativas de uso de PC,
00:00:22hay una nueva función de búsqueda de herramientas que explicaré luego, y se puede guiar a mitad de respuesta,
00:00:26tiene un nuevo modo rápido y también una ventana de contexto de 1 millón de tokens.
00:00:30Al parecer, el objetivo con 5.4 era combinar las capacidades de programación de Codex 5.3 con el conocimiento,
00:00:34la búsqueda web y las habilidades profesionales de GPT 5.2 para hacer del 5.4 el modelo
00:00:40todoterreno definitivo.
00:00:41Y según las pruebas de rendimiento externas de Artificial Analysis, realmente han logrado
00:00:45ese objetivo.
00:00:46Está clasificado como el mejor modelo de programación, el mejor modelo agéntico y también empata con
00:00:49Gemini como el mejor modelo de inteligencia.
00:00:51Si nos centramos en lo que me pareció el punto más interesante, fue su
00:00:55uso nativo de la computadora.
00:00:56OpenAI aparentemente ha diseñado este como su primer modelo de propósito general con capacidades integradas
00:01:00de uso de PC, por lo que debería destacar escribiendo código para operar computadoras mediante librerías como
00:01:04Playwright, así como ejecutando comandos de ratón y teclado en respuesta a capturas de pantalla.
00:01:08Lanzaron una habilidad experimental de Playwright, así que la probé.
00:01:12En Codex, usando 5.4 y razonamiento superior, le di una instrucción para crear una experiencia 3D interactiva
00:01:16del Tower Bridge en Londres.
00:01:18También utilicé la nueva habilidad junto con una de generación de imágenes para que pudiera generar sus propios
00:01:22recursos para usar como texturas.
00:01:24La experiencia en sí fue bastante similar a Codex 5.3, que hasta ahora era mi
00:01:29modelo favorito.
00:01:30Tras unos 20 minutos trabajando en la tarea, fue cuando empezó a usar la
00:01:33nueva habilidad de Playwright, y esa experiencia fue bastante buena.
00:01:37Abría el navegador, hacía clic, navegaba por la escena e identificaba cualquier problema visual
00:01:41que necesitara corregir, como que este fondo no se integraba bien en la escena, y luego volvía
00:01:45al código, lo arreglaba y repetía el proceso; todo se sentía muy fluido y natural.
00:01:50La primera iteración de este proyecto tardó unos 30 minutos en completarse a partir de
00:01:54esa única instrucción, y después envié algunos seguimientos pidiendo más detalles y
00:01:58algunos arreglos, como barcos de lado o que la carretera se cortara con otras texturas, y
00:02:03de nuevo se puso a trabajar en esas tareas durante unos 30 minutos por instrucción, abriendo
00:02:07Chrome, verificando y haciendo cambios hasta darme esta versión final en una hora
00:02:11y media de trabajo y 3 instrucciones; no es perfecta ni mucho menos, pero para ser un
00:02:16desarrollo totalmente autónomo, no creo que esté nada mal. Para mí, este modelo es una
00:02:20actualización lógica para quienes ya les gustaba Codex 5.3.
00:02:24Me pareció gracioso que, tras unas 2 horas de uso, me avisara de
00:02:27que podría haber ahorrado una hora de mi tiempo si me pasaba al nuevo modo rápido.
00:02:31Es exactamente el mismo modelo, con la misma inteligencia y experiencia, solo que ofrece
00:02:35una velocidad de tokens hasta 1.5 veces mayor porque se factura al doble de uso; es esencialmente
00:02:41un nivel de prioridad y no un modelo diferente en absoluto.
00:02:44El otro punto que me pareció especialmente interesante de este lanzamiento fue la búsqueda de herramientas.
00:02:48Esto resuelve el problema de tener todas las definiciones de herramientas cargadas en la instrucción del sistema
00:02:52desde el principio; si tienes demasiadas herramientas y servidores MCP, acabas desperdiciando tokens
00:02:56y saturando el contexto, lo que puede afectar la calidad de la respuesta.
00:03:00Ahora con GPT 5.4, la instrucción tiene una lista ligera de herramientas disponibles y el modelo tiene
00:03:05capacidad de búsqueda de herramientas, así que cuando necesita una, simplemente busca
00:03:09la definición de dicha herramienta y la añade a la conversación justo cuando hace falta.
00:03:13OpenAI afirma que esto reduce el uso de tokens hasta en un 47% y lo demostraron en una prueba
00:03:18con 36 servidores MCP donde mantuvo la misma precisión.
00:03:22Aparte de esas nuevas funciones, este modelo se enfoca realmente en mejorar las herramientas,
00:03:26tanto en cómo las usa el modelo como en cuándo decide usarlas, y esto
00:03:30ha dado sus frutos en las pruebas, aunque sinceramente no hay mucho más que
00:03:34decir aparte de que, sí, el nuevo modelo es mejor que el anterior.
00:03:38Creo que se pueden resumir los pros en que es más inteligente, funciona por más tiempo y
00:03:42usa mejor las herramientas, lo que significa que puede completar tareas más difíciles que el modelo anterior.
00:03:47Sí, noticia de última hora: este modelo es mejor que la versión anterior, pero hablemos
00:03:51ahora de algunos de los contras.
00:03:52El más notable para mí fue la velocidad.
00:03:54Aunque me gusta que mis modelos piensen un poco más, a veces parece que GPT 5.4
00:03:59lo hace demasiado, o tal vez simplemente es lento procesando el pensamiento, y
00:04:04definitivamente no soy el único que lo cree.
00:04:05Los resultados de Artificial Analysis mostraron que GPT 5.4 es el que más tarda en devolver
00:04:09un token por un margen bastante amplio, y lo mismo ocurre con el tiempo
00:04:14en devolver los primeros 500 tokens.
00:04:15No estoy seguro de si es un problema del modelo o del proveedor por ahora, así que quizá
00:04:19mejore con el tiempo, pero una visión más pesimista es que es lento para que
00:04:24uses el nuevo modo rápido.
00:04:26Otro contra es la subida de precio para quienes usan la API.
00:04:29El modelo base cuesta $2.50 por millón de tokens de entrada y $15 por millón de tokens de salida,
00:04:34pero el modelo Pro es el realmente caro.
00:04:37Se cobra a $30 por millón de tokens de entrada y $180 por millón de tokens de salida, e incluso
00:04:43peor: si quieres aprovechar esa nueva ventana de contexto de 1 millón de tokens, cualquier entrada
00:04:47que pase de los 272,000 tokens se facturará al doble de la tarifa normal.
00:04:52Así que quizás convenga compactar el contexto por ahora.
00:04:55El último contra, sin embargo, es el diseño de la interfaz y, aunque es algo subjetivo, le pedí
00:04:59a Opus 4.6 y a GPT 5.4 una web para una cafetería y creo que prefiero a Opus aquí, aunque
00:05:05ninguno de los dos me dejó impresionado.
00:05:07Creo que lo que más me cuesta con GPT 5.4 y algunos otros modelos de GPT
00:05:11es que todos parecen tener una interfaz muy similar.
00:05:14Parece que les encanta este tipo de interfaz de tarjetas translúcidas y, por supuesto, los degradados.
00:05:19Obviamente esta fue solo una prueba que hice, pero en Design Arena este modelo no está
00:05:23muy bien posicionado, así que es algo en lo que OpenAI no es muy fuerte por ahora.
00:05:27En general, diré que lo usaré a diario ya que soy fan de Codex, pero tengo curiosidad
00:05:32por saber qué piensan ustedes.
00:05:33¿Cuál es su modelo preferido?
00:05:34Cuéntenme en los comentarios, y ya que están ahí, suscríbanse y, como siempre, nos vemos
00:05:37en el próximo video.

Key Takeaway

GPT 5.4 redefine el estándar de la IA al integrar razonamiento avanzado con la capacidad autónoma de operar computadoras y una gestión ultraeficiente de herramientas externas.

Highlights

GPT 5.4 se posiciona como el nuevo líder en programación, tareas agénticas e inteligencia general, superando a sus predecesores.

Introducción de capacidades nativas de uso de PC que permiten al modelo operar el ratón, el teclado y navegar por navegadores de forma autónoma.

La nueva función de "Búsqueda de Herramientas" optimiza el contexto al cargar definiciones de herramientas solo cuando son estrictamente necesarias.

Presentación de un "Modo Rápido" que aumenta la velocidad de generación hasta 1.5 veces, aunque con un coste de facturación duplicado.

Importantes mejoras en la ventana de contexto, alcanzando hasta 1 millón de tokens, aunque con una estructura de precios escalonada y costosa.

A pesar de su potencia intelectual, el modelo muestra debilidades en el diseño visual de interfaces y en la latencia de respuesta inicial.

Timeline

Introducción y Capacidades Principales de GPT 5.4

El narrador presenta a GPT 5.4 como el nuevo modelo dominante en el mercado de la inteligencia artificial. Se destacan sus mejoras en el trabajo intelectual, la búsqueda web y su innovadora capacidad nativa para el uso de computadoras. El objetivo de esta versión es amalgamar la destreza en programación de Codex con las habilidades profesionales de versiones anteriores como la 5.2. Según análisis externos de Artificial Analysis, el modelo ya lidera los rankings en categorías de programación y comportamiento agéntico. Esta sección establece la premisa de que estamos ante una herramienta todoterreno diseñada para la máxima productividad.

Prueba de Uso de PC y Autonomía en Programación

Se detalla una prueba práctica donde el modelo utiliza la librería Playwright para crear una experiencia 3D del Tower Bridge en Londres. El autor observa cómo GPT 5.4 es capaz de abrir Chrome, identificar errores visuales en el renderizado y corregir el código de forma autónoma. La integración de generación de imágenes para texturas permite que el flujo de trabajo sea casi totalmente independiente de la intervención humana. Tras una hora y media de ejecución y solo tres instrucciones, el modelo logró un resultado funcional aunque no perfecto. Este experimento demuestra el salto cualitativo hacia una IA que no solo escribe código, sino que también lo ejecuta y verifica.

Modo Rápido y Optimización de Herramientas

El video explica el nuevo "Modo Rápido", que ofrece prioridad de procesamiento para alcanzar velocidades de generación 1.5 veces superiores a cambio de un precio mayor. Un aspecto técnico crucial mencionado es la "Búsqueda de Herramientas", que soluciona el problema de saturar la ventana de contexto con demasiadas funciones. En lugar de cargar todo al inicio, el modelo busca la definición de la herramienta necesaria dinámicamente durante la conversación. OpenAI reporta que esta técnica reduce el consumo de tokens en un 47% sin sacrificar la precisión en servidores MCP. Gracias a esto, el modelo puede manejar tareas más complejas y de larga duración con mayor eficiencia.

Análisis de Desventajas: Velocidad, Costes y Diseño

A pesar de sus virtudes, el autor señala que GPT 5.4 sufre de una latencia notable, siendo el modelo más lento en entregar el primer token según métricas actuales. Se discute la estructura de precios de la API, la cual se encarece significativamente al usar el modelo Pro o superar ciertos límites en la ventana de contexto. En cuanto a la estética, el modelo muestra una tendencia repetitiva hacia interfaces con degradados y tarjetas traslúcidas que no convencen a los expertos en diseño. El video concluye comparando estos resultados con otros modelos como Opus 4.6, destacando que OpenAI aún tiene margen de mejora en la parte visual. Finalmente, el narrador invita a la audiencia a compartir su modelo preferido tras este análisis crítico de pros y contras.

Community Posts

View all posts