Puse a prueba DeepSeek V4 vs. Claude Code vs. Codex

CChase AI
Computing/SoftwareInternet Technology

Transcript

00:00:00En las últimas 24 horas, hemos tenido enormes actualizaciones
00:00:02en dos de los modelos de IA más grandes del planeta.
00:00:04Primero, tuvimos el lanzamiento de GPT 5.5,
00:00:07que presume de ciertas puntuaciones de referencia
00:00:10que superan a las de Mythos de Claude.
00:00:12En segundo lugar, tuvimos el lanzamiento de DeepSeek V4,
00:00:15que es un modelo de código y pesos abiertos
00:00:18que tiene referencias que rivalizan con estos grandes actores de la frontera.
00:00:22Así que con todos estos nuevos modelos para elegir,
00:00:24¿qué se supone que debes hacer tú, el usuario promedio?
00:00:27Bueno, hoy voy a ayudarte a responder esa pregunta
00:00:29mientras enfrento a Opus 4.7, GPT 5.5
00:00:33y DeepSeek V4 unos contra otros,
00:00:36para que puedas ver cuál tiene sentido realmente para ti.
00:00:39Ahora, antes de comenzar esta prueba cara a cara a cara
00:00:41entre GPT 5.5 dentro de Codecs,
00:00:45DeepSeek V4 dentro de Open Code,
00:00:47y Opus 4.7 dentro de Claude Code,
00:00:51echemos primero un vistazo rápido a los puntos de referencia,
00:00:53especialmente a estos dos últimos modelos
00:00:54que salieron en las últimas 24 horas.
00:00:56Hablemos primero del costo.
00:00:58Ahora, DeepSeek V4, como saben,
00:01:00es un modelo de código y pesos abiertos,
00:01:01pero eso no significa que puedas ejecutar esto en tu computadora
00:01:04porque esta cosa es enorme.
00:01:05Estoy hablando de 1.6 billones de parámetros.
00:01:08Necesitas un hardware serio para ejecutar esto.
00:01:10Así que todavía tenemos que pagar por ello.
00:01:11Todavía vamos a tener que usar la API,
00:01:13pero es infinitamente más barata que la competencia,
00:01:15unas ocho veces más barata.
00:01:18Y de los tres modelos,
00:01:19el nuevo GPT 5.5 es en realidad el más caro,
00:01:22lo cual es un poco sorprendente porque, en general,
00:01:24OpenAI ha sido más barato que su competencia de Anthropic.
00:01:28En términos de lo que te costará
00:01:30por cada 1 millón de tokens de salida.
00:01:32Para GPT 5.5, serán 30 dólares.
00:01:35Para Anthropic, serán 25 dólares.
00:01:38Y para DeepSeek, serán 3.48 dólares.
00:01:41Ahora, si hablamos de tokens de entrada,
00:01:44que es una parte más pequeña del todo,
00:01:46GPT 5.5 y Opus 5.7 son iguales.
00:01:49Serán 5 dólares por cada 1 millón de entrada.
00:01:53Y para DeepSeek, es alrededor de 1.70 dólares.
00:01:57Así que es mucho más barato en la entrada y mucho más barato en la salida.
00:02:01Dicho esto, cuando se trata de 5.5,
00:02:03es como el doble de caro que 5.4.
00:02:06Sin embargo, OpenAI afirma que en realidad usa muchos menos tokens
00:02:10debido a su potencia.
00:02:11Así que, aunque es el doble del precio de 5.4,
00:02:14dicen que en términos de gasto real de tokens y costo real,
00:02:17para la misma tarea, termina siendo solo como un 20%
00:02:20más caro cuando todo está dicho y hecho.
00:02:21Así que tenlo en cuenta.
00:02:24Ya hablamos del costo.
00:02:25Ahora hablemos de los puntos de referencia.
00:02:26¿Qué tan buenos son estos modelos sobre el papel?
00:02:27Sé que todos estamos un poco insensibles a los puntos de referencia en general.
00:02:31Necesitamos tomarlos con cautela,
00:02:32pero aún vale la pena echarles un vistazo,
00:02:33especialmente cuando observamos los números
00:02:36que reporta cada jugador en la misma referencia.
00:02:39Hubo tres en la categoría de codificación
00:02:42en los que los tres reportaron números.
00:02:43Fueron SWE Bench Verified, SWE Bench Pro
00:02:46y Terminal Bench 2.0.
00:02:48Ahora, para SWE Bench Verified y SWE Bench Pro,
00:02:50Opus fue el ganador allí.
00:02:52En Terminal Bench 2.0, GPT fue el ganador, por mucho, con 87.2,
00:02:56que por cierto, es un número mayor
00:02:59que el que Anthropic reportó para Mythos.
00:03:02Oh, Mythos, perdón.
00:03:03Lo cual es una locura.
00:03:05Sabes, el modelo súper secreto que no pueden liberar,
00:03:07aparentemente sale peor en Terminal Bench 2 que GPT 5.5.
00:03:10Ahora, Terminal Bench 2.0 es el mayor caso atípico aquí.
00:03:13Opus 4.7 y V4 Pro están muy atrás,
00:03:16pero mira a Opus 4.7 contra V4 Pro.
00:03:20Hay menos de dos puntos de diferencia siendo ocho veces más barato.
00:03:23Y ves el mismo tipo de historia aquí
00:03:24con SWE Bench Verified y SWE Bench Pro.
00:03:26Sí, gana Opus.
00:03:28Pero cuando comparamos el segundo lugar con el tercero,
00:03:31y V4 siempre está en tercer lugar,
00:03:33no hay la brecha enorme que esperarías.
00:03:36Quiero decir, cinco puntos no es nada, ya sabes,
00:03:38en SWE Bench Verified, de 85 a 86.
00:03:41Pero de nuevo, ocho veces más barato, código abierto.
00:03:45Sabes, hay algunas compensaciones reales aquí
00:03:46que podemos hacer si no necesitamos la mayor potencia.
00:03:49Otra cosa interesante de la que hablar
00:03:51es el contexto largo, donde curiosamente Opus 4.7 es realmente malo
00:03:55según los números, significativamente peor que 4.6,
00:03:58lo cual me vuela la cabeza.
00:04:00Y cuando hablamos de contexto largo,
00:04:01donde estamos tratando de recuperar cosas
00:04:03entre 500,000 tokens y 1 millón de tokens,
00:04:064.7 es en realidad terrible.
00:04:08Y lo hace mucho peor que DeepSeek y GPT 5.5.
00:04:12Ahora, puedes tener toda una discusión sobre
00:04:14¿por qué estás siquiera en el rango de 500,000 a 1 millón de tokens?
00:04:17Para empezar, ¿cuánta gente está operando realmente ahí
00:04:20porque estamos alcanzando la corrupción del contexto sin importar qué
00:04:22en ese punto, sin importar qué modelo estés usando.
00:04:24Pero es interesante que, por cualquier razón,
00:04:26hemos visto alguna regresión
00:04:27cuando se trata de los modelos de Anthropic.
00:04:29Pero, en general, creo que la conclusión es
00:04:32que 5.5 es muy fuerte.
00:04:33Supera a Opus 4.7 en ciertas métricas,
00:04:36pierde en ciertas métricas,
00:04:37pero es un modelo extremadamente robusto.
00:04:39Y además de eso, bueno, V4 Pro está un poco, ya sabes,
00:04:42quedándose atrás, en gran medida.
00:04:45Está a una distancia razonable siendo infinitamente más barato,
00:04:48lo cual, de nuevo, es una gran opción para tu cliente promedio.
00:04:52Porque ahora mismo parece que no tienes muchas
00:04:54opciones en el lado del código abierto que realmente puedan competir.
00:04:56Ahora saltemos a la prueba real cara a cara a cara
00:04:59con los tres modelos.
00:05:00Y estamos usando un arnés para cada uno de estos modelos.
00:05:02Con 5.5, serán Codecs.
00:05:04Con Opus 4.7, será Claude Code.
00:05:07Y con DeepSeek V4 Pro, estoy usando Open Code.
00:05:10Y para la primera prueba, lo que vamos a hacer es
00:05:11que vamos a hacer que creen un simulador de vuelo
00:05:14para nosotros en 3JS que se ejecute en el navegador.
00:05:17Puedes ver el mensaje aquí mismo.
00:05:18Estoy diciendo, quiero que se sienta bien al volar.
00:05:20Quiero que tenga algo de peso.
00:05:21Quiero imágenes fuertes y quiero que use cualquier
00:05:25estructura y herramientas que crea que es correcta.
00:05:27Así que es lo suficientemente directo para que sepan qué hacer,
00:05:30sin embargo, hay suficiente margen para que podamos ver cierta divergencia
00:05:33entre los modelos.
00:05:34Y aunque vamos a mirar lo que son capaces
00:05:36de hacer de una sola vez, vamos a pasar por múltiples iteraciones
00:05:38de esto y tener mensajes de seguimiento.
00:05:40Porque, por genial que sea ver qué tan bien lo hace en una sola vez,
00:05:44esa no es la forma en que realmente trabajamos en la vida real, ¿verdad?
00:05:46Quiero ver cómo lo hace cuando le doy mensajes de seguimiento
00:05:49y cuánto tiempo toma para llegar a algo que me guste.
00:05:52Y cuando comparamos estos tres modelos,
00:05:54realmente hay cuatro cosas que voy a observar.
00:05:55Será el tiempo.
00:05:57¿Cuánto tiempo toma construir esto?
00:05:58El costo, ¿cuántos tokens estamos usando?
00:06:01La calidad, ¿qué tan bueno es?
00:06:02Y luego cuatro es como la vibra.
00:06:04Y eso se relaciona con la calidad.
00:06:06Es muy subjetivo.
00:06:06¿Cuál me gusta más realmente?
00:06:09Y también, hay que notar que los tres modelos, los tres arneses
00:06:11también están usando exactamente las mismas habilidades.
00:06:13Así que comencemos con DeepSeek y las preguntas que nos hace.
00:06:16Está preguntando qué tipo de modelo de vuelo queremos.
00:06:18Vamos con simulación completa.
00:06:20Recomienda océanos e islas para el terreno.
00:06:22Vamos con eso.
00:06:23Veamos cómo... y luego pregunta la preferencia de cámara.
00:06:25Hagamos ambas.
00:06:26Veamos si es capaz de darnos un interruptor
00:06:27tanto para la primera como para la tercera persona.
00:06:29Vamos con su preferencia de herramientas recomendada.
00:06:32Y solo vamos con un modelo de baja poligonización
00:06:33para la aeronave y las imágenes en sí.
00:06:35Ahora moviéndonos a Codecs, el mismo tipo de preguntas.
00:06:38Aunque solo nos pide tres.
00:06:40¿En qué tipo de vuelo debería optimizarse este plan?
00:06:42Vamos con una simulación difícil.
00:06:44¿Qué experiencia jugable importa más para el navegador?
00:06:48Hagamos el despegue en la isla.
00:06:50Es interesante cómo todos tienen la misma.
00:06:52¿Y qué cámara y presentación de aeronave?
00:06:54Voy a hacer un interruptor para esto también.
00:06:56Y para Claude Code, haremos aprendizaje de simulación de estudio
00:06:58para la entrada de sensación de océano e islas.
00:07:02Haremos teclado y mouse.
00:07:04No dejaré que se ponga a trabajar.
00:07:05Así que el modo de plan, en gran medida, es muy similar en los tres.
00:07:09Prácticamente las mismas preguntas de,
00:07:11¿qué quieres que sea la física?
00:07:12¿qué quieres que sea el terreno?
00:07:13¿qué quieres que sea el ángulo de la cámara?
00:07:15Así que no hay una gran diferencia ahí.
00:07:17Y veamos con qué regresan en términos de un plan.
00:07:19Muy bien, los tres planes están completos.
00:07:20Así que repasemos cada uno muy rápidamente
00:07:22y veamos algunas de las diferencias.
00:07:24El primero que estamos mirando aquí es DeepSeek.
00:07:26Y es bastante básico en cuanto al plan que presenta.
00:07:29Así que nos da la estructura del proyecto
00:07:31y luego habla muy rápidamente sobre la física de vuelo,
00:07:33el entorno, la cámara y la superposición HUD,
00:07:35y realmente solo unos pocos puntos.
00:07:37Por otro lado, cuando miramos a 5.5 dentro de Codecs,
00:07:40es un resumen, cambios clave,
00:07:43se adentra en los detalles de implementación, el plan de prueba,
00:07:46y también los supuestos
00:07:47que lo detallan todo para nosotros.
00:07:49Y luego tenemos el plan de Claude Code, que tardó más.
00:07:50Tardó unos cinco minutos, pero es, con mucho, el más completo
00:07:53porque incluye el contexto y la pila tecnológica.
00:07:55El diseño habla sobre el modelo de vuelo.
00:07:57Entra en los diferentes momentos reales,
00:08:00hablando de pérdidas, como la alarma de pérdida.
00:08:02O sea, es muy, muy detallado.
00:08:03Entra en los controles, el mundo, el mod,
00:08:06el avión real que vamos a usar, el rendimiento,
00:08:08y simplemente sigue y sigue.
00:08:10Así que es muy detallado.
00:08:11Ahora vamos a hacer que los tres implementen su plan,
00:08:14y veremos cómo es el resultado final.
00:08:15GPT 5.5 dentro de Codecs fue el primero en terminar.
00:08:19Así que veamos cómo es.
00:08:20Aquí está el simulador de vuelo que nos dio.
00:08:22Tenemos algunas nubes en el cielo.
00:08:26Tenemos lo que parece un indicador de ángulo de ataque ahí arriba.
00:08:31Tenemos nuestra velocidad abajo,
00:08:34y veamos si realmente podemos sacar esto
00:08:35del suelo.
00:08:36Notaré que no hay nada parecido a una pista.
00:08:38Es solo césped.
00:08:39Y se suponía que iba a ser como una isla.
00:08:42Aunque cuando la cámara como que se vuelve loca,
00:08:45puedes ver la pista abajo por un segundo.
00:08:48Muy bien, estamos perdiendo sustentación y simplemente,
00:08:50ni siquiera podemos despegar, ¿verdad?
00:08:51Así que este es en realidad un poco,
00:08:54es en realidad bastante difícil.
00:08:55Así que lo que voy a hacer es darle
00:09:00una segunda instrucción pidiéndole que lo haga un poco más fácil
00:09:03de volar, porque tiene mucho pasando aquí,
00:09:05pero esto es duro.
00:09:06Así que escribí: es realmente difícil de volar.
00:09:08¿Podemos hacerlo más fácil de usar?
00:09:10O sea, un poco más tipo arcade.
00:09:12Y también los gráficos podrían mejorar.
00:09:15Así que veamos cómo resulta eso.
00:09:16Ahora, cabe destacar que a 5.5 le tomó unos siete minutos
00:09:21crear esa primera pasada para nosotros.
00:09:23Y consumió 63,000 tokens.
00:09:26Muy bien, dijo que lo hizo un poco más fácil
00:09:28de volar y actualizó los gráficos.
00:09:29Así que veamos cómo luce la segunda pasada.
00:09:32Esto es lo que obtuvimos.
00:09:32Los gráficos definitivamente se ven mejor,
00:09:34pero veamos si realmente podemos salir de la pista
00:09:36esta vez.
00:09:37Así que, muy bien, acelerador al cien por ciento,
00:09:4150, 60, siete.
00:09:43¿Cuál es la velocidad de rotación de un Cessna?
00:09:46Muy bien, 70, 80, 90.
00:09:49Tenemos que poder despegar ahora.
00:09:51Está bien, camino equivocado.
00:09:53Vamos, despega, despega.
00:09:56No, probablemente esto me hará entrar en pérdida, ¿no?
00:09:58Sí, pérdida.
00:09:59Vale, esto todavía necesita trabajo.
00:10:02Así que démosle a Codex otra oportunidad.
00:10:05Démosle a 5.5 una oportunidad más
00:10:07para que esto sea realmente jugable.
00:10:08Así que le dije que ni siquiera puedo sacar el avión
00:10:10del suelo y entrar en vuelo.
00:10:11Definitivamente necesitamos hacerlo fácil de despegar
00:10:12y realmente volar el aparato.
00:10:14Vale, dice que arregló el problema de despegue.
00:10:16Aparentemente los frenos estaban bloqueados antes.
00:10:19No sé si por eso no podíamos hacerlo.
00:10:21Oh, no lo configuró automáticamente para despegar.
00:10:24Flaps, sí, esto era,
00:10:25lo teníamos en modo súper simulador.
00:10:29Pero aquí está el tercer intento de nuestro simulador de vuelo.
00:10:32Veamos cómo nos va.
00:10:34Así que, ¿podemos despegar?
00:10:36Oh, estamos rebotando en la pista
00:10:37esta vez con algo.
00:10:38Muy bien, genial, estamos fuera del suelo.
00:10:41Estamos realmente moviéndonos.
00:10:44Veamos si podemos entrar en uno de esos anillos.
00:10:45Quiero decir, los gráficos no son tan malos, ya sabes,
00:10:49para algo generado en menos de 10 minutos.
00:10:52Parece ser bastante preciso en términos de, ya sabes,
00:10:56me está dando mi vertical, ya sabes,
00:10:59pies por minuto en la parte inferior,
00:11:00mi altitud real, los nudos, el rumbo, AGL.
00:11:04Así que es relativamente sofisticado
00:11:06en cuanto al seguimiento de todo.
00:11:08Es decir, este pequeño indicador al frente,
00:11:10parece ser como un indicador de ángulo de ataque,
00:11:13lo cual es genial.
00:11:14Así que tiene cosas buenas ocurriendo.
00:11:18Los controles reales son un poco raros.
00:11:21Como pueden ver, no puedo controlar esto para nada,
00:11:23pero en general, no está mal.
00:11:25Ya sabes, podemos estrellar esto tipo kamikaze
00:11:27y ver qué pasa a 18,000 pies por minuto.
00:11:31Pero sí, ya sabes, por 66,000 tokens,
00:11:36unos 10 minutos, 15 minutos más o menos,
00:11:40ya sabes, con las idas y venidas,
00:11:41no creo que esté nada mal.
00:11:42Así que ahora echemos un vistazo a DeepSeek.
00:11:44Le tomó unos 10 minutos hacer esto.
00:11:46Y en términos de tokens, 63,000 y 44 centavos.
00:11:51Así que 44 centavos, 10 minutos.
00:11:53Y esto es lo que DeepSeek nos dio.
00:11:56No tengo idea de
00:12:00lo que estoy viendo.
00:12:03Esto se supone que es en tercera persona.
00:12:06Esto se supone que es la cabina.
00:12:07Y obviamente nuestro primer intento con DeepSeek
00:12:11fue otro desastre.
00:12:13Así que le digo a DeepSeek que el simulador es un completo desastre.
00:12:16Los gráficos son completamente defectuosos
00:12:17y no puedo volar nada.
00:12:20Por favor, arréglalo.
00:12:21Y así es como luce nuestro segundo intento.
00:12:24Sigo sin tener ni idea.
00:12:26Absolutamente ninguna pista.
00:12:28Qué rayos es DeepSeek.
00:12:30Oh, hey, hay un avión.
00:12:32Oh, hay algo.
00:12:33Sí, esto es brutal.
00:12:38Y para ser honesto, siento que incluso dándole otra instrucción
00:12:42para hacer esto, necesitaría empezar a ser muy, muy específico
00:12:44sobre lo que estamos tratando de hacer, lo cual, de nuevo,
00:12:47se queda bastante corto respecto a lo que hicimos con Codex.
00:12:49Fue con instrucciones, ya sabes, algo suaves.
00:12:51Pude obtener algo al menos cercano,
00:12:53incluso en la primera pasada.
00:12:54Aquí claramente está luchando por completo
00:12:57con los gráficos.
00:12:58Simplemente, ni siquiera sé cómo describir esto,
00:13:01pero bueno, fue súper barato.
00:13:03Así que ahora echemos un vistazo a lo que Claude Code
00:13:07pudo darnos como referencia.
00:13:09Le tomó 13 minutos ejecutar el plan.
00:13:12El plan en sí tomó cinco minutos.
00:13:13Así que digamos 20 minutos para dar con la primera pasada.
00:13:17Y luego en cuanto al total de tokens,
00:13:19esta ejecución tomó alrededor del 15% más el 5% antes del plan.
00:13:22Así que estamos viendo, bueno, lo siento,
00:13:24estamos viendo 11% de contexto más 5% antes.
00:13:28Así que llamémoslo 20 minutos, 150,000 tokens para Claude Code,
00:13:33que es definitivamente el más costoso
00:13:34y el más lento de todos ellos.
00:13:36Y aquí está el intento de Claude Code.
00:13:39Por alguna razón, estamos instantáneamente en el aire.
00:13:43Estamos perdiendo sustentación.
00:13:44Estamos en IFR.
00:13:45No sé qué está pasando.
00:13:48Estamos a punto de estrellar algo.
00:13:50¿Podemos salvar esto?
00:13:51¿Podemos sacar esto de un picado?
00:13:53No, estamos perdiendo sustentación, no, estamos muertos.
00:13:54Está bien, eso es interesante.
00:13:56De nuevo, nos lanza instantáneamente al aire.
00:14:00Estamos en las nubes.
00:14:02Estamos perdiendo sustentación.
00:14:03No sé qué está pasando.
00:14:05Necesitamos, necesitamos una segunda pasada.
00:14:08Así que escribí: al cargar, soy lanzado instantáneamente al aire.
00:14:11Es difícil de controlar.
00:14:12Quiero empezar en la pista y quiero que sea más fácil de volar.
00:14:15Oh, y por cierto, mejora esos gráficos también.
00:14:17Así que tomó unos cuatro minutos, pero hizo algunos cambios.
00:14:20Vamos a aparecer en la pista.
00:14:22Cambió el tren de aterrizaje.
00:14:23Así que ahora es tren triciclo y algunas otras cosas.
00:14:24Así que veamos cómo luce.
00:14:26Correcto, así que aquí está.
00:14:27De nuevo, somos lanzados inmediatamente a un banco de niebla.
00:14:29Estoy tratando de controlar esta cosa.
00:14:31Y simplemente, sí, no hay control sobre esto en absoluto.
00:14:33Muy bien, vamos a darle,
00:14:34vamos a darle a Claude Code una oportunidad más aquí.
00:14:37Así que le dije que todavía me lanza instantáneamente
00:14:39hacia el cielo.
00:14:40Dije, vayamos con una sensación mucho más tipo arcade
00:14:42con los controles.
00:14:43Creo que probablemente deberíamos haber hecho eso
00:14:44con las instrucciones iniciales para los tres.
00:14:46Creo que al buscar un simulador realista,
00:14:50realmente lucha para,
00:14:53creo, hacer eso de una manera que sea fácil de usar.
00:14:57Creo que probablemente está haciendo un buen trabajo bajo el capó
00:14:59en términos de, vale, el ángulo de ataque.
00:15:01Está bien, estás perdiendo sustentación en este, ya sabes,
00:15:02ángulo respecto a la velocidad y todo eso.
00:15:04Pero realmente manipular esto desde la computadora
00:15:07es básicamente imposible.
00:15:09Aunque creo que lo de la niebla es muy extraño.
00:15:12Así que veamos si después de la segunda ronda de instrucciones
00:15:15es capaz de hacerlo un poco mejor
00:15:16porque ahora mismo GPT 5.5 lo hizo mucho, mucho mejor.
00:15:20Así que Claude Code hizo algunos cambios más,
00:15:22lo hizo más fácil de usar.
00:15:23Y veamos si todavía voy
00:15:24esta vez por mi habilitación de vuelo instrumental.
00:15:26Así que sí, seguimos adelante.
00:15:28Seguimos intentando la habilitación instrumental.
00:15:30Estamos en el menú, pero ya sabes, puedo verlo.
00:15:33Ya sabes, puedo revisar mi panel de instrumentos.
00:15:35Muy bien, estamos despegando de la pista.
00:15:37Sí, de acuerdo.
00:15:42¿Puedo saber por qué hay un árbol en la pista?
00:15:44Estoy tratando de subir.
00:15:46¿Puedo subir?
00:15:47¿Puedo inclinarme?
00:15:49¿Hacer clic en el lienzo para bloquear el ratón, qué?
00:15:53Oh, estamos en el aire.
00:15:54No, no, morimos.
00:15:57Así que sí, creo que esto queda bastante claro.
00:16:02GPT 5.5, claramente el ganador, creo yo.
00:16:06Claude Code quedó en segundo lugar.
00:16:08Yo le daría el segundo lugar.
00:16:10Ya sabes, definitivamente tuvo problemas
00:16:13incluso con las indicaciones que le dimos.
00:16:14No le dimos muy buenas instrucciones, seamos sinceros.
00:16:16Creo que con más tiempo, mejores indicaciones,
00:16:19algunos intercambios más,
00:16:20podríamos haberlo llevado a donde queríamos.
00:16:21Al menos tenía una aeronave y una pista.
00:16:25Tenía árboles en la pista,
00:16:26pero tenía las cosas que realmente necesitábamos
00:16:29en comparación con DeepSeek con OpenCODE.
00:16:32No tenía ni idea de lo que pasaba ahí.
00:16:34Fue un completo desastre.
00:16:35Siento que hubiera tenido que empezar
00:16:36de cero, como darle una indicación muy específica.
00:16:38Ni siquiera estuvo cerca de ser manejable,
00:16:39pero GPT 5.5 desde el primer momento, ya sabes,
00:16:42con instrucciones bastante vagas.
00:16:44Creo que lo hizo realmente bien.
00:16:455.5 también usó un total de 66 mil tokens.
00:16:48Estamos viendo que aquí con Opus en conjunto,
00:16:52fueron unos 200.000 tokens.
00:16:53Así que un cuarto de los tokens, básicamente un cuarto del costo.
00:16:56Y fue un poco más rápido.
00:16:58Quiero decir, a estas alturas, ni siquiera me importa
00:16:59que OpenCODE haya tardado más que GPT 5.5.
00:17:03Y simplemente apestó, seamos honestos, fue horrible.
00:17:07Ahora pasemos a la prueba número dos.
00:17:10Esta vez vamos a pedirles
00:17:12que creen una página de aterrizaje que muestre trabajo de sombreado WebGPU
00:17:16usando 3JS.
00:17:18Ahora, el trabajo de sombreado WebGPU es el tipo de cosas que ves
00:17:21en sitios web de premios.
00:17:23Estoy hablando de sitios como Igloo, este tipo de cosas,
00:17:26gráficos de muy alta gama.
00:17:28Parece un videojuego.
00:17:29Básicamente está usando la tarjeta gráfica de tu computadora
00:17:32para renderizar todo esto.
00:17:34No espero que ninguno de ellos logre algo ni remotamente
00:17:37cercano a lo que vemos aquí, pero quiero ver qué pueden hacer
00:17:40usando esencialmente la tecnología de sombreadores.
00:17:42Esto está definitivamente un paso por encima de tu básica
00:17:45página de aterrizaje de SaaS.
00:17:46Quiero ver qué pueden hacer y llevarlos
00:17:48al límite en el mundo del diseño web.
00:17:50Les he dado a todos una habilidad que desglosa
00:17:53cómo hacer este tipo de cosas.
00:17:55Así que no es que estén completamente a ciegas
00:17:57y uno tampoco tiene ventaja sobre el otro.
00:18:00Lo único que les he dicho es que quiero que se sienta moderno
00:18:02y visualmente impactante, algo que verías en premios
00:18:05y que haga un uso inteligente de la computación GPU.
00:18:08Pueden elegir cualquier pila y estructura de proyecto
00:18:10que quieran y usar buen juicio en el concepto del héroe,
00:18:13interfaz de usuario e interacciones.
00:18:15Y al igual que en la primera prueba, todos están en modo plan.
00:18:17Así que empecemos.
00:18:18Bien, todos terminaron su plan y, curiosamente,
00:18:21ninguno me hizo ninguna pregunta,
00:18:22a pesar de haberlos puesto en modo plan.
00:18:24Así que echemos un vistazo primero a GPT 5.5.
00:18:28Nos dice que va a hacer un héroe interactivo
00:18:30impulsado por GPU a pantalla completa.
00:18:32El concepto será un campo de señales vivas
00:18:34con una especie de partículas densas que va a hacer.
00:18:36Veremos cómo resulta eso.
00:18:38Y en general, es una página de aterrizaje minimalista estilo premios.
00:18:41Escena WebGPU totalmente interactiva
00:18:43con simulación de cómputo reactiva al puntero.
00:18:46Bien, para DeepSeek es un plan bastante breve y sencillo,
00:18:50igual que vimos con el simulador de vuelo.
00:18:53Espero que tengamos un mejor resultado esta vez,
00:18:54pero una sección de héroe con 75.000 partículas de cómputo GPU.
00:18:58Supongo que todos van a optar
00:19:01por algún tipo de tema de partículas en el héroe.
00:19:04Así que tendrá interacción con el ratón, integración.
00:19:08Tendrá una inicialización única.
00:19:10Y luego deberíamos ver cosas como resplandor,
00:19:13aberración cromática, una viñeta personalizada y algo de grano de película.
00:19:16Veremos cómo termina viéndose eso realmente.
00:19:19Y luego tenemos el plan de Opus 4.7 de nuevo,
00:19:21optando por esto de las partículas con resplandor
00:19:23y será interactivo con el ratón.
00:19:25Veremos si alguno de estos realmente se ve diferente
00:19:27porque en la superficie, todos sus planes suenan muy similares.
00:19:29Así que el primero en terminar fue 5.5.
00:19:32Tomó unos seis minutos.
00:19:34Y en términos de tokens, hemos usado 107.000.
00:19:37Así que veamos qué nos construyó.
00:19:40Y esto es lo que creó para nosotros.
00:19:42Ahora, esto es muy brillante.
00:19:45Es difícil incluso ver las partículas reales,
00:19:47pero ya sabes, mientras nos desplazamos hacia arriba y hacia abajo,
00:19:50tiene una animación en el fondo
00:19:52así como, ya sabes, algunos cambios sutiles de color.
00:19:56Parece que ahora nuestro ratón debería
00:20:00atraer las partículas.
00:20:01Y tenemos, moveré esto por aquí.
00:20:03Dio algunas opciones como repeler contra deriva.
00:20:08Pero de nuevo, es un poco difícil verlo
00:20:11debido a lo brillante que es.
00:20:12Así que le dije que es difícil ver realmente las partículas
00:20:14debido al brillo.
00:20:14También se apodera de gran parte de la tecnología del héroe.
00:20:16Así que, ¿podemos bajar un poco el brillo
00:20:18y también empujarlo un poco más a la derecha?
00:20:20Porque ahora mismo es un poco abrumador.
00:20:23Ni siquiera puedes leer el texto aquí a la izquierda
00:20:25debido a lo extremadamente brillantes que son estas partículas.
00:20:27Y aquí está la actualización después de la segunda ejecución.
00:20:30Es un poco mejor.
00:20:31No es tan abrumador y deja espacio para el texto.
00:20:35Aunque diré que está casi borroso,
00:20:39pero ya sabes, no está mal.
00:20:41Como que se propuso hacer lo que le dijimos
00:20:44dado el problema un tanto vago.
00:20:46Así que no estoy impresionado con el diseño que se le ocurrió,
00:20:49pero tampoco estoy molesto por ello.
00:20:51Ahora echemos un vistazo a Claude Code
00:20:52porque mientras hemos estado haciendo todo esto,
00:20:55DeepSeek sigue aquí en las trincheras
00:20:57intentando resolver esto.
00:20:58Y aquí está lo que nos dio Claude Code.
00:21:01Así que, básicamente nada.
00:21:06No estoy seguro de si dice que el fondo,
00:21:10supongo que todo el fondo se supone que es
00:21:14el WebGL, supongo.
00:21:19Es muy discreto,
00:21:21lo cual supongo que es algo que podrías hacer perfectamente.
00:21:24Quiero decir, en la pantalla no se ve,
00:21:25bueno, se ve bastante bien, pero seré honesto,
00:21:28estaba buscando algo un poco más llamativo.
00:21:31Así que en la segunda pasada,
00:21:31cuando le dije que lo hiciera un poco más llamativo,
00:21:34no hubo una gran diferencia.
00:21:35Aunque es realmente sutil.
00:21:38Tiene una especie de grano de película,
00:21:40casi como este desenfoque que va de abajo hacia arriba.
00:21:43Así que es algo bastante sutil.
00:21:45Y puedes ver aquí en la parte inferior,
00:21:47que rastrea los fotogramas por segundo.
00:21:49Está usando 250.000 partículas.
00:21:51Así que, bueno, honestamente se ve genial.
00:21:54Solo que no es súper llamativo.
00:21:56Así que es definitivamente una cuestión de gustos.
00:21:58El total de tokens por el lado de Claude Code fue de unos 175.000,
00:22:01y tomó un poco más de tiempo que 5.5 dentro de Codex.
00:22:05Ahora veamos DeepSeek,
00:22:07que ha tomado 116.000 tokens hasta este punto.
00:22:10También tardó más,
00:22:12pero el costo total estamos hablando de nuevo, menos de un dólar.
00:22:15Y esto es lo que nos dio.
00:22:17Así que es como este campo de partículas
00:22:21que sigue un poco mi ratón.
00:22:25Interesante.
00:22:27Creo que podría darte una convulsión epiléptica.
00:22:29Honestamente, más allá de eso, es bastante soso.
00:22:35El flujo, ya sabes, rayos X aquí cambia un poco de color,
00:22:39pero sí, prácticamente solo creó esta cosa.
00:22:43Después de decirle a DeepSeek que hiciera otra pasada,
00:22:45regresó con esto,
00:22:46donde ahora tiene como un extraño efecto de paralaje.
00:22:49Tiene algunas cosas azules en el fondo.
00:22:53Y ahora esto que parece un OVNI,
00:22:55que responde de alguna manera a tu ratón,
00:22:58pero sí, es algo.
00:23:02Y en general, el conteo de tokens de DeepSeek fue de 130 mil tokens
00:23:05con un costo de 1,43 dólares.
00:23:08Entonces, después de todas esas pruebas, ¿dónde nos deja esto?
00:23:13Ahora hablemos de los resultados finales.
00:23:15Cuando se trata de la prueba número uno,
00:23:16que fue el simulador de vuelo, hubo un claro ganador.
00:23:18Fue GPT 5.5 dentro de Codex.
00:23:21Fue más rápido que Opus 4.7 dentro de Claude Code.
00:23:25También fue más rápido y el resultado final fue, de lejos, el mejor.
00:23:29DeepSeek lo hizo terriblemente en el simulador de vuelo.
00:23:32Ni siquiera se acercó a lo que estábamos intentando hacer.
00:23:34Hubiera tenido que seguir indicándole,
00:23:35indicándole, indicándole para siquiera acercarlo
00:23:38a la primera pasada de 5.5 y Opus 4.7 y Claude Code
00:23:43fue como, eh, no estuvo horrible.
00:23:46Realmente no funcionó al principio,
00:23:48pero después de un par de indicaciones, se podía notar,
00:23:50podríamos conseguir que equivaliera
00:23:52a lo que estaba haciendo GPT 5.5.
00:23:54Eso habría requerido más mensajes.
00:23:55Habría llevado más tiempo
00:23:57y, a la larga, sería más caro.
00:23:59Así que, claro ganador para 5.5.
00:24:01En cuanto a la página de inicio de WebGPU,
00:24:03de nuevo, DeepSeek tuvo dificultades aquí.
00:24:04No me gustó nada esto.
00:24:06Realmente no sé qué se supone que es.
00:24:08Claro, no le di una instrucción muy buena,
00:24:10pero, ¿es esto lo que obtendremos
00:24:13como resultado medio de referencia?
00:24:16Si no tomo a DeepSeek por las riendas
00:24:19y realmente lo fuerzo a hacer algo, supongo que sí.
00:24:22Ahora, cuando comparamos Opus y 5.5,
00:24:24me habría quedado con Opus 4.7 y Claude Code
00:24:27por cómo manejó lo de WebGPU.
00:24:29Creo que tiene que ver con una cuestión de gustos.
00:24:31Sí, se podría decir que 5.5 fue más llamativo,
00:24:35pero me pareció un poco feo.
00:24:37De nuevo, en todas estas pruebas, mantuvimos los mensajes bastante vagos
00:24:41para ver qué camino tomaban.
00:24:43Así que definitivamente le daría la ventaja a Opus aquí,
00:24:46aunque fue más caro
00:24:48y también tardó un poco más.
00:24:50Así que si les diéramos una instrucción más práctica,
00:24:55que fuera muy específica sobre lo que querías hacer,
00:24:57porque 5.5 hizo lo que queríamos que hiciera.
00:24:59O sea, sí creó una página de inicio para WebGPU.
00:25:02Solo que me pareció fea.
00:25:04Así que aun así completó la tarea.
00:25:06Solo que no la completó tan bien, creo, como Opus.
00:25:08Ahora, en general, ¿qué significa
00:25:09si tomamos todo eso en conjunto?
00:25:11Bueno, creo que significa una gran noticia
00:25:13para cualquiera que esté usando decodificadores de agentes.
00:25:16Tenemos opciones, ¿verdad?
00:25:18Puedes usar Opus y Claude Code,
00:25:20o puedes usar GPT 5.5 y Codecs.
00:25:23No te equivocarás con ninguno de los dos.
00:25:25Creo que es totalmente una preferencia personal en este punto.
00:25:28Y la mejor parte es que si sigues la ruta de Claude Code,
00:25:31básicamente todo se aplica a Codecs.
00:25:33Si sigues la ruta de Codecs,
00:25:34básicamente todo se aplica a Claude Code.
00:25:37Así que realmente no creo que haya un bloqueo de proveedor en el sentido de,
00:25:40oh, solo aprendí Claude Code.
00:25:42Como si no pudiera ir a Codecs o viceversa.
00:25:44Ese no es el caso en absoluto.
00:25:45Si estás haciendo esto de la manera correcta,
00:25:46lo que realmente estás aprendiendo son fundamentos de IA
00:25:48y cómo construir cosas.
00:25:49Y eso se aplica a ambos.
00:25:51Y cuanta más competencia,
00:25:53mejor es para nosotros, los consumidores.
00:25:54Ahora, en cuanto a DeepSeek, eh, no lo sé.
00:25:59No me impresionó mucho.
00:26:00Esta podría ser una situación en la que, vale,
00:26:02DeepSeek tiene sentido si estamos haciendo tareas más simples
00:26:04donde simplemente no necesitamos la potencia de algo como Opus,
00:26:06o simplemente no necesitamos la potencia de algo como GPT 5.5.
00:26:10Porque recuerda, estamos hablando de algo
00:26:11que es ocho veces más barato.
00:26:13Claro, no me gustaron las páginas de inicio de WebGPU
00:26:16que propuso, pero ¿era ocho veces peor?
00:26:19Tal vez, tal vez no.
00:26:21Es un poco difícil realmente,
00:26:23articular y cuantificar eso.
00:26:24Pero obviamente es algo que debemos tener en cuenta.
00:26:27Así que, bueno, no creo que sea realmente competencia
00:26:30para ser franco, con 4.7 o 5.5.
00:26:33Sin embargo, creo que si estás haciendo tareas más simples
00:26:35y eres muy consciente de los tokens y del dinero,
00:26:38entonces, oye, tal vez DeepSeek tenga sentido para ti.
00:26:41Así que eso es todo lo que tengo para ustedes hoy.
00:26:42Espero que esto arroje algo de luz sobre estos tres modelos
00:26:45y cómo se comparan entre sí.
00:26:47Creo que es un gran momento para estar en este espacio.
00:26:49Más competencia es mejor para todos.
00:26:51Así que, como siempre, si quieren obtener acceso
00:26:53a la Masterclass de Claude Code,
00:26:55asegúrense de echar un vistazo a Chase AI Plus.
00:26:56Hay un enlace a eso en la descripción.
00:26:58Y nos vemos por ahí.

Key Takeaway

GPT 5.5 dentro de Codecs ofrece el mejor equilibrio entre rendimiento técnico y usabilidad para tareas de desarrollo complejas, mientras que DeepSeek V4 representa una alternativa económica viable para proyectos menos exigentes a pesar de su menor capacidad de ejecución autónoma.

Highlights

  • GPT 5.5, Opus 4.7, y DeepSeek V4 tienen costos significativamente distintos por cada millón de tokens de salida: 30 USD, 25 USD y 3.48 USD respectivamente.

  • GPT 5.5 lidera el rendimiento en el Terminal Bench 2.0 con una puntuación de 87.2, superando a los modelos de Anthropic.

  • DeepSeek V4 cuenta con 1.6 billones de parámetros, lo que requiere infraestructura de hardware robusta a pesar de ser un modelo de pesos abiertos.

  • En pruebas prácticas, GPT 5.5 dentro de Codecs completó un simulador de vuelo funcional en 10 minutos con 66,000 tokens, superando la precisión y usabilidad de las otras opciones.

  • Claude Code resultó ser el modelo más lento y costoso para las tareas de desarrollo, consumiendo aproximadamente 150,000 tokens para una primera iteración de simulador.

  • DeepSeek V4 se posiciona como una opción 8 veces más barata que la competencia, aunque requiere instrucciones mucho más específicas para evitar resultados deficientes en tareas de diseño complejo.

Timeline

Comparativa de costos y benchmarks

  • GPT 5.5 registra el costo operativo más alto con 30 USD por millón de tokens de salida.
  • DeepSeek V4 reduce el costo operativo a 3.48 USD por millón de tokens, posicionándose como la alternativa más accesible.
  • Opus 4.7 muestra regresión en tareas de contexto largo superiores a 500,000 tokens según los datos reportados.

El análisis se centra en las diferencias económicas y técnicas de tres modelos principales. Aunque DeepSeek V4 ofrece una ventaja de precio de 8 a 1 frente a sus competidores, los benchmarks como Terminal Bench 2.0 y SWE Bench confirman que GPT 5.5 mantiene una superioridad técnica en tareas de codificación. Se destaca que, a pesar del precio más alto de GPT 5.5, su eficiencia en el uso de tokens minimiza el incremento real en los costos del proyecto al 20% frente a la versión anterior.

Simulación de vuelo y desarrollo de código

  • GPT 5.5 logró un simulador funcional de 3JS tras breves iteraciones correctivas.
  • DeepSeek V4 fracasó en generar un simulador funcional, requiriendo instrucciones técnicas excesivamente detalladas.
  • Claude Code generó un plan técnico muy detallado pero resultó ser la opción más costosa y lenta en ejecución.

Se sometieron los tres modelos a la creación de un simulador de vuelo bajo condiciones idénticas. GPT 5.5 demostró una mayor capacidad para interpretar instrucciones vagas y ajustar el código según el feedback. Claude Code, aunque meticuloso en su fase de planificación, presentó problemas de control en la ejecución. DeepSeek V4 requirió intervención constante y no logró integrar las mecánicas básicas de vuelo de forma efectiva.

Interfaces WebGPU y resultados finales

  • Opus 4.7 destacó en la creación de interfaces WebGPU visualmente coherentes a pesar de su mayor costo.
  • GPT 5.5 generó visualizaciones de alto rendimiento pero con una estética menos pulida que Opus.
  • La falta de bloqueo de proveedor permite migrar entre Codecs y Claude Code sin pérdida de fundamentos técnicos.

En la segunda prueba, se evaluó la generación de páginas de aterrizaje con sombreadores WebGPU. Claude Code superó a GPT 5.5 en la calidad estética de la implementación, aunque a un costo superior. Los resultados indican que, para desarrolladores, el conocimiento de los fundamentos de IA es transferible entre los distintos arneses, eliminando la dependencia crítica hacia una única plataforma.

Community Posts

View all posts