Transcript
00:00:00En las últimas 24 horas, hemos tenido enormes actualizaciones
00:00:02en dos de los modelos de IA más grandes del planeta.
00:00:04Primero, tuvimos el lanzamiento de GPT 5.5,
00:00:07que presume de ciertas puntuaciones de referencia
00:00:10que superan a las de Mythos de Claude.
00:00:12En segundo lugar, tuvimos el lanzamiento de DeepSeek V4,
00:00:15que es un modelo de código y pesos abiertos
00:00:18que tiene referencias que rivalizan con estos grandes actores de la frontera.
00:00:22Así que con todos estos nuevos modelos para elegir,
00:00:24¿qué se supone que debes hacer tú, el usuario promedio?
00:00:27Bueno, hoy voy a ayudarte a responder esa pregunta
00:00:29mientras enfrento a Opus 4.7, GPT 5.5
00:00:33y DeepSeek V4 unos contra otros,
00:00:36para que puedas ver cuál tiene sentido realmente para ti.
00:00:39Ahora, antes de comenzar esta prueba cara a cara a cara
00:00:41entre GPT 5.5 dentro de Codecs,
00:00:45DeepSeek V4 dentro de Open Code,
00:00:47y Opus 4.7 dentro de Claude Code,
00:00:51echemos primero un vistazo rápido a los puntos de referencia,
00:00:53especialmente a estos dos últimos modelos
00:00:54que salieron en las últimas 24 horas.
00:00:56Hablemos primero del costo.
00:00:58Ahora, DeepSeek V4, como saben,
00:01:00es un modelo de código y pesos abiertos,
00:01:01pero eso no significa que puedas ejecutar esto en tu computadora
00:01:04porque esta cosa es enorme.
00:01:05Estoy hablando de 1.6 billones de parámetros.
00:01:08Necesitas un hardware serio para ejecutar esto.
00:01:10Así que todavía tenemos que pagar por ello.
00:01:11Todavía vamos a tener que usar la API,
00:01:13pero es infinitamente más barata que la competencia,
00:01:15unas ocho veces más barata.
00:01:18Y de los tres modelos,
00:01:19el nuevo GPT 5.5 es en realidad el más caro,
00:01:22lo cual es un poco sorprendente porque, en general,
00:01:24OpenAI ha sido más barato que su competencia de Anthropic.
00:01:28En términos de lo que te costará
00:01:30por cada 1 millón de tokens de salida.
00:01:32Para GPT 5.5, serán 30 dólares.
00:01:35Para Anthropic, serán 25 dólares.
00:01:38Y para DeepSeek, serán 3.48 dólares.
00:01:41Ahora, si hablamos de tokens de entrada,
00:01:44que es una parte más pequeña del todo,
00:01:46GPT 5.5 y Opus 5.7 son iguales.
00:01:49Serán 5 dólares por cada 1 millón de entrada.
00:01:53Y para DeepSeek, es alrededor de 1.70 dólares.
00:01:57Así que es mucho más barato en la entrada y mucho más barato en la salida.
00:02:01Dicho esto, cuando se trata de 5.5,
00:02:03es como el doble de caro que 5.4.
00:02:06Sin embargo, OpenAI afirma que en realidad usa muchos menos tokens
00:02:10debido a su potencia.
00:02:11Así que, aunque es el doble del precio de 5.4,
00:02:14dicen que en términos de gasto real de tokens y costo real,
00:02:17para la misma tarea, termina siendo solo como un 20%
00:02:20más caro cuando todo está dicho y hecho.
00:02:21Así que tenlo en cuenta.
00:02:24Ya hablamos del costo.
00:02:25Ahora hablemos de los puntos de referencia.
00:02:26¿Qué tan buenos son estos modelos sobre el papel?
00:02:27Sé que todos estamos un poco insensibles a los puntos de referencia en general.
00:02:31Necesitamos tomarlos con cautela,
00:02:32pero aún vale la pena echarles un vistazo,
00:02:33especialmente cuando observamos los números
00:02:36que reporta cada jugador en la misma referencia.
00:02:39Hubo tres en la categoría de codificación
00:02:42en los que los tres reportaron números.
00:02:43Fueron SWE Bench Verified, SWE Bench Pro
00:02:46y Terminal Bench 2.0.
00:02:48Ahora, para SWE Bench Verified y SWE Bench Pro,
00:02:50Opus fue el ganador allí.
00:02:52En Terminal Bench 2.0, GPT fue el ganador, por mucho, con 87.2,
00:02:56que por cierto, es un número mayor
00:02:59que el que Anthropic reportó para Mythos.
00:03:02Oh, Mythos, perdón.
00:03:03Lo cual es una locura.
00:03:05Sabes, el modelo súper secreto que no pueden liberar,
00:03:07aparentemente sale peor en Terminal Bench 2 que GPT 5.5.
00:03:10Ahora, Terminal Bench 2.0 es el mayor caso atípico aquí.
00:03:13Opus 4.7 y V4 Pro están muy atrás,
00:03:16pero mira a Opus 4.7 contra V4 Pro.
00:03:20Hay menos de dos puntos de diferencia siendo ocho veces más barato.
00:03:23Y ves el mismo tipo de historia aquí
00:03:24con SWE Bench Verified y SWE Bench Pro.
00:03:26Sí, gana Opus.
00:03:28Pero cuando comparamos el segundo lugar con el tercero,
00:03:31y V4 siempre está en tercer lugar,
00:03:33no hay la brecha enorme que esperarías.
00:03:36Quiero decir, cinco puntos no es nada, ya sabes,
00:03:38en SWE Bench Verified, de 85 a 86.
00:03:41Pero de nuevo, ocho veces más barato, código abierto.
00:03:45Sabes, hay algunas compensaciones reales aquí
00:03:46que podemos hacer si no necesitamos la mayor potencia.
00:03:49Otra cosa interesante de la que hablar
00:03:51es el contexto largo, donde curiosamente Opus 4.7 es realmente malo
00:03:55según los números, significativamente peor que 4.6,
00:03:58lo cual me vuela la cabeza.
00:04:00Y cuando hablamos de contexto largo,
00:04:01donde estamos tratando de recuperar cosas
00:04:03entre 500,000 tokens y 1 millón de tokens,
00:04:064.7 es en realidad terrible.
00:04:08Y lo hace mucho peor que DeepSeek y GPT 5.5.
00:04:12Ahora, puedes tener toda una discusión sobre
00:04:14¿por qué estás siquiera en el rango de 500,000 a 1 millón de tokens?
00:04:17Para empezar, ¿cuánta gente está operando realmente ahí
00:04:20porque estamos alcanzando la corrupción del contexto sin importar qué
00:04:22en ese punto, sin importar qué modelo estés usando.
00:04:24Pero es interesante que, por cualquier razón,
00:04:26hemos visto alguna regresión
00:04:27cuando se trata de los modelos de Anthropic.
00:04:29Pero, en general, creo que la conclusión es
00:04:32que 5.5 es muy fuerte.
00:04:33Supera a Opus 4.7 en ciertas métricas,
00:04:36pierde en ciertas métricas,
00:04:37pero es un modelo extremadamente robusto.
00:04:39Y además de eso, bueno, V4 Pro está un poco, ya sabes,
00:04:42quedándose atrás, en gran medida.
00:04:45Está a una distancia razonable siendo infinitamente más barato,
00:04:48lo cual, de nuevo, es una gran opción para tu cliente promedio.
00:04:52Porque ahora mismo parece que no tienes muchas
00:04:54opciones en el lado del código abierto que realmente puedan competir.
00:04:56Ahora saltemos a la prueba real cara a cara a cara
00:04:59con los tres modelos.
00:05:00Y estamos usando un arnés para cada uno de estos modelos.
00:05:02Con 5.5, serán Codecs.
00:05:04Con Opus 4.7, será Claude Code.
00:05:07Y con DeepSeek V4 Pro, estoy usando Open Code.
00:05:10Y para la primera prueba, lo que vamos a hacer es
00:05:11que vamos a hacer que creen un simulador de vuelo
00:05:14para nosotros en 3JS que se ejecute en el navegador.
00:05:17Puedes ver el mensaje aquí mismo.
00:05:18Estoy diciendo, quiero que se sienta bien al volar.
00:05:20Quiero que tenga algo de peso.
00:05:21Quiero imágenes fuertes y quiero que use cualquier
00:05:25estructura y herramientas que crea que es correcta.
00:05:27Así que es lo suficientemente directo para que sepan qué hacer,
00:05:30sin embargo, hay suficiente margen para que podamos ver cierta divergencia
00:05:33entre los modelos.
00:05:34Y aunque vamos a mirar lo que son capaces
00:05:36de hacer de una sola vez, vamos a pasar por múltiples iteraciones
00:05:38de esto y tener mensajes de seguimiento.
00:05:40Porque, por genial que sea ver qué tan bien lo hace en una sola vez,
00:05:44esa no es la forma en que realmente trabajamos en la vida real, ¿verdad?
00:05:46Quiero ver cómo lo hace cuando le doy mensajes de seguimiento
00:05:49y cuánto tiempo toma para llegar a algo que me guste.
00:05:52Y cuando comparamos estos tres modelos,
00:05:54realmente hay cuatro cosas que voy a observar.
00:05:55Será el tiempo.
00:05:57¿Cuánto tiempo toma construir esto?
00:05:58El costo, ¿cuántos tokens estamos usando?
00:06:01La calidad, ¿qué tan bueno es?
00:06:02Y luego cuatro es como la vibra.
00:06:04Y eso se relaciona con la calidad.
00:06:06Es muy subjetivo.
00:06:06¿Cuál me gusta más realmente?
00:06:09Y también, hay que notar que los tres modelos, los tres arneses
00:06:11también están usando exactamente las mismas habilidades.
00:06:13Así que comencemos con DeepSeek y las preguntas que nos hace.
00:06:16Está preguntando qué tipo de modelo de vuelo queremos.
00:06:18Vamos con simulación completa.
00:06:20Recomienda océanos e islas para el terreno.
00:06:22Vamos con eso.
00:06:23Veamos cómo... y luego pregunta la preferencia de cámara.
00:06:25Hagamos ambas.
00:06:26Veamos si es capaz de darnos un interruptor
00:06:27tanto para la primera como para la tercera persona.
00:06:29Vamos con su preferencia de herramientas recomendada.
00:06:32Y solo vamos con un modelo de baja poligonización
00:06:33para la aeronave y las imágenes en sí.
00:06:35Ahora moviéndonos a Codecs, el mismo tipo de preguntas.
00:06:38Aunque solo nos pide tres.
00:06:40¿En qué tipo de vuelo debería optimizarse este plan?
00:06:42Vamos con una simulación difícil.
00:06:44¿Qué experiencia jugable importa más para el navegador?
00:06:48Hagamos el despegue en la isla.
00:06:50Es interesante cómo todos tienen la misma.
00:06:52¿Y qué cámara y presentación de aeronave?
00:06:54Voy a hacer un interruptor para esto también.
00:06:56Y para Claude Code, haremos aprendizaje de simulación de estudio
00:06:58para la entrada de sensación de océano e islas.
00:07:02Haremos teclado y mouse.
00:07:04No dejaré que se ponga a trabajar.
00:07:05Así que el modo de plan, en gran medida, es muy similar en los tres.
00:07:09Prácticamente las mismas preguntas de,
00:07:11¿qué quieres que sea la física?
00:07:12¿qué quieres que sea el terreno?
00:07:13¿qué quieres que sea el ángulo de la cámara?
00:07:15Así que no hay una gran diferencia ahí.
00:07:17Y veamos con qué regresan en términos de un plan.
00:07:19Muy bien, los tres planes están completos.
00:07:20Así que repasemos cada uno muy rápidamente
00:07:22y veamos algunas de las diferencias.
00:07:24El primero que estamos mirando aquí es DeepSeek.
00:07:26Y es bastante básico en cuanto al plan que presenta.
00:07:29Así que nos da la estructura del proyecto
00:07:31y luego habla muy rápidamente sobre la física de vuelo,
00:07:33el entorno, la cámara y la superposición HUD,
00:07:35y realmente solo unos pocos puntos.
00:07:37Por otro lado, cuando miramos a 5.5 dentro de Codecs,
00:07:40es un resumen, cambios clave,
00:07:43se adentra en los detalles de implementación, el plan de prueba,
00:07:46y también los supuestos
00:07:47que lo detallan todo para nosotros.
00:07:49Y luego tenemos el plan de Claude Code, que tardó más.
00:07:50Tardó unos cinco minutos, pero es, con mucho, el más completo
00:07:53porque incluye el contexto y la pila tecnológica.
00:07:55El diseño habla sobre el modelo de vuelo.
00:07:57Entra en los diferentes momentos reales,
00:08:00hablando de pérdidas, como la alarma de pérdida.
00:08:02O sea, es muy, muy detallado.
00:08:03Entra en los controles, el mundo, el mod,
00:08:06el avión real que vamos a usar, el rendimiento,
00:08:08y simplemente sigue y sigue.
00:08:10Así que es muy detallado.
00:08:11Ahora vamos a hacer que los tres implementen su plan,
00:08:14y veremos cómo es el resultado final.
00:08:15GPT 5.5 dentro de Codecs fue el primero en terminar.
00:08:19Así que veamos cómo es.
00:08:20Aquí está el simulador de vuelo que nos dio.
00:08:22Tenemos algunas nubes en el cielo.
00:08:26Tenemos lo que parece un indicador de ángulo de ataque ahí arriba.
00:08:31Tenemos nuestra velocidad abajo,
00:08:34y veamos si realmente podemos sacar esto
00:08:35del suelo.
00:08:36Notaré que no hay nada parecido a una pista.
00:08:38Es solo césped.
00:08:39Y se suponía que iba a ser como una isla.
00:08:42Aunque cuando la cámara como que se vuelve loca,
00:08:45puedes ver la pista abajo por un segundo.
00:08:48Muy bien, estamos perdiendo sustentación y simplemente,
00:08:50ni siquiera podemos despegar, ¿verdad?
00:08:51Así que este es en realidad un poco,
00:08:54es en realidad bastante difícil.
00:08:55Así que lo que voy a hacer es darle
00:09:00una segunda instrucción pidiéndole que lo haga un poco más fácil
00:09:03de volar, porque tiene mucho pasando aquí,
00:09:05pero esto es duro.
00:09:06Así que escribí: es realmente difícil de volar.
00:09:08¿Podemos hacerlo más fácil de usar?
00:09:10O sea, un poco más tipo arcade.
00:09:12Y también los gráficos podrían mejorar.
00:09:15Así que veamos cómo resulta eso.
00:09:16Ahora, cabe destacar que a 5.5 le tomó unos siete minutos
00:09:21crear esa primera pasada para nosotros.
00:09:23Y consumió 63,000 tokens.
00:09:26Muy bien, dijo que lo hizo un poco más fácil
00:09:28de volar y actualizó los gráficos.
00:09:29Así que veamos cómo luce la segunda pasada.
00:09:32Esto es lo que obtuvimos.
00:09:32Los gráficos definitivamente se ven mejor,
00:09:34pero veamos si realmente podemos salir de la pista
00:09:36esta vez.
00:09:37Así que, muy bien, acelerador al cien por ciento,
00:09:4150, 60, siete.
00:09:43¿Cuál es la velocidad de rotación de un Cessna?
00:09:46Muy bien, 70, 80, 90.
00:09:49Tenemos que poder despegar ahora.
00:09:51Está bien, camino equivocado.
00:09:53Vamos, despega, despega.
00:09:56No, probablemente esto me hará entrar en pérdida, ¿no?
00:09:58Sí, pérdida.
00:09:59Vale, esto todavía necesita trabajo.
00:10:02Así que démosle a Codex otra oportunidad.
00:10:05Démosle a 5.5 una oportunidad más
00:10:07para que esto sea realmente jugable.
00:10:08Así que le dije que ni siquiera puedo sacar el avión
00:10:10del suelo y entrar en vuelo.
00:10:11Definitivamente necesitamos hacerlo fácil de despegar
00:10:12y realmente volar el aparato.
00:10:14Vale, dice que arregló el problema de despegue.
00:10:16Aparentemente los frenos estaban bloqueados antes.
00:10:19No sé si por eso no podíamos hacerlo.
00:10:21Oh, no lo configuró automáticamente para despegar.
00:10:24Flaps, sí, esto era,
00:10:25lo teníamos en modo súper simulador.
00:10:29Pero aquí está el tercer intento de nuestro simulador de vuelo.
00:10:32Veamos cómo nos va.
00:10:34Así que, ¿podemos despegar?
00:10:36Oh, estamos rebotando en la pista
00:10:37esta vez con algo.
00:10:38Muy bien, genial, estamos fuera del suelo.
00:10:41Estamos realmente moviéndonos.
00:10:44Veamos si podemos entrar en uno de esos anillos.
00:10:45Quiero decir, los gráficos no son tan malos, ya sabes,
00:10:49para algo generado en menos de 10 minutos.
00:10:52Parece ser bastante preciso en términos de, ya sabes,
00:10:56me está dando mi vertical, ya sabes,
00:10:59pies por minuto en la parte inferior,
00:11:00mi altitud real, los nudos, el rumbo, AGL.
00:11:04Así que es relativamente sofisticado
00:11:06en cuanto al seguimiento de todo.
00:11:08Es decir, este pequeño indicador al frente,
00:11:10parece ser como un indicador de ángulo de ataque,
00:11:13lo cual es genial.
00:11:14Así que tiene cosas buenas ocurriendo.
00:11:18Los controles reales son un poco raros.
00:11:21Como pueden ver, no puedo controlar esto para nada,
00:11:23pero en general, no está mal.
00:11:25Ya sabes, podemos estrellar esto tipo kamikaze
00:11:27y ver qué pasa a 18,000 pies por minuto.
00:11:31Pero sí, ya sabes, por 66,000 tokens,
00:11:36unos 10 minutos, 15 minutos más o menos,
00:11:40ya sabes, con las idas y venidas,
00:11:41no creo que esté nada mal.
00:11:42Así que ahora echemos un vistazo a DeepSeek.
00:11:44Le tomó unos 10 minutos hacer esto.
00:11:46Y en términos de tokens, 63,000 y 44 centavos.
00:11:51Así que 44 centavos, 10 minutos.
00:11:53Y esto es lo que DeepSeek nos dio.
00:11:56No tengo idea de
00:12:00lo que estoy viendo.
00:12:03Esto se supone que es en tercera persona.
00:12:06Esto se supone que es la cabina.
00:12:07Y obviamente nuestro primer intento con DeepSeek
00:12:11fue otro desastre.
00:12:13Así que le digo a DeepSeek que el simulador es un completo desastre.
00:12:16Los gráficos son completamente defectuosos
00:12:17y no puedo volar nada.
00:12:20Por favor, arréglalo.
00:12:21Y así es como luce nuestro segundo intento.
00:12:24Sigo sin tener ni idea.
00:12:26Absolutamente ninguna pista.
00:12:28Qué rayos es DeepSeek.
00:12:30Oh, hey, hay un avión.
00:12:32Oh, hay algo.
00:12:33Sí, esto es brutal.
00:12:38Y para ser honesto, siento que incluso dándole otra instrucción
00:12:42para hacer esto, necesitaría empezar a ser muy, muy específico
00:12:44sobre lo que estamos tratando de hacer, lo cual, de nuevo,
00:12:47se queda bastante corto respecto a lo que hicimos con Codex.
00:12:49Fue con instrucciones, ya sabes, algo suaves.
00:12:51Pude obtener algo al menos cercano,
00:12:53incluso en la primera pasada.
00:12:54Aquí claramente está luchando por completo
00:12:57con los gráficos.
00:12:58Simplemente, ni siquiera sé cómo describir esto,
00:13:01pero bueno, fue súper barato.
00:13:03Así que ahora echemos un vistazo a lo que Claude Code
00:13:07pudo darnos como referencia.
00:13:09Le tomó 13 minutos ejecutar el plan.
00:13:12El plan en sí tomó cinco minutos.
00:13:13Así que digamos 20 minutos para dar con la primera pasada.
00:13:17Y luego en cuanto al total de tokens,
00:13:19esta ejecución tomó alrededor del 15% más el 5% antes del plan.
00:13:22Así que estamos viendo, bueno, lo siento,
00:13:24estamos viendo 11% de contexto más 5% antes.
00:13:28Así que llamémoslo 20 minutos, 150,000 tokens para Claude Code,
00:13:33que es definitivamente el más costoso
00:13:34y el más lento de todos ellos.
00:13:36Y aquí está el intento de Claude Code.
00:13:39Por alguna razón, estamos instantáneamente en el aire.
00:13:43Estamos perdiendo sustentación.
00:13:44Estamos en IFR.
00:13:45No sé qué está pasando.
00:13:48Estamos a punto de estrellar algo.
00:13:50¿Podemos salvar esto?
00:13:51¿Podemos sacar esto de un picado?
00:13:53No, estamos perdiendo sustentación, no, estamos muertos.
00:13:54Está bien, eso es interesante.
00:13:56De nuevo, nos lanza instantáneamente al aire.
00:14:00Estamos en las nubes.
00:14:02Estamos perdiendo sustentación.
00:14:03No sé qué está pasando.
00:14:05Necesitamos, necesitamos una segunda pasada.
00:14:08Así que escribí: al cargar, soy lanzado instantáneamente al aire.
00:14:11Es difícil de controlar.
00:14:12Quiero empezar en la pista y quiero que sea más fácil de volar.
00:14:15Oh, y por cierto, mejora esos gráficos también.
00:14:17Así que tomó unos cuatro minutos, pero hizo algunos cambios.
00:14:20Vamos a aparecer en la pista.
00:14:22Cambió el tren de aterrizaje.
00:14:23Así que ahora es tren triciclo y algunas otras cosas.
00:14:24Así que veamos cómo luce.
00:14:26Correcto, así que aquí está.
00:14:27De nuevo, somos lanzados inmediatamente a un banco de niebla.
00:14:29Estoy tratando de controlar esta cosa.
00:14:31Y simplemente, sí, no hay control sobre esto en absoluto.
00:14:33Muy bien, vamos a darle,
00:14:34vamos a darle a Claude Code una oportunidad más aquí.
00:14:37Así que le dije que todavía me lanza instantáneamente
00:14:39hacia el cielo.
00:14:40Dije, vayamos con una sensación mucho más tipo arcade
00:14:42con los controles.
00:14:43Creo que probablemente deberíamos haber hecho eso
00:14:44con las instrucciones iniciales para los tres.
00:14:46Creo que al buscar un simulador realista,
00:14:50realmente lucha para,
00:14:53creo, hacer eso de una manera que sea fácil de usar.
00:14:57Creo que probablemente está haciendo un buen trabajo bajo el capó
00:14:59en términos de, vale, el ángulo de ataque.
00:15:01Está bien, estás perdiendo sustentación en este, ya sabes,
00:15:02ángulo respecto a la velocidad y todo eso.
00:15:04Pero realmente manipular esto desde la computadora
00:15:07es básicamente imposible.
00:15:09Aunque creo que lo de la niebla es muy extraño.
00:15:12Así que veamos si después de la segunda ronda de instrucciones
00:15:15es capaz de hacerlo un poco mejor
00:15:16porque ahora mismo GPT 5.5 lo hizo mucho, mucho mejor.
00:15:20Así que Claude Code hizo algunos cambios más,
00:15:22lo hizo más fácil de usar.
00:15:23Y veamos si todavía voy
00:15:24esta vez por mi habilitación de vuelo instrumental.
00:15:26Así que sí, seguimos adelante.
00:15:28Seguimos intentando la habilitación instrumental.
00:15:30Estamos en el menú, pero ya sabes, puedo verlo.
00:15:33Ya sabes, puedo revisar mi panel de instrumentos.
00:15:35Muy bien, estamos despegando de la pista.
00:15:37Sí, de acuerdo.
00:15:42¿Puedo saber por qué hay un árbol en la pista?
00:15:44Estoy tratando de subir.
00:15:46¿Puedo subir?
00:15:47¿Puedo inclinarme?
00:15:49¿Hacer clic en el lienzo para bloquear el ratón, qué?
00:15:53Oh, estamos en el aire.
00:15:54No, no, morimos.
00:15:57Así que sí, creo que esto queda bastante claro.
00:16:02GPT 5.5, claramente el ganador, creo yo.
00:16:06Claude Code quedó en segundo lugar.
00:16:08Yo le daría el segundo lugar.
00:16:10Ya sabes, definitivamente tuvo problemas
00:16:13incluso con las indicaciones que le dimos.
00:16:14No le dimos muy buenas instrucciones, seamos sinceros.
00:16:16Creo que con más tiempo, mejores indicaciones,
00:16:19algunos intercambios más,
00:16:20podríamos haberlo llevado a donde queríamos.
00:16:21Al menos tenía una aeronave y una pista.
00:16:25Tenía árboles en la pista,
00:16:26pero tenía las cosas que realmente necesitábamos
00:16:29en comparación con DeepSeek con OpenCODE.
00:16:32No tenía ni idea de lo que pasaba ahí.
00:16:34Fue un completo desastre.
00:16:35Siento que hubiera tenido que empezar
00:16:36de cero, como darle una indicación muy específica.
00:16:38Ni siquiera estuvo cerca de ser manejable,
00:16:39pero GPT 5.5 desde el primer momento, ya sabes,
00:16:42con instrucciones bastante vagas.
00:16:44Creo que lo hizo realmente bien.
00:16:455.5 también usó un total de 66 mil tokens.
00:16:48Estamos viendo que aquí con Opus en conjunto,
00:16:52fueron unos 200.000 tokens.
00:16:53Así que un cuarto de los tokens, básicamente un cuarto del costo.
00:16:56Y fue un poco más rápido.
00:16:58Quiero decir, a estas alturas, ni siquiera me importa
00:16:59que OpenCODE haya tardado más que GPT 5.5.
00:17:03Y simplemente apestó, seamos honestos, fue horrible.
00:17:07Ahora pasemos a la prueba número dos.
00:17:10Esta vez vamos a pedirles
00:17:12que creen una página de aterrizaje que muestre trabajo de sombreado WebGPU
00:17:16usando 3JS.
00:17:18Ahora, el trabajo de sombreado WebGPU es el tipo de cosas que ves
00:17:21en sitios web de premios.
00:17:23Estoy hablando de sitios como Igloo, este tipo de cosas,
00:17:26gráficos de muy alta gama.
00:17:28Parece un videojuego.
00:17:29Básicamente está usando la tarjeta gráfica de tu computadora
00:17:32para renderizar todo esto.
00:17:34No espero que ninguno de ellos logre algo ni remotamente
00:17:37cercano a lo que vemos aquí, pero quiero ver qué pueden hacer
00:17:40usando esencialmente la tecnología de sombreadores.
00:17:42Esto está definitivamente un paso por encima de tu básica
00:17:45página de aterrizaje de SaaS.
00:17:46Quiero ver qué pueden hacer y llevarlos
00:17:48al límite en el mundo del diseño web.
00:17:50Les he dado a todos una habilidad que desglosa
00:17:53cómo hacer este tipo de cosas.
00:17:55Así que no es que estén completamente a ciegas
00:17:57y uno tampoco tiene ventaja sobre el otro.
00:18:00Lo único que les he dicho es que quiero que se sienta moderno
00:18:02y visualmente impactante, algo que verías en premios
00:18:05y que haga un uso inteligente de la computación GPU.
00:18:08Pueden elegir cualquier pila y estructura de proyecto
00:18:10que quieran y usar buen juicio en el concepto del héroe,
00:18:13interfaz de usuario e interacciones.
00:18:15Y al igual que en la primera prueba, todos están en modo plan.
00:18:17Así que empecemos.
00:18:18Bien, todos terminaron su plan y, curiosamente,
00:18:21ninguno me hizo ninguna pregunta,
00:18:22a pesar de haberlos puesto en modo plan.
00:18:24Así que echemos un vistazo primero a GPT 5.5.
00:18:28Nos dice que va a hacer un héroe interactivo
00:18:30impulsado por GPU a pantalla completa.
00:18:32El concepto será un campo de señales vivas
00:18:34con una especie de partículas densas que va a hacer.
00:18:36Veremos cómo resulta eso.
00:18:38Y en general, es una página de aterrizaje minimalista estilo premios.
00:18:41Escena WebGPU totalmente interactiva
00:18:43con simulación de cómputo reactiva al puntero.
00:18:46Bien, para DeepSeek es un plan bastante breve y sencillo,
00:18:50igual que vimos con el simulador de vuelo.
00:18:53Espero que tengamos un mejor resultado esta vez,
00:18:54pero una sección de héroe con 75.000 partículas de cómputo GPU.
00:18:58Supongo que todos van a optar
00:19:01por algún tipo de tema de partículas en el héroe.
00:19:04Así que tendrá interacción con el ratón, integración.
00:19:08Tendrá una inicialización única.
00:19:10Y luego deberíamos ver cosas como resplandor,
00:19:13aberración cromática, una viñeta personalizada y algo de grano de película.
00:19:16Veremos cómo termina viéndose eso realmente.
00:19:19Y luego tenemos el plan de Opus 4.7 de nuevo,
00:19:21optando por esto de las partículas con resplandor
00:19:23y será interactivo con el ratón.
00:19:25Veremos si alguno de estos realmente se ve diferente
00:19:27porque en la superficie, todos sus planes suenan muy similares.
00:19:29Así que el primero en terminar fue 5.5.
00:19:32Tomó unos seis minutos.
00:19:34Y en términos de tokens, hemos usado 107.000.
00:19:37Así que veamos qué nos construyó.
00:19:40Y esto es lo que creó para nosotros.
00:19:42Ahora, esto es muy brillante.
00:19:45Es difícil incluso ver las partículas reales,
00:19:47pero ya sabes, mientras nos desplazamos hacia arriba y hacia abajo,
00:19:50tiene una animación en el fondo
00:19:52así como, ya sabes, algunos cambios sutiles de color.
00:19:56Parece que ahora nuestro ratón debería
00:20:00atraer las partículas.
00:20:01Y tenemos, moveré esto por aquí.
00:20:03Dio algunas opciones como repeler contra deriva.
00:20:08Pero de nuevo, es un poco difícil verlo
00:20:11debido a lo brillante que es.
00:20:12Así que le dije que es difícil ver realmente las partículas
00:20:14debido al brillo.
00:20:14También se apodera de gran parte de la tecnología del héroe.
00:20:16Así que, ¿podemos bajar un poco el brillo
00:20:18y también empujarlo un poco más a la derecha?
00:20:20Porque ahora mismo es un poco abrumador.
00:20:23Ni siquiera puedes leer el texto aquí a la izquierda
00:20:25debido a lo extremadamente brillantes que son estas partículas.
00:20:27Y aquí está la actualización después de la segunda ejecución.
00:20:30Es un poco mejor.
00:20:31No es tan abrumador y deja espacio para el texto.
00:20:35Aunque diré que está casi borroso,
00:20:39pero ya sabes, no está mal.
00:20:41Como que se propuso hacer lo que le dijimos
00:20:44dado el problema un tanto vago.
00:20:46Así que no estoy impresionado con el diseño que se le ocurrió,
00:20:49pero tampoco estoy molesto por ello.
00:20:51Ahora echemos un vistazo a Claude Code
00:20:52porque mientras hemos estado haciendo todo esto,
00:20:55DeepSeek sigue aquí en las trincheras
00:20:57intentando resolver esto.
00:20:58Y aquí está lo que nos dio Claude Code.
00:21:01Así que, básicamente nada.
00:21:06No estoy seguro de si dice que el fondo,
00:21:10supongo que todo el fondo se supone que es
00:21:14el WebGL, supongo.
00:21:19Es muy discreto,
00:21:21lo cual supongo que es algo que podrías hacer perfectamente.
00:21:24Quiero decir, en la pantalla no se ve,
00:21:25bueno, se ve bastante bien, pero seré honesto,
00:21:28estaba buscando algo un poco más llamativo.
00:21:31Así que en la segunda pasada,
00:21:31cuando le dije que lo hiciera un poco más llamativo,
00:21:34no hubo una gran diferencia.
00:21:35Aunque es realmente sutil.
00:21:38Tiene una especie de grano de película,
00:21:40casi como este desenfoque que va de abajo hacia arriba.
00:21:43Así que es algo bastante sutil.
00:21:45Y puedes ver aquí en la parte inferior,
00:21:47que rastrea los fotogramas por segundo.
00:21:49Está usando 250.000 partículas.
00:21:51Así que, bueno, honestamente se ve genial.
00:21:54Solo que no es súper llamativo.
00:21:56Así que es definitivamente una cuestión de gustos.
00:21:58El total de tokens por el lado de Claude Code fue de unos 175.000,
00:22:01y tomó un poco más de tiempo que 5.5 dentro de Codex.
00:22:05Ahora veamos DeepSeek,
00:22:07que ha tomado 116.000 tokens hasta este punto.
00:22:10También tardó más,
00:22:12pero el costo total estamos hablando de nuevo, menos de un dólar.
00:22:15Y esto es lo que nos dio.
00:22:17Así que es como este campo de partículas
00:22:21que sigue un poco mi ratón.
00:22:25Interesante.
00:22:27Creo que podría darte una convulsión epiléptica.
00:22:29Honestamente, más allá de eso, es bastante soso.
00:22:35El flujo, ya sabes, rayos X aquí cambia un poco de color,
00:22:39pero sí, prácticamente solo creó esta cosa.
00:22:43Después de decirle a DeepSeek que hiciera otra pasada,
00:22:45regresó con esto,
00:22:46donde ahora tiene como un extraño efecto de paralaje.
00:22:49Tiene algunas cosas azules en el fondo.
00:22:53Y ahora esto que parece un OVNI,
00:22:55que responde de alguna manera a tu ratón,
00:22:58pero sí, es algo.
00:23:02Y en general, el conteo de tokens de DeepSeek fue de 130 mil tokens
00:23:05con un costo de 1,43 dólares.
00:23:08Entonces, después de todas esas pruebas, ¿dónde nos deja esto?
00:23:13Ahora hablemos de los resultados finales.
00:23:15Cuando se trata de la prueba número uno,
00:23:16que fue el simulador de vuelo, hubo un claro ganador.
00:23:18Fue GPT 5.5 dentro de Codex.
00:23:21Fue más rápido que Opus 4.7 dentro de Claude Code.
00:23:25También fue más rápido y el resultado final fue, de lejos, el mejor.
00:23:29DeepSeek lo hizo terriblemente en el simulador de vuelo.
00:23:32Ni siquiera se acercó a lo que estábamos intentando hacer.
00:23:34Hubiera tenido que seguir indicándole,
00:23:35indicándole, indicándole para siquiera acercarlo
00:23:38a la primera pasada de 5.5 y Opus 4.7 y Claude Code
00:23:43fue como, eh, no estuvo horrible.
00:23:46Realmente no funcionó al principio,
00:23:48pero después de un par de indicaciones, se podía notar,
00:23:50podríamos conseguir que equivaliera
00:23:52a lo que estaba haciendo GPT 5.5.
00:23:54Eso habría requerido más mensajes.
00:23:55Habría llevado más tiempo
00:23:57y, a la larga, sería más caro.
00:23:59Así que, claro ganador para 5.5.
00:24:01En cuanto a la página de inicio de WebGPU,
00:24:03de nuevo, DeepSeek tuvo dificultades aquí.
00:24:04No me gustó nada esto.
00:24:06Realmente no sé qué se supone que es.
00:24:08Claro, no le di una instrucción muy buena,
00:24:10pero, ¿es esto lo que obtendremos
00:24:13como resultado medio de referencia?
00:24:16Si no tomo a DeepSeek por las riendas
00:24:19y realmente lo fuerzo a hacer algo, supongo que sí.
00:24:22Ahora, cuando comparamos Opus y 5.5,
00:24:24me habría quedado con Opus 4.7 y Claude Code
00:24:27por cómo manejó lo de WebGPU.
00:24:29Creo que tiene que ver con una cuestión de gustos.
00:24:31Sí, se podría decir que 5.5 fue más llamativo,
00:24:35pero me pareció un poco feo.
00:24:37De nuevo, en todas estas pruebas, mantuvimos los mensajes bastante vagos
00:24:41para ver qué camino tomaban.
00:24:43Así que definitivamente le daría la ventaja a Opus aquí,
00:24:46aunque fue más caro
00:24:48y también tardó un poco más.
00:24:50Así que si les diéramos una instrucción más práctica,
00:24:55que fuera muy específica sobre lo que querías hacer,
00:24:57porque 5.5 hizo lo que queríamos que hiciera.
00:24:59O sea, sí creó una página de inicio para WebGPU.
00:25:02Solo que me pareció fea.
00:25:04Así que aun así completó la tarea.
00:25:06Solo que no la completó tan bien, creo, como Opus.
00:25:08Ahora, en general, ¿qué significa
00:25:09si tomamos todo eso en conjunto?
00:25:11Bueno, creo que significa una gran noticia
00:25:13para cualquiera que esté usando decodificadores de agentes.
00:25:16Tenemos opciones, ¿verdad?
00:25:18Puedes usar Opus y Claude Code,
00:25:20o puedes usar GPT 5.5 y Codecs.
00:25:23No te equivocarás con ninguno de los dos.
00:25:25Creo que es totalmente una preferencia personal en este punto.
00:25:28Y la mejor parte es que si sigues la ruta de Claude Code,
00:25:31básicamente todo se aplica a Codecs.
00:25:33Si sigues la ruta de Codecs,
00:25:34básicamente todo se aplica a Claude Code.
00:25:37Así que realmente no creo que haya un bloqueo de proveedor en el sentido de,
00:25:40oh, solo aprendí Claude Code.
00:25:42Como si no pudiera ir a Codecs o viceversa.
00:25:44Ese no es el caso en absoluto.
00:25:45Si estás haciendo esto de la manera correcta,
00:25:46lo que realmente estás aprendiendo son fundamentos de IA
00:25:48y cómo construir cosas.
00:25:49Y eso se aplica a ambos.
00:25:51Y cuanta más competencia,
00:25:53mejor es para nosotros, los consumidores.
00:25:54Ahora, en cuanto a DeepSeek, eh, no lo sé.
00:25:59No me impresionó mucho.
00:26:00Esta podría ser una situación en la que, vale,
00:26:02DeepSeek tiene sentido si estamos haciendo tareas más simples
00:26:04donde simplemente no necesitamos la potencia de algo como Opus,
00:26:06o simplemente no necesitamos la potencia de algo como GPT 5.5.
00:26:10Porque recuerda, estamos hablando de algo
00:26:11que es ocho veces más barato.
00:26:13Claro, no me gustaron las páginas de inicio de WebGPU
00:26:16que propuso, pero ¿era ocho veces peor?
00:26:19Tal vez, tal vez no.
00:26:21Es un poco difícil realmente,
00:26:23articular y cuantificar eso.
00:26:24Pero obviamente es algo que debemos tener en cuenta.
00:26:27Así que, bueno, no creo que sea realmente competencia
00:26:30para ser franco, con 4.7 o 5.5.
00:26:33Sin embargo, creo que si estás haciendo tareas más simples
00:26:35y eres muy consciente de los tokens y del dinero,
00:26:38entonces, oye, tal vez DeepSeek tenga sentido para ti.
00:26:41Así que eso es todo lo que tengo para ustedes hoy.
00:26:42Espero que esto arroje algo de luz sobre estos tres modelos
00:26:45y cómo se comparan entre sí.
00:26:47Creo que es un gran momento para estar en este espacio.
00:26:49Más competencia es mejor para todos.
00:26:51Así que, como siempre, si quieren obtener acceso
00:26:53a la Masterclass de Claude Code,
00:26:55asegúrense de echar un vistazo a Chase AI Plus.
00:26:56Hay un enlace a eso en la descripción.
00:26:58Y nos vemos por ahí.