Transcript
00:00:00Google acaba de lanzar Gemini 3.5 Flash y están haciendo afirmaciones bastante audaces.
00:00:04Rendimiento de vanguardia a cuatro veces la velocidad, a menudo por menos de la mitad del costo.
00:00:09Todo eso suena increíble, pero la realidad es mucho peor de lo que Google publicita.
00:00:12Y eso fue solo la mitad de lo que lanzaron. También lanzaron Anti-Gravity 2, que es
00:00:16su nueva aplicación de agente independiente, básicamente su respuesta a Codex, además de la Anti-Gravity
00:00:20CLI, que en realidad reemplaza a la CLI de Gemini, así que esa es otra para “Killed by Google”.
00:00:30Empecemos con las estadísticas principales. Tiene una ventana de contexto de un millón de tokens, 64,000
00:00:34tokens de salida y acepta texto, imágenes, video, audio y PDF como entrada. Google siempre ha
00:00:39sido bastante bueno con estos modelos multimodales.
00:00:42En cuanto al rendimiento real, los propios puntos de referencia de Google sitúan a este modelo a la par con GPT 5.5
00:00:46cuando se trata de programación, quedando solo unos puntos porcentuales por detrás en SWBench Pro y Terminal
00:00:50Bench; de hecho, supera a Opus 4.7 en Terminal Bench por alrededor de un 10%, pero Claude
00:00:56Opus se recupera en SWBench Pro superando a Gemini también por alrededor de un 10%.
00:01:01Para flujos de trabajo de agentes, este modelo gana tanto en los benchmarks de MCP como en Toolathon
00:01:06y, en general, estos benchmarks no son malos resultados, pero todo esto es según Google.
00:01:11Si, en cambio, echamos un vistazo a benchmarks de terceros, como Artificial Analysis, no le está yendo
00:01:15muy bien. Su índice de programación tiene a Gemini 3.5 Flash con una puntuación de 45, lo cual es inferior a modelos
00:01:21como Kimi K2.6, y ni siquiera supera a Gemini 3.1 Pro, a pesar de que en todos sus propios benchmarks
00:01:27estaba por delante en todo. De hecho, solo está unos puntos por delante de Gemini 3 Flash también.
00:01:32La historia mejora un poco cuando observas el rendimiento de los agentes. Ha dado
00:01:35un buen salto sobre Gemini 3.1 Pro y, sí, técnicamente está ahí compitiendo con los modelos
00:01:41de vanguardia.
00:01:42Mirando nuestros análisis, parece que el 75% de los que ven esto no están suscritos,
00:01:45así que les voy a pedir amablemente que lo hagan. Por favor, suscríbanse.
00:01:48El punto clave de este modelo es definitivamente su velocidad. De hecho, obtuvieron 278 tokens por
00:01:53segundo con este modelo, lo que supera masivamente a Opus 4.7, GPT 5.5 e incluso a modelos
00:01:59como Haiku y los de código abierto de OpenAI. Así que, cuando se trata de inteligencia vs. velocidad,
00:02:04este modelo es definitivamente el mejor.
00:02:06En general, es una mezcla de resultados. No es el mejor modelo y no es el peor,
00:02:10pero es realmente muy rápido, y no me importarían estos resultados si fuera realmente la mitad
00:02:14del costo de los otros modelos, pero aquí es donde las cosas empiezan a desmoronarse.
00:02:18El precio de este modelo es de $1.50 por un millón de tokens de entrada y $9 por un millón de tokens de salida,
00:02:23lo cual es en realidad 3 veces más de lo que costaba Gemini 3 Flash, pero sigue siendo mucho más barato que
00:02:27modelos como Opus 4.7 y GPT 5.5, al menos sobre el papel.
00:02:32Sin embargo, al ejecutar sus puntos de referencia, Artificial Analysis descubrió que Gemini 3.5 Flash
00:02:36costó $1,552 para ejecutar el índice de inteligencia, lo cual es de hecho 5.5 veces más caro
00:02:42que Gemini 3 Flash y un 75% más caro que Gemini 3.1 Pro. Lo que es aún peor,
00:02:48es que es más caro que GPT 5.5 con alto razonamiento, que supera masivamente a Flash
00:02:54cuando se trata de rendimiento de programación; de hecho, resaltaré todos los modelos en este
00:02:57gráfico que son más baratos y superan a Flash en cuanto a rendimiento de programación. Simplemente no se ve
00:03:02nada bien, y ciertamente no está a la mitad del costo como afirmaba su marketing.
00:03:06Profundizando un poco más, parece que el problema con este modelo es que, aunque es rápido,
00:03:10es un devorador de tokens. En evaluaciones de agentes promedió 49 turnos por tarea, que es uno
00:03:15de los más altos de cualquier modelo que hayan probado. Simplemente le gusta mucho consumir tus
00:03:19tokens de entrada. Así que, en general, no estoy muy seguro de a dónde nos lleva esto. Este modelo
00:03:23simplemente se siente “meh”. La velocidad es genial, así que si valoras eso por encima de todo lo demás, quizás
00:03:28este sea el modelo a usar. Lo mismo si quieres grandes capacidades multimodales, pero el
00:03:33rendimiento de programación simplemente no es suficiente para que yo considere probar esto durante un
00:03:37período de tiempo más largo del que he tenido en este video. Así que pasemos a hablar sobre el otro
00:03:41gran anuncio que fue Anti-Gravity 2 y la nueva CLI.
00:03:44¿Esta es Anti-Gravity 2? Espera, no, lo siento, eso es T3 Code. ¿Quizás esta? Espera, no, eso es
00:03:50Codecs. ¿Qué tal esta? No, eso es Cursor. Esta es, de hecho, Anti-Gravity 2, y creo que
00:03:55puedes ver mi punto. Básicamente todas estas aplicaciones han empezado a verse iguales. Una parte divertida
00:03:59de una de nuestras demostraciones es cuando el desarrollador intenta crear un nuevo proyecto y simplemente puedes
00:04:03ver la carpeta de Codecs justo ahí. Así que, para ser honesto, no pasaré mucho tiempo revisando
00:04:07esta aplicación. Es exactamente igual a todas las demás. Tenemos nuestras conversaciones a la
00:04:11izquierda, tenemos nuestros proyectos, tenemos tareas programadas y aquí puedes hacer clic en cualquiera de
00:04:15estos archivos si quieres ver la vista de diferencias (diff view). Lo único a notar es que esta ya no es
00:04:18la IDE de Anti-Gravity. Esta es solo una aplicación completamente independiente. Lo que ves
00:04:22es lo que obtienes. Ahora, de hecho probé un par de prompts en ella. Uno de ellos
00:04:26fue crear un tablero de finanzas personales full-stack y el otro fue mucho más simple,
00:04:30solo probando la interfaz de cómo me construiría un sitio web de una cafetería en un solo index.html.
00:04:35Este es el resultado del prompt de la cafetería, muy simple, y debo decir que realmente me gusta
00:04:39el sitio web que ha construido aquí, así que parece que 3.5 Flash es bastante bueno en diseño de UI.
00:04:44Diría que en general es un sitio muy bonito. Todavía tiene un poco de aire a inteligencia artificial,
00:04:48creo que es principalmente ese estilo de tarjetas y degradados que a la IA le gusta tanto en este momento, pero
00:04:53el sitio es bastante funcional y se ve como esperaría que se viera. Como contexto, esto
00:04:58es lo que Opus 4.7 me dio cuando le di exactamente el mismo prompt, y sí creo que Gemini 3.5
00:05:03Flash gana en este caso, pero obviamente es solo una prueba puntual. En cuanto al
00:05:07prompt del tablero de finanzas más complicado, que es una aplicación full-stack, lo hizo bien al lograr
00:05:11que la aplicación funcione, pero definitivamente no me gusta el diseño de la UI. No es malo, pero simplemente
00:05:16tiene ese aspecto de haber sido diseñado por IA, y también puntos negativos por llamarlo
00:05:20Aura Wealth. Cuando lo comparas con lo que me dio Opus 4.7, es un mundo de diferencia.
00:05:25Opus 4.7 aquí se ve muy bien y, para ser honesto, no tengo muchas notas sobre cómo
00:05:29cambiaría esta UI. Opus realmente pasó 20 minutos en ese prompt, mientras que Gemini tomó
00:05:33cinco minutos, así que sí, es definitivamente más rápido, pero también podría haber usado los 15 extra para
00:05:38hacer que se vea mejor. Pasando de eso, también obtuvimos la CLI de Anti-Gravity, y esta probablemente
00:05:42hará enojar a algunas personas porque en realidad van a cerrar la CLI de Gemini; no podrán
00:05:46usarla después del 18 de junio de este año, y la nueva CLI es básicamente la misma en este
00:05:51momento, excepto que ha sido reescrita en Go y además ahora es de código cerrado, lo cual sí apesta
00:05:56y en realidad no instalé esta, ya que una vez más, es solo Claude Code, pero para Gemini.
00:06:00No hay nada nuevo que mostrarte. Para resumir todos mis pensamientos sobre esto, ahora mismo 3.5
00:06:05Flash es bueno para agentes, pero es caro y demasiado débil en programación para ser el paquete completo,
00:06:10así que espero que veamos un poco más de Gemini 3.5 Pro, que aparentemente viene el próximo mes,
00:06:15pero por ahora parece que Google no va a ser el líder en programación y, para ser
00:06:19honesto contigo, realmente no creo que necesiten serlo. Parece que el mercado de Google es más
00:06:23la persona común integrando esto en todas sus experiencias como Gmail, Búsqueda, Workspace,
00:06:28Android y todo lo demás, así que tal vez los desarrolladores simplemente no sean el enfoque. Hazme
00:06:33saber qué piensas en los comentarios aquí abajo, mientras estás allí suscríbete, y como siempre,
00:06:36nos vemos en la próxima.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video