Gemini 3.5 Flash está... bien

BBetter Stack
컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00Google acaba de lanzar Gemini 3.5 Flash y están haciendo afirmaciones bastante audaces.
00:00:04Rendimiento de vanguardia a cuatro veces la velocidad, a menudo por menos de la mitad del costo.
00:00:09Todo eso suena increíble, pero la realidad es mucho peor de lo que Google publicita.
00:00:12Y eso fue solo la mitad de lo que lanzaron. También lanzaron Anti-Gravity 2, que es
00:00:16su nueva aplicación de agente independiente, básicamente su respuesta a Codex, además de la Anti-Gravity
00:00:20CLI, que en realidad reemplaza a la CLI de Gemini, así que esa es otra para “Killed by Google”.
00:00:30Empecemos con las estadísticas principales. Tiene una ventana de contexto de un millón de tokens, 64,000
00:00:34tokens de salida y acepta texto, imágenes, video, audio y PDF como entrada. Google siempre ha
00:00:39sido bastante bueno con estos modelos multimodales.
00:00:42En cuanto al rendimiento real, los propios puntos de referencia de Google sitúan a este modelo a la par con GPT 5.5
00:00:46cuando se trata de programación, quedando solo unos puntos porcentuales por detrás en SWBench Pro y Terminal
00:00:50Bench; de hecho, supera a Opus 4.7 en Terminal Bench por alrededor de un 10%, pero Claude
00:00:56Opus se recupera en SWBench Pro superando a Gemini también por alrededor de un 10%.
00:01:01Para flujos de trabajo de agentes, este modelo gana tanto en los benchmarks de MCP como en Toolathon
00:01:06y, en general, estos benchmarks no son malos resultados, pero todo esto es según Google.
00:01:11Si, en cambio, echamos un vistazo a benchmarks de terceros, como Artificial Analysis, no le está yendo
00:01:15muy bien. Su índice de programación tiene a Gemini 3.5 Flash con una puntuación de 45, lo cual es inferior a modelos
00:01:21como Kimi K2.6, y ni siquiera supera a Gemini 3.1 Pro, a pesar de que en todos sus propios benchmarks
00:01:27estaba por delante en todo. De hecho, solo está unos puntos por delante de Gemini 3 Flash también.
00:01:32La historia mejora un poco cuando observas el rendimiento de los agentes. Ha dado
00:01:35un buen salto sobre Gemini 3.1 Pro y, sí, técnicamente está ahí compitiendo con los modelos
00:01:41de vanguardia.
00:01:42Mirando nuestros análisis, parece que el 75% de los que ven esto no están suscritos,
00:01:45así que les voy a pedir amablemente que lo hagan. Por favor, suscríbanse.
00:01:48El punto clave de este modelo es definitivamente su velocidad. De hecho, obtuvieron 278 tokens por
00:01:53segundo con este modelo, lo que supera masivamente a Opus 4.7, GPT 5.5 e incluso a modelos
00:01:59como Haiku y los de código abierto de OpenAI. Así que, cuando se trata de inteligencia vs. velocidad,
00:02:04este modelo es definitivamente el mejor.
00:02:06En general, es una mezcla de resultados. No es el mejor modelo y no es el peor,
00:02:10pero es realmente muy rápido, y no me importarían estos resultados si fuera realmente la mitad
00:02:14del costo de los otros modelos, pero aquí es donde las cosas empiezan a desmoronarse.
00:02:18El precio de este modelo es de $1.50 por un millón de tokens de entrada y $9 por un millón de tokens de salida,
00:02:23lo cual es en realidad 3 veces más de lo que costaba Gemini 3 Flash, pero sigue siendo mucho más barato que
00:02:27modelos como Opus 4.7 y GPT 5.5, al menos sobre el papel.
00:02:32Sin embargo, al ejecutar sus puntos de referencia, Artificial Analysis descubrió que Gemini 3.5 Flash
00:02:36costó $1,552 para ejecutar el índice de inteligencia, lo cual es de hecho 5.5 veces más caro
00:02:42que Gemini 3 Flash y un 75% más caro que Gemini 3.1 Pro. Lo que es aún peor,
00:02:48es que es más caro que GPT 5.5 con alto razonamiento, que supera masivamente a Flash
00:02:54cuando se trata de rendimiento de programación; de hecho, resaltaré todos los modelos en este
00:02:57gráfico que son más baratos y superan a Flash en cuanto a rendimiento de programación. Simplemente no se ve
00:03:02nada bien, y ciertamente no está a la mitad del costo como afirmaba su marketing.
00:03:06Profundizando un poco más, parece que el problema con este modelo es que, aunque es rápido,
00:03:10es un devorador de tokens. En evaluaciones de agentes promedió 49 turnos por tarea, que es uno
00:03:15de los más altos de cualquier modelo que hayan probado. Simplemente le gusta mucho consumir tus
00:03:19tokens de entrada. Así que, en general, no estoy muy seguro de a dónde nos lleva esto. Este modelo
00:03:23simplemente se siente “meh”. La velocidad es genial, así que si valoras eso por encima de todo lo demás, quizás
00:03:28este sea el modelo a usar. Lo mismo si quieres grandes capacidades multimodales, pero el
00:03:33rendimiento de programación simplemente no es suficiente para que yo considere probar esto durante un
00:03:37período de tiempo más largo del que he tenido en este video. Así que pasemos a hablar sobre el otro
00:03:41gran anuncio que fue Anti-Gravity 2 y la nueva CLI.
00:03:44¿Esta es Anti-Gravity 2? Espera, no, lo siento, eso es T3 Code. ¿Quizás esta? Espera, no, eso es
00:03:50Codecs. ¿Qué tal esta? No, eso es Cursor. Esta es, de hecho, Anti-Gravity 2, y creo que
00:03:55puedes ver mi punto. Básicamente todas estas aplicaciones han empezado a verse iguales. Una parte divertida
00:03:59de una de nuestras demostraciones es cuando el desarrollador intenta crear un nuevo proyecto y simplemente puedes
00:04:03ver la carpeta de Codecs justo ahí. Así que, para ser honesto, no pasaré mucho tiempo revisando
00:04:07esta aplicación. Es exactamente igual a todas las demás. Tenemos nuestras conversaciones a la
00:04:11izquierda, tenemos nuestros proyectos, tenemos tareas programadas y aquí puedes hacer clic en cualquiera de
00:04:15estos archivos si quieres ver la vista de diferencias (diff view). Lo único a notar es que esta ya no es
00:04:18la IDE de Anti-Gravity. Esta es solo una aplicación completamente independiente. Lo que ves
00:04:22es lo que obtienes. Ahora, de hecho probé un par de prompts en ella. Uno de ellos
00:04:26fue crear un tablero de finanzas personales full-stack y el otro fue mucho más simple,
00:04:30solo probando la interfaz de cómo me construiría un sitio web de una cafetería en un solo index.html.
00:04:35Este es el resultado del prompt de la cafetería, muy simple, y debo decir que realmente me gusta
00:04:39el sitio web que ha construido aquí, así que parece que 3.5 Flash es bastante bueno en diseño de UI.
00:04:44Diría que en general es un sitio muy bonito. Todavía tiene un poco de aire a inteligencia artificial,
00:04:48creo que es principalmente ese estilo de tarjetas y degradados que a la IA le gusta tanto en este momento, pero
00:04:53el sitio es bastante funcional y se ve como esperaría que se viera. Como contexto, esto
00:04:58es lo que Opus 4.7 me dio cuando le di exactamente el mismo prompt, y sí creo que Gemini 3.5
00:05:03Flash gana en este caso, pero obviamente es solo una prueba puntual. En cuanto al
00:05:07prompt del tablero de finanzas más complicado, que es una aplicación full-stack, lo hizo bien al lograr
00:05:11que la aplicación funcione, pero definitivamente no me gusta el diseño de la UI. No es malo, pero simplemente
00:05:16tiene ese aspecto de haber sido diseñado por IA, y también puntos negativos por llamarlo
00:05:20Aura Wealth. Cuando lo comparas con lo que me dio Opus 4.7, es un mundo de diferencia.
00:05:25Opus 4.7 aquí se ve muy bien y, para ser honesto, no tengo muchas notas sobre cómo
00:05:29cambiaría esta UI. Opus realmente pasó 20 minutos en ese prompt, mientras que Gemini tomó
00:05:33cinco minutos, así que sí, es definitivamente más rápido, pero también podría haber usado los 15 extra para
00:05:38hacer que se vea mejor. Pasando de eso, también obtuvimos la CLI de Anti-Gravity, y esta probablemente
00:05:42hará enojar a algunas personas porque en realidad van a cerrar la CLI de Gemini; no podrán
00:05:46usarla después del 18 de junio de este año, y la nueva CLI es básicamente la misma en este
00:05:51momento, excepto que ha sido reescrita en Go y además ahora es de código cerrado, lo cual sí apesta
00:05:56y en realidad no instalé esta, ya que una vez más, es solo Claude Code, pero para Gemini.
00:06:00No hay nada nuevo que mostrarte. Para resumir todos mis pensamientos sobre esto, ahora mismo 3.5
00:06:05Flash es bueno para agentes, pero es caro y demasiado débil en programación para ser el paquete completo,
00:06:10así que espero que veamos un poco más de Gemini 3.5 Pro, que aparentemente viene el próximo mes,
00:06:15pero por ahora parece que Google no va a ser el líder en programación y, para ser
00:06:19honesto contigo, realmente no creo que necesiten serlo. Parece que el mercado de Google es más
00:06:23la persona común integrando esto en todas sus experiencias como Gmail, Búsqueda, Workspace,
00:06:28Android y todo lo demás, así que tal vez los desarrolladores simplemente no sean el enfoque. Hazme
00:06:33saber qué piensas en los comentarios aquí abajo, mientras estás allí suscríbete, y como siempre,
00:06:36nos vemos en la próxima.

Key Takeaway

Aunque Gemini 3.5 Flash destaca por su velocidad superior en generación de texto, su elevado consumo de tokens y su rendimiento inconsistente en tareas de programación lo hacen una opción poco eficiente en comparación con otros modelos del mercado.

Highlights

  • Gemini 3.5 Flash alcanza una velocidad de 278 tokens por segundo, superando a competidores como GPT 5.5 y Claude Opus 4.7.

  • El costo de ejecución real de Gemini 3.5 Flash en benchmarks de inteligencia es 5.5 veces mayor que el de Gemini 3 Flash y 75% superior al de Gemini 3.1 Pro.

  • Gemini 3.5 Flash consume un promedio de 49 turnos por tarea en evaluaciones de agentes, posicionándose como un modelo de alto consumo de tokens.

  • Google finalizará el soporte para la CLI de Gemini el 18 de junio de 2026, reemplazándola por la nueva CLI de Anti-Gravity escrita en Go.

  • El rendimiento en programación de Gemini 3.5 Flash es inferior al del modelo Kimi K2.6 según evaluaciones de terceros como Artificial Analysis.

Timeline

Análisis de rendimiento y benchmarks

  • Gemini 3.5 Flash ofrece una ventana de contexto de un millón de tokens y 64,000 tokens de salida.
  • Los benchmarks internos de Google sitúan al modelo a la par de GPT 5.5 en programación, pero datos de terceros muestran resultados inferiores.
  • El modelo presenta un desempeño destacado en flujos de trabajo de agentes frente a competidores.

Google promociona a Gemini 3.5 Flash como un modelo de alto rendimiento y bajo costo, capaz de procesar múltiples formatos como texto, video y audio. Sin embargo, evaluaciones externas de Artificial Analysis revelan que el modelo obtiene una puntuación de 45 en programación, situándose por debajo de modelos como Kimi K2.6. Aunque los datos internos de Google muestran paridad con otros modelos punteros, la realidad operativa medida por terceros contradice estas afirmaciones de superioridad técnica.

Velocidad, costos y eficiencia

  • La velocidad de procesamiento alcanza 278 tokens por segundo, la más alta frente a GPT 5.5 y Claude Opus 4.7.
  • El costo real de ejecución de tareas de inteligencia supera al de modelos con mayor capacidad de razonamiento.
  • El alto consumo de tokens de entrada durante tareas de agentes degrada su rentabilidad.

La principal ventaja competitiva del modelo es su velocidad de respuesta. A pesar de que el precio anunciado por millón de tokens parece competitivo sobre el papel, el uso real en benchmarks de inteligencia reveló un costo de 1,552 dólares, superando ampliamente a modelos más capaces como GPT 5.5. Este fenómeno ocurre debido a que el modelo tiende a consumir una cantidad excesiva de tokens de entrada para completar tareas, promediando 49 turnos, lo que lo hace financieramente ineficiente para despliegues a largo plazo.

Aplicaciones y herramientas de desarrollo

  • Anti-Gravity 2 presenta una interfaz estándar de mercado, similar a otras aplicaciones de agentes independientes.
  • Gemini 3.5 Flash demuestra capacidad para generar diseños de interfaz de usuario funcionales, aunque con una estética característica de IA.
  • La nueva CLI de Anti-Gravity reemplaza a la anterior, siendo un software de código cerrado escrito en Go.

El lanzamiento de la aplicación Anti-Gravity 2 sigue la línea de otras herramientas de desarrollo existentes, sin ofrecer innovaciones significativas en la experiencia de usuario. En pruebas prácticas, el modelo generó sitios web funcionales rápidamente, aunque el diseño de aplicaciones complejas full-stack resultó menos pulido que el logrado por Claude Opus 4.7. Además, el cierre de la CLI de Gemini el 18 de junio y su sustitución por una versión de código cerrado genera fricción entre los usuarios técnicos que dependían de la versión anterior.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video