¿Creó Google el modelo definitivo de IA local? (Gemma 4)

BBetter Stack
Computing/SoftwareLanguagesConsumer ElectronicsCell PhonesInternet Technology

Transcript

00:00:00La semana pasada, Google hizo algo inesperado.
00:00:02Lanzaron un modelo verdaderamente de código abierto bajo la licencia Apache 2.0.
00:00:08Se llama Gemma 4 y cuenta con versiones especializadas para dispositivos locales
00:00:14tan pequeñas como 2.300 millones de parámetros, diseñadas para ejecutarse
00:00:21totalmente offline en iPhones, Androids de gama alta o incluso en una Raspberry Pi.
00:00:23Parece que la carrera por construir el modelo pequeño definitivo se está calentando.
00:00:28Hace unas semanas hice pruebas con QWAN 3.5 para ver cómo desafiaba los límites
00:00:33de la IA local, pero ahora Google promete una densidad de inteligencia aún mayor.
00:00:39Así que en este video, realizaremos pruebas similares en Gemma 4 para ver si
00:00:44este es realmente el mejor modelo pequeño que existe.
00:00:47Será muy divertido, así que vamos a sumergirnos en ello.
00:00:53Entonces, ¿qué tienen de especial estos nuevos modelos Gemma 4?
00:00:57Bueno, el verdadero cambio técnico es algo que Google llama "incrustaciones por capa".
00:01:03En los transformadores tradicionales, un token recibe una incrustación al inicio
00:01:08que debe llevar todo su significado a través de cada capa.
00:01:11Pero en Gemma 4, cada capa tiene su propio conjunto de incrustaciones, permitiendo
00:01:16al modelo introducir nueva información exactamente donde se necesita.
00:01:19Es por eso que ven la "E" en los nombres de los modelos E2B y E4B.
00:01:24Significa "parámetros efectivos".
00:01:27Aunque el modelo actúa con la profundidad de razonamiento de uno de 5.000 millones,
00:01:32solo utiliza unos 2.300 millones de parámetros activos durante la inferencia.
00:01:36Esto resulta en una densidad de inteligencia mucho mayor, permitiéndole manejar
00:01:42lógica compleja usando menos de 1,5 gigabytes de RAM.
00:01:46Y más allá del rendimiento de texto, Gemma 4 es nativamente multimodal.
00:01:50Esto significa que la visión, el texto e incluso el audio se procesan
00:01:56en la misma arquitectura unificada en lugar de ser módulos separados añadidos.
00:01:59Esta arquitectura permite un nuevo modo de pensamiento que utiliza una cadena
00:02:05de razonamiento interna para verificar su lógica antes de dar una respuesta.
00:02:08Esto está diseñado específicamente para prevenir bucles infinitos y errores
00:02:13lógicos que suelen afectar a los modelos pequeños.
00:02:15También incluye una ventana de contexto de 128K y soporte para más de 140 idiomas,
00:02:22lo que debería hacerlo mucho más capaz en tareas como OCR complejo.
00:02:29Y para demostrar estas capacidades, Google publicó algunos benchmarks reveladores.
00:02:34En sus pruebas internas, el modelo E4B logró una puntuación del 42,5% en el benchmark
00:02:43matemático AIME 2026, que es más del doble que modelos mucho más grandes.
00:02:49También demostraron el potencial agéntico del modelo en T2 bench, donde mostró
00:02:54un salto masivo en la precisión del uso de herramientas.
00:02:57Asimismo, mostraron su potencial mediante una función llamada habilidades de agente.
00:03:02En lugar de solo generar texto estático, se mostró al modelo usando llamadas
00:03:07a funciones nativas para manejar flujos de trabajo de varios pasos,
00:03:13como consultar Wikipedia o crear un widget de sonidos de animales.
00:03:15Todo eso suena impresionante, pero probémoslo por nuestra cuenta a ver qué tal.
00:03:20En mi video anterior de QWAN 3.5, probé los modelos pequeños ejecutándolos
00:03:25localmente sin internet usando LMStudio y CLINE.
00:03:28Usaré la misma configuración para probar GEMMA 4.
00:03:32Primero debemos descargar los modelos en LMStudio, luego aumentar
00:03:37la ventana de contexto disponible e iniciar el servidor.
00:03:39Luego podemos entrar en CLINE, conectar nuestro servidor local de LMStudio,
00:03:45elegir el modelo E2B, desconectar el internet y comenzar las pruebas.
00:03:49Vimos que QWAN 3.5 era bastante decente generando un sitio web sencillo
00:03:55de una cafetería con HTML, CSS y JS con sus modelos más pequeños.
00:04:00Reutilicemos el mismo prompt para ver si GEMMA 4 es igual de bueno programando.
00:04:05Al modelo E2B le tomó aproximadamente un minuto y medio completar la tarea.
00:04:10Para un modelo con 2.300 millones de parámetros activos, los resultados fueron
00:04:16algo decepcionantes comparados con el resultado de QWAN de 0,8 mil millones.
00:04:22Lo más molesto fue que GEMMA añadió la lista de tareas al final del archivo HTML
00:04:28y del archivo CSS, así que tuve que borrarla manualmente de ambos archivos
00:04:33antes de abrir la página.
00:04:34Y también afirmó haber escrito un archivo JavaScript, cuando en realidad
00:04:40no se produjo ningún archivo JS, por lo que los resultados del E2B fueron mediocres.
00:04:45Pero esta situación mejoró bastante al cambiar a la versión del modelo E4B.
00:04:50A esta versión le tomó unos 3,5 minutos terminar la tarea, pero el resultado
00:04:55fue notablemente mejor.
00:04:56Quizás no en cuanto a diseño, sigue pareciendo muy simple, pero esta versión
00:05:00sí tenía una funcionalidad de carrito funcional que ninguna de las pruebas
00:05:06anteriores, tanto de QWAN como de GEMMA, pudo producir con éxito.
00:05:08Así que la versión E4B es un gran avance respecto a la E2B, pero obviamente
00:05:15nadie consideraría seriamente estos modelos tan pequeños para programación compleja.
00:05:20Simplemente hice estas pruebas por curiosidad para ver si tal cantidad
00:05:25de parámetros puede producir un resultado útil en una tarea de código.
00:05:29Muy bien, ahora veamos cómo se comporta GEMMA 4 en dispositivos como un iPhone.
00:05:34En mi video de QWAN 3.5, creé una app de iOS personalizada capaz de ejecutar
00:05:40el modelo en la GPU nativa Metal usando el framework MLX de Swift.
00:05:44Aunque GEMMA 4 es de código abierto, lamentablemente no hay enlaces de MLX
00:05:49disponibles por ahora que permitan ejecutar este modelo en iOS con multimodalidad.
00:05:56Y la propia Google está ejecutando GEMMA 4 en su app AI Edge Gallery
00:06:01usando su propio framework de inferencia llamado Lite RTLM, que tristemente
00:06:07tampoco soporta enlaces para iOS en este momento.
00:06:08Así que para probarlo en un iPhone, la mejor opción ahora es usar su app Edge Gallery.
00:06:13Vamos a realizar nuestras pruebas en su propia aplicación y ver cómo rinde.
00:06:18Vayamos a la sección de chat de IA.
00:06:20Aquí se nos pedirá que descarguemos la versión E2B de GEMMA 4.
00:06:25También tienes la opción de bajar la E4B, pero por alguna razón la app dice
00:06:29que no tengo espacio suficiente, lo cual estoy seguro que no es cierto,
00:06:34así que quizás sea un error de la aplicación.
00:06:36Pero en fin, ahora que he descargado el modelo, finalmente podemos usarlo.
00:06:41Empecemos escribiendo un simple "hola".
00:06:43Vaya, ¿vieron qué rápido fue el tiempo de respuesta?
00:06:46Mucho más rápido que QWAN 3.5.
00:06:48Tal vez sea la magia del framework Lite RTLM que están utilizando.
00:06:53Ahora probemos el famoso test del lavado de autos para ver si GEMMA acierta.
00:06:57Vaya, me da una respuesta realmente larga.
00:07:00Y al final, vemos que la recomendación final es conducir, lo cual es correcto,
00:07:06pero debo tener en cuenta que se basa en la conveniencia y el confort
00:07:10y no en el hecho lógico real.
00:07:13Así que no sé, en parte pasa la prueba, pero al mismo tiempo no.
00:07:18Muy bien, ahora pasemos a la sección de consulta de imágenes y veamos
00:07:24si GEMMA puede identificar al perro en esta foto.
00:07:26Identificó que efectivamente es un perro y da otros detalles sobre la imagen.
00:07:31Eso está muy bien.
00:07:32Pero si le pregunto: "¿Cuál es la raza del perro?"
00:07:35Responde diciendo que es un Border Collie, lo cual no es cierto.
00:07:39En realidad es un Corgi.
00:07:40esta respuesta es bastante buena de todos modos.
00:07:45esta respuesta es bastante buena de todos modos.
00:07:46Por último, probemos el test de OCR.
00:07:48Si vieron mi video anterior, recordarán que probé una imagen
00:07:54que tenía texto en letón, que es mi lengua materna.
00:07:59GEMMA presume de ser capaz de entender hasta 140 idiomas.
00:08:05Así que asumo que debería pasar esta prueba fácilmente.
00:08:08Y sí, en efecto, identifica que el idioma es letón.
00:08:13Y me sorprende que la mayor parte del texto sea bastante precisa.
00:08:16Con algunas excepciones, veo que algunas palabras no existen y algunas
00:08:22estructuras gramaticales son simplemente muy extrañas.
00:08:24Pero sigue siendo muy impresionante.
00:08:26Así que daré esta prueba por superada.
00:08:28Ahora bien, esto plantea la pregunta: ¿puedo chatear con este modelo en letón?
00:08:32Voy a intentar eso a continuación.
00:08:33Veo que la respuesta es realmente en letón.
00:08:36Pero una vez más, las estructuras gramaticales son muy raras.
00:08:39Nadie habla así.
00:08:41Pero aun así, el letón es un idioma muy minoritario.
00:08:44Es impresionante que tenga todo ese conocimiento en un modelo tan pequeño.
00:08:48Y ya que estoy, voy a preguntarle quién es el actual presidente de EE. UU.
00:08:53para ver cuál es la fecha de corte de conocimientos de GEMMA 4.
00:08:56Y responde que es Joe Biden.
00:08:58Y luego, si pregunto: "¿Cuál es tu fecha de corte de conocimientos?"
00:09:02Me dirá que es enero de 2025, lo cual concuerda.
00:09:06Así que ahí lo tienen.
00:09:07Ese es GEMMA 4, el modelo de código abierto más reciente de Google.
00:09:10Y para ser honesto, este modelo parece bastante bueno.
00:09:14Hace lo que anuncia, aunque le falta algo de creatividad en el diseño web.
00:09:19Pero aparte de eso, los modelos pequeños, como acabamos de ver, son más
00:09:24que capaces de completar con éxito todas las tareas que le propuse.
00:09:27Es una pena que aún no tengamos los enlaces de MLX para este modelo,
00:09:32porque me encantaría usar GEMMA 4 localmente en una app de iOS personalizada.
00:09:36Pero estoy seguro de que Google no tardará en lanzar esto al público.
00:09:41Mientras tanto, sigo de cerca proyectos comunitarios como SwiftLM,
00:09:46que ya trabajan en enlaces nativos no oficiales para estos modelos.
00:09:50Esa es mi opinión sobre el modelo.
00:09:52¿Qué piensan ustedes de GEMMA 4?
00:09:54¿Lo han probado?
00:09:55¿Lo usarán?
00:09:56Hágannoslo saber en la sección de comentarios de abajo.
00:09:59Y amigos, si les gusta este tipo de análisis técnicos, por favor
00:10:03denle al botón de "me gusta" debajo del video.
00:10:05Y tampoco olviden suscribirse a nuestro canal.
00:10:07Soy Andres, de BetterStack, y nos vemos en los próximos videos.

Key Takeaway

Gemma 4 redefine la eficiencia de la IA local al ofrecer razonamiento de nivel superior y capacidades multimodales nativas en dispositivos móviles mediante una arquitectura de parámetros efectivos que requiere menos de 1,5 GB de RAM.

Highlights

Gemma 4 utiliza una arquitectura de incrustaciones por capa que permite introducir nueva información específica en cada etapa del procesamiento.

El modelo E2B de 2.300 millones de parámetros activos opera con la profundidad de razonamiento de uno de 5.000 millones usando menos de 1,5 gigabytes de RAM.

En el benchmark matemático AIME 2026, la versión E4B alcanzó una puntuación del 42,5%, superando el doble del rendimiento de modelos con mayor conteo de parámetros.

La arquitectura nativamente multimodal de Gemma 4 integra visión, texto y audio en una estructura unificada sin recurrir a módulos externos añadidos.

El modelo E4B ejecutado localmente generó un sitio web con una funcionalidad de carrito de compras operativa, superando las capacidades de codificación de QWAN 3.5.

La fecha de corte de conocimientos de Gemma 4 está establecida en enero de 2025.

Gemma 4 incluye soporte para más de 140 idiomas y una ventana de contexto de 128.000 tokens para tareas de procesamiento de documentos extensos.

Timeline

Arquitectura de parámetros efectivos e incrustaciones

  • La licencia Apache 2.0 convierte a Gemma 4 en un modelo de código abierto totalmente accesible para ejecución local y offline.
  • El sistema de incrustaciones por capa diferencia a este modelo de los transformadores tradicionales al inyectar datos dinámicamente en cada nivel.
  • La cadena de razonamiento interna verifica la lógica antes de emitir respuestas para mitigar bucles infinitos y errores comunes en modelos pequeños.

Google introduce el concepto de parámetros efectivos, donde modelos como el E2B utilizan 2.300 millones de parámetros activos para igualar la profundidad de modelos de 5.000 millones. Esta optimización permite que el sistema funcione en hardware con recursos limitados como Raspberry Pi o smartphones de gama alta. La integración multimodal nativa asegura que el procesamiento de audio y visión sea parte del núcleo del modelo y no una extensión secundaria.

Rendimiento en benchmarks y capacidades agénticas

  • El modelo E4B demuestra una precisión superior en matemáticas con un 42,5% en el benchmark AIME 2026.
  • Las habilidades de agente permiten la ejecución de llamadas a funciones nativas para interactuar con herramientas externas como Wikipedia.
  • La precisión en el uso de herramientas muestra un crecimiento significativo en las pruebas de T2 bench.

Los datos internos de Google posicionan a los modelos pequeños de Gemma 4 por encima de competidores de mayor tamaño en tareas lógicas. Estas capacidades agénticas facilitan flujos de trabajo de varios pasos, transformando al modelo de un generador de texto estático a un asistente capaz de realizar acciones concretas. El enfoque se centra en la densidad de inteligencia, priorizando la calidad del razonamiento sobre la cantidad de parámetros.

Pruebas de codificación local en entorno sin internet

  • La versión E2B presenta dificultades en la generación de código al incluir metadatos innecesarios y omitir archivos JavaScript solicitados.
  • El modelo E4B completa tareas de desarrollo web en 3,5 minutos con una lógica funcional superior a QWAN 3.5.
  • La implementación de un carrito de compras funcional marca una diferencia crítica entre las versiones E2B y E4B.

Las pruebas realizadas mediante LMStudio y CLINE sin conexión a internet revelan que el modelo más pequeño tiene limitaciones significativas en el diseño y la limpieza del código. Sin embargo, el salto a la versión E4B soluciona problemas de lógica funcional, logrando resultados que modelos previos del mismo segmento no pudieron alcanzar. Aunque no sustituyen a modelos grandes para programación compleja, demuestran utilidad para prototipos rápidos en local.

Ejecución multimodal en dispositivos móviles

  • La aplicación AI Edge Gallery de Google utiliza el framework Lite RTLM para lograr tiempos de respuesta casi instantáneos en iPhone.
  • Gemma 4 identifica correctamente objetos en imágenes, aunque presenta alucinaciones menores en la identificación de razas específicas de animales.
  • El soporte de OCR para idiomas minoritarios como el letón muestra una precisión gramatical aceptable y una identificación de idioma exacta.

Debido a la falta actual de enlaces oficiales para el framework Metal de Apple (MLX), la inferencia en iPhone se apoya en las herramientas propias de Google. El modelo supera pruebas de lógica como el test del lavado de autos basándose en conveniencia, aunque su razonamiento puro es debatible. En tareas visuales, el modelo procesa imágenes locales de forma eficiente, confirmando su capacidad multimodal en dispositivos de bolsillo.

Conocimiento actualizado y ecosistema de desarrollo

  • El modelo reconoce eventos y figuras políticas actualizadas hasta su fecha de corte en enero de 2025.
  • La comunidad de desarrolladores trabaja en soluciones no oficiales como SwiftLM para integrar estos modelos de forma nativa en iOS.
  • La velocidad de inferencia bajo el framework Lite RTLM supera notablemente a otros modelos locales de la competencia.

A pesar de ser un modelo de parámetros reducidos, el conocimiento factual de Gemma 4 es actual y preciso. La estructura gramatical en idiomas menos comunes puede resultar artificial, pero la retención de información es masiva para su tamaño. El futuro del modelo depende de la liberación de enlaces de inferencia para frameworks específicos de hardware, permitiendo su integración en aplicaciones personalizadas sin depender de servidores externos.

Community Posts

View all posts