00:00:00La semana pasada, Google hizo algo inesperado.
00:00:02Lanzaron un modelo verdaderamente de código abierto bajo la licencia Apache 2.0.
00:00:08Se llama Gemma 4 y cuenta con versiones especializadas para dispositivos locales
00:00:14tan pequeñas como 2.300 millones de parámetros, diseñadas para ejecutarse
00:00:21totalmente offline en iPhones, Androids de gama alta o incluso en una Raspberry Pi.
00:00:23Parece que la carrera por construir el modelo pequeño definitivo se está calentando.
00:00:28Hace unas semanas hice pruebas con QWAN 3.5 para ver cómo desafiaba los límites
00:00:33de la IA local, pero ahora Google promete una densidad de inteligencia aún mayor.
00:00:39Así que en este video, realizaremos pruebas similares en Gemma 4 para ver si
00:00:44este es realmente el mejor modelo pequeño que existe.
00:00:47Será muy divertido, así que vamos a sumergirnos en ello.
00:00:53Entonces, ¿qué tienen de especial estos nuevos modelos Gemma 4?
00:00:57Bueno, el verdadero cambio técnico es algo que Google llama "incrustaciones por capa".
00:01:03En los transformadores tradicionales, un token recibe una incrustación al inicio
00:01:08que debe llevar todo su significado a través de cada capa.
00:01:11Pero en Gemma 4, cada capa tiene su propio conjunto de incrustaciones, permitiendo
00:01:16al modelo introducir nueva información exactamente donde se necesita.
00:01:19Es por eso que ven la "E" en los nombres de los modelos E2B y E4B.
00:01:24Significa "parámetros efectivos".
00:01:27Aunque el modelo actúa con la profundidad de razonamiento de uno de 5.000 millones,
00:01:32solo utiliza unos 2.300 millones de parámetros activos durante la inferencia.
00:01:36Esto resulta en una densidad de inteligencia mucho mayor, permitiéndole manejar
00:01:42lógica compleja usando menos de 1,5 gigabytes de RAM.
00:01:46Y más allá del rendimiento de texto, Gemma 4 es nativamente multimodal.
00:01:50Esto significa que la visión, el texto e incluso el audio se procesan
00:01:56en la misma arquitectura unificada en lugar de ser módulos separados añadidos.
00:01:59Esta arquitectura permite un nuevo modo de pensamiento que utiliza una cadena
00:02:05de razonamiento interna para verificar su lógica antes de dar una respuesta.
00:02:08Esto está diseñado específicamente para prevenir bucles infinitos y errores
00:02:13lógicos que suelen afectar a los modelos pequeños.
00:02:15También incluye una ventana de contexto de 128K y soporte para más de 140 idiomas,
00:02:22lo que debería hacerlo mucho más capaz en tareas como OCR complejo.
00:02:29Y para demostrar estas capacidades, Google publicó algunos benchmarks reveladores.
00:02:34En sus pruebas internas, el modelo E4B logró una puntuación del 42,5% en el benchmark
00:02:43matemático AIME 2026, que es más del doble que modelos mucho más grandes.
00:02:49También demostraron el potencial agéntico del modelo en T2 bench, donde mostró
00:02:54un salto masivo en la precisión del uso de herramientas.
00:02:57Asimismo, mostraron su potencial mediante una función llamada habilidades de agente.
00:03:02En lugar de solo generar texto estático, se mostró al modelo usando llamadas
00:03:07a funciones nativas para manejar flujos de trabajo de varios pasos,
00:03:13como consultar Wikipedia o crear un widget de sonidos de animales.
00:03:15Todo eso suena impresionante, pero probémoslo por nuestra cuenta a ver qué tal.
00:03:20En mi video anterior de QWAN 3.5, probé los modelos pequeños ejecutándolos
00:03:25localmente sin internet usando LMStudio y CLINE.
00:03:28Usaré la misma configuración para probar GEMMA 4.
00:03:32Primero debemos descargar los modelos en LMStudio, luego aumentar
00:03:37la ventana de contexto disponible e iniciar el servidor.
00:03:39Luego podemos entrar en CLINE, conectar nuestro servidor local de LMStudio,
00:03:45elegir el modelo E2B, desconectar el internet y comenzar las pruebas.
00:03:49Vimos que QWAN 3.5 era bastante decente generando un sitio web sencillo
00:03:55de una cafetería con HTML, CSS y JS con sus modelos más pequeños.
00:04:00Reutilicemos el mismo prompt para ver si GEMMA 4 es igual de bueno programando.
00:04:05Al modelo E2B le tomó aproximadamente un minuto y medio completar la tarea.
00:04:10Para un modelo con 2.300 millones de parámetros activos, los resultados fueron
00:04:16algo decepcionantes comparados con el resultado de QWAN de 0,8 mil millones.
00:04:22Lo más molesto fue que GEMMA añadió la lista de tareas al final del archivo HTML
00:04:28y del archivo CSS, así que tuve que borrarla manualmente de ambos archivos
00:04:33antes de abrir la página.
00:04:34Y también afirmó haber escrito un archivo JavaScript, cuando en realidad
00:04:40no se produjo ningún archivo JS, por lo que los resultados del E2B fueron mediocres.
00:04:45Pero esta situación mejoró bastante al cambiar a la versión del modelo E4B.
00:04:50A esta versión le tomó unos 3,5 minutos terminar la tarea, pero el resultado
00:04:55fue notablemente mejor.
00:04:56Quizás no en cuanto a diseño, sigue pareciendo muy simple, pero esta versión
00:05:00sí tenía una funcionalidad de carrito funcional que ninguna de las pruebas
00:05:06anteriores, tanto de QWAN como de GEMMA, pudo producir con éxito.
00:05:08Así que la versión E4B es un gran avance respecto a la E2B, pero obviamente
00:05:15nadie consideraría seriamente estos modelos tan pequeños para programación compleja.
00:05:20Simplemente hice estas pruebas por curiosidad para ver si tal cantidad
00:05:25de parámetros puede producir un resultado útil en una tarea de código.
00:05:29Muy bien, ahora veamos cómo se comporta GEMMA 4 en dispositivos como un iPhone.
00:05:34En mi video de QWAN 3.5, creé una app de iOS personalizada capaz de ejecutar
00:05:40el modelo en la GPU nativa Metal usando el framework MLX de Swift.
00:05:44Aunque GEMMA 4 es de código abierto, lamentablemente no hay enlaces de MLX
00:05:49disponibles por ahora que permitan ejecutar este modelo en iOS con multimodalidad.
00:05:56Y la propia Google está ejecutando GEMMA 4 en su app AI Edge Gallery
00:06:01usando su propio framework de inferencia llamado Lite RTLM, que tristemente
00:06:07tampoco soporta enlaces para iOS en este momento.
00:06:08Así que para probarlo en un iPhone, la mejor opción ahora es usar su app Edge Gallery.
00:06:13Vamos a realizar nuestras pruebas en su propia aplicación y ver cómo rinde.
00:06:18Vayamos a la sección de chat de IA.
00:06:20Aquí se nos pedirá que descarguemos la versión E2B de GEMMA 4.
00:06:25También tienes la opción de bajar la E4B, pero por alguna razón la app dice
00:06:29que no tengo espacio suficiente, lo cual estoy seguro que no es cierto,
00:06:34así que quizás sea un error de la aplicación.
00:06:36Pero en fin, ahora que he descargado el modelo, finalmente podemos usarlo.
00:06:41Empecemos escribiendo un simple "hola".
00:06:43Vaya, ¿vieron qué rápido fue el tiempo de respuesta?
00:06:46Mucho más rápido que QWAN 3.5.
00:06:48Tal vez sea la magia del framework Lite RTLM que están utilizando.
00:06:53Ahora probemos el famoso test del lavado de autos para ver si GEMMA acierta.
00:06:57Vaya, me da una respuesta realmente larga.
00:07:00Y al final, vemos que la recomendación final es conducir, lo cual es correcto,
00:07:06pero debo tener en cuenta que se basa en la conveniencia y el confort
00:07:10y no en el hecho lógico real.
00:07:13Así que no sé, en parte pasa la prueba, pero al mismo tiempo no.
00:07:18Muy bien, ahora pasemos a la sección de consulta de imágenes y veamos
00:07:24si GEMMA puede identificar al perro en esta foto.
00:07:26Identificó que efectivamente es un perro y da otros detalles sobre la imagen.
00:07:31Eso está muy bien.
00:07:32Pero si le pregunto: "¿Cuál es la raza del perro?"
00:07:35Responde diciendo que es un Border Collie, lo cual no es cierto.
00:07:39En realidad es un Corgi.
00:07:40esta respuesta es bastante buena de todos modos.
00:07:45esta respuesta es bastante buena de todos modos.
00:07:46Por último, probemos el test de OCR.
00:07:48Si vieron mi video anterior, recordarán que probé una imagen
00:07:54que tenía texto en letón, que es mi lengua materna.
00:07:59GEMMA presume de ser capaz de entender hasta 140 idiomas.
00:08:05Así que asumo que debería pasar esta prueba fácilmente.
00:08:08Y sí, en efecto, identifica que el idioma es letón.
00:08:13Y me sorprende que la mayor parte del texto sea bastante precisa.
00:08:16Con algunas excepciones, veo que algunas palabras no existen y algunas
00:08:22estructuras gramaticales son simplemente muy extrañas.
00:08:24Pero sigue siendo muy impresionante.
00:08:26Así que daré esta prueba por superada.
00:08:28Ahora bien, esto plantea la pregunta: ¿puedo chatear con este modelo en letón?
00:08:32Voy a intentar eso a continuación.
00:08:33Veo que la respuesta es realmente en letón.
00:08:36Pero una vez más, las estructuras gramaticales son muy raras.
00:08:39Nadie habla así.
00:08:41Pero aun así, el letón es un idioma muy minoritario.
00:08:44Es impresionante que tenga todo ese conocimiento en un modelo tan pequeño.
00:08:48Y ya que estoy, voy a preguntarle quién es el actual presidente de EE. UU.
00:08:53para ver cuál es la fecha de corte de conocimientos de GEMMA 4.
00:08:56Y responde que es Joe Biden.
00:08:58Y luego, si pregunto: "¿Cuál es tu fecha de corte de conocimientos?"
00:09:02Me dirá que es enero de 2025, lo cual concuerda.
00:09:06Así que ahí lo tienen.
00:09:07Ese es GEMMA 4, el modelo de código abierto más reciente de Google.
00:09:10Y para ser honesto, este modelo parece bastante bueno.
00:09:14Hace lo que anuncia, aunque le falta algo de creatividad en el diseño web.
00:09:19Pero aparte de eso, los modelos pequeños, como acabamos de ver, son más
00:09:24que capaces de completar con éxito todas las tareas que le propuse.
00:09:27Es una pena que aún no tengamos los enlaces de MLX para este modelo,
00:09:32porque me encantaría usar GEMMA 4 localmente en una app de iOS personalizada.
00:09:36Pero estoy seguro de que Google no tardará en lanzar esto al público.
00:09:41Mientras tanto, sigo de cerca proyectos comunitarios como SwiftLM,
00:09:46que ya trabajan en enlaces nativos no oficiales para estos modelos.
00:09:50Esa es mi opinión sobre el modelo.
00:09:52¿Qué piensan ustedes de GEMMA 4?
00:09:54¿Lo han probado?
00:09:55¿Lo usarán?
00:09:56Hágannoslo saber en la sección de comentarios de abajo.
00:09:59Y amigos, si les gusta este tipo de análisis técnicos, por favor
00:10:03denle al botón de "me gusta" debajo del video.
00:10:05Y tampoco olviden suscribirse a nuestro canal.
00:10:07Soy Andres, de BetterStack, y nos vemos en los próximos videos.