Google acaba de solucionar el mayor problema de la IA multimodal (Gemma 4 12B)

BBetter Stack
Computing/SoftwareConsumer Electronics

Transcript

00:00:00Google acaba de presentar su nuevo modelo Gemma 4 de 12 mil millones de parámetros y esto cambia las reglas del juego.
00:00:06No, en serio, no es clickbait. Este modelo realmente cambia el juego por la forma en que está construido.
00:00:13Lo que lo diferencia de todos los demás modelos de IA es el hecho de que no tiene
00:00:18codificador. Ahora, ¿qué significa eso, cómo funciona y por qué es algo tan importante?
00:00:24Bueno, esas son buenas preguntas que exploraremos en el video de hoy. Será muy
00:00:29divertido. Así que profundicemos. El modelo Gemma 4 de 12 mil millones tiene una arquitectura nueva que
00:00:39rompe por completo con el funcionamiento de cualquier otro modelo multimodal. Modelo multimodal. Dios,
00:00:46es todo un trabalenguas. Para entender por qué es tan importante, debemos
00:00:51analizar cómo manejan las cosas todos los demás modelos multimodales actualmente. Los modelos de lenguaje están hechos para leer
00:00:57tokens, básicamente fragmentos de texto convertidos en números. No saben naturalmente qué es un píxel ni cómo es
00:01:05una onda sonora. Así que solemos unir diferentes modelos. Si le das a una IA una imagen, un enorme
00:01:11codificador de visión la intercepta primero. Gasta muchísimo poder de procesamiento traduciendo esos píxeles crudos a
00:01:19un lenguaje que el LLM pueda entender realmente. Y lo mismo ocurre con el audio. Un codificador de voz separado
00:01:25tiene que traducir las ondas sonoras primero. Para cuando el cerebro real de la IA recibe los datos, estás ejecutando tres
00:01:32redes separadas al mismo tiempo. En una laptop estándar, esto acapara toda tu VRAM y ralentiza
00:01:38todo. Pero Google DeepMind vio este problema y pensó: ¿qué pasa si podemos eliminar al
00:01:44intermediario? Así que en el modelo Gemma 4 de 12 mil millones, eliminaron por completo el pesado codificador de visión. En su lugar,
00:01:51cuando le alimentas con una imagen, el modelo la divide en pequeños parches de 48 por 48 píxeles. Y en lugar de pasar
00:01:58esos parches a través de docenas de capas de una red de visión separada, los píxeles crudos pasan por un solo
00:02:04paso matemático delgado llamado proyección lineal. Y esta proyección lineal es solo una cuadrícula masiva de números
00:02:11que toma 2304 valores de píxeles, porque eso se correlaciona con un cuadrado de 48 por 48 píxeles, los multiplica en un
00:02:19solo paso y los estira en una sola fila que coincide perfectamente con el formato de token de texto
00:02:26del LLM. Entonces, todavía no analiza lo que hay en la imagen, solo reformatea los datos brutos para que puedan caber
00:02:32a través del modelo. Y si miras los modelos estándar, sus codificadores de visión son masivos. Por ejemplo,
00:02:38este tiene 550 millones de parámetros. Eso es porque un codificador tradicional necesita muchos datos para remodelar,
00:02:45mapear y entender la imagen. Tiene docenas de capas de atención internas que calculan relaciones
00:02:50entre píxeles, tratando de descubrir dónde están los bordes, cuáles son las formas y qué podrían ser los objetos
00:02:57antes incluso de entregárselo al modelo de texto. Pero DeepMind lo redujo eliminando por completo todo ese pesado
00:03:04cerebro. Se dieron cuenta de que la columna vertebral del lenguaje principal ya es increíblemente inteligente y tiene muchas
00:03:10capas para hacer el razonamiento visual real. Así que, al eliminar todas esas capas de pensamiento, quedaron con
00:03:17solo 35 millones de parámetros, y eso es literalmente solo el conteo físico de pesos de conexión necesarios
00:03:24para mapear esas cuadrículas de píxeles a un formato de texto. Es un mapa estático de una sola capa que funciona para cada imagen.
00:03:30Debido a que no hace ningún pensamiento interno, casi no ocupa poder de procesamiento, liberando la VRAM
00:03:37y dejando que el LLM principal maneje la inteligencia real de forma nativa. Y para entender cómo funciona ese único paso,
00:03:44tienes que mirar lo que realmente está sucediendo dentro de una columna vertebral de modelo de lenguaje. Cada modelo de lenguaje tiene una
00:03:50regla de formato interna llamada dimensión oculta. Piénsalo como un tamaño de bandeja estandarizado. Ya sea
00:03:56la palabra manzana o un fragmento de código o un signo de puntuación, todo lo que se introduce en el LLM debe convertirse
00:04:04en esta lista masiva específica de números porque tiene que coincidir con las dimensiones de las matrices. Y este parche
00:04:11crudo de 48 por 48 píxeles es solo una cuadrícula de 2304 números de color individuales. Si intentas alimentar ese fragmento crudo
00:04:19directamente al LLM, el modelo lo rechazará porque las dimensiones en realidad no coinciden. Y esa es
00:04:26exactamente la razón por la que existe esa capa de mapeo de 35 millones de parámetros. Es literalmente una cuadrícula masiva única de
00:04:33pesos de conexión que multiplica esos 2304 valores de píxeles y los estira en una sola fila que
00:04:40coincide perfectamente con el formato de token de texto del LLM. No hace ningún pensamiento analítico, solo actúa como un convertidor
00:04:48de formato para que los datos puedan deslizarse directamente hacia el transformador principal donde ocurre el razonamiento visual
00:04:54de forma nativa. Y el modelo hace algo similar para el razonamiento de audio también, pero para el audio es aún más simple.
00:05:01Entonces, la forma en que lograron deshacerse del codificador de audio es tomando una señal de audio cruda de 16 kilohercios y
00:05:07rebanándola en marcos continuos de 40 milisegundos. Cada pequeño marco contiene exactamente 640 números de punto flotante
00:05:15que describen la onda sonora. El modelo toma esos 640 flotantes y los ejecuta a través de una
00:05:21capa de proyección simple similar que los mapea directamente al espacio de entrada del modelo de lenguaje. Para el transformador
00:05:28principal, un bloque de audio de 40 milisegundos se ve idéntico a un flujo continuo de tokens de texto. Debido a que el sonido
00:05:35ya es una secuencia cronológica, al igual que una oración en una secuencia de palabras, el LLM trata el audio
00:05:42exactamente igual que al texto. Así que esta integración profunda y nativa permite que el modelo de 12 mil millones de parámetros maneje transcripción en vivo,
00:05:49traducción y formato de texto en una sola pasada hacia adelante sin obligarte a cargar redes de voz separadas
00:05:56en tu memoria. Por lo tanto, esta táctica inteligente es una gran victoria para ejecutar modelos localmente en tu propio
00:06:02hardware. Al despojarse de toda la hinchazón del codificador, DeepMind logró empaquetar un increíble poder de razonamiento
00:06:08en una pequeña huella. Y al mirar el punto de referencia, se acerca al rendimiento de sus masivos modelos de 26
00:06:15mil millones de parámetros, pero cabe fácilmente en una computadora portátil estándar con 16 gigabytes de VRAM
00:06:21o más. Además, Google incluyó redactores nativos de predicción de múltiples tokens listos para usar, lo que significa que predice
00:06:28múltiples tokens a la vez para velocidades de inferencia local rápidas sin obligarte a comprimir el modelo.
00:06:34Entonces, todo eso suena impresionante. Ahora vamos a probarlo y ver cómo funciona en mi MacBook Pro M2 local.
00:06:41Y algunas de las personas en mi video anterior de OMLX preguntaban cuánta VRAM tengo realmente en mi
00:06:48máquina. Así que para responder a esa pregunta, tengo 24 gigabytes de VRAM. Eso es con lo que estamos trabajando
00:06:53hoy. También debo decir que esta aplicación de galería de borde es muy defectuosa. Por ejemplo, si intento agregar una
00:07:01imagen y pregunto, por favor analiza esta imagen, fallará instantáneamente y me dará este error aleatorio. Y esto
00:07:13es en la última versión. Así que, desafortunadamente, no pudimos probar el codificador de visión usando la aplicación oficial de borde de IA
00:07:20de Google, pero hay otra forma en la que realmente podemos probarlo. Okay. Entonces, como no pude
00:07:26probar de manera confiable el procesamiento de imágenes con el modelo Gemma 4 de 12 mil millones en la aplicación de galería
00:07:34de borde de IA de Google, decidí probarlo en OMLX. Y también hice un video sobre OMLX. Es un marco increíble
00:07:42para ejecutar modelos de IA localmente, específicamente en Apple Silicon. Y como puedes ver aquí, he
00:07:47descargado la versión cuantizada de ocho bits de este modelo. Así que ahora voy a ir a la sección de chat
00:07:54y veamos qué tan rápido puede hacer razonamiento de imágenes en tiempo real. Aquí tengo una carpeta de prueba
00:08:01con dos imágenes. Una de ellas es solo una captura de pantalla de salidas de aeropuerto. Así que usaremos esta imagen
00:08:09y preguntaremos qué ves en esta imagen. Y quiero que prestes atención a que no estoy acelerando este video.
00:08:18Todo esto es en tiempo real. Quiero que prestes atención a qué tan rápido es capaz de razonar
00:08:24sobre tal imagen. Así que está comenzando aquí, está cargando el modelo, generando y boom, mira eso.
00:08:33Mira qué tan rápido es capaz de analizar esta imagen y extraer información valiosa de ella.
00:08:41La primera vez que vi esto en OMLX, me quedé genuinamente impresionado por la velocidad de la misma. Es absolutamente increíble.
00:08:50Así que tengo que decir que este es el mejor modelo que probé localmente para el razonamiento de imágenes. Y también
00:08:57quiero que prestes atención al hecho de que estoy ejecutando este modelo sin conexión. No tengo mi Wi-Fi encendido.
00:09:03Así que probemos otro ejemplo. Este es solo una imagen borrosa del programa de televisión Vikings mostrando algunos
00:09:10personajes. Así que una vez más, abramos esta imagen y preguntemos lo mismo. ¿Qué ves en esta
00:09:21imagen? Está generando.
00:09:27Y boom, mira eso.
00:09:30Quiero decir, eso es simplemente increíble. Es tan rápido. Me sorprendió mucho.
00:09:37Así que sí, estoy honestamente muy, muy impresionado con el rendimiento del procesamiento de imágenes de este nuevo modelo.
00:09:43Así que ahí lo tienen, amigos. Ese es el nuevo modelo Gemma 4 de 12 mil millones sin codificador, en pocas palabras.
00:09:50Me sentí bastante frustrado por no poder probarlo con confianza en su aplicación oficial de galería
00:09:56de borde de IA. Pero como vimos, hay otras formas alternativas y quizás incluso mejores de ejecutarlo
00:10:01localmente. Así que creo que este es un modelo muy bueno y cambia por completo el futuro de ejecutar
00:10:07modelos de IA locales. Google DeepMind acaba de probar básicamente que una sola columna vertebral de lenguaje es lo suficientemente inteligente
00:10:13como para manejar la visión y el sonido de forma nativa. Así que esta nueva técnica probablemente abrirá puertas para desarrollar incluso
00:10:19modelos de razonamiento multimodal más eficientes que pueden ejecutarse fácilmente en dispositivos de borde. Entonces, ¿qué opinas
00:10:26sobre el nuevo modelo Gemma? ¿Lo has probado? ¿Lo usarás? Háznoslo saber en la sección de comentarios a
00:10:32continuación. Y amigos, si les gustan estos tipos de desgloses técnicos, por favor háganmelo saber aplastando ese botón de me gusta
00:10:37debajo del video. Y también no olviden suscribirse a nuestro canal. Este ha sido Andres
00:10:43de BetterStack y nos vemos en los próximos videos.

Key Takeaway

Gemma 4 12B logra razonamiento multimodal nativo eficiente al reemplazar codificadores pesados con una capa de mapeo estática, permitiendo ejecutar capacidades visuales y de audio complejas en hardware local estándar.

Highlights

  • Gemma 4 12B elimina la necesidad de codificadores externos pesados mediante una arquitectura multimodal nativa.

  • El procesamiento de imágenes utiliza una capa de proyección lineal simple de 35 millones de parámetros en lugar de redes de visión masivas.

  • La arquitectura divide las imágenes en parches de 48 por 48 píxeles para convertirlas directamente en tokens compatibles con el modelo de lenguaje.

  • El razonamiento de audio se procesa segmentando señales crudas de 16 kHz en marcos de 40 milisegundos que el modelo trata como secuencias de texto.

  • El modelo alcanza un rendimiento cercano a modelos de 26 mil millones de parámetros siendo ejecutable en hardware con 16 GB de VRAM o más.

  • La predicción nativa de múltiples tokens permite velocidades de inferencia locales optimizadas sin requerir compresión adicional.

Timeline

Arquitectura sin codificador

  • La mayoría de los modelos multimodales dependen de codificadores de visión y voz separados que consumen VRAM excesiva.
  • Gemma 4 12B elimina estos codificadores externos para integrar el razonamiento visual directamente en el modelo de lenguaje principal.
  • Los píxeles de una imagen se proyectan mediante una cuadrícula de 35 millones de parámetros en lugar de una red neuronal de visión compleja.

Los modelos multimodales tradicionales emplean redes separadas para interpretar imágenes o audio antes de pasarlos al LLM, lo que causa latencia y alto uso de memoria. Google DeepMind sustituyó estas capas por una proyección lineal simple que reasigna datos brutos a las dimensiones internas del modelo. Esto permite que el LLM realice razonamiento visual nativo sin el costo computacional de redes de atención dedicadas a la visión.

Procesamiento de datos y razonamiento

  • El modelo utiliza la dimensión oculta del LLM para estandarizar píxeles y audio como tokens de texto.
  • Las señales de audio de 16 kHz se dividen en marcos de 40 milisegundos que el modelo procesa cronológicamente como oraciones.
  • El diseño permite realizar transcripciones y traducciones en una sola pasada sin redes de voz adicionales.

La conversión de datos crudos en formato de tokens garantiza que el transformador principal interprete imágenes y audio bajo la misma lógica que el texto. En el caso del audio, la naturaleza secuencial de la onda sonora coincide con el procesamiento de lenguaje natural, eliminando la necesidad de traductores de voz intermedios. Este enfoque unificado libera recursos significativos del sistema.

Pruebas de rendimiento local

  • El modelo se ejecuta eficientemente en hardware local utilizando el marco OMLX en Apple Silicon.
  • La inferencia de razonamiento visual en tiempo real funciona sin conexión a internet.
  • Gemma 4 12B iguala capacidades de modelos de 26 mil millones de parámetros mediante optimizaciones de diseño.

Pruebas realizadas localmente en una MacBook Pro M2 con 24 GB de VRAM demuestran una alta velocidad de respuesta al analizar imágenes complejas como capturas de pantalla de aeropuertos. A pesar de errores en la aplicación oficial, el modelo demostró estabilidad y rapidez al utilizar cuantización de ocho bits en entornos locales. Este nivel de eficiencia sugiere una ruta clara para el despliegue de IA multimodal avanzada en dispositivos de borde.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video