Google acaba de solucionar el mayor problema de la IA multimodal (Gemma 4 12B)
BBetter Stack
Computing/SoftwareConsumer Electronics
Transcript
00:00:00Google acaba de presentar su nuevo modelo Gemma 4 de 12 mil millones de parámetros y esto cambia las reglas del juego.
00:00:06No, en serio, no es clickbait. Este modelo realmente cambia el juego por la forma en que está construido.
00:00:13Lo que lo diferencia de todos los demás modelos de IA es el hecho de que no tiene
00:00:18codificador. Ahora, ¿qué significa eso, cómo funciona y por qué es algo tan importante?
00:00:24Bueno, esas son buenas preguntas que exploraremos en el video de hoy. Será muy
00:00:29divertido. Así que profundicemos. El modelo Gemma 4 de 12 mil millones tiene una arquitectura nueva que
00:00:39rompe por completo con el funcionamiento de cualquier otro modelo multimodal. Modelo multimodal. Dios,
00:00:46es todo un trabalenguas. Para entender por qué es tan importante, debemos
00:00:51analizar cómo manejan las cosas todos los demás modelos multimodales actualmente. Los modelos de lenguaje están hechos para leer
00:00:57tokens, básicamente fragmentos de texto convertidos en números. No saben naturalmente qué es un píxel ni cómo es
00:01:05una onda sonora. Así que solemos unir diferentes modelos. Si le das a una IA una imagen, un enorme
00:01:11codificador de visión la intercepta primero. Gasta muchísimo poder de procesamiento traduciendo esos píxeles crudos a
00:01:19un lenguaje que el LLM pueda entender realmente. Y lo mismo ocurre con el audio. Un codificador de voz separado
00:01:25tiene que traducir las ondas sonoras primero. Para cuando el cerebro real de la IA recibe los datos, estás ejecutando tres
00:01:32redes separadas al mismo tiempo. En una laptop estándar, esto acapara toda tu VRAM y ralentiza
00:01:38todo. Pero Google DeepMind vio este problema y pensó: ¿qué pasa si podemos eliminar al
00:01:44intermediario? Así que en el modelo Gemma 4 de 12 mil millones, eliminaron por completo el pesado codificador de visión. En su lugar,
00:01:51cuando le alimentas con una imagen, el modelo la divide en pequeños parches de 48 por 48 píxeles. Y en lugar de pasar
00:01:58esos parches a través de docenas de capas de una red de visión separada, los píxeles crudos pasan por un solo
00:02:04paso matemático delgado llamado proyección lineal. Y esta proyección lineal es solo una cuadrícula masiva de números
00:02:11que toma 2304 valores de píxeles, porque eso se correlaciona con un cuadrado de 48 por 48 píxeles, los multiplica en un
00:02:19solo paso y los estira en una sola fila que coincide perfectamente con el formato de token de texto
00:02:26del LLM. Entonces, todavía no analiza lo que hay en la imagen, solo reformatea los datos brutos para que puedan caber
00:02:32a través del modelo. Y si miras los modelos estándar, sus codificadores de visión son masivos. Por ejemplo,
00:02:38este tiene 550 millones de parámetros. Eso es porque un codificador tradicional necesita muchos datos para remodelar,
00:02:45mapear y entender la imagen. Tiene docenas de capas de atención internas que calculan relaciones
00:02:50entre píxeles, tratando de descubrir dónde están los bordes, cuáles son las formas y qué podrían ser los objetos
00:02:57antes incluso de entregárselo al modelo de texto. Pero DeepMind lo redujo eliminando por completo todo ese pesado
00:03:04cerebro. Se dieron cuenta de que la columna vertebral del lenguaje principal ya es increíblemente inteligente y tiene muchas
00:03:10capas para hacer el razonamiento visual real. Así que, al eliminar todas esas capas de pensamiento, quedaron con
00:03:17solo 35 millones de parámetros, y eso es literalmente solo el conteo físico de pesos de conexión necesarios
00:03:24para mapear esas cuadrículas de píxeles a un formato de texto. Es un mapa estático de una sola capa que funciona para cada imagen.
00:03:30Debido a que no hace ningún pensamiento interno, casi no ocupa poder de procesamiento, liberando la VRAM
00:03:37y dejando que el LLM principal maneje la inteligencia real de forma nativa. Y para entender cómo funciona ese único paso,
00:03:44tienes que mirar lo que realmente está sucediendo dentro de una columna vertebral de modelo de lenguaje. Cada modelo de lenguaje tiene una
00:03:50regla de formato interna llamada dimensión oculta. Piénsalo como un tamaño de bandeja estandarizado. Ya sea
00:03:56la palabra manzana o un fragmento de código o un signo de puntuación, todo lo que se introduce en el LLM debe convertirse
00:04:04en esta lista masiva específica de números porque tiene que coincidir con las dimensiones de las matrices. Y este parche
00:04:11crudo de 48 por 48 píxeles es solo una cuadrícula de 2304 números de color individuales. Si intentas alimentar ese fragmento crudo
00:04:19directamente al LLM, el modelo lo rechazará porque las dimensiones en realidad no coinciden. Y esa es
00:04:26exactamente la razón por la que existe esa capa de mapeo de 35 millones de parámetros. Es literalmente una cuadrícula masiva única de
00:04:33pesos de conexión que multiplica esos 2304 valores de píxeles y los estira en una sola fila que
00:04:40coincide perfectamente con el formato de token de texto del LLM. No hace ningún pensamiento analítico, solo actúa como un convertidor
00:04:48de formato para que los datos puedan deslizarse directamente hacia el transformador principal donde ocurre el razonamiento visual
00:04:54de forma nativa. Y el modelo hace algo similar para el razonamiento de audio también, pero para el audio es aún más simple.
00:05:01Entonces, la forma en que lograron deshacerse del codificador de audio es tomando una señal de audio cruda de 16 kilohercios y
00:05:07rebanándola en marcos continuos de 40 milisegundos. Cada pequeño marco contiene exactamente 640 números de punto flotante
00:05:15que describen la onda sonora. El modelo toma esos 640 flotantes y los ejecuta a través de una
00:05:21capa de proyección simple similar que los mapea directamente al espacio de entrada del modelo de lenguaje. Para el transformador
00:05:28principal, un bloque de audio de 40 milisegundos se ve idéntico a un flujo continuo de tokens de texto. Debido a que el sonido
00:05:35ya es una secuencia cronológica, al igual que una oración en una secuencia de palabras, el LLM trata el audio
00:05:42exactamente igual que al texto. Así que esta integración profunda y nativa permite que el modelo de 12 mil millones de parámetros maneje transcripción en vivo,
00:05:49traducción y formato de texto en una sola pasada hacia adelante sin obligarte a cargar redes de voz separadas
00:05:56en tu memoria. Por lo tanto, esta táctica inteligente es una gran victoria para ejecutar modelos localmente en tu propio
00:06:02hardware. Al despojarse de toda la hinchazón del codificador, DeepMind logró empaquetar un increíble poder de razonamiento
00:06:08en una pequeña huella. Y al mirar el punto de referencia, se acerca al rendimiento de sus masivos modelos de 26
00:06:15mil millones de parámetros, pero cabe fácilmente en una computadora portátil estándar con 16 gigabytes de VRAM
00:06:21o más. Además, Google incluyó redactores nativos de predicción de múltiples tokens listos para usar, lo que significa que predice
00:06:28múltiples tokens a la vez para velocidades de inferencia local rápidas sin obligarte a comprimir el modelo.
00:06:34Entonces, todo eso suena impresionante. Ahora vamos a probarlo y ver cómo funciona en mi MacBook Pro M2 local.
00:06:41Y algunas de las personas en mi video anterior de OMLX preguntaban cuánta VRAM tengo realmente en mi
00:06:48máquina. Así que para responder a esa pregunta, tengo 24 gigabytes de VRAM. Eso es con lo que estamos trabajando
00:06:53hoy. También debo decir que esta aplicación de galería de borde es muy defectuosa. Por ejemplo, si intento agregar una
00:07:01imagen y pregunto, por favor analiza esta imagen, fallará instantáneamente y me dará este error aleatorio. Y esto
00:07:13es en la última versión. Así que, desafortunadamente, no pudimos probar el codificador de visión usando la aplicación oficial de borde de IA
00:07:20de Google, pero hay otra forma en la que realmente podemos probarlo. Okay. Entonces, como no pude
00:07:26probar de manera confiable el procesamiento de imágenes con el modelo Gemma 4 de 12 mil millones en la aplicación de galería
00:07:34de borde de IA de Google, decidí probarlo en OMLX. Y también hice un video sobre OMLX. Es un marco increíble
00:07:42para ejecutar modelos de IA localmente, específicamente en Apple Silicon. Y como puedes ver aquí, he
00:07:47descargado la versión cuantizada de ocho bits de este modelo. Así que ahora voy a ir a la sección de chat
00:07:54y veamos qué tan rápido puede hacer razonamiento de imágenes en tiempo real. Aquí tengo una carpeta de prueba
00:08:01con dos imágenes. Una de ellas es solo una captura de pantalla de salidas de aeropuerto. Así que usaremos esta imagen
00:08:09y preguntaremos qué ves en esta imagen. Y quiero que prestes atención a que no estoy acelerando este video.
00:08:18Todo esto es en tiempo real. Quiero que prestes atención a qué tan rápido es capaz de razonar
00:08:24sobre tal imagen. Así que está comenzando aquí, está cargando el modelo, generando y boom, mira eso.
00:08:33Mira qué tan rápido es capaz de analizar esta imagen y extraer información valiosa de ella.
00:08:41La primera vez que vi esto en OMLX, me quedé genuinamente impresionado por la velocidad de la misma. Es absolutamente increíble.
00:08:50Así que tengo que decir que este es el mejor modelo que probé localmente para el razonamiento de imágenes. Y también
00:08:57quiero que prestes atención al hecho de que estoy ejecutando este modelo sin conexión. No tengo mi Wi-Fi encendido.
00:09:03Así que probemos otro ejemplo. Este es solo una imagen borrosa del programa de televisión Vikings mostrando algunos
00:09:10personajes. Así que una vez más, abramos esta imagen y preguntemos lo mismo. ¿Qué ves en esta
00:09:21imagen? Está generando.
00:09:27Y boom, mira eso.
00:09:30Quiero decir, eso es simplemente increíble. Es tan rápido. Me sorprendió mucho.
00:09:37Así que sí, estoy honestamente muy, muy impresionado con el rendimiento del procesamiento de imágenes de este nuevo modelo.
00:09:43Así que ahí lo tienen, amigos. Ese es el nuevo modelo Gemma 4 de 12 mil millones sin codificador, en pocas palabras.
00:09:50Me sentí bastante frustrado por no poder probarlo con confianza en su aplicación oficial de galería
00:09:56de borde de IA. Pero como vimos, hay otras formas alternativas y quizás incluso mejores de ejecutarlo
00:10:01localmente. Así que creo que este es un modelo muy bueno y cambia por completo el futuro de ejecutar
00:10:07modelos de IA locales. Google DeepMind acaba de probar básicamente que una sola columna vertebral de lenguaje es lo suficientemente inteligente
00:10:13como para manejar la visión y el sonido de forma nativa. Así que esta nueva técnica probablemente abrirá puertas para desarrollar incluso
00:10:19modelos de razonamiento multimodal más eficientes que pueden ejecutarse fácilmente en dispositivos de borde. Entonces, ¿qué opinas
00:10:26sobre el nuevo modelo Gemma? ¿Lo has probado? ¿Lo usarás? Háznoslo saber en la sección de comentarios a
00:10:32continuación. Y amigos, si les gustan estos tipos de desgloses técnicos, por favor háganmelo saber aplastando ese botón de me gusta
00:10:37debajo del video. Y también no olviden suscribirse a nuestro canal. Este ha sido Andres
00:10:43de BetterStack y nos vemos en los próximos videos.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video