¡Los modelos pequeños de Qwen 3.5 son INCREÍBLES! (Probando 0.8B y 2B en dispositivos Edge)

BBetter Stack
Computing/SoftwareBusiness NewsConsumer ElectronicsCell Phones

Transcript

00:00:00Internet se está volviendo loco ahora mismo, y esta vez es por Qwen 3.5,
00:00:05específicamente por su serie de modelos pequeños. Alibaba acaba de lanzar versiones
00:00:10multimodales nativas de Qwen 3.5 con tamaños de tan solo 2.000 y hasta 800 millones de parámetros.
00:00:17Superan a algunos modelos cuatro veces más grandes en razonamiento y visión.
00:00:22Y son tan diminutos que ahora podemos ejecutarlos localmente en portátiles y smartphones de hace 6 años
00:00:28sin conexión a Internet. En este vídeo, vamos a analizar específicamente la nueva
00:00:34serie pequeña de Qwen 3.5, como los de 0,8 y 2 mil millones. También los probaremos en un
00:00:40MacBook Pro M2 y en un iPhone 14 Pro para descubrir qué tan potentes son realmente.
00:00:48Va a ser muy divertido, así que vamos a ello.
00:00:55Entonces, ¿por qué todo el mundo está obsesionado con estos nuevos modelos Qwen 3.5? Al fin y al cabo,
00:01:01hemos tenido modelos pequeños desde hace tiempo. Incluso hablé de los modelos Granite 4.0 nano de IBM
00:01:08en un vídeo anterior, y su modelo era de solo 300 millones de parámetros. ¿Qué hace tan distintos a estos Qwen?
00:01:14Bueno, todo se trata de algo llamado densidad de inteligencia. Verán, durante mucho tiempo la regla era que
00:01:20si quieres un modelo que pueda ver, razonar y programar, tiene que ser enorme. Pero estos pequeños Qwen 3.5
00:01:27demuestran que ese no tiene por qué ser el caso. De alguna manera han logrado comprimir sus modelos grandes
00:01:33en versiones más pequeñas que aún soportan una arquitectura multimodal unificada. Eso significa que su
00:01:39modelo de 0,8 mil millones no solo responde texto, también tiene capacidades de visión y programación integradas.
00:01:46Veamos sus pruebas de rendimiento rápido, porque son bastante interesantes. En el benchmark MMLU,
00:01:51que mide el conocimiento general y razonamiento, el modelo de 2 mil millones logra una puntuación de 66,5,
00:01:57mientras que el de 0,8 alcanza 42,3. Lo cual puede no parecer muy impresionante, pero tengan en cuenta
00:02:04que, para contextualizar, el Llama 2 original con 7 mil millones de parámetros, lanzado en 2023,
00:02:11obtuvo un 45,3 en la misma prueba. Esto demuestra cuánto hemos logrado reducir el tamaño
00:02:17de los parámetros manteniendo una puntuación de comprensión decente. Pero miren esto, lo que
00:02:23realmente destaca es su rendimiento multimodal. En pruebas de visión especializadas como OCRBench,
00:02:29el modelo de 2 mil millones obtiene 85,4 y el de 0,8 llega a 79,1. Esto indica que son
00:02:37sumamente capaces en tareas como leer documentos complejos y analizar imágenes con texto.
00:02:43Oh, y ambos soportan una ventana de contexto masiva de 262K, así que puedes pasarles PDFs enteros o
00:02:51usarlos para analizar grandes bases de código. Eso es bastante impresionante. Pero ahora veamos
00:02:56cómo rinden en realidad. Como ambos modelos pueden ejecutarse localmente en casi cualquier
00:03:02portátil moderno, voy a realizar estas pruebas en modo avión total, sin ninguna conexión a Internet
00:03:08en mi propio portátil. Para la primera prueba, iniciaremos un servidor local en LM Studio
00:03:14y lo conectaremos a CLINE en VS Code para ver si estos diminutos modelos pueden manejar una tarea de
00:03:21programación real. Primero, hay que ir a la pestaña de modelos y descargar las versiones GGUF de los
00:03:28modelos de 0,8 y 2 mil millones de parámetros. Y como usaremos estos modelos para programar, también
00:03:33necesitaremos aumentar bastante la longitud de contexto disponible. Una vez hecho esto, podemos
00:03:38proceder a iniciar el servidor. Y ahora entremos en CLINE. Primero, como mencioné, voy a
00:03:43apagar mi Wi-Fi para realizar estas pruebas completamente fuera de línea. Luego, en la configuración
00:03:50de API de CLINE, me aseguraré de apuntar a nuestra URL personalizada del servidor de LM Studio.
00:03:56Asegurémonos también de elegir el modelo de 0,8 mil millones. Para el prompt, le pediré al modelo
00:04:01que construya el sitio web sencillo de una pequeña cafetería. También me di cuenta de que si no
00:04:07especificamos ningún framework y dejamos que Qwen elija, optará por instalar React, lo cual no
00:04:14funcionará para nuestra demo sin conexión. Así que modifiqué el prompt para pedir específicamente HTML, CSS
00:04:20y JavaScript sin librerías externas. Ejecutemos la prueba. Al modelo le tomó aproximadamente un minuto
00:04:25terminar esta tarea. Y aquí está nuestro resultado final. Como pueden ver, el sitio es muy simple, el
00:04:32diseño no es muy estético y el texto es muy oscuro. También noté que en el CSS, el modelo
00:04:37intentó poner enlaces directos a imágenes específicas de Unsplash que encajaran con el tema.
00:04:43Es una observación interesante. Si activamos el Wi-Fi de nuevo por un momento, vemos que una
00:04:48de esas imágenes sí carga. Y parece ser la imagen de un doctor sosteniendo un teléfono. Es bastante
00:04:54aleatorio. Pero las otras imágenes tienen URLs inválidas. También intenté pedirle al modelo que
00:05:00arreglara el texto roto y mejorara otras áreas, pero no pudo hacerlo de forma fiable. En general,
00:05:06diría que aunque este modelo es capaz de programar y llamar a herramientas, no creo que sea
00:05:12buena idea usarlo en escenarios del mundo real, porque el conteo de parámetros es demasiado bajo.
00:05:17Pero ahora probemos el modelo de 2 mil millones con el mismo prompt para ver qué tal le va.
00:05:23Este modelo me dio muchos dolores de cabeza porque a menudo se quedaba atascado en un bucle,
00:05:28escribiendo la misma sección una y otra vez. Tuve que detener la tarea y reiniciarla. No estoy
00:05:34seguro de si es un problema del modelo, de cómo LM Studio gestiona el servidor o de cómo Cline
00:05:40procesa el prompt. Pero con esta configuración específica, fue una lucha constante.
00:05:45Otra cosa que noté es que mientras el modelo de 0,8 mil millones se puso a programar directamente,
00:05:51la versión de 2 mil millones prefirió estructurar un plan primero antes de proceder con el código.
00:05:57El modelo de 2 mil millones terminó la tarea en unos tres minutos, considerablemente más tiempo.
00:06:02Veamos cuál es el resultado final. Como vemos, ya es un avance porque el diseño se ve mucho más
00:06:08limpio y usa un tema marrón, que se acerca más a la identidad visual de una cafetería.
00:06:14Otro detalle es que si activamos el Wi-Fi, carga algunos iconos externos que hacen que todo el sitio
00:06:20se vea incluso mejor.
00:06:24Esta versión sí intentó implementar la funcionalidad del carrito que pedí inicialmente, porque
00:06:29ahora tenemos esta barra lateral de carrito, aunque no veo botones de añadir al carrito en los productos.
00:06:35Cuando intenté pedirle que arreglara estos fallos, de nuevo tuve el mismo problema técnico donde
00:06:41el modelo entró en un bucle infinito. Supuse que podría ser un problema de LM Studio junto
00:06:46con Cline o algo parecido. Pero seamos sinceros, obviamente nadie consideraría seriamente usar
00:06:51modelos tan pequeños para programación compleja y profesional.
00:06:56Solo hice estas pruebas por curiosidad, para ver si un conteo de parámetros tan bajo aún podía
00:07:02producir un resultado coherente para una tarea de programación. Ahora hagamos algo más emocionante.
00:07:07Intentemos ejecutar estos modelos en un iPhone 14 Pro. Para ello, creé una app nativa de iOS usando
00:07:14Swift y el framework MLX Swift. MLX es la librería de código abierto de Apple que permite ejecutar
00:07:22modelos directamente en la arquitectura de memoria unificada de Apple Silicon. Aprovechando la GPU Metal,
00:07:29podemos ejecutar estos modelos Qwen con aceleración por hardware en el propio dispositivo. También
00:07:34dejaré un enlace en la descripción al repositorio de este proyecto de Swift para que lo descarguen y
00:07:40compilen en sus dispositivos. En cuanto abrimos la app, empezará a descargar el modelo de 0,8
00:07:46mil millones. Una vez listo, ya podemos usarlo. Pero antes de escribir nada,
00:07:52déjenme activar el modo avión en mi iPhone. Empecemos con un simple hola. Por alguna
00:07:58razón, responde que su nombre es Alex. Vale, eso es muy raro, pero de acuerdo. ¿Vieron
00:08:04lo rápido que se generó la respuesta? Estoy impresionado con la velocidad a la que este modelo
00:08:10te responde en tiempo real. Ahora probemos el famoso test del túnel de lavado, que casi todos los modelos fallan.
00:08:17Y miren eso, Qwen 3.5 en realidad responde correctamente. Eso ya es impresionante.
00:08:23Ahora, lo más genial de estos modelos es que también tienen capacidades de visión. Así que voy a
00:08:29mostrarle la imagen de un plátano. Veamos si entiende qué es y en qué estado se encuentra.
00:08:35Identifica correctamente que es un plátano, aunque dice que es un “plátano de perro”.
00:08:40Sinceramente, nunca había oído ese término. ¿Plátano de perro? ¿De qué está hablando Qwen?
00:08:47Bueno, sea como sea, cree que está demasiado maduro. Y me advierte que podría no ser seguro
00:08:52comerlo, lo cual no es cierto. Me comí ese plátano esta mañana y estaba delicioso. Pero de nuevo,
00:08:58me asombra lo rápido que procesa el prompt y me devuelve la respuesta.
00:09:04Probemos otra imagen. Veamos si puede identificar la raza del perro de esta foto.
00:09:09Aquí vemos que no es muy preciso porque cree que ve dos perros, lo cual no es cierto.
00:09:15Y no menciona la raza. Vamos a preguntarle específicamente qué tipo de perro es.
00:09:20Cree que es un golden retriever, lo cual está obviamente muy lejos de la realidad. Así que
00:09:27aunque algunas respuestas no son del todo precisas, y algunas son realmente divertidas,
00:09:34sigo genuinamente impresionado por el hecho de que un modelo tan pequeño pueda razonar sobre el contenido
00:09:39de una imagen y hacerlo de forma tan rápida. Lo último que quiero probar son sus habilidades de OCR,
00:09:45tal como se promocionaba en los benchmarks. Específicamente, quiero ver si identifica el idioma
00:09:50del texto que aparece en esta imagen. Para que tengan contexto, el idioma que aparece
00:09:55en la imagen es letón, que es mi lengua materna, ya que soy originario de Letonia.
00:10:00Lamentablemente, Qwen falla esta prueba porque dice que es esloveno, y nuestro idioma
00:10:05ni siquiera se parece al esloveno. También me hace gracia la confianza con la que traduce
00:10:11una palabra a la misma palabra, que ni siquiera estoy seguro de que exista. Claramente hay
00:10:19algunas alucinaciones fuertes en esta respuesta. Pasemos ahora al modelo de 2 mil millones
00:10:25de parámetros. Al cambiarlo en el menú desplegable, primero lo descargará. Una vez hecho eso,
00:10:30podemos repetir las pruebas en esta versión para ver si hay mejoras significativas. Empecemos
00:10:36con otro simple hola. Al menos esta vez no responde Alex. Eso ya es una mejora.
00:10:42Hagamos el test del túnel de lavado otra vez. Y de nuevo, el modelo lo supera. Muy bien.
00:10:47Procedamos con la imagen del plátano. Esta vez obtenemos una respuesta con más sentido.
00:10:53Detecta que es un plátano. Y en cuanto a su estado, dice que está totalmente maduro
00:11:00y listo para comer, lo cual es verdad. Probemos la foto del perro otra vez.
00:11:06En esta dice que es un Pomerania. No creo que estas razas sean ni siquiera
00:11:11mínimamente parecidas. Así que, desafortunadamente, hasta el modelo de 2 mil millones es malo identificando razas.
00:11:18Por último, probemos la foto con texto otra vez para ver si identifica el idioma.
00:11:22Y miren esto, el modelo de 2 mil millones de parámetros identificó correctamente que el texto es letón.
00:11:29Eso es genial. Pues ahí lo tienen. Esa es la serie de modelos pequeños Qwen 3.5. Sinceramente,
00:11:36creo que a pesar de las pequeñas inconsistencias, son los modelos diminutos más potentes
00:11:42que he usado nunca. El hecho de que podamos tener un LLM multimodal nativo y abierto ejecutándose
00:11:49en un iPhone 14 Pro sin conexión y produciendo resultados útiles con una velocidad de inferencia
00:11:55relativamente alta es súper impresionante. Qwen realmente se ha superado esta vez. Buen trabajo.
00:12:01Pero hay una actualización un tanto sombría que compartir. Mientras terminaba este vídeo, surgieron
00:12:07informes de que Alibaba está realizando una reestructuración importante del equipo Qwen. Líderes clave
00:12:13e ingenieros principales detrás de estos modelos se han marchado, algunos para fundar sus propias startups
00:12:18de IA. Esto ha dejado a la comunidad preguntándose si la era Qwen de avances rápidos podría estar frenándose.
00:12:24Esto hace que estos modelos actuales sean aún más significativos, ya que podrían ser el último gran
00:12:30lanzamiento de este equipo específico en un tiempo. Pero, ¿qué opinan de estos modelos pequeños?
00:12:35¿Los han probado? ¿Los usarán? Cuéntennos en los comentarios de abajo. Y amigos, si les gustan
00:12:39estos análisis técnicos, por favor háganmelo saber dándole al botón de 'me gusta' debajo del vídeo.
00:12:45Y no olviden suscribirse a nuestro canal. Soy Andres, de Better Stack, y nos vemos
00:12:50en los próximos vídeos.

Key Takeaway

La serie Qwen 3.5 redefine la densidad de inteligencia al ofrecer capacidades multimodales y de razonamiento avanzadas en modelos tan pequeños que pueden ejecutarse de forma privada y veloz en dispositivos móviles antiguos.

Highlights

Lanzamiento de los modelos Qwen 3.5 en tamaños ultra pequeños de 0.8B y 2B parámetros.

Capacidad multimodal nativa que permite visión, razonamiento y programación en dispositivos locales.

Rendimiento sorprendente en benchmarks, superando en razonamiento a modelos mucho más grandes como Llama 2 7B.

Ventana de contexto masiva de 262K que permite analizar documentos extensos sin conexión a Internet.

Pruebas exitosas de ejecución local en smartphones (iPhone 14 Pro) y portátiles utilizando frameworks como MLX y LM Studio.

Detección precisa de idiomas poco comunes como el letón en el modelo de 2B parámetros.

Noticias sobre una reestructuración interna en el equipo de IA de Alibaba tras el lanzamiento.

Timeline

Introducción y potencia de los modelos pequeños

El presentador introduce la nueva serie Qwen 3.5 de Alibaba, destacando sus versiones de 800 millones y 2 mil millones de parámetros. Estos modelos son multimodales nativos, lo que significa que pueden procesar texto y visión de forma integrada a pesar de su reducido tamaño. Se enfatiza que estos modelos pueden ejecutarse localmente en hardware de hace seis años sin necesidad de internet. El video se centrará en probar estos modelos en un MacBook Pro M2 y un iPhone 14 Pro para validar su potencia real. El objetivo es demostrar que la inteligencia artificial avanzada ya no requiere obligatoriamente de centros de datos masivos.

Densidad de inteligencia y comparativa de benchmarks

Se explica el concepto de "densidad de inteligencia", donde Qwen logra comprimir capacidades de modelos grandes en arquitecturas diminutas. En la prueba MMLU, el modelo de 2B alcanza un 66,5, superando significativamente al Llama 2 original de 7B parámetros. En tareas de visión como OCRBench, los modelos muestran una capacidad sobresaliente para leer documentos complejos y analizar imágenes con texto. Además, se destaca la impresionante ventana de contexto de 262K, permitiendo el análisis de archivos PDF enteros. Estos datos sitúan a Qwen 3.5 a la vanguardia de la eficiencia en el sector de los modelos de lenguaje pequeños.

Pruebas de programación local en VS Code y LM Studio

El analista configura un entorno de programación local utilizando LM Studio y la extensión Cline en VS Code, desactivando completamente el Wi-Fi. Al probar el modelo de 0.8B para crear un sitio web de una cafetería, el resultado es funcional pero estéticamente pobre y con enlaces de imágenes aleatorios. Se observa que el modelo intenta realizar llamadas a herramientas pero su bajo conteo de parámetros limita su fiabilidad en entornos profesionales reales. El proceso de generación fue rápido, tomando aproximadamente un minuto, pero con alucinaciones en las URLs de las imágenes. Esta sección concluye que, aunque es un avance técnico, no se recomienda para desarrollo de software crítico.

Comparativa de programación con el modelo de 2B

Se repite el experimento de programación con la versión de 2 mil millones de parámetros, encontrando dificultades técnicas y bucles infinitos en la generación. A diferencia de la versión más pequeña, este modelo intentó estructurar un plan de trabajo antes de escribir el código fuente. El diseño final del sitio web fue mucho más limpio, utilizando una paleta de colores coherente con una cafetería e intentando implementar un carrito de compras. A pesar de los mejores resultados visuales, la estabilidad del modelo fue un problema constante durante la prueba. El autor aclara que estas pruebas son por curiosidad técnica y no para validar un uso profesional inmediato.

Ejecución móvil: Pruebas en iPhone 14 Pro con MLX

La prueba se traslada a un iPhone 14 Pro utilizando una aplicación nativa desarrollada con el framework MLX de Apple para aprovechar la GPU Metal. El modelo de 0.8B responde de forma casi instantánea en modo avión, superando pruebas de lógica clásicas como el test del túnel de lavado. En las pruebas de visión, el modelo identifica correctamente un plátano, aunque alucina con términos extraños y falla al identificar razas de perros. Al probar el reconocimiento óptico de caracteres (OCR) con texto en letón, el modelo de 0.8B falla al confundirlo con esloveno. Esta sección resalta la increíble velocidad de inferencia directamente en el bolsillo del usuario.

Mejoras del modelo 2B y conclusiones finales

El modelo de 2B parámetros muestra una mejora notable en el iPhone, identificando correctamente el estado de madurez de las frutas y el idioma letón. A pesar de seguir fallando en la identificación precisa de razas caninas, se considera el modelo pequeño más potente probado hasta la fecha. El video concluye con una nota agridulce sobre la reestructuración del equipo Qwen en Alibaba y la salida de ingenieros clave. Se sugiere que estos modelos podrían marcar el fin de una era de innovación rápida para este grupo específico. El presentador invita a la audiencia a compartir sus experiencias y suscribirse para más análisis técnicos de IA.

Community Posts

View all posts