00:00:00Internet se está volviendo loco ahora mismo, y esta vez es por Qwen 3.5,
00:00:05específicamente por su serie de modelos pequeños. Alibaba acaba de lanzar versiones
00:00:10multimodales nativas de Qwen 3.5 con tamaños de tan solo 2.000 y hasta 800 millones de parámetros.
00:00:17Superan a algunos modelos cuatro veces más grandes en razonamiento y visión.
00:00:22Y son tan diminutos que ahora podemos ejecutarlos localmente en portátiles y smartphones de hace 6 años
00:00:28sin conexión a Internet. En este vídeo, vamos a analizar específicamente la nueva
00:00:34serie pequeña de Qwen 3.5, como los de 0,8 y 2 mil millones. También los probaremos en un
00:00:40MacBook Pro M2 y en un iPhone 14 Pro para descubrir qué tan potentes son realmente.
00:00:48Va a ser muy divertido, así que vamos a ello.
00:00:55Entonces, ¿por qué todo el mundo está obsesionado con estos nuevos modelos Qwen 3.5? Al fin y al cabo,
00:01:01hemos tenido modelos pequeños desde hace tiempo. Incluso hablé de los modelos Granite 4.0 nano de IBM
00:01:08en un vídeo anterior, y su modelo era de solo 300 millones de parámetros. ¿Qué hace tan distintos a estos Qwen?
00:01:14Bueno, todo se trata de algo llamado densidad de inteligencia. Verán, durante mucho tiempo la regla era que
00:01:20si quieres un modelo que pueda ver, razonar y programar, tiene que ser enorme. Pero estos pequeños Qwen 3.5
00:01:27demuestran que ese no tiene por qué ser el caso. De alguna manera han logrado comprimir sus modelos grandes
00:01:33en versiones más pequeñas que aún soportan una arquitectura multimodal unificada. Eso significa que su
00:01:39modelo de 0,8 mil millones no solo responde texto, también tiene capacidades de visión y programación integradas.
00:01:46Veamos sus pruebas de rendimiento rápido, porque son bastante interesantes. En el benchmark MMLU,
00:01:51que mide el conocimiento general y razonamiento, el modelo de 2 mil millones logra una puntuación de 66,5,
00:01:57mientras que el de 0,8 alcanza 42,3. Lo cual puede no parecer muy impresionante, pero tengan en cuenta
00:02:04que, para contextualizar, el Llama 2 original con 7 mil millones de parámetros, lanzado en 2023,
00:02:11obtuvo un 45,3 en la misma prueba. Esto demuestra cuánto hemos logrado reducir el tamaño
00:02:17de los parámetros manteniendo una puntuación de comprensión decente. Pero miren esto, lo que
00:02:23realmente destaca es su rendimiento multimodal. En pruebas de visión especializadas como OCRBench,
00:02:29el modelo de 2 mil millones obtiene 85,4 y el de 0,8 llega a 79,1. Esto indica que son
00:02:37sumamente capaces en tareas como leer documentos complejos y analizar imágenes con texto.
00:02:43Oh, y ambos soportan una ventana de contexto masiva de 262K, así que puedes pasarles PDFs enteros o
00:02:51usarlos para analizar grandes bases de código. Eso es bastante impresionante. Pero ahora veamos
00:02:56cómo rinden en realidad. Como ambos modelos pueden ejecutarse localmente en casi cualquier
00:03:02portátil moderno, voy a realizar estas pruebas en modo avión total, sin ninguna conexión a Internet
00:03:08en mi propio portátil. Para la primera prueba, iniciaremos un servidor local en LM Studio
00:03:14y lo conectaremos a CLINE en VS Code para ver si estos diminutos modelos pueden manejar una tarea de
00:03:21programación real. Primero, hay que ir a la pestaña de modelos y descargar las versiones GGUF de los
00:03:28modelos de 0,8 y 2 mil millones de parámetros. Y como usaremos estos modelos para programar, también
00:03:33necesitaremos aumentar bastante la longitud de contexto disponible. Una vez hecho esto, podemos
00:03:38proceder a iniciar el servidor. Y ahora entremos en CLINE. Primero, como mencioné, voy a
00:03:43apagar mi Wi-Fi para realizar estas pruebas completamente fuera de línea. Luego, en la configuración
00:03:50de API de CLINE, me aseguraré de apuntar a nuestra URL personalizada del servidor de LM Studio.
00:03:56Asegurémonos también de elegir el modelo de 0,8 mil millones. Para el prompt, le pediré al modelo
00:04:01que construya el sitio web sencillo de una pequeña cafetería. También me di cuenta de que si no
00:04:07especificamos ningún framework y dejamos que Qwen elija, optará por instalar React, lo cual no
00:04:14funcionará para nuestra demo sin conexión. Así que modifiqué el prompt para pedir específicamente HTML, CSS
00:04:20y JavaScript sin librerías externas. Ejecutemos la prueba. Al modelo le tomó aproximadamente un minuto
00:04:25terminar esta tarea. Y aquí está nuestro resultado final. Como pueden ver, el sitio es muy simple, el
00:04:32diseño no es muy estético y el texto es muy oscuro. También noté que en el CSS, el modelo
00:04:37intentó poner enlaces directos a imágenes específicas de Unsplash que encajaran con el tema.
00:04:43Es una observación interesante. Si activamos el Wi-Fi de nuevo por un momento, vemos que una
00:04:48de esas imágenes sí carga. Y parece ser la imagen de un doctor sosteniendo un teléfono. Es bastante
00:04:54aleatorio. Pero las otras imágenes tienen URLs inválidas. También intenté pedirle al modelo que
00:05:00arreglara el texto roto y mejorara otras áreas, pero no pudo hacerlo de forma fiable. En general,
00:05:06diría que aunque este modelo es capaz de programar y llamar a herramientas, no creo que sea
00:05:12buena idea usarlo en escenarios del mundo real, porque el conteo de parámetros es demasiado bajo.
00:05:17Pero ahora probemos el modelo de 2 mil millones con el mismo prompt para ver qué tal le va.
00:05:23Este modelo me dio muchos dolores de cabeza porque a menudo se quedaba atascado en un bucle,
00:05:28escribiendo la misma sección una y otra vez. Tuve que detener la tarea y reiniciarla. No estoy
00:05:34seguro de si es un problema del modelo, de cómo LM Studio gestiona el servidor o de cómo Cline
00:05:40procesa el prompt. Pero con esta configuración específica, fue una lucha constante.
00:05:45Otra cosa que noté es que mientras el modelo de 0,8 mil millones se puso a programar directamente,
00:05:51la versión de 2 mil millones prefirió estructurar un plan primero antes de proceder con el código.
00:05:57El modelo de 2 mil millones terminó la tarea en unos tres minutos, considerablemente más tiempo.
00:06:02Veamos cuál es el resultado final. Como vemos, ya es un avance porque el diseño se ve mucho más
00:06:08limpio y usa un tema marrón, que se acerca más a la identidad visual de una cafetería.
00:06:14Otro detalle es que si activamos el Wi-Fi, carga algunos iconos externos que hacen que todo el sitio
00:06:20se vea incluso mejor.
00:06:24Esta versión sí intentó implementar la funcionalidad del carrito que pedí inicialmente, porque
00:06:29ahora tenemos esta barra lateral de carrito, aunque no veo botones de añadir al carrito en los productos.
00:06:35Cuando intenté pedirle que arreglara estos fallos, de nuevo tuve el mismo problema técnico donde
00:06:41el modelo entró en un bucle infinito. Supuse que podría ser un problema de LM Studio junto
00:06:46con Cline o algo parecido. Pero seamos sinceros, obviamente nadie consideraría seriamente usar
00:06:51modelos tan pequeños para programación compleja y profesional.
00:06:56Solo hice estas pruebas por curiosidad, para ver si un conteo de parámetros tan bajo aún podía
00:07:02producir un resultado coherente para una tarea de programación. Ahora hagamos algo más emocionante.
00:07:07Intentemos ejecutar estos modelos en un iPhone 14 Pro. Para ello, creé una app nativa de iOS usando
00:07:14Swift y el framework MLX Swift. MLX es la librería de código abierto de Apple que permite ejecutar
00:07:22modelos directamente en la arquitectura de memoria unificada de Apple Silicon. Aprovechando la GPU Metal,
00:07:29podemos ejecutar estos modelos Qwen con aceleración por hardware en el propio dispositivo. También
00:07:34dejaré un enlace en la descripción al repositorio de este proyecto de Swift para que lo descarguen y
00:07:40compilen en sus dispositivos. En cuanto abrimos la app, empezará a descargar el modelo de 0,8
00:07:46mil millones. Una vez listo, ya podemos usarlo. Pero antes de escribir nada,
00:07:52déjenme activar el modo avión en mi iPhone. Empecemos con un simple hola. Por alguna
00:07:58razón, responde que su nombre es Alex. Vale, eso es muy raro, pero de acuerdo. ¿Vieron
00:08:04lo rápido que se generó la respuesta? Estoy impresionado con la velocidad a la que este modelo
00:08:10te responde en tiempo real. Ahora probemos el famoso test del túnel de lavado, que casi todos los modelos fallan.
00:08:17Y miren eso, Qwen 3.5 en realidad responde correctamente. Eso ya es impresionante.
00:08:23Ahora, lo más genial de estos modelos es que también tienen capacidades de visión. Así que voy a
00:08:29mostrarle la imagen de un plátano. Veamos si entiende qué es y en qué estado se encuentra.
00:08:35Identifica correctamente que es un plátano, aunque dice que es un “plátano de perro”.
00:08:40Sinceramente, nunca había oído ese término. ¿Plátano de perro? ¿De qué está hablando Qwen?
00:08:47Bueno, sea como sea, cree que está demasiado maduro. Y me advierte que podría no ser seguro
00:08:52comerlo, lo cual no es cierto. Me comí ese plátano esta mañana y estaba delicioso. Pero de nuevo,
00:08:58me asombra lo rápido que procesa el prompt y me devuelve la respuesta.
00:09:04Probemos otra imagen. Veamos si puede identificar la raza del perro de esta foto.
00:09:09Aquí vemos que no es muy preciso porque cree que ve dos perros, lo cual no es cierto.
00:09:15Y no menciona la raza. Vamos a preguntarle específicamente qué tipo de perro es.
00:09:20Cree que es un golden retriever, lo cual está obviamente muy lejos de la realidad. Así que
00:09:27aunque algunas respuestas no son del todo precisas, y algunas son realmente divertidas,
00:09:34sigo genuinamente impresionado por el hecho de que un modelo tan pequeño pueda razonar sobre el contenido
00:09:39de una imagen y hacerlo de forma tan rápida. Lo último que quiero probar son sus habilidades de OCR,
00:09:45tal como se promocionaba en los benchmarks. Específicamente, quiero ver si identifica el idioma
00:09:50del texto que aparece en esta imagen. Para que tengan contexto, el idioma que aparece
00:09:55en la imagen es letón, que es mi lengua materna, ya que soy originario de Letonia.
00:10:00Lamentablemente, Qwen falla esta prueba porque dice que es esloveno, y nuestro idioma
00:10:05ni siquiera se parece al esloveno. También me hace gracia la confianza con la que traduce
00:10:11una palabra a la misma palabra, que ni siquiera estoy seguro de que exista. Claramente hay
00:10:19algunas alucinaciones fuertes en esta respuesta. Pasemos ahora al modelo de 2 mil millones
00:10:25de parámetros. Al cambiarlo en el menú desplegable, primero lo descargará. Una vez hecho eso,
00:10:30podemos repetir las pruebas en esta versión para ver si hay mejoras significativas. Empecemos
00:10:36con otro simple hola. Al menos esta vez no responde Alex. Eso ya es una mejora.
00:10:42Hagamos el test del túnel de lavado otra vez. Y de nuevo, el modelo lo supera. Muy bien.
00:10:47Procedamos con la imagen del plátano. Esta vez obtenemos una respuesta con más sentido.
00:10:53Detecta que es un plátano. Y en cuanto a su estado, dice que está totalmente maduro
00:11:00y listo para comer, lo cual es verdad. Probemos la foto del perro otra vez.
00:11:06En esta dice que es un Pomerania. No creo que estas razas sean ni siquiera
00:11:11mínimamente parecidas. Así que, desafortunadamente, hasta el modelo de 2 mil millones es malo identificando razas.
00:11:18Por último, probemos la foto con texto otra vez para ver si identifica el idioma.
00:11:22Y miren esto, el modelo de 2 mil millones de parámetros identificó correctamente que el texto es letón.
00:11:29Eso es genial. Pues ahí lo tienen. Esa es la serie de modelos pequeños Qwen 3.5. Sinceramente,
00:11:36creo que a pesar de las pequeñas inconsistencias, son los modelos diminutos más potentes
00:11:42que he usado nunca. El hecho de que podamos tener un LLM multimodal nativo y abierto ejecutándose
00:11:49en un iPhone 14 Pro sin conexión y produciendo resultados útiles con una velocidad de inferencia
00:11:55relativamente alta es súper impresionante. Qwen realmente se ha superado esta vez. Buen trabajo.
00:12:01Pero hay una actualización un tanto sombría que compartir. Mientras terminaba este vídeo, surgieron
00:12:07informes de que Alibaba está realizando una reestructuración importante del equipo Qwen. Líderes clave
00:12:13e ingenieros principales detrás de estos modelos se han marchado, algunos para fundar sus propias startups
00:12:18de IA. Esto ha dejado a la comunidad preguntándose si la era Qwen de avances rápidos podría estar frenándose.
00:12:24Esto hace que estos modelos actuales sean aún más significativos, ya que podrían ser el último gran
00:12:30lanzamiento de este equipo específico en un tiempo. Pero, ¿qué opinan de estos modelos pequeños?
00:12:35¿Los han probado? ¿Los usarán? Cuéntennos en los comentarios de abajo. Y amigos, si les gustan
00:12:39estos análisis técnicos, por favor háganmelo saber dándole al botón de 'me gusta' debajo del vídeo.
00:12:45Y no olviden suscribirse a nuestro canal. Soy Andres, de Better Stack, y nos vemos
00:12:50en los próximos vídeos.