Qwen 3.5 35B vs Sonnet 4.5: ¿Se está CERRANDO la brecha?

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00A principios de este mes, Alibaba lanzó Qwen 3.5 con un modelo de 400 mil millones de parámetros y
00:00:05una versión "Max Thinking" que afirma superar en rendimiento a Opus 4.5, aunque requiere mucha potencia
00:00:11para ejecutarse localmente.
00:00:12Pero esta misma semana lanzaron la serie Medium de Qwen 3.5, modelos que son casi tan
00:00:17potentes como los Max y pueden ejecutarse localmente en una MacBook Pro moderna, afirmando
00:00:22que también superan a Sonnet 4.5, algo que no me creo. Así que suscríbete
00:00:27y pongamos a prueba estos dos modelos.
00:00:31La mayoría de los desarrolladores admiten que Sonnet 4.5 es un modelo excelente que funciona muy bien con Claude
00:00:35Code, Co-Work y toda la suite de Anthropic, ofreciendo una experiencia premium.
00:00:40Pero necesitas estar conectado para que funcionen y no son precisamente baratos.
00:00:44La serie Medium de Qwen 3.5 pretende cambiar eso al permitir ejecutar un
00:00:49modelo tan bueno como Sonnet 4.5 de forma local, y la gente en Twitter se está volviendo loca.
00:00:54Pero no estoy convencido de que sea realmente tan bueno como Sonnet 4.5.
00:00:58Así que voy a probar ambos modelos con una tarea fácil, una media y una difícil para ver cuál
00:01:02se desempeña mejor.
00:01:04Pero antes de empezar con las pruebas, tengo una pequeña confesión que hacer.
00:01:07En realidad no voy a ejecutar Qwen 3.5 localmente porque mi humilde MacBook Pro M1 no
00:01:12tiene la memoria unificada necesaria para realizar la inferencia correctamente.
00:01:15Así que usaré Qwen 3.5 35b en OpenRouter conectado a OpenCode y
00:01:21ejecutaré Sonnet 4.5 en Claude Code en "modo limpio", para que no use ninguna de mis
00:01:25habilidades, plugins o herramientas MCP.
00:01:27Empezaremos con algo sencillo: pedirles que creen una lista de tareas desde cero usando React y Vite.
00:01:32Si miramos lo que produjo Sonnet 4.5, vemos que tiene este color púrpura de IA.
00:01:36Puedo añadir una tarea y marcarla como completada, tengo la opción de borrar y
00:01:40si refresco la página, todo sigue ahí porque ha utilizado el almacenamiento local.
00:01:44Si miramos a Qwen 3.5, ambos tienen un estilo similar y no han sobrescrito el
00:01:48estilo predeterminado que viene con Vite.
00:01:51Pero, de nuevo, puedo añadir una tarea.
00:01:53Y aquí tenemos algunas opciones adicionales.
00:01:54Podemos elegir la categoría, creo que la prioridad y
00:01:59tal vez una fecha de vencimiento o para cuándo es la tarea.
00:02:02Puedo poner algo como "hacer la compra" y muestra la fecha, la prioridad y
00:02:06la categoría correspondiente, lo cual es genial.
00:02:08Echemos un vistazo al código.
00:02:09Este es el de Sonnet y, por aquí, está usando un useEffect, que supongo que es para el
00:02:13almacenamiento local de aquí abajo.
00:02:15Supongo que está bien, pero preferiría hacerlo de otra manera.
00:02:17Tenemos una función "add to-do" y otras por aquí para realizar acciones.
00:02:22Como alternar el estado o eliminar la tarea.
00:02:25Todo esto se ve bien.
00:02:26Algo que me ha sorprendido un poco es la parte de arriba que menciona el parseo de JSON.
00:02:32Parece que lo guarda en el almacenamiento local como JSON y luego lo procesa.
00:02:35Habría sido mejor tener este código en una función aparte para que, si quieres
00:02:38añadir más cosas, no sature la parte superior del código.
00:02:42Ahora, si miramos a Qwen, tenemos algunas categorías, y parece que no usa useEffect,
00:02:46lo cual es un punto a favor.
00:02:48Si bajamos, tenemos "handleSubmit", que es un nombre que prefiero usar.
00:02:51También tiene "handleUpdates", "handleDelete" y "handleToggleCompleted".
00:02:55Y algo que me gusta mucho es que puso los elementos de la lista en un componente separado.
00:02:59Así, en lugar de saturar el componente principal de la aplicación, creó
00:03:03un nuevo componente que se usa aquí abajo en la sección de la app, ya que hay varios
00:03:07elementos en la lista.
00:03:08Así que la victoria es para Qwen porque creó una lista de tareas con muchas más funciones.
00:03:13Pero después de estas pruebas, me di cuenta de que Qwen tenía activada la habilidad "superpower"
00:03:18en OpenCode.
00:03:19Lo ejecuté de nuevo sin esa habilidad y este fue el resultado.
00:03:23Así que supongo que la victoria es para Sonnet.
00:03:25Pasemos a la segunda prueba: construir un sistema solar interactivo usando
00:03:29React, Vite y Three.js.
00:03:31Claude hizo un trabajo mucho mejor al primer intento.
00:03:33Vale, le faltan algunos planetas, pero puedo hacer clic en los que hay.
00:03:37Hago clic en el Sol y obtengo información sobre él.
00:03:39Hago clic en Urano por aquí y también me da información.
00:03:44El movimiento en el sitio es impecable: puedo desplazarme, rotar, hacer zoom y
00:03:48demás.
00:03:49Y esto es lo que produjo Qwen.
00:03:50Sí, una página en blanco.
00:03:51Si miramos la consola, vemos un error que le pasé a Qwen
00:03:56varias veces, pero no fue capaz de solucionar.
00:03:58De hecho, todo el proceso de creación fue bastante engorroso.
00:04:01Qwen se quedó colgado varias veces, tuve que reiniciarlo y también le costó corregir
00:04:05errores una y otra vez.
00:04:06Sin mencionar que, si miramos los archivos generados por Qwen, tenemos un package.json,
00:04:10un package-lock y un directorio node_modules que no se usaron para nada porque el proyecto
00:04:15principal está dentro del directorio "solar system" con su propio package.json
00:04:20y su propio directorio node_modules.
00:04:21Así que para la segunda prueba, Claude también gana.
00:04:23Para la prueba final, pedí a los modelos que modificaran una base de código existente para capturar
00:04:28una pantalla de un tuit cuando el usuario publica la URL en la aplicación.
00:04:32Empezaremos con Claude, que generó esta página.
00:04:35Me dio la opción de cambiar el fondo y el relleno.
00:04:38La primera vez obtuve un error, el cual le pedí a Claude que corrigiera.
00:04:42Voy a copiar la URL de este tuit de JSON, la pego aquí y pulso en capturar.
00:04:47Tras unos segundos, obtenemos la imagen aquí abajo con la opción de descargarla.
00:04:51Y aquí está el resultado de Qwen con su propia página.
00:04:54De nuevo, copiaré este tuit y lo pegaré aquí.
00:04:56Dice "extraer vídeo" en lugar de "extraer captura", y empieza la captura, lo cual parece prometedor.
00:05:01Pero después de un rato, da un error de tiempo de espera de 60 segundos, similar al error
00:05:06que tuvimos con Sonnet.
00:05:07Le pedí a Qwen que lo arreglara y amplió el tiempo de espera, pero no solucionó el problema
00:05:11que lo causaba en primer lugar.
00:05:13Así que parece que Sonnet 4.5 gana las tres pruebas.
00:05:17Así que, aunque sobre el papel Qwen 3.5 35b debería superar a Sonnet 4.5, en pruebas reales
00:05:24no parece ser el caso.
00:05:26Y no me malinterpretéis, es impresionante que se pueda ejecutar un modelo de 35 mil o incluso
00:05:3127 mil millones de parámetros localmente en una MacBook moderna.
00:05:34Pero independientemente de lo que digan en Twitter, no hay forma de que supere a
00:05:38Sonnet 4.5 en tareas de programación, como habéis visto en las pruebas de hoy.
00:05:42Entonces, ¿por qué los benchmarks lo hacen ver tan bien?
00:05:45Bueno, hay muchas posibilidades de que Qwen 3.5 fuera entrenado específicamente en preguntas
00:05:51de benchmarks como Sweebench Verified para que rinda bien en ellas.
00:05:55Pero un modelo como Sonnet 4.5 habría sido entrenado en un conjunto de datos mucho más amplio
00:06:01y robusto, lo que le permite manejar tareas más complejas.
00:06:03Sin mencionar que el modelo Qwen que probé tenía 35 mil millones de parámetros, pero solo usaba 3 mil millones
00:06:08durante la inferencia.
00:06:09Mientras que Anthropic no publica sus cifras, según las estimaciones, Sonnet 3
00:06:14pudo ser entrenado con 70 mil millones, y no hay duda de que Sonnet 4.5 tendría
00:06:18muchos más.
00:06:19Así que no es justo comparar estos modelos solo por los benchmarks.
00:06:23Siempre es importante investigar por cuenta propia y hacer tus propias evaluaciones.
00:06:26Al fin y al cabo, por algo Qwen 3.5 no estaba en la lista de modelos de OpenCode Go.
00:06:31Hablando de Qwen, acaban de lanzar su modelo TTS y Joss
00:06:35tiene un vídeo genial que cubre la clonación de voz, emociones y mucho más, el cual
00:06:39podéis ver aquí.

Key Takeaway

Aunque los benchmarks posicionan a Qwen 3.5 35B como un rival directo de Sonnet 4.5, las pruebas reales demuestran que el modelo de Anthropic sigue siendo superior en tareas de programación complejas y robustez técnica.

Highlights

Alibaba lanzó la serie Qwen 3.5

Timeline

Introducción y Contexto de Qwen 3.5

El narrador introduce los nuevos lanzamientos de Alibaba, destacando el modelo Qwen 3.5 de 400 mil millones de parámetros y la versión Medium de 35B. Se plantea la duda sobre si estos modelos realmente pueden superar a Sonnet 4.5 en un entorno local como una MacBook Pro. El video establece que, aunque Qwen promete eficiencia, el ecosistema de Anthropic ofrece una experiencia premium para desarrolladores. Para la comparativa, se utilizará OpenRouter para ejecutar Qwen debido a limitaciones de memoria en el hardware del autor. Esta sección establece las bases de la rivalidad entre modelos locales y propietarios en la nube.

Prueba 1: Creación de Lista de Tareas en React

Se solicita a ambos modelos crear una aplicación de lista de tareas utilizando React y Vite. Sonnet 4.5 genera una aplicación funcional con persistencia en almacenamiento local y un diseño limpio. Por otro lado, Qwen 3.5 inicialmente sorprende al incluir categorías y prioridades, organizando el código en componentes separados de forma más profesional. Sin embargo, se revela que Qwen utilizó una habilidad adicional en OpenCode llamada "superpower" para lograr ese resultado. Al repetir la prueba sin ayudas, Sonnet 4.5 se alza como el ganador por su consistencia directa.

Prueba 2: Sistema Solar con Three.js

Esta prueba intermedia consiste en desarrollar un sistema solar interactivo utilizando la librería Three.js para gráficos 3D. Sonnet 4.5 logra crear una escena funcional donde el usuario puede rotar, hacer zoom e interactuar con planetas para obtener información. En contraste, Qwen 3.5 falla por completo al entregar una página en blanco cargada de errores de consola que no pudo corregir. El proceso con Qwen resultó engorroso, con cuelgues del modelo y una estructura de archivos redundante e inútil. Esto subraya la brecha de razonamiento técnico entre ambos modelos en tareas de visualización de datos.

Prueba Final y Análisis de Benchmarks

La última tarea requiere modificar código existente para capturar tweets mediante una URL, donde Sonnet 4.5 vuelve a triunfar al solucionar errores de tiempo de espera. Qwen no logra resolver los problemas técnicos a pesar de varios intentos, lo que lleva al autor a cuestionar la validez de los benchmarks inflados. Se discute la posibilidad de que Qwen esté entrenado específicamente para aprobar exámenes como Sweebench, perdiendo utilidad en el mundo real. Además, se menciona la diferencia masiva en el conteo de parámetros estimado, donde Sonnet es significativamente más grande. El video concluye recomendando realizar evaluaciones propias y menciona los nuevos modelos de voz de Alibaba como punto de interés adicional.

Community Posts

View all posts