00:00:00A principios de este mes, Alibaba lanzó Qwen 3.5 con un modelo de 400 mil millones de parámetros y
00:00:05una versión "Max Thinking" que afirma superar en rendimiento a Opus 4.5, aunque requiere mucha potencia
00:00:11para ejecutarse localmente.
00:00:12Pero esta misma semana lanzaron la serie Medium de Qwen 3.5, modelos que son casi tan
00:00:17potentes como los Max y pueden ejecutarse localmente en una MacBook Pro moderna, afirmando
00:00:22que también superan a Sonnet 4.5, algo que no me creo. Así que suscríbete
00:00:27y pongamos a prueba estos dos modelos.
00:00:31La mayoría de los desarrolladores admiten que Sonnet 4.5 es un modelo excelente que funciona muy bien con Claude
00:00:35Code, Co-Work y toda la suite de Anthropic, ofreciendo una experiencia premium.
00:00:40Pero necesitas estar conectado para que funcionen y no son precisamente baratos.
00:00:44La serie Medium de Qwen 3.5 pretende cambiar eso al permitir ejecutar un
00:00:49modelo tan bueno como Sonnet 4.5 de forma local, y la gente en Twitter se está volviendo loca.
00:00:54Pero no estoy convencido de que sea realmente tan bueno como Sonnet 4.5.
00:00:58Así que voy a probar ambos modelos con una tarea fácil, una media y una difícil para ver cuál
00:01:02se desempeña mejor.
00:01:04Pero antes de empezar con las pruebas, tengo una pequeña confesión que hacer.
00:01:07En realidad no voy a ejecutar Qwen 3.5 localmente porque mi humilde MacBook Pro M1 no
00:01:12tiene la memoria unificada necesaria para realizar la inferencia correctamente.
00:01:15Así que usaré Qwen 3.5 35b en OpenRouter conectado a OpenCode y
00:01:21ejecutaré Sonnet 4.5 en Claude Code en "modo limpio", para que no use ninguna de mis
00:01:25habilidades, plugins o herramientas MCP.
00:01:27Empezaremos con algo sencillo: pedirles que creen una lista de tareas desde cero usando React y Vite.
00:01:32Si miramos lo que produjo Sonnet 4.5, vemos que tiene este color púrpura de IA.
00:01:36Puedo añadir una tarea y marcarla como completada, tengo la opción de borrar y
00:01:40si refresco la página, todo sigue ahí porque ha utilizado el almacenamiento local.
00:01:44Si miramos a Qwen 3.5, ambos tienen un estilo similar y no han sobrescrito el
00:01:48estilo predeterminado que viene con Vite.
00:01:51Pero, de nuevo, puedo añadir una tarea.
00:01:53Y aquí tenemos algunas opciones adicionales.
00:01:54Podemos elegir la categoría, creo que la prioridad y
00:01:59tal vez una fecha de vencimiento o para cuándo es la tarea.
00:02:02Puedo poner algo como "hacer la compra" y muestra la fecha, la prioridad y
00:02:06la categoría correspondiente, lo cual es genial.
00:02:08Echemos un vistazo al código.
00:02:09Este es el de Sonnet y, por aquí, está usando un useEffect, que supongo que es para el
00:02:13almacenamiento local de aquí abajo.
00:02:15Supongo que está bien, pero preferiría hacerlo de otra manera.
00:02:17Tenemos una función "add to-do" y otras por aquí para realizar acciones.
00:02:22Como alternar el estado o eliminar la tarea.
00:02:25Todo esto se ve bien.
00:02:26Algo que me ha sorprendido un poco es la parte de arriba que menciona el parseo de JSON.
00:02:32Parece que lo guarda en el almacenamiento local como JSON y luego lo procesa.
00:02:35Habría sido mejor tener este código en una función aparte para que, si quieres
00:02:38añadir más cosas, no sature la parte superior del código.
00:02:42Ahora, si miramos a Qwen, tenemos algunas categorías, y parece que no usa useEffect,
00:02:46lo cual es un punto a favor.
00:02:48Si bajamos, tenemos "handleSubmit", que es un nombre que prefiero usar.
00:02:51También tiene "handleUpdates", "handleDelete" y "handleToggleCompleted".
00:02:55Y algo que me gusta mucho es que puso los elementos de la lista en un componente separado.
00:02:59Así, en lugar de saturar el componente principal de la aplicación, creó
00:03:03un nuevo componente que se usa aquí abajo en la sección de la app, ya que hay varios
00:03:07elementos en la lista.
00:03:08Así que la victoria es para Qwen porque creó una lista de tareas con muchas más funciones.
00:03:13Pero después de estas pruebas, me di cuenta de que Qwen tenía activada la habilidad "superpower"
00:03:18en OpenCode.
00:03:19Lo ejecuté de nuevo sin esa habilidad y este fue el resultado.
00:03:23Así que supongo que la victoria es para Sonnet.
00:03:25Pasemos a la segunda prueba: construir un sistema solar interactivo usando
00:03:29React, Vite y Three.js.
00:03:31Claude hizo un trabajo mucho mejor al primer intento.
00:03:33Vale, le faltan algunos planetas, pero puedo hacer clic en los que hay.
00:03:37Hago clic en el Sol y obtengo información sobre él.
00:03:39Hago clic en Urano por aquí y también me da información.
00:03:44El movimiento en el sitio es impecable: puedo desplazarme, rotar, hacer zoom y
00:03:48demás.
00:03:49Y esto es lo que produjo Qwen.
00:03:50Sí, una página en blanco.
00:03:51Si miramos la consola, vemos un error que le pasé a Qwen
00:03:56varias veces, pero no fue capaz de solucionar.
00:03:58De hecho, todo el proceso de creación fue bastante engorroso.
00:04:01Qwen se quedó colgado varias veces, tuve que reiniciarlo y también le costó corregir
00:04:05errores una y otra vez.
00:04:06Sin mencionar que, si miramos los archivos generados por Qwen, tenemos un package.json,
00:04:10un package-lock y un directorio node_modules que no se usaron para nada porque el proyecto
00:04:15principal está dentro del directorio "solar system" con su propio package.json
00:04:20y su propio directorio node_modules.
00:04:21Así que para la segunda prueba, Claude también gana.
00:04:23Para la prueba final, pedí a los modelos que modificaran una base de código existente para capturar
00:04:28una pantalla de un tuit cuando el usuario publica la URL en la aplicación.
00:04:32Empezaremos con Claude, que generó esta página.
00:04:35Me dio la opción de cambiar el fondo y el relleno.
00:04:38La primera vez obtuve un error, el cual le pedí a Claude que corrigiera.
00:04:42Voy a copiar la URL de este tuit de JSON, la pego aquí y pulso en capturar.
00:04:47Tras unos segundos, obtenemos la imagen aquí abajo con la opción de descargarla.
00:04:51Y aquí está el resultado de Qwen con su propia página.
00:04:54De nuevo, copiaré este tuit y lo pegaré aquí.
00:04:56Dice "extraer vídeo" en lugar de "extraer captura", y empieza la captura, lo cual parece prometedor.
00:05:01Pero después de un rato, da un error de tiempo de espera de 60 segundos, similar al error
00:05:06que tuvimos con Sonnet.
00:05:07Le pedí a Qwen que lo arreglara y amplió el tiempo de espera, pero no solucionó el problema
00:05:11que lo causaba en primer lugar.
00:05:13Así que parece que Sonnet 4.5 gana las tres pruebas.
00:05:17Así que, aunque sobre el papel Qwen 3.5 35b debería superar a Sonnet 4.5, en pruebas reales
00:05:24no parece ser el caso.
00:05:26Y no me malinterpretéis, es impresionante que se pueda ejecutar un modelo de 35 mil o incluso
00:05:3127 mil millones de parámetros localmente en una MacBook moderna.
00:05:34Pero independientemente de lo que digan en Twitter, no hay forma de que supere a
00:05:38Sonnet 4.5 en tareas de programación, como habéis visto en las pruebas de hoy.
00:05:42Entonces, ¿por qué los benchmarks lo hacen ver tan bien?
00:05:45Bueno, hay muchas posibilidades de que Qwen 3.5 fuera entrenado específicamente en preguntas
00:05:51de benchmarks como Sweebench Verified para que rinda bien en ellas.
00:05:55Pero un modelo como Sonnet 4.5 habría sido entrenado en un conjunto de datos mucho más amplio
00:06:01y robusto, lo que le permite manejar tareas más complejas.
00:06:03Sin mencionar que el modelo Qwen que probé tenía 35 mil millones de parámetros, pero solo usaba 3 mil millones
00:06:08durante la inferencia.
00:06:09Mientras que Anthropic no publica sus cifras, según las estimaciones, Sonnet 3
00:06:14pudo ser entrenado con 70 mil millones, y no hay duda de que Sonnet 4.5 tendría
00:06:18muchos más.
00:06:19Así que no es justo comparar estos modelos solo por los benchmarks.
00:06:23Siempre es importante investigar por cuenta propia y hacer tus propias evaluaciones.
00:06:26Al fin y al cabo, por algo Qwen 3.5 no estaba en la lista de modelos de OpenCode Go.
00:06:31Hablando de Qwen, acaban de lanzar su modelo TTS y Joss
00:06:35tiene un vídeo genial que cubre la clonación de voz, emociones y mucho más, el cual
00:06:39podéis ver aquí.