¿Es este el modelo de IA MÁS RÁPIDO del mundo?!! (Xiaomi MiMo V2.5 Pro UltraSpeed)
BBetter Stack
컴퓨터/소프트웨어게임/e스포츠가전제품/카메라
Transcript
00:00:00Vaya, ShowMe, ya saben, la empresa china que fabrica teléfonos, acaba de crear un modelo de IA que
00:00:05podría ser el más rápido del mundo. Se llama ShowMe Mimo V2.5 Ultra Speed y es realmente
00:00:13alucinante. En el video de hoy vamos a echar un vistazo a este modelo, ver cómo funciona y de hecho
00:00:18logré conseguir acceso anticipado a este modelo, así que también lo probaremos con algunos ejemplos interesantes
00:00:24para ver qué tan rápido es realmente. Será muy divertido, así que vamos a ello.
00:00:30Antes de echar un vistazo bajo el capó de este modelo, veamos qué diferencias masivas estamos realmente
00:00:39manejando aquí. En modelos de frontera como GPT 5.5 o Claude 4 Opus, a menudo te enfrentas a
00:00:46masivos retrasos de razonamiento, logrando apenas unos 50 o 60 tokens por segundo. Eso no está mal, pero es
00:00:54algo lento. Pero el nuevo modelo Mimo Ultra Speed de ShowMe alcanza más de 1000 tokens por segundo
00:01:00y lo que es aún más loco es el hecho de que este modelo también es masivo en tamaño. Es un modelo
00:01:07de mezcla de expertos de 1 billón de parámetros. Así que quizás pienses, vale, probablemente estén usando algún tipo de
00:01:13configuración de hardware personalizada súper avanzada para esto. Pues en realidad no del todo. ShowMe se asoció con su
00:01:19socio de sistemas Tile RT y lo lograron usando solo un servidor estándar con ocho
00:01:25GPU comerciales. Pero si esa no es la respuesta, entonces surge la pregunta, ¿cómo fuerzas a un modelo de un billón
00:01:31de parámetros a escupir texto a velocidades de microsegundos en un hardware estándar? Pues se les ocurrió
00:01:39algo que llaman codesarrollo extremo de sistema de modelos. Atacaron el cuello de botella de la latencia
00:01:44desde tres ángulos diferentes simultáneamente. Primero, optimizaron el ancho de banda de la memoria. Mover un billón
00:01:50de parámetros a través de la memoria de la GPU durante la fase de generación de texto crea atascos masivos. Para arreglar esto,
00:01:57ShowMe usó cuantización MXFP4. Pero debido a que la compresión de 4 bits normalmente puede hacer que una IA
00:02:04sea menos precisa, usaron entrenamiento consciente de cuantización o QAT y mantuvieron las capas de enrutamiento principales a una mayor
00:02:12precisión. Esto alivió la presión de la memoria mientras mantenía la inteligencia del modelo casi idéntica
00:02:18a la versión sin comprimir. Segundo, cambiaron fundamentalmente la forma en que el modelo predice las palabras. Así que la
00:02:25decodificación especulativa estándar funciona haciendo que un modelo borrador diminuto adivine algunas palabras por adelantado y luego el modelo principal masivo
00:02:32comprueba las matemáticas. Pero ShowMe hizo algo diferente aquí con lo que llaman D-Flash. En lugar de adivinar un
00:02:39token a la vez, predice un bloque completo de tokens ocultos todos a la vez en un paso hacia adelante paralelo. Y
00:02:46a través de pruebas, descubrieron que cuando lo usas para tareas de programación, el modelo principal realmente mantiene un
00:02:52promedio de 6.3 de cada ocho tokens que D-Flash adivina. Así que esencialmente permite al modelo dar
00:02:58saltos masivos de ocho tokens a la vez en lugar de dar pasos de bebé. Y tercero, usan el motor especial
00:03:04que resuelve un cuello de botella de hardware realmente molesto. Así que cuando estás impulsando mil tokens por segundo,
00:03:11las GPU estándar en realidad no pueden mantenerse al día con la lógica de instrucciones. Normalmente, una GPU lanza una operación
00:03:17matemática, la termina, limpia la memoria y luego espera para lanzar la siguiente. E incluso aunque estas
00:03:23pausas solo duran microsegundos, matan completamente tu impulso. Para arreglar eso, TileRT construyó un motor persistente
00:03:30kernel que simplemente se sienta dentro de la GPU y nunca se va. Usaron un truco llamado especialización de warp
00:03:37para asignar roles permanentes a diferentes partes del hardware. Mientras una sección está moviendo datos,
00:03:42otra está ejecutando las matemáticas, y una tercera está manejando la comunicación, todo exactamente al mismo tiempo. Así que el
00:03:48pipeline literalmente nunca deja de moverse. Y esto es tan interesante porque acabo de hacer un video sobre difusión
00:03:55gemma, que también es súper rápida, pero aborda el mismo problema de una manera muy diferente. Así que revisa
00:04:00ese video si te interesa. Y eso, amigos míos, es cómo ShowMe llega a velocidades de 1000 tokens por segundo,
00:04:07supuestamente. Pero ahora probémoslo y veamos si esta promesa se cumple. Así que para mi primera prueba,
00:04:14decidí tomar una de las preguntas difíciles de LeetCode y pasársela al modelo. Y fue increíblemente rápido.
00:04:20¿Qué tan salvaje es eso? Además, como podemos ver aquí, alcanzó un pico de 3451 tokens por segundo, lo cual es absolutamente de locos.
00:04:29Ahora, puede haber una posibilidad de que esta pregunta de LeetCode fuera parte de los datos de entrenamiento del modelo.
00:04:34Así que, por muy impresionante que parezca, probablemente no sea una comparación justa. Así que pasemos a algo más sofisticado.
00:04:41A continuación, le pedí que construyera un panel de finanzas personales UI simple en un solo archivo HTML sin
00:04:48bibliotecas externas y nada demasiado elegante. Y en esta prueba, ahora podíamos ver realmente cuán increíblemente
00:04:54performante es. Promediaba unos 700 tokens por segundo para la parte de razonamiento y unos 1000 tokens
00:05:02por segundo para las operaciones de salida. Y al modelo le tomó solo 65 segundos completar la tarea.
00:05:09Y creo que el resultado es bastante bueno. Aunque algunos de los botones no funcionan y algunas de
00:05:14las acciones están rotas, el diseño en su conjunto es bastante bueno. Quiero decir, no está mal para una tarea de un minuto.
00:05:21Así que entonces decidí desafiar al modelo a construir algo aún más sofisticado. Le pedí que
00:05:26construyera una página web de explicación matemática al estilo Khan Academy mostrando 10 conceptos matemáticos populares para ver cuán
00:05:34complejo de sitio web podemos producir realmente aquí. Y aquí es donde las cosas empezaron a ponerse un poco difíciles.
00:05:40Probé esta prueba dos veces y ambas veces, después de unos dos o tres minutos, el modelo simplemente dejó de
00:05:45generar y se congeló por completo. Así que asumí que con esta tarea, alcancé el límite de contexto del modelo o
00:05:51quizás ShowMe ha puesto un limitador de tasa de algún tipo. Así que entonces decidí simplificar un poco la tarea preguntándole
00:05:58que diseñara una página web con solo cinco conceptos matemáticos. Y esta vez finalmente funcionó. Logró
00:06:04terminar la tarea en 75 segundos. Y el resultado es realmente bastante bueno. Y los tres primeros widgets de conceptos
00:06:10matemáticos son realmente funcionales, pero todo lo que viene después de eso está roto, no es funcional o está vacío.
00:06:17Así que no sé qué pasó exactamente aquí. Quizás el modelo descartó parte de su contexto durante la fase de razonamiento
00:06:23fase, pero no obstante, creo que es un resultado bastante bueno, especialmente teniendo en consideración que
00:06:29estábamos promediando 500 tokens por segundo durante la fase de razonamiento. Y para mi última prueba, decidí
00:06:34hacer algo un poco más divertido. Simplemente le pedí con esta oración muy corta que construyera un clon de Subway Surfers
00:06:41usando Three.js, y realmente logró construir un clon de Subway Surfers completamente funcional en solo 50
00:06:49segundos. Ahora eso es una locura. Debo decir que, aunque es funcional, como pueden ver aquí, no
00:06:55incluye obstáculos ni monedas ni nada de eso. Así que es un poco aburrido. Así que decidí
00:07:01darle una petición de seguimiento para arreglar estos problemas menores. Y después de dos pasadas, logró exitosamente
00:07:07añadir algunas monedas y algunos obstáculos. Y honestamente, cuando lo estaba probando, esta fue una demostración impecable.
00:07:14La funcionalidad estaba ahí. Todo estaba funcionando. Incluso estaba guardando mi puntuación alta después de cada ronda.
00:07:20Así que esta demostración en particular realmente me sorprendió de una manera muy positiva. Estoy seguro de que hoy en día todos podemos
00:07:26construir clones de Subway Surfers con otros modelos también. Pero el hecho de que pudiera obtener un prototipo funcional,
00:07:32que no es completamente terrible y que es realmente divertido de jugar y todo eso en solo 50 segundos con
00:07:39algunas peticiones de seguimiento, eso es bastante impresionante. Así que, como todos vimos en las pruebas, el modelo logró
00:07:45alcanzar una velocidad récord de más de 3000 tokens por segundo. Así que este es, de hecho, el modelo más rápido
00:07:52que he visto jamás. Y en cuanto a las salidas, quiero decir, sí, claro. Algunas están rotas. Algunas están
00:07:58a medio hacer. Seguramente no es ningún Claude Opus o GPT 5.5. Pero estoy seguro de que los modelos de Xiaomi definitivamente seguirán
00:08:06mejorando con el tiempo. Así que será muy interesante ver qué se les ocurre en el futuro.
00:08:12Así que ahí lo tienen, amigos. Eso es Xiaomi Mimo V2.5 Ultra Speed en pocas palabras. Así que, ¿qué opinan
00:08:18sobre este modelo? ¿Están impresionados? ¿Decepcionados? ¿Indiferentes? Háganoslo saber en la sección de comentarios a continuación.
00:08:24Y amigos, si les gustan este tipo de desgloses técnicos, por favor háganmelo saber aplastando ese
00:08:29botón de me gusta debajo del video. Y también no olviden suscribirse a nuestro canal.
00:08:33Este ha sido Andrus de BetterStack, y los veré en los próximos videos.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video