¿Es este el modelo de IA MÁS RÁPIDO del mundo?!! (Xiaomi MiMo V2.5 Pro UltraSpeed)

BBetter Stack
Computing/SoftwareVideo & Computer GamesConsumer Electronics

Transcript

00:00:00Vaya, ShowMe, ya saben, la empresa china que fabrica teléfonos, acaba de crear un modelo de IA que
00:00:05podría ser el más rápido del mundo. Se llama ShowMe Mimo V2.5 Ultra Speed y es realmente
00:00:13alucinante. En el video de hoy vamos a echar un vistazo a este modelo, ver cómo funciona y de hecho
00:00:18logré conseguir acceso anticipado a este modelo, así que también lo probaremos con algunos ejemplos interesantes
00:00:24para ver qué tan rápido es realmente. Será muy divertido, así que vamos a ello.
00:00:30Antes de echar un vistazo bajo el capó de este modelo, veamos qué diferencias masivas estamos realmente
00:00:39manejando aquí. En modelos de frontera como GPT 5.5 o Claude 4 Opus, a menudo te enfrentas a
00:00:46masivos retrasos de razonamiento, logrando apenas unos 50 o 60 tokens por segundo. Eso no está mal, pero es
00:00:54algo lento. Pero el nuevo modelo Mimo Ultra Speed de ShowMe alcanza más de 1000 tokens por segundo
00:01:00y lo que es aún más loco es el hecho de que este modelo también es masivo en tamaño. Es un modelo
00:01:07de mezcla de expertos de 1 billón de parámetros. Así que quizás pienses, vale, probablemente estén usando algún tipo de
00:01:13configuración de hardware personalizada súper avanzada para esto. Pues en realidad no del todo. ShowMe se asoció con su
00:01:19socio de sistemas Tile RT y lo lograron usando solo un servidor estándar con ocho
00:01:25GPU comerciales. Pero si esa no es la respuesta, entonces surge la pregunta, ¿cómo fuerzas a un modelo de un billón
00:01:31de parámetros a escupir texto a velocidades de microsegundos en un hardware estándar? Pues se les ocurrió
00:01:39algo que llaman codesarrollo extremo de sistema de modelos. Atacaron el cuello de botella de la latencia
00:01:44desde tres ángulos diferentes simultáneamente. Primero, optimizaron el ancho de banda de la memoria. Mover un billón
00:01:50de parámetros a través de la memoria de la GPU durante la fase de generación de texto crea atascos masivos. Para arreglar esto,
00:01:57ShowMe usó cuantización MXFP4. Pero debido a que la compresión de 4 bits normalmente puede hacer que una IA
00:02:04sea menos precisa, usaron entrenamiento consciente de cuantización o QAT y mantuvieron las capas de enrutamiento principales a una mayor
00:02:12precisión. Esto alivió la presión de la memoria mientras mantenía la inteligencia del modelo casi idéntica
00:02:18a la versión sin comprimir. Segundo, cambiaron fundamentalmente la forma en que el modelo predice las palabras. Así que la
00:02:25decodificación especulativa estándar funciona haciendo que un modelo borrador diminuto adivine algunas palabras por adelantado y luego el modelo principal masivo
00:02:32comprueba las matemáticas. Pero ShowMe hizo algo diferente aquí con lo que llaman D-Flash. En lugar de adivinar un
00:02:39token a la vez, predice un bloque completo de tokens ocultos todos a la vez en un paso hacia adelante paralelo. Y
00:02:46a través de pruebas, descubrieron que cuando lo usas para tareas de programación, el modelo principal realmente mantiene un
00:02:52promedio de 6.3 de cada ocho tokens que D-Flash adivina. Así que esencialmente permite al modelo dar
00:02:58saltos masivos de ocho tokens a la vez en lugar de dar pasos de bebé. Y tercero, usan el motor especial
00:03:04que resuelve un cuello de botella de hardware realmente molesto. Así que cuando estás impulsando mil tokens por segundo,
00:03:11las GPU estándar en realidad no pueden mantenerse al día con la lógica de instrucciones. Normalmente, una GPU lanza una operación
00:03:17matemática, la termina, limpia la memoria y luego espera para lanzar la siguiente. E incluso aunque estas
00:03:23pausas solo duran microsegundos, matan completamente tu impulso. Para arreglar eso, TileRT construyó un motor persistente
00:03:30kernel que simplemente se sienta dentro de la GPU y nunca se va. Usaron un truco llamado especialización de warp
00:03:37para asignar roles permanentes a diferentes partes del hardware. Mientras una sección está moviendo datos,
00:03:42otra está ejecutando las matemáticas, y una tercera está manejando la comunicación, todo exactamente al mismo tiempo. Así que el
00:03:48pipeline literalmente nunca deja de moverse. Y esto es tan interesante porque acabo de hacer un video sobre difusión
00:03:55gemma, que también es súper rápida, pero aborda el mismo problema de una manera muy diferente. Así que revisa
00:04:00ese video si te interesa. Y eso, amigos míos, es cómo ShowMe llega a velocidades de 1000 tokens por segundo,
00:04:07supuestamente. Pero ahora probémoslo y veamos si esta promesa se cumple. Así que para mi primera prueba,
00:04:14decidí tomar una de las preguntas difíciles de LeetCode y pasársela al modelo. Y fue increíblemente rápido.
00:04:20¿Qué tan salvaje es eso? Además, como podemos ver aquí, alcanzó un pico de 3451 tokens por segundo, lo cual es absolutamente de locos.
00:04:29Ahora, puede haber una posibilidad de que esta pregunta de LeetCode fuera parte de los datos de entrenamiento del modelo.
00:04:34Así que, por muy impresionante que parezca, probablemente no sea una comparación justa. Así que pasemos a algo más sofisticado.
00:04:41A continuación, le pedí que construyera un panel de finanzas personales UI simple en un solo archivo HTML sin
00:04:48bibliotecas externas y nada demasiado elegante. Y en esta prueba, ahora podíamos ver realmente cuán increíblemente
00:04:54performante es. Promediaba unos 700 tokens por segundo para la parte de razonamiento y unos 1000 tokens
00:05:02por segundo para las operaciones de salida. Y al modelo le tomó solo 65 segundos completar la tarea.
00:05:09Y creo que el resultado es bastante bueno. Aunque algunos de los botones no funcionan y algunas de
00:05:14las acciones están rotas, el diseño en su conjunto es bastante bueno. Quiero decir, no está mal para una tarea de un minuto.
00:05:21Así que entonces decidí desafiar al modelo a construir algo aún más sofisticado. Le pedí que
00:05:26construyera una página web de explicación matemática al estilo Khan Academy mostrando 10 conceptos matemáticos populares para ver cuán
00:05:34complejo de sitio web podemos producir realmente aquí. Y aquí es donde las cosas empezaron a ponerse un poco difíciles.
00:05:40Probé esta prueba dos veces y ambas veces, después de unos dos o tres minutos, el modelo simplemente dejó de
00:05:45generar y se congeló por completo. Así que asumí que con esta tarea, alcancé el límite de contexto del modelo o
00:05:51quizás ShowMe ha puesto un limitador de tasa de algún tipo. Así que entonces decidí simplificar un poco la tarea preguntándole
00:05:58que diseñara una página web con solo cinco conceptos matemáticos. Y esta vez finalmente funcionó. Logró
00:06:04terminar la tarea en 75 segundos. Y el resultado es realmente bastante bueno. Y los tres primeros widgets de conceptos
00:06:10matemáticos son realmente funcionales, pero todo lo que viene después de eso está roto, no es funcional o está vacío.
00:06:17Así que no sé qué pasó exactamente aquí. Quizás el modelo descartó parte de su contexto durante la fase de razonamiento
00:06:23fase, pero no obstante, creo que es un resultado bastante bueno, especialmente teniendo en consideración que
00:06:29estábamos promediando 500 tokens por segundo durante la fase de razonamiento. Y para mi última prueba, decidí
00:06:34hacer algo un poco más divertido. Simplemente le pedí con esta oración muy corta que construyera un clon de Subway Surfers
00:06:41usando Three.js, y realmente logró construir un clon de Subway Surfers completamente funcional en solo 50
00:06:49segundos. Ahora eso es una locura. Debo decir que, aunque es funcional, como pueden ver aquí, no
00:06:55incluye obstáculos ni monedas ni nada de eso. Así que es un poco aburrido. Así que decidí
00:07:01darle una petición de seguimiento para arreglar estos problemas menores. Y después de dos pasadas, logró exitosamente
00:07:07añadir algunas monedas y algunos obstáculos. Y honestamente, cuando lo estaba probando, esta fue una demostración impecable.
00:07:14La funcionalidad estaba ahí. Todo estaba funcionando. Incluso estaba guardando mi puntuación alta después de cada ronda.
00:07:20Así que esta demostración en particular realmente me sorprendió de una manera muy positiva. Estoy seguro de que hoy en día todos podemos
00:07:26construir clones de Subway Surfers con otros modelos también. Pero el hecho de que pudiera obtener un prototipo funcional,
00:07:32que no es completamente terrible y que es realmente divertido de jugar y todo eso en solo 50 segundos con
00:07:39algunas peticiones de seguimiento, eso es bastante impresionante. Así que, como todos vimos en las pruebas, el modelo logró
00:07:45alcanzar una velocidad récord de más de 3000 tokens por segundo. Así que este es, de hecho, el modelo más rápido
00:07:52que he visto jamás. Y en cuanto a las salidas, quiero decir, sí, claro. Algunas están rotas. Algunas están
00:07:58a medio hacer. Seguramente no es ningún Claude Opus o GPT 5.5. Pero estoy seguro de que los modelos de Xiaomi definitivamente seguirán
00:08:06mejorando con el tiempo. Así que será muy interesante ver qué se les ocurre en el futuro.
00:08:12Así que ahí lo tienen, amigos. Eso es Xiaomi Mimo V2.5 Ultra Speed en pocas palabras. Así que, ¿qué opinan
00:08:18sobre este modelo? ¿Están impresionados? ¿Decepcionados? ¿Indiferentes? Háganoslo saber en la sección de comentarios a continuación.
00:08:24Y amigos, si les gustan este tipo de desgloses técnicos, por favor háganmelo saber aplastando ese
00:08:29botón de me gusta debajo del video. Y también no olviden suscribirse a nuestro canal.
00:08:33Este ha sido Andrus de BetterStack, y los veré en los próximos videos.

Key Takeaway

El modelo ShowMe Mimo V2.5 Ultra Speed logra una velocidad récord de más de 3000 tokens por segundo mediante una arquitectura de mezcla de expertos, cuantización avanzada y un motor de hardware persistente que elimina los cuellos de botella de latencia.

Highlights

  • El modelo ShowMe Mimo V2.5 Ultra Speed alcanza velocidades superiores a 1000 tokens por segundo en servidores estándar con ocho GPU comerciales.

  • La arquitectura emplea una configuración de mezcla de expertos de 1 billón de parámetros.

  • La cuantización MXFP4 combinada con el entrenamiento consciente de cuantización (QAT) reduce drásticamente el uso de memoria sin sacrificar la inteligencia del modelo.

  • El mecanismo D-Flash permite al modelo predecir bloques de ocho tokens en paralelo, saltando el proceso tradicional de generación uno a uno.

  • Un motor de kernel persistente asigna tareas específicas de hardware de forma permanente, eliminando los microsegundos de pausa entre operaciones matemáticas.

  • El modelo generó un clon funcional de Subway Surfers en 50 segundos tras recibir instrucciones iniciales y peticiones de seguimiento.

Timeline

Arquitectura y optimización de hardware

  • El modelo utiliza una arquitectura de mezcla de expertos con 1 billón de parámetros.
  • La cuantización MXFP4 junto al entrenamiento QAT mantiene la precisión del modelo comprimido.
  • El método D-Flash predice bloques completos de tokens en lugar de elementos individuales.
  • Un motor de kernel persistente elimina las pausas operativas de las GPU.

El rendimiento extremo se logra atacando la latencia en tres niveles simultáneos. Se optimiza el ancho de banda mediante cuantización técnica, se acelera la predicción con saltos de ocho tokens gracias a D-Flash y se garantiza el movimiento continuo de datos mediante la especialización de warp, donde distintas partes del hardware ejecutan simultáneamente matemáticas, comunicación y movimiento de datos.

Pruebas de rendimiento y generación

  • Una prueba de LeetCode alcanzó un pico de 3451 tokens por segundo.
  • La creación de una interfaz de finanzas personales tomó 65 segundos con una velocidad constante de 1000 tokens por segundo.
  • Tareas de mayor complejidad, como un sitio web de conceptos matemáticos, mostraron limitaciones de contexto al superar los dos minutos de generación.
  • Un clon funcional de Subway Surfers se completó en 50 segundos con soporte para persistencia de puntuaciones.

Las pruebas demostraron una alta capacidad de respuesta, aunque con resultados variables en complejidad. Mientras que las tareas de programación y lógica básica operan a velocidades extremadamente altas, la generación de contenido extenso tiende a sufrir congelamientos o errores, sugiriendo posibles límites de contexto o restricciones impuestas por el sistema en tareas de larga duración.

Evaluación final del modelo

  • El modelo se consolida como el más rápido registrado hasta el momento.
  • La calidad del código generado es funcional, aunque presenta inestabilidades en tareas de alta complejidad.
  • El potencial de mejora iterativa sitúa a este modelo como una base prometedora frente a competidores establecidos.

A pesar de las limitaciones en la finalización de algunas tareas complejas, la velocidad del modelo supera ampliamente a los estándares actuales. La capacidad de obtener prototipos funcionales y divertidos en menos de un minuto destaca la viabilidad de este enfoque para el desarrollo rápido de software.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video