Est-ce le modèle d'IA le PLUS RAPIDE au monde ?!! (Xiaomi MiMo V2.5 Pro UltraSpeed)

BBetter Stack
Computing/SoftwareVideo & Computer GamesConsumer Electronics

Transcript

00:00:00Oh là là, ShowMe, vous savez cette entreprise chinoise qui fabrique des téléphones, vient de créer un modèle d'IA qui
00:00:05pourrait être le plus rapide au monde. Il s'appelle ShowMe Mimo V2.5 Ultra Speed et c'est vraiment
00:00:13époustouflant. Dans la vidéo d'aujourd'hui, nous allons examiner ce modèle, voir comment il fonctionne et j'ai
00:00:18réussi à obtenir un accès anticipé à ce modèle, donc nous allons aussi le tester avec quelques exemples intéressants
00:00:24pour voir à quel point il est réellement rapide. Ça va être très amusant, alors plongeons dedans.
00:00:30Avant de regarder sous le capot de ce modèle, voyons quelles sont les différences massives auxquelles nous sommes
00:00:39confrontés ici. Sur les modèles de pointe comme GPT 5.5 ou Claude 4 Opus, vous luttez souvent contre
00:00:46des latences de raisonnement massives, plafonnant à environ 50 ou 60 tokens par seconde. Ce n'est pas mauvais, mais c'est
00:00:54plutôt lent. Mais le nouveau modèle Mimo Ultra Speed de ShowMe atteint plus de 1000 tokens par seconde
00:01:00et ce qui est encore plus fou, c'est que ce modèle est aussi massif en taille. C'est un modèle
00:01:07mélange d'experts à 1 000 milliards de paramètres. Donc vous vous dites peut-être, ils utilisent probablement une sorte de
00:01:13configuration matérielle personnalisée super avancée pour cela. Eh bien, pas tout à fait. ShowMe a fait équipe avec leur
00:01:19partenaire système Tile RT et ils ont réussi cela en utilisant simplement un serveur standard avec huit
00:01:25GPU grand public. Mais si ce n'est pas la réponse, cela soulève la question : comment forcer un modèle à mille
00:01:31milliards de paramètres à cracher du texte à des vitesses de microsecondes sur du matériel standard ? Eh bien, ils ont imaginé
00:01:39quelque chose qu'ils appellent la co-conception extrême modèle-système. Ils ont attaqué le goulot d'étranglement de la latence
00:01:44sous trois angles différents simultanément. Premièrement, ils ont optimisé la bande passante mémoire. Déplacer 1 000 milliards
00:01:50de paramètres via la mémoire GPU pendant la phase de génération de texte crée des embouteillages massifs. Pour régler ça,
00:01:57ShowMe a utilisé la quantification MXFP4. Mais comme la compression 4 bits peut normalement rendre une IA
00:02:04moins précise, ils ont utilisé l'entraînement conscient de la quantification ou QAT et ils ont gardé les couches de routage principales à une
00:02:12précision plus élevée. Cela a allégé la pression sur la mémoire tout en gardant l'intelligence du modèle presque identique
00:02:18à la version non compressée. Deuxièmement, ils ont finalement changé la façon dont le modèle prédit les mots. Donc le
00:02:25décodage spéculatif standard fonctionne en ayant un minuscule modèle brouillon qui devine quelques mots à l'avance, puis le modèle principal
00:02:32massif vérifie les calculs. Mais ShowMe a fait quelque chose de différent ici avec ce qu'ils appellent D-Flash. Au lieu de deviner un
00:02:39token à la fois, il prédit tout un bloc de tokens cachés d'un coup dans une passe avant parallèle. Et
00:02:46grâce aux tests, ils ont découvert que lorsque vous l'utilisez pour des tâches de codage, le modèle principal garde en fait
00:02:52une moyenne de 6,3 sur huit tokens que D-Flash devine. Donc, cela permet essentiellement au modèle de faire
00:02:58des bonds massifs de huit tokens à la fois au lieu de faire des petits pas. Et troisièmement, ils utilisent un
00:03:04moteur spécial qui résout un goulot d'étranglement matériel vraiment ennuyeux. Donc, quand vous poussez un millier de tokens par seconde,
00:03:11les GPU standard ne peuvent pas suivre la logique d'instruction. Normalement, un GPU lance une opération
00:03:17mathématique, la termine, libère la mémoire et attend ensuite pour lancer la suivante. Et même si ces
00:03:23pauses ne durent que des microsecondes, elles tuent complètement votre élan. Pour corriger cela, TileRT a construit un
00:03:30moteur noyau persistant qui reste juste à l'intérieur du GPU et ne le quitte jamais. Ils ont utilisé une astuce appelée spécialisation de warp
00:03:37pour assigner des rôles permanents à différentes parties du matériel. Pendant qu'une section déplace des données,
00:03:42une autre exécute les calculs, et une troisième gère la communication, tout cela exactement en même temps. Donc le
00:03:48pipeline ne s'arrête littéralement jamais de bouger. Et c'est tellement intéressant parce que je viens de faire une vidéo sur diffusion
00:03:55gemma, qui est aussi super rapide, mais qui aborde le même problème d'une manière très différente. Donc regardez
00:04:00cette vidéo si vous êtes intéressé. Et c'est ça les amis, comment ShowMe atteint des vitesses de 1000 tokens par seconde,
00:04:07soi-disant. Mais maintenant, testons-le réellement et voyons si cette promesse tient la route. Alors pour mon premier test,
00:04:14j'ai décidé de prendre une des questions difficiles de LeetCode et de la soumettre au modèle. Et c'était incroyablement rapide.
00:04:20À quel point c'est fou ? De plus, comme nous pouvons le voir ici, il a atteint un pic à 3451 tokens par seconde, ce qui est absolument dingue.
00:04:29Maintenant, il se peut qu'il y ait une possibilité que cette question LeetCode fasse partie des données d'entraînement du modèle.
00:04:34Donc, aussi impressionnant que cela puisse paraître, ce n'est probablement pas une comparaison équitable. Passons donc à quelque chose de plus sophistiqué.
00:04:41Ensuite, je lui ai demandé de construire une simple interface utilisateur de tableau de bord de finances personnelles dans un seul fichier HTML sans
00:04:48bibliothèques externes et rien de trop fantaisiste. Et dans ce test, nous pouvions maintenant réellement voir à quel point
00:04:54il est incroyablement performant. Il tournait à environ 700 tokens par seconde pour la partie raisonnement et environ 1000 tokens
00:05:02par seconde pour les opérations de sortie. Et il a fallu seulement 65 secondes au modèle pour accomplir la tâche.
00:05:09Et je pense que le résultat est plutôt bon. Même si certains boutons ne fonctionnent pas et certaines
00:05:14actions sont cassées, la conception dans l'ensemble est plutôt bonne. Je veux dire, pas mal pour une tâche d'une minute.
00:05:21Alors j'ai décidé de mettre le modèle au défi de construire quelque chose d'encore plus sophistiqué. Je lui ai demandé de
00:05:26créer une page web explicative de mathématiques style Khan Academy présentant 10 concepts mathématiques populaires pour voir à quel point
00:05:34complexe d'un site web nous pouvons réellement produire ici. Et c'est là que les choses ont commencé à devenir un peu difficiles.
00:05:40J'ai essayé ce test deux fois et les deux fois après environ deux ou trois minutes, le modèle a juste arrêté
00:05:45de générer et s'est complètement figé. Donc j'ai supposé qu'avec cette tâche, j'ai atteint la limite de contexte du modèle ou
00:05:51peut-être que ShowMe a mis un limiteur de débit de quelque sorte. Alors j'ai décidé de simplifier un peu la tâche en lui demandant
00:05:58de concevoir une page web avec seulement cinq concepts mathématiques. Et cette fois, ça a enfin fonctionné. Il a réussi
00:06:04à finir la tâche en 75 secondes. Et le résultat est en fait assez sympa. Et les trois premiers widgets de concepts
00:06:10mathématiques sont en fait fonctionnels, mais tout ce qui vient après est cassé, non fonctionnel ou vide.
00:06:17Donc je ne sais pas ce qui s'est exactement passé ici. Peut-être que le modèle a perdu une partie de son contexte pendant la phase
00:06:23de raisonnement, mais néanmoins, je pense que c'est un résultat plutôt bon, surtout si l'on prend en considération que
00:06:29nous étions à une moyenne de 500 tokens par seconde pendant la phase de raisonnement. Et pour mon dernier test, j'ai décidé de
00:06:34faire quelque chose d'un peu plus amusant. J'ai simplement invité cette très courte phrase à construire un clone de Subway Surfers
00:06:41en utilisant Three.js, et il a en fait réussi à construire un clone de Subway Surfers entièrement fonctionnel en seulement 50
00:06:49secondes. Maintenant, c'est dingue. Je dois dire que bien qu'il soit fonctionnel, comme vous pouvez le voir ici, il
00:06:55n'inclut aucun obstacle ou pièce ou quoi que ce soit d'autre. Donc c'est un peu ennuyeux. Alors j'ai ensuite décidé de
00:07:01lui donner une suite pour corriger ces problèmes mineurs. Et après deux passages, il a réussi à ajouter
00:07:07avec succès quelques pièces et quelques obstacles. Et honnêtement, quand je l'ai testé, c'était une démo sans défaut.
00:07:14La fonctionnalité était là. Tout fonctionnait. Il sauvegardait même mon meilleur score après chaque manche.
00:07:20Donc cette démo particulière m'a vraiment surpris de manière très positive. Je suis sûr qu'aujourd'hui, nous pouvons tous
00:07:26construire des clones de Subway Surfers avec d'autres modèles également. Mais le fait que je puisse obtenir un prototype fonctionnel,
00:07:32qui n'est pas complètement terrible et qui est en fait amusant à jouer, et tout ça en seulement 50 secondes avec
00:07:39quelques prompts de suivi, c'est assez impressionnant. Donc, comme nous l'avons tous vu dans les tests, le modèle a réussi à
00:07:45atteindre une vitesse record de plus de 3000 tokens par seconde. Donc, c'est effectivement le modèle absolument le plus rapide
00:07:52que j'aie jamais vu. Et pour ce qui est des résultats, je veux dire, oui, bien sûr. Certains sont cassés. Certains
00:07:58sont à moitié finis. Ce n'est sûrement pas Claude Opus ou GPT 5.5. Mais je suis sûr que les modèles de Xiaomi continueront
00:08:06définitivement à s'améliorer avec le temps. Donc il sera très intéressant de voir ce qu'ils imagineront dans le futur.
00:08:12Alors voilà, les amis. C'est le Xiaomi Mimo V2.5 Ultra Speed en résumé. Alors, que pensez-vous
00:08:18de ce modèle ? Êtes-vous impressionné ? Déçu ? Indifférent ? Faites-le-nous savoir dans la section des commentaires ci-dessous.
00:08:24Et les amis, si vous aimez ce genre de breakdowns techniques, faites-le-moi savoir en fracassant ce
00:08:29bouton « j'aime » sous la vidéo. Et n'oubliez pas non plus de vous abonner à notre chaîne.
00:08:33C'était Andrus de BetterStack, et je vous verrai dans les prochaines vidéos.

Key Takeaway

Le modèle Xiaomi Mimo V2.5 Ultra Speed redéfinit les limites de latence des grands modèles de langage en atteignant plus de 1 000 tokens par seconde grâce à une co-conception matérielle-logicielle radicale et une prédiction parallèle de blocs de tokens.

Highlights

  • Le modèle Mimo V2.5 Ultra Speed de Xiaomi atteint des vitesses dépassant 1 000 tokens par seconde, avec des pics observés à 3 451 tokens par seconde.

  • L'architecture repose sur un modèle mélange d'experts (MoE) de 1 000 milliards de paramètres.

  • La technique de co-conception extrême utilise la quantification MXFP4 avec un entraînement conscient (QAT) pour maintenir la précision malgré la compression.

  • Le mécanisme D-Flash permet la prédiction parallèle de blocs de huit tokens, surpassant le décodage spéculatif standard.

  • Un moteur de noyau persistant (TileRT) élimine les latences de lancement d'opérations GPU en maintenant les données et calculs actifs en permanence via la spécialisation de warp.

  • Les tests pratiques montrent la capacité à générer des prototypes fonctionnels, comme un clone de Subway Surfers, en seulement 50 secondes.

Timeline

Performance et architecture du modèle

  • Mimo V2.5 Ultra Speed dépasse les 1 000 tokens par seconde sur du matériel standard.
  • Le modèle intègre une structure mélange d'experts de 1 000 milliards de paramètres.
  • Huit GPU grand public suffisent à exécuter ce modèle grâce à une optimisation système avancée.

Les modèles actuels comme GPT 5.5 ou Claude 4 Opus se heurtent généralement à des limites de 50 à 60 tokens par seconde en raison de latences de raisonnement. Le nouveau modèle de Xiaomi élimine ces goulots d'étranglement en collaborant avec Tile RT pour déployer une architecture massive sur un serveur standard équipé de huit GPU.

Optimisations de co-conception

  • La quantification MXFP4 combinée au QAT réduit la charge mémoire sans perte d'intelligence notable.
  • Le mécanisme D-Flash permet de prédire des blocs entiers de huit tokens simultanément plutôt qu'un par un.
  • Un moteur noyau persistant avec spécialisation de warp maintient le pipeline GPU en mouvement constant.

L'approche repose sur trois piliers : la gestion de la bande passante mémoire via une quantification intelligente, une nouvelle méthode de décodage parallèle nommée D-Flash qui prédit huit tokens à la fois, et l'élimination des pauses GPU. Cette dernière technique garantit que le transfert de données, les calculs et la gestion des communications s'exécutent simultanément sans interruption.

Tests de performance réels

  • Le modèle a atteint un pic de 3 451 tokens par seconde lors d'un test LeetCode.
  • La génération d'une interface de finances personnelles a pris 65 secondes avec une vitesse moyenne de 700 à 1 000 tokens par seconde.
  • Un prototype fonctionnel de clone de jeu Subway Surfers a été généré en 50 secondes après des prompts de suivi.

Des tests intensifs confirment une vitesse de traitement exceptionnelle, bien que la stabilité diminue sur des tâches complexes à très long contexte. Si le modèle présente parfois des erreurs sur des structures web élaborées, il excelle dans la création rapide de prototypes fonctionnels, démontrant son utilité immédiate pour le développement rapide de code.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video