Est-ce le modèle d'IA le PLUS RAPIDE au monde ?!! (Xiaomi MiMo V2.5 Pro UltraSpeed)
BBetter Stack
Computing/SoftwareVideo & Computer GamesConsumer Electronics
Transcript
00:00:00Oh là là, ShowMe, vous savez cette entreprise chinoise qui fabrique des téléphones, vient de créer un modèle d'IA qui
00:00:05pourrait être le plus rapide au monde. Il s'appelle ShowMe Mimo V2.5 Ultra Speed et c'est vraiment
00:00:13époustouflant. Dans la vidéo d'aujourd'hui, nous allons examiner ce modèle, voir comment il fonctionne et j'ai
00:00:18réussi à obtenir un accès anticipé à ce modèle, donc nous allons aussi le tester avec quelques exemples intéressants
00:00:24pour voir à quel point il est réellement rapide. Ça va être très amusant, alors plongeons dedans.
00:00:30Avant de regarder sous le capot de ce modèle, voyons quelles sont les différences massives auxquelles nous sommes
00:00:39confrontés ici. Sur les modèles de pointe comme GPT 5.5 ou Claude 4 Opus, vous luttez souvent contre
00:00:46des latences de raisonnement massives, plafonnant à environ 50 ou 60 tokens par seconde. Ce n'est pas mauvais, mais c'est
00:00:54plutôt lent. Mais le nouveau modèle Mimo Ultra Speed de ShowMe atteint plus de 1000 tokens par seconde
00:01:00et ce qui est encore plus fou, c'est que ce modèle est aussi massif en taille. C'est un modèle
00:01:07mélange d'experts à 1 000 milliards de paramètres. Donc vous vous dites peut-être, ils utilisent probablement une sorte de
00:01:13configuration matérielle personnalisée super avancée pour cela. Eh bien, pas tout à fait. ShowMe a fait équipe avec leur
00:01:19partenaire système Tile RT et ils ont réussi cela en utilisant simplement un serveur standard avec huit
00:01:25GPU grand public. Mais si ce n'est pas la réponse, cela soulève la question : comment forcer un modèle à mille
00:01:31milliards de paramètres à cracher du texte à des vitesses de microsecondes sur du matériel standard ? Eh bien, ils ont imaginé
00:01:39quelque chose qu'ils appellent la co-conception extrême modèle-système. Ils ont attaqué le goulot d'étranglement de la latence
00:01:44sous trois angles différents simultanément. Premièrement, ils ont optimisé la bande passante mémoire. Déplacer 1 000 milliards
00:01:50de paramètres via la mémoire GPU pendant la phase de génération de texte crée des embouteillages massifs. Pour régler ça,
00:01:57ShowMe a utilisé la quantification MXFP4. Mais comme la compression 4 bits peut normalement rendre une IA
00:02:04moins précise, ils ont utilisé l'entraînement conscient de la quantification ou QAT et ils ont gardé les couches de routage principales à une
00:02:12précision plus élevée. Cela a allégé la pression sur la mémoire tout en gardant l'intelligence du modèle presque identique
00:02:18à la version non compressée. Deuxièmement, ils ont finalement changé la façon dont le modèle prédit les mots. Donc le
00:02:25décodage spéculatif standard fonctionne en ayant un minuscule modèle brouillon qui devine quelques mots à l'avance, puis le modèle principal
00:02:32massif vérifie les calculs. Mais ShowMe a fait quelque chose de différent ici avec ce qu'ils appellent D-Flash. Au lieu de deviner un
00:02:39token à la fois, il prédit tout un bloc de tokens cachés d'un coup dans une passe avant parallèle. Et
00:02:46grâce aux tests, ils ont découvert que lorsque vous l'utilisez pour des tâches de codage, le modèle principal garde en fait
00:02:52une moyenne de 6,3 sur huit tokens que D-Flash devine. Donc, cela permet essentiellement au modèle de faire
00:02:58des bonds massifs de huit tokens à la fois au lieu de faire des petits pas. Et troisièmement, ils utilisent un
00:03:04moteur spécial qui résout un goulot d'étranglement matériel vraiment ennuyeux. Donc, quand vous poussez un millier de tokens par seconde,
00:03:11les GPU standard ne peuvent pas suivre la logique d'instruction. Normalement, un GPU lance une opération
00:03:17mathématique, la termine, libère la mémoire et attend ensuite pour lancer la suivante. Et même si ces
00:03:23pauses ne durent que des microsecondes, elles tuent complètement votre élan. Pour corriger cela, TileRT a construit un
00:03:30moteur noyau persistant qui reste juste à l'intérieur du GPU et ne le quitte jamais. Ils ont utilisé une astuce appelée spécialisation de warp
00:03:37pour assigner des rôles permanents à différentes parties du matériel. Pendant qu'une section déplace des données,
00:03:42une autre exécute les calculs, et une troisième gère la communication, tout cela exactement en même temps. Donc le
00:03:48pipeline ne s'arrête littéralement jamais de bouger. Et c'est tellement intéressant parce que je viens de faire une vidéo sur diffusion
00:03:55gemma, qui est aussi super rapide, mais qui aborde le même problème d'une manière très différente. Donc regardez
00:04:00cette vidéo si vous êtes intéressé. Et c'est ça les amis, comment ShowMe atteint des vitesses de 1000 tokens par seconde,
00:04:07soi-disant. Mais maintenant, testons-le réellement et voyons si cette promesse tient la route. Alors pour mon premier test,
00:04:14j'ai décidé de prendre une des questions difficiles de LeetCode et de la soumettre au modèle. Et c'était incroyablement rapide.
00:04:20À quel point c'est fou ? De plus, comme nous pouvons le voir ici, il a atteint un pic à 3451 tokens par seconde, ce qui est absolument dingue.
00:04:29Maintenant, il se peut qu'il y ait une possibilité que cette question LeetCode fasse partie des données d'entraînement du modèle.
00:04:34Donc, aussi impressionnant que cela puisse paraître, ce n'est probablement pas une comparaison équitable. Passons donc à quelque chose de plus sophistiqué.
00:04:41Ensuite, je lui ai demandé de construire une simple interface utilisateur de tableau de bord de finances personnelles dans un seul fichier HTML sans
00:04:48bibliothèques externes et rien de trop fantaisiste. Et dans ce test, nous pouvions maintenant réellement voir à quel point
00:04:54il est incroyablement performant. Il tournait à environ 700 tokens par seconde pour la partie raisonnement et environ 1000 tokens
00:05:02par seconde pour les opérations de sortie. Et il a fallu seulement 65 secondes au modèle pour accomplir la tâche.
00:05:09Et je pense que le résultat est plutôt bon. Même si certains boutons ne fonctionnent pas et certaines
00:05:14actions sont cassées, la conception dans l'ensemble est plutôt bonne. Je veux dire, pas mal pour une tâche d'une minute.
00:05:21Alors j'ai décidé de mettre le modèle au défi de construire quelque chose d'encore plus sophistiqué. Je lui ai demandé de
00:05:26créer une page web explicative de mathématiques style Khan Academy présentant 10 concepts mathématiques populaires pour voir à quel point
00:05:34complexe d'un site web nous pouvons réellement produire ici. Et c'est là que les choses ont commencé à devenir un peu difficiles.
00:05:40J'ai essayé ce test deux fois et les deux fois après environ deux ou trois minutes, le modèle a juste arrêté
00:05:45de générer et s'est complètement figé. Donc j'ai supposé qu'avec cette tâche, j'ai atteint la limite de contexte du modèle ou
00:05:51peut-être que ShowMe a mis un limiteur de débit de quelque sorte. Alors j'ai décidé de simplifier un peu la tâche en lui demandant
00:05:58de concevoir une page web avec seulement cinq concepts mathématiques. Et cette fois, ça a enfin fonctionné. Il a réussi
00:06:04à finir la tâche en 75 secondes. Et le résultat est en fait assez sympa. Et les trois premiers widgets de concepts
00:06:10mathématiques sont en fait fonctionnels, mais tout ce qui vient après est cassé, non fonctionnel ou vide.
00:06:17Donc je ne sais pas ce qui s'est exactement passé ici. Peut-être que le modèle a perdu une partie de son contexte pendant la phase
00:06:23de raisonnement, mais néanmoins, je pense que c'est un résultat plutôt bon, surtout si l'on prend en considération que
00:06:29nous étions à une moyenne de 500 tokens par seconde pendant la phase de raisonnement. Et pour mon dernier test, j'ai décidé de
00:06:34faire quelque chose d'un peu plus amusant. J'ai simplement invité cette très courte phrase à construire un clone de Subway Surfers
00:06:41en utilisant Three.js, et il a en fait réussi à construire un clone de Subway Surfers entièrement fonctionnel en seulement 50
00:06:49secondes. Maintenant, c'est dingue. Je dois dire que bien qu'il soit fonctionnel, comme vous pouvez le voir ici, il
00:06:55n'inclut aucun obstacle ou pièce ou quoi que ce soit d'autre. Donc c'est un peu ennuyeux. Alors j'ai ensuite décidé de
00:07:01lui donner une suite pour corriger ces problèmes mineurs. Et après deux passages, il a réussi à ajouter
00:07:07avec succès quelques pièces et quelques obstacles. Et honnêtement, quand je l'ai testé, c'était une démo sans défaut.
00:07:14La fonctionnalité était là. Tout fonctionnait. Il sauvegardait même mon meilleur score après chaque manche.
00:07:20Donc cette démo particulière m'a vraiment surpris de manière très positive. Je suis sûr qu'aujourd'hui, nous pouvons tous
00:07:26construire des clones de Subway Surfers avec d'autres modèles également. Mais le fait que je puisse obtenir un prototype fonctionnel,
00:07:32qui n'est pas complètement terrible et qui est en fait amusant à jouer, et tout ça en seulement 50 secondes avec
00:07:39quelques prompts de suivi, c'est assez impressionnant. Donc, comme nous l'avons tous vu dans les tests, le modèle a réussi à
00:07:45atteindre une vitesse record de plus de 3000 tokens par seconde. Donc, c'est effectivement le modèle absolument le plus rapide
00:07:52que j'aie jamais vu. Et pour ce qui est des résultats, je veux dire, oui, bien sûr. Certains sont cassés. Certains
00:07:58sont à moitié finis. Ce n'est sûrement pas Claude Opus ou GPT 5.5. Mais je suis sûr que les modèles de Xiaomi continueront
00:08:06définitivement à s'améliorer avec le temps. Donc il sera très intéressant de voir ce qu'ils imagineront dans le futur.
00:08:12Alors voilà, les amis. C'est le Xiaomi Mimo V2.5 Ultra Speed en résumé. Alors, que pensez-vous
00:08:18de ce modèle ? Êtes-vous impressionné ? Déçu ? Indifférent ? Faites-le-nous savoir dans la section des commentaires ci-dessous.
00:08:24Et les amis, si vous aimez ce genre de breakdowns techniques, faites-le-moi savoir en fracassant ce
00:08:29bouton « j'aime » sous la vidéo. Et n'oubliez pas non plus de vous abonner à notre chaîne.
00:08:33C'était Andrus de BetterStack, et je vous verrai dans les prochaines vidéos.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video