Ist das das SCHNELLSTE KI-Modell der Welt?!! (Xiaomi MiMo V2.5 Pro UltraSpeed)

BBetter Stack
Computing/SoftwareVideo & Computer GamesConsumer Electronics

Transcript

00:00:00Wahnsinn, ShowMe, ihr kennt ja die chinesische Firma, die Smartphones herstellt, hat gerade ein KI-Modell entwickelt, das
00:00:05vielleicht das schnellste der Welt ist. Es heißt ShowMe Mimo V2.5 Ultra Speed und es ist wirklich
00:00:13atemberaubend. Im heutigen Video schauen wir uns dieses Modell an, sehen wie es funktioniert und ich konnte
00:00:18tatsächlich einen frühen Zugang zu diesem Modell bekommen, also testen wir es mit einigen interessanten Beispielen,
00:00:24um zu sehen, wie schnell es wirklich ist. Das wird eine Menge Spaß machen, also tauchen wir direkt ein.
00:00:30Bevor wir einen Blick unter die Haube dieses Modells werfen, schauen wir uns an, mit welchen massiven Unterschieden wir es hier
00:00:39eigentlich zu tun haben. Bei Frontier-Modellen wie GPT 5.5 oder Claude 4 Opus kämpft man oft mit
00:00:46massiven Verzögerungen bei der Schlussfolgerung und kommt auf etwa 50 oder 60 Token pro Sekunde. Das ist zwar nicht schlecht, aber
00:00:54doch etwas langsam. Aber ShowMes neues Mimo Ultra Speed Modell erreicht über 1000 Token pro Sekunde
00:01:00und was noch verrückter ist: Das Modell ist zudem riesig. Es ist ein 1-Billionen-Parameter
00:01:07Mixture-of-Experts-Modell. Ihr denkt jetzt sicher: Okay, die nutzen bestimmt irgendein super
00:01:13fortgeschrittenes, kundenspezifisches Hardware-Setup. Nun, nicht ganz. ShowMe hat sich mit ihrem
00:01:19Systempartner Tile RT zusammengetan und das durch den Einsatz eines einzelnen Standard-Servers mit acht
00:01:25handelsüblichen GPUs erreicht. Aber wenn das nicht die Antwort ist, stellt sich die Frage: Wie zwingt man ein Billionen-
00:01:31Parameter-Modell dazu, auf Standard-Hardware Text mit Mikrosekunden-Geschwindigkeit auszuspucken? Nun, sie haben sich
00:01:39etwas einfallen lassen, das sie “Extreme Model System Co-Design” nennen. Sie sind den Latenz-Flaschenhals
00:01:44gleichzeitig von drei verschiedenen Seiten angegangen. Erstens haben sie die Speicherbandbreite optimiert. Eine Billion
00:01:50Parameter während der Textgenerierung durch den GPU-Speicher zu bewegen, erzeugt massive Staus. Um das zu beheben,
00:01:57nutzte ShowMe MXFP4-Quantisierung. Da eine 4-Bit-Komprimierung ein KI-Modell normalerweise
00:02:04weniger präzise machen kann, nutzten sie Quantization-Aware Training (QAT) und hielten die Core-Routing-Layer auf einer höheren
00:02:12Präzision. Dies minderte den Speicherdruck, während die Intelligenz des Modells nahezu identisch
00:02:18mit der unkomprimierten Version blieb. Zweitens haben sie letztendlich die Art und Weise geändert, wie das Modell Wörter vorhersagt. Standard-
00:02:25spekulative Dekodierung funktioniert so, dass ein winziges Entwurfsmodell einige Wörter voraus rät und dann das massive Haupt-
00:02:32modell die Rechnung prüft. Aber ShowMe hat hier etwas anderes gemacht, mit dem, was sie D-Flash nennen. Anstatt ein
00:02:39Token nach dem anderen zu erraten, sagt es einen ganzen Block versteckter Token gleichzeitig in einem parallelen Vorwärtspass voraus. Und
00:02:46durch Tests haben sie entdeckt, dass bei Programmieraufgaben das Hauptmodell tatsächlich einen Durchschnitt
00:02:52von 6,3 von acht Token beibehält, die D-Flash errät. Es lässt das Modell also im Wesentlichen massive
00:02:58acht-Token-Sprünge vorwärts machen, anstatt kleine Schritte zu gehen. Und drittens nutzen sie eine spezielle
00:03:04Engine, die einen wirklich lästigen Hardware-Flaschenhals löst. Wenn man also tausend Token pro Sekunde durchschiebt,
00:03:11können Standard-GPUs tatsächlich nicht mit der Befehlslogik Schritt halten. Normalerweise startet eine GPU eine Rechen-
00:03:17operation, beendet sie, löscht den Speicher und wartet dann darauf, die nächste zu starten. Und obwohl diese
00:03:23Pausen nur Mikrosekunden dauern, töten sie den Schwung komplett. Um das zu beheben, baute TileRT eine persistente
00:03:30Engine-Kernel, der permanent auf der GPU verbleibt. Sie nutzten einen Trick namens Warp-Spezialisierung,
00:03:37um verschiedenen Teilen der Hardware dauerhafte Rollen zuzuweisen. Während ein Abschnitt Daten verschiebt,
00:03:42führt ein anderer die Berechnungen aus und ein dritter kümmert sich um die Kommunikation, alles zur exakt gleichen Zeit. Also hört
00:03:48die Pipeline buchstäblich nie auf, sich zu bewegen. Und das ist so interessant, weil ich gerade ein Video über Diffusion
00:03:55Gemma gemacht habe, das auch super schnell ist, aber das gleiche Problem auf eine ganz andere Weise angeht. Schaut euch also
00:04:00dieses Video an, wenn ihr interessiert seid. Und das, meine Freunde, ist, wie ShowMe auf 1000 Token pro Sekunde kommt,
00:04:07angeblich. Aber jetzt lasst es uns tatsächlich testen und sehen, ob dieses Versprechen hält. Für meinen ersten Test
00:04:14habe ich beschlossen, eine der schweren Fragen von LeetCode zu nehmen und sie durch das Modell laufen zu lassen. Und es war rasend schnell.
00:04:20Wie wild ist das denn? Außerdem, wie wir hier sehen können, erreichte es in der Spitze 3451 Token pro Sekunde, was absolut irre ist.
00:04:29Nun, es könnte sein, dass diese LeetCode-Frage Teil der Trainingsdaten des Modells war.
00:04:34So beeindruckend das auch aussieht, es ist wahrscheinlich kein fairer Vergleich. Gehen wir also zu etwas Anspruchsvollerem über.
00:04:41Als Nächstes bat ich es, ein einfaches UI-Dashboard für persönliche Finanzen in einer einzigen HTML-Datei zu erstellen, ohne
00:04:48externe Bibliotheken und nichts allzu Ausgefallenes. Und in diesem Test konnten wir nun tatsächlich sehen, wie wahnsinnig
00:04:54leistungsfähig es ist. Es erreichte etwa 700 Token pro Sekunde für den Schlussfolgerungsteil und etwa 1000 Token
00:05:02pro Sekunde für die Ausgabeoperationen. Und das Modell brauchte nur 65 Sekunden, um die Aufgabe abzuschließen.
00:05:09Und ich finde, das Ergebnis ist ziemlich gut. Obwohl einige der Schaltflächen nicht funktionieren und einige
00:05:14der Aktionen defekt sind, ist das Design als Ganzes ziemlich gut. Ich meine, nicht schlecht für eine Ein-Minuten-Aufgabe.
00:05:21Also beschloss ich, das Modell herauszufordern, etwas noch Anspruchsvolleres zu bauen. Ich forderte es dazu auf,
00:05:26eine Webseite im Stile der Khan Academy zur Erklärung von Mathematik zu erstellen, die 10 beliebte mathematische Konzepte präsentiert, um zu sehen,
00:05:34wie komplex eine Webseite wir hier tatsächlich produzieren können. Und hier wurde es etwas schwierig.
00:05:40Ich habe diesen Test zweimal versucht und beide Male stoppte das Modell nach etwa zwei oder drei Minuten
00:05:45mit dem Generieren und fror komplett ein. Also nahm ich an, dass ich bei dieser Aufgabe das Kontextlimit des Modells erreicht habe oder
00:05:51vielleicht ShowMe eine Art Ratelimiter eingebaut hat. Also beschloss ich, die Aufgabe etwas zu vereinfachen, indem ich es bat,
00:05:58eine Webseite mit nur fünf mathematischen Konzepten zu entwerfen. Und dieses Mal hat es endlich funktioniert. Es hat es geschafft,
00:06:04die Aufgabe in 75 Sekunden zu beenden. Und das Ergebnis ist tatsächlich ziemlich schön. Die ersten drei mathematischen
00:06:10Konzept-Widgets sind tatsächlich funktionsfähig, aber alles, was danach kommt, ist kaputt, nicht funktionsfähig oder leer.
00:06:17Ich weiß also nicht genau, was hier passiert ist. Vielleicht hat das Modell einen Teil seines Kontexts während der Schlussfolgerungs-
00:06:23phase verloren, aber dennoch halte ich dies für ein ziemlich gutes Ergebnis, besonders wenn man bedenkt, dass
00:06:29wir während der Schlussfolgerungsphase durchschnittlich 500 Token pro Sekunde erreichten. Und für meinen letzten Test beschloss ich,
00:06:34etwas mehr Spaß zu haben. Ich habe einfach diesen sehr kurzen Satz eingegeben: Baue einen Subway-Surfer-
00:06:41Klon mit Three.js, und es hat tatsächlich geschafft, einen voll funktionsfähigen Subway-Surfer-Klon in nur 50
00:06:49Sekunden zu bauen. Das ist verrückt. Ich muss allerdings sagen, dass er zwar funktionsfähig ist, wie ihr hier sehen könnt, aber
00:06:55er keine Hindernisse oder Münzen oder ähnliches enthält. Er ist also etwas langweilig. Also habe ich mich dazu entschlossen,
00:07:01ihm eine Folgeaufforderung zu geben, um diese kleinen Probleme zu beheben. Und nach zwei Durchläufen hat es erfolgreich
00:07:07einige Münzen und einige Hindernisse hinzugefügt. Und ehrlich gesagt, als ich es getestet habe, war dies eine makellose Demo.
00:07:14Die Funktionalität war da. Alles funktionierte. Es hat sogar meinen Highscore nach jeder Runde gespeichert.
00:07:20Diese spezielle Demo hat mich also sehr positiv überrascht. Ich bin sicher, heutzutage können wir alle
00:07:26Subway-Surfer-Klone auch mit anderen Modellen bauen. Aber die Tatsache, dass ich einen funktionierenden Prototyp bekommen konnte,
00:07:32der nicht völlig schrecklich ist und der tatsächlich Spaß beim Spielen macht und all das in nur 50 Sekunden mit
00:07:39einigen Folgeaufforderungen, das ist ziemlich beeindruckend. Wie wir also alle in den Tests gesehen haben, hat es das Modell geschafft,
00:07:45eine Rekordgeschwindigkeit von mehr als 3000 Token pro Sekunde zu erreichen. Dies ist also tatsächlich das absolut schnellste Modell,
00:07:52das ich je gesehen habe. Und was die Ergebnisse angeht, nun ja, sicher. Einige davon sind kaputt. Einige davon
00:07:58sind unausgegoren. Das ist sicherlich kein Claude Opus oder GPT 5.5. Aber ich bin sicher, dass Xiaomis Modelle definitiv
00:08:06mit der Zeit immer besser werden. Es wird also sehr interessant sein zu sehen, was sie in Zukunft noch entwickeln werden.
00:08:12Da habt ihr es also, Leute. Das ist das Xiaomi Mimo V2.5 Ultra Speed auf den Punkt gebracht. Was denkt ihr
00:08:18über dieses Modell? Seid ihr beeindruckt? Enttäuscht? Gleichgültig? Lasst es uns unten im Kommentarbereich wissen.
00:08:24Und Leute, wenn ihr diese Art von technischen Analysen mögt, lasst es mich wissen, indem ihr auf diesen
00:08:29Like-Button unter dem Video haut. Und vergesst auch nicht, unseren Kanal zu abonnieren.
00:08:33Das war Andrus von BetterStack, und wir sehen uns in den nächsten Videos.

Key Takeaway

Das ShowMe Mimo V2.5 Ultra Speed Modell erreicht durch systemweite Co-Design-Optimierungen wie MXFP4-Quantisierung und parallele Token-Vorhersage mittels D-Flash Rekordgeschwindigkeiten von über 3000 Token pro Sekunde auf handelsüblicher Hardware.

Highlights

  • Das Modell ShowMe Mimo V2.5 Ultra Speed erreicht eine Generierungsgeschwindigkeit von über 1000 Token pro Sekunde.

  • Bei Tests wurde eine maximale Geschwindigkeit von 3451 Token pro Sekunde gemessen.

  • Das Modell basiert auf einer Mixture-of-Experts-Architektur mit einer Billion Parametern.

  • Die technische Implementierung nutzt MXFP4-Quantisierung, D-Flash für parallele Token-Vorhersagen und einen persistenten Engine-Kernel für die GPU-Beschleunigung.

  • Das System benötigt für den Betrieb lediglich einen Standard-Server mit acht handelsüblichen GPUs.

  • Bei komplexen Aufgaben wie der Erstellung eines Subway-Surfer-Klons generierte das Modell in 50 Sekunden eine lauffähige Grundstruktur.

Timeline

Technische Architektur und Optimierung

  • Das Modell überwindet Latenz-Flaschenhälse durch Extreme Model System Co-Design.
  • MXFP4-Quantisierung in Kombination mit Quantization-Aware Training reduziert den Speicherdruck bei hoher Präzision.
  • D-Flash ermöglicht die Vorhersage ganzer Token-Blöcke statt einzelner Tokens.
  • Ein persistenter Engine-Kernel auf den GPUs eliminiert Wartezeiten bei der Befehlslogik.

Das Modell zielt auf eine massive Beschleunigung der Inferenz ab, die weit über den üblichen 50 bis 60 Token pro Sekunde von Modellen wie GPT 5.5 oder Claude 4 Opus liegt. Die Optimierungen umfassen drei Ebenen: Speicherbandbreitenmanagement durch Quantisierung, eine effizientere Methode zur Wortvorhersage durch parallele Block-Verarbeitung und eine spezialisierte Hardware-Pipeline, die den GPU-Durchsatz durch permanente Auslastung der Rechenkerne maximiert.

Praktische Leistungsprüfung

  • LeetCode-Aufgaben wurden in Spitzenwerten mit 3451 Token pro Sekunde bearbeitet.
  • Einfache UI-Dashboards wurden innerhalb von 65 Sekunden funktionsfähig generiert.
  • Sehr komplexe Aufgaben führten zu Stopps der Generierung, vermutlich aufgrund von Kontextlimit-Erreichung.
  • Ein funktionsfähiger Subway-Surfer-Klon wurde in 50 Sekunden inklusive nachfolgender Anpassungen erstellt.

In verschiedenen Tests zeigt sich, dass die Geschwindigkeit des Modells extrem hoch ist, die Zuverlässigkeit bei komplexen, langwierigen Aufgaben jedoch variiert. Während einfache Programmier- und Webdesign-Aufgaben in unter einer Minute abgeschlossen werden, stoßen umfangreichere Anforderungen an die Grenzen der Kontextverarbeitung. Trotz einiger Funktionslücken bei komplexen Webseiten liefert das Modell bei der Erstellung von Spiele-Prototypen qualitativ überzeugende Ergebnisse, die nach kurzen Folgeanweisungen ein einwandfreies, spielbares Niveau erreichen.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video