Ist das das SCHNELLSTE KI-Modell der Welt?!! (Xiaomi MiMo V2.5 Pro UltraSpeed)

Deutschالعربية English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareVideo & Computer GamesConsumer Electronics

Transcript

00:00:00Wahnsinn, ShowMe, ihr kennt ja die chinesische Firma, die Smartphones herstellt, hat gerade ein KI-Modell entwickelt, das

00:00:05vielleicht das schnellste der Welt ist. Es heißt ShowMe Mimo V2.5 Ultra Speed und es ist wirklich

00:00:13atemberaubend. Im heutigen Video schauen wir uns dieses Modell an, sehen wie es funktioniert und ich konnte

00:00:18tatsächlich einen frühen Zugang zu diesem Modell bekommen, also testen wir es mit einigen interessanten Beispielen,

00:00:24um zu sehen, wie schnell es wirklich ist. Das wird eine Menge Spaß machen, also tauchen wir direkt ein.

00:00:30Bevor wir einen Blick unter die Haube dieses Modells werfen, schauen wir uns an, mit welchen massiven Unterschieden wir es hier

00:00:39eigentlich zu tun haben. Bei Frontier-Modellen wie GPT 5.5 oder Claude 4 Opus kämpft man oft mit

00:00:46massiven Verzögerungen bei der Schlussfolgerung und kommt auf etwa 50 oder 60 Token pro Sekunde. Das ist zwar nicht schlecht, aber

00:00:54doch etwas langsam. Aber ShowMes neues Mimo Ultra Speed Modell erreicht über 1000 Token pro Sekunde

00:01:00und was noch verrückter ist: Das Modell ist zudem riesig. Es ist ein 1-Billionen-Parameter

00:01:07Mixture-of-Experts-Modell. Ihr denkt jetzt sicher: Okay, die nutzen bestimmt irgendein super

00:01:13fortgeschrittenes, kundenspezifisches Hardware-Setup. Nun, nicht ganz. ShowMe hat sich mit ihrem

00:01:19Systempartner Tile RT zusammengetan und das durch den Einsatz eines einzelnen Standard-Servers mit acht

00:01:25handelsüblichen GPUs erreicht. Aber wenn das nicht die Antwort ist, stellt sich die Frage: Wie zwingt man ein Billionen-

00:01:31Parameter-Modell dazu, auf Standard-Hardware Text mit Mikrosekunden-Geschwindigkeit auszuspucken? Nun, sie haben sich

00:01:39etwas einfallen lassen, das sie “Extreme Model System Co-Design” nennen. Sie sind den Latenz-Flaschenhals

00:01:44gleichzeitig von drei verschiedenen Seiten angegangen. Erstens haben sie die Speicherbandbreite optimiert. Eine Billion

00:01:50Parameter während der Textgenerierung durch den GPU-Speicher zu bewegen, erzeugt massive Staus. Um das zu beheben,

00:01:57nutzte ShowMe MXFP4-Quantisierung. Da eine 4-Bit-Komprimierung ein KI-Modell normalerweise

00:02:04weniger präzise machen kann, nutzten sie Quantization-Aware Training (QAT) und hielten die Core-Routing-Layer auf einer höheren

00:02:12Präzision. Dies minderte den Speicherdruck, während die Intelligenz des Modells nahezu identisch

00:02:18mit der unkomprimierten Version blieb. Zweitens haben sie letztendlich die Art und Weise geändert, wie das Modell Wörter vorhersagt. Standard-

00:02:25spekulative Dekodierung funktioniert so, dass ein winziges Entwurfsmodell einige Wörter voraus rät und dann das massive Haupt-

00:02:32modell die Rechnung prüft. Aber ShowMe hat hier etwas anderes gemacht, mit dem, was sie D-Flash nennen. Anstatt ein

00:02:39Token nach dem anderen zu erraten, sagt es einen ganzen Block versteckter Token gleichzeitig in einem parallelen Vorwärtspass voraus. Und

00:02:46durch Tests haben sie entdeckt, dass bei Programmieraufgaben das Hauptmodell tatsächlich einen Durchschnitt

00:02:52von 6,3 von acht Token beibehält, die D-Flash errät. Es lässt das Modell also im Wesentlichen massive

00:02:58acht-Token-Sprünge vorwärts machen, anstatt kleine Schritte zu gehen. Und drittens nutzen sie eine spezielle

00:03:04Engine, die einen wirklich lästigen Hardware-Flaschenhals löst. Wenn man also tausend Token pro Sekunde durchschiebt,

00:03:11können Standard-GPUs tatsächlich nicht mit der Befehlslogik Schritt halten. Normalerweise startet eine GPU eine Rechen-

00:03:17operation, beendet sie, löscht den Speicher und wartet dann darauf, die nächste zu starten. Und obwohl diese

00:03:23Pausen nur Mikrosekunden dauern, töten sie den Schwung komplett. Um das zu beheben, baute TileRT eine persistente

00:03:30Engine-Kernel, der permanent auf der GPU verbleibt. Sie nutzten einen Trick namens Warp-Spezialisierung,

00:03:37um verschiedenen Teilen der Hardware dauerhafte Rollen zuzuweisen. Während ein Abschnitt Daten verschiebt,

00:03:42führt ein anderer die Berechnungen aus und ein dritter kümmert sich um die Kommunikation, alles zur exakt gleichen Zeit. Also hört

00:03:48die Pipeline buchstäblich nie auf, sich zu bewegen. Und das ist so interessant, weil ich gerade ein Video über Diffusion

00:03:55Gemma gemacht habe, das auch super schnell ist, aber das gleiche Problem auf eine ganz andere Weise angeht. Schaut euch also

00:04:00dieses Video an, wenn ihr interessiert seid. Und das, meine Freunde, ist, wie ShowMe auf 1000 Token pro Sekunde kommt,

00:04:07angeblich. Aber jetzt lasst es uns tatsächlich testen und sehen, ob dieses Versprechen hält. Für meinen ersten Test

00:04:14habe ich beschlossen, eine der schweren Fragen von LeetCode zu nehmen und sie durch das Modell laufen zu lassen. Und es war rasend schnell.

00:04:20Wie wild ist das denn? Außerdem, wie wir hier sehen können, erreichte es in der Spitze 3451 Token pro Sekunde, was absolut irre ist.

00:04:29Nun, es könnte sein, dass diese LeetCode-Frage Teil der Trainingsdaten des Modells war.

00:04:34So beeindruckend das auch aussieht, es ist wahrscheinlich kein fairer Vergleich. Gehen wir also zu etwas Anspruchsvollerem über.

00:04:41Als Nächstes bat ich es, ein einfaches UI-Dashboard für persönliche Finanzen in einer einzigen HTML-Datei zu erstellen, ohne

00:04:48externe Bibliotheken und nichts allzu Ausgefallenes. Und in diesem Test konnten wir nun tatsächlich sehen, wie wahnsinnig

00:04:54leistungsfähig es ist. Es erreichte etwa 700 Token pro Sekunde für den Schlussfolgerungsteil und etwa 1000 Token

00:05:02pro Sekunde für die Ausgabeoperationen. Und das Modell brauchte nur 65 Sekunden, um die Aufgabe abzuschließen.

00:05:09Und ich finde, das Ergebnis ist ziemlich gut. Obwohl einige der Schaltflächen nicht funktionieren und einige

00:05:14der Aktionen defekt sind, ist das Design als Ganzes ziemlich gut. Ich meine, nicht schlecht für eine Ein-Minuten-Aufgabe.

00:05:21Also beschloss ich, das Modell herauszufordern, etwas noch Anspruchsvolleres zu bauen. Ich forderte es dazu auf,

00:05:26eine Webseite im Stile der Khan Academy zur Erklärung von Mathematik zu erstellen, die 10 beliebte mathematische Konzepte präsentiert, um zu sehen,

00:05:34wie komplex eine Webseite wir hier tatsächlich produzieren können. Und hier wurde es etwas schwierig.

00:05:40Ich habe diesen Test zweimal versucht und beide Male stoppte das Modell nach etwa zwei oder drei Minuten

00:05:45mit dem Generieren und fror komplett ein. Also nahm ich an, dass ich bei dieser Aufgabe das Kontextlimit des Modells erreicht habe oder

00:05:51vielleicht ShowMe eine Art Ratelimiter eingebaut hat. Also beschloss ich, die Aufgabe etwas zu vereinfachen, indem ich es bat,

00:05:58eine Webseite mit nur fünf mathematischen Konzepten zu entwerfen. Und dieses Mal hat es endlich funktioniert. Es hat es geschafft,

00:06:04die Aufgabe in 75 Sekunden zu beenden. Und das Ergebnis ist tatsächlich ziemlich schön. Die ersten drei mathematischen

00:06:10Konzept-Widgets sind tatsächlich funktionsfähig, aber alles, was danach kommt, ist kaputt, nicht funktionsfähig oder leer.

00:06:17Ich weiß also nicht genau, was hier passiert ist. Vielleicht hat das Modell einen Teil seines Kontexts während der Schlussfolgerungs-

00:06:23phase verloren, aber dennoch halte ich dies für ein ziemlich gutes Ergebnis, besonders wenn man bedenkt, dass

00:06:29wir während der Schlussfolgerungsphase durchschnittlich 500 Token pro Sekunde erreichten. Und für meinen letzten Test beschloss ich,

00:06:34etwas mehr Spaß zu haben. Ich habe einfach diesen sehr kurzen Satz eingegeben: Baue einen Subway-Surfer-

00:06:41Klon mit Three.js, und es hat tatsächlich geschafft, einen voll funktionsfähigen Subway-Surfer-Klon in nur 50

00:06:49Sekunden zu bauen. Das ist verrückt. Ich muss allerdings sagen, dass er zwar funktionsfähig ist, wie ihr hier sehen könnt, aber

00:06:55er keine Hindernisse oder Münzen oder ähnliches enthält. Er ist also etwas langweilig. Also habe ich mich dazu entschlossen,

00:07:01ihm eine Folgeaufforderung zu geben, um diese kleinen Probleme zu beheben. Und nach zwei Durchläufen hat es erfolgreich

00:07:07einige Münzen und einige Hindernisse hinzugefügt. Und ehrlich gesagt, als ich es getestet habe, war dies eine makellose Demo.

00:07:14Die Funktionalität war da. Alles funktionierte. Es hat sogar meinen Highscore nach jeder Runde gespeichert.

00:07:20Diese spezielle Demo hat mich also sehr positiv überrascht. Ich bin sicher, heutzutage können wir alle

00:07:26Subway-Surfer-Klone auch mit anderen Modellen bauen. Aber die Tatsache, dass ich einen funktionierenden Prototyp bekommen konnte,

00:07:32der nicht völlig schrecklich ist und der tatsächlich Spaß beim Spielen macht und all das in nur 50 Sekunden mit

00:07:39einigen Folgeaufforderungen, das ist ziemlich beeindruckend. Wie wir also alle in den Tests gesehen haben, hat es das Modell geschafft,

00:07:45eine Rekordgeschwindigkeit von mehr als 3000 Token pro Sekunde zu erreichen. Dies ist also tatsächlich das absolut schnellste Modell,

00:07:52das ich je gesehen habe. Und was die Ergebnisse angeht, nun ja, sicher. Einige davon sind kaputt. Einige davon

00:07:58sind unausgegoren. Das ist sicherlich kein Claude Opus oder GPT 5.5. Aber ich bin sicher, dass Xiaomis Modelle definitiv

00:08:06mit der Zeit immer besser werden. Es wird also sehr interessant sein zu sehen, was sie in Zukunft noch entwickeln werden.

00:08:12Da habt ihr es also, Leute. Das ist das Xiaomi Mimo V2.5 Ultra Speed auf den Punkt gebracht. Was denkt ihr

00:08:18über dieses Modell? Seid ihr beeindruckt? Enttäuscht? Gleichgültig? Lasst es uns unten im Kommentarbereich wissen.

00:08:24Und Leute, wenn ihr diese Art von technischen Analysen mögt, lasst es mich wissen, indem ihr auf diesen

00:08:29Like-Button unter dem Video haut. Und vergesst auch nicht, unseren Kanal zu abonnieren.

00:08:33Das war Andrus von BetterStack, und wir sehen uns in den nächsten Videos.

Key Takeaway

Das ShowMe Mimo V2.5 Ultra Speed Modell erreicht durch systemweite Co-Design-Optimierungen wie MXFP4-Quantisierung und parallele Token-Vorhersage mittels D-Flash Rekordgeschwindigkeiten von über 3000 Token pro Sekunde auf handelsüblicher Hardware.

Highlights

Das Modell ShowMe Mimo V2.5 Ultra Speed erreicht eine Generierungsgeschwindigkeit von über 1000 Token pro Sekunde.
Bei Tests wurde eine maximale Geschwindigkeit von 3451 Token pro Sekunde gemessen.
Das Modell basiert auf einer Mixture-of-Experts-Architektur mit einer Billion Parametern.
Die technische Implementierung nutzt MXFP4-Quantisierung, D-Flash für parallele Token-Vorhersagen und einen persistenten Engine-Kernel für die GPU-Beschleunigung.
Das System benötigt für den Betrieb lediglich einen Standard-Server mit acht handelsüblichen GPUs.
Bei komplexen Aufgaben wie der Erstellung eines Subway-Surfer-Klons generierte das Modell in 50 Sekunden eine lauffähige Grundstruktur.

Timeline

Technische Architektur und Optimierung

Das Modell überwindet Latenz-Flaschenhälse durch Extreme Model System Co-Design.
MXFP4-Quantisierung in Kombination mit Quantization-Aware Training reduziert den Speicherdruck bei hoher Präzision.
D-Flash ermöglicht die Vorhersage ganzer Token-Blöcke statt einzelner Tokens.
Ein persistenter Engine-Kernel auf den GPUs eliminiert Wartezeiten bei der Befehlslogik.

Das Modell zielt auf eine massive Beschleunigung der Inferenz ab, die weit über den üblichen 50 bis 60 Token pro Sekunde von Modellen wie GPT 5.5 oder Claude 4 Opus liegt. Die Optimierungen umfassen drei Ebenen: Speicherbandbreitenmanagement durch Quantisierung, eine effizientere Methode zur Wortvorhersage durch parallele Block-Verarbeitung und eine spezialisierte Hardware-Pipeline, die den GPU-Durchsatz durch permanente Auslastung der Rechenkerne maximiert.

Praktische Leistungsprüfung

LeetCode-Aufgaben wurden in Spitzenwerten mit 3451 Token pro Sekunde bearbeitet.
Einfache UI-Dashboards wurden innerhalb von 65 Sekunden funktionsfähig generiert.
Sehr komplexe Aufgaben führten zu Stopps der Generierung, vermutlich aufgrund von Kontextlimit-Erreichung.
Ein funktionsfähiger Subway-Surfer-Klon wurde in 50 Sekunden inklusive nachfolgender Anpassungen erstellt.

In verschiedenen Tests zeigt sich, dass die Geschwindigkeit des Modells extrem hoch ist, die Zuverlässigkeit bei komplexen, langwierigen Aufgaben jedoch variiert. Während einfache Programmier- und Webdesign-Aufgaben in unter einer Minute abgeschlossen werden, stoßen umfangreichere Anforderungen an die Grenzen der Kontextverarbeitung. Trotz einiger Funktionslücken bei komplexen Webseiten liefert das Modell bei der Erstellung von Spiele-Prototypen qualitativ überzeugende Ergebnisse, die nach kurzen Folgeanweisungen ein einwandfreies, spielbares Niveau erreichen.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video