Ist das das SCHNELLSTE KI-Modell der Welt?!! (Xiaomi MiMo V2.5 Pro UltraSpeed)
BBetter Stack
Computing/SoftwareVideo & Computer GamesConsumer Electronics
Transcript
00:00:00Wahnsinn, ShowMe, ihr kennt ja die chinesische Firma, die Smartphones herstellt, hat gerade ein KI-Modell entwickelt, das
00:00:05vielleicht das schnellste der Welt ist. Es heißt ShowMe Mimo V2.5 Ultra Speed und es ist wirklich
00:00:13atemberaubend. Im heutigen Video schauen wir uns dieses Modell an, sehen wie es funktioniert und ich konnte
00:00:18tatsächlich einen frühen Zugang zu diesem Modell bekommen, also testen wir es mit einigen interessanten Beispielen,
00:00:24um zu sehen, wie schnell es wirklich ist. Das wird eine Menge Spaß machen, also tauchen wir direkt ein.
00:00:30Bevor wir einen Blick unter die Haube dieses Modells werfen, schauen wir uns an, mit welchen massiven Unterschieden wir es hier
00:00:39eigentlich zu tun haben. Bei Frontier-Modellen wie GPT 5.5 oder Claude 4 Opus kämpft man oft mit
00:00:46massiven Verzögerungen bei der Schlussfolgerung und kommt auf etwa 50 oder 60 Token pro Sekunde. Das ist zwar nicht schlecht, aber
00:00:54doch etwas langsam. Aber ShowMes neues Mimo Ultra Speed Modell erreicht über 1000 Token pro Sekunde
00:01:00und was noch verrückter ist: Das Modell ist zudem riesig. Es ist ein 1-Billionen-Parameter
00:01:07Mixture-of-Experts-Modell. Ihr denkt jetzt sicher: Okay, die nutzen bestimmt irgendein super
00:01:13fortgeschrittenes, kundenspezifisches Hardware-Setup. Nun, nicht ganz. ShowMe hat sich mit ihrem
00:01:19Systempartner Tile RT zusammengetan und das durch den Einsatz eines einzelnen Standard-Servers mit acht
00:01:25handelsüblichen GPUs erreicht. Aber wenn das nicht die Antwort ist, stellt sich die Frage: Wie zwingt man ein Billionen-
00:01:31Parameter-Modell dazu, auf Standard-Hardware Text mit Mikrosekunden-Geschwindigkeit auszuspucken? Nun, sie haben sich
00:01:39etwas einfallen lassen, das sie “Extreme Model System Co-Design” nennen. Sie sind den Latenz-Flaschenhals
00:01:44gleichzeitig von drei verschiedenen Seiten angegangen. Erstens haben sie die Speicherbandbreite optimiert. Eine Billion
00:01:50Parameter während der Textgenerierung durch den GPU-Speicher zu bewegen, erzeugt massive Staus. Um das zu beheben,
00:01:57nutzte ShowMe MXFP4-Quantisierung. Da eine 4-Bit-Komprimierung ein KI-Modell normalerweise
00:02:04weniger präzise machen kann, nutzten sie Quantization-Aware Training (QAT) und hielten die Core-Routing-Layer auf einer höheren
00:02:12Präzision. Dies minderte den Speicherdruck, während die Intelligenz des Modells nahezu identisch
00:02:18mit der unkomprimierten Version blieb. Zweitens haben sie letztendlich die Art und Weise geändert, wie das Modell Wörter vorhersagt. Standard-
00:02:25spekulative Dekodierung funktioniert so, dass ein winziges Entwurfsmodell einige Wörter voraus rät und dann das massive Haupt-
00:02:32modell die Rechnung prüft. Aber ShowMe hat hier etwas anderes gemacht, mit dem, was sie D-Flash nennen. Anstatt ein
00:02:39Token nach dem anderen zu erraten, sagt es einen ganzen Block versteckter Token gleichzeitig in einem parallelen Vorwärtspass voraus. Und
00:02:46durch Tests haben sie entdeckt, dass bei Programmieraufgaben das Hauptmodell tatsächlich einen Durchschnitt
00:02:52von 6,3 von acht Token beibehält, die D-Flash errät. Es lässt das Modell also im Wesentlichen massive
00:02:58acht-Token-Sprünge vorwärts machen, anstatt kleine Schritte zu gehen. Und drittens nutzen sie eine spezielle
00:03:04Engine, die einen wirklich lästigen Hardware-Flaschenhals löst. Wenn man also tausend Token pro Sekunde durchschiebt,
00:03:11können Standard-GPUs tatsächlich nicht mit der Befehlslogik Schritt halten. Normalerweise startet eine GPU eine Rechen-
00:03:17operation, beendet sie, löscht den Speicher und wartet dann darauf, die nächste zu starten. Und obwohl diese
00:03:23Pausen nur Mikrosekunden dauern, töten sie den Schwung komplett. Um das zu beheben, baute TileRT eine persistente
00:03:30Engine-Kernel, der permanent auf der GPU verbleibt. Sie nutzten einen Trick namens Warp-Spezialisierung,
00:03:37um verschiedenen Teilen der Hardware dauerhafte Rollen zuzuweisen. Während ein Abschnitt Daten verschiebt,
00:03:42führt ein anderer die Berechnungen aus und ein dritter kümmert sich um die Kommunikation, alles zur exakt gleichen Zeit. Also hört
00:03:48die Pipeline buchstäblich nie auf, sich zu bewegen. Und das ist so interessant, weil ich gerade ein Video über Diffusion
00:03:55Gemma gemacht habe, das auch super schnell ist, aber das gleiche Problem auf eine ganz andere Weise angeht. Schaut euch also
00:04:00dieses Video an, wenn ihr interessiert seid. Und das, meine Freunde, ist, wie ShowMe auf 1000 Token pro Sekunde kommt,
00:04:07angeblich. Aber jetzt lasst es uns tatsächlich testen und sehen, ob dieses Versprechen hält. Für meinen ersten Test
00:04:14habe ich beschlossen, eine der schweren Fragen von LeetCode zu nehmen und sie durch das Modell laufen zu lassen. Und es war rasend schnell.
00:04:20Wie wild ist das denn? Außerdem, wie wir hier sehen können, erreichte es in der Spitze 3451 Token pro Sekunde, was absolut irre ist.
00:04:29Nun, es könnte sein, dass diese LeetCode-Frage Teil der Trainingsdaten des Modells war.
00:04:34So beeindruckend das auch aussieht, es ist wahrscheinlich kein fairer Vergleich. Gehen wir also zu etwas Anspruchsvollerem über.
00:04:41Als Nächstes bat ich es, ein einfaches UI-Dashboard für persönliche Finanzen in einer einzigen HTML-Datei zu erstellen, ohne
00:04:48externe Bibliotheken und nichts allzu Ausgefallenes. Und in diesem Test konnten wir nun tatsächlich sehen, wie wahnsinnig
00:04:54leistungsfähig es ist. Es erreichte etwa 700 Token pro Sekunde für den Schlussfolgerungsteil und etwa 1000 Token
00:05:02pro Sekunde für die Ausgabeoperationen. Und das Modell brauchte nur 65 Sekunden, um die Aufgabe abzuschließen.
00:05:09Und ich finde, das Ergebnis ist ziemlich gut. Obwohl einige der Schaltflächen nicht funktionieren und einige
00:05:14der Aktionen defekt sind, ist das Design als Ganzes ziemlich gut. Ich meine, nicht schlecht für eine Ein-Minuten-Aufgabe.
00:05:21Also beschloss ich, das Modell herauszufordern, etwas noch Anspruchsvolleres zu bauen. Ich forderte es dazu auf,
00:05:26eine Webseite im Stile der Khan Academy zur Erklärung von Mathematik zu erstellen, die 10 beliebte mathematische Konzepte präsentiert, um zu sehen,
00:05:34wie komplex eine Webseite wir hier tatsächlich produzieren können. Und hier wurde es etwas schwierig.
00:05:40Ich habe diesen Test zweimal versucht und beide Male stoppte das Modell nach etwa zwei oder drei Minuten
00:05:45mit dem Generieren und fror komplett ein. Also nahm ich an, dass ich bei dieser Aufgabe das Kontextlimit des Modells erreicht habe oder
00:05:51vielleicht ShowMe eine Art Ratelimiter eingebaut hat. Also beschloss ich, die Aufgabe etwas zu vereinfachen, indem ich es bat,
00:05:58eine Webseite mit nur fünf mathematischen Konzepten zu entwerfen. Und dieses Mal hat es endlich funktioniert. Es hat es geschafft,
00:06:04die Aufgabe in 75 Sekunden zu beenden. Und das Ergebnis ist tatsächlich ziemlich schön. Die ersten drei mathematischen
00:06:10Konzept-Widgets sind tatsächlich funktionsfähig, aber alles, was danach kommt, ist kaputt, nicht funktionsfähig oder leer.
00:06:17Ich weiß also nicht genau, was hier passiert ist. Vielleicht hat das Modell einen Teil seines Kontexts während der Schlussfolgerungs-
00:06:23phase verloren, aber dennoch halte ich dies für ein ziemlich gutes Ergebnis, besonders wenn man bedenkt, dass
00:06:29wir während der Schlussfolgerungsphase durchschnittlich 500 Token pro Sekunde erreichten. Und für meinen letzten Test beschloss ich,
00:06:34etwas mehr Spaß zu haben. Ich habe einfach diesen sehr kurzen Satz eingegeben: Baue einen Subway-Surfer-
00:06:41Klon mit Three.js, und es hat tatsächlich geschafft, einen voll funktionsfähigen Subway-Surfer-Klon in nur 50
00:06:49Sekunden zu bauen. Das ist verrückt. Ich muss allerdings sagen, dass er zwar funktionsfähig ist, wie ihr hier sehen könnt, aber
00:06:55er keine Hindernisse oder Münzen oder ähnliches enthält. Er ist also etwas langweilig. Also habe ich mich dazu entschlossen,
00:07:01ihm eine Folgeaufforderung zu geben, um diese kleinen Probleme zu beheben. Und nach zwei Durchläufen hat es erfolgreich
00:07:07einige Münzen und einige Hindernisse hinzugefügt. Und ehrlich gesagt, als ich es getestet habe, war dies eine makellose Demo.
00:07:14Die Funktionalität war da. Alles funktionierte. Es hat sogar meinen Highscore nach jeder Runde gespeichert.
00:07:20Diese spezielle Demo hat mich also sehr positiv überrascht. Ich bin sicher, heutzutage können wir alle
00:07:26Subway-Surfer-Klone auch mit anderen Modellen bauen. Aber die Tatsache, dass ich einen funktionierenden Prototyp bekommen konnte,
00:07:32der nicht völlig schrecklich ist und der tatsächlich Spaß beim Spielen macht und all das in nur 50 Sekunden mit
00:07:39einigen Folgeaufforderungen, das ist ziemlich beeindruckend. Wie wir also alle in den Tests gesehen haben, hat es das Modell geschafft,
00:07:45eine Rekordgeschwindigkeit von mehr als 3000 Token pro Sekunde zu erreichen. Dies ist also tatsächlich das absolut schnellste Modell,
00:07:52das ich je gesehen habe. Und was die Ergebnisse angeht, nun ja, sicher. Einige davon sind kaputt. Einige davon
00:07:58sind unausgegoren. Das ist sicherlich kein Claude Opus oder GPT 5.5. Aber ich bin sicher, dass Xiaomis Modelle definitiv
00:08:06mit der Zeit immer besser werden. Es wird also sehr interessant sein zu sehen, was sie in Zukunft noch entwickeln werden.
00:08:12Da habt ihr es also, Leute. Das ist das Xiaomi Mimo V2.5 Ultra Speed auf den Punkt gebracht. Was denkt ihr
00:08:18über dieses Modell? Seid ihr beeindruckt? Enttäuscht? Gleichgültig? Lasst es uns unten im Kommentarbereich wissen.
00:08:24Und Leute, wenn ihr diese Art von technischen Analysen mögt, lasst es mich wissen, indem ihr auf diesen
00:08:29Like-Button unter dem Video haut. Und vergesst auch nicht, unseren Kanal zu abonnieren.
00:08:33Das war Andrus von BetterStack, und wir sehen uns in den nächsten Videos.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video