Googles neue KI generiert über 1.000 Token pro Sekunde (DiffusionGemma)
BBetter Stack
Computing/SoftwareVideo & Computer Games
Transcript
00:00:00Google war in letzter Zeit sehr aktiv. Letzte Woche habe ich ein Video über ihr bahnbrechendes encoderfreies
00:00:05Gemma-4-Modell gemacht, und diese Woche haben sie ein weiteres schockierend innovatives Modell herausgebracht. Es heißt Diffusion
00:00:11Gemma, und dieses Modell ist rasend schnell. Es ist in der Lage, mehr als tausend Token
00:00:18pro Sekunde zu generieren, und der Grund, warum es das kann, ist, dass es Text auf eine völlig
00:00:23andere Weise generiert als jedes andere Modell, das Sie bisher verwendet haben. In diesem Video schauen wir uns also
00:00:29Diffusion Gemma an, sehen uns an, wie es funktioniert, und ich zeige Ihnen auch, wie Sie es selbst testen können.
00:00:35Es wird viel Spaß machen, also legen wir los.
00:00:41Jedes Sprachmodell, mit dem Sie jemals gesprochen haben, funktioniert fundamental gleich. Sie sind autoregressiv,
00:00:48und das ist ein schickes Wort dafür, dass sie ein Token nach dem anderen von links nach rechts generieren. Sie schreiben ein Wort,
00:00:54dann betrachten sie alles bisher Geschriebene, sagen dann das nächste Wort voraus, und der Kreislauf wiederholt sich einfach.
00:00:59Und bei großen kommerziellen Modellen wie Claude oder GPT funktioniert es so, dass die meiste Zeit, wenn ein Server
00:01:06ein Token generiert, nicht für die Berechnung aufgewendet wird, sondern für das Laden der Modellgewichte
00:01:12aus dem Speicher. Und das ist ziemlich verschwenderisch, wenn man nur einen Nutzer bedient. Also laden die Server hunderte
00:01:19von Nutzern zusammen, laden die Gewichte einmal und lassen sie für alle gleichzeitig laufen. Und auf diese Weise
00:01:25kann man 256 Nutzer mit einem einzigen Speichervorgang bedienen. Aber wenn man ein Modell lokal betreibt, ist man nur ein Nutzer,
00:01:33es gibt also niemanden, mit dem man stapeln kann. Die GPU lädt die massive Menge an Gewichten, führt eine winzige
00:01:39Berechnung durch, um ein Token zu erzeugen, und sitzt dann untätig herum, bevor sie alles wieder von vorn macht. Fachsprachlich ausgedrückt,
00:01:46wird das als speichergebunden bezeichnet. Ihre teure GPU verbringt den Großteil ihrer Zeit damit, auf das nächste
00:01:52Token zu warten, anstatt tatsächlich zu rechnen. Also hat Google DeepMind sich dieses Problem angesehen und eine schlaue
00:01:58Frage gestellt. Wenn die Cloud die Leerlaufzeit nutzt, indem sie 256 Nutzer gleichzeitig bedient, was wäre, wenn wir diese Leerlaufzeit
00:02:07für einen einzelnen Nutzer nutzen würden? Also, statt eines Tokens für 256 Leute, was wäre, wenn wir 256 Token für eine
00:02:16Person gleichzeitig generieren würden? Und das ist die ganze Idee hinter Diffusion Gemma. Anstatt Wort für Wort zu schreiben,
00:02:23beginnt das Modell mit einer Leinwand, die aus einer Reihe von 256 komplett zufälligen Platzhalter-Token besteht. Es ist also nur
00:02:31Rauschen. Und seine Aufgabe ist es, diese Leinwand an allen Positionen gleichzeitig zu korrigieren und sie in echten Text zu verwandeln. Indem man also alle
00:02:38256 Token auf einen Schlag vorhersagt, gibt man seiner GPU eine große Menge echter Arbeit, anstatt sie im Leerlauf zu lassen. Auf diese Weise
00:02:46wandelt man das Modell von speichergebunden in rechengebunden um, und die ganze verschwendete Feuerkraft wird endlich genutzt.
00:02:53Aber das ist nicht so einfach, wie es klingt. 256 Token auf einmal vorherzusagen, ist eigentlich wirklich schwer.
00:03:01Denn woher soll das Modell Token Nummer 254 erraten, wenn es keine Ahnung hat, was die Token 1 bis 253
00:03:09geworden sind? Und genau das passiert. Die ersten paar Token kommen gut heraus, aber je weiter es geht,
00:03:15desto mehr verfällt es in Unsinn. Aber was wäre, wenn das Modell statt nur eines Durchgangs
00:03:21mehrere Durchgänge machen würde? Und das ist der Schlüsseltrick. Das Modell geht immer wieder über die Leinwand, aber jetzt
00:03:28kann es seine eigenen vorherigen Vermutungen sehen. Die Token, die es mit Zuversicht vorhergesagt hat, werden zu Kontext-Hinweisen, die
00:03:35dabei helfen, die unsaubereren zu korrigieren. Und das Coolste daran ist, dass es nur wenige Durchgänge benötigt. Weit weniger Durchgänge als
00:03:42die Gesamtzahl von 256 Token. Und genau daher kommt die Geschwindigkeit des Modells. Und Sie haben diesen Trick wahrscheinlich schon einmal
00:03:49gesehen. Es heißt Diffusion. Man beginnt mit Rauschen und verfeinert es Schritt für Schritt. Und
00:03:55das ist genau dieselbe Idee, die KI-Bildgeneratoren antreibt. Und die Art und Weise, wie das Modell es lernt, ist, indem
00:04:01beim Training absichtlich Rauschen zu echten Bildern hinzugefügt wird und dann gelernt wird, dieses Rauschen wieder vorherzusagen und
00:04:07abzuziehen. Aber wie wendet man dasselbe Konzept auf Text an? Das ist der schwierige Teil. Denn bei einem Bild
00:04:14ist Rauschen einfach. Macht ein Pixel ein bisschen röter oder blauer. Aber wie macht man bei Text das Wort
00:04:19„the“ ein bisschen weniger „the“? Was bedeutet dieses Rauschen überhaupt für ein Wort? Nun, DeepMind hat sich etwas
00:04:27namens Uniform State Diffusion ausgedacht. Anstatt also mit Buchstaben herumzuspielen, behandelt man das zufällig
00:04:32ausgetauschte Wort als Rauschen. Und um Ihren Trainings-Text zu korrumpieren, ersetzen Sie einige echte Wörter durch zufällige
00:04:38Wörter. Und die Aufgabe des Modells ist es herauszufinden, welche Wörter Müll sind und sie schließlich mit mehreren Durchgängen zu korrigieren.
00:04:45Es gibt eigentlich eine einfachere Version dafür, die sich Mask Diffusion nennt und einfach Token ausblendet.
00:04:51Aber diese hat einen großen Fehler. Sobald sich das Modell für ein Wort entscheidet, ist es für immer festgelegt. Es hat dasselbe
00:04:57Problem, das autoregressive Modelle haben. Aber Uniform State Diffusion behebt dies, indem es immer eine Art Token an
00:05:04jeder Position hält. So kann ein Modell ein Wort betrachten, das es vor drei Schritten akzeptiert hat, entscheiden, ob es nicht mehr
00:05:10passt, und es austauschen. Wir können es also im Grunde genommen komplett selbst korrigieren. Aber diese Lösung
00:05:15hat auch einen Haken. Diffusion benötigt einen Encoder, um Ihren Prompt zu verstehen, und einen Denoiser, um die
00:05:23Leinwand zu säubern. DeepMind hat also einen Encoder-Denoiser-Patch entwickelt. Er basiert auf ihrem bestehenden 26-Milliarden-
00:05:30GEMMA4-Modell und wechselt zwischen den beiden Modi, wenn es Ihre Antwort generiert. Im Encoder-Modus
00:05:36liest das Modell Ihren Prompt, versucht, etwas Kontext und Anleitung daraus zu extrahieren. Es sammelt all das
00:05:42im KV-Cache und leitet das dann direkt an den Denoiser weiter. Und die Aufgabe des Denoisers ist im Wesentlichen,
00:05:49die Leinwand zu säubern. Und das macht es, indem es zwei Dinge tut. Erstens: Erinnern Sie sich, wie ein normales LLM einen
00:05:56Konfidenzwert oder ein Logit für jede Position erzeugt, aber alle verwirft außer dem letzten? Übrigens,
00:06:02falls Sie hier verwirrt sind, habe ich auch ein Video gemacht, in dem ich detaillierter erkläre, wie LLMs funktionieren.
00:06:07Schauen Sie sich also dieses Video an, wenn Sie interessiert sind. Im Grunde wirft Diffusion GEMMA also nicht
00:06:13die Werte weg. Es behält all diese Konfidenzwerte, weil jede Leinwand-Position ihre eigene Vorhersage benötigt.
00:06:19Und zweitens verwendet dieser Denoiser keine kausale Aufmerksamkeit, das ist die Regel, dass ein Wort nur
00:06:25nach hinten schauen kann, so funktionieren autoregressive Modelle. Stattdessen tauscht es das gegen eine bidirektionale
00:06:31Aufmerksamkeit aus. Jetzt kann also jedes Token jedes andere Token in alle Richtungen sehen. Für jede Position
00:06:38wenden Sie also diese Konfidenzwerte an, schauen auf andere Token und säubern die Leinwand langsam, Schritt für Schritt.
00:06:44Und so ist Diffusion GEMMA in der Lage, seine unglaubliche Geschwindigkeit von über 1000 Token pro Sekunde
00:06:51auf einer H100-GPU zu erreichen. Nun muss ich ehrlich mit Ihnen sein. Das ist kein Allheilmittel. Mit diesen neuen Taktiken
00:06:58tauscht Diffusion GEMMA im Grunde Qualität gegen Geschwindigkeit ein. Für Arbeit mit maximaler Qualität ist das Standard-GEMMA 4
00:07:05immer noch die bessere Wahl. Dieses Modell wurde speziell für kritische lokale Dinge wie Inline-Bearbeitung oder Code-Vervollständigung
00:07:13oder schnelle Iteration entwickelt. Und es ist besonders stark bei nicht-linearen Aufgaben wie dem Ausfüllen in der Mitte
00:07:19eines Code-Blocks oder sogar dem Lösen eines Sudoku-Rätsels, worin normale Links-nach-Rechts-Modelle wirklich ziemlich schlecht
00:07:26sind. Das klingt also alles faszinierend, aber lassen Sie uns das selbst testen und sehen, wie es in Aktion funktioniert.
00:07:33Google hat die Gewichte unter der Apache-2.0-Lizenz auf Hugging Face veröffentlicht.
00:07:38Wenn Sie also eine leistungsstarke GPU wie eine RTX 5090 haben, können Sie versuchen, sie lokal auszuführen. Und es gibt auch ein
00:07:44spezielles Rezept für VLLM, das Sie auf Docker ausführen können, um diesen Prozess zu optimieren. Aber ich bin wirklich neugierig,
00:07:51ob dieses Modell wirklich mehr als 1000 Token pro Sekunde erreichen kann. Für diesen Test werde ich also versuchen,
00:07:58es auf einer H100-GPU mit einem Run-Pod-Container auszuführen und zu sehen, wie es läuft. Und übrigens habe ich auch
00:08:04eine Diffusion-GEMMA-Vorlage für die Ausführung auf Run Pod veröffentlicht. Wenn Sie also diesen Test replizieren möchten,
00:08:10müssen Sie nur diese Vorlage ausführen, wenn Sie einen neuen Pod erstellen. Um diesen Test auf Run Pod durchzuführen,
00:08:15werde ich den H100-Container wählen. Und wie ich bereits erwähnte, habe ich eine Diffusion-GEMMA-
00:08:22Vorlage erstellt, die Sie wiederverwenden können. Sie können also einfach auf ein Volume-Laufwerk klicken und dann einfach auf Deploy
00:08:28on Demand klicken. Und es wird ein paar Minuten dauern, bis es den Container herunterlädt und alles startet.
00:08:34Und wenn wir in die Protokolle gehen, wenn Sie „application startup complete“ sehen, bedeutet das, dass VLLM bereit
00:08:40ist und jetzt über Port 8000 zugänglich ist. Wenn wir das öffnen, werden Sie „detail not found“ sehen,
00:08:46aber machen Sie sich keine Sorgen. Das bedeutet, dass es tatsächlich funktioniert. Wir müssen nur diese URL kopieren. Also, um
00:08:52Diffusion GEMMA für die Ausführung in einem KI-Agenten-Terminal zu konfigurieren, so etwas wie Open Code, müssen Sie
00:08:58Ihre Open-Code-Einstellungen konfigurieren, um auf den Remote-Server zuzugreifen. Sie können das mit diesem einfachen
00:09:04Befehl tun, und das wird die Konfigurationsdatei öffnen. Und hier gebe ich einfach unseren Run-Pod-Server an, und
00:09:11er hat das Diffusion-GEMMA-Modell ausgewählt. Und Sie können diese Datei einfach speichern und Open Code starten.
00:09:17In diesem Test werde ich es also dazu auffordern, ein persönliches Finanz-Tracking-Dashboard namens Ledger zu generieren.
00:09:24Und lassen Sie uns sehen, wie schnell es das generieren kann. Schauen Sie sich das an. Sofort beginnt es, direkt zu streamen.
00:09:34Schauen Sie, wie rasend schnell das ist. Heiliger Strohsack. Wow. Das ist wahnsinnig. Und hier in den Protokollen
00:09:43können wir sehen, dass es durchschnittlich 700 Token pro Sekunde erreicht. Für die Ausgabeseite ist es also ein bisschen gesunken,
00:09:50aber während der Reasoning-Phase ging es bis zu 700 Token pro Sekunde. Das ist wahnsinnig. Lassen Sie uns das also
00:09:58öffnen. Okay. Das sieht aus wie ein Dashboard. Das ist nett. Okay. Wir bekommen tatsächlich einige Kategorien
00:10:06und so etwas hier. Wenn wir hier etwas hinzufügen. Oh, es fügt es tatsächlich als Ausgabe hinzu. Also die
00:10:13Ausgaben aktualisieren sich nicht wirklich. Es ist also nicht voll funktionsfähig, aber zumindest sind einige Teile interaktiv.
00:10:20Für die nächste Aufgabe lassen Sie uns sehen, ob es tatsächlich ein Spiel im Arcade-Stil machen kann.
00:10:26Also lassen Sie uns es starten. Wieder einmal ist die Geschwindigkeit einfach wahnsinnig. Okay. Dieses hier dauert etwas länger.
00:10:36Wir haben hier tatsächlich zwei Dateien. Interessant, interessant. Okay. Es hat also einen Tippfehler bemerkt und dann hat es
00:10:44die HTML-Datei noch einmal verarbeitet, was ziemlich gut ist. Okay. Alles klar. Lassen Sie uns diese hier öffnen. Neu starten.
00:10:52Oh, wow. Dieses hier, es funktioniert. Oh, wow. Das ist cool. Wow. Sehr nett. Das ist beeindruckend. Das Spiel ist also
00:11:03voll funktionsfähig, und es hat 14 Sekunden gedauert, dieses Spiel zu generieren. 14 Sekunden, um ein Spiel wie dieses zu generieren.
00:11:11Obwohl ihre Marketingseite besagte, dass wir auf der H100 Geschwindigkeiten von tausend Token pro Sekunde erwarten könnten.
00:11:18Das war nicht meine Beobachtung. Ähm, ich weiß nicht. Vielleicht gibt es etwas, das ich in der
00:11:26Vorlage oder in meinen Prompts optimieren sollte, aber nichtsdestotrotz bin ich wirklich beeindruckt. Es ist ein Biest. Da haben Sie es also,
00:11:33Leute. Das ist Diffusion GEMMA in einer Nussschale. Ich denke, das hier ist eine der interessantesten Veröffentlichungen
00:11:38des Jahres, weil es beweist, dass man ein völlig anderes Generationsparadigma aus der Welt der Bilder
00:11:44auf ein bestehendes Modell klatschen kann, das man bereits trainiert hat, und echte Geschwindigkeitsgewinne für einzelne lokale Benutzer-
00:11:51Setups freischaltet. Und ich denke, das öffnet auch die Tür für eine ganz neue Familie schneller, interaktiver lokaler Modelle,
00:11:58die das volle Potenzial Ihrer Hardware nutzen, anstatt sie im Leerlauf zu lassen. Was denken Sie
00:12:04über Diffusion GEMMA? Haben Sie es ausprobiert? Werden Sie es benutzen? Lassen Sie es uns im Kommentarbereich unten wissen.
00:12:09Und Leute, wenn euch diese Art von technischen Analysen gefällt, lasst es mich bitte wissen, indem ihr den
00:12:14Like-Button unter dem Video zerschlagt. Und vergesst auch nicht, unseren Kanal zu abonnieren. Das war
00:12:19Andrus von Betterstack, und wir sehen uns in den nächsten Videos.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video