Googles neue KI generiert über 1.000 Token pro Sekunde (DiffusionGemma)

BBetter Stack
컴퓨터/소프트웨어게임/e스포츠

Transcript

00:00:00Google war in letzter Zeit sehr aktiv. Letzte Woche habe ich ein Video über ihr bahnbrechendes encoderfreies
00:00:05Gemma-4-Modell gemacht, und diese Woche haben sie ein weiteres schockierend innovatives Modell herausgebracht. Es heißt Diffusion
00:00:11Gemma, und dieses Modell ist rasend schnell. Es ist in der Lage, mehr als tausend Token
00:00:18pro Sekunde zu generieren, und der Grund, warum es das kann, ist, dass es Text auf eine völlig
00:00:23andere Weise generiert als jedes andere Modell, das Sie bisher verwendet haben. In diesem Video schauen wir uns also
00:00:29Diffusion Gemma an, sehen uns an, wie es funktioniert, und ich zeige Ihnen auch, wie Sie es selbst testen können.
00:00:35Es wird viel Spaß machen, also legen wir los.
00:00:41Jedes Sprachmodell, mit dem Sie jemals gesprochen haben, funktioniert fundamental gleich. Sie sind autoregressiv,
00:00:48und das ist ein schickes Wort dafür, dass sie ein Token nach dem anderen von links nach rechts generieren. Sie schreiben ein Wort,
00:00:54dann betrachten sie alles bisher Geschriebene, sagen dann das nächste Wort voraus, und der Kreislauf wiederholt sich einfach.
00:00:59Und bei großen kommerziellen Modellen wie Claude oder GPT funktioniert es so, dass die meiste Zeit, wenn ein Server
00:01:06ein Token generiert, nicht für die Berechnung aufgewendet wird, sondern für das Laden der Modellgewichte
00:01:12aus dem Speicher. Und das ist ziemlich verschwenderisch, wenn man nur einen Nutzer bedient. Also laden die Server hunderte
00:01:19von Nutzern zusammen, laden die Gewichte einmal und lassen sie für alle gleichzeitig laufen. Und auf diese Weise
00:01:25kann man 256 Nutzer mit einem einzigen Speichervorgang bedienen. Aber wenn man ein Modell lokal betreibt, ist man nur ein Nutzer,
00:01:33es gibt also niemanden, mit dem man stapeln kann. Die GPU lädt die massive Menge an Gewichten, führt eine winzige
00:01:39Berechnung durch, um ein Token zu erzeugen, und sitzt dann untätig herum, bevor sie alles wieder von vorn macht. Fachsprachlich ausgedrückt,
00:01:46wird das als speichergebunden bezeichnet. Ihre teure GPU verbringt den Großteil ihrer Zeit damit, auf das nächste
00:01:52Token zu warten, anstatt tatsächlich zu rechnen. Also hat Google DeepMind sich dieses Problem angesehen und eine schlaue
00:01:58Frage gestellt. Wenn die Cloud die Leerlaufzeit nutzt, indem sie 256 Nutzer gleichzeitig bedient, was wäre, wenn wir diese Leerlaufzeit
00:02:07für einen einzelnen Nutzer nutzen würden? Also, statt eines Tokens für 256 Leute, was wäre, wenn wir 256 Token für eine
00:02:16Person gleichzeitig generieren würden? Und das ist die ganze Idee hinter Diffusion Gemma. Anstatt Wort für Wort zu schreiben,
00:02:23beginnt das Modell mit einer Leinwand, die aus einer Reihe von 256 komplett zufälligen Platzhalter-Token besteht. Es ist also nur
00:02:31Rauschen. Und seine Aufgabe ist es, diese Leinwand an allen Positionen gleichzeitig zu korrigieren und sie in echten Text zu verwandeln. Indem man also alle
00:02:38256 Token auf einen Schlag vorhersagt, gibt man seiner GPU eine große Menge echter Arbeit, anstatt sie im Leerlauf zu lassen. Auf diese Weise
00:02:46wandelt man das Modell von speichergebunden in rechengebunden um, und die ganze verschwendete Feuerkraft wird endlich genutzt.
00:02:53Aber das ist nicht so einfach, wie es klingt. 256 Token auf einmal vorherzusagen, ist eigentlich wirklich schwer.
00:03:01Denn woher soll das Modell Token Nummer 254 erraten, wenn es keine Ahnung hat, was die Token 1 bis 253
00:03:09geworden sind? Und genau das passiert. Die ersten paar Token kommen gut heraus, aber je weiter es geht,
00:03:15desto mehr verfällt es in Unsinn. Aber was wäre, wenn das Modell statt nur eines Durchgangs
00:03:21mehrere Durchgänge machen würde? Und das ist der Schlüsseltrick. Das Modell geht immer wieder über die Leinwand, aber jetzt
00:03:28kann es seine eigenen vorherigen Vermutungen sehen. Die Token, die es mit Zuversicht vorhergesagt hat, werden zu Kontext-Hinweisen, die
00:03:35dabei helfen, die unsaubereren zu korrigieren. Und das Coolste daran ist, dass es nur wenige Durchgänge benötigt. Weit weniger Durchgänge als
00:03:42die Gesamtzahl von 256 Token. Und genau daher kommt die Geschwindigkeit des Modells. Und Sie haben diesen Trick wahrscheinlich schon einmal
00:03:49gesehen. Es heißt Diffusion. Man beginnt mit Rauschen und verfeinert es Schritt für Schritt. Und
00:03:55das ist genau dieselbe Idee, die KI-Bildgeneratoren antreibt. Und die Art und Weise, wie das Modell es lernt, ist, indem
00:04:01beim Training absichtlich Rauschen zu echten Bildern hinzugefügt wird und dann gelernt wird, dieses Rauschen wieder vorherzusagen und
00:04:07abzuziehen. Aber wie wendet man dasselbe Konzept auf Text an? Das ist der schwierige Teil. Denn bei einem Bild
00:04:14ist Rauschen einfach. Macht ein Pixel ein bisschen röter oder blauer. Aber wie macht man bei Text das Wort
00:04:19„the“ ein bisschen weniger „the“? Was bedeutet dieses Rauschen überhaupt für ein Wort? Nun, DeepMind hat sich etwas
00:04:27namens Uniform State Diffusion ausgedacht. Anstatt also mit Buchstaben herumzuspielen, behandelt man das zufällig
00:04:32ausgetauschte Wort als Rauschen. Und um Ihren Trainings-Text zu korrumpieren, ersetzen Sie einige echte Wörter durch zufällige
00:04:38Wörter. Und die Aufgabe des Modells ist es herauszufinden, welche Wörter Müll sind und sie schließlich mit mehreren Durchgängen zu korrigieren.
00:04:45Es gibt eigentlich eine einfachere Version dafür, die sich Mask Diffusion nennt und einfach Token ausblendet.
00:04:51Aber diese hat einen großen Fehler. Sobald sich das Modell für ein Wort entscheidet, ist es für immer festgelegt. Es hat dasselbe
00:04:57Problem, das autoregressive Modelle haben. Aber Uniform State Diffusion behebt dies, indem es immer eine Art Token an
00:05:04jeder Position hält. So kann ein Modell ein Wort betrachten, das es vor drei Schritten akzeptiert hat, entscheiden, ob es nicht mehr
00:05:10passt, und es austauschen. Wir können es also im Grunde genommen komplett selbst korrigieren. Aber diese Lösung
00:05:15hat auch einen Haken. Diffusion benötigt einen Encoder, um Ihren Prompt zu verstehen, und einen Denoiser, um die
00:05:23Leinwand zu säubern. DeepMind hat also einen Encoder-Denoiser-Patch entwickelt. Er basiert auf ihrem bestehenden 26-Milliarden-
00:05:30GEMMA4-Modell und wechselt zwischen den beiden Modi, wenn es Ihre Antwort generiert. Im Encoder-Modus
00:05:36liest das Modell Ihren Prompt, versucht, etwas Kontext und Anleitung daraus zu extrahieren. Es sammelt all das
00:05:42im KV-Cache und leitet das dann direkt an den Denoiser weiter. Und die Aufgabe des Denoisers ist im Wesentlichen,
00:05:49die Leinwand zu säubern. Und das macht es, indem es zwei Dinge tut. Erstens: Erinnern Sie sich, wie ein normales LLM einen
00:05:56Konfidenzwert oder ein Logit für jede Position erzeugt, aber alle verwirft außer dem letzten? Übrigens,
00:06:02falls Sie hier verwirrt sind, habe ich auch ein Video gemacht, in dem ich detaillierter erkläre, wie LLMs funktionieren.
00:06:07Schauen Sie sich also dieses Video an, wenn Sie interessiert sind. Im Grunde wirft Diffusion GEMMA also nicht
00:06:13die Werte weg. Es behält all diese Konfidenzwerte, weil jede Leinwand-Position ihre eigene Vorhersage benötigt.
00:06:19Und zweitens verwendet dieser Denoiser keine kausale Aufmerksamkeit, das ist die Regel, dass ein Wort nur
00:06:25nach hinten schauen kann, so funktionieren autoregressive Modelle. Stattdessen tauscht es das gegen eine bidirektionale
00:06:31Aufmerksamkeit aus. Jetzt kann also jedes Token jedes andere Token in alle Richtungen sehen. Für jede Position
00:06:38wenden Sie also diese Konfidenzwerte an, schauen auf andere Token und säubern die Leinwand langsam, Schritt für Schritt.
00:06:44Und so ist Diffusion GEMMA in der Lage, seine unglaubliche Geschwindigkeit von über 1000 Token pro Sekunde
00:06:51auf einer H100-GPU zu erreichen. Nun muss ich ehrlich mit Ihnen sein. Das ist kein Allheilmittel. Mit diesen neuen Taktiken
00:06:58tauscht Diffusion GEMMA im Grunde Qualität gegen Geschwindigkeit ein. Für Arbeit mit maximaler Qualität ist das Standard-GEMMA 4
00:07:05immer noch die bessere Wahl. Dieses Modell wurde speziell für kritische lokale Dinge wie Inline-Bearbeitung oder Code-Vervollständigung
00:07:13oder schnelle Iteration entwickelt. Und es ist besonders stark bei nicht-linearen Aufgaben wie dem Ausfüllen in der Mitte
00:07:19eines Code-Blocks oder sogar dem Lösen eines Sudoku-Rätsels, worin normale Links-nach-Rechts-Modelle wirklich ziemlich schlecht
00:07:26sind. Das klingt also alles faszinierend, aber lassen Sie uns das selbst testen und sehen, wie es in Aktion funktioniert.
00:07:33Google hat die Gewichte unter der Apache-2.0-Lizenz auf Hugging Face veröffentlicht.
00:07:38Wenn Sie also eine leistungsstarke GPU wie eine RTX 5090 haben, können Sie versuchen, sie lokal auszuführen. Und es gibt auch ein
00:07:44spezielles Rezept für VLLM, das Sie auf Docker ausführen können, um diesen Prozess zu optimieren. Aber ich bin wirklich neugierig,
00:07:51ob dieses Modell wirklich mehr als 1000 Token pro Sekunde erreichen kann. Für diesen Test werde ich also versuchen,
00:07:58es auf einer H100-GPU mit einem Run-Pod-Container auszuführen und zu sehen, wie es läuft. Und übrigens habe ich auch
00:08:04eine Diffusion-GEMMA-Vorlage für die Ausführung auf Run Pod veröffentlicht. Wenn Sie also diesen Test replizieren möchten,
00:08:10müssen Sie nur diese Vorlage ausführen, wenn Sie einen neuen Pod erstellen. Um diesen Test auf Run Pod durchzuführen,
00:08:15werde ich den H100-Container wählen. Und wie ich bereits erwähnte, habe ich eine Diffusion-GEMMA-
00:08:22Vorlage erstellt, die Sie wiederverwenden können. Sie können also einfach auf ein Volume-Laufwerk klicken und dann einfach auf Deploy
00:08:28on Demand klicken. Und es wird ein paar Minuten dauern, bis es den Container herunterlädt und alles startet.
00:08:34Und wenn wir in die Protokolle gehen, wenn Sie „application startup complete“ sehen, bedeutet das, dass VLLM bereit
00:08:40ist und jetzt über Port 8000 zugänglich ist. Wenn wir das öffnen, werden Sie „detail not found“ sehen,
00:08:46aber machen Sie sich keine Sorgen. Das bedeutet, dass es tatsächlich funktioniert. Wir müssen nur diese URL kopieren. Also, um
00:08:52Diffusion GEMMA für die Ausführung in einem KI-Agenten-Terminal zu konfigurieren, so etwas wie Open Code, müssen Sie
00:08:58Ihre Open-Code-Einstellungen konfigurieren, um auf den Remote-Server zuzugreifen. Sie können das mit diesem einfachen
00:09:04Befehl tun, und das wird die Konfigurationsdatei öffnen. Und hier gebe ich einfach unseren Run-Pod-Server an, und
00:09:11er hat das Diffusion-GEMMA-Modell ausgewählt. Und Sie können diese Datei einfach speichern und Open Code starten.
00:09:17In diesem Test werde ich es also dazu auffordern, ein persönliches Finanz-Tracking-Dashboard namens Ledger zu generieren.
00:09:24Und lassen Sie uns sehen, wie schnell es das generieren kann. Schauen Sie sich das an. Sofort beginnt es, direkt zu streamen.
00:09:34Schauen Sie, wie rasend schnell das ist. Heiliger Strohsack. Wow. Das ist wahnsinnig. Und hier in den Protokollen
00:09:43können wir sehen, dass es durchschnittlich 700 Token pro Sekunde erreicht. Für die Ausgabeseite ist es also ein bisschen gesunken,
00:09:50aber während der Reasoning-Phase ging es bis zu 700 Token pro Sekunde. Das ist wahnsinnig. Lassen Sie uns das also
00:09:58öffnen. Okay. Das sieht aus wie ein Dashboard. Das ist nett. Okay. Wir bekommen tatsächlich einige Kategorien
00:10:06und so etwas hier. Wenn wir hier etwas hinzufügen. Oh, es fügt es tatsächlich als Ausgabe hinzu. Also die
00:10:13Ausgaben aktualisieren sich nicht wirklich. Es ist also nicht voll funktionsfähig, aber zumindest sind einige Teile interaktiv.
00:10:20Für die nächste Aufgabe lassen Sie uns sehen, ob es tatsächlich ein Spiel im Arcade-Stil machen kann.
00:10:26Also lassen Sie uns es starten. Wieder einmal ist die Geschwindigkeit einfach wahnsinnig. Okay. Dieses hier dauert etwas länger.
00:10:36Wir haben hier tatsächlich zwei Dateien. Interessant, interessant. Okay. Es hat also einen Tippfehler bemerkt und dann hat es
00:10:44die HTML-Datei noch einmal verarbeitet, was ziemlich gut ist. Okay. Alles klar. Lassen Sie uns diese hier öffnen. Neu starten.
00:10:52Oh, wow. Dieses hier, es funktioniert. Oh, wow. Das ist cool. Wow. Sehr nett. Das ist beeindruckend. Das Spiel ist also
00:11:03voll funktionsfähig, und es hat 14 Sekunden gedauert, dieses Spiel zu generieren. 14 Sekunden, um ein Spiel wie dieses zu generieren.
00:11:11Obwohl ihre Marketingseite besagte, dass wir auf der H100 Geschwindigkeiten von tausend Token pro Sekunde erwarten könnten.
00:11:18Das war nicht meine Beobachtung. Ähm, ich weiß nicht. Vielleicht gibt es etwas, das ich in der
00:11:26Vorlage oder in meinen Prompts optimieren sollte, aber nichtsdestotrotz bin ich wirklich beeindruckt. Es ist ein Biest. Da haben Sie es also,
00:11:33Leute. Das ist Diffusion GEMMA in einer Nussschale. Ich denke, das hier ist eine der interessantesten Veröffentlichungen
00:11:38des Jahres, weil es beweist, dass man ein völlig anderes Generationsparadigma aus der Welt der Bilder
00:11:44auf ein bestehendes Modell klatschen kann, das man bereits trainiert hat, und echte Geschwindigkeitsgewinne für einzelne lokale Benutzer-
00:11:51Setups freischaltet. Und ich denke, das öffnet auch die Tür für eine ganz neue Familie schneller, interaktiver lokaler Modelle,
00:11:58die das volle Potenzial Ihrer Hardware nutzen, anstatt sie im Leerlauf zu lassen. Was denken Sie
00:12:04über Diffusion GEMMA? Haben Sie es ausprobiert? Werden Sie es benutzen? Lassen Sie es uns im Kommentarbereich unten wissen.
00:12:09Und Leute, wenn euch diese Art von technischen Analysen gefällt, lasst es mich bitte wissen, indem ihr den
00:12:14Like-Button unter dem Video zerschlagt. Und vergesst auch nicht, unseren Kanal zu abonnieren. Das war
00:12:19Andrus von Betterstack, und wir sehen uns in den nächsten Videos.

Key Takeaway

Durch die Anwendung von Uniform State Diffusion generiert Diffusion Gemma Text in einem parallelen, nicht-autoregressiven Prozess, der die Leerlaufzeiten der GPU minimiert und eine signifikant höhere Generierungsgeschwindigkeit ermöglicht.

Highlights

  • Diffusion Gemma nutzt ein neues Generierungsmodell, um auf einer H100-GPU bis zu 700 Token pro Sekunde zu erreichen.

  • Das Modell generiert Texte nicht sequenziell von links nach rechts, sondern über einen diffusionsbasierten Prozess an allen 256 Positionen gleichzeitig.

  • Der Wechsel von autoregressiver Generierung zu Uniform State Diffusion nutzt die Rechenleistung der GPU effizienter aus, indem das Modell rechengebunden statt speichergebunden arbeitet.

  • Durch bidirektionale Aufmerksamkeit kann das Modell in mehreren Durchgängen eigene Vorhersagen validieren und selbst korrigieren.

  • Das Modell eignet sich besonders für nicht-lineare Aufgaben wie die Code-Vervollständigung in der Mitte eines Blocks oder das Lösen von Sudoku-Rätseln.

Timeline

Grundlagen und Limitationen aktueller Sprachmodelle

  • Herkömmliche Sprachmodelle arbeiten autoregressiv und erzeugen Token nacheinander von links nach rechts.
  • Der Flaschenhals kommerzieller Server liegt primär im Laden der Modellgewichte aus dem Speicher, nicht in der Berechnung.
  • Lokale Instanzen mit nur einem Nutzer belasten die GPU durch ständiges Laden der Gewichte bei minimaler Rechenauslastung.

Autoregressive Modelle benötigen für jedes Wort Zugriff auf alle bisher generierten Token. Server optimieren diesen Prozess durch das Zusammenlegen von 256 Nutzern pro Speichervorgang. Lokal agierende GPUs verbringen aufgrund des fehlenden Nutzers-Batchings einen Großteil der Zeit im Leerlauf, da sie speichergebunden arbeiten.

Funktionsweise von Diffusion Gemma

  • Diffusion Gemma generiert 256 Token gleichzeitig, indem es mit einer Leinwand aus zufälligem Rauschen beginnt.
  • Das Modell verfeinert das Rauschen in mehreren Durchgängen, wobei frühere, sichere Vorhersagen als Kontext für nachfolgende Korrekturen dienen.
  • Die Uniform State Diffusion ersetzt das simple Maskieren von Wörtern durch den Austausch von Token, was eine kontinuierliche Selbstkorrektur erlaubt.

Anstatt ein Wort nach dem anderen vorherzusagen, nutzt das Modell die gesamte Rechenkapazität der GPU für alle 256 Positionen gleichzeitig. Dieser iterative Prozess ähnelt der Bildgenerierung durch Diffusion. Die Uniform State Diffusion stellt sicher, dass an jeder Position stets ein Token vorhanden ist, was die Flexibilität gegenüber fest maskierten Modellen erhöht.

Architektur und Anwendungsszenarien

  • Ein Encoder-Denoiser-Patch auf Basis des 26-Milliarden-Gemma-Modells steuert die Generierung.
  • Das Modell ersetzt kausale Aufmerksamkeit durch bidirektionale Aufmerksamkeit, was den Zugriff auf Informationen in alle Richtungen ermöglicht.
  • Die Modellarchitektur priorisiert Geschwindigkeit gegenüber maximaler Qualität und eignet sich ideal für Inline-Bearbeitung oder Code-Vervollständigung.

Der Encoder extrahiert Kontext aus dem Prompt, während der Denoiser die Leinwand schrittweise bereinigt. Im Gegensatz zu autoregressiven Modellen verwirft das System Konfidenzwerte nicht, sondern nutzt sie für die schrittweise Korrektur der Token. Trotz hoher Geschwindigkeiten bleibt das Standard-Gemma-Modell für Aufgaben mit höchsten Qualitätsansprüchen die präzisere Wahl.

Testlauf und Leistungsanalyse

  • In einem Praxistest auf einer H100-GPU erreichte das Modell in der Reasoning-Phase Geschwindigkeiten von bis zu 700 Token pro Sekunde.
  • Das Modell generierte ein funktionsfähiges Arcade-Spiel in 14 Sekunden.
  • Das Paradigma der parallelen Textgenerierung eröffnet neue Wege für interaktive, lokale KI-Agenten.

Ein Test mit einem Run-Pod-Container auf einer H100-GPU bestätigte die hohe Effizienz bei der Erstellung von Code-Strukturen und komplexen Dashboards. Während die erzielten 700 Token pro Sekunde leicht unter dem theoretischen Maximum von 1.000 Token liegen, demonstriert der Test die praktische Einsetzbarkeit für schnelle Iterationsprozesse.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video