Google hat das größte Problem der multimodalen KI gelöst (Gemma 4 12B)

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라

Transcript

00:00:00Google hat gerade sein neuestes 12-Milliarden-Parameter-Modell Gemma 4 vorgestellt, und das ist ein echter Wendepunkt.
00:00:06Nein, im Ernst, das ist kein Clickbait. Dieses Modell verändert die Art und Weise, wie es aufgebaut ist, tatsächlich grundlegend.
00:00:13Was es von allen anderen KI-Modellen unterscheidet, ist die Tatsache, dass es vollständig
00:00:18ohne Encoder auskommt. Was bedeutet das, wie funktioniert es und warum ist das so eine große Sache?
00:00:24Nun, das sind alles gute Fragen, denen wir im heutigen Video nachgehen werden. Es wird eine Menge
00:00:29Spaß machen. Also stürzen wir uns direkt hinein. Das Gemma 4 12-Milliarden-Modell hat eine neue Architektur, die
00:00:39komplett mit der Funktionsweise jedes anderen multimodalen Modells bricht. Multimodales Modell. Oh mein
00:00:46Gott, das ist so ein Zungenbrecher. Um zu verstehen, warum das so wichtig ist, müssen wir
00:00:51uns ansehen, wie alle anderen multimodalen Modelle derzeit arbeiten. Sprachmodelle sind darauf ausgelegt, Token zu lesen,
00:00:57also im Grunde Textstücke, die in Zahlen umgewandelt wurden. Sie wissen von Natur aus nicht, was ein Pixel ist oder wie
00:01:05eine Schallwelle aussieht. Also kleben wir normalerweise verschiedene Modelle zusammen. Wenn man einer KI ein Bild gibt, fängt ein massiver
00:01:11Vision-Encoder es zuerst ab. Er verbraucht Unmengen an Rechenleistung, um diese Rohpixel in eine
00:01:19Sprache zu übersetzen, die das LLM tatsächlich verstehen kann. Und das Gleiche gilt für Audio. Ein separater Sprach-Encoder muss
00:01:25die Schallwellen zuerst übersetzen. Bis das eigentliche Gehirn der KI die Daten erhält, lässt man drei
00:01:32separate Netzwerke gleichzeitig laufen. Auf einem Standard-Laptop frisst das komplett Ihren VRAM und verlangsamt
00:01:38alles. Aber Google DeepMind hat sich dieses Problem angesehen und gedacht: Was, wenn wir einfach den
00:01:44Zwischenhändler eliminieren können? Also haben sie im Gemma 4 12-Milliarden-Modell den schweren Vision-Encoder komplett entfernt. Stattdessen
00:01:51zerlegt das Modell das Bild, wenn man es einspeist, in kleine 48-mal-48-Pixel-Patches. Und anstatt
00:01:58diese Patches durch Dutzende Schichten eines separaten Vision-Netzwerks zu jagen, durchlaufen die Rohpixel einen einzigen
00:02:04dünnen mathematischen Schritt, genannt lineare Projektion. Und diese lineare Projektion ist nur ein massives Gitter aus Zahlen,
00:02:11das 2304 Pixelwerte nimmt, da dies einem 48-mal-48-Pixel-Quadrat entspricht, sie in einem
00:02:19einzigen Schritt multipliziert und sie in eine einzelne Reihe streckt, die perfekt zum Text-Token-Format
00:02:26des LLM passt. Es analysiert also noch nicht, was sich im Bild befindet, sondern formatiert die Rohdaten lediglich so um, dass sie
00:02:32durch das Modell passen. Und wenn man sich Standardmodelle ansieht, sind deren Vision-Encoder massiv. Zum Beispiel
00:02:38hat dieser hier 550 Millionen Parameter. Das liegt daran, dass ein herkömmlicher Encoder viele Daten benötigt, um das Bild umzuformen,
00:02:45abzubilden und zu verstehen. Er hat Dutzende interner Attention-Layer, die Beziehungen
00:02:50zwischen Pixeln berechnen, um herauszufinden, wo die Kanten sind, was die Formen sind und was die Objekte sein könnten,
00:02:57bevor er sie überhaupt an das Textmodell übergibt. Aber DeepMind hat das geschrumpft, indem sie all diese schwere
00:03:04Denkleistung komplett gelöscht haben. Sie erkannten, dass das Haupt-Sprachrückgrat bereits unglaublich intelligent ist und über
00:03:10genügend Schichten verfügt, um die eigentliche visuelle Schlussfolgerung vorzunehmen. Also blieben nach dem Entfernen all dieser Denkschichten
00:03:17nur noch 35 Millionen Parameter übrig, und das ist buchstäblich nur die rohe physische Anzahl der Verbindungsgewichte, die benötigt werden,
00:03:24um diese Pixelgitter in ein Textformat abzubilden. Es ist also eine statische Ein-Schicht-Abbildung, die für jedes Bild funktioniert.
00:03:30Da es kein internes Denken ausführt, verbraucht es praktisch keine Rechenleistung, was den VRAM freigibt
00:03:37und das LLM die eigentliche Intelligenz nativ verarbeiten lässt. Und um zu verstehen, wie dieser einzelne Schritt funktioniert,
00:03:44muss man sich ansehen, was tatsächlich im Inneren des Rückgrats eines Sprachmodells passiert. Jedes Sprachmodell hat eine
00:03:50interne Formatierungsregel, die als verborgene Dimension bezeichnet wird. Stellen Sie es sich wie eine standardisierte Fachgröße vor. Egal ob es
00:03:56das Wort Apfel, ein Stück Code oder ein Satzzeichen ist, alles, was in das LLM eingespeist wird, muss in
00:04:04diese spezifische massive Liste von Zahlen umgewandelt werden, weil sie mit den Dimensionen der Matrizen übereinstimmen muss. Und dieser rohe
00:04:1148-mal-48-Pixel-Patch ist nur ein Gitter aus 2304 einzelnen Farbzahlen. Wenn Sie versuchen, dieses rohe Stück
00:04:19direkt in das LLM einzuspeisen, wird das Modell es ablehnen, weil die Dimensionen nicht übereinstimmen. Und genau deshalb
00:04:26existiert diese 35-Millionen-Parameter-Mapping-Schicht. Es ist buchstäblich ein einzelnes massives Gitter aus
00:04:33Verbindungsgewichten, das diese 2304 Pixelwerte multipliziert und sie in eine einzelne Reihe streckt, die
00:04:40perfekt zum Text-Token-Format des LLM passt. Es führt keine analytischen Überlegungen durch, sondern fungiert nur als Format-Konverter,
00:04:48damit die Daten direkt in den Haupt-Transformer gleiten können, wo das eigentliche visuelle Denken nativ stattfindet.
00:04:54Und das Modell macht etwas Ähnliches auch für Audio-Schlussfolgerungen, aber für Audio ist es noch einfacher.
00:05:01Die Art und Weise, wie sie den Audio-Encoder loswerden konnten, besteht darin, ein rohes 16-Kilohertz-Audiosignal zu nehmen und
00:05:07es in kontinuierliche 40-Millisekunden-Frames zu zerlegen. Jeder kleine Frame enthält genau 640 Gleitkommazahlen,
00:05:15die die Schallwelle beschreiben. Das Modell nimmt diese 640 Floats und führt sie durch eine ähnliche
00:05:21einfache Projektionsschicht, die sie direkt in den Eingaberaum des Sprachmodells abbildet. Für das Transformer-Rückgrat
00:05:28sieht ein 40-Millisekunden-Audioblock identisch mit einem kontinuierlichen Strom von Text-Token aus. Weil Ton
00:05:35bereits eine chronologische Sequenz ist, genau wie ein Satz in einer Wortfolge, behandelt das LLM Audio
00:05:42exakt wie Text. Diese tiefe native Integration ermöglicht es dem 12-Milliarden-Parameter-Modell, Live-Transkription,
00:05:49Übersetzung und Textformatierung in einem einzigen Vorwärtsdurchlauf durchzuführen, ohne Sie zu zwingen, separate Sprachnetzwerke
00:05:56in Ihren Speicher zu laden. Diese kluge Taktik ist ein riesiger Gewinn für das lokale Ausführen von Modellen auf Ihrer eigenen
00:06:02Hardware. Indem DeepMind den ganzen Encoder-Ballast abgeworfen hat, konnten sie unglaubliche Denkpower
00:06:08in einen winzigen Fußabdruck packen. Und beim Blick auf die Benchmarks nähert es sich der Leistung ihrer massiven 26
00:06:15Milliarden-Parameter-Modelle an, passt aber problemlos auf einen Standard-Laptop mit 16 Gigabyte VRAM
00:06:21oder mehr. Zudem hat Google native Multi-Token-Vorhersage-Drafter direkt integriert, was bedeutet, dass es
00:06:28mehrere Token gleichzeitig vorhersagt, um hohe lokale Inferenzgeschwindigkeiten zu erreichen, ohne dass Sie das Modell komprimieren müssen.
00:06:34Das klingt alles beeindruckend. Also lassen Sie es uns testen und sehen, wie es auf meinem lokalen M2 MacBook Pro funktioniert.
00:06:41Und einige Leute in meinem vorherigen OMLX-Video fragten, wie viel VRAM ich eigentlich auf meiner
00:06:48Maschine habe? Um diese Frage zu beantworten: Ich habe 24 Gigabyte VRAM. Damit arbeiten wir
00:06:53heute. Ich muss auch sagen, diese Edge-Gallery-Anwendung ist so fehlerhaft. Wenn ich zum Beispiel versuche, ein
00:07:01Bild hinzuzufügen und frage: Bitte analysiere dieses Bild, stürzt es sofort ab und gibt mir diesen zufälligen Fehler. Und das
00:07:13ist in der neuesten Version. Leider konnten wir den Vision-Encoder also nicht mit der offiziellen AI Edge
00:07:20Gallery-Anwendung testen, aber es gibt noch einen anderen Weg, wie wir es tatsächlich ausprobieren können. Okay. Da ich
00:07:26die Bildverarbeitung mit dem Gemma 4 12-Milliarden-Modell nicht zuverlässig mit der Google AI Edge Gallery
00:07:34Anwendung testen konnte, habe ich beschlossen, es auf OMLX zu testen. Ich habe auch ein Video über OMLX gemacht. Es ist ein unglaubliches
00:07:42Framework zum lokalen Ausführen von KI-Modellen, speziell auf Apple Silicon. Und wie Sie hier sehen können, habe ich
00:07:47die 8-Bit-quantisierte Version dieses Modells heruntergeladen. Jetzt gehe ich also zum Chat-Bereich
00:07:54und wir schauen, wie schnell es Bild-Schlussfolgerungen in Echtzeit durchführen kann. Hier habe ich einen Testordner
00:08:01mit zwei Bildern. Eines davon ist nur ein Screenshot von Abflügen am Flughafen. Wir werden dieses Bild also verwenden
00:08:09und fragen: Was siehst du auf diesem Bild? Und ich möchte, dass Sie darauf achten, dass ich dieses Video nicht beschleunige.
00:08:18Das ist alles in Echtzeit. Ich möchte, dass Sie darauf achten, wie schnell es in der Lage ist, Überlegungen
00:08:24zu solch einem Bild anzustellen. Es startet hier, lädt das Modell, generiert und bumm, schau dir das an.
00:08:33Sieh dir an, wie schnell es dieses Bild analysieren und wertvolle Informationen daraus extrahieren kann.
00:08:41Als ich das zum ersten Mal auf OMLX sah, war ich von der Geschwindigkeit wirklich überwältigt. Es ist absolut wahnsinnig.
00:08:50Ich muss also sagen, dies ist das beste Modell, das ich lokal für Bild-Schlussfolgerungen getestet habe. Und ich möchte auch
00:08:57dass Sie darauf achten, dass ich dieses Modell offline ausführe. Ich habe mein WLAN nicht eingeschaltet.
00:09:03Also versuchen wir ein weiteres Beispiel. Dies ist nur ein unscharfes Bild der TV-Serie Vikings mit einigen
00:09:10Charakteren. Öffnen wir also noch einmal dieses Bild und fragen das Gleiche. Was siehst du auf diesem
00:09:21Bild? Es generiert.
00:09:27Und bumm, sieh dir das an.
00:09:30Ich meine, das ist einfach wahnsinnig. Das ist so schnell. Ich war so überrascht.
00:09:37Also ja, ich bin ehrlich gesagt sehr, sehr beeindruckt von der Bildverarbeitungsleistung dieses neuen Modells.
00:09:43Da haben Sie es also, Leute. Das ist das neue Encoder-freie Gemma 4 12-Milliarden-Modell auf den Punkt gebracht.
00:09:50Ich war ziemlich frustriert, dass ich es nicht selbstbewusst in ihrer offiziellen AI Edge Gallery
00:09:56Anwendung testen konnte. Aber wie wir gesehen haben, gibt es andere alternative und vielleicht sogar bessere Möglichkeiten, es
00:10:01lokal auszuführen. Ich denke also, dass dies ein sehr gutes Modell ist und es die Zukunft des Ausführens
00:10:07lokaler KI-Modelle komplett verändert. Google DeepMind hat gerade bewiesen, dass ein einzelnes Sprachrückgrat intelligent genug ist,
00:10:13um Vision und Ton nativ zu verarbeiten. Diese neue Technik wird wahrscheinlich Türen öffnen, um noch
00:10:19effizientere multimodale Schlussfolgerungsmodelle zu entwickeln, die problemlos auf Edge-Geräten laufen können. Was denken Sie
00:10:26über das neue Gemma-Modell? Haben Sie es ausprobiert? Werden Sie es benutzen? Lassen Sie es uns im Kommentarbereich weiter
00:10:32unten wissen. Und Leute, wenn ihr diese Art von technischen Analysen mögt, lasst es mich bitte wissen, indem ihr auf den
00:10:37Like-Button unter dem Video hämmert. Und vergesst auch nicht, unseren Kanal zu abonnieren. Das war Andres
00:10:43von BetterStack und wir sehen uns in den nächsten Videos.

Key Takeaway

Durch die Entfernung traditioneller, rechenintensiver Vision- und Audio-Encoder zugunsten einer einfachen linearen Projektionsschicht erreicht das Gemma 4 12B-Modell eine effiziente, native multimodale Verarbeitung auf handelsüblicher Consumer-Hardware.

Highlights

  • Das Modell Gemma 4 12B verzichtet vollständig auf separate Encoder für Bild- und Audiodaten.

  • Die Eingangsdaten werden durch eine lineare Projektionsschicht mit 35 Millionen Parametern direkt in das Text-Token-Format des Modells transformiert.

  • Bilder werden in 48x48-Pixel-Patches zerlegt und ohne komplexe Vorverarbeitung in das Sprachrückgrat eingespeist.

  • Audiosignale mit 16 kHz werden in 40-Millisekunden-Frames unterteilt, die das Modell als chronologische Sequenzen analog zu Text behandelt.

  • Die Architektur ermöglicht eine native Verarbeitung von Vision und Audio in einem einzigen Vorwärtsdurchlauf auf Standard-Laptops mit 16 GB VRAM.

  • Die integrierte Multi-Token-Vorhersage steigert die Inferenzgeschwindigkeit bei lokaler Ausführung erheblich.

Timeline

Problemstellung: Ineffizienz herkömmlicher Encoder

  • Multimodale KI-Modelle nutzen üblicherweise separate, rechenintensive Encoder für Text, Bild und Ton.
  • Vision-Encoder verbrauchen signifikante VRAM-Ressourcen, indem sie Rohpixel in für Sprachmodelle verständliche Formate übersetzen.
  • Die Kopplung mehrerer Netzwerke führt zu hohen Latenzzeiten und hohem Speicherbedarf auf Standard-Hardware.

Herkömmliche Architekturen setzen auf spezialisierte Netzwerke, um unterschiedliche Datentypen wie Pixel oder Schallwellen für Sprachmodelle zu übersetzen. Ein einzelner Vision-Encoder kann dabei bis zu 550 Millionen Parameter umfassen. Dies beansprucht VRAM und verlangsamt die Inferenzgeschwindigkeit, da mehrere separate Netzwerke gleichzeitig aktiv sein müssen.

Architektur von Gemma 4 12B: Wegfall der Encoder

  • Gemma 4 12B ersetzt Encoder durch eine 35 Millionen Parameter umfassende, lineare Projektionsschicht.
  • Bilder werden in 48x48-Pixel-Patches (2304 Werte) zerlegt und in das Text-Token-Format transformiert.
  • Audio wird in 40-Millisekunden-Frames mit je 640 Werten direkt in den Eingaberaum des Modells projiziert.
  • Das Sprachmodell-Rückgrat übernimmt die visuelle und auditive Analyse nativ ohne zusätzliche Denkschichten in den Encodern.

Anstatt komplexe Merkmalsextraktionen vorzunehmen, fungiert die neue Schicht lediglich als Format-Konverter. Rohdaten werden in eine Dimension gestreckt, die exakt mit den internen Matrizen des Sprachmodells übereinstimmt. Da das Hauptmodell über genügend Intelligenz für die Schlussfolgerung verfügt, entfällt der Bedarf an separaten, interpretierenden Encodern.

Lokale Inferenz und Leistungsnachweis

  • Die native Integration ermöglicht Live-Transkription und Bildanalyse in einem einzigen Vorwärtsdurchlauf.
  • Das Modell läuft effizient auf Hardware mit 16 GB VRAM oder mehr.
  • Integrierte Multi-Token-Vorhersage-Drafter verbessern die lokale Inferenzgeschwindigkeit bei der Bildanalyse.
  • Praktische Tests auf Apple Silicon bestätigen eine hohe Verarbeitungsgeschwindigkeit bei der Echtzeit-Bildinterpretation.

Tests mit dem OMLX-Framework zeigen, dass das Modell Bilder und Audiodaten unmittelbar ohne zusätzliche Netzwerkbelastung verarbeitet. Selbst bei komplexen Bildinhalten liefert das Modell in Echtzeit präzise Analysen. Die Architektur ermöglicht somit leistungsfähige multimodale KI-Anwendungen auf lokalen Edge-Geräten.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video