Google hat das größte Problem der multimodalen KI gelöst (Gemma 4 12B)

Deutschالعربية English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

컴퓨터/소프트웨어가전제품/카메라

Transcript

00:00:00Google hat gerade sein neuestes 12-Milliarden-Parameter-Modell Gemma 4 vorgestellt, und das ist ein echter Wendepunkt.

00:00:06Nein, im Ernst, das ist kein Clickbait. Dieses Modell verändert die Art und Weise, wie es aufgebaut ist, tatsächlich grundlegend.

00:00:13Was es von allen anderen KI-Modellen unterscheidet, ist die Tatsache, dass es vollständig

00:00:18ohne Encoder auskommt. Was bedeutet das, wie funktioniert es und warum ist das so eine große Sache?

00:00:24Nun, das sind alles gute Fragen, denen wir im heutigen Video nachgehen werden. Es wird eine Menge

00:00:29Spaß machen. Also stürzen wir uns direkt hinein. Das Gemma 4 12-Milliarden-Modell hat eine neue Architektur, die

00:00:39komplett mit der Funktionsweise jedes anderen multimodalen Modells bricht. Multimodales Modell. Oh mein

00:00:46Gott, das ist so ein Zungenbrecher. Um zu verstehen, warum das so wichtig ist, müssen wir

00:00:51uns ansehen, wie alle anderen multimodalen Modelle derzeit arbeiten. Sprachmodelle sind darauf ausgelegt, Token zu lesen,

00:00:57also im Grunde Textstücke, die in Zahlen umgewandelt wurden. Sie wissen von Natur aus nicht, was ein Pixel ist oder wie

00:01:05eine Schallwelle aussieht. Also kleben wir normalerweise verschiedene Modelle zusammen. Wenn man einer KI ein Bild gibt, fängt ein massiver

00:01:11Vision-Encoder es zuerst ab. Er verbraucht Unmengen an Rechenleistung, um diese Rohpixel in eine

00:01:19Sprache zu übersetzen, die das LLM tatsächlich verstehen kann. Und das Gleiche gilt für Audio. Ein separater Sprach-Encoder muss

00:01:25die Schallwellen zuerst übersetzen. Bis das eigentliche Gehirn der KI die Daten erhält, lässt man drei

00:01:32separate Netzwerke gleichzeitig laufen. Auf einem Standard-Laptop frisst das komplett Ihren VRAM und verlangsamt

00:01:38alles. Aber Google DeepMind hat sich dieses Problem angesehen und gedacht: Was, wenn wir einfach den

00:01:44Zwischenhändler eliminieren können? Also haben sie im Gemma 4 12-Milliarden-Modell den schweren Vision-Encoder komplett entfernt. Stattdessen

00:01:51zerlegt das Modell das Bild, wenn man es einspeist, in kleine 48-mal-48-Pixel-Patches. Und anstatt

00:01:58diese Patches durch Dutzende Schichten eines separaten Vision-Netzwerks zu jagen, durchlaufen die Rohpixel einen einzigen

00:02:04dünnen mathematischen Schritt, genannt lineare Projektion. Und diese lineare Projektion ist nur ein massives Gitter aus Zahlen,

00:02:11das 2304 Pixelwerte nimmt, da dies einem 48-mal-48-Pixel-Quadrat entspricht, sie in einem

00:02:19einzigen Schritt multipliziert und sie in eine einzelne Reihe streckt, die perfekt zum Text-Token-Format

00:02:26des LLM passt. Es analysiert also noch nicht, was sich im Bild befindet, sondern formatiert die Rohdaten lediglich so um, dass sie

00:02:32durch das Modell passen. Und wenn man sich Standardmodelle ansieht, sind deren Vision-Encoder massiv. Zum Beispiel

00:02:38hat dieser hier 550 Millionen Parameter. Das liegt daran, dass ein herkömmlicher Encoder viele Daten benötigt, um das Bild umzuformen,

00:02:45abzubilden und zu verstehen. Er hat Dutzende interner Attention-Layer, die Beziehungen

00:02:50zwischen Pixeln berechnen, um herauszufinden, wo die Kanten sind, was die Formen sind und was die Objekte sein könnten,

00:02:57bevor er sie überhaupt an das Textmodell übergibt. Aber DeepMind hat das geschrumpft, indem sie all diese schwere

00:03:04Denkleistung komplett gelöscht haben. Sie erkannten, dass das Haupt-Sprachrückgrat bereits unglaublich intelligent ist und über

00:03:10genügend Schichten verfügt, um die eigentliche visuelle Schlussfolgerung vorzunehmen. Also blieben nach dem Entfernen all dieser Denkschichten

00:03:17nur noch 35 Millionen Parameter übrig, und das ist buchstäblich nur die rohe physische Anzahl der Verbindungsgewichte, die benötigt werden,

00:03:24um diese Pixelgitter in ein Textformat abzubilden. Es ist also eine statische Ein-Schicht-Abbildung, die für jedes Bild funktioniert.

00:03:30Da es kein internes Denken ausführt, verbraucht es praktisch keine Rechenleistung, was den VRAM freigibt

00:03:37und das LLM die eigentliche Intelligenz nativ verarbeiten lässt. Und um zu verstehen, wie dieser einzelne Schritt funktioniert,

00:03:44muss man sich ansehen, was tatsächlich im Inneren des Rückgrats eines Sprachmodells passiert. Jedes Sprachmodell hat eine

00:03:50interne Formatierungsregel, die als verborgene Dimension bezeichnet wird. Stellen Sie es sich wie eine standardisierte Fachgröße vor. Egal ob es

00:03:56das Wort Apfel, ein Stück Code oder ein Satzzeichen ist, alles, was in das LLM eingespeist wird, muss in

00:04:04diese spezifische massive Liste von Zahlen umgewandelt werden, weil sie mit den Dimensionen der Matrizen übereinstimmen muss. Und dieser rohe

00:04:1148-mal-48-Pixel-Patch ist nur ein Gitter aus 2304 einzelnen Farbzahlen. Wenn Sie versuchen, dieses rohe Stück

00:04:19direkt in das LLM einzuspeisen, wird das Modell es ablehnen, weil die Dimensionen nicht übereinstimmen. Und genau deshalb

00:04:26existiert diese 35-Millionen-Parameter-Mapping-Schicht. Es ist buchstäblich ein einzelnes massives Gitter aus

00:04:33Verbindungsgewichten, das diese 2304 Pixelwerte multipliziert und sie in eine einzelne Reihe streckt, die

00:04:40perfekt zum Text-Token-Format des LLM passt. Es führt keine analytischen Überlegungen durch, sondern fungiert nur als Format-Konverter,

00:04:48damit die Daten direkt in den Haupt-Transformer gleiten können, wo das eigentliche visuelle Denken nativ stattfindet.

00:04:54Und das Modell macht etwas Ähnliches auch für Audio-Schlussfolgerungen, aber für Audio ist es noch einfacher.

00:05:01Die Art und Weise, wie sie den Audio-Encoder loswerden konnten, besteht darin, ein rohes 16-Kilohertz-Audiosignal zu nehmen und

00:05:07es in kontinuierliche 40-Millisekunden-Frames zu zerlegen. Jeder kleine Frame enthält genau 640 Gleitkommazahlen,

00:05:15die die Schallwelle beschreiben. Das Modell nimmt diese 640 Floats und führt sie durch eine ähnliche

00:05:21einfache Projektionsschicht, die sie direkt in den Eingaberaum des Sprachmodells abbildet. Für das Transformer-Rückgrat

00:05:28sieht ein 40-Millisekunden-Audioblock identisch mit einem kontinuierlichen Strom von Text-Token aus. Weil Ton

00:05:35bereits eine chronologische Sequenz ist, genau wie ein Satz in einer Wortfolge, behandelt das LLM Audio

00:05:42exakt wie Text. Diese tiefe native Integration ermöglicht es dem 12-Milliarden-Parameter-Modell, Live-Transkription,

00:05:49Übersetzung und Textformatierung in einem einzigen Vorwärtsdurchlauf durchzuführen, ohne Sie zu zwingen, separate Sprachnetzwerke

00:05:56in Ihren Speicher zu laden. Diese kluge Taktik ist ein riesiger Gewinn für das lokale Ausführen von Modellen auf Ihrer eigenen

00:06:02Hardware. Indem DeepMind den ganzen Encoder-Ballast abgeworfen hat, konnten sie unglaubliche Denkpower

00:06:08in einen winzigen Fußabdruck packen. Und beim Blick auf die Benchmarks nähert es sich der Leistung ihrer massiven 26

00:06:15Milliarden-Parameter-Modelle an, passt aber problemlos auf einen Standard-Laptop mit 16 Gigabyte VRAM

00:06:21oder mehr. Zudem hat Google native Multi-Token-Vorhersage-Drafter direkt integriert, was bedeutet, dass es

00:06:28mehrere Token gleichzeitig vorhersagt, um hohe lokale Inferenzgeschwindigkeiten zu erreichen, ohne dass Sie das Modell komprimieren müssen.

00:06:34Das klingt alles beeindruckend. Also lassen Sie es uns testen und sehen, wie es auf meinem lokalen M2 MacBook Pro funktioniert.

00:06:41Und einige Leute in meinem vorherigen OMLX-Video fragten, wie viel VRAM ich eigentlich auf meiner

00:06:48Maschine habe? Um diese Frage zu beantworten: Ich habe 24 Gigabyte VRAM. Damit arbeiten wir

00:06:53heute. Ich muss auch sagen, diese Edge-Gallery-Anwendung ist so fehlerhaft. Wenn ich zum Beispiel versuche, ein

00:07:01Bild hinzuzufügen und frage: Bitte analysiere dieses Bild, stürzt es sofort ab und gibt mir diesen zufälligen Fehler. Und das

00:07:13ist in der neuesten Version. Leider konnten wir den Vision-Encoder also nicht mit der offiziellen AI Edge

00:07:20Gallery-Anwendung testen, aber es gibt noch einen anderen Weg, wie wir es tatsächlich ausprobieren können. Okay. Da ich

00:07:26die Bildverarbeitung mit dem Gemma 4 12-Milliarden-Modell nicht zuverlässig mit der Google AI Edge Gallery

00:07:34Anwendung testen konnte, habe ich beschlossen, es auf OMLX zu testen. Ich habe auch ein Video über OMLX gemacht. Es ist ein unglaubliches

00:07:42Framework zum lokalen Ausführen von KI-Modellen, speziell auf Apple Silicon. Und wie Sie hier sehen können, habe ich

00:07:47die 8-Bit-quantisierte Version dieses Modells heruntergeladen. Jetzt gehe ich also zum Chat-Bereich

00:07:54und wir schauen, wie schnell es Bild-Schlussfolgerungen in Echtzeit durchführen kann. Hier habe ich einen Testordner

00:08:01mit zwei Bildern. Eines davon ist nur ein Screenshot von Abflügen am Flughafen. Wir werden dieses Bild also verwenden

00:08:09und fragen: Was siehst du auf diesem Bild? Und ich möchte, dass Sie darauf achten, dass ich dieses Video nicht beschleunige.

00:08:18Das ist alles in Echtzeit. Ich möchte, dass Sie darauf achten, wie schnell es in der Lage ist, Überlegungen

00:08:24zu solch einem Bild anzustellen. Es startet hier, lädt das Modell, generiert und bumm, schau dir das an.

00:08:33Sieh dir an, wie schnell es dieses Bild analysieren und wertvolle Informationen daraus extrahieren kann.

00:08:41Als ich das zum ersten Mal auf OMLX sah, war ich von der Geschwindigkeit wirklich überwältigt. Es ist absolut wahnsinnig.

00:08:50Ich muss also sagen, dies ist das beste Modell, das ich lokal für Bild-Schlussfolgerungen getestet habe. Und ich möchte auch

00:08:57dass Sie darauf achten, dass ich dieses Modell offline ausführe. Ich habe mein WLAN nicht eingeschaltet.

00:09:03Also versuchen wir ein weiteres Beispiel. Dies ist nur ein unscharfes Bild der TV-Serie Vikings mit einigen

00:09:10Charakteren. Öffnen wir also noch einmal dieses Bild und fragen das Gleiche. Was siehst du auf diesem

00:09:21Bild? Es generiert.

00:09:27Und bumm, sieh dir das an.

00:09:30Ich meine, das ist einfach wahnsinnig. Das ist so schnell. Ich war so überrascht.

00:09:37Also ja, ich bin ehrlich gesagt sehr, sehr beeindruckt von der Bildverarbeitungsleistung dieses neuen Modells.

00:09:43Da haben Sie es also, Leute. Das ist das neue Encoder-freie Gemma 4 12-Milliarden-Modell auf den Punkt gebracht.

00:09:50Ich war ziemlich frustriert, dass ich es nicht selbstbewusst in ihrer offiziellen AI Edge Gallery

00:09:56Anwendung testen konnte. Aber wie wir gesehen haben, gibt es andere alternative und vielleicht sogar bessere Möglichkeiten, es

00:10:01lokal auszuführen. Ich denke also, dass dies ein sehr gutes Modell ist und es die Zukunft des Ausführens

00:10:07lokaler KI-Modelle komplett verändert. Google DeepMind hat gerade bewiesen, dass ein einzelnes Sprachrückgrat intelligent genug ist,

00:10:13um Vision und Ton nativ zu verarbeiten. Diese neue Technik wird wahrscheinlich Türen öffnen, um noch

00:10:19effizientere multimodale Schlussfolgerungsmodelle zu entwickeln, die problemlos auf Edge-Geräten laufen können. Was denken Sie

00:10:26über das neue Gemma-Modell? Haben Sie es ausprobiert? Werden Sie es benutzen? Lassen Sie es uns im Kommentarbereich weiter

00:10:32unten wissen. Und Leute, wenn ihr diese Art von technischen Analysen mögt, lasst es mich bitte wissen, indem ihr auf den

00:10:37Like-Button unter dem Video hämmert. Und vergesst auch nicht, unseren Kanal zu abonnieren. Das war Andres

00:10:43von BetterStack und wir sehen uns in den nächsten Videos.

Key Takeaway

Durch die Entfernung traditioneller, rechenintensiver Vision- und Audio-Encoder zugunsten einer einfachen linearen Projektionsschicht erreicht das Gemma 4 12B-Modell eine effiziente, native multimodale Verarbeitung auf handelsüblicher Consumer-Hardware.

Highlights

Das Modell Gemma 4 12B verzichtet vollständig auf separate Encoder für Bild- und Audiodaten.
Die Eingangsdaten werden durch eine lineare Projektionsschicht mit 35 Millionen Parametern direkt in das Text-Token-Format des Modells transformiert.
Bilder werden in 48x48-Pixel-Patches zerlegt und ohne komplexe Vorverarbeitung in das Sprachrückgrat eingespeist.
Audiosignale mit 16 kHz werden in 40-Millisekunden-Frames unterteilt, die das Modell als chronologische Sequenzen analog zu Text behandelt.
Die Architektur ermöglicht eine native Verarbeitung von Vision und Audio in einem einzigen Vorwärtsdurchlauf auf Standard-Laptops mit 16 GB VRAM.
Die integrierte Multi-Token-Vorhersage steigert die Inferenzgeschwindigkeit bei lokaler Ausführung erheblich.

Timeline

Problemstellung: Ineffizienz herkömmlicher Encoder

Multimodale KI-Modelle nutzen üblicherweise separate, rechenintensive Encoder für Text, Bild und Ton.
Vision-Encoder verbrauchen signifikante VRAM-Ressourcen, indem sie Rohpixel in für Sprachmodelle verständliche Formate übersetzen.
Die Kopplung mehrerer Netzwerke führt zu hohen Latenzzeiten und hohem Speicherbedarf auf Standard-Hardware.

Herkömmliche Architekturen setzen auf spezialisierte Netzwerke, um unterschiedliche Datentypen wie Pixel oder Schallwellen für Sprachmodelle zu übersetzen. Ein einzelner Vision-Encoder kann dabei bis zu 550 Millionen Parameter umfassen. Dies beansprucht VRAM und verlangsamt die Inferenzgeschwindigkeit, da mehrere separate Netzwerke gleichzeitig aktiv sein müssen.

Architektur von Gemma 4 12B: Wegfall der Encoder

Gemma 4 12B ersetzt Encoder durch eine 35 Millionen Parameter umfassende, lineare Projektionsschicht.
Bilder werden in 48x48-Pixel-Patches (2304 Werte) zerlegt und in das Text-Token-Format transformiert.
Audio wird in 40-Millisekunden-Frames mit je 640 Werten direkt in den Eingaberaum des Modells projiziert.
Das Sprachmodell-Rückgrat übernimmt die visuelle und auditive Analyse nativ ohne zusätzliche Denkschichten in den Encodern.

Anstatt komplexe Merkmalsextraktionen vorzunehmen, fungiert die neue Schicht lediglich als Format-Konverter. Rohdaten werden in eine Dimension gestreckt, die exakt mit den internen Matrizen des Sprachmodells übereinstimmt. Da das Hauptmodell über genügend Intelligenz für die Schlussfolgerung verfügt, entfällt der Bedarf an separaten, interpretierenden Encodern.

Lokale Inferenz und Leistungsnachweis

Die native Integration ermöglicht Live-Transkription und Bildanalyse in einem einzigen Vorwärtsdurchlauf.
Das Modell läuft effizient auf Hardware mit 16 GB VRAM oder mehr.
Integrierte Multi-Token-Vorhersage-Drafter verbessern die lokale Inferenzgeschwindigkeit bei der Bildanalyse.
Praktische Tests auf Apple Silicon bestätigen eine hohe Verarbeitungsgeschwindigkeit bei der Echtzeit-Bildinterpretation.

Tests mit dem OMLX-Framework zeigen, dass das Modell Bilder und Audiodaten unmittelbar ohne zusätzliche Netzwerkbelastung verarbeitet. Selbst bei komplexen Bildinhalten liefert das Modell in Echtzeit präzise Analysen. Die Architektur ermöglicht somit leistungsfähige multimodale KI-Anwendungen auf lokalen Edge-Geräten.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video