Google hat das größte Problem der multimodalen KI gelöst (Gemma 4 12B)
BBetter Stack
컴퓨터/소프트웨어가전제품/카메라
Transcript
00:00:00Google hat gerade sein neuestes 12-Milliarden-Parameter-Modell Gemma 4 vorgestellt, und das ist ein echter Wendepunkt.
00:00:06Nein, im Ernst, das ist kein Clickbait. Dieses Modell verändert die Art und Weise, wie es aufgebaut ist, tatsächlich grundlegend.
00:00:13Was es von allen anderen KI-Modellen unterscheidet, ist die Tatsache, dass es vollständig
00:00:18ohne Encoder auskommt. Was bedeutet das, wie funktioniert es und warum ist das so eine große Sache?
00:00:24Nun, das sind alles gute Fragen, denen wir im heutigen Video nachgehen werden. Es wird eine Menge
00:00:29Spaß machen. Also stürzen wir uns direkt hinein. Das Gemma 4 12-Milliarden-Modell hat eine neue Architektur, die
00:00:39komplett mit der Funktionsweise jedes anderen multimodalen Modells bricht. Multimodales Modell. Oh mein
00:00:46Gott, das ist so ein Zungenbrecher. Um zu verstehen, warum das so wichtig ist, müssen wir
00:00:51uns ansehen, wie alle anderen multimodalen Modelle derzeit arbeiten. Sprachmodelle sind darauf ausgelegt, Token zu lesen,
00:00:57also im Grunde Textstücke, die in Zahlen umgewandelt wurden. Sie wissen von Natur aus nicht, was ein Pixel ist oder wie
00:01:05eine Schallwelle aussieht. Also kleben wir normalerweise verschiedene Modelle zusammen. Wenn man einer KI ein Bild gibt, fängt ein massiver
00:01:11Vision-Encoder es zuerst ab. Er verbraucht Unmengen an Rechenleistung, um diese Rohpixel in eine
00:01:19Sprache zu übersetzen, die das LLM tatsächlich verstehen kann. Und das Gleiche gilt für Audio. Ein separater Sprach-Encoder muss
00:01:25die Schallwellen zuerst übersetzen. Bis das eigentliche Gehirn der KI die Daten erhält, lässt man drei
00:01:32separate Netzwerke gleichzeitig laufen. Auf einem Standard-Laptop frisst das komplett Ihren VRAM und verlangsamt
00:01:38alles. Aber Google DeepMind hat sich dieses Problem angesehen und gedacht: Was, wenn wir einfach den
00:01:44Zwischenhändler eliminieren können? Also haben sie im Gemma 4 12-Milliarden-Modell den schweren Vision-Encoder komplett entfernt. Stattdessen
00:01:51zerlegt das Modell das Bild, wenn man es einspeist, in kleine 48-mal-48-Pixel-Patches. Und anstatt
00:01:58diese Patches durch Dutzende Schichten eines separaten Vision-Netzwerks zu jagen, durchlaufen die Rohpixel einen einzigen
00:02:04dünnen mathematischen Schritt, genannt lineare Projektion. Und diese lineare Projektion ist nur ein massives Gitter aus Zahlen,
00:02:11das 2304 Pixelwerte nimmt, da dies einem 48-mal-48-Pixel-Quadrat entspricht, sie in einem
00:02:19einzigen Schritt multipliziert und sie in eine einzelne Reihe streckt, die perfekt zum Text-Token-Format
00:02:26des LLM passt. Es analysiert also noch nicht, was sich im Bild befindet, sondern formatiert die Rohdaten lediglich so um, dass sie
00:02:32durch das Modell passen. Und wenn man sich Standardmodelle ansieht, sind deren Vision-Encoder massiv. Zum Beispiel
00:02:38hat dieser hier 550 Millionen Parameter. Das liegt daran, dass ein herkömmlicher Encoder viele Daten benötigt, um das Bild umzuformen,
00:02:45abzubilden und zu verstehen. Er hat Dutzende interner Attention-Layer, die Beziehungen
00:02:50zwischen Pixeln berechnen, um herauszufinden, wo die Kanten sind, was die Formen sind und was die Objekte sein könnten,
00:02:57bevor er sie überhaupt an das Textmodell übergibt. Aber DeepMind hat das geschrumpft, indem sie all diese schwere
00:03:04Denkleistung komplett gelöscht haben. Sie erkannten, dass das Haupt-Sprachrückgrat bereits unglaublich intelligent ist und über
00:03:10genügend Schichten verfügt, um die eigentliche visuelle Schlussfolgerung vorzunehmen. Also blieben nach dem Entfernen all dieser Denkschichten
00:03:17nur noch 35 Millionen Parameter übrig, und das ist buchstäblich nur die rohe physische Anzahl der Verbindungsgewichte, die benötigt werden,
00:03:24um diese Pixelgitter in ein Textformat abzubilden. Es ist also eine statische Ein-Schicht-Abbildung, die für jedes Bild funktioniert.
00:03:30Da es kein internes Denken ausführt, verbraucht es praktisch keine Rechenleistung, was den VRAM freigibt
00:03:37und das LLM die eigentliche Intelligenz nativ verarbeiten lässt. Und um zu verstehen, wie dieser einzelne Schritt funktioniert,
00:03:44muss man sich ansehen, was tatsächlich im Inneren des Rückgrats eines Sprachmodells passiert. Jedes Sprachmodell hat eine
00:03:50interne Formatierungsregel, die als verborgene Dimension bezeichnet wird. Stellen Sie es sich wie eine standardisierte Fachgröße vor. Egal ob es
00:03:56das Wort Apfel, ein Stück Code oder ein Satzzeichen ist, alles, was in das LLM eingespeist wird, muss in
00:04:04diese spezifische massive Liste von Zahlen umgewandelt werden, weil sie mit den Dimensionen der Matrizen übereinstimmen muss. Und dieser rohe
00:04:1148-mal-48-Pixel-Patch ist nur ein Gitter aus 2304 einzelnen Farbzahlen. Wenn Sie versuchen, dieses rohe Stück
00:04:19direkt in das LLM einzuspeisen, wird das Modell es ablehnen, weil die Dimensionen nicht übereinstimmen. Und genau deshalb
00:04:26existiert diese 35-Millionen-Parameter-Mapping-Schicht. Es ist buchstäblich ein einzelnes massives Gitter aus
00:04:33Verbindungsgewichten, das diese 2304 Pixelwerte multipliziert und sie in eine einzelne Reihe streckt, die
00:04:40perfekt zum Text-Token-Format des LLM passt. Es führt keine analytischen Überlegungen durch, sondern fungiert nur als Format-Konverter,
00:04:48damit die Daten direkt in den Haupt-Transformer gleiten können, wo das eigentliche visuelle Denken nativ stattfindet.
00:04:54Und das Modell macht etwas Ähnliches auch für Audio-Schlussfolgerungen, aber für Audio ist es noch einfacher.
00:05:01Die Art und Weise, wie sie den Audio-Encoder loswerden konnten, besteht darin, ein rohes 16-Kilohertz-Audiosignal zu nehmen und
00:05:07es in kontinuierliche 40-Millisekunden-Frames zu zerlegen. Jeder kleine Frame enthält genau 640 Gleitkommazahlen,
00:05:15die die Schallwelle beschreiben. Das Modell nimmt diese 640 Floats und führt sie durch eine ähnliche
00:05:21einfache Projektionsschicht, die sie direkt in den Eingaberaum des Sprachmodells abbildet. Für das Transformer-Rückgrat
00:05:28sieht ein 40-Millisekunden-Audioblock identisch mit einem kontinuierlichen Strom von Text-Token aus. Weil Ton
00:05:35bereits eine chronologische Sequenz ist, genau wie ein Satz in einer Wortfolge, behandelt das LLM Audio
00:05:42exakt wie Text. Diese tiefe native Integration ermöglicht es dem 12-Milliarden-Parameter-Modell, Live-Transkription,
00:05:49Übersetzung und Textformatierung in einem einzigen Vorwärtsdurchlauf durchzuführen, ohne Sie zu zwingen, separate Sprachnetzwerke
00:05:56in Ihren Speicher zu laden. Diese kluge Taktik ist ein riesiger Gewinn für das lokale Ausführen von Modellen auf Ihrer eigenen
00:06:02Hardware. Indem DeepMind den ganzen Encoder-Ballast abgeworfen hat, konnten sie unglaubliche Denkpower
00:06:08in einen winzigen Fußabdruck packen. Und beim Blick auf die Benchmarks nähert es sich der Leistung ihrer massiven 26
00:06:15Milliarden-Parameter-Modelle an, passt aber problemlos auf einen Standard-Laptop mit 16 Gigabyte VRAM
00:06:21oder mehr. Zudem hat Google native Multi-Token-Vorhersage-Drafter direkt integriert, was bedeutet, dass es
00:06:28mehrere Token gleichzeitig vorhersagt, um hohe lokale Inferenzgeschwindigkeiten zu erreichen, ohne dass Sie das Modell komprimieren müssen.
00:06:34Das klingt alles beeindruckend. Also lassen Sie es uns testen und sehen, wie es auf meinem lokalen M2 MacBook Pro funktioniert.
00:06:41Und einige Leute in meinem vorherigen OMLX-Video fragten, wie viel VRAM ich eigentlich auf meiner
00:06:48Maschine habe? Um diese Frage zu beantworten: Ich habe 24 Gigabyte VRAM. Damit arbeiten wir
00:06:53heute. Ich muss auch sagen, diese Edge-Gallery-Anwendung ist so fehlerhaft. Wenn ich zum Beispiel versuche, ein
00:07:01Bild hinzuzufügen und frage: Bitte analysiere dieses Bild, stürzt es sofort ab und gibt mir diesen zufälligen Fehler. Und das
00:07:13ist in der neuesten Version. Leider konnten wir den Vision-Encoder also nicht mit der offiziellen AI Edge
00:07:20Gallery-Anwendung testen, aber es gibt noch einen anderen Weg, wie wir es tatsächlich ausprobieren können. Okay. Da ich
00:07:26die Bildverarbeitung mit dem Gemma 4 12-Milliarden-Modell nicht zuverlässig mit der Google AI Edge Gallery
00:07:34Anwendung testen konnte, habe ich beschlossen, es auf OMLX zu testen. Ich habe auch ein Video über OMLX gemacht. Es ist ein unglaubliches
00:07:42Framework zum lokalen Ausführen von KI-Modellen, speziell auf Apple Silicon. Und wie Sie hier sehen können, habe ich
00:07:47die 8-Bit-quantisierte Version dieses Modells heruntergeladen. Jetzt gehe ich also zum Chat-Bereich
00:07:54und wir schauen, wie schnell es Bild-Schlussfolgerungen in Echtzeit durchführen kann. Hier habe ich einen Testordner
00:08:01mit zwei Bildern. Eines davon ist nur ein Screenshot von Abflügen am Flughafen. Wir werden dieses Bild also verwenden
00:08:09und fragen: Was siehst du auf diesem Bild? Und ich möchte, dass Sie darauf achten, dass ich dieses Video nicht beschleunige.
00:08:18Das ist alles in Echtzeit. Ich möchte, dass Sie darauf achten, wie schnell es in der Lage ist, Überlegungen
00:08:24zu solch einem Bild anzustellen. Es startet hier, lädt das Modell, generiert und bumm, schau dir das an.
00:08:33Sieh dir an, wie schnell es dieses Bild analysieren und wertvolle Informationen daraus extrahieren kann.
00:08:41Als ich das zum ersten Mal auf OMLX sah, war ich von der Geschwindigkeit wirklich überwältigt. Es ist absolut wahnsinnig.
00:08:50Ich muss also sagen, dies ist das beste Modell, das ich lokal für Bild-Schlussfolgerungen getestet habe. Und ich möchte auch
00:08:57dass Sie darauf achten, dass ich dieses Modell offline ausführe. Ich habe mein WLAN nicht eingeschaltet.
00:09:03Also versuchen wir ein weiteres Beispiel. Dies ist nur ein unscharfes Bild der TV-Serie Vikings mit einigen
00:09:10Charakteren. Öffnen wir also noch einmal dieses Bild und fragen das Gleiche. Was siehst du auf diesem
00:09:21Bild? Es generiert.
00:09:27Und bumm, sieh dir das an.
00:09:30Ich meine, das ist einfach wahnsinnig. Das ist so schnell. Ich war so überrascht.
00:09:37Also ja, ich bin ehrlich gesagt sehr, sehr beeindruckt von der Bildverarbeitungsleistung dieses neuen Modells.
00:09:43Da haben Sie es also, Leute. Das ist das neue Encoder-freie Gemma 4 12-Milliarden-Modell auf den Punkt gebracht.
00:09:50Ich war ziemlich frustriert, dass ich es nicht selbstbewusst in ihrer offiziellen AI Edge Gallery
00:09:56Anwendung testen konnte. Aber wie wir gesehen haben, gibt es andere alternative und vielleicht sogar bessere Möglichkeiten, es
00:10:01lokal auszuführen. Ich denke also, dass dies ein sehr gutes Modell ist und es die Zukunft des Ausführens
00:10:07lokaler KI-Modelle komplett verändert. Google DeepMind hat gerade bewiesen, dass ein einzelnes Sprachrückgrat intelligent genug ist,
00:10:13um Vision und Ton nativ zu verarbeiten. Diese neue Technik wird wahrscheinlich Türen öffnen, um noch
00:10:19effizientere multimodale Schlussfolgerungsmodelle zu entwickeln, die problemlos auf Edge-Geräten laufen können. Was denken Sie
00:10:26über das neue Gemma-Modell? Haben Sie es ausprobiert? Werden Sie es benutzen? Lassen Sie es uns im Kommentarbereich weiter
00:10:32unten wissen. Und Leute, wenn ihr diese Art von technischen Analysen mögt, lasst es mich bitte wissen, indem ihr auf den
00:10:37Like-Button unter dem Video hämmert. Und vergesst auch nicht, unseren Kanal zu abonnieren. Das war Andres
00:10:43von BetterStack und wir sehen uns in den nächsten Videos.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video