Hat Google gerade das ULTIMATIVE Edge-KI-Modell entwickelt? (Gemma 4)

BBetter Stack
Computing/SoftwareLanguagesConsumer ElectronicsCell PhonesInternet Technology

Transcript

00:00:00Letzte Woche hat Google etwas Unerwartetes getan.
00:00:02Sie haben ein echtes Open-Source-Modell unter der Apache 2.0-Lizenz veröffentlicht.
00:00:08Es heißt Gemma 4 und bietet spezialisierte Edge-Versionen mit nur 2,3 Milliarden Parametern,
00:00:14die so konzipiert sind, dass sie komplett offline auf Geräten wie Ihrem iPhone, Android-Flaggschiff
00:00:21oder sogar auf einem Raspberry Pi laufen.
00:00:23Es scheint, als ob sich das Rennen um das ultimative kleine Modell richtig aufheizt.
00:00:28Erst vor ein paar Wochen habe ich einige Tests mit QWAN 3.5 durchgeführt, um zu sehen, wie es die Grenzen
00:00:33lokaler KI verschiebt, aber jetzt verspricht Google eine noch höhere Intelligenzdichte.
00:00:39In diesem Video werden wir also ähnliche Tests mit Gemma 4 durchführen, um zu sehen, ob dieses Modell wirklich
00:00:44das beste kleine Modell auf dem Markt ist.
00:00:47Das wird ein Riesenspaß, also legen wir direkt los.
00:00:53Was ist also so einzigartig an diesen neuen Gemma 4-Modellen?
00:00:57Nun, der eigentliche technische Wandel ist etwas, das Google "Per-Layer-Embeddings" nennt.
00:01:03In traditionellen Transformern erhält ein Token am Anfang ein Embedding, das seine gesamte Bedeutung
00:01:08durch jede Schicht tragen muss.
00:01:11Aber in Gemma 4 hat jede Schicht ihren eigenen Satz an Embeddings, was es dem Modell ermöglicht,
00:01:16neue Informationen genau dort einzuführen, wo sie benötigt werden.
00:01:19Deshalb sehen Sie das E in den Modellnamen E2B und E4B.
00:01:24Es steht für effektive Parameter.
00:01:27Während das Modell mit der Argumentationstiefe eines 5-Milliarden-Parameter-Modells agiert,
00:01:32verwendet es während der Inferenz nur etwa 2,3 Milliarden aktive Parameter.
00:01:36Dies führt zu einer viel höheren Intelligenzdichte, die es ihm ermöglicht, komplexe Logik zu bewältigen,
00:01:42während es weniger als 1,5 Gigabyte RAM verbraucht.
00:01:46Und über die Textleistung hinaus ist Gemma 4 von Haus aus multimodal.
00:01:50Das bedeutet, dass Vision, Text und sogar Audio innerhalb derselben einheitlichen Architektur verarbeitet werden,
00:01:56anstatt als separate Module angeflanscht zu sein.
00:01:59Diese Architektur ermöglicht einen neuen Denkmodus, der eine interne Argumentationskette nutzt,
00:02:05um seine eigene Logik zu überprüfen, bevor er eine Antwort gibt.
00:02:08Dies ist speziell darauf ausgelegt, Endlosschleifen und Logikfehler zu verhindern,
00:02:13unter denen kleine Modelle oft leiden.
00:02:15Es wird außerdem mit einem 128K-Kontextfenster und Unterstützung für über 140 Sprachen ausgeliefert,
00:02:22was es bei Aufgaben wie komplexer OCR oder lokalisierter Sprachenidentifikation deutlich fähiger machen sollte.
00:02:29Und um diese Fähigkeiten zu demonstrieren, hat Google einige beeindruckende Benchmarks veröffentlicht.
00:02:34In ihren internen Tests erreichte das E4B-Modell einen Wert von 42,5 % im AIME 2026 Mathematik-Benchmark,
00:02:43was mehr als das Doppelte des Wertes von viel größeren Modellen der vorherigen Generation ist.
00:02:49Sie demonstrierten auch das agentische Potenzial des Modells auf der T2-Bench, wo es
00:02:54einen massiven Sprung in der Genauigkeit der Werkzeugnutzung zeigte.
00:02:57Sie zeigten das agentische Potenzial des Modells auch durch eine Funktion namens Agent-Skills.
00:03:02Anstatt nur statischen Text zu generieren, wurde gezeigt, wie das Modell natives Function Calling nutzt,
00:03:07um mehrstufige Workflows zu bewältigen, wie das Abfragen von Wikipedia nach Live-Daten
00:03:13oder das Erstellen eines End-to-End-Widgets für Tierrufe.
00:03:15Das klingt alles beeindruckend, aber probieren wir es selbst aus und sehen wir, wie es funktioniert.
00:03:20In meinem vorherigen Video zu QUEN 3.5 habe ich die kleinen Modelle getestet, indem ich sie lokal ohne
00:03:25Internetverbindung mit LM Studio und CLINE laufen ließ.
00:03:28Ich werde dasselbe Setup zum Testen von GEMMA 4 verwenden.
00:03:32Zuerst müssen wir die Modelle in LM Studio herunterladen, dann das verfügbare Kontextfenster vergrößern
00:03:37und den Server starten.
00:03:39Dann können wir in CLINE springen und unseren lokalen LM Studio-Server verbinden, das E2B-Modell wählen,
00:03:45unsere Internetverbindung ausschalten und mit unseren Tests beginnen.
00:03:49Letztes Mal haben wir gesehen, dass QUEN 3.5 recht gut darin war, eine einfache Café-Website mit HTML,
00:03:55CSS und JavaScript mit zwei ihrer Modelle mit der kleinsten Parameteranzahl zu erstellen.
00:04:00Lassen Sie uns denselben Prompt wiederverwenden und sehen, ob GEMMA 4 bei dieser Coding-Aufgabe genauso gut ist.
00:04:05Das E2B-Modell benötigte etwa 1,5 Minuten, um diese Aufgabe abzuschließen.
00:04:10Und für ein Modell mit 2,3 Milliarden aktiven Parametern waren die Ergebnisse ehrlich gesagt etwas enttäuschend,
00:04:16verglichen mit dem Ergebnis von QUEN, das nur 0,8 Milliarden Parameter verwendete.
00:04:22Am nervigsten war, dass GEMMA die Aufgabenliste sowohl am Ende der HTML-Datei als auch
00:04:28am Ende der CSS-Datei angehängt hat, sodass ich sie in beiden Dateien manuell löschen musste,
00:04:33bevor ich die Seite öffnen konnte.
00:04:34Außerdem behauptete es, eine JavaScript-Datei geschrieben zu haben, obwohl im Endergebnis
00:04:40tatsächlich keine JS-Datei erstellt wurde. Die E2B-Testergebnisse waren also etwas enttäuschend.
00:04:45Aber diese Situation verbesserte sich erheblich beim Wechsel zur E4B-Modellversion.
00:04:50Diese Version benötigte etwa 3,5 Minuten für die Aufgabe, aber das Endergebnis war deutlich
00:04:55besser.
00:04:56Vielleicht nicht vom Design her – es sieht immer noch sehr schlicht aus –, aber diese Version hatte tatsächlich
00:05:00eine funktionierende Warenkorb-Funktion, die keiner der vorherigen Tests, sowohl für QUEN als auch GEMMA,
00:05:06erfolgreich hervorbringen konnte.
00:05:08Die E4B-Version ist also bereits ein großer Fortschritt gegenüber der E2B-Version, aber natürlich
00:05:15würde niemand ernsthaft in Erwägung ziehen, solch kleine Modelle für komplexes oder seriöses Coding zu nutzen.
00:05:20Ich habe diese Tests nur aus Neugier durchgeführt, um zu sehen, ob eine so geringe Parameteranzahl
00:05:25dennoch ein sinnvolles Ergebnis für eine bestimmte Coding-Aufgabe liefern kann.
00:05:29Alles klar, schauen wir uns nun an, wie GEMMA 4 auf Edge-Geräten wie einem iPhone abschneidet.
00:05:34In meinem QUEN 3.5-Video habe ich eine eigene iOS-App gebaut, die in der Lage war, das Modell
00:05:40auf der nativen Metal-GPU unter Verwendung von Swifts MLX-Framework auszuführen.
00:05:44Obwohl GEMMA 4 Open Source ist, gibt es für dieses Modell zum jetzigen Zeitpunkt leider
00:05:49keine verfügbaren MLX-Bindings, die in der Lage wären, dieses Modell auf iOS mit multimodalen Fähigkeiten auszuführen.
00:05:56Google selbst lässt GEMMA 4 auf ihrer AI Edge Gallery-App mit ihrem eigenen
00:06:01Inferenz-Framework namens Lite RTLM laufen, das leider im Moment
00:06:07ebenfalls keine iOS-Bindings unterstützt.
00:06:08Um es auf einem iPhone auszuprobieren, ist unsere beste Option im Moment also die Nutzung ihrer Edge Gallery-App.
00:06:13Wir werden also unsere Tests in ihrer eigenen App durchführen und sehen, wie sie abschneidet.
00:06:18Gehen wir zum AI-Chat-Bereich.
00:06:20Hier werden wir aufgefordert, die E2B-Version von GEMMA 4 herunterzuladen.
00:06:25Man hat auch die Option, die E4B-Version herunterzuladen, aber aus irgendeinem Grund sagt die App,
00:06:29ich hätte nicht genügend Speicherplatz, was sicher nicht stimmt – vielleicht ist das also
00:06:34ein Fehler in der App.
00:06:36Aber wie dem auch sei, nachdem ich das Modell nun heruntergeladen habe, können wir es endlich benutzen.
00:06:41Fangen wir damit an, ein einfaches "Hallo" einzutippen.
00:06:43Wow, haben Sie gesehen, wie schnell die Antwort kam?
00:06:46Viel schneller als QUEN 3.5.
00:06:48Vielleicht ist das die Magie des Lite RTLM-Frameworks, das sie verwenden.
00:06:53Versuchen wir nun den berühmten Autowasch-Test und sehen wir, ob GEMMA ihn richtig löst.
00:06:57Wow, es gibt mir eine wirklich lange Antwort.
00:07:00Und am Ende sehen wir, dass die finale Empfehlung "Fahren" lautet, was richtig ist,
00:07:06aber ich muss die Tatsache berücksichtigen, dass es auf Bequemlichkeit und Komfort schaut
00:07:10und nicht auf die eigentliche logische Tatsache.
00:07:13Also ich weiß nicht, es besteht den Test irgendwie, aber gleichzeitig irgendwie auch nicht.
00:07:18Alles klar, wechseln wir nun zum Bereich "Bild fragen" und sehen wir, ob GEMMA
00:07:24den Hund auf diesem Bild identifizieren kann.
00:07:26Es hat tatsächlich identifiziert, dass es ein Hund ist, und gibt einige weitere Details zum Bild an.
00:07:31Das ist also ziemlich cool.
00:07:32Aber wenn ich frage: "Was ist die Rasse des Hundes?"
00:07:35Antwortet es, dass es ein Border Collie sei, was nicht stimmt.
00:07:39Es ist in Wirklichkeit ein Corgi.
00:07:40Aber ich muss sagen, für knapp über 2 Milliarden aktive Parameter ist diese Antwort
00:07:45dennoch ziemlich gut.
00:07:46Zuletzt probieren wir den OCR-Test.
00:07:48Wenn Sie mein vorheriges Video mit QUEN 3.5 gesehen haben, erinnern Sie sich vielleicht, dass ich es mit
00:07:54einem Bild mit Text getestet habe, der auf Lettisch war, was auch meine Muttersprache ist.
00:07:59Nun wirbt GEMMA damit, bis zu 140 Sprachen verstehen zu können.
00:08:05Ich nehme also an, dass es diesen Test problemlos bestehen sollte.
00:08:08Und ja, tatsächlich identifiziert es, dass die Sprache Lettisch ist.
00:08:13Und ich bin überrascht, dass der Großteil des Textes eigentlich ziemlich genau ist.
00:08:16Mit einigen kleinen Ausnahmen – ich sehe, dass einige Wörter nicht existieren und einige der
00:08:22grammatikalischen Strukturen einfach sehr bizarr sind.
00:08:24Aber es ist immer noch sehr beeindruckend.
00:08:26Ich würde diesen Test also als bestanden werten.
00:08:28Nun stellt sich natürlich die Frage: Kann ich mit diesem Modell auf Lettisch chatten?
00:08:32Das werde ich als Nächstes versuchen.
00:08:33Ich sehe, dass die Antwort tatsächlich auf Lettisch ist.
00:08:36Aber auch hier sind die grammatikalischen Strukturen sehr bizarr.
00:08:39Und so spricht niemand.
00:08:41Aber dennoch ist Lettisch eine sehr kleine Sprache.
00:08:44Es ist also schon beeindruckend, dass es all dieses Wissen in einem so kleinen Modell hat.
00:08:48Und wenn ich schon dabei bin, frage ich es: "Wer ist der aktuelle US-Präsident?", um zu sehen,
00:08:53wie der Wissensstand von GEMMA 4 ist.
00:08:56Und es antwortet, dass es Joe Biden ist.
00:08:58Und wenn ich dann frage: "Wann ist dein Wissensstand-Ende?"
00:09:02Wird es mir sagen, dass es Januar 2025 ist, was hinkommt.
00:09:06Da haben wir es also.
00:09:07Das ist GEMMA 4, das neueste Open-Source-Modell von Google.
00:09:10Und ich muss ehrlich sein, dieses Modell scheint ziemlich gut zu sein.
00:09:14Es hält, was es verspricht, wenn es auch an Kreativität beim Webdesign mangelt.
00:09:19Aber abgesehen davon sind die kleinen Modelle, wie wir gerade gesehen haben, mehr als fähig,
00:09:24alle Aufgaben, die ich ihnen gestellt habe, erfolgreich zu bewältigen.
00:09:27Es ist schade, dass wir immer noch keine MLX-Bindings für dieses Modell haben, denn ich würde
00:09:32GEMMA 4 wirklich gerne lokal auf einer eigenen iOS-App nutzen.
00:09:36Aber ich bin sicher, dass es nicht lange dauern wird, bis Google diese Veröffentlichung für die Öffentlichkeit bereitstellt.
00:09:41In der Zwischenzeit behalte ich Community-Projekte wie SwiftLM im Auge, die
00:09:46bereits an inoffiziellen nativen Bindings für diese Modelle arbeiten.
00:09:50Das ist also meine Meinung zu dem Modell.
00:09:52Was denken Sie über GEMMA 4?
00:09:54Haben Sie es ausprobiert?
00:09:55Werden Sie es nutzen?
00:09:56Lassen Sie es uns unten in den Kommentaren wissen.
00:09:59Leute, wenn euch diese Art von technischen Analysen gefällt, lasst es mich wissen, indem ihr
00:10:03den Like-Button unter dem Video drückt.
00:10:05Und vergesst auch nicht, unseren Kanal zu abonnieren.
00:10:07Das war Andres von BetterStack und wir sehen uns in den nächsten Videos.

Key Takeaway

Google Gemma 4 erreicht durch Per-Layer-Embeddings eine hohe Intelligenzdichte, die komplexe logische Argumentation und multimodale Aufgaben lokal auf Edge-Geräten mit nur 2,3 Milliarden aktiven Parametern ermöglicht.

Highlights

Gemma 4 nutzt Per-Layer-Embeddings, wodurch jede Schicht eigene Informationen einführt, anstatt ein einzelnes Embedding durch den gesamten Transformer zu tragen.

Das E4B-Modell erzielt im AIME 2026 Mathematik-Benchmark einen Wert von 42,5 % und verdoppelt damit die Leistung deutlich größerer Vorgängermodelle.

Die Architektur verbraucht weniger als 1,5 Gigabyte RAM und läuft komplett offline auf Geräten wie dem iPhone, Android-Flaggschiffen oder einem Raspberry Pi.

Gemma 4 integriert Vision, Text und Audio nativ in einer einheitlichen multimodalen Architektur ohne separate Module.

Ein interner Denkmodus nutzt eine Argumentationskette zur Überprüfung der eigenen Logik, um Endlosschleifen und Logikfehler bei kleinen Modellen zu minimieren.

Das E4B-Modell bewältigt im Gegensatz zu kleineren Versionen komplexe Coding-Aufgaben wie eine funktionierende Warenkorb-Logik in JavaScript.

Die Wissensdatenbank von Gemma 4 ist auf dem Stand von Januar 2025 und unterstützt über 140 Sprachen inklusive lokalisierter Spracherkennung.

Timeline

Technische Architektur und Per-Layer-Embeddings

  • Gemma 4 erscheint unter der Apache 2.0-Lizenz als echtes Open-Source-Modell.
  • Per-Layer-Embeddings erlauben das Einführen neuer Informationen in jeder einzelnen Schicht des Modells.
  • Das Modell agiert mit der Argumentationstiefe eines 5-Milliarden-Parameter-Modells bei nur 2,3 Milliarden aktiven Parametern.

Die Architektur unterscheidet sich von traditionellen Transformern, bei denen Token ihre Bedeutung von Anfang an durch alle Schichten tragen müssen. Diese Effizienz ermöglicht den Betrieb auf Hardware mit geringem Arbeitsspeicher wie dem Raspberry Pi. Das 'E' in den Modellnamen E2B und E4B markiert diese effektive Parameter-Nutzung.

Multimodalität und Benchmarks

  • Die einheitliche Architektur verarbeitet Vision, Text und Audio ohne angeflanschte Zusatzmodule.
  • Ein integrierter Denkmodus verhindert durch interne Logikprüfung typische Fehler kleinerer Modelle.
  • Das Modell nutzt natives Function Calling für mehrstufige agentische Workflows wie Live-Abfragen bei Wikipedia.

In internen Tests zeigt das Modell enorme Sprünge in der Genauigkeit der Werkzeugnutzung auf dem T2-Bench. Ein 128K-Kontextfenster unterstützt komplexe OCR-Aufgaben in über 140 Sprachen. Die Fähigkeit, End-to-End-Widgets zu erstellen, demonstriert das Potenzial für autonome Agenten.

Lokale Coding-Leistung im Vergleich

  • Das E2B-Modell benötigt 1,5 Minuten für die Erstellung einer Website, zeigt aber Schwächen bei der Dateistruktur.
  • Die E4B-Version liefert nach 3,5 Minuten eine funktionierende Warenkorb-Logik.
  • Gemma 4 zeigt im direkten Vergleich zu QWAN 3.5 eine höhere Logik-Präzision bei komplexeren Funktionen.

Tests mit LM Studio und CLINE ohne Internetverbindung offenbaren Leistungsunterschiede zwischen den Modellgrößen. Während die kleinste Version redundante Aufgabenlisten an Code-Dateien anhängt, löst die E4B-Variante logische Programmierprobleme, an denen andere kleine Modelle scheitern. Für seriöses Coding bleibt die Parameteranzahl jedoch eine Limitierung.

Edge-Performance und mobile Anwendung

  • Das Lite RTLM-Inferenz-Framework ermöglicht extrem schnelle Antwortzeiten auf Mobilgeräten.
  • Die Bilderkennung identifiziert Objekte und Details, unterliegt aber bei spezifischen Rassebestimmungen Fehlern.
  • OCR-Tests bestätigen eine hohe Genauigkeit bei kleinen Sprachen wie Lettisch.

Die Ausführung auf einem iPhone erfolgt über die AI Edge Gallery-App, da native MLX-Bindings für iOS noch fehlen. Das Modell besteht logische Tests wie den Autowasch-Test basierend auf Komfortaspekten. Bei der Texterkennung komplexer Sprachen bleibt die Bedeutung meist präzise, auch wenn die grammatikalische Struktur teilweise unnatürlich wirkt.

Wissensstand und Zukunftsaussichten

  • Das interne Wissen des Modells reicht bis Januar 2025.
  • Community-Projekte wie SwiftLM arbeiten an inoffiziellen nativen Bindings für mobile Plattformen.
  • Gemma 4 erfüllt die Versprechen hinsichtlich lokaler Intelligenzdichte trotz gestalterischer Schwächen.

Abfragen zum aktuellen US-Präsidenten bestätigen die Aktualität der Trainingsdaten. Die Verfügbarkeit von Open-Source-Modellen mit dieser Leistung treibt die Entwicklung lokaler KI-Anwendungen voran. Zukünftige Veröffentlichungen von offiziellen Bindings durch Google werden die Integration in eigene iOS-Apps vereinfachen.

Community Posts

View all posts