00:00:00Letzte Woche hat Google etwas Unerwartetes getan.
00:00:02Sie haben ein echtes Open-Source-Modell unter der Apache 2.0-Lizenz veröffentlicht.
00:00:08Es heißt Gemma 4 und bietet spezialisierte Edge-Versionen mit nur 2,3 Milliarden Parametern,
00:00:14die so konzipiert sind, dass sie komplett offline auf Geräten wie Ihrem iPhone, Android-Flaggschiff
00:00:21oder sogar auf einem Raspberry Pi laufen.
00:00:23Es scheint, als ob sich das Rennen um das ultimative kleine Modell richtig aufheizt.
00:00:28Erst vor ein paar Wochen habe ich einige Tests mit QWAN 3.5 durchgeführt, um zu sehen, wie es die Grenzen
00:00:33lokaler KI verschiebt, aber jetzt verspricht Google eine noch höhere Intelligenzdichte.
00:00:39In diesem Video werden wir also ähnliche Tests mit Gemma 4 durchführen, um zu sehen, ob dieses Modell wirklich
00:00:44das beste kleine Modell auf dem Markt ist.
00:00:47Das wird ein Riesenspaß, also legen wir direkt los.
00:00:53Was ist also so einzigartig an diesen neuen Gemma 4-Modellen?
00:00:57Nun, der eigentliche technische Wandel ist etwas, das Google "Per-Layer-Embeddings" nennt.
00:01:03In traditionellen Transformern erhält ein Token am Anfang ein Embedding, das seine gesamte Bedeutung
00:01:08durch jede Schicht tragen muss.
00:01:11Aber in Gemma 4 hat jede Schicht ihren eigenen Satz an Embeddings, was es dem Modell ermöglicht,
00:01:16neue Informationen genau dort einzuführen, wo sie benötigt werden.
00:01:19Deshalb sehen Sie das E in den Modellnamen E2B und E4B.
00:01:24Es steht für effektive Parameter.
00:01:27Während das Modell mit der Argumentationstiefe eines 5-Milliarden-Parameter-Modells agiert,
00:01:32verwendet es während der Inferenz nur etwa 2,3 Milliarden aktive Parameter.
00:01:36Dies führt zu einer viel höheren Intelligenzdichte, die es ihm ermöglicht, komplexe Logik zu bewältigen,
00:01:42während es weniger als 1,5 Gigabyte RAM verbraucht.
00:01:46Und über die Textleistung hinaus ist Gemma 4 von Haus aus multimodal.
00:01:50Das bedeutet, dass Vision, Text und sogar Audio innerhalb derselben einheitlichen Architektur verarbeitet werden,
00:01:56anstatt als separate Module angeflanscht zu sein.
00:01:59Diese Architektur ermöglicht einen neuen Denkmodus, der eine interne Argumentationskette nutzt,
00:02:05um seine eigene Logik zu überprüfen, bevor er eine Antwort gibt.
00:02:08Dies ist speziell darauf ausgelegt, Endlosschleifen und Logikfehler zu verhindern,
00:02:13unter denen kleine Modelle oft leiden.
00:02:15Es wird außerdem mit einem 128K-Kontextfenster und Unterstützung für über 140 Sprachen ausgeliefert,
00:02:22was es bei Aufgaben wie komplexer OCR oder lokalisierter Sprachenidentifikation deutlich fähiger machen sollte.
00:02:29Und um diese Fähigkeiten zu demonstrieren, hat Google einige beeindruckende Benchmarks veröffentlicht.
00:02:34In ihren internen Tests erreichte das E4B-Modell einen Wert von 42,5 % im AIME 2026 Mathematik-Benchmark,
00:02:43was mehr als das Doppelte des Wertes von viel größeren Modellen der vorherigen Generation ist.
00:02:49Sie demonstrierten auch das agentische Potenzial des Modells auf der T2-Bench, wo es
00:02:54einen massiven Sprung in der Genauigkeit der Werkzeugnutzung zeigte.
00:02:57Sie zeigten das agentische Potenzial des Modells auch durch eine Funktion namens Agent-Skills.
00:03:02Anstatt nur statischen Text zu generieren, wurde gezeigt, wie das Modell natives Function Calling nutzt,
00:03:07um mehrstufige Workflows zu bewältigen, wie das Abfragen von Wikipedia nach Live-Daten
00:03:13oder das Erstellen eines End-to-End-Widgets für Tierrufe.
00:03:15Das klingt alles beeindruckend, aber probieren wir es selbst aus und sehen wir, wie es funktioniert.
00:03:20In meinem vorherigen Video zu QUEN 3.5 habe ich die kleinen Modelle getestet, indem ich sie lokal ohne
00:03:25Internetverbindung mit LM Studio und CLINE laufen ließ.
00:03:28Ich werde dasselbe Setup zum Testen von GEMMA 4 verwenden.
00:03:32Zuerst müssen wir die Modelle in LM Studio herunterladen, dann das verfügbare Kontextfenster vergrößern
00:03:37und den Server starten.
00:03:39Dann können wir in CLINE springen und unseren lokalen LM Studio-Server verbinden, das E2B-Modell wählen,
00:03:45unsere Internetverbindung ausschalten und mit unseren Tests beginnen.
00:03:49Letztes Mal haben wir gesehen, dass QUEN 3.5 recht gut darin war, eine einfache Café-Website mit HTML,
00:03:55CSS und JavaScript mit zwei ihrer Modelle mit der kleinsten Parameteranzahl zu erstellen.
00:04:00Lassen Sie uns denselben Prompt wiederverwenden und sehen, ob GEMMA 4 bei dieser Coding-Aufgabe genauso gut ist.
00:04:05Das E2B-Modell benötigte etwa 1,5 Minuten, um diese Aufgabe abzuschließen.
00:04:10Und für ein Modell mit 2,3 Milliarden aktiven Parametern waren die Ergebnisse ehrlich gesagt etwas enttäuschend,
00:04:16verglichen mit dem Ergebnis von QUEN, das nur 0,8 Milliarden Parameter verwendete.
00:04:22Am nervigsten war, dass GEMMA die Aufgabenliste sowohl am Ende der HTML-Datei als auch
00:04:28am Ende der CSS-Datei angehängt hat, sodass ich sie in beiden Dateien manuell löschen musste,
00:04:33bevor ich die Seite öffnen konnte.
00:04:34Außerdem behauptete es, eine JavaScript-Datei geschrieben zu haben, obwohl im Endergebnis
00:04:40tatsächlich keine JS-Datei erstellt wurde. Die E2B-Testergebnisse waren also etwas enttäuschend.
00:04:45Aber diese Situation verbesserte sich erheblich beim Wechsel zur E4B-Modellversion.
00:04:50Diese Version benötigte etwa 3,5 Minuten für die Aufgabe, aber das Endergebnis war deutlich
00:04:55besser.
00:04:56Vielleicht nicht vom Design her – es sieht immer noch sehr schlicht aus –, aber diese Version hatte tatsächlich
00:05:00eine funktionierende Warenkorb-Funktion, die keiner der vorherigen Tests, sowohl für QUEN als auch GEMMA,
00:05:06erfolgreich hervorbringen konnte.
00:05:08Die E4B-Version ist also bereits ein großer Fortschritt gegenüber der E2B-Version, aber natürlich
00:05:15würde niemand ernsthaft in Erwägung ziehen, solch kleine Modelle für komplexes oder seriöses Coding zu nutzen.
00:05:20Ich habe diese Tests nur aus Neugier durchgeführt, um zu sehen, ob eine so geringe Parameteranzahl
00:05:25dennoch ein sinnvolles Ergebnis für eine bestimmte Coding-Aufgabe liefern kann.
00:05:29Alles klar, schauen wir uns nun an, wie GEMMA 4 auf Edge-Geräten wie einem iPhone abschneidet.
00:05:34In meinem QUEN 3.5-Video habe ich eine eigene iOS-App gebaut, die in der Lage war, das Modell
00:05:40auf der nativen Metal-GPU unter Verwendung von Swifts MLX-Framework auszuführen.
00:05:44Obwohl GEMMA 4 Open Source ist, gibt es für dieses Modell zum jetzigen Zeitpunkt leider
00:05:49keine verfügbaren MLX-Bindings, die in der Lage wären, dieses Modell auf iOS mit multimodalen Fähigkeiten auszuführen.
00:05:56Google selbst lässt GEMMA 4 auf ihrer AI Edge Gallery-App mit ihrem eigenen
00:06:01Inferenz-Framework namens Lite RTLM laufen, das leider im Moment
00:06:07ebenfalls keine iOS-Bindings unterstützt.
00:06:08Um es auf einem iPhone auszuprobieren, ist unsere beste Option im Moment also die Nutzung ihrer Edge Gallery-App.
00:06:13Wir werden also unsere Tests in ihrer eigenen App durchführen und sehen, wie sie abschneidet.
00:06:18Gehen wir zum AI-Chat-Bereich.
00:06:20Hier werden wir aufgefordert, die E2B-Version von GEMMA 4 herunterzuladen.
00:06:25Man hat auch die Option, die E4B-Version herunterzuladen, aber aus irgendeinem Grund sagt die App,
00:06:29ich hätte nicht genügend Speicherplatz, was sicher nicht stimmt – vielleicht ist das also
00:06:34ein Fehler in der App.
00:06:36Aber wie dem auch sei, nachdem ich das Modell nun heruntergeladen habe, können wir es endlich benutzen.
00:06:41Fangen wir damit an, ein einfaches "Hallo" einzutippen.
00:06:43Wow, haben Sie gesehen, wie schnell die Antwort kam?
00:06:46Viel schneller als QUEN 3.5.
00:06:48Vielleicht ist das die Magie des Lite RTLM-Frameworks, das sie verwenden.
00:06:53Versuchen wir nun den berühmten Autowasch-Test und sehen wir, ob GEMMA ihn richtig löst.
00:06:57Wow, es gibt mir eine wirklich lange Antwort.
00:07:00Und am Ende sehen wir, dass die finale Empfehlung "Fahren" lautet, was richtig ist,
00:07:06aber ich muss die Tatsache berücksichtigen, dass es auf Bequemlichkeit und Komfort schaut
00:07:10und nicht auf die eigentliche logische Tatsache.
00:07:13Also ich weiß nicht, es besteht den Test irgendwie, aber gleichzeitig irgendwie auch nicht.
00:07:18Alles klar, wechseln wir nun zum Bereich "Bild fragen" und sehen wir, ob GEMMA
00:07:24den Hund auf diesem Bild identifizieren kann.
00:07:26Es hat tatsächlich identifiziert, dass es ein Hund ist, und gibt einige weitere Details zum Bild an.
00:07:31Das ist also ziemlich cool.
00:07:32Aber wenn ich frage: "Was ist die Rasse des Hundes?"
00:07:35Antwortet es, dass es ein Border Collie sei, was nicht stimmt.
00:07:39Es ist in Wirklichkeit ein Corgi.
00:07:40Aber ich muss sagen, für knapp über 2 Milliarden aktive Parameter ist diese Antwort
00:07:45dennoch ziemlich gut.
00:07:46Zuletzt probieren wir den OCR-Test.
00:07:48Wenn Sie mein vorheriges Video mit QUEN 3.5 gesehen haben, erinnern Sie sich vielleicht, dass ich es mit
00:07:54einem Bild mit Text getestet habe, der auf Lettisch war, was auch meine Muttersprache ist.
00:07:59Nun wirbt GEMMA damit, bis zu 140 Sprachen verstehen zu können.
00:08:05Ich nehme also an, dass es diesen Test problemlos bestehen sollte.
00:08:08Und ja, tatsächlich identifiziert es, dass die Sprache Lettisch ist.
00:08:13Und ich bin überrascht, dass der Großteil des Textes eigentlich ziemlich genau ist.
00:08:16Mit einigen kleinen Ausnahmen – ich sehe, dass einige Wörter nicht existieren und einige der
00:08:22grammatikalischen Strukturen einfach sehr bizarr sind.
00:08:24Aber es ist immer noch sehr beeindruckend.
00:08:26Ich würde diesen Test also als bestanden werten.
00:08:28Nun stellt sich natürlich die Frage: Kann ich mit diesem Modell auf Lettisch chatten?
00:08:32Das werde ich als Nächstes versuchen.
00:08:33Ich sehe, dass die Antwort tatsächlich auf Lettisch ist.
00:08:36Aber auch hier sind die grammatikalischen Strukturen sehr bizarr.
00:08:39Und so spricht niemand.
00:08:41Aber dennoch ist Lettisch eine sehr kleine Sprache.
00:08:44Es ist also schon beeindruckend, dass es all dieses Wissen in einem so kleinen Modell hat.
00:08:48Und wenn ich schon dabei bin, frage ich es: "Wer ist der aktuelle US-Präsident?", um zu sehen,
00:08:53wie der Wissensstand von GEMMA 4 ist.
00:08:56Und es antwortet, dass es Joe Biden ist.
00:08:58Und wenn ich dann frage: "Wann ist dein Wissensstand-Ende?"
00:09:02Wird es mir sagen, dass es Januar 2025 ist, was hinkommt.
00:09:06Da haben wir es also.
00:09:07Das ist GEMMA 4, das neueste Open-Source-Modell von Google.
00:09:10Und ich muss ehrlich sein, dieses Modell scheint ziemlich gut zu sein.
00:09:14Es hält, was es verspricht, wenn es auch an Kreativität beim Webdesign mangelt.
00:09:19Aber abgesehen davon sind die kleinen Modelle, wie wir gerade gesehen haben, mehr als fähig,
00:09:24alle Aufgaben, die ich ihnen gestellt habe, erfolgreich zu bewältigen.
00:09:27Es ist schade, dass wir immer noch keine MLX-Bindings für dieses Modell haben, denn ich würde
00:09:32GEMMA 4 wirklich gerne lokal auf einer eigenen iOS-App nutzen.
00:09:36Aber ich bin sicher, dass es nicht lange dauern wird, bis Google diese Veröffentlichung für die Öffentlichkeit bereitstellt.
00:09:41In der Zwischenzeit behalte ich Community-Projekte wie SwiftLM im Auge, die
00:09:46bereits an inoffiziellen nativen Bindings für diese Modelle arbeiten.
00:09:50Das ist also meine Meinung zu dem Modell.
00:09:52Was denken Sie über GEMMA 4?
00:09:54Haben Sie es ausprobiert?
00:09:55Werden Sie es nutzen?
00:09:56Lassen Sie es uns unten in den Kommentaren wissen.
00:09:59Leute, wenn euch diese Art von technischen Analysen gefällt, lasst es mich wissen, indem ihr
00:10:03den Like-Button unter dem Video drückt.
00:10:05Und vergesst auch nicht, unseren Kanal zu abonnieren.
00:10:07Das war Andres von BetterStack und wir sehen uns in den nächsten Videos.