Gemini 3.5 Flash ist einfach nur... okay

Deutschالعربية English Español Français हिन्दी 한국어 Português 中文

컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00Google hat gerade Gemini 3.5 Flash veröffentlicht und stellt ziemlich kühne Behauptungen auf.

00:00:04Spitzenleistung bei vierfacher Geschwindigkeit, oft zu weniger als der Hälfte der Kosten.

00:00:09Das klingt alles unglaublich, aber die Realität sieht deutlich schlechter aus als Googles Werbung.

00:00:12Und das war nur die Hälfte der Ankündigungen. Sie haben auch Anti-Gravity 2 herausgebracht,

00:00:16ihre neue eigenständige Agenten-App, im Grunde ihre Antwort auf Codex, sowie den Anti-Gravity

00:00:20CLI, der den Gemini CLI ersetzt – also wieder ein Fall für “Killed by Google”.

00:00:30Fangen wir mit den wichtigsten Eckdaten an. Das Modell hat ein Kontextfenster von einer Million Token,

00:00:3464.000 Ausgabetoken und verarbeitet Text, Bilder, Video, Audio und PDFs als Eingabe.

00:00:39Google war schon immer ziemlich gut bei diesen multimodalen Modellen.

00:00:42Was die eigentliche Leistung angeht, liegt das Modell laut Googles eigenen Benchmarks auf Augenhöhe mit GPT 5.5,

00:00:46wenn es ums Programmieren geht, und liegt nur wenige Prozent hinter SWBench Pro und Terminal

00:00:50Bench. Tatsächlich schlägt es Opus 4.7 bei Terminal Bench sogar um etwa 10 %, aber Claude

00:00:56Opus kontert bei SWBench Pro und schlägt Gemini dort ebenfalls um etwa 10 %.

00:01:01Bei agentischen Workflows gewinnt dieses Modell sowohl bei den MCP- als auch bei den Toolathon-Benchmarks,

00:01:06und insgesamt sind das keine schlechten Ergebnisse, aber all das stammt von Google selbst.

00:01:11Wenn wir uns stattdessen Benchmarks von Drittanbietern wie Artificial Analysis ansehen,

00:01:15sieht es nicht allzu gut aus. Der Coding-Index bewertet Gemini 3.5 Flash mit 45 Punkten,

00:01:21was sogar unter Modellen wie Kimi K2.6 liegt. Es schlägt nicht einmal Gemini 3.1 Pro,

00:01:27obwohl es in den eigenen Benchmarks überall vorne lag. Es liegt nur wenige Punkte vor Gemini 3 Flash.

00:01:31Das war's.

00:01:32Die Sache sieht etwas besser aus, wenn man die agentische Leistung betrachtet.

00:01:35Es hat einen ordentlichen Sprung gegenüber Gemini 3.1 Pro gemacht und konkurriert tatsächlich

00:01:41mit den Spitzenmodellen.

00:01:42Wenn man sich unsere Benchmarks ansieht, scheint es, dass 75 % der Zuschauer nicht abonniert haben,

00:01:45also werde ich euch höflich bitten, das zu tun. Bitte abonniert den Kanal.

00:01:48Ein Hauptmerkmal dieses Modells ist definitiv seine Geschwindigkeit. Sie haben 278 Token pro

00:01:53Sekunde aus dem Modell geholt, was Opus 4.7, GPT 5.5 und sogar Modelle wie Haiku

00:01:59sowie die Open-Source-Modelle von OpenAI massiv übertrifft. Wenn es also um Intelligenz vs. Geschwindigkeit geht,

00:02:04ist dieses Modell definitiv das Beste.

00:02:06Insgesamt ist es eine gemischte Bilanz. Es ist nicht das beste und nicht das schlechteste Modell,

00:02:10aber es ist wirklich sehr schnell. Ich hätte kein Problem mit diesen Ergebnissen, wenn es tatsächlich

00:02:14die Hälfte der Kosten der anderen Modelle wäre, aber hier fängt es an zu bröckeln.

00:02:18Der Preis des Modells liegt bei 1,50 $ für eine Million Eingabetoken und 9 $ für eine Million Ausgabetoken,

00:02:23was tatsächlich dreimal mehr ist als bei Gemini 3 Flash, aber immer noch viel günstiger

00:02:27als beispielsweise Opus 4.7 und GPT 5.5 – zumindest auf dem Papier.

00:02:32Bei der Durchführung ihrer Benchmarks fand Artificial Analysis jedoch heraus, dass Gemini 3.5 Flash

00:02:361.552 $ kostete, um den Intelligenzindex zu durchlaufen, was 5,5-mal teurer ist

00:02:42als Gemini 3 Flash und 75 % teurer als Gemini 3.1 Pro. Was noch schlimmer ist:

00:02:48Es ist teurer als GPT 5.5 bei hoher Reasoning-Leistung, das Flash beim Coding

00:02:54massiv schlägt. Ich werde jedes Modell auf diesem Diagramm markieren,

00:02:57das günstiger ist und Flash beim Programmieren übertrifft. Es sieht überhaupt nicht gut aus

00:03:02und ist sicherlich nicht zum halben Preis, wie ihr Marketing behauptete.

00:03:06Wenn man tiefer gräbt, scheint das Problem zu sein, dass das Modell zwar schnell ist,

00:03:10aber sehr viele Token verbraucht. Bei agentischen Tests kam es im Schnitt auf 49 Runden pro Aufgabe,

00:03:15was einer der höchsten Werte aller getesteten Modelle ist. Es verbrennt förmlich

00:03:19die Eingabetoken. Ich bin mir also nicht sicher, wo uns das lässt. Das Modell

00:03:23fühlt sich nur “meh” an. Die Geschwindigkeit ist super cool, also wenn ihr das über alles andere stellt,

00:03:28ist es vielleicht das richtige Modell. Dasselbe gilt, wenn ihr tolle multimodale Fähigkeiten wollt, aber die

00:03:33Leistung beim Programmieren reicht mir nicht aus, um es für einen längeren Zeitraum zu testen,

00:03:37als ich es in diesem Video getan habe. Kommen wir also zur anderen

00:03:41großen Ankündigung: Anti-Gravity 2 und der neue CLI.

00:03:44Ist das Anti-Gravity 2? Moment, nein, sorry, das ist T3 Code. Vielleicht das hier? Warte, nein, das ist

00:03:50Codecs. Was ist mit dem hier? Nein, das ist Cursor. Das hier ist tatsächlich Anti-Gravity 2 und ich denke,

00:03:55ihr versteht meinen Punkt. Im Grunde sehen alle diese Apps mittlerweile gleich aus. Ein lustiger

00:03:59Teil in einer unserer Demos ist, wenn der Entwickler versucht, ein neues Projekt zu erstellen, und man einfach

00:04:03den Codecs-Ordner dort sehen kann. Also werde ich ehrlich gesagt nicht viel Zeit damit verbringen,

00:04:07diese App durchzugehen. Sie ist exakt dieselbe wie alle anderen. Wir haben unsere Unterhaltungen links,

00:04:11unsere Projekte, geplante Aufgaben, und hier kann man in jede dieser Dateien klicken,

00:04:15wenn man die Diff-Ansicht sehen möchte. Das Einzige, was zu erwähnen ist: Das ist nicht mehr

00:04:18die Anti-Gravity-IDE. Das ist jetzt eine komplett eigenständige App. Was ihr seht,

00:04:22ist das, was ihr bekommt. Ich habe tatsächlich ein paar Testprompts darin ausprobiert. Einer davon

00:04:26war die Erstellung eines Full-Stack-Dashboards für persönliche Finanzen, der andere war viel einfacher,

00:04:30einfach um die UI zu testen, wie sie mir eine Café-Website in einer einzigen index.html erstellen würde.

00:04:35Das ist das Ergebnis des sehr einfachen Café-Prompts und ich muss sagen, ich mag

00:04:39die Website wirklich, die es gebaut hat. Es scheint also, als wäre 3.5 Flash ziemlich gut im UI-Design.

00:04:44Ich würde sagen, es ist insgesamt eine sehr schöne Seite. Sie hat immer noch ein wenig dieses KI-Gefühl,

00:04:48ich denke, es ist hauptsächlich dieser Karten- und Verlaufsstil, den KI momentan zu mögen scheint, aber

00:04:53die Seite ist ziemlich funktional und sieht so aus, wie ich es erwarten würde. Zur Einordnung:

00:04:58Das ist, was mir Opus 4.7 gab, als ich ihm exakt denselben Prompt gab, und ich finde Gemini 3.5

00:05:03Flash gewinnt hierbei, aber natürlich ist das nur ein einzelner Test. Was den komplizierteren

00:05:07Finanz-Dashboard-Prompt angeht, eine Full-Stack-Anwendung: Es hat es gut geschafft, die Anwendung

00:05:11zum Laufen zu bringen, aber ich mag das UI-Design definitiv nicht. Es ist nicht schlecht, aber es hat

00:05:16diesen “von KI entworfenen” Look and Feel, und auch Abzug für den Namen “Aura Wealth”.

00:05:20Wenn man das mit dem vergleicht, was Opus 4.7 mir gab, ist es ein riesiger Unterschied.

00:05:25Opus 4.7 sieht hier wirklich schön aus und ehrlich gesagt habe ich nicht viele Anmerkungen,

00:05:29wie ich diese UI ändern würde. Opus hat tatsächlich 20 Minuten für diesen Prompt gebraucht, während Gemini

00:05:33fünf Minuten brauchte. Also ja, es ist definitiv schneller, hätte aber die weiteren 15 Minuten nutzen können,

00:05:38um es besser aussehen zu lassen. Davon abgesehen haben wir auch den Anti-Gravity CLI bekommen und der

00:05:42wird wahrscheinlich einige Leute verärgern, weil sie den Gemini CLI tatsächlich abschalten – ihr werdet ihn

00:05:46nach dem 18. Juni dieses Jahres nicht mehr nutzen können. Der neue CLI ist momentan im Grunde derselbe,

00:05:51außer dass er in Go umgeschrieben wurde und jetzt auch Closed Source ist, was wirklich bescheiden ist.

00:05:56Ich habe diesen nicht installiert, da es wieder nur Claude Code ist, aber für Gemini.

00:06:00Es gibt nichts Neues zu zeigen. Um meine Gedanken dazu zusammenzufassen: Momentan ist 3.5

00:06:05Flash gut für Agenten, aber es ist teuer und beim Programmieren zu schwach, um das Gesamtpaket zu sein.

00:06:10Ich hoffe also, dass wir etwas mehr von Gemini 3.5 Pro sehen, das anscheinend nächsten Monat kommt,

00:06:15aber im Moment scheint es, dass Google nicht der Marktführer beim Coding sein wird, und um

00:06:19ehrlich zu sein, glaube ich nicht, dass sie das sein müssen. Es scheint, dass Googles Markt eher

00:06:23der alltägliche Nutzer ist, der das in all seine Erfahrungen wie Gmail, Suche, Workspace,

00:06:28Android und alles andere einbaut; vielleicht sind Entwickler also gar nicht der Fokus. Lasst mich

00:06:33in den Kommentaren unten wissen, was ihr denkt. Während ihr dort seid, abonniert und wie immer:

00:06:36Wir sehen uns im nächsten Video.

Key Takeaway

Gemini 3.5 Flash bietet zwar eine hohe Verarbeitungsgeschwindigkeit, enttäuscht jedoch bei den tatsächlichen Kosten und der Coding-Leistung im Vergleich zu den Benchmarks der Konkurrenz.

Highlights

Gemini 3.5 Flash erreicht Geschwindigkeiten von 278 Token pro Sekunde.
Der Coding-Index von Artificial Analysis bewertet Gemini 3.5 Flash mit 45 Punkten, was unter dem Ergebnis von Kimi K2.6 liegt.
Die tatsächlichen Kosten für die Durchführung des Intelligenzindex-Benchmarks betrugen 1,552 $ für Gemini 3.5 Flash, was 5,5-mal teurer ist als bei Gemini 3 Flash.
Das Modell nutzt bei agentischen Workflows durchschnittlich 49 Runden pro Aufgabe.
Der Gemini CLI wird am 18. Juni 2026 abgeschaltet und durch den in Go geschriebenen, Closed-Source-basierten Anti-Gravity CLI ersetzt.
Gemini 3.5 Flash zeigt Stärken beim UI-Design, unterliegt jedoch bei komplexen Full-Stack-Aufgaben Modellen wie Claude Opus 4.7.

Timeline

Leistungsanalyse und Benchmarks

Googles interne Benchmarks attestieren dem Modell Top-Leistung bei Programmierung und agentischen Workflows.
Unabhängige Tests von Artificial Analysis zeigen deutlich schwächere Ergebnisse als die Google-Daten.
Die hohe Token-Nutzung bei agentischen Aufgaben führt zu signifikant höheren Gesamtkosten pro Vorgang.

Google bewirbt das Modell mit hoher Geschwindigkeit und niedrigen Kosten. Die Realität zeigt jedoch, dass es in unabhängigen Coding-Indices sogar hinter älteren Modellen wie Gemini 3.1 Pro zurückfällt. Insbesondere bei agentischen Aufgaben verbraucht das Modell durch eine hohe Rundenanzahl von 49 pro Aufgabe übermäßig viele Tokens, was den Preisvorteil gegenüber Modellen wie GPT 5.5 negiert.

Anti-Gravity 2 und neue Entwickler-Tools

Die neue eigenständige Anti-Gravity 2 App ähnelt funktional und visuell stark bestehenden Lösungen wie Codecs.
Bei der Erstellung von Benutzeroberflächen erzielt das Modell gute Ergebnisse, hinkt jedoch bei komplexen Logik-Aufgaben hinterher.
Die Abschaltung des Gemini CLI zugunsten einer Closed-Source-Alternative in Go stößt auf Kritik in der Entwicklergemeinde.

Die eigenständige Anwendung Anti-Gravity 2 integriert das Modell für UI-Design und Full-Stack-Projekte. Während einfache Projekte wie eine Café-Website überzeugen, zeigt das Modell bei anspruchsvollen Finanz-Dashboards Schwächen in der Design-Qualität und benötigt im direkten Vergleich längere Entwicklungszeit als Claude Opus 4.7. Die Umstellung der CLI-Tools reduziert zudem die Transparenz für Entwickler.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video