Gemini 3.5 Flash ist einfach nur... okay
BBetter Stack
컎íší°/ìíížìšìŽêČœì ëŽì€AI/믞ëêž°ì
Transcript
00:00:00Google hat gerade Gemini 3.5 Flash veröffentlicht und stellt ziemlich kĂŒhne Behauptungen auf.
00:00:04Spitzenleistung bei vierfacher Geschwindigkeit, oft zu weniger als der HĂ€lfte der Kosten.
00:00:09Das klingt alles unglaublich, aber die RealitÀt sieht deutlich schlechter aus als Googles Werbung.
00:00:12Und das war nur die HĂ€lfte der AnkĂŒndigungen. Sie haben auch Anti-Gravity 2 herausgebracht,
00:00:16ihre neue eigenstÀndige Agenten-App, im Grunde ihre Antwort auf Codex, sowie den Anti-Gravity
00:00:20CLI, der den Gemini CLI ersetzt â also wieder ein Fall fĂŒr âKilled by Googleâ.
00:00:30Fangen wir mit den wichtigsten Eckdaten an. Das Modell hat ein Kontextfenster von einer Million Token,
00:00:3464.000 Ausgabetoken und verarbeitet Text, Bilder, Video, Audio und PDFs als Eingabe.
00:00:39Google war schon immer ziemlich gut bei diesen multimodalen Modellen.
00:00:42Was die eigentliche Leistung angeht, liegt das Modell laut Googles eigenen Benchmarks auf Augenhöhe mit GPT 5.5,
00:00:46wenn es ums Programmieren geht, und liegt nur wenige Prozent hinter SWBench Pro und Terminal
00:00:50Bench. TatsÀchlich schlÀgt es Opus 4.7 bei Terminal Bench sogar um etwa 10 %, aber Claude
00:00:56Opus kontert bei SWBench Pro und schlÀgt Gemini dort ebenfalls um etwa 10 %.
00:01:01Bei agentischen Workflows gewinnt dieses Modell sowohl bei den MCP- als auch bei den Toolathon-Benchmarks,
00:01:06und insgesamt sind das keine schlechten Ergebnisse, aber all das stammt von Google selbst.
00:01:11Wenn wir uns stattdessen Benchmarks von Drittanbietern wie Artificial Analysis ansehen,
00:01:15sieht es nicht allzu gut aus. Der Coding-Index bewertet Gemini 3.5 Flash mit 45 Punkten,
00:01:21was sogar unter Modellen wie Kimi K2.6 liegt. Es schlÀgt nicht einmal Gemini 3.1 Pro,
00:01:27obwohl es in den eigenen Benchmarks ĂŒberall vorne lag. Es liegt nur wenige Punkte vor Gemini 3 Flash.
00:01:31Das war's.
00:01:32Die Sache sieht etwas besser aus, wenn man die agentische Leistung betrachtet.
00:01:35Es hat einen ordentlichen Sprung gegenĂŒber Gemini 3.1 Pro gemacht und konkurriert tatsĂ€chlich
00:01:41mit den Spitzenmodellen.
00:01:42Wenn man sich unsere Benchmarks ansieht, scheint es, dass 75 % der Zuschauer nicht abonniert haben,
00:01:45also werde ich euch höflich bitten, das zu tun. Bitte abonniert den Kanal.
00:01:48Ein Hauptmerkmal dieses Modells ist definitiv seine Geschwindigkeit. Sie haben 278 Token pro
00:01:53Sekunde aus dem Modell geholt, was Opus 4.7, GPT 5.5 und sogar Modelle wie Haiku
00:01:59sowie die Open-Source-Modelle von OpenAI massiv ĂŒbertrifft. Wenn es also um Intelligenz vs. Geschwindigkeit geht,
00:02:04ist dieses Modell definitiv das Beste.
00:02:06Insgesamt ist es eine gemischte Bilanz. Es ist nicht das beste und nicht das schlechteste Modell,
00:02:10aber es ist wirklich sehr schnell. Ich hÀtte kein Problem mit diesen Ergebnissen, wenn es tatsÀchlich
00:02:14die HÀlfte der Kosten der anderen Modelle wÀre, aber hier fÀngt es an zu bröckeln.
00:02:18Der Preis des Modells liegt bei 1,50 $ fĂŒr eine Million Eingabetoken und 9 $ fĂŒr eine Million Ausgabetoken,
00:02:23was tatsĂ€chlich dreimal mehr ist als bei Gemini 3 Flash, aber immer noch viel gĂŒnstiger
00:02:27als beispielsweise Opus 4.7 und GPT 5.5 â zumindest auf dem Papier.
00:02:32Bei der DurchfĂŒhrung ihrer Benchmarks fand Artificial Analysis jedoch heraus, dass Gemini 3.5 Flash
00:02:361.552 $ kostete, um den Intelligenzindex zu durchlaufen, was 5,5-mal teurer ist
00:02:42als Gemini 3 Flash und 75 % teurer als Gemini 3.1 Pro. Was noch schlimmer ist:
00:02:48Es ist teurer als GPT 5.5 bei hoher Reasoning-Leistung, das Flash beim Coding
00:02:54massiv schlÀgt. Ich werde jedes Modell auf diesem Diagramm markieren,
00:02:57das gĂŒnstiger ist und Flash beim Programmieren ĂŒbertrifft. Es sieht ĂŒberhaupt nicht gut aus
00:03:02und ist sicherlich nicht zum halben Preis, wie ihr Marketing behauptete.
00:03:06Wenn man tiefer grÀbt, scheint das Problem zu sein, dass das Modell zwar schnell ist,
00:03:10aber sehr viele Token verbraucht. Bei agentischen Tests kam es im Schnitt auf 49 Runden pro Aufgabe,
00:03:15was einer der höchsten Werte aller getesteten Modelle ist. Es verbrennt förmlich
00:03:19die Eingabetoken. Ich bin mir also nicht sicher, wo uns das lÀsst. Das Modell
00:03:23fĂŒhlt sich nur âmehâ an. Die Geschwindigkeit ist super cool, also wenn ihr das ĂŒber alles andere stellt,
00:03:28ist es vielleicht das richtige Modell. Dasselbe gilt, wenn ihr tolle multimodale FĂ€higkeiten wollt, aber die
00:03:33Leistung beim Programmieren reicht mir nicht aus, um es fĂŒr einen lĂ€ngeren Zeitraum zu testen,
00:03:37als ich es in diesem Video getan habe. Kommen wir also zur anderen
00:03:41groĂen AnkĂŒndigung: Anti-Gravity 2 und der neue CLI.
00:03:44Ist das Anti-Gravity 2? Moment, nein, sorry, das ist T3 Code. Vielleicht das hier? Warte, nein, das ist
00:03:50Codecs. Was ist mit dem hier? Nein, das ist Cursor. Das hier ist tatsÀchlich Anti-Gravity 2 und ich denke,
00:03:55ihr versteht meinen Punkt. Im Grunde sehen alle diese Apps mittlerweile gleich aus. Ein lustiger
00:03:59Teil in einer unserer Demos ist, wenn der Entwickler versucht, ein neues Projekt zu erstellen, und man einfach
00:04:03den Codecs-Ordner dort sehen kann. Also werde ich ehrlich gesagt nicht viel Zeit damit verbringen,
00:04:07diese App durchzugehen. Sie ist exakt dieselbe wie alle anderen. Wir haben unsere Unterhaltungen links,
00:04:11unsere Projekte, geplante Aufgaben, und hier kann man in jede dieser Dateien klicken,
00:04:15wenn man die Diff-Ansicht sehen möchte. Das Einzige, was zu erwÀhnen ist: Das ist nicht mehr
00:04:18die Anti-Gravity-IDE. Das ist jetzt eine komplett eigenstÀndige App. Was ihr seht,
00:04:22ist das, was ihr bekommt. Ich habe tatsÀchlich ein paar Testprompts darin ausprobiert. Einer davon
00:04:26war die Erstellung eines Full-Stack-Dashboards fĂŒr persönliche Finanzen, der andere war viel einfacher,
00:04:30einfach um die UI zu testen, wie sie mir eine CafĂ©-Website in einer einzigen index.html erstellen wĂŒrde.
00:04:35Das ist das Ergebnis des sehr einfachen Café-Prompts und ich muss sagen, ich mag
00:04:39die Website wirklich, die es gebaut hat. Es scheint also, als wÀre 3.5 Flash ziemlich gut im UI-Design.
00:04:44Ich wĂŒrde sagen, es ist insgesamt eine sehr schöne Seite. Sie hat immer noch ein wenig dieses KI-GefĂŒhl,
00:04:48ich denke, es ist hauptsÀchlich dieser Karten- und Verlaufsstil, den KI momentan zu mögen scheint, aber
00:04:53die Seite ist ziemlich funktional und sieht so aus, wie ich es erwarten wĂŒrde. Zur Einordnung:
00:04:58Das ist, was mir Opus 4.7 gab, als ich ihm exakt denselben Prompt gab, und ich finde Gemini 3.5
00:05:03Flash gewinnt hierbei, aber natĂŒrlich ist das nur ein einzelner Test. Was den komplizierteren
00:05:07Finanz-Dashboard-Prompt angeht, eine Full-Stack-Anwendung: Es hat es gut geschafft, die Anwendung
00:05:11zum Laufen zu bringen, aber ich mag das UI-Design definitiv nicht. Es ist nicht schlecht, aber es hat
00:05:16diesen âvon KI entworfenenâ Look and Feel, und auch Abzug fĂŒr den Namen âAura Wealthâ.
00:05:20Wenn man das mit dem vergleicht, was Opus 4.7 mir gab, ist es ein riesiger Unterschied.
00:05:25Opus 4.7 sieht hier wirklich schön aus und ehrlich gesagt habe ich nicht viele Anmerkungen,
00:05:29wie ich diese UI Ă€ndern wĂŒrde. Opus hat tatsĂ€chlich 20 Minuten fĂŒr diesen Prompt gebraucht, wĂ€hrend Gemini
00:05:33fĂŒnf Minuten brauchte. Also ja, es ist definitiv schneller, hĂ€tte aber die weiteren 15 Minuten nutzen können,
00:05:38um es besser aussehen zu lassen. Davon abgesehen haben wir auch den Anti-Gravity CLI bekommen und der
00:05:42wird wahrscheinlich einige Leute verĂ€rgern, weil sie den Gemini CLI tatsĂ€chlich abschalten â ihr werdet ihn
00:05:46nach dem 18. Juni dieses Jahres nicht mehr nutzen können. Der neue CLI ist momentan im Grunde derselbe,
00:05:51auĂer dass er in Go umgeschrieben wurde und jetzt auch Closed Source ist, was wirklich bescheiden ist.
00:05:56Ich habe diesen nicht installiert, da es wieder nur Claude Code ist, aber fĂŒr Gemini.
00:06:00Es gibt nichts Neues zu zeigen. Um meine Gedanken dazu zusammenzufassen: Momentan ist 3.5
00:06:05Flash gut fĂŒr Agenten, aber es ist teuer und beim Programmieren zu schwach, um das Gesamtpaket zu sein.
00:06:10Ich hoffe also, dass wir etwas mehr von Gemini 3.5 Pro sehen, das anscheinend nÀchsten Monat kommt,
00:06:15aber im Moment scheint es, dass Google nicht der MarktfĂŒhrer beim Coding sein wird, und um
00:06:19ehrlich zu sein, glaube ich nicht, dass sie das sein mĂŒssen. Es scheint, dass Googles Markt eher
00:06:23der alltÀgliche Nutzer ist, der das in all seine Erfahrungen wie Gmail, Suche, Workspace,
00:06:28Android und alles andere einbaut; vielleicht sind Entwickler also gar nicht der Fokus. Lasst mich
00:06:33in den Kommentaren unten wissen, was ihr denkt. WĂ€hrend ihr dort seid, abonniert und wie immer:
00:06:36Wir sehen uns im nÀchsten Video.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video