Gemini 3.5 Flash, c'est juste... correct

BBetter Stack
컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00Google vient de sortir Gemini 3.5 Flash et ils font des promesses assez audacieuses. Des performances
00:00:04de niveau « Frontier » avec une vitesse multipliée par quatre, et souvent pour moins de la moitié du coût.
00:00:09Tout cela semble incroyable, mais la réalité est bien pire que ce que Google annonce.
00:00:12Et ce n'était que la moitié de leurs annonces. Ils ont aussi sorti Anti-Gravity 2,
00:00:16qui est leur nouvelle application d'agent autonome, en gros leur réponse à Codex, ainsi que l'Anti-Gravity
00:00:20CLI, qui remplace en fait la CLI Gemini, donc encore un produit pour le site « Killed by Google ».
00:00:30Commençons par les statistiques principales. On a une fenêtre de contexte d'un million de jetons,
00:00:3464 000 jetons de sortie, et il accepte du texte, des images, de la vidéo, de l'audio et des PDF.
00:00:39Google a toujours été assez bon avec ces modèles multimodaux.
00:00:42Quant aux performances réelles, les propres benchmarks de Google placent ce modèle au niveau de GPT 5.5
00:00:46en matière de codage, n'étant qu'à quelques pourcents derrière sur SWBench Pro et Terminal
00:00:50Bench. Il dépasse même Opus 4.7 sur Terminal Bench d'environ 10 %, mais Claude
00:00:56Opus prend sa revanche sur SWBench Pro en battant Gemini d'environ 10 % également.
00:01:01Pour les flux de travail agentiques, ce modèle l'emporte sur les benchmarks MCP et Toolathon,
00:01:06et dans l'ensemble, ces résultats ne sont pas mauvais, mais tout cela vient de Google.
00:01:11Si, au contraire, on jette un œil aux benchmarks tiers, comme Artificial Analysis, ce n'est pas
00:01:15brillant. L'indice de codage place Gemini 3.5 Flash à un score de 45, ce qui est en fait inférieur à des modèles
00:01:21comme Kimi K2.6, et il ne bat même pas Gemini 3.1 Pro, alors que selon tous leurs propres benchmarks,
00:01:27il était en tête partout. Il n'est en fait qu'à quelques points devant Gemini 3 Flash
00:01:31également.
00:01:32L'histoire s'améliore un peu quand on regarde les performances agentiques. Il a fait
00:01:35un beau saut par rapport à Gemini 3.1 Pro et, oui, il rivalise techniquement avec les modèles « Frontier ».
00:01:41modèles.
00:01:42En regardant nos statistiques, il apparaît que 75 % d'entre vous qui regardez ceci n'êtes pas abonnés,
00:01:45alors je vais vous demander gentiment de le faire. Abonnez-vous, s'il vous plaît.
00:01:48Le point fort de ce modèle est définitivement sa vitesse. Ils ont obtenu 278 jetons par
00:01:53seconde avec ce modèle, ce qui surpasse largement Opus 4.7 et GPT 5.5, et même des modèles
00:01:59comme Haiku et ceux open-source d'OpenAI. Donc, en matière d'intelligence vs vitesse,
00:02:04ce modèle est certainement le meilleur.
00:02:06Dans l'ensemble, c'est un résultat mitigé. Ce n'est pas le meilleur modèle, ni le pire,
00:02:10mais il est vraiment très rapide, et ces résultats ne me dérangeraient pas s'il coûtait réellement la moitié
00:02:14du prix des autres modèles, mais c'est là que les choses commencent à se gâter.
00:02:18Le prix de ce modèle est de 1,50 $ pour un million de jetons d'entrée et 9 $ pour un million de jetons de sortie,
00:02:23ce qui est en fait trois fois plus cher que Gemini 3 Flash, mais reste bien moins cher que
00:02:27des modèles comme Opus 4.7 et GPT 5.5, du moins sur le papier.
00:02:32En exécutant réellement leurs benchmarks, Artificial Analysis a constaté que Gemini 3.5 Flash
00:02:36coûte 1 552 $ pour faire tourner l'indice d'intelligence, ce qui est en fait 5,5 fois plus cher
00:02:42que Gemini 3 Flash et 75 % plus cher que Gemini 3.1 Pro. Ce qui est encore pire,
00:02:48c'est que c'est plus cher que GPT 5.5 en mode raisonnement élevé, qui surpasse massivement Flash
00:02:54en termes de performance de codage. En fait, je vais mettre en évidence tous les modèles de ce
00:02:57tableau qui sont moins chers et plus performants que Flash en codage. Ça ne semble vraiment
00:03:02pas bon du tout, et ce n'est certainement pas à moitié prix comme l'affirmait leur marketing.
00:03:06En creusant un peu plus, il semble que le problème avec ce modèle soit que, bien qu'il soit rapide,
00:03:10il est très consommateur de jetons. Sur les évaluations agentiques, il a atteint une moyenne de 49 tours par tâche, ce qui est l'un
00:03:15des chiffres les plus élevés parmi tous les modèles testés. Il aime vraiment brûler
00:03:19vos jetons d'entrée. Donc, globalement, je ne sais pas vraiment où cela nous mène. Ce modèle
00:03:23donne juste une impression de « mouais ». La vitesse est super sympa, donc si vous valorisez cela au-dessus de tout le reste, peut-être
00:03:28est-ce le modèle à utiliser. Idem si vous voulez de grandes capacités multimodales, mais les performances
00:03:33de codage ne sont tout simplement pas suffisantes pour que j'envisage de le tester pour une période
00:03:37plus longue que celle de cette vidéo. Passons donc à l'autre
00:03:41grosse annonce qui était Anti-Gravity 2 et la nouvelle CLI.
00:03:44C'est Anti-Gravity 2 ? Attendez non, désolé c'est T3 Code. Peut-être celui-ci alors ? Attendez non, c'est
00:03:50Codecs. Qu'en est-il de celui-ci ? Non, c'est Cursor. Celui-ci est en fait Anti-Gravity 2 et je pense
00:03:55que vous voyez mon point. En gros, toutes ces applications commencent à se ressembler. Une partie amusante
00:03:59de l'une de nos démos est quand le développeur essaie de créer un nouveau projet et vous pouvez juste
00:04:03voir le dossier Codecs juste là. Donc, pour être honnête, je ne passerai pas beaucoup de temps à parcourir
00:04:07cette application. C'est exactement la même que toutes les autres. Nous avons nos conversations sur la
00:04:11gauche, nous avons nos projets, nos tâches planifiées, et vous pouvez cliquer sur n'importe lequel
00:04:15de ces fichiers si vous voulez voir la vue diff. La seule chose à noter est que ce n'est plus
00:04:18l'IDE Anti-Gravity. C'est juste une application complètement autonome. Ce que vous voyez
00:04:22est ce que vous obtenez. J'ai essayé quelques invites de test ici. L'une d'entre elles
00:04:26était de créer un tableau de bord de finances personnelles full-stack et l'autre était beaucoup plus simple,
00:04:30testant juste l'interface utilisateur sur la façon dont il construirait un site web de café dans un seul index.html.
00:04:35Voici le résultat de l'invite simple pour le café, et je dois dire que j'aime vraiment
00:04:39le site web qu'il a construit ici, donc il semble que 3.5 Flash soit assez bon pour le design d'UI.
00:04:44Je dirais que c'est globalement un site très agréable. Il a encore un peu cette sensation « IA »
00:04:48je pense que c'est surtout ce style de cartes et de dégradés que l'IA semble aimer en ce moment, mais
00:04:53le site est assez fonctionnel et ressemble à ce à quoi je m'attendais. Pour le contexte, ceci
00:04:58est ce qu'Opus 4.7 m'a donné quand je lui ai donné exactement la même invite, et je pense que Gemini 3.5
00:05:03Flash gagne sur ce coup-là, mais évidemment ce n'est qu'un test ponctuel. Quant à l'invite plus compliquée
00:05:07du tableau de bord financier, c'est une application full-stack, il a bien réussi à faire
00:05:11fonctionner l'application, mais je n'aime vraiment pas le design de l'UI. Ce n'est pas mauvais, mais il a juste
00:05:16ce look « conçu par une IA ». Et aussi, points négatifs pour avoir appelé cela
00:05:20Aura Wealth. Quand vous comparez cela à ce qu'Opus 4.7 m'a donné, c'est un monde de différence.
00:05:25Opus 4.7 ici est vraiment joli et, pour être honnête, je n'ai pas tant de remarques que ça sur la façon
00:05:29dont je changerais cette UI. Opus a passé 20 minutes sur cette invite alors que Gemini a pris
00:05:33cinq minutes, donc oui c'est définitivement plus rapide, mais il aurait aussi pu utiliser les 15 minutes supplémentaires pour
00:05:38améliorer le rendu. Pour continuer, nous avons aussi eu l'Anti-Gravity CLI, et celui-ci va
00:05:42probablement en énerver certains parce qu'ils ferment en fait la CLI Gemini, vous ne pourrez
00:05:46pas l'utiliser après le 18 juin de cette année, et la nouvelle CLI est fondamentalement la même pour
00:05:51le moment, sauf qu'elle a été réécrite en Go et qu'elle est aussi fermée maintenant, ce qui est nul,
00:05:56et je n'ai pas installé celle-ci car, encore une fois, c'est juste Claude Code mais pour Gemini.
00:06:00Il n'y a rien de nouveau à vous montrer. Pour résumer toutes mes pensées là-dessus : en ce moment, 3.5
00:06:05Flash est bon pour les agents, mais il est coûteux et trop faible en codage pour être complet,
00:06:10donc j'espère que nous en verrons un peu plus avec Gemini 3.5 Pro qui arrive apparemment le mois prochain.
00:06:15Mais pour l'instant, il semble que Google ne va pas être le leader du codage, et pour être
00:06:19honnête avec vous, je ne pense pas vraiment qu'ils aient besoin de l'être. Il semble que le marché de Google soit plus
00:06:23l'utilisateur quotidien, l'intégrant dans toutes vos expériences comme Gmail, Search, Workspace,
00:06:28Android et tout le reste, donc peut-être que les développeurs ne seront pas vraiment le focus. Dites-moi
00:06:33ce que vous en pensez dans les commentaires ci-dessous, abonnez-vous pendant que vous y êtes, et comme toujours,
00:06:36on se voit dans la prochaine vidéo.

Key Takeaway

Gemini 3.5 Flash se distingue par sa vitesse exceptionnelle, mais son coût élevé et ses performances de codage en retrait en font une option mitigée par rapport aux alternatives actuelles.

Highlights

  • Gemini 3.5 Flash offre une vitesse de traitement atteignant 278 jetons par seconde.

  • L'utilisation réelle du modèle coûte 1 552 $ pour l'indice d'intelligence selon Artificial Analysis, soit 5,5 fois plus que Gemini 3 Flash.

  • Le modèle possède une fenêtre de contexte d'un million de jetons et accepte des entrées multimodales.

  • Les performances en codage sont inférieures à celles de modèles comme Kimi K2.6 et Gemini 3.1 Pro selon des benchmarks tiers.

  • L'application autonome Anti-Gravity 2 et la nouvelle CLI réécrite en Go remplacent l'infrastructure existante de Google.

Timeline

Performances et capacités de Gemini 3.5 Flash

  • Le modèle intègre une fenêtre de contexte d'un million de jetons.
  • Les benchmarks internes de Google placent le modèle au niveau de GPT 5.5 pour le codage.
  • Des évaluations tierces montrent des scores de codage inférieurs à ceux de Kimi K2.6.

Le modèle supporte le texte, l'image, la vidéo, l'audio et les PDF. Bien que les données internes de Google suggèrent une avance notable, les analyses externes d'Artificial Analysis nuancent ces résultats avec un score de 45, plaçant Flash derrière des modèles plus anciens comme Gemini 3.1 Pro.

Analyse de la vitesse et de la structure tarifaire

  • La vitesse de traitement atteint 278 jetons par seconde, dépassant GPT 5.5 et Opus 4.7.
  • L'utilisation intensive des jetons d'entrée entraîne un coût d'exploitation supérieur aux attentes.
  • Le coût réel par tâche est 5,5 fois plus élevé que celui de Gemini 3 Flash.

Si la vitesse est le point fort incontestable du modèle, l'efficacité financière est remise en question. Le modèle consomme en moyenne 49 tours par tâche dans les évaluations agentiques, ce qui fait grimper les coûts d'exécution à 1 552 $ pour les tests d'intelligence, surpassant le coût de modèles plus performants en codage.

Applications autonomes et outils CLI

  • L'application Anti-Gravity 2 remplace les outils précédents et propose une interface autonome.
  • Le design généré par l'IA pour des sites web simples reste fonctionnel mais présente un style visuel répétitif.
  • La CLI Gemini est remplacée par une nouvelle version en Go, fermée, dont l'accès est limité après le 18 juin.

L'interface autonome est efficace pour la génération rapide de structures UI, bien que le résultat final souffre d'un aspect esthétique standardisé. La transition forcée vers la nouvelle CLI, désormais fermée et réécrite en Go, marque un changement stratégique pour les développeurs, éloignant Gemini de la position de leader en matière d'outils de codage ouverts.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video