Gemini 3.5 Flash, c'est juste... correct
BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology
Transcript
00:00:00Google vient de sortir Gemini 3.5 Flash et ils font des promesses assez audacieuses. Des performances
00:00:04de niveau « Frontier » avec une vitesse multipliée par quatre, et souvent pour moins de la moitié du coût.
00:00:09Tout cela semble incroyable, mais la réalité est bien pire que ce que Google annonce.
00:00:12Et ce n'était que la moitié de leurs annonces. Ils ont aussi sorti Anti-Gravity 2,
00:00:16qui est leur nouvelle application d'agent autonome, en gros leur réponse à Codex, ainsi que l'Anti-Gravity
00:00:20CLI, qui remplace en fait la CLI Gemini, donc encore un produit pour le site « Killed by Google ».
00:00:30Commençons par les statistiques principales. On a une fenêtre de contexte d'un million de jetons,
00:00:3464 000 jetons de sortie, et il accepte du texte, des images, de la vidéo, de l'audio et des PDF.
00:00:39Google a toujours été assez bon avec ces modèles multimodaux.
00:00:42Quant aux performances réelles, les propres benchmarks de Google placent ce modèle au niveau de GPT 5.5
00:00:46en matière de codage, n'étant qu'à quelques pourcents derrière sur SWBench Pro et Terminal
00:00:50Bench. Il dépasse même Opus 4.7 sur Terminal Bench d'environ 10 %, mais Claude
00:00:56Opus prend sa revanche sur SWBench Pro en battant Gemini d'environ 10 % également.
00:01:01Pour les flux de travail agentiques, ce modèle l'emporte sur les benchmarks MCP et Toolathon,
00:01:06et dans l'ensemble, ces résultats ne sont pas mauvais, mais tout cela vient de Google.
00:01:11Si, au contraire, on jette un œil aux benchmarks tiers, comme Artificial Analysis, ce n'est pas
00:01:15brillant. L'indice de codage place Gemini 3.5 Flash à un score de 45, ce qui est en fait inférieur à des modèles
00:01:21comme Kimi K2.6, et il ne bat même pas Gemini 3.1 Pro, alors que selon tous leurs propres benchmarks,
00:01:27il était en tête partout. Il n'est en fait qu'à quelques points devant Gemini 3 Flash
00:01:31également.
00:01:32L'histoire s'améliore un peu quand on regarde les performances agentiques. Il a fait
00:01:35un beau saut par rapport à Gemini 3.1 Pro et, oui, il rivalise techniquement avec les modèles « Frontier ».
00:01:41modèles.
00:01:42En regardant nos statistiques, il apparaît que 75 % d'entre vous qui regardez ceci n'êtes pas abonnés,
00:01:45alors je vais vous demander gentiment de le faire. Abonnez-vous, s'il vous plaît.
00:01:48Le point fort de ce modèle est définitivement sa vitesse. Ils ont obtenu 278 jetons par
00:01:53seconde avec ce modèle, ce qui surpasse largement Opus 4.7 et GPT 5.5, et même des modèles
00:01:59comme Haiku et ceux open-source d'OpenAI. Donc, en matière d'intelligence vs vitesse,
00:02:04ce modèle est certainement le meilleur.
00:02:06Dans l'ensemble, c'est un résultat mitigé. Ce n'est pas le meilleur modèle, ni le pire,
00:02:10mais il est vraiment très rapide, et ces résultats ne me dérangeraient pas s'il coûtait réellement la moitié
00:02:14du prix des autres modèles, mais c'est là que les choses commencent à se gâter.
00:02:18Le prix de ce modèle est de 1,50 $ pour un million de jetons d'entrée et 9 $ pour un million de jetons de sortie,
00:02:23ce qui est en fait trois fois plus cher que Gemini 3 Flash, mais reste bien moins cher que
00:02:27des modèles comme Opus 4.7 et GPT 5.5, du moins sur le papier.
00:02:32En exécutant réellement leurs benchmarks, Artificial Analysis a constaté que Gemini 3.5 Flash
00:02:36coûte 1 552 $ pour faire tourner l'indice d'intelligence, ce qui est en fait 5,5 fois plus cher
00:02:42que Gemini 3 Flash et 75 % plus cher que Gemini 3.1 Pro. Ce qui est encore pire,
00:02:48c'est que c'est plus cher que GPT 5.5 en mode raisonnement élevé, qui surpasse massivement Flash
00:02:54en termes de performance de codage. En fait, je vais mettre en évidence tous les modèles de ce
00:02:57tableau qui sont moins chers et plus performants que Flash en codage. Ça ne semble vraiment
00:03:02pas bon du tout, et ce n'est certainement pas à moitié prix comme l'affirmait leur marketing.
00:03:06En creusant un peu plus, il semble que le problème avec ce modèle soit que, bien qu'il soit rapide,
00:03:10il est très consommateur de jetons. Sur les évaluations agentiques, il a atteint une moyenne de 49 tours par tâche, ce qui est l'un
00:03:15des chiffres les plus élevés parmi tous les modèles testés. Il aime vraiment brûler
00:03:19vos jetons d'entrée. Donc, globalement, je ne sais pas vraiment où cela nous mène. Ce modèle
00:03:23donne juste une impression de « mouais ». La vitesse est super sympa, donc si vous valorisez cela au-dessus de tout le reste, peut-être
00:03:28est-ce le modèle à utiliser. Idem si vous voulez de grandes capacités multimodales, mais les performances
00:03:33de codage ne sont tout simplement pas suffisantes pour que j'envisage de le tester pour une période
00:03:37plus longue que celle de cette vidéo. Passons donc à l'autre
00:03:41grosse annonce qui était Anti-Gravity 2 et la nouvelle CLI.
00:03:44C'est Anti-Gravity 2 ? Attendez non, désolé c'est T3 Code. Peut-être celui-ci alors ? Attendez non, c'est
00:03:50Codecs. Qu'en est-il de celui-ci ? Non, c'est Cursor. Celui-ci est en fait Anti-Gravity 2 et je pense
00:03:55que vous voyez mon point. En gros, toutes ces applications commencent à se ressembler. Une partie amusante
00:03:59de l'une de nos démos est quand le développeur essaie de créer un nouveau projet et vous pouvez juste
00:04:03voir le dossier Codecs juste là. Donc, pour être honnête, je ne passerai pas beaucoup de temps à parcourir
00:04:07cette application. C'est exactement la même que toutes les autres. Nous avons nos conversations sur la
00:04:11gauche, nous avons nos projets, nos tâches planifiées, et vous pouvez cliquer sur n'importe lequel
00:04:15de ces fichiers si vous voulez voir la vue diff. La seule chose à noter est que ce n'est plus
00:04:18l'IDE Anti-Gravity. C'est juste une application complètement autonome. Ce que vous voyez
00:04:22est ce que vous obtenez. J'ai essayé quelques invites de test ici. L'une d'entre elles
00:04:26était de créer un tableau de bord de finances personnelles full-stack et l'autre était beaucoup plus simple,
00:04:30testant juste l'interface utilisateur sur la façon dont il construirait un site web de café dans un seul index.html.
00:04:35Voici le résultat de l'invite simple pour le café, et je dois dire que j'aime vraiment
00:04:39le site web qu'il a construit ici, donc il semble que 3.5 Flash soit assez bon pour le design d'UI.
00:04:44Je dirais que c'est globalement un site très agréable. Il a encore un peu cette sensation « IA »
00:04:48je pense que c'est surtout ce style de cartes et de dégradés que l'IA semble aimer en ce moment, mais
00:04:53le site est assez fonctionnel et ressemble à ce à quoi je m'attendais. Pour le contexte, ceci
00:04:58est ce qu'Opus 4.7 m'a donné quand je lui ai donné exactement la même invite, et je pense que Gemini 3.5
00:05:03Flash gagne sur ce coup-là, mais évidemment ce n'est qu'un test ponctuel. Quant à l'invite plus compliquée
00:05:07du tableau de bord financier, c'est une application full-stack, il a bien réussi à faire
00:05:11fonctionner l'application, mais je n'aime vraiment pas le design de l'UI. Ce n'est pas mauvais, mais il a juste
00:05:16ce look « conçu par une IA ». Et aussi, points négatifs pour avoir appelé cela
00:05:20Aura Wealth. Quand vous comparez cela à ce qu'Opus 4.7 m'a donné, c'est un monde de différence.
00:05:25Opus 4.7 ici est vraiment joli et, pour être honnête, je n'ai pas tant de remarques que ça sur la façon
00:05:29dont je changerais cette UI. Opus a passé 20 minutes sur cette invite alors que Gemini a pris
00:05:33cinq minutes, donc oui c'est définitivement plus rapide, mais il aurait aussi pu utiliser les 15 minutes supplémentaires pour
00:05:38améliorer le rendu. Pour continuer, nous avons aussi eu l'Anti-Gravity CLI, et celui-ci va
00:05:42probablement en énerver certains parce qu'ils ferment en fait la CLI Gemini, vous ne pourrez
00:05:46pas l'utiliser après le 18 juin de cette année, et la nouvelle CLI est fondamentalement la même pour
00:05:51le moment, sauf qu'elle a été réécrite en Go et qu'elle est aussi fermée maintenant, ce qui est nul,
00:05:56et je n'ai pas installé celle-ci car, encore une fois, c'est juste Claude Code mais pour Gemini.
00:06:00Il n'y a rien de nouveau à vous montrer. Pour résumer toutes mes pensées là-dessus : en ce moment, 3.5
00:06:05Flash est bon pour les agents, mais il est coûteux et trop faible en codage pour être complet,
00:06:10donc j'espère que nous en verrons un peu plus avec Gemini 3.5 Pro qui arrive apparemment le mois prochain.
00:06:15Mais pour l'instant, il semble que Google ne va pas être le leader du codage, et pour être
00:06:19honnête avec vous, je ne pense pas vraiment qu'ils aient besoin de l'être. Il semble que le marché de Google soit plus
00:06:23l'utilisateur quotidien, l'intégrant dans toutes vos expériences comme Gmail, Search, Workspace,
00:06:28Android et tout le reste, donc peut-être que les développeurs ne seront pas vraiment le focus. Dites-moi
00:06:33ce que vous en pensez dans les commentaires ci-dessous, abonnez-vous pendant que vous y êtes, et comme toujours,
00:06:36on se voit dans la prochaine vidéo.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video