J'ai testé DeepSeek V4 vs Claude Code vs Codex

CChase AI
Computing/SoftwareInternet Technology

Transcript

00:00:00Au cours des dernières 24 heures, nous avons eu d'énormes mises à jour
00:00:02sur deux des plus grands modèles d'IA de la planète.
00:00:04D'abord, nous avons eu la sortie de GPT 5.5,
00:00:07qui affiche certains scores de référence
00:00:10qui surpassent le "Mythos" de Claude.
00:00:12Deuxièmement, nous avons eu la sortie de DeepSeek V4,
00:00:15qui est un modèle open source à poids ouverts
00:00:18avec des benchmarks qui rivalisent avec ces grands acteurs de pointe.
00:00:22Alors, avec tous ces nouveaux modèles parmi lesquels choisir,
00:00:24que sommes-nous, nous, les utilisateurs moyens, censés faire ?
00:00:27Eh bien, aujourd'hui, je vais vous aider à répondre à cette question
00:00:29en opposant Opus 4.7, GPT 5.5,
00:00:33et DeepSeek V4 les uns aux autres,
00:00:36afin que vous puissiez voir lequel a vraiment du sens pour vous.
00:00:39Maintenant, avant de commencer ce test comparatif
00:00:41entre GPT 5.5 dans Codecs,
00:00:45DeepSeek V4 dans Open Code,
00:00:47et Opus 4.7 dans Claude Code,
00:00:51jetons d'abord un coup d'œil rapide aux benchmarks,
00:00:53surtout ces deux derniers modèles
00:00:54qui sont sortis ces dernières 24 heures.
00:00:56Parlons d'abord du coût.
00:00:58Maintenant, DeepSeek V4, comme vous le savez,
00:01:00est un modèle open source à poids ouverts,
00:01:01mais cela ne signifie pas que vous pouvez l'exécuter sur votre ordinateur
00:01:04parce que ce truc est énorme.
00:01:05Je parle de 1 600 milliards de paramètres.
00:01:08Vous avez besoin d'un matériel sérieux pour l'exécuter.
00:01:10Donc nous devons toujours payer pour cela.
00:01:11Nous allons toujours devoir utiliser l'API,
00:01:13mais c'est infiniment moins cher que la concurrence,
00:01:15environ huit fois moins cher.
00:01:18Et parmi les trois modèles,
00:01:19le tout nouveau GPT 5.5 est en fait le plus cher,
00:01:22ce qui est assez surprenant car, dans l'ensemble,
00:01:24OpenAI a été moins cher que son concurrent Anthropic.
00:01:28En termes de ce que cela vous coûtera
00:01:30par million de jetons de sortie.
00:01:32Pour GPT 5.5, ce sera 30 $.
00:01:35Pour Anthropic, ce sera 25 $.
00:01:38Et pour DeepSeek, ce sera 3,48 $.
00:01:41Maintenant, si nous parlons de jetons d'entrée,
00:01:44qui constituent une plus petite partie de l'ensemble,
00:01:46GPT 5.5 et Opus 5.7 sont identiques.
00:01:49Ce sera 5 $ par million de jetons d'entrée.
00:01:53Et pour DeepSeek, c'est environ 1,70 $.
00:01:57Donc bien moins cher à l'entrée et bien moins cher à la sortie.
00:02:01Cela dit, quand il s'agit de la version 5.5,
00:02:03c'est deux fois plus cher que la version 5.4.
00:02:06Cependant, OpenAI affirme qu'il utilise en fait beaucoup moins de jetons
00:02:10grâce à sa puissance.
00:02:11Donc, bien que ce soit le double du prix de la 5.4,
00:02:14ils disent qu'en termes de consommation réelle de jetons et de coût réel,
00:02:17pour la même tâche, cela finit par n'être que 20 %
00:02:20plus cher une fois que tout est pris en compte.
00:02:21Gardez donc cela à l'esprit.
00:02:24Nous avons donc parlé du coût.
00:02:25Parlons maintenant des benchmarks.
00:02:26Quelle est la qualité de ces modèles sur le papier ?
00:02:27Je sais que nous sommes tous un peu insensibles aux benchmarks en général.
00:02:31Nous devons les prendre avec des pincettes,
00:02:32mais cela vaut quand même la peine d'y jeter un œil,
00:02:33surtout quand on regarde les chiffres
00:02:36qui sont rapportés par chaque acteur sur le même benchmark.
00:02:39Il y en avait donc trois dans la catégorie codage
00:02:42pour lesquels les trois ont rapporté des chiffres.
00:02:43C'était SWE bench verified, SWE bench pro
00:02:46et Terminal bench 2.0.
00:02:48Maintenant, pour SWE bench verified et SWE bench pro,
00:02:50Opus était le gagnant.
00:02:52Sur Terminal bench 2.0, GPT était le grand gagnant à 87,2,
00:02:56ce qui, soit dit en passant, est un chiffre plus élevé
00:02:59que ce qu'Anthropic a rapporté pour Mythos.
00:03:02Oh, Mythos, pardon.
00:03:03Ce qui est assez fou.
00:03:05Vous savez, le modèle super secret qu'ils ne peuvent pas publier,
00:03:07fait apparemment moins bien sur Terminal bench 2 que GPT 5.5.
00:03:10Maintenant, Terminal bench 2.0 est la plus grande anomalie ici.
00:03:13Opus 4.7 et V4 Pro sont loin derrière,
00:03:16mais regardez Opus 4.7 par rapport à V4 Pro.
00:03:20C'est moins de deux points de différence tout en étant huit fois moins cher.
00:03:23Et vous voyez le même genre d'histoire ici
00:03:24avec SWE bench verified et SWE bench pro.
00:03:26Oui, Opus gagne.
00:03:28Mais quand nous comparons la deuxième place avec la troisième,
00:03:31et V4 est toujours en troisième place,
00:03:33il n'y a pas l'énorme écart auquel on pourrait s'attendre.
00:03:36Je veux dire, cinq points, ce n'est pas rien, vous savez,
00:03:38sur SWE bench verified, 85 à 86.
00:03:41Mais encore une fois, huit fois moins cher, open source.
00:03:45Vous savez, il y a des compromis réels ici
00:03:46que nous pouvons faire si nous n'avons pas besoin de la plus grande puissance.
00:03:49Une autre chose intéressante à aborder
00:03:51est le contexte long où, étrangement, Opus 4.7 est vraiment mauvais
00:03:55selon les chiffres, nettement pire que la 4.6,
00:03:58ce qui me dépasse.
00:04:00Et quand nous parlons de contexte long
00:04:01où nous essayons de récupérer des informations
00:04:03entre 500 000 jetons et 1 million de jetons,
00:04:06la 4.7 est en fait terrible.
00:04:08Et fait bien pire que DeepSeek et GPT 5.5.
00:04:12Maintenant, vous pouvez avoir une discussion complète sur
00:04:14pourquoi vous êtes même dans la plage de 500 000 à 1 million de jetons ?
00:04:17Pour commencer, combien de personnes opèrent réellement là-dedans
00:04:20car nous atteignons la "pourriture contextuelle" quoi qu'il arrive
00:04:22à cet endroit, quel que soit le modèle que vous utilisez.
00:04:24Mais il est intéressant que pour une raison quelconque,
00:04:26nous ayons constaté une régression
00:04:27en ce qui concerne les modèles Anthropic.
00:04:29Mais dans l'ensemble, je pense que le point à retenir est que
00:04:32la 5.5 est vraiment solide.
00:04:33Elle bat Opus 4.7 sur certaines mesures,
00:04:36perd sur d'autres mesures,
00:04:37mais c'est un modèle extrêmement robuste.
00:04:39Et en plus de cela, eh bien, V4 Pro est en quelque sorte, vous savez,
00:04:42à la traîne dans l'ensemble.
00:04:45Il est à portée de tir tout en étant infiniment moins cher,
00:04:48ce qui, encore une fois, est une excellente option pour votre client moyen.
00:04:52Parce qu'en ce moment, on a l'impression que vous n'avez pas beaucoup
00:04:54d'options du côté open source qui peuvent réellement rivaliser.
00:04:56Maintenant, plongeons dans le test comparatif réel
00:04:59avec ces trois modèles.
00:05:00Et nous utilisons une "harnais" pour chacun de ces modèles.
00:05:02Avec la 5.5, ce sera Codecs.
00:05:04Avec Opus 4.7, ce sera Claude Code.
00:05:07Et avec DeepSeek V4 Pro, j'utilise Open Code.
00:05:10Et pour le premier test, ce que nous allons faire, c'est
00:05:11que nous allons leur demander de créer un simulateur de vol
00:05:14pour nous en 3JS qui fonctionne dans le navigateur.
00:05:17Vous pouvez voir le prompt juste ici.
00:05:18Je dis que je veux que ce soit agréable à piloter.
00:05:20Je veux que cela ait un certain poids.
00:05:21Je veux des visuels forts et je veux qu'il utilise
00:05:25la structure et les outils qu'il juge corrects.
00:05:27C'est donc assez simple pour qu'ils sachent quoi faire,
00:05:30mais il y a assez de marge pour que nous puissions voir une certaine divergence
00:05:33entre les modèles.
00:05:34Et bien que nous allions examiner ce qu'ils sont capables
00:05:36de faire en un seul essai, nous allons passer par plusieurs itérations
00:05:38de ceci et avoir des prompts de suivi.
00:05:40Parce qu'aussi cool que ce soit de voir à quel point il réussit en un essai,
00:05:44ce n'est pas comme ça qu'on travaille vraiment dans la vraie vie, n'est-ce pas ?
00:05:46Je veux voir comment il se comporte quand je lui donne des prompts de suivi
00:05:49et combien de temps il faut pour arriver à quelque chose que j'aime.
00:05:52Et quand nous comparons ces trois modèles,
00:05:54il y a vraiment quatre choses que je vais regarder.
00:05:55Ce sera le temps.
00:05:57Combien de temps faut-il pour construire ceci ?
00:05:58Le coût, combien de jetons utilisons-nous ?
00:06:01La qualité, à quel point est-ce bon ?
00:06:02Et puis le quatrième, ce sont les "vibes".
00:06:04Et cela se rapporte en quelque sorte à la qualité.
00:06:06C'est très subjectif.
00:06:06Lequel est-ce que j'aime vraiment plus ?
00:06:09Et aussi à noter, tous les trois modèles, toutes les trois harnais
00:06:11utilisent également les mêmes compétences.
00:06:13Commençons donc par DeepSeek avec les questions qu'il nous pose.
00:06:16Il demande quel type de modèle de vol nous voulons.
00:06:18Allons-y avec une simulation complète.
00:06:20Il recommande des océans et des îles pour le terrain.
00:06:22Nous allons choisir ça.
00:06:23Voyons comment, et ensuite il demande la préférence de caméra.
00:06:25Faisons les deux.
00:06:26Voyons s'il est capable de nous donner une bascule
00:06:27à la fois pour la première personne et la troisième personne.
00:06:29Nous allons choisir sa préférence d'outils recommandée.
00:06:32Et nous allons juste choisir un modèle low-poly
00:06:33pour l'avion et les visuels eux-mêmes.
00:06:35Maintenant, en passant à Codecs, le même genre de questions.
00:06:38Bien qu'il ne nous en pose que trois.
00:06:40Demandant quel type de vol cet avion doit-il optimiser ?
00:06:42Allons-y avec une simulation difficile.
00:06:44Quelle expérience jouable compte le plus pour le navigateur ?
00:06:48Faisons une boucle de décollage sur île.
00:06:50C'est assez intéressant de voir comment ils ont tous la même.
00:06:52Et quelle présentation de caméra et d'avion ?
00:06:54Je vais faire une bascule pour cela aussi.
00:06:56Et pour Claude Code, nous ferons un apprentissage de simulation d'étude
00:06:58pour la sensation d'entrée océan et îles.
00:07:02Nous ferons clavier et souris.
00:07:04Il ne le laissera pas aller travailler.
00:07:05Donc, le mode plan est dans l'ensemble très similaire pour les trois.
00:07:09À peu près les mêmes questions du genre,
00:07:11quelle physique voulez-vous ?
00:07:12Quel terrain voulez-vous ?
00:07:13Quel angle de caméra voulez-vous ?
00:07:15Donc aucune énorme différence là-bas.
00:07:17Et voyons ce qu'ils proposent en termes de plan.
00:07:19Très bien, donc les trois plans sont complets.
00:07:20Alors passons à travers chacun d'eux assez rapidement
00:07:22et voyons certaines des différences.
00:07:24Le premier que nous regardons ici est DeepSeek.
00:07:26Et c'est assez rudimentaire en termes de plan qu'il présente.
00:07:29Il nous donne donc la structure du projet
00:07:31et parle ensuite très rapidement de la physique du vol,
00:07:33l'environnement, la caméra et l'affichage tête haute,
00:07:35et vraiment juste quelques points.
00:07:37D'un autre côté, quand nous regardons 5.5 dans Codecs,
00:07:40c'est un résumé, des changements clés,
00:07:43va dans les détails de mise en œuvre, le plan de test,
00:07:46ainsi que les hypothèses
00:07:47qui nous expliquent tout cela.
00:07:49Et puis nous avons le plan de Claude Code, qui a pris le plus de temps.
00:07:50Cela lui a pris environ cinq minutes, mais c'est de loin le plus complet
00:07:53car c'est le contexte, la pile.
00:07:55La mise en page parle du modèle de vol.
00:07:57Il entre dans les détails des différents moments,
00:08:00parlant des décrochages, comme le signal sonore de décrochage.
00:08:02C'est très, très détaillé.
00:08:03Il aborde les commandes, le monde, le module,
00:08:06l'avion réel que nous allons utiliser, les performances,
00:08:08et ça continue encore et encore.
00:08:10Donc très détaillé.
00:08:11Maintenant, nous allons faire en sorte que les trois implémentent leur plan,
00:08:14et nous verrons à quoi ressemble le résultat final.
00:08:15Donc GPT 5.5 dans codecs a été le premier à terminer.
00:08:19Voyons donc à quoi ça ressemble.
00:08:20Voici le simulateur de vol qu'il nous a fourni.
00:08:22Nous avons des nuages dans le ciel.
00:08:26Nous avons ce qui ressemble à un indicateur AOA là-haut.
00:08:31Nous avons notre vitesse en bas,
00:08:34et voyons si nous pouvons vraiment faire décoller
00:08:35cet engin.
00:08:36Je noterai qu'il n'y a nulle part comme une piste.
00:08:38C'est juste de l'herbe.
00:08:39Et au lieu de cela, ce devait être comme une île.
00:08:42Bien que lorsque la caméra s'affole un peu,
00:08:45vous pouvez voir la piste en dessous pendant une seconde.
00:08:48Très bien, nous décrochons et nous,
00:08:50nous ne pouvons même pas décoller, n'est-ce pas ?
00:08:51Donc celui-ci est en fait juste un peu,
00:08:54c'est en fait assez difficile.
00:08:55Alors ce que je vais faire, c'est que je vais lui donner
00:09:00un second message lui demandant de rendre cela un peu plus facile
00:09:03à piloter, car il y a beaucoup de choses ici,
00:09:05mais c'est dur.
00:09:06J'ai donc écrit : c'est vraiment difficile à piloter.
00:09:08Pouvons-nous rendre cela plus facile à utiliser ?
00:09:10AKA un peu plus arcade.
00:09:12Et les graphismes pourraient aussi être améliorés.
00:09:15Voyons comment ça se passe.
00:09:16Notez qu'il a fallu environ sept minutes à 5.5
00:09:21pour créer ce premier essai pour nous.
00:09:23Et cela a pris 63 000 jetons.
00:09:26Très bien, il a dit qu'il l'avait rendu un peu plus facile
00:09:28à piloter et avait mis à jour les graphismes.
00:09:29Voyons donc à quoi ressemble le deuxième essai.
00:09:32Voici ce que nous avons obtenu.
00:09:32Les graphismes semblent définitivement meilleurs,
00:09:34mais voyons si nous pouvons réellement décoller de la piste
00:09:36cette fois.
00:09:37Donc, très bien, gaz à cent pour cent,
00:09:4150, 60, sept.
00:09:43Quelle est la vitesse de rotation sur un Cessna ?
00:09:46Très bien, 70, 80, 90.
00:09:49Nous devons être capables de décoller maintenant.
00:09:51Ok, mauvaise direction.
00:09:53Allez, décolle, décolle.
00:09:56Non, ça va probablement me faire décrocher, n'est-ce pas ?
00:09:58Oui, décrochage.
00:09:59Ok, ça a encore besoin de travail.
00:10:02Alors donnons une chance de plus à Codex.
00:10:05Donnons une chance de plus à 5.5
00:10:07pour rendre cela réellement jouable.
00:10:08J'ai donc dit que je ne peux même pas faire décoller
00:10:10l'avion et entrer en vol.
00:10:11Nous devons absolument le rendre facile à faire décoller
00:10:12et réellement piloter l'engin.
00:10:14Ok, donc il dit qu'il a corrigé le problème de décollage.
00:10:16Apparemment, les freins étaient restés bloqués avant.
00:10:19Je ne sais pas si c'est pour ça qu'on n'y arrivait pas.
00:10:21Oh, il ne l'a pas automatiquement configuré pour le décollage.
00:10:24Volets, ouais, c'était,
00:10:25on était en mode super simulateur.
00:10:29Mais voici la troisième tentative pour notre simulateur de vol.
00:10:32Voyons comment nous nous en sortons.
00:10:34Alors, peut-on décoller ?
00:10:36Oh, nous rebondissons sur la piste
00:10:37cette fois-ci.
00:10:38Très bien, super, nous avons décollé.
00:10:41Nous bougeons réellement.
00:10:44Voyons si nous pouvons atteindre l'un de ces anneaux.
00:10:45Je veux dire, les graphismes ne sont pas si mauvais, vous savez,
00:10:49pour quelque chose généré en moins de 10 minutes.
00:10:52Il semble être assez précis en termes de, vous savez,
00:10:56il me donne ma vitesse verticale, vous savez,
00:10:59en pieds par minute en bas,
00:11:00mon altitude réelle, les nœuds, le cap, AGL.
00:11:04Donc c'est relativement sophistiqué
00:11:06en termes de suivi de tout.
00:11:08Je veux dire, ce petit indicateur à l'avant,
00:11:10semble être un indicateur d'angle d'attaque, vous savez,
00:11:13ce qui est plutôt cool.
00:11:14Donc il a de bonnes choses.
00:11:18Les commandes réelles sont un peu bizarres.
00:11:21Comme vous pouvez le voir, je n'arrive pas à contrôler ça du tout,
00:11:23mais dans l'ensemble, pas mal.
00:11:25Vous savez, on peut un peu faire un kamikaze avec ça
00:11:27et voir ce qui se passe à, vous savez, 18 000 pieds par minute.
00:11:31Mais oui, vous savez, pour 66 000 jetons,
00:11:36environ 10 minutes, 15 minutes ou plus, à peu près,
00:11:40vous savez, avec les allers-retours,
00:11:41je ne pense pas que ce soit mauvais du tout.
00:11:42Alors maintenant, jetons un œil à DeepSeek.
00:11:44Cela a pris environ 10 minutes pour faire ça.
00:11:46Et en termes de jetons, 63 000 et 44 cents.
00:11:51Donc 44 cents, 10 minutes.
00:11:53Et voici ce que DeepSeek nous a trouvé.
00:11:56Je n'ai aucune idée.
00:12:00De ce que je regarde.
00:12:03C'est censé être à la troisième personne.
00:12:06C'est censé être le cockpit.
00:12:07Et évidemment notre première tentative avec DeepSeek
00:12:11était un autre désastre.
00:12:13Je dis donc à DeepSeek que le simulateur est un désastre complet.
00:12:16Les graphismes sont complètement buggés
00:12:17et je ne peux rien piloter.
00:12:20Merci de corriger.
00:12:21Et voici à quoi ressemble notre deuxième essai.
00:12:24Je n'ai toujours aucune idée.
00:12:26Absolument aucune idée.
00:12:28Qu'est-ce que DeepSeek est.
00:12:30Oh, hé, il y a un avion.
00:12:32Oh, il y a quelque chose.
00:12:33Je, ouais, c'est, c'est brutal.
00:12:38Et pour être honnête, j'ai l'impression que même en lui donnant une autre consigne
00:12:42pour faire ça, je devrais commencer à être très, très précis
00:12:44sur ce que nous essayons de faire, ce qui encore,
00:12:47est assez loin de ce que nous avons fait avec Codex.
00:12:49C'était très, vous savez, des consignes un peu fades.
00:12:51J'ai pu obtenir quelque chose d'au moins proche,
00:12:53même dès le premier essai.
00:12:54Comme clairement, il lutte complètement
00:12:57avec les graphismes.
00:12:58Nous sommes juste, je ne sais même pas comment décrire ça,
00:13:01mais hé, c'était super bon marché.
00:13:03Alors maintenant, jetons un œil à ce que Claude Code
00:13:07a pu nous donner pour référence.
00:13:09Cela a pris 13 minutes pour réellement exécuter le plan.
00:13:12Le plan lui-même a pris cinq minutes.
00:13:13Appelons ça 20 minutes pour arriver à une première version.
00:13:17Et ensuite pour le nombre total de jetons,
00:13:19cette exécution a pris environ 15% plus les 5% avant le plan.
00:13:22Donc nous regardons, eh bien, désolé,
00:13:24nous regardons 11% de contexte plus 5% avant.
00:13:28Donc disons 20 minutes, 150 000 jetons pour Claude Code,
00:13:33ce qui est définitivement le plus cher
00:13:34et le plus lent de tous.
00:13:36Et voici la tentative de Claude Code.
00:13:39Pour une raison quelconque, nous sommes instantanément en l'air.
00:13:43Nous décrochons.
00:13:44Nous sommes en vol aux instruments.
00:13:45Je ne sais pas ce qui se passe.
00:13:48Nous sommes sur le point de nous écraser.
00:13:50Pouvons-nous sauver ça ?
00:13:51Pouvons-nous sortir de ce piqué ?
00:13:53Non, nous décrochons, non, nous sommes morts.
00:13:54Ok, c'est intéressant.
00:13:56Encore une fois, cela nous catapulte instantanément dans les airs.
00:14:00Nous sommes dans les nuages.
00:14:02Nous décrochons.
00:14:03Je ne sais pas ce qui se passe.
00:14:05Nous avons besoin, nous avons besoin d'un second essai.
00:14:08J'ai donc écrit : au chargement, je suis instantanément jeté dans les airs.
00:14:11C'est difficile à contrôler.
00:14:12Je veux commencer sur la piste et je veux que ce soit plus facile à piloter.
00:14:15Oh, et au fait, améliorez aussi ces graphismes.
00:14:17Donc cela a pris environ quatre minutes, mais il a fait quelques changements.
00:14:20Nous allons apparaître sur la piste.
00:14:22Il a changé le train d'atterrissage.
00:14:23Donc maintenant c'est un train tricycle et quelques autres trucs.
00:14:24Voyons donc à quoi ça ressemble.
00:14:26Ok, donc le voici.
00:14:27Encore une fois, nous sommes jetés immédiatement dans un banc de brouillard.
00:14:29J'essaie de contrôler cet engin.
00:14:31Et je juste, ouais, il n'y a aucun moyen de contrôler ça.
00:14:33Très bien, nous allons donner,
00:14:34nous allons donner une chance de plus à Claude Code.
00:14:37Je lui ai dit qu'il me catapulte toujours instantanément
00:14:39dans le ciel.
00:14:40J'ai dit, allons avec une sensation beaucoup plus arcade
00:14:42avec les commandes.
00:14:43Je pense que nous aurions probablement dû faire ça
00:14:44avec les premières consignes pour les trois.
00:14:46Je pense qu'en visant un type de simulateur plus réaliste,
00:14:50il a vraiment du mal à,
00:14:53je pense, faire ça d'une manière qui soit encore conviviale.
00:14:57Je pense qu'il fait probablement du bon travail sous le capot
00:14:59en termes de, genre, ok, genre angle d'attaque.
00:15:01Très bien, vous décrochez à ce, vous savez,
00:15:02angle par rapport à la vitesse et tout ça.
00:15:04Mais en réalité, manipuler cela depuis l'ordinateur
00:15:07est pratiquement impossible.
00:15:09Bien que je pense que les trucs de brouillard sont vraiment étranges.
00:15:12Voyons donc si après la deuxième série de consignes
00:15:15il est capable de faire un peu mieux
00:15:16parce qu'en ce moment GPT 5.5 a fait beaucoup, beaucoup mieux.
00:15:20Donc Claude Code a fait quelques changements de plus,
00:15:22l'a rendu plus convivial.
00:15:23Et voyons si je vise toujours
00:15:24pour ma qualification aux instruments cette fois.
00:15:26Alors oui, on continue.
00:15:28On continue pour la qualification aux instruments.
00:15:30On est à Men's ici, mais vous savez, je peux l'apercevoir.
00:15:33Vous savez, je peux vérifier mon tableau de bord.
00:15:35Très bien, on quitte la piste.
00:15:37Ouais, d'accord.
00:15:42Est-ce que... pourquoi y a-t-il un arbre sur la piste ?
00:15:44J'essaie de décoller.
00:15:46Je peux monter ?
00:15:47Est-ce que je peux cabrer ?
00:15:49Cliquez sur le canevas pour verrouiller la souris, quoi ?
00:15:53Oh, on est en l'air.
00:15:54Non, non, on est morts.
00:15:57Donc oui, je pense que celui-ci est assez clair.
00:16:02GPT 5.5, le vainqueur incontesté, je pense.
00:16:06Claude Code est arrivé deuxième.
00:16:08Je lui accorderais la deuxième place.
00:16:10Vous savez, il a clairement eu du mal
00:16:13même avec les instructions qu'on lui a données.
00:16:14On ne lui a pas donné de super instructions, soyons honnêtes.
00:16:16Je pense qu'avec plus de temps, de meilleures instructions,
00:16:19quelques allers-retours supplémentaires,
00:16:20on aurait pu arriver là où on voulait.
00:16:21Il avait au moins un avion, il avait une piste.
00:16:25Il y avait des arbres sur la piste,
00:16:26mais il avait les éléments dont on avait besoin
00:16:29par rapport à DeepSeek avec OpenCODE.
00:16:32Je n'avais aucune idée de ce qui se passait là-dedans.
00:16:34C'était un désastre complet.
00:16:35J'ai l'impression que j'aurais dû tout recommencer
00:16:36depuis le début, en lui donnant une consigne très précise.
00:16:38Ce n'était même pas près d'être utilisable,
00:16:39mais GPT 5.5, dès le début, vous savez,
00:16:42c'était des consignes assez vagues.
00:16:44J'ai trouvé qu'il s'en est très bien sorti.
00:16:455.5 a aussi utilisé un total de 66 000 jetons.
00:16:48On regarde ici avec Opus au total,
00:16:52environ 200 000 jetons.
00:16:53Donc un quart des jetons, essentiellement un quart du coût.
00:16:56Et c'était un peu plus rapide.
00:16:58Je veux dire, à ce stade, je ne me soucie même plus
00:16:59du fait qu'OpenCODE a mis plus de temps que GPT 5.5.
00:17:03Et c'était juste nul, soyons honnêtes, c'était nul.
00:17:07Passons maintenant au test numéro deux.
00:17:10Cette fois, nous allons leur demander
00:17:12de créer une page de destination montrant le travail des shaders WebGPU
00:17:16avec Three.js.
00:17:18Le travail sur les shaders WebGPU, c'est ce genre de choses qu'on voit
00:17:21sur les sites récompensés.
00:17:23Je parle de sites comme Igloo, ce genre de choses,
00:17:26des graphismes de très haut niveau.
00:17:28On dirait un jeu vidéo.
00:17:29C'est essentiellement utiliser la carte graphique de votre ordinateur
00:17:32pour rendre tout cela.
00:17:34Je ne m'attends pas à ce qu'aucun d'eux n'arrive à quoi que ce soit de proche
00:17:37de ce que nous voyons ici, mais je veux voir ce qu'ils peuvent faire
00:17:40en utilisant essentiellement la technologie des shaders.
00:17:42C'est certainement un niveau au-dessus de votre simple
00:17:45page de destination SaaS basée sur un modèle.
00:17:46Je veux voir ce qu'ils peuvent faire et les pousser
00:17:48dans leurs retranchements dans le monde du web design.
00:17:50Maintenant, je leur ai donné à tous une compétence qui détaille
00:17:53comment réaliser ce genre de choses.
00:17:55Ce n'est donc pas comme s'ils étaient complètement dans le noir
00:17:57et l'un n'a pas non plus d'avantage sur l'autre.
00:18:00La seule chose que je leur ai dite, c'est que je veux que ce soit moderne
00:18:02et visuellement frappant, quelque chose que vous verriez sur des sites récompensés
00:18:05et de faire un usage intelligent du calcul GPU.
00:18:08Ils peuvent donc choisir la pile et la structure de projet
00:18:10qu'ils aiment et faire preuve de discernement sur le concept héro,
00:18:13l'interface utilisateur et les interactions.
00:18:15Et tout comme pour le premier test, ils sont tous en mode plan.
00:18:17Alors commençons.
00:18:18D'accord, ils ont tous fini leur plan et, chose amusante,
00:18:21aucun d'eux ne m'a posé de questions,
00:18:22même si nous les avons mis en mode plan.
00:18:24Alors regardons d'abord GPT 5.5.
00:18:28Il nous dit qu'il va faire une bannière interactive
00:18:30pleine page pilotée par GPU.
00:18:32Le concept sera un champ de signal vivant
00:18:34avec une sorte de densité de particules.
00:18:36Nous verrons à quoi cela ressemble.
00:18:38Et dans l'ensemble, c'est un design minimal de type récompense.
00:18:41Scène WebGPU entièrement interactive
00:18:43avec simulation de calcul réactive au pointeur.
00:18:46Très bien, pour DeepSeek, c'est un plan assez court et simple,
00:18:50tout comme ce que nous avons vu avec le simulateur de vol.
00:18:53Espérons que nous aurons un meilleur résultat cette fois,
00:18:54mais une section héro avec 75 000 particules de calcul GPU.
00:18:58Je devine un peu qu'ils vont tous opter
00:19:01pour une sorte de thème de particules sur le héro.
00:19:04Il y aura donc une interaction avec la souris, une intégration.
00:19:08Il y aura une initialisation unique.
00:19:10Et ensuite, nous devrions voir des effets comme le bloom,
00:19:13l'aberration chromatique, un vignettage personnalisé et du grain pelliculaire.
00:19:16Nous verrons donc à quoi cela ressemble réellement.
00:19:19Et ensuite, nous avons encore le plan d'Opus 4.7,
00:19:21qui mise sur ces particules avec du bloom
00:19:23et ce sera interactif avec la souris.
00:19:25Nous verrons si l'un d'eux semble vraiment différent
00:19:27car en surface, tous leurs plans se ressemblent beaucoup.
00:19:29Le premier à avoir terminé était 5.5.
00:19:32Cela a pris environ six minutes.
00:19:34Et en termes de jetons, nous en avons utilisé 107 000.
00:19:37Voyons donc ce qu'il a construit.
00:19:40Et voici ce qu'il a créé pour nous.
00:19:42C'est très lumineux.
00:19:45C'est donc difficile de voir les particules,
00:19:47mais vous savez, en faisant défiler vers le haut et vers le bas,
00:19:50il y a une animation en arrière-plan
00:19:52ainsi que, vous savez, quelques changements de couleur subtils.
00:19:56On dirait que notre souris est censée
00:20:00attirer les particules.
00:20:01Et nous avons, je vais déplacer ça ici.
00:20:03Il a donné des options pour la répulsion par rapport à la dérive.
00:20:08Mais encore une fois, c'est assez difficile à voir
00:20:11à cause de la luminosité.
00:20:12Je lui ai donc dit qu'il est difficile de voir les particules
00:20:14à cause de la luminosité.
00:20:14Il prend aussi le pas sur une grande partie de la technologie héro.
00:20:16Alors peut-on baisser un peu la luminosité
00:20:18et aussi la pousser un peu plus vers la droite ?
00:20:20Parce qu'actuellement, ça prend trop le dessus.
00:20:23On ne peut même pas lire le texte à gauche
00:20:25à cause de la luminosité excessive de ces particules.
00:20:27Et voici la mise à jour après la deuxième exécution.
00:20:30C'est un peu mieux.
00:20:31Ce n'est pas aussi envahissant et ça laisse un peu de place au texte.
00:20:35Bien que je doive dire que c'est presque flou,
00:20:39mais vous savez, ce n'est pas mal.
00:20:41C'est fait pour faire ce qu'on lui a demandé de faire
00:20:44étant donné le problème un peu vague.
00:20:46Je ne suis donc pas époustouflé par le design,
00:20:49mais je ne suis pas mécontent non plus.
00:20:51Regardons maintenant Claude Code
00:20:52parce que pendant que nous faisions tout ça,
00:20:55DeepSeek est toujours là en train de galérer
00:20:57pour essayer de comprendre.
00:20:58Et voici ce que Claude Code nous a donné.
00:21:01Donc, un peu rien du tout.
00:21:06Je ne sais pas s'il dit que l'arrière-plan,
00:21:10je suppose que tout l'arrière-plan est censé être
00:21:14le WebGL, je suppose.
00:21:19C'est très sobre,
00:21:21ce qui est une approche tout à fait valide.
00:21:24Je veux dire, à l'écran, ça ne semble pas,
00:21:25ça a l'air plutôt cool, mais je serai honnête,
00:21:28je cherchais quelque chose d'un peu plus flashy.
00:21:31Donc, lors du deuxième passage,
00:21:31quand je lui ai dit de rendre ça un peu plus flashy,
00:21:34il n'y a pas eu une énorme différence.
00:21:35Bien que ce soit très subtil.
00:21:38Il y a une sorte de grain pelliculaire,
00:21:40presque comme un flou qui va du bas vers le haut.
00:21:43C'est donc assez subtil.
00:21:45Et vous pouvez voir ici en bas,
00:21:47il suit les images par seconde.
00:21:49Il utilise 250 000 particules.
00:21:51Donc, je veux dire, honnêtement, ça a l'air cool.
00:21:54C'est juste pas super flashy.
00:21:56C'est donc une question de goût.
00:21:58Le nombre total de jetons pour Claude Code était d'environ 175 000,
00:22:01et cela a pris un peu plus de temps que 5.5 dans Codex.
00:22:05Regardons maintenant DeepSeek,
00:22:07qui a utilisé 116 000 jetons à ce stade.
00:22:10Cela a aussi pris le plus de temps,
00:22:12mais le coût total, on parle encore, est inférieur à un dollar.
00:22:15Et voici ce qu'il nous a donné.
00:22:17C'est donc cette sorte de champ de particules
00:22:21qui suit un peu ma souris.
00:22:25Intéressant.
00:22:27Je pense que ça pourrait vous causer une crise d'épilepsie.
00:22:29Honnêtement, à part ça, c'est assez fade.
00:22:35Le flux, vous savez, les rayons X changent de couleur,
00:22:39mais ouais, c'est pratiquement juste ça qu'il a créé.
00:22:43Après avoir dit à DeepSeek de faire un autre passage,
00:22:45il est revenu avec ça,
00:22:46où maintenant il a une sorte d'effet de parallaxe étrange.
00:22:49Il y a des trucs bleus en arrière-plan.
00:22:53Et maintenant ce truc qui ressemble à un OVNI,
00:22:55qui réagit un peu à votre souris,
00:22:58mais ouais, c'est quelque chose.
00:23:02Et dans l'ensemble, le nombre de jetons de DeepSeek était de 130 000
00:23:05pour un coût de 1,43 $.
00:23:08Alors, après tous ces tests, où cela nous mène-t-il vraiment ?
00:23:13Parlons maintenant des résultats finaux.
00:23:15En ce qui concerne le premier test,
00:23:16qui était le simulateur de vol, un vainqueur clair.
00:23:18C'était GPT 5.5 dans Codex.
00:23:21C'était plus rapide qu'Opus 4.7 dans Claude Code.
00:23:25C'était aussi plus rapide et le résultat final était de loin le meilleur.
00:23:29DeepSeek a été terrible dans le simulateur de vol.
00:23:32Ce n'était même pas proche de ce que nous essayions de faire.
00:23:34J'aurais dû continuer à lui donner des consignes,
00:23:35encore et encore, pour obtenir quelque chose d'approchant
00:23:38du premier passage de 5.5, tandis qu'Opus 4.7 et Claude Code
00:23:43c'était comme, euh, ce n'était pas affreux.
00:23:46Au début, ça ne fonctionnait vraiment pas,
00:23:48mais après quelques consignes, vous pouviez dire,
00:23:50on pouvait le placer à un niveau équivalent
00:23:52à ce que faisait GPT 5.5.
00:23:54Cela aurait nécessité plus de prompts.
00:23:55Cela aurait pris plus de temps
00:23:57et, au final, cela aurait été plus coûteux.
00:23:59Donc, victoire claire pour la 5.5.
00:24:01Concernant la page d'atterrissage WebGPU,
00:24:03là encore, DeepSeek a eu du mal.
00:24:04Je n'étais pas fan du résultat.
00:24:06Je ne sais pas vraiment ce que c'est censé être.
00:24:08Certes, je ne lui ai pas donné un super prompt,
00:24:10mais est-ce vraiment ce qu'on va obtenir
00:24:13comme résultat médian de référence ?
00:24:16Si je ne prends pas DeepSeek par la main
00:24:19et que je ne le force pas vraiment, j'imagine que oui.
00:24:22Maintenant, quand on compare Opus et la 5.5,
00:24:24j'aurais choisi Opus 4.7 et Claude Code
00:24:27pour la gestion du truc WebGPU.
00:24:29Je pense que c'est une question de goût, en quelque sorte.
00:24:31Oui, on pourrait dire que la 5.5 était plus tape-à-l'œil,
00:24:35mais je l'ai trouvée plutôt laide.
00:24:37Encore une fois, dans tous ces tests, nous avons gardé des prompts assez vagues
00:24:41pour voir quelle voie l'IA choisirait.
00:24:43Donc, je donnerais définitivement l'avantage à Opus ici,
00:24:46même si c'était plus coûteux
00:24:48et que cela a aussi pris un peu plus de temps.
00:24:50Donc, s'ils avaient reçu un prompt plus directif
00:24:55très spécifique sur ce qu'on voulait faire,
00:24:57car la 5.5 a fait ce qu'on lui a demandé.
00:24:59Elle a bien créé une page d'atterrissage WebGPU.
00:25:02J'ai juste trouvé ça moche.
00:25:04Donc, elle a tout de même accompli la tâche.
00:25:06Juste pas aussi bien, je pense, qu'Opus.
00:25:08Maintenant, dans l'ensemble, qu'est-ce que ça veut dire
00:25:09si on met tout cela bout à bout ?
00:25:11Eh bien, je pense que c'est une excellente nouvelle
00:25:13pour tous ceux qui utilisent des agents de codage.
00:25:16Nous avons le choix, n'est-ce pas ?
00:25:18Vous pouvez utiliser Opus et Claude Code,
00:25:20ou vous pouvez utiliser GPT 5.5 et Codecs.
00:25:23Vous ne pouvez pas vous tromper avec l'un ou l'autre.
00:25:25Je pense que c'est une question de préférence personnelle à ce stade.
00:25:28Et le mieux, c'est que si vous suivez la voie de Claude Code,
00:25:31tout s'applique pratiquement à Codecs.
00:25:33Si vous suivez la voie de Codecs,
00:25:34tout s'applique pratiquement à Claude Code.
00:25:37Donc je ne pense pas qu'il y ait de verrouillage fournisseur du genre,
00:25:40oh, j'ai seulement appris Claude Code.
00:25:42Donc je ne peux pas passer à Codecs ou l'inverse.
00:25:44Ce n'est pas du tout le cas.
00:25:45Si vous faites cela de la bonne manière,
00:25:46ce que vous apprenez vraiment, ce sont les fondamentaux de l'IA
00:25:48et comment construire des choses.
00:25:49Et cela s'applique à ces deux outils.
00:25:51Et plus il y a de concurrence,
00:25:53mieux c'est pour nous, les consommateurs.
00:25:54Maintenant, pour ce qui est de DeepSeek, euh, je ne sais pas.
00:25:59Je n'ai pas été très impressionné.
00:26:00C'est peut-être une situation où, d'accord,
00:26:02DeepSeek a du sens si on fait des tâches plus simples
00:26:04où nous n'avons pas besoin de la puissance d'un outil comme Opus,
00:26:06ou bien de la puissance d'un GPT 5.5.
00:26:10Car rappelez-vous, on parle de quelque chose
00:26:11qui est huit fois moins cher.
00:26:13Certes, je n'ai pas aimé la page d'atterrissage WebGPU
00:26:16que ce modèle a produite, mais était-elle huit fois pire ?
00:26:19Peut-être, peut-être pas.
00:26:21C'est assez difficile à, vous savez,
00:26:23articuler et à quantifier cela.
00:26:24Mais évidemment, c'est quelque chose que nous devons prendre en compte.
00:26:27Donc, vous savez, je ne pense pas que ce soit vraiment de la concurrence
00:26:30pour être franc, face à la 4.7 ou la 5.5.
00:26:33Par contre, je pense que si vous faites des tâches plus simples
00:26:35et que vous êtes très attentif aux jetons et aux coûts,
00:26:38alors peut-être que DeepSeek a du sens pour vous.
00:26:41Voilà tout ce que j'avais pour vous aujourd'hui.
00:26:42J'espère que cela éclaire un peu ces trois modèles
00:26:45et comment ils se situent les uns par rapport aux autres.
00:26:47Je pense que c'est une période fantastique dans ce domaine.
00:26:49Plus de concurrence, c'est mieux pour tout le monde.
00:26:51Donc, comme toujours, si vous voulez mettre la main
00:26:53sur la Masterclass Claude Code,
00:26:55assurez-vous de consulter Chase AI Plus.
00:26:56Il y a un lien vers cela dans la description.
00:26:58Et je vous dis à bientôt.

Key Takeaway

GPT 5.5 s'impose comme le modèle le plus performant et robuste pour les agents de codage, tandis que DeepSeek V4 offre une alternative économique viable uniquement pour des tâches de complexité limitée.

Highlights

  • GPT 5.5 coûte 30 $par million de jetons de sortie, contre 25$ pour Anthropic Opus 4.7 et 3,48 $ pour DeepSeek V4.

  • GPT 5.5 surpasse les autres modèles avec un score de 87,2 sur Terminal bench 2.0.

  • Opus 4.7 démontre une performance inférieure à la version 4.6 dans le traitement de contextes très longs, allant de 500 000 à 1 million de jetons.

  • Le simulateur de vol en 3JS généré par GPT 5.5 est fonctionnel dès le premier essai, tandis que DeepSeek V4 échoue à produire une interface exploitable.

  • L'utilisation de Claude Code pour la création de la page WebGPU a nécessité 175 000 jetons, surpassant le coût de GPT 5.5 et de DeepSeek V4.

  • DeepSeek V4, bien qu'étant le modèle le moins coûteux, affiche des performances nettement inférieures pour les tâches de codage complexes nécessitant une précision visuelle.

Timeline

Analyse comparative des coûts et benchmarks

  • GPT 5.5 affiche le coût le plus élevé à 30 $ par million de jetons de sortie.
  • DeepSeek V4 est environ huit fois moins cher que ses concurrents avec un coût de 3,48 $ par million de jetons.
  • Opus 4.7 domine les benchmarks SWE bench mais montre des faiblesses inattendues sur les contextes longs.

Les trois modèles présentent des structures tarifaires distinctes. Malgré son coût supérieur, GPT 5.5 intègre des optimisations réduisant la consommation réelle de jetons. Les benchmarks de codage révèlent que si Opus 4.7 excelle dans les tests SWE, GPT 5.5 domine Terminal bench 2.0, tandis que DeepSeek V4 reste compétitif malgré son positionnement open source.

Test de performance : Simulateur de vol 3JS

  • GPT 5.5 produit un simulateur de vol fonctionnel et précis après quelques itérations.
  • DeepSeek V4 échoue à générer une interface visuelle cohérente pour la simulation.
  • Claude Code génère un plan d'implémentation très détaillé mais nécessite plus de jetons et de temps pour un résultat final moins stable.

Le test demande la création d'un simulateur de vol avec des exigences de physique et d'environnement. GPT 5.5 réussit à créer un outil avec des indicateurs de vol sophistiqués. Claude Code offre une planification rigoureuse mais ses résultats finaux restent moins intuitifs, et DeepSeek V4 produit des erreurs graphiques majeures rendant l'utilisation impossible.

Test de design WebGPU et conclusion

  • Opus 4.7 offre le meilleur rendu visuel pour la page de destination WebGPU.
  • GPT 5.5 accomplit la tâche technique demandée bien que le style esthétique soit jugé décevant.
  • DeepSeek V4 produit une animation de particules fonctionnelle mais sans la qualité visuelle attendue pour un site de haute performance.

La création d'une page WebGPU teste la capacité des modèles à gérer des graphismes complexes et le calcul GPU. Opus 4.7 se distingue par son élégance visuelle. GPT 5.5 remplit les contraintes techniques avec efficacité, tandis que DeepSeek V4 propose une exécution techniquement valide mais esthétiquement limitée, confirmant sa place en tant qu'option économique pour des besoins moins exigeants.

Community Posts

View all posts