Transcript
00:00:00Au cours des dernières 24 heures, nous avons eu d'énormes mises à jour
00:00:02sur deux des plus grands modèles d'IA de la planète.
00:00:04D'abord, nous avons eu la sortie de GPT 5.5,
00:00:07qui affiche certains scores de référence
00:00:10qui surpassent le "Mythos" de Claude.
00:00:12Deuxièmement, nous avons eu la sortie de DeepSeek V4,
00:00:15qui est un modèle open source à poids ouverts
00:00:18avec des benchmarks qui rivalisent avec ces grands acteurs de pointe.
00:00:22Alors, avec tous ces nouveaux modèles parmi lesquels choisir,
00:00:24que sommes-nous, nous, les utilisateurs moyens, censés faire ?
00:00:27Eh bien, aujourd'hui, je vais vous aider à répondre à cette question
00:00:29en opposant Opus 4.7, GPT 5.5,
00:00:33et DeepSeek V4 les uns aux autres,
00:00:36afin que vous puissiez voir lequel a vraiment du sens pour vous.
00:00:39Maintenant, avant de commencer ce test comparatif
00:00:41entre GPT 5.5 dans Codecs,
00:00:45DeepSeek V4 dans Open Code,
00:00:47et Opus 4.7 dans Claude Code,
00:00:51jetons d'abord un coup d'œil rapide aux benchmarks,
00:00:53surtout ces deux derniers modèles
00:00:54qui sont sortis ces dernières 24 heures.
00:00:56Parlons d'abord du coût.
00:00:58Maintenant, DeepSeek V4, comme vous le savez,
00:01:00est un modèle open source à poids ouverts,
00:01:01mais cela ne signifie pas que vous pouvez l'exécuter sur votre ordinateur
00:01:04parce que ce truc est énorme.
00:01:05Je parle de 1 600 milliards de paramètres.
00:01:08Vous avez besoin d'un matériel sérieux pour l'exécuter.
00:01:10Donc nous devons toujours payer pour cela.
00:01:11Nous allons toujours devoir utiliser l'API,
00:01:13mais c'est infiniment moins cher que la concurrence,
00:01:15environ huit fois moins cher.
00:01:18Et parmi les trois modèles,
00:01:19le tout nouveau GPT 5.5 est en fait le plus cher,
00:01:22ce qui est assez surprenant car, dans l'ensemble,
00:01:24OpenAI a été moins cher que son concurrent Anthropic.
00:01:28En termes de ce que cela vous coûtera
00:01:30par million de jetons de sortie.
00:01:32Pour GPT 5.5, ce sera 30 $.
00:01:35Pour Anthropic, ce sera 25 $.
00:01:38Et pour DeepSeek, ce sera 3,48 $.
00:01:41Maintenant, si nous parlons de jetons d'entrée,
00:01:44qui constituent une plus petite partie de l'ensemble,
00:01:46GPT 5.5 et Opus 5.7 sont identiques.
00:01:49Ce sera 5 $ par million de jetons d'entrée.
00:01:53Et pour DeepSeek, c'est environ 1,70 $.
00:01:57Donc bien moins cher à l'entrée et bien moins cher à la sortie.
00:02:01Cela dit, quand il s'agit de la version 5.5,
00:02:03c'est deux fois plus cher que la version 5.4.
00:02:06Cependant, OpenAI affirme qu'il utilise en fait beaucoup moins de jetons
00:02:10grâce à sa puissance.
00:02:11Donc, bien que ce soit le double du prix de la 5.4,
00:02:14ils disent qu'en termes de consommation réelle de jetons et de coût réel,
00:02:17pour la même tâche, cela finit par n'être que 20 %
00:02:20plus cher une fois que tout est pris en compte.
00:02:21Gardez donc cela à l'esprit.
00:02:24Nous avons donc parlé du coût.
00:02:25Parlons maintenant des benchmarks.
00:02:26Quelle est la qualité de ces modèles sur le papier ?
00:02:27Je sais que nous sommes tous un peu insensibles aux benchmarks en général.
00:02:31Nous devons les prendre avec des pincettes,
00:02:32mais cela vaut quand même la peine d'y jeter un œil,
00:02:33surtout quand on regarde les chiffres
00:02:36qui sont rapportés par chaque acteur sur le même benchmark.
00:02:39Il y en avait donc trois dans la catégorie codage
00:02:42pour lesquels les trois ont rapporté des chiffres.
00:02:43C'était SWE bench verified, SWE bench pro
00:02:46et Terminal bench 2.0.
00:02:48Maintenant, pour SWE bench verified et SWE bench pro,
00:02:50Opus était le gagnant.
00:02:52Sur Terminal bench 2.0, GPT était le grand gagnant à 87,2,
00:02:56ce qui, soit dit en passant, est un chiffre plus élevé
00:02:59que ce qu'Anthropic a rapporté pour Mythos.
00:03:02Oh, Mythos, pardon.
00:03:03Ce qui est assez fou.
00:03:05Vous savez, le modèle super secret qu'ils ne peuvent pas publier,
00:03:07fait apparemment moins bien sur Terminal bench 2 que GPT 5.5.
00:03:10Maintenant, Terminal bench 2.0 est la plus grande anomalie ici.
00:03:13Opus 4.7 et V4 Pro sont loin derrière,
00:03:16mais regardez Opus 4.7 par rapport à V4 Pro.
00:03:20C'est moins de deux points de différence tout en étant huit fois moins cher.
00:03:23Et vous voyez le même genre d'histoire ici
00:03:24avec SWE bench verified et SWE bench pro.
00:03:26Oui, Opus gagne.
00:03:28Mais quand nous comparons la deuxième place avec la troisième,
00:03:31et V4 est toujours en troisième place,
00:03:33il n'y a pas l'énorme écart auquel on pourrait s'attendre.
00:03:36Je veux dire, cinq points, ce n'est pas rien, vous savez,
00:03:38sur SWE bench verified, 85 à 86.
00:03:41Mais encore une fois, huit fois moins cher, open source.
00:03:45Vous savez, il y a des compromis réels ici
00:03:46que nous pouvons faire si nous n'avons pas besoin de la plus grande puissance.
00:03:49Une autre chose intéressante à aborder
00:03:51est le contexte long où, étrangement, Opus 4.7 est vraiment mauvais
00:03:55selon les chiffres, nettement pire que la 4.6,
00:03:58ce qui me dépasse.
00:04:00Et quand nous parlons de contexte long
00:04:01où nous essayons de récupérer des informations
00:04:03entre 500 000 jetons et 1 million de jetons,
00:04:06la 4.7 est en fait terrible.
00:04:08Et fait bien pire que DeepSeek et GPT 5.5.
00:04:12Maintenant, vous pouvez avoir une discussion complète sur
00:04:14pourquoi vous êtes même dans la plage de 500 000 à 1 million de jetons ?
00:04:17Pour commencer, combien de personnes opèrent réellement là-dedans
00:04:20car nous atteignons la "pourriture contextuelle" quoi qu'il arrive
00:04:22à cet endroit, quel que soit le modèle que vous utilisez.
00:04:24Mais il est intéressant que pour une raison quelconque,
00:04:26nous ayons constaté une régression
00:04:27en ce qui concerne les modèles Anthropic.
00:04:29Mais dans l'ensemble, je pense que le point à retenir est que
00:04:32la 5.5 est vraiment solide.
00:04:33Elle bat Opus 4.7 sur certaines mesures,
00:04:36perd sur d'autres mesures,
00:04:37mais c'est un modèle extrêmement robuste.
00:04:39Et en plus de cela, eh bien, V4 Pro est en quelque sorte, vous savez,
00:04:42à la traîne dans l'ensemble.
00:04:45Il est à portée de tir tout en étant infiniment moins cher,
00:04:48ce qui, encore une fois, est une excellente option pour votre client moyen.
00:04:52Parce qu'en ce moment, on a l'impression que vous n'avez pas beaucoup
00:04:54d'options du côté open source qui peuvent réellement rivaliser.
00:04:56Maintenant, plongeons dans le test comparatif réel
00:04:59avec ces trois modèles.
00:05:00Et nous utilisons une "harnais" pour chacun de ces modèles.
00:05:02Avec la 5.5, ce sera Codecs.
00:05:04Avec Opus 4.7, ce sera Claude Code.
00:05:07Et avec DeepSeek V4 Pro, j'utilise Open Code.
00:05:10Et pour le premier test, ce que nous allons faire, c'est
00:05:11que nous allons leur demander de créer un simulateur de vol
00:05:14pour nous en 3JS qui fonctionne dans le navigateur.
00:05:17Vous pouvez voir le prompt juste ici.
00:05:18Je dis que je veux que ce soit agréable à piloter.
00:05:20Je veux que cela ait un certain poids.
00:05:21Je veux des visuels forts et je veux qu'il utilise
00:05:25la structure et les outils qu'il juge corrects.
00:05:27C'est donc assez simple pour qu'ils sachent quoi faire,
00:05:30mais il y a assez de marge pour que nous puissions voir une certaine divergence
00:05:33entre les modèles.
00:05:34Et bien que nous allions examiner ce qu'ils sont capables
00:05:36de faire en un seul essai, nous allons passer par plusieurs itérations
00:05:38de ceci et avoir des prompts de suivi.
00:05:40Parce qu'aussi cool que ce soit de voir à quel point il réussit en un essai,
00:05:44ce n'est pas comme ça qu'on travaille vraiment dans la vraie vie, n'est-ce pas ?
00:05:46Je veux voir comment il se comporte quand je lui donne des prompts de suivi
00:05:49et combien de temps il faut pour arriver à quelque chose que j'aime.
00:05:52Et quand nous comparons ces trois modèles,
00:05:54il y a vraiment quatre choses que je vais regarder.
00:05:55Ce sera le temps.
00:05:57Combien de temps faut-il pour construire ceci ?
00:05:58Le coût, combien de jetons utilisons-nous ?
00:06:01La qualité, à quel point est-ce bon ?
00:06:02Et puis le quatrième, ce sont les "vibes".
00:06:04Et cela se rapporte en quelque sorte à la qualité.
00:06:06C'est très subjectif.
00:06:06Lequel est-ce que j'aime vraiment plus ?
00:06:09Et aussi à noter, tous les trois modèles, toutes les trois harnais
00:06:11utilisent également les mêmes compétences.
00:06:13Commençons donc par DeepSeek avec les questions qu'il nous pose.
00:06:16Il demande quel type de modèle de vol nous voulons.
00:06:18Allons-y avec une simulation complète.
00:06:20Il recommande des océans et des îles pour le terrain.
00:06:22Nous allons choisir ça.
00:06:23Voyons comment, et ensuite il demande la préférence de caméra.
00:06:25Faisons les deux.
00:06:26Voyons s'il est capable de nous donner une bascule
00:06:27à la fois pour la première personne et la troisième personne.
00:06:29Nous allons choisir sa préférence d'outils recommandée.
00:06:32Et nous allons juste choisir un modèle low-poly
00:06:33pour l'avion et les visuels eux-mêmes.
00:06:35Maintenant, en passant à Codecs, le même genre de questions.
00:06:38Bien qu'il ne nous en pose que trois.
00:06:40Demandant quel type de vol cet avion doit-il optimiser ?
00:06:42Allons-y avec une simulation difficile.
00:06:44Quelle expérience jouable compte le plus pour le navigateur ?
00:06:48Faisons une boucle de décollage sur île.
00:06:50C'est assez intéressant de voir comment ils ont tous la même.
00:06:52Et quelle présentation de caméra et d'avion ?
00:06:54Je vais faire une bascule pour cela aussi.
00:06:56Et pour Claude Code, nous ferons un apprentissage de simulation d'étude
00:06:58pour la sensation d'entrée océan et îles.
00:07:02Nous ferons clavier et souris.
00:07:04Il ne le laissera pas aller travailler.
00:07:05Donc, le mode plan est dans l'ensemble très similaire pour les trois.
00:07:09À peu près les mêmes questions du genre,
00:07:11quelle physique voulez-vous ?
00:07:12Quel terrain voulez-vous ?
00:07:13Quel angle de caméra voulez-vous ?
00:07:15Donc aucune énorme différence là-bas.
00:07:17Et voyons ce qu'ils proposent en termes de plan.
00:07:19Très bien, donc les trois plans sont complets.
00:07:20Alors passons à travers chacun d'eux assez rapidement
00:07:22et voyons certaines des différences.
00:07:24Le premier que nous regardons ici est DeepSeek.
00:07:26Et c'est assez rudimentaire en termes de plan qu'il présente.
00:07:29Il nous donne donc la structure du projet
00:07:31et parle ensuite très rapidement de la physique du vol,
00:07:33l'environnement, la caméra et l'affichage tête haute,
00:07:35et vraiment juste quelques points.
00:07:37D'un autre côté, quand nous regardons 5.5 dans Codecs,
00:07:40c'est un résumé, des changements clés,
00:07:43va dans les détails de mise en œuvre, le plan de test,
00:07:46ainsi que les hypothèses
00:07:47qui nous expliquent tout cela.
00:07:49Et puis nous avons le plan de Claude Code, qui a pris le plus de temps.
00:07:50Cela lui a pris environ cinq minutes, mais c'est de loin le plus complet
00:07:53car c'est le contexte, la pile.
00:07:55La mise en page parle du modèle de vol.
00:07:57Il entre dans les détails des différents moments,
00:08:00parlant des décrochages, comme le signal sonore de décrochage.
00:08:02C'est très, très détaillé.
00:08:03Il aborde les commandes, le monde, le module,
00:08:06l'avion réel que nous allons utiliser, les performances,
00:08:08et ça continue encore et encore.
00:08:10Donc très détaillé.
00:08:11Maintenant, nous allons faire en sorte que les trois implémentent leur plan,
00:08:14et nous verrons à quoi ressemble le résultat final.
00:08:15Donc GPT 5.5 dans codecs a été le premier à terminer.
00:08:19Voyons donc à quoi ça ressemble.
00:08:20Voici le simulateur de vol qu'il nous a fourni.
00:08:22Nous avons des nuages dans le ciel.
00:08:26Nous avons ce qui ressemble à un indicateur AOA là-haut.
00:08:31Nous avons notre vitesse en bas,
00:08:34et voyons si nous pouvons vraiment faire décoller
00:08:35cet engin.
00:08:36Je noterai qu'il n'y a nulle part comme une piste.
00:08:38C'est juste de l'herbe.
00:08:39Et au lieu de cela, ce devait être comme une île.
00:08:42Bien que lorsque la caméra s'affole un peu,
00:08:45vous pouvez voir la piste en dessous pendant une seconde.
00:08:48Très bien, nous décrochons et nous,
00:08:50nous ne pouvons même pas décoller, n'est-ce pas ?
00:08:51Donc celui-ci est en fait juste un peu,
00:08:54c'est en fait assez difficile.
00:08:55Alors ce que je vais faire, c'est que je vais lui donner
00:09:00un second message lui demandant de rendre cela un peu plus facile
00:09:03à piloter, car il y a beaucoup de choses ici,
00:09:05mais c'est dur.
00:09:06J'ai donc écrit : c'est vraiment difficile à piloter.
00:09:08Pouvons-nous rendre cela plus facile à utiliser ?
00:09:10AKA un peu plus arcade.
00:09:12Et les graphismes pourraient aussi être améliorés.
00:09:15Voyons comment ça se passe.
00:09:16Notez qu'il a fallu environ sept minutes à 5.5
00:09:21pour créer ce premier essai pour nous.
00:09:23Et cela a pris 63 000 jetons.
00:09:26Très bien, il a dit qu'il l'avait rendu un peu plus facile
00:09:28à piloter et avait mis à jour les graphismes.
00:09:29Voyons donc à quoi ressemble le deuxième essai.
00:09:32Voici ce que nous avons obtenu.
00:09:32Les graphismes semblent définitivement meilleurs,
00:09:34mais voyons si nous pouvons réellement décoller de la piste
00:09:36cette fois.
00:09:37Donc, très bien, gaz à cent pour cent,
00:09:4150, 60, sept.
00:09:43Quelle est la vitesse de rotation sur un Cessna ?
00:09:46Très bien, 70, 80, 90.
00:09:49Nous devons être capables de décoller maintenant.
00:09:51Ok, mauvaise direction.
00:09:53Allez, décolle, décolle.
00:09:56Non, ça va probablement me faire décrocher, n'est-ce pas ?
00:09:58Oui, décrochage.
00:09:59Ok, ça a encore besoin de travail.
00:10:02Alors donnons une chance de plus à Codex.
00:10:05Donnons une chance de plus à 5.5
00:10:07pour rendre cela réellement jouable.
00:10:08J'ai donc dit que je ne peux même pas faire décoller
00:10:10l'avion et entrer en vol.
00:10:11Nous devons absolument le rendre facile à faire décoller
00:10:12et réellement piloter l'engin.
00:10:14Ok, donc il dit qu'il a corrigé le problème de décollage.
00:10:16Apparemment, les freins étaient restés bloqués avant.
00:10:19Je ne sais pas si c'est pour ça qu'on n'y arrivait pas.
00:10:21Oh, il ne l'a pas automatiquement configuré pour le décollage.
00:10:24Volets, ouais, c'était,
00:10:25on était en mode super simulateur.
00:10:29Mais voici la troisième tentative pour notre simulateur de vol.
00:10:32Voyons comment nous nous en sortons.
00:10:34Alors, peut-on décoller ?
00:10:36Oh, nous rebondissons sur la piste
00:10:37cette fois-ci.
00:10:38Très bien, super, nous avons décollé.
00:10:41Nous bougeons réellement.
00:10:44Voyons si nous pouvons atteindre l'un de ces anneaux.
00:10:45Je veux dire, les graphismes ne sont pas si mauvais, vous savez,
00:10:49pour quelque chose généré en moins de 10 minutes.
00:10:52Il semble être assez précis en termes de, vous savez,
00:10:56il me donne ma vitesse verticale, vous savez,
00:10:59en pieds par minute en bas,
00:11:00mon altitude réelle, les nœuds, le cap, AGL.
00:11:04Donc c'est relativement sophistiqué
00:11:06en termes de suivi de tout.
00:11:08Je veux dire, ce petit indicateur à l'avant,
00:11:10semble être un indicateur d'angle d'attaque, vous savez,
00:11:13ce qui est plutôt cool.
00:11:14Donc il a de bonnes choses.
00:11:18Les commandes réelles sont un peu bizarres.
00:11:21Comme vous pouvez le voir, je n'arrive pas à contrôler ça du tout,
00:11:23mais dans l'ensemble, pas mal.
00:11:25Vous savez, on peut un peu faire un kamikaze avec ça
00:11:27et voir ce qui se passe à, vous savez, 18 000 pieds par minute.
00:11:31Mais oui, vous savez, pour 66 000 jetons,
00:11:36environ 10 minutes, 15 minutes ou plus, à peu près,
00:11:40vous savez, avec les allers-retours,
00:11:41je ne pense pas que ce soit mauvais du tout.
00:11:42Alors maintenant, jetons un œil à DeepSeek.
00:11:44Cela a pris environ 10 minutes pour faire ça.
00:11:46Et en termes de jetons, 63 000 et 44 cents.
00:11:51Donc 44 cents, 10 minutes.
00:11:53Et voici ce que DeepSeek nous a trouvé.
00:11:56Je n'ai aucune idée.
00:12:00De ce que je regarde.
00:12:03C'est censé être à la troisième personne.
00:12:06C'est censé être le cockpit.
00:12:07Et évidemment notre première tentative avec DeepSeek
00:12:11était un autre désastre.
00:12:13Je dis donc à DeepSeek que le simulateur est un désastre complet.
00:12:16Les graphismes sont complètement buggés
00:12:17et je ne peux rien piloter.
00:12:20Merci de corriger.
00:12:21Et voici à quoi ressemble notre deuxième essai.
00:12:24Je n'ai toujours aucune idée.
00:12:26Absolument aucune idée.
00:12:28Qu'est-ce que DeepSeek est.
00:12:30Oh, hé, il y a un avion.
00:12:32Oh, il y a quelque chose.
00:12:33Je, ouais, c'est, c'est brutal.
00:12:38Et pour être honnête, j'ai l'impression que même en lui donnant une autre consigne
00:12:42pour faire ça, je devrais commencer à être très, très précis
00:12:44sur ce que nous essayons de faire, ce qui encore,
00:12:47est assez loin de ce que nous avons fait avec Codex.
00:12:49C'était très, vous savez, des consignes un peu fades.
00:12:51J'ai pu obtenir quelque chose d'au moins proche,
00:12:53même dès le premier essai.
00:12:54Comme clairement, il lutte complètement
00:12:57avec les graphismes.
00:12:58Nous sommes juste, je ne sais même pas comment décrire ça,
00:13:01mais hé, c'était super bon marché.
00:13:03Alors maintenant, jetons un œil à ce que Claude Code
00:13:07a pu nous donner pour référence.
00:13:09Cela a pris 13 minutes pour réellement exécuter le plan.
00:13:12Le plan lui-même a pris cinq minutes.
00:13:13Appelons ça 20 minutes pour arriver à une première version.
00:13:17Et ensuite pour le nombre total de jetons,
00:13:19cette exécution a pris environ 15% plus les 5% avant le plan.
00:13:22Donc nous regardons, eh bien, désolé,
00:13:24nous regardons 11% de contexte plus 5% avant.
00:13:28Donc disons 20 minutes, 150 000 jetons pour Claude Code,
00:13:33ce qui est définitivement le plus cher
00:13:34et le plus lent de tous.
00:13:36Et voici la tentative de Claude Code.
00:13:39Pour une raison quelconque, nous sommes instantanément en l'air.
00:13:43Nous décrochons.
00:13:44Nous sommes en vol aux instruments.
00:13:45Je ne sais pas ce qui se passe.
00:13:48Nous sommes sur le point de nous écraser.
00:13:50Pouvons-nous sauver ça ?
00:13:51Pouvons-nous sortir de ce piqué ?
00:13:53Non, nous décrochons, non, nous sommes morts.
00:13:54Ok, c'est intéressant.
00:13:56Encore une fois, cela nous catapulte instantanément dans les airs.
00:14:00Nous sommes dans les nuages.
00:14:02Nous décrochons.
00:14:03Je ne sais pas ce qui se passe.
00:14:05Nous avons besoin, nous avons besoin d'un second essai.
00:14:08J'ai donc écrit : au chargement, je suis instantanément jeté dans les airs.
00:14:11C'est difficile à contrôler.
00:14:12Je veux commencer sur la piste et je veux que ce soit plus facile à piloter.
00:14:15Oh, et au fait, améliorez aussi ces graphismes.
00:14:17Donc cela a pris environ quatre minutes, mais il a fait quelques changements.
00:14:20Nous allons apparaître sur la piste.
00:14:22Il a changé le train d'atterrissage.
00:14:23Donc maintenant c'est un train tricycle et quelques autres trucs.
00:14:24Voyons donc à quoi ça ressemble.
00:14:26Ok, donc le voici.
00:14:27Encore une fois, nous sommes jetés immédiatement dans un banc de brouillard.
00:14:29J'essaie de contrôler cet engin.
00:14:31Et je juste, ouais, il n'y a aucun moyen de contrôler ça.
00:14:33Très bien, nous allons donner,
00:14:34nous allons donner une chance de plus à Claude Code.
00:14:37Je lui ai dit qu'il me catapulte toujours instantanément
00:14:39dans le ciel.
00:14:40J'ai dit, allons avec une sensation beaucoup plus arcade
00:14:42avec les commandes.
00:14:43Je pense que nous aurions probablement dû faire ça
00:14:44avec les premières consignes pour les trois.
00:14:46Je pense qu'en visant un type de simulateur plus réaliste,
00:14:50il a vraiment du mal à,
00:14:53je pense, faire ça d'une manière qui soit encore conviviale.
00:14:57Je pense qu'il fait probablement du bon travail sous le capot
00:14:59en termes de, genre, ok, genre angle d'attaque.
00:15:01Très bien, vous décrochez à ce, vous savez,
00:15:02angle par rapport à la vitesse et tout ça.
00:15:04Mais en réalité, manipuler cela depuis l'ordinateur
00:15:07est pratiquement impossible.
00:15:09Bien que je pense que les trucs de brouillard sont vraiment étranges.
00:15:12Voyons donc si après la deuxième série de consignes
00:15:15il est capable de faire un peu mieux
00:15:16parce qu'en ce moment GPT 5.5 a fait beaucoup, beaucoup mieux.
00:15:20Donc Claude Code a fait quelques changements de plus,
00:15:22l'a rendu plus convivial.
00:15:23Et voyons si je vise toujours
00:15:24pour ma qualification aux instruments cette fois.
00:15:26Alors oui, on continue.
00:15:28On continue pour la qualification aux instruments.
00:15:30On est à Men's ici, mais vous savez, je peux l'apercevoir.
00:15:33Vous savez, je peux vérifier mon tableau de bord.
00:15:35Très bien, on quitte la piste.
00:15:37Ouais, d'accord.
00:15:42Est-ce que... pourquoi y a-t-il un arbre sur la piste ?
00:15:44J'essaie de décoller.
00:15:46Je peux monter ?
00:15:47Est-ce que je peux cabrer ?
00:15:49Cliquez sur le canevas pour verrouiller la souris, quoi ?
00:15:53Oh, on est en l'air.
00:15:54Non, non, on est morts.
00:15:57Donc oui, je pense que celui-ci est assez clair.
00:16:02GPT 5.5, le vainqueur incontesté, je pense.
00:16:06Claude Code est arrivé deuxième.
00:16:08Je lui accorderais la deuxième place.
00:16:10Vous savez, il a clairement eu du mal
00:16:13même avec les instructions qu'on lui a données.
00:16:14On ne lui a pas donné de super instructions, soyons honnêtes.
00:16:16Je pense qu'avec plus de temps, de meilleures instructions,
00:16:19quelques allers-retours supplémentaires,
00:16:20on aurait pu arriver là où on voulait.
00:16:21Il avait au moins un avion, il avait une piste.
00:16:25Il y avait des arbres sur la piste,
00:16:26mais il avait les éléments dont on avait besoin
00:16:29par rapport à DeepSeek avec OpenCODE.
00:16:32Je n'avais aucune idée de ce qui se passait là-dedans.
00:16:34C'était un désastre complet.
00:16:35J'ai l'impression que j'aurais dû tout recommencer
00:16:36depuis le début, en lui donnant une consigne très précise.
00:16:38Ce n'était même pas près d'être utilisable,
00:16:39mais GPT 5.5, dès le début, vous savez,
00:16:42c'était des consignes assez vagues.
00:16:44J'ai trouvé qu'il s'en est très bien sorti.
00:16:455.5 a aussi utilisé un total de 66 000 jetons.
00:16:48On regarde ici avec Opus au total,
00:16:52environ 200 000 jetons.
00:16:53Donc un quart des jetons, essentiellement un quart du coût.
00:16:56Et c'était un peu plus rapide.
00:16:58Je veux dire, à ce stade, je ne me soucie même plus
00:16:59du fait qu'OpenCODE a mis plus de temps que GPT 5.5.
00:17:03Et c'était juste nul, soyons honnêtes, c'était nul.
00:17:07Passons maintenant au test numéro deux.
00:17:10Cette fois, nous allons leur demander
00:17:12de créer une page de destination montrant le travail des shaders WebGPU
00:17:16avec Three.js.
00:17:18Le travail sur les shaders WebGPU, c'est ce genre de choses qu'on voit
00:17:21sur les sites récompensés.
00:17:23Je parle de sites comme Igloo, ce genre de choses,
00:17:26des graphismes de très haut niveau.
00:17:28On dirait un jeu vidéo.
00:17:29C'est essentiellement utiliser la carte graphique de votre ordinateur
00:17:32pour rendre tout cela.
00:17:34Je ne m'attends pas à ce qu'aucun d'eux n'arrive à quoi que ce soit de proche
00:17:37de ce que nous voyons ici, mais je veux voir ce qu'ils peuvent faire
00:17:40en utilisant essentiellement la technologie des shaders.
00:17:42C'est certainement un niveau au-dessus de votre simple
00:17:45page de destination SaaS basée sur un modèle.
00:17:46Je veux voir ce qu'ils peuvent faire et les pousser
00:17:48dans leurs retranchements dans le monde du web design.
00:17:50Maintenant, je leur ai donné à tous une compétence qui détaille
00:17:53comment réaliser ce genre de choses.
00:17:55Ce n'est donc pas comme s'ils étaient complètement dans le noir
00:17:57et l'un n'a pas non plus d'avantage sur l'autre.
00:18:00La seule chose que je leur ai dite, c'est que je veux que ce soit moderne
00:18:02et visuellement frappant, quelque chose que vous verriez sur des sites récompensés
00:18:05et de faire un usage intelligent du calcul GPU.
00:18:08Ils peuvent donc choisir la pile et la structure de projet
00:18:10qu'ils aiment et faire preuve de discernement sur le concept héro,
00:18:13l'interface utilisateur et les interactions.
00:18:15Et tout comme pour le premier test, ils sont tous en mode plan.
00:18:17Alors commençons.
00:18:18D'accord, ils ont tous fini leur plan et, chose amusante,
00:18:21aucun d'eux ne m'a posé de questions,
00:18:22même si nous les avons mis en mode plan.
00:18:24Alors regardons d'abord GPT 5.5.
00:18:28Il nous dit qu'il va faire une bannière interactive
00:18:30pleine page pilotée par GPU.
00:18:32Le concept sera un champ de signal vivant
00:18:34avec une sorte de densité de particules.
00:18:36Nous verrons à quoi cela ressemble.
00:18:38Et dans l'ensemble, c'est un design minimal de type récompense.
00:18:41Scène WebGPU entièrement interactive
00:18:43avec simulation de calcul réactive au pointeur.
00:18:46Très bien, pour DeepSeek, c'est un plan assez court et simple,
00:18:50tout comme ce que nous avons vu avec le simulateur de vol.
00:18:53Espérons que nous aurons un meilleur résultat cette fois,
00:18:54mais une section héro avec 75 000 particules de calcul GPU.
00:18:58Je devine un peu qu'ils vont tous opter
00:19:01pour une sorte de thème de particules sur le héro.
00:19:04Il y aura donc une interaction avec la souris, une intégration.
00:19:08Il y aura une initialisation unique.
00:19:10Et ensuite, nous devrions voir des effets comme le bloom,
00:19:13l'aberration chromatique, un vignettage personnalisé et du grain pelliculaire.
00:19:16Nous verrons donc à quoi cela ressemble réellement.
00:19:19Et ensuite, nous avons encore le plan d'Opus 4.7,
00:19:21qui mise sur ces particules avec du bloom
00:19:23et ce sera interactif avec la souris.
00:19:25Nous verrons si l'un d'eux semble vraiment différent
00:19:27car en surface, tous leurs plans se ressemblent beaucoup.
00:19:29Le premier à avoir terminé était 5.5.
00:19:32Cela a pris environ six minutes.
00:19:34Et en termes de jetons, nous en avons utilisé 107 000.
00:19:37Voyons donc ce qu'il a construit.
00:19:40Et voici ce qu'il a créé pour nous.
00:19:42C'est très lumineux.
00:19:45C'est donc difficile de voir les particules,
00:19:47mais vous savez, en faisant défiler vers le haut et vers le bas,
00:19:50il y a une animation en arrière-plan
00:19:52ainsi que, vous savez, quelques changements de couleur subtils.
00:19:56On dirait que notre souris est censée
00:20:00attirer les particules.
00:20:01Et nous avons, je vais déplacer ça ici.
00:20:03Il a donné des options pour la répulsion par rapport à la dérive.
00:20:08Mais encore une fois, c'est assez difficile à voir
00:20:11à cause de la luminosité.
00:20:12Je lui ai donc dit qu'il est difficile de voir les particules
00:20:14à cause de la luminosité.
00:20:14Il prend aussi le pas sur une grande partie de la technologie héro.
00:20:16Alors peut-on baisser un peu la luminosité
00:20:18et aussi la pousser un peu plus vers la droite ?
00:20:20Parce qu'actuellement, ça prend trop le dessus.
00:20:23On ne peut même pas lire le texte à gauche
00:20:25à cause de la luminosité excessive de ces particules.
00:20:27Et voici la mise à jour après la deuxième exécution.
00:20:30C'est un peu mieux.
00:20:31Ce n'est pas aussi envahissant et ça laisse un peu de place au texte.
00:20:35Bien que je doive dire que c'est presque flou,
00:20:39mais vous savez, ce n'est pas mal.
00:20:41C'est fait pour faire ce qu'on lui a demandé de faire
00:20:44étant donné le problème un peu vague.
00:20:46Je ne suis donc pas époustouflé par le design,
00:20:49mais je ne suis pas mécontent non plus.
00:20:51Regardons maintenant Claude Code
00:20:52parce que pendant que nous faisions tout ça,
00:20:55DeepSeek est toujours là en train de galérer
00:20:57pour essayer de comprendre.
00:20:58Et voici ce que Claude Code nous a donné.
00:21:01Donc, un peu rien du tout.
00:21:06Je ne sais pas s'il dit que l'arrière-plan,
00:21:10je suppose que tout l'arrière-plan est censé être
00:21:14le WebGL, je suppose.
00:21:19C'est très sobre,
00:21:21ce qui est une approche tout à fait valide.
00:21:24Je veux dire, à l'écran, ça ne semble pas,
00:21:25ça a l'air plutôt cool, mais je serai honnête,
00:21:28je cherchais quelque chose d'un peu plus flashy.
00:21:31Donc, lors du deuxième passage,
00:21:31quand je lui ai dit de rendre ça un peu plus flashy,
00:21:34il n'y a pas eu une énorme différence.
00:21:35Bien que ce soit très subtil.
00:21:38Il y a une sorte de grain pelliculaire,
00:21:40presque comme un flou qui va du bas vers le haut.
00:21:43C'est donc assez subtil.
00:21:45Et vous pouvez voir ici en bas,
00:21:47il suit les images par seconde.
00:21:49Il utilise 250 000 particules.
00:21:51Donc, je veux dire, honnêtement, ça a l'air cool.
00:21:54C'est juste pas super flashy.
00:21:56C'est donc une question de goût.
00:21:58Le nombre total de jetons pour Claude Code était d'environ 175 000,
00:22:01et cela a pris un peu plus de temps que 5.5 dans Codex.
00:22:05Regardons maintenant DeepSeek,
00:22:07qui a utilisé 116 000 jetons à ce stade.
00:22:10Cela a aussi pris le plus de temps,
00:22:12mais le coût total, on parle encore, est inférieur à un dollar.
00:22:15Et voici ce qu'il nous a donné.
00:22:17C'est donc cette sorte de champ de particules
00:22:21qui suit un peu ma souris.
00:22:25Intéressant.
00:22:27Je pense que ça pourrait vous causer une crise d'épilepsie.
00:22:29Honnêtement, à part ça, c'est assez fade.
00:22:35Le flux, vous savez, les rayons X changent de couleur,
00:22:39mais ouais, c'est pratiquement juste ça qu'il a créé.
00:22:43Après avoir dit à DeepSeek de faire un autre passage,
00:22:45il est revenu avec ça,
00:22:46où maintenant il a une sorte d'effet de parallaxe étrange.
00:22:49Il y a des trucs bleus en arrière-plan.
00:22:53Et maintenant ce truc qui ressemble à un OVNI,
00:22:55qui réagit un peu à votre souris,
00:22:58mais ouais, c'est quelque chose.
00:23:02Et dans l'ensemble, le nombre de jetons de DeepSeek était de 130 000
00:23:05pour un coût de 1,43 $.
00:23:08Alors, après tous ces tests, où cela nous mène-t-il vraiment ?
00:23:13Parlons maintenant des résultats finaux.
00:23:15En ce qui concerne le premier test,
00:23:16qui était le simulateur de vol, un vainqueur clair.
00:23:18C'était GPT 5.5 dans Codex.
00:23:21C'était plus rapide qu'Opus 4.7 dans Claude Code.
00:23:25C'était aussi plus rapide et le résultat final était de loin le meilleur.
00:23:29DeepSeek a été terrible dans le simulateur de vol.
00:23:32Ce n'était même pas proche de ce que nous essayions de faire.
00:23:34J'aurais dû continuer à lui donner des consignes,
00:23:35encore et encore, pour obtenir quelque chose d'approchant
00:23:38du premier passage de 5.5, tandis qu'Opus 4.7 et Claude Code
00:23:43c'était comme, euh, ce n'était pas affreux.
00:23:46Au début, ça ne fonctionnait vraiment pas,
00:23:48mais après quelques consignes, vous pouviez dire,
00:23:50on pouvait le placer à un niveau équivalent
00:23:52à ce que faisait GPT 5.5.
00:23:54Cela aurait nécessité plus de prompts.
00:23:55Cela aurait pris plus de temps
00:23:57et, au final, cela aurait été plus coûteux.
00:23:59Donc, victoire claire pour la 5.5.
00:24:01Concernant la page d'atterrissage WebGPU,
00:24:03là encore, DeepSeek a eu du mal.
00:24:04Je n'étais pas fan du résultat.
00:24:06Je ne sais pas vraiment ce que c'est censé être.
00:24:08Certes, je ne lui ai pas donné un super prompt,
00:24:10mais est-ce vraiment ce qu'on va obtenir
00:24:13comme résultat médian de référence ?
00:24:16Si je ne prends pas DeepSeek par la main
00:24:19et que je ne le force pas vraiment, j'imagine que oui.
00:24:22Maintenant, quand on compare Opus et la 5.5,
00:24:24j'aurais choisi Opus 4.7 et Claude Code
00:24:27pour la gestion du truc WebGPU.
00:24:29Je pense que c'est une question de goût, en quelque sorte.
00:24:31Oui, on pourrait dire que la 5.5 était plus tape-à-l'œil,
00:24:35mais je l'ai trouvée plutôt laide.
00:24:37Encore une fois, dans tous ces tests, nous avons gardé des prompts assez vagues
00:24:41pour voir quelle voie l'IA choisirait.
00:24:43Donc, je donnerais définitivement l'avantage à Opus ici,
00:24:46même si c'était plus coûteux
00:24:48et que cela a aussi pris un peu plus de temps.
00:24:50Donc, s'ils avaient reçu un prompt plus directif
00:24:55très spécifique sur ce qu'on voulait faire,
00:24:57car la 5.5 a fait ce qu'on lui a demandé.
00:24:59Elle a bien créé une page d'atterrissage WebGPU.
00:25:02J'ai juste trouvé ça moche.
00:25:04Donc, elle a tout de même accompli la tâche.
00:25:06Juste pas aussi bien, je pense, qu'Opus.
00:25:08Maintenant, dans l'ensemble, qu'est-ce que ça veut dire
00:25:09si on met tout cela bout à bout ?
00:25:11Eh bien, je pense que c'est une excellente nouvelle
00:25:13pour tous ceux qui utilisent des agents de codage.
00:25:16Nous avons le choix, n'est-ce pas ?
00:25:18Vous pouvez utiliser Opus et Claude Code,
00:25:20ou vous pouvez utiliser GPT 5.5 et Codecs.
00:25:23Vous ne pouvez pas vous tromper avec l'un ou l'autre.
00:25:25Je pense que c'est une question de préférence personnelle à ce stade.
00:25:28Et le mieux, c'est que si vous suivez la voie de Claude Code,
00:25:31tout s'applique pratiquement à Codecs.
00:25:33Si vous suivez la voie de Codecs,
00:25:34tout s'applique pratiquement à Claude Code.
00:25:37Donc je ne pense pas qu'il y ait de verrouillage fournisseur du genre,
00:25:40oh, j'ai seulement appris Claude Code.
00:25:42Donc je ne peux pas passer à Codecs ou l'inverse.
00:25:44Ce n'est pas du tout le cas.
00:25:45Si vous faites cela de la bonne manière,
00:25:46ce que vous apprenez vraiment, ce sont les fondamentaux de l'IA
00:25:48et comment construire des choses.
00:25:49Et cela s'applique à ces deux outils.
00:25:51Et plus il y a de concurrence,
00:25:53mieux c'est pour nous, les consommateurs.
00:25:54Maintenant, pour ce qui est de DeepSeek, euh, je ne sais pas.
00:25:59Je n'ai pas été très impressionné.
00:26:00C'est peut-être une situation où, d'accord,
00:26:02DeepSeek a du sens si on fait des tâches plus simples
00:26:04où nous n'avons pas besoin de la puissance d'un outil comme Opus,
00:26:06ou bien de la puissance d'un GPT 5.5.
00:26:10Car rappelez-vous, on parle de quelque chose
00:26:11qui est huit fois moins cher.
00:26:13Certes, je n'ai pas aimé la page d'atterrissage WebGPU
00:26:16que ce modèle a produite, mais était-elle huit fois pire ?
00:26:19Peut-être, peut-être pas.
00:26:21C'est assez difficile à, vous savez,
00:26:23articuler et à quantifier cela.
00:26:24Mais évidemment, c'est quelque chose que nous devons prendre en compte.
00:26:27Donc, vous savez, je ne pense pas que ce soit vraiment de la concurrence
00:26:30pour être franc, face à la 4.7 ou la 5.5.
00:26:33Par contre, je pense que si vous faites des tâches plus simples
00:26:35et que vous êtes très attentif aux jetons et aux coûts,
00:26:38alors peut-être que DeepSeek a du sens pour vous.
00:26:41Voilà tout ce que j'avais pour vous aujourd'hui.
00:26:42J'espère que cela éclaire un peu ces trois modèles
00:26:45et comment ils se situent les uns par rapport aux autres.
00:26:47Je pense que c'est une période fantastique dans ce domaine.
00:26:49Plus de concurrence, c'est mieux pour tout le monde.
00:26:51Donc, comme toujours, si vous voulez mettre la main
00:26:53sur la Masterclass Claude Code,
00:26:55assurez-vous de consulter Chase AI Plus.
00:26:56Il y a un lien vers cela dans la description.
00:26:58Et je vous dis à bientôt.