00:00:00Anthropic vient de sortir Claude Opus 4.6, qui obtient le meilleur score jamais vu sur Terminal Bench 2.0.
00:00:06Désolé d'interrompre votre session de programmation,
00:00:10mais il se trouve que les codecs de GPT 5.3 viennent de sortir et ils battent Opus 4.6 sur Terminal Bench de plus de 10 %.
00:00:16On dirait bien que le règne d'Anthropic n'aura duré que quelques minutes. La compétition entre ces deux-là s'intensifie vraiment.
00:00:23Je suis donc très curieux de voir les nouveautés de ces modèles et de découvrir lequel est le plus agréable à utiliser, car dernièrement,
00:00:29c'est GPT 5.2 que j'ai trouvé le plus performant.
00:00:31Je veux voir si Claude peut reprendre l'avantage ou si OpenAI a frappé fort avec les codecs de GPT 5.3.
00:00:37D'abord, un petit résumé des nouveautés. On sait qu'ils seront meilleurs que les versions précédentes sur les benchmarks,
00:00:48ce que je vous montrerai à la fin, mais est-ce que quelque chose a vraiment changé concrètement ?
00:00:52Eh bien, pour Opus,
00:00:53ils affirment qu'il peut planifier plus soigneusement, maintenir des tâches d'agent plus longtemps et opérer de manière plus fiable dans de grandes bases de code.
00:01:00Il aurait de meilleures capacités de revue de code et de débogage pour corriger ses propres erreurs.
00:01:02C'étaient justement les points faibles d'Opus par rapport à GPT 5.2. D'après mon expérience,
00:01:08il commençait à coder plus vite, mais faisait généralement un peu plus d'erreurs.
00:01:12À l'inverse, GPT 5.2 mettait plus de temps à se lancer mais comprenait mieux le contexte du repo.
00:01:17Espérons que ces changements améliorent Opus. Il va aussi profiter de sa nouvelle fenêtre de contexte d'un million de tokens,
00:01:23au total.
00:01:24Même s'il est précisé que c'est en version bêta et que, comme chez d'autres fournisseurs,
00:01:27cela coûtera plus cher : les prompts dépassant 200 000 tokens coûteront 10 $ par million de tokens en entrée et
00:01:3337,50 $ par million de tokens en sortie. Passons maintenant aux codecs 5.3.
00:01:38OpenAI affirme que ce modèle repousse les limites des performances de codage de GPT 5.2 Codecs et les capacités
00:01:45de raisonnement et de connaissances professionnelles de GPT 5.2 en un seul modèle, qui est également 25 % plus rapide.
00:01:51Cela devrait lui permettre de gérer des tâches de longue durée impliquant de la recherche, l'utilisation d'outils et une exécution complexe.
00:01:57Ils en ont vraiment fait un modèle polyvalent avec le savoir de GPT 5.2 et des capacités de codage accrues.
00:02:03Mais tout ça, c'est du marketing.
00:02:05Mettons ces modèles à l'épreuve du monde réel. Mon premier test consistait à mettre à jour un package d'agent Convex pour supporter l'AI SDK v6.
00:02:11J'adore utiliser Convex comme base de données dernièrement, et ce package aide à lier l'AI SDK à la base de données.
00:02:19On obtient d'excellentes performances, mais le problème est qu'il n'avait pas été mis à jour vers la dernière version.
00:02:23Comme vous le voyez dans la documentation, la migration de la v5 à la v6 n'est pas une mince affaire.
00:02:28Il y a eu beaucoup de changements majeurs et de modifications de types.
00:02:32J'ai donc créé une application de chat basique sous Convex qui fonctionnait avec le package de l'agent.
00:02:36Puis j'ai mis les packages à jour vers la v6, ce qui m'a donné une tonne d'erreurs de build et de types.
00:02:40J'ai simplement demandé aux modèles de les corriger. Voici le prompt que j'ai utilisé avec Codecs :
00:02:44Je lui ai dit que je créais une appli de chat avec Convex et que j'avais une version fonctionnelle,
00:02:46mais qu'après être passé à la v6, je devais corriger les erreurs de type et de build.
00:02:50Je lui ai fourni le guide de migration comme contexte et j'ai précisé que je voulais que tous les tests
00:02:55réussissent, en évitant les hacks TypeScript comme “as any” autant que possible, car les modèles le font souvent.
00:02:59J'ai bien insisté là-dessus, car l'AI SDK contient des types assez complexes maintenant.
00:03:03Voyons comment GPT 5.3 Codecs s'en est sorti. Il a commencé par
00:03:09analyser le repo. Il a vu que c'était un monorepo avec le dossier “packages/agent”. Il a identifié les
00:03:15causes profondes et les packages à mettre à jour, puis a listé son plan d'action. Après ça,
00:03:22il a commencé à coder, faisant des modifs et lançant un build de temps en temps pour
00:03:27corriger toutes les erreurs de type. Au total, il a travaillé pendant 40 minutes sans aucune interruption.
00:03:32J'ai été très impressionné. Il a ajouté 545 lignes de code et en a supprimé 111. Du côté de Claude Code,
00:03:39je lui ai donné exactement le même projet et le même prompt. Lui aussi a travaillé pendant environ 40
00:03:44minutes, mais il restait quelques erreurs de build quand j'ai essayé de le lancer.
00:03:48J'ai dû envoyer un prompt supplémentaire pour qu'Opus me donne enfin une version fonctionnelle.
00:03:53Mais globalement, l'expérience était assez similaire à celle de Codecs.
00:03:56Cependant, je dois dire que j'adore l'interface de Codecs. Je la préfère à celle d'un terminal, désolé.
00:04:02Quoi qu'il en soit, après un prompt pour Codecs 5.3 et deux pour Opus 4.6,
00:04:06les deux ont réussi à migrer le package vers la nouvelle version de l'AI SDK sans erreurs de type,
00:04:11sans erreurs de build et avec tous les tests validés. Mais ils l'ont fait différemment.
00:04:16Ici, j'ai Codecs à gauche et les changements d'Opus à droite.
00:04:19On remarque qu'Opus a fait un peu plus de modifications par rapport à Codecs.
00:04:23Ils ont géré certaines fonctionnalités de manières distinctes.
00:04:25Codecs a très bien implémenté la logique de demande d'approbation des outils.
00:04:30C'était une nouveauté de l'AI SDK v6. Je n'en ai trouvé aucune trace dans le code d'Opus.
00:04:35On dirait qu'il l'a tout simplement ignorée et ne l'a pas intégrée au code.
00:04:40Par contre, là où Codecs a pêché, c'est dans les messages de l'interface : il a créé sa
00:04:46propre fonction pour convertir un message UI en message modèle.
00:04:50Or, l'AI SDK possède déjà une fonction pour ça, et il aurait dû l'utiliser.
00:04:57En comparant côte à côte, on voit qu'Opus a fait le bon choix.
00:05:00Il a utilisé la fonction “convert-to-model-messages” native de l'AI SDK.
00:05:04Cela signifie qu'à l'avenir, lors d'une prochaine mise à jour du package,
00:05:07je n'aurai pas à m'inquiéter de modifier ma propre fonction personnalisée, puisque j'utilise celle
00:05:13du package.
00:05:14C'est un détail un peu agaçant et c'était un signal d'alerte pour moi en relisant le code.
00:05:19Pour avoir un deuxième avis sur ma revue de code,
00:05:20j'ai redonné le tout à Codecs 5.3 en lui demandant de faire la revue avec moi. Il a listé les
00:05:26avantages et inconvénients de chaque approche.
00:05:29Mais dans sa conclusion, Codecs 5.3 a en fait préféré la version d'Opus, jugeant sa migration plus
00:05:36propre architecturalement parlant pour un déploiement sécurisé.
00:05:39Il conseille de choisir la version Opus, puis d'y importer la gestion des approbations et refus de Codecs.
00:05:43La fameuse fonction supplémentaire pour la demande d'approbation des outils.
00:05:46Il suggère de la prendre sur la version Codecs pour l'ajouter à celle d'Opus afin d'avoir une migration parfaite.
00:05:51C'est sympa de voir que Codecs 5.3 n'est pas biaisé et ne s'est pas choisi lui-même.
00:05:55Mais j'avoue que la façon dont les deux ont géré la migration était très proche et j'aurais pu les guider
00:06:01davantage. Mais un seul test ne suffit pas.
00:06:03Pour le test suivant, c'est un peu moins sérieux : je leur ai demandé de me créer un clone de Club Penguin
00:06:08en utilisant Three.js. Je ne vous dis pas encore qui est qui, mais voici le premier résultat.
00:06:13On a un écran de création de pingouin et on voit l'avatar changer en haut.
00:06:17Je peux ajouter des chapeaux : un chapeau de fête, une hélice, une couronne.
00:06:21Je choisis l'hélice et je clique sur Jouer. Si vous connaissez un peu Club Penguin,
00:06:26je dirais que c'est pas mal pour imiter le centre-ville, même si la pizzeria n'est pas là.
00:06:32Normalement il y a une discothèque ici, et on ne peut pas encore entrer dans les bâtiments.
00:06:35Comme vous voyez, il n'y a pas de collisions.
00:06:37Mais ce qui est bien fait, c'est que via la carte, on peut changer de zone.
00:06:41Ici le village de ski. Si je clique pour me déplacer,
00:06:44je trouve que mon pingouin a une bonne tête pour du Three.js sans aucun asset externe fourni.
00:06:49Il a tout fait à partir de son entraînement. On peut même jouer au jeu de course de luge,
00:06:54qui était mon préféré dans Club Penguin. Il manque certes des choses,
00:06:59mais pour un premier jet en un seul prompt, c'est impressionnant.
00:07:04Cette version tente même d'inclure le jeu de surf en chariot,
00:07:07mon autre favori, mais celui-là semble un peu cassé.
00:07:11On va juste de gauche à droite et là, je crois que je suis sous la carte. Et il fait tout noir.
00:07:15Voici ce que l'autre modèle a produit. Dites-moi dans les commentaires
00:07:18quel modèle a fait le meilleur travail selon vous et si vous devinez qui a fait quoi.
00:07:22Je vous donnerai la réponse à la fin de ce test. Vous voyez que dans celui-ci,
00:07:25on a les mêmes sélecteurs de couleurs que dans le prompt.
00:07:27On a aussi le chapeau et l'accessoire. Je prends la couronne et on commence l'exploration.
00:07:31Le pingouin est un peu plus costaud ici. Il est plus rigolo, mais encore une fois, sans assets.
00:07:36C'est codé de zéro en Three.js.
00:07:38On a le même problème, on peut traverser les bâtiments.
00:07:41Mais la carte est là avec toutes les différentes zones.
00:07:44Si je vais au village de ski,
00:07:46je devrais pouvoir jouer. Voici la course de luge et pour être honnête,
00:07:50c'est très similaire à l'autre version qu'on a vue.
00:07:53On voit les arbres arriver au loin.
00:07:56On a trois vies et le compteur fonctionne réellement.
00:07:58Par contre, on ne semble pas pouvoir sauter dans cette version.
00:08:01Ce modèle a aussi proposé une version du surf en chariot,
00:08:04mais c'est encore un peu étrange.
00:08:06C'est peut-être plus fonctionnel car on y voit quelque chose et on peut sauter, mais
00:08:11je ne sais pas trop sur quoi je surfe. Il n'y a pas de rails. Bref, ce n'est pas vraiment le jeu
00:08:17dont je me souviens. Mais globalement,
00:08:19je suis toujours bluffé par ce que ces modèles font en un seul prompt avec Three.js. Si vous vous demandez,
00:08:25le premier était Opus 4.6 et le deuxième Codecs 5.3, et je crois que je préfère le premier.
00:08:30Donc pour moi, Opus 4.6 gagne le test Club Penguin. Enfin, le dernier test
00:08:34concernait le design d'interface. Les modèles deviennent vraiment bons là-dedans.
00:08:38Je leur ai demandé de me créer une page d'accueil pour un réseau social réservé aux IA.
00:08:42Un peu comme Molt Book. La page devait être sarcastique, futuriste, et tout ça dans un seul
00:08:49fichier HTML. Voici les résultats, et je dois dire que Codecs m'a beaucoup impressionné.
00:08:55On a Codecs 5.3 à gauche et Opus 4.6 à droite. J'aime vraiment la direction
00:09:00que Codecs 5.3 a prise pour ce site.
00:09:01Il a opté pour un design néo-brutaliste, c'est un peu plus fun que les sites habituels.
00:09:06Opus 4.6 a fait un bon design, mais ça ressemble à n'importe quelle appli standard. C'est très bien fait,
00:09:13certes,
00:09:14mais avec ces dégradés violets, tout crie au design générique, alors que la version de Codecs
00:09:205.3 donne l'impression d'un travail plus manuel, plus recherché,
00:09:25alors que le prompt était identique.
00:09:27Le seul point où Opus 4.6 est meilleur, c'est que la page est plus fonctionnelle.
00:09:32On a un onglet Tendances, les règles, les top modèles de la semaine,
00:09:36des subreddits populaires et un fil d'actualité, alors que Codecs 5.3 est un peu vide.
00:09:41On a juste cet onglet Tendances et c'est tout.
00:09:44Je suis curieux de voir leurs scores sur Design Arena, ils viennent de sortir
00:09:47donc ils ne sont pas encore classés, mais pour l'instant GLM 4.7 est en tête.
00:09:51On verra si Codecs 5.3 ou Opus 4.6 arrive à le détrôner. Globalement,
00:09:55les deux modèles sont très performants et il est difficile de dire lequel est le meilleur.
00:09:59Personnellement, je penche pour Codecs 5.3,
00:10:03surtout parce que j'aime l'application Codecs et mon expérience globale avec les modèles d'OpenAI. Si on compare
00:10:09les benchmarks, comme dit au début, Codecs a un énorme avantage sur Terminal Bench 2.0.
00:10:15C'est un bond en avant incroyable, et c'est le seul benchmark comparable pour l'instant car je ne pense pas
00:10:21qu'Anthropic s'attendait à ce qu'OpenAI sorte ce modèle si tôt. Ils n'utilisent malheureusement pas les mêmes tests dans leurs blogs.
00:10:28Sur Artificial Analysis, pour l'instant, seul Opus 4.6 a été testé pour le code, et seulement en version sans raisonnement.
00:10:35C'est quand même impressionnant que la version sans raisonnement de 4.6 soit aussi performante que la version avec raisonnement de 4.5 Opus.
00:10:42Mon sentiment actuel est que le passage d'Opus 4.5 à 4.6 est plus marginal que celui de Codecs 5.2 à 5.3.
00:10:49Mais je devrai utiliser les deux en conditions réelles pour trancher.
00:10:53Il y a quelques extras dans ces sorties.
00:10:55L'un des plus cool est l'amélioration des capacités en cybersécurité. OpenAI affirme que GPT
00:11:015.3 Codecs est leur premier modèle classé “haute capacité” pour la cybersécurité et le premier entraîné à identifier
00:11:09des vulnérabilités logicielles. Anthropic dit quasiment la même chose dans son long article. Une fonction de Codecs que je vais adorer
00:11:16est la possibilité de le guider pendant qu'il travaille. Au lieu d'attendre le résultat final,
00:11:21on peut interagir en temps réel, poser des questions, discuter de l'approche et l'orienter vers une solution.
00:11:27C'est une bien meilleure approche, car j'hésite toujours entre le laisser finir ou
00:11:32l'interrompre quand je veux qu'il change quelque chose.
00:11:35Et avec des tâches qui peuvent maintenant durer longtemps,
00:11:40l'expérience utilisateur sera bien plus agréable si l'on peut lui parler pendant qu'il bosse.
00:11:44Enfin, quelques nouveautés pour Claude aussi. La première est Claude Code.
00:11:48On peut désormais utiliser des équipes d'agents pour travailler ensemble, des sous-agents. Richard a fait une vidéo là-dessus cette semaine,
00:11:55allez la voir si ça vous intéresse. Il y a aussi des fonctions d'API sympas comme la compaction,
00:12:01intégrée à l'API pour résumer le contexte et gérer des tâches plus longues.
00:12:06Et il y a un nouveau mode de réflexion adaptatif.
00:12:08Le modèle décide lui-même, selon le contexte, du niveau de réflexion approfondie nécessaire.
00:12:13Voilà, les modèles de codage ont fait un chemin incroyable.
00:12:16Ça ne fait même pas un an que Claude Code est sorti.
00:12:20Dites-moi ce que vous en pensez dans les commentaires, abonnez-vous et comme d'habitude, à la prochaine !
00:12:31(musique entraînante)