OpenAI est en train de gagner... (Opus 4.6 + Codex 5.3)

BBetter Stack
Computing/SoftwareBusiness NewsVideo & Computer GamesInternet Technology

Transcript

00:00:00Anthropic vient de sortir Claude Opus 4.6, qui obtient le meilleur score jamais vu sur Terminal Bench 2.0.
00:00:06Désolé d'interrompre votre session de programmation,
00:00:10mais il se trouve que les codecs de GPT 5.3 viennent de sortir et ils battent Opus 4.6 sur Terminal Bench de plus de 10 %.
00:00:16On dirait bien que le règne d'Anthropic n'aura duré que quelques minutes. La compétition entre ces deux-là s'intensifie vraiment.
00:00:23Je suis donc très curieux de voir les nouveautés de ces modèles et de découvrir lequel est le plus agréable à utiliser, car dernièrement,
00:00:29c'est GPT 5.2 que j'ai trouvé le plus performant.
00:00:31Je veux voir si Claude peut reprendre l'avantage ou si OpenAI a frappé fort avec les codecs de GPT 5.3.
00:00:37D'abord, un petit résumé des nouveautés. On sait qu'ils seront meilleurs que les versions précédentes sur les benchmarks,
00:00:48ce que je vous montrerai à la fin, mais est-ce que quelque chose a vraiment changé concrètement ?
00:00:52Eh bien, pour Opus,
00:00:53ils affirment qu'il peut planifier plus soigneusement, maintenir des tâches d'agent plus longtemps et opérer de manière plus fiable dans de grandes bases de code.
00:01:00Il aurait de meilleures capacités de revue de code et de débogage pour corriger ses propres erreurs.
00:01:02C'étaient justement les points faibles d'Opus par rapport à GPT 5.2. D'après mon expérience,
00:01:08il commençait à coder plus vite, mais faisait généralement un peu plus d'erreurs.
00:01:12À l'inverse, GPT 5.2 mettait plus de temps à se lancer mais comprenait mieux le contexte du repo.
00:01:17Espérons que ces changements améliorent Opus. Il va aussi profiter de sa nouvelle fenêtre de contexte d'un million de tokens,
00:01:23au total.
00:01:24Même s'il est précisé que c'est en version bêta et que, comme chez d'autres fournisseurs,
00:01:27cela coûtera plus cher : les prompts dépassant 200 000 tokens coûteront 10 $ par million de tokens en entrée et
00:01:3337,50 $ par million de tokens en sortie. Passons maintenant aux codecs 5.3.
00:01:38OpenAI affirme que ce modèle repousse les limites des performances de codage de GPT 5.2 Codecs et les capacités
00:01:45de raisonnement et de connaissances professionnelles de GPT 5.2 en un seul modèle, qui est également 25 % plus rapide.
00:01:51Cela devrait lui permettre de gérer des tâches de longue durée impliquant de la recherche, l'utilisation d'outils et une exécution complexe.
00:01:57Ils en ont vraiment fait un modèle polyvalent avec le savoir de GPT 5.2 et des capacités de codage accrues.
00:02:03Mais tout ça, c'est du marketing.
00:02:05Mettons ces modèles à l'épreuve du monde réel. Mon premier test consistait à mettre à jour un package d'agent Convex pour supporter l'AI SDK v6.
00:02:11J'adore utiliser Convex comme base de données dernièrement, et ce package aide à lier l'AI SDK à la base de données.
00:02:19On obtient d'excellentes performances, mais le problème est qu'il n'avait pas été mis à jour vers la dernière version.
00:02:23Comme vous le voyez dans la documentation, la migration de la v5 à la v6 n'est pas une mince affaire.
00:02:28Il y a eu beaucoup de changements majeurs et de modifications de types.
00:02:32J'ai donc créé une application de chat basique sous Convex qui fonctionnait avec le package de l'agent.
00:02:36Puis j'ai mis les packages à jour vers la v6, ce qui m'a donné une tonne d'erreurs de build et de types.
00:02:40J'ai simplement demandé aux modèles de les corriger. Voici le prompt que j'ai utilisé avec Codecs :
00:02:44Je lui ai dit que je créais une appli de chat avec Convex et que j'avais une version fonctionnelle,
00:02:46mais qu'après être passé à la v6, je devais corriger les erreurs de type et de build.
00:02:50Je lui ai fourni le guide de migration comme contexte et j'ai précisé que je voulais que tous les tests
00:02:55réussissent, en évitant les hacks TypeScript comme “as any” autant que possible, car les modèles le font souvent.
00:02:59J'ai bien insisté là-dessus, car l'AI SDK contient des types assez complexes maintenant.
00:03:03Voyons comment GPT 5.3 Codecs s'en est sorti. Il a commencé par
00:03:09analyser le repo. Il a vu que c'était un monorepo avec le dossier “packages/agent”. Il a identifié les
00:03:15causes profondes et les packages à mettre à jour, puis a listé son plan d'action. Après ça,
00:03:22il a commencé à coder, faisant des modifs et lançant un build de temps en temps pour
00:03:27corriger toutes les erreurs de type. Au total, il a travaillé pendant 40 minutes sans aucune interruption.
00:03:32J'ai été très impressionné. Il a ajouté 545 lignes de code et en a supprimé 111. Du côté de Claude Code,
00:03:39je lui ai donné exactement le même projet et le même prompt. Lui aussi a travaillé pendant environ 40
00:03:44minutes, mais il restait quelques erreurs de build quand j'ai essayé de le lancer.
00:03:48J'ai dû envoyer un prompt supplémentaire pour qu'Opus me donne enfin une version fonctionnelle.
00:03:53Mais globalement, l'expérience était assez similaire à celle de Codecs.
00:03:56Cependant, je dois dire que j'adore l'interface de Codecs. Je la préfère à celle d'un terminal, désolé.
00:04:02Quoi qu'il en soit, après un prompt pour Codecs 5.3 et deux pour Opus 4.6,
00:04:06les deux ont réussi à migrer le package vers la nouvelle version de l'AI SDK sans erreurs de type,
00:04:11sans erreurs de build et avec tous les tests validés. Mais ils l'ont fait différemment.
00:04:16Ici, j'ai Codecs à gauche et les changements d'Opus à droite.
00:04:19On remarque qu'Opus a fait un peu plus de modifications par rapport à Codecs.
00:04:23Ils ont géré certaines fonctionnalités de manières distinctes.
00:04:25Codecs a très bien implémenté la logique de demande d'approbation des outils.
00:04:30C'était une nouveauté de l'AI SDK v6. Je n'en ai trouvé aucune trace dans le code d'Opus.
00:04:35On dirait qu'il l'a tout simplement ignorée et ne l'a pas intégrée au code.
00:04:40Par contre, là où Codecs a pêché, c'est dans les messages de l'interface : il a créé sa
00:04:46propre fonction pour convertir un message UI en message modèle.
00:04:50Or, l'AI SDK possède déjà une fonction pour ça, et il aurait dû l'utiliser.
00:04:57En comparant côte à côte, on voit qu'Opus a fait le bon choix.
00:05:00Il a utilisé la fonction “convert-to-model-messages” native de l'AI SDK.
00:05:04Cela signifie qu'à l'avenir, lors d'une prochaine mise à jour du package,
00:05:07je n'aurai pas à m'inquiéter de modifier ma propre fonction personnalisée, puisque j'utilise celle
00:05:13du package.
00:05:14C'est un détail un peu agaçant et c'était un signal d'alerte pour moi en relisant le code.
00:05:19Pour avoir un deuxième avis sur ma revue de code,
00:05:20j'ai redonné le tout à Codecs 5.3 en lui demandant de faire la revue avec moi. Il a listé les
00:05:26avantages et inconvénients de chaque approche.
00:05:29Mais dans sa conclusion, Codecs 5.3 a en fait préféré la version d'Opus, jugeant sa migration plus
00:05:36propre architecturalement parlant pour un déploiement sécurisé.
00:05:39Il conseille de choisir la version Opus, puis d'y importer la gestion des approbations et refus de Codecs.
00:05:43La fameuse fonction supplémentaire pour la demande d'approbation des outils.
00:05:46Il suggère de la prendre sur la version Codecs pour l'ajouter à celle d'Opus afin d'avoir une migration parfaite.
00:05:51C'est sympa de voir que Codecs 5.3 n'est pas biaisé et ne s'est pas choisi lui-même.
00:05:55Mais j'avoue que la façon dont les deux ont géré la migration était très proche et j'aurais pu les guider
00:06:01davantage. Mais un seul test ne suffit pas.
00:06:03Pour le test suivant, c'est un peu moins sérieux : je leur ai demandé de me créer un clone de Club Penguin
00:06:08en utilisant Three.js. Je ne vous dis pas encore qui est qui, mais voici le premier résultat.
00:06:13On a un écran de création de pingouin et on voit l'avatar changer en haut.
00:06:17Je peux ajouter des chapeaux : un chapeau de fête, une hélice, une couronne.
00:06:21Je choisis l'hélice et je clique sur Jouer. Si vous connaissez un peu Club Penguin,
00:06:26je dirais que c'est pas mal pour imiter le centre-ville, même si la pizzeria n'est pas là.
00:06:32Normalement il y a une discothèque ici, et on ne peut pas encore entrer dans les bâtiments.
00:06:35Comme vous voyez, il n'y a pas de collisions.
00:06:37Mais ce qui est bien fait, c'est que via la carte, on peut changer de zone.
00:06:41Ici le village de ski. Si je clique pour me déplacer,
00:06:44je trouve que mon pingouin a une bonne tête pour du Three.js sans aucun asset externe fourni.
00:06:49Il a tout fait à partir de son entraînement. On peut même jouer au jeu de course de luge,
00:06:54qui était mon préféré dans Club Penguin. Il manque certes des choses,
00:06:59mais pour un premier jet en un seul prompt, c'est impressionnant.
00:07:04Cette version tente même d'inclure le jeu de surf en chariot,
00:07:07mon autre favori, mais celui-là semble un peu cassé.
00:07:11On va juste de gauche à droite et là, je crois que je suis sous la carte. Et il fait tout noir.
00:07:15Voici ce que l'autre modèle a produit. Dites-moi dans les commentaires
00:07:18quel modèle a fait le meilleur travail selon vous et si vous devinez qui a fait quoi.
00:07:22Je vous donnerai la réponse à la fin de ce test. Vous voyez que dans celui-ci,
00:07:25on a les mêmes sélecteurs de couleurs que dans le prompt.
00:07:27On a aussi le chapeau et l'accessoire. Je prends la couronne et on commence l'exploration.
00:07:31Le pingouin est un peu plus costaud ici. Il est plus rigolo, mais encore une fois, sans assets.
00:07:36C'est codé de zéro en Three.js.
00:07:38On a le même problème, on peut traverser les bâtiments.
00:07:41Mais la carte est là avec toutes les différentes zones.
00:07:44Si je vais au village de ski,
00:07:46je devrais pouvoir jouer. Voici la course de luge et pour être honnête,
00:07:50c'est très similaire à l'autre version qu'on a vue.
00:07:53On voit les arbres arriver au loin.
00:07:56On a trois vies et le compteur fonctionne réellement.
00:07:58Par contre, on ne semble pas pouvoir sauter dans cette version.
00:08:01Ce modèle a aussi proposé une version du surf en chariot,
00:08:04mais c'est encore un peu étrange.
00:08:06C'est peut-être plus fonctionnel car on y voit quelque chose et on peut sauter, mais
00:08:11je ne sais pas trop sur quoi je surfe. Il n'y a pas de rails. Bref, ce n'est pas vraiment le jeu
00:08:17dont je me souviens. Mais globalement,
00:08:19je suis toujours bluffé par ce que ces modèles font en un seul prompt avec Three.js. Si vous vous demandez,
00:08:25le premier était Opus 4.6 et le deuxième Codecs 5.3, et je crois que je préfère le premier.
00:08:30Donc pour moi, Opus 4.6 gagne le test Club Penguin. Enfin, le dernier test
00:08:34concernait le design d'interface. Les modèles deviennent vraiment bons là-dedans.
00:08:38Je leur ai demandé de me créer une page d'accueil pour un réseau social réservé aux IA.
00:08:42Un peu comme Molt Book. La page devait être sarcastique, futuriste, et tout ça dans un seul
00:08:49fichier HTML. Voici les résultats, et je dois dire que Codecs m'a beaucoup impressionné.
00:08:55On a Codecs 5.3 à gauche et Opus 4.6 à droite. J'aime vraiment la direction
00:09:00que Codecs 5.3 a prise pour ce site.
00:09:01Il a opté pour un design néo-brutaliste, c'est un peu plus fun que les sites habituels.
00:09:06Opus 4.6 a fait un bon design, mais ça ressemble à n'importe quelle appli standard. C'est très bien fait,
00:09:13certes,
00:09:14mais avec ces dégradés violets, tout crie au design générique, alors que la version de Codecs
00:09:205.3 donne l'impression d'un travail plus manuel, plus recherché,
00:09:25alors que le prompt était identique.
00:09:27Le seul point où Opus 4.6 est meilleur, c'est que la page est plus fonctionnelle.
00:09:32On a un onglet Tendances, les règles, les top modèles de la semaine,
00:09:36des subreddits populaires et un fil d'actualité, alors que Codecs 5.3 est un peu vide.
00:09:41On a juste cet onglet Tendances et c'est tout.
00:09:44Je suis curieux de voir leurs scores sur Design Arena, ils viennent de sortir
00:09:47donc ils ne sont pas encore classés, mais pour l'instant GLM 4.7 est en tête.
00:09:51On verra si Codecs 5.3 ou Opus 4.6 arrive à le détrôner. Globalement,
00:09:55les deux modèles sont très performants et il est difficile de dire lequel est le meilleur.
00:09:59Personnellement, je penche pour Codecs 5.3,
00:10:03surtout parce que j'aime l'application Codecs et mon expérience globale avec les modèles d'OpenAI. Si on compare
00:10:09les benchmarks, comme dit au début, Codecs a un énorme avantage sur Terminal Bench 2.0.
00:10:15C'est un bond en avant incroyable, et c'est le seul benchmark comparable pour l'instant car je ne pense pas
00:10:21qu'Anthropic s'attendait à ce qu'OpenAI sorte ce modèle si tôt. Ils n'utilisent malheureusement pas les mêmes tests dans leurs blogs.
00:10:28Sur Artificial Analysis, pour l'instant, seul Opus 4.6 a été testé pour le code, et seulement en version sans raisonnement.
00:10:35C'est quand même impressionnant que la version sans raisonnement de 4.6 soit aussi performante que la version avec raisonnement de 4.5 Opus.
00:10:42Mon sentiment actuel est que le passage d'Opus 4.5 à 4.6 est plus marginal que celui de Codecs 5.2 à 5.3.
00:10:49Mais je devrai utiliser les deux en conditions réelles pour trancher.
00:10:53Il y a quelques extras dans ces sorties.
00:10:55L'un des plus cool est l'amélioration des capacités en cybersécurité. OpenAI affirme que GPT
00:11:015.3 Codecs est leur premier modèle classé “haute capacité” pour la cybersécurité et le premier entraîné à identifier
00:11:09des vulnérabilités logicielles. Anthropic dit quasiment la même chose dans son long article. Une fonction de Codecs que je vais adorer
00:11:16est la possibilité de le guider pendant qu'il travaille. Au lieu d'attendre le résultat final,
00:11:21on peut interagir en temps réel, poser des questions, discuter de l'approche et l'orienter vers une solution.
00:11:27C'est une bien meilleure approche, car j'hésite toujours entre le laisser finir ou
00:11:32l'interrompre quand je veux qu'il change quelque chose.
00:11:35Et avec des tâches qui peuvent maintenant durer longtemps,
00:11:40l'expérience utilisateur sera bien plus agréable si l'on peut lui parler pendant qu'il bosse.
00:11:44Enfin, quelques nouveautés pour Claude aussi. La première est Claude Code.
00:11:48On peut désormais utiliser des équipes d'agents pour travailler ensemble, des sous-agents. Richard a fait une vidéo là-dessus cette semaine,
00:11:55allez la voir si ça vous intéresse. Il y a aussi des fonctions d'API sympas comme la compaction,
00:12:01intégrée à l'API pour résumer le contexte et gérer des tâches plus longues.
00:12:06Et il y a un nouveau mode de réflexion adaptatif.
00:12:08Le modèle décide lui-même, selon le contexte, du niveau de réflexion approfondie nécessaire.
00:12:13Voilà, les modèles de codage ont fait un chemin incroyable.
00:12:16Ça ne fait même pas un an que Claude Code est sorti.
00:12:20Dites-moi ce que vous en pensez dans les commentaires, abonnez-vous et comme d'habitude, à la prochaine !
00:12:31(musique entraînante)

Key Takeaway

La rivalité entre OpenAI et Anthropic atteint des sommets avec des modèles capables de gérer des tâches de codage complexes et autonomes, où GPT 5.3 domine les benchmarks bruts tandis qu'Opus 4.6 brille par sa pertinence architecturale.

Highlights

OpenAI a lancé GPT 5.3 Codecs

Timeline

Introduction et guerre des benchmarks

L'analyste présente le lancement soudain de Claude Opus 4.6 par Anthropic, rapidement éclipsé par l'annonce de GPT 5.3 Codecs d'OpenAI. Le nouveau modèle d'OpenAI affiche une performance supérieure de 10 % sur Terminal Bench 2.0, marquant un tournant dans la compétition. L'auteur exprime sa curiosité quant à l'ergonomie de ces nouveaux outils par rapport à la version GPT 5.2. Cette section pose le cadre d'un duel technologique intense où chaque minute compte. L'enjeu est de déterminer si Claude peut reprendre l'avantage ou si OpenAI a définitivement pris les devants.

Nouveautés techniques et tarification

Cette section détaille les améliorations spécifiques d'Opus 4.6, notamment sa capacité de planification et sa fenêtre de contexte d'un million de tokens. L'analyste mentionne les tarifs de l'API d'Anthropic, précisant que les prompts volumineux coûtent 10 $ par million de tokens en entrée. Parallèlement, GPT 5.3 Codecs est décrit comme 25 % plus rapide que son prédécesseur tout en combinant raisonnement et connaissances professionnelles. Ces modèles visent désormais des tâches d'agent de longue durée et une gestion plus fiable des grandes bases de code. L'auteur souligne toutefois que ces annonces marketing doivent être vérifiées par des tests en conditions réelles.

Test de migration : SDK AI v6 et Convex

Le premier test pratique consiste à mettre à jour un package Convex vers la version 6 de l'AI SDK, une tâche complexe impliquant de nombreux changements de types. GPT 5.3 Codecs travaille pendant 40 minutes de manière autonome, ajoutant plus de 500 lignes de code et gérant parfaitement les demandes d'approbation d'outils. Claude Opus 4.6 nécessite un prompt supplémentaire pour corriger des erreurs de build restantes mais utilise des fonctions natives plus appropriées pour la conversion des messages. Étonnamment, GPT 5.3 Codecs avoue lui-même lors d'une revue de code que la version d'Opus est architecturalement plus propre. Ce test démontre que la performance brute ne garantit pas toujours la meilleure décision structurelle.

Développement créatif avec Three.js : Le cas Club Penguin

L'analyste demande aux deux modèles de créer un clone du jeu Club Penguin en utilisant la bibliothèque Three.js sans aucun asset externe. Claude Opus 4.6 l'emporte dans ce défi grâce à un pingouin mieux modélisé et des mini-jeux de luge et de surf plus fonctionnels. Bien que les collisions soient absentes et que certains éléments soient cassés, le résultat obtenu en un seul prompt est jugé bluffant. Codecs 5.3 propose une version similaire mais avec une esthétique de personnage jugée moins réussie. Cette partie illustre les capacités de génération de code créatif et de compréhension des mécaniques de jeu par l'IA. L'auteur encourage les spectateurs à deviner quel modèle a produit quel résultat avant la révélation finale.

Design d'interface et conclusion sur le futur du codage

Le dernier test porte sur le design d'une page d'accueil pour un réseau social d'IA, où Codecs 5.3 impressionne par son style néo-brutaliste original. Opus 4.6 produit un design plus générique mais propose une interface plus complète avec des onglets fonctionnels pour les tendances et les règles. La vidéo se termine par une analyse des benchmarks de cybersécurité, soulignant que GPT 5.3 est le premier modèle entraîné spécifiquement pour identifier les vulnérabilités logicielles. L'analyste mentionne également des fonctionnalités avancées comme le mode de réflexion adaptatif de Claude et la capacité d'interagir en direct avec Codecs. En conclusion, le domaine du codage assisté par IA progresse à une vitesse fulgurante, rendant les modèles de plus en plus autonomes et collaboratifs.

Community Posts

View all posts