Transcript
00:00:00Anthropic vient tout juste de sortir Claude Opus 4.8 aujourd'hui.
00:00:02Donc, dans cette vidéo, je vais rapidement vous expliquer
00:00:05ce qui a changé et ce à quoi vous devez faire attention
00:00:08avec ce tout nouveau modèle.
00:00:09Passons donc directement aux benchmarks.
00:00:12Nous avons ici Opus 4.8 mis en évidence
00:00:14et comparé à Opus 4.7, GPT 5.5 et Gemini 3.1 Pro,
00:00:20Opus les surpasse pratiquement tous dans chaque catégorie
00:00:24à l'exception du codage agentique en terminal,
00:00:26qui correspond au Terminal Bench 2.1.
00:00:28Là, il obtient un score de 74,6,
00:00:30ce qui représente tout de même un grand bond en avant par rapport à Opus 4.7,
00:00:34tout en restant derrière GPT 5.5.
00:00:37Mais pour tout le reste, le SWE Bench Pro,
00:00:40le raisonnement multidisciplinaire, l'utilisation informatique agentique,
00:00:42le travail intellectuel, ainsi que l'analyse financière agentique,
00:00:45il devance le reste du groupe.
00:00:47Maintenant, nous prenons tous les benchmarks avec beaucoup de recul
00:00:49à ce stade, mais il est agréable de voir ces grandes avancées
00:00:53par rapport à ce qu'ils ont rapporté avec Opus 4.7,
00:00:56il n'y a pas si longtemps.
00:00:57Je veux dire, quoi, c'était il y a quelques mois seulement,
00:00:58la version 4.7 était sortie et nous avons déjà la 4.8
00:01:01et nous passons de 64 à 69 sur le codage agentique.
00:01:04Franchement, c'est du bon travail.
00:01:05Maintenant, l'une des grandes améliorations de la 4.8 par rapport à la 4.7,
00:01:08selon Anthropic, c'est son honnêteté.
00:01:11Et par honnêteté, nous voulons dire que ce modèle d'IA,
00:01:14quand vous lui demandez de faire quelque chose,
00:01:15s'il ne peut pas le faire ou s'il ne l'a pas fait,
00:01:18il vous le dira vraiment.
00:01:19C'est un point très important
00:01:20si vous avez utilisé ces modèles
00:01:22ces dernières années,
00:01:22où vous lui demandez de faire quelque chose comme,
00:01:24hé, regarde cette transcription géante
00:01:27et lis-la vraiment et dis-moi ce que tu as fait.
00:01:29Et puis, quand vous regardez son résultat
00:01:31et que vous l'interrogez réellement,
00:01:32il dira quelque chose comme,
00:01:33eh bien, je l'ai juste résumée en fait.
00:01:35Je n'ai pas tout lu.
00:01:35C'est un problème majeur.
00:01:37Et si vous utilisez l'IA pour un travail sérieux,
00:01:40vous savez à quel point il est important de créer tous ces tests,
00:01:42pour vraiment s'assurer qu'elle fait ce qu'elle dit qu'elle fait.
00:01:46Mais Anthropic dit,
00:01:47hé, ce n'est peut-être plus autant un problème avec la 4.8
00:01:50par rapport aux modèles précédents.
00:01:51Plus précisément, ils disent,
00:01:52selon leurs évaluations,
00:01:54que vous pouvez consulter dans leur fiche système,
00:01:56qui fait environ 250 pages,
00:01:59ils disent qu'Opus 4.8
00:02:01est environ quatre fois moins susceptible que son prédécesseur
00:02:04de laisser passer sans remarque des défauts dans le code qu'il a écrit.
00:02:07Donc, encore une fois, elle sera beaucoup plus honnête
00:02:09sur ce qui ne fonctionne pas par rapport à ce qui fonctionne,
00:02:12et elle ne va pas vous manipuler.
00:02:13Ils évaluent également que la 4.8 a des taux de comportement désaligné
00:02:16comme la tromperie ou la coopération avec une utilisation abusive
00:02:18qui sont substantiellement inférieurs à ceux d'Opus 4.7
00:02:21et similaires à Mythos.
00:02:24Et vous pouvez voir ce comportement désaligné juste ici
00:02:25où Opus 4.7 et surtout Sonnet 4.6
00:02:28avaient certaines de ces tendances,
00:02:31et nous ne voyons pas vraiment cela autant avec Mythos
00:02:33ou Opus 4.8.
00:02:35Maintenant, au-delà du modèle lui-même,
00:02:36il y a quelques autres mises à jour qu'Anthropic a mises en avant.
00:02:39La première concerne les flux de travail dynamiques.
00:02:41Maintenant, les flux de travail dynamiques sont similaires aux objectifs.
00:02:43L'idée est que nous pouvons maintenant confier à Claude Code
00:02:45une tâche très complexe,
00:02:47et il va y travailler au fil du temps,
00:02:50en générant des dizaines à des centaines d'agents parallèles
00:02:52au cours d'une seule session
00:02:53pour s'assurer que le travail est réellement terminé.
00:02:56Comme vous le savez bien, il y a beaucoup de problèmes
00:02:57qui, même si vous faites quelque chose en mode plan
00:02:59et que vous le divisez en plusieurs tâches,
00:03:00sont tout simplement trop lourds pour Claude Code à gérer en une fois.
00:03:03Ces flux de travail dynamiques sont la réponse à ce problème,
00:03:05et je ferai une analyse approfondie
00:03:06des flux de travail dynamiques très prochainement.
00:03:09Mais si vous voulez essayer aujourd'hui,
00:03:11il y a deux vraies options.
00:03:12La première consiste à utiliser un langage simple
00:03:13et à dire, hé, Claude, crée un flux de travail dynamique,
00:03:15ou à activer le nouveau paramètre spécifique à Claude Code
00:03:18appelé UltraCode.
00:03:20Un autre grand changement pour Claude.ai,
00:03:22le chatbot et cowork actuel,
00:03:24ce n'est pas vraiment le cas avec le code,
00:03:26c'est qu'ils ont maintenant plus de contrôles
00:03:27lorsqu'il s'agit de choisir combien d'efforts
00:03:30Claude met dans la réponse, n'est-ce pas ?
00:03:31Nous avions cela avec Claude Code depuis un moment
00:03:33avec des niveaux comme élevé, extra élevé et max.
00:03:35Eh bien, c'est maintenant à l'intérieur de choses
00:03:36comme Claude.ai et cowork.
00:03:38Et enfin, si vous êtes quelqu'un
00:03:39qui a utilisé l'API Messages,
00:03:41elle accepte maintenant des entrées système dans le tableau de messages.
00:03:44C'est vraiment agréable
00:03:45car vous pouvez mettre à jour les instructions de Claude en pleine tâche.
00:03:47C'est assez similaire à Codex
00:03:50et à la fonction diriger
00:03:51par rapport à la fonction file d'attente
00:03:52quand vous lui donnez une invite supplémentaire.
00:03:54À noter, Opus définit aussi par défaut un effort élevé,
00:03:57pas extra élevé.
00:03:59Rappelez-vous avec Opus 4.7
00:04:00où ils nous ont montré ce graphique,
00:04:01ils nous disaient,
00:04:03hé, extra élevé, c'est là que vous voulez aller.
00:04:05Alors comprenez simplement que la 4.8 est sur élevé
00:04:07et qu'il vous reste deux niveaux au-dessus
00:04:09si vous voulez obtenir un peu plus d'efforts
00:04:11de ce nouveau modèle.
00:04:12Et si vous vous interrogez sur l'utilisation des jetons,
00:04:14ils ont augmenté les limites de débit dans Claude Code
00:04:16pour tenir compte de l'utilisation plus élevée des jetons
00:04:18des niveaux d'effort plus élevés,
00:04:20ce qui est vraiment agréable.
00:04:21Voilà votre aperçu rapide
00:04:22du tout nouveau Claude Opus 4.8.
00:04:24N'oubliez pas qu'il a exactement la même tarification
00:04:25qu'Opus 4.7,
00:04:26donc vous ne payez rien de plus
00:04:28pour cette nouvelle puissance.
00:04:29Comme toujours, faites-moi savoir ce que vous en pensez.
00:04:31Assurez-vous de consulter Chase AI Plus
00:04:33dans le commentaire épinglé
00:04:34si vous voulez mettre la main
00:04:35sur ma Masterclass Claude Code
00:04:36et je vous verrai bientôt.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video