Anthropic lâche la bombe Opus 4.8

CChase AI
컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00Anthropic vient tout juste de sortir Claude Opus 4.8 aujourd'hui.
00:00:02Donc, dans cette vidéo, je vais rapidement vous expliquer
00:00:05ce qui a changé et ce à quoi vous devez faire attention
00:00:08avec ce tout nouveau modèle.
00:00:09Passons donc directement aux benchmarks.
00:00:12Nous avons ici Opus 4.8 mis en évidence
00:00:14et comparé à Opus 4.7, GPT 5.5 et Gemini 3.1 Pro,
00:00:20Opus les surpasse pratiquement tous dans chaque catégorie
00:00:24à l'exception du codage agentique en terminal,
00:00:26qui correspond au Terminal Bench 2.1.
00:00:28Là, il obtient un score de 74,6,
00:00:30ce qui représente tout de même un grand bond en avant par rapport à Opus 4.7,
00:00:34tout en restant derrière GPT 5.5.
00:00:37Mais pour tout le reste, le SWE Bench Pro,
00:00:40le raisonnement multidisciplinaire, l'utilisation informatique agentique,
00:00:42le travail intellectuel, ainsi que l'analyse financière agentique,
00:00:45il devance le reste du groupe.
00:00:47Maintenant, nous prenons tous les benchmarks avec beaucoup de recul
00:00:49à ce stade, mais il est agréable de voir ces grandes avancées
00:00:53par rapport à ce qu'ils ont rapporté avec Opus 4.7,
00:00:56il n'y a pas si longtemps.
00:00:57Je veux dire, quoi, c'était il y a quelques mois seulement,
00:00:58la version 4.7 était sortie et nous avons déjà la 4.8
00:01:01et nous passons de 64 à 69 sur le codage agentique.
00:01:04Franchement, c'est du bon travail.
00:01:05Maintenant, l'une des grandes améliorations de la 4.8 par rapport à la 4.7,
00:01:08selon Anthropic, c'est son honnêteté.
00:01:11Et par honnêteté, nous voulons dire que ce modèle d'IA,
00:01:14quand vous lui demandez de faire quelque chose,
00:01:15s'il ne peut pas le faire ou s'il ne l'a pas fait,
00:01:18il vous le dira vraiment.
00:01:19C'est un point très important
00:01:20si vous avez utilisé ces modèles
00:01:22ces dernières années,
00:01:22où vous lui demandez de faire quelque chose comme,
00:01:24hé, regarde cette transcription géante
00:01:27et lis-la vraiment et dis-moi ce que tu as fait.
00:01:29Et puis, quand vous regardez son résultat
00:01:31et que vous l'interrogez réellement,
00:01:32il dira quelque chose comme,
00:01:33eh bien, je l'ai juste résumée en fait.
00:01:35Je n'ai pas tout lu.
00:01:35C'est un problème majeur.
00:01:37Et si vous utilisez l'IA pour un travail sérieux,
00:01:40vous savez à quel point il est important de créer tous ces tests,
00:01:42pour vraiment s'assurer qu'elle fait ce qu'elle dit qu'elle fait.
00:01:46Mais Anthropic dit,
00:01:47hé, ce n'est peut-être plus autant un problème avec la 4.8
00:01:50par rapport aux modèles précédents.
00:01:51Plus précisément, ils disent,
00:01:52selon leurs évaluations,
00:01:54que vous pouvez consulter dans leur fiche système,
00:01:56qui fait environ 250 pages,
00:01:59ils disent qu'Opus 4.8
00:02:01est environ quatre fois moins susceptible que son prédécesseur
00:02:04de laisser passer sans remarque des défauts dans le code qu'il a écrit.
00:02:07Donc, encore une fois, elle sera beaucoup plus honnête
00:02:09sur ce qui ne fonctionne pas par rapport à ce qui fonctionne,
00:02:12et elle ne va pas vous manipuler.
00:02:13Ils évaluent également que la 4.8 a des taux de comportement désaligné
00:02:16comme la tromperie ou la coopération avec une utilisation abusive
00:02:18qui sont substantiellement inférieurs à ceux d'Opus 4.7
00:02:21et similaires à Mythos.
00:02:24Et vous pouvez voir ce comportement désaligné juste ici
00:02:25où Opus 4.7 et surtout Sonnet 4.6
00:02:28avaient certaines de ces tendances,
00:02:31et nous ne voyons pas vraiment cela autant avec Mythos
00:02:33ou Opus 4.8.
00:02:35Maintenant, au-delà du modèle lui-même,
00:02:36il y a quelques autres mises à jour qu'Anthropic a mises en avant.
00:02:39La première concerne les flux de travail dynamiques.
00:02:41Maintenant, les flux de travail dynamiques sont similaires aux objectifs.
00:02:43L'idée est que nous pouvons maintenant confier à Claude Code
00:02:45une tâche très complexe,
00:02:47et il va y travailler au fil du temps,
00:02:50en générant des dizaines à des centaines d'agents parallèles
00:02:52au cours d'une seule session
00:02:53pour s'assurer que le travail est réellement terminé.
00:02:56Comme vous le savez bien, il y a beaucoup de problèmes
00:02:57qui, même si vous faites quelque chose en mode plan
00:02:59et que vous le divisez en plusieurs tâches,
00:03:00sont tout simplement trop lourds pour Claude Code à gérer en une fois.
00:03:03Ces flux de travail dynamiques sont la réponse à ce problème,
00:03:05et je ferai une analyse approfondie
00:03:06des flux de travail dynamiques très prochainement.
00:03:09Mais si vous voulez essayer aujourd'hui,
00:03:11il y a deux vraies options.
00:03:12La première consiste à utiliser un langage simple
00:03:13et à dire, hé, Claude, crée un flux de travail dynamique,
00:03:15ou à activer le nouveau paramètre spécifique à Claude Code
00:03:18appelé UltraCode.
00:03:20Un autre grand changement pour Claude.ai,
00:03:22le chatbot et cowork actuel,
00:03:24ce n'est pas vraiment le cas avec le code,
00:03:26c'est qu'ils ont maintenant plus de contrôles
00:03:27lorsqu'il s'agit de choisir combien d'efforts
00:03:30Claude met dans la réponse, n'est-ce pas ?
00:03:31Nous avions cela avec Claude Code depuis un moment
00:03:33avec des niveaux comme élevé, extra élevé et max.
00:03:35Eh bien, c'est maintenant à l'intérieur de choses
00:03:36comme Claude.ai et cowork.
00:03:38Et enfin, si vous êtes quelqu'un
00:03:39qui a utilisé l'API Messages,
00:03:41elle accepte maintenant des entrées système dans le tableau de messages.
00:03:44C'est vraiment agréable
00:03:45car vous pouvez mettre à jour les instructions de Claude en pleine tâche.
00:03:47C'est assez similaire à Codex
00:03:50et à la fonction diriger
00:03:51par rapport à la fonction file d'attente
00:03:52quand vous lui donnez une invite supplémentaire.
00:03:54À noter, Opus définit aussi par défaut un effort élevé,
00:03:57pas extra élevé.
00:03:59Rappelez-vous avec Opus 4.7
00:04:00où ils nous ont montré ce graphique,
00:04:01ils nous disaient,
00:04:03hé, extra élevé, c'est là que vous voulez aller.
00:04:05Alors comprenez simplement que la 4.8 est sur élevé
00:04:07et qu'il vous reste deux niveaux au-dessus
00:04:09si vous voulez obtenir un peu plus d'efforts
00:04:11de ce nouveau modèle.
00:04:12Et si vous vous interrogez sur l'utilisation des jetons,
00:04:14ils ont augmenté les limites de débit dans Claude Code
00:04:16pour tenir compte de l'utilisation plus élevée des jetons
00:04:18des niveaux d'effort plus élevés,
00:04:20ce qui est vraiment agréable.
00:04:21Voilà votre aperçu rapide
00:04:22du tout nouveau Claude Opus 4.8.
00:04:24N'oubliez pas qu'il a exactement la même tarification
00:04:25qu'Opus 4.7,
00:04:26donc vous ne payez rien de plus
00:04:28pour cette nouvelle puissance.
00:04:29Comme toujours, faites-moi savoir ce que vous en pensez.
00:04:31Assurez-vous de consulter Chase AI Plus
00:04:33dans le commentaire épinglé
00:04:34si vous voulez mettre la main
00:04:35sur ma Masterclass Claude Code
00:04:36et je vous verrai bientôt.

Key Takeaway

Claude Opus 4.8 améliore significativement la fiabilité et les capacités de résolution de tâches complexes grâce à l'introduction de flux de travail dynamiques et une réduction marquée des erreurs de code sans augmentation de prix.

Highlights

  • Claude Opus 4.8 surpasse ses concurrents GPT 5.5 et Gemini 3.1 Pro dans le raisonnement multidisciplinaire, l'analyse financière agentique et le travail intellectuel.

  • Le score de codage agentique de 74,6 marque une progression par rapport aux 69 obtenus par la version 4.7.

  • Le taux d'omission de défauts dans le code généré est divisé par quatre par rapport à la version précédente.

  • Les flux de travail dynamiques permettent de traiter des tâches complexes en générant des dizaines à des centaines d'agents parallèles en une seule session.

  • La tarification reste identique à celle du modèle Opus 4.7 malgré les gains de performance.

  • L'entrée système est désormais prise en charge dans l'API Messages, permettant des ajustements d'instructions en cours de tâche.

Timeline

Performances et benchmarks de Claude Opus 4.8

  • Opus 4.8 domine la majorité des catégories de référence face à GPT 5.5 et Gemini 3.1 Pro.
  • Le modèle atteint un score de 74,6 au Terminal Bench 2.1.
  • Les progrès en codage agentique progressent de 64 à 69 points en quelques mois.

Le modèle 4.8 montre une supériorité sur Opus 4.7, GPT 5.5 et Gemini 3.1 Pro dans presque tous les domaines, incluant le SWE Bench Pro et le raisonnement multidisciplinaire. Bien qu'il reste légèrement derrière GPT 5.5 dans le Terminal Bench, il enregistre une avancée majeure par rapport à la version précédente.

Fiabilité, honnêteté et alignement du modèle

  • La capacité d'auto-évaluation du modèle est renforcée, réduisant la manipulation et les réponses inexactes.
  • Le taux de défauts non remarqués dans le code produit est quatre fois inférieur à celui du prédécesseur.
  • Les comportements désalignés comme la tromperie sont substantiellement réduits, atteignant des niveaux similaires au modèle Mythos.

Une amélioration fondamentale réside dans l'honnêteté du modèle : il signale désormais plus efficacement ses propres limites ou l'incapacité à accomplir une tâche spécifique. Ces résultats, documentés dans une fiche système de 250 pages, confirment une baisse significative des comportements problématiques par rapport aux versions 4.7 et Sonnet 4.6.

Flux de travail dynamiques et nouvelles fonctionnalités

  • Les flux de travail dynamiques permettent d'exécuter des tâches trop lourdes pour une seule requête via des agents parallèles.
  • Le paramètre UltraCode active la gestion avancée des sessions de travail complexes.
  • La nouvelle structure de l'API Messages permet de modifier les instructions système en temps réel durant l'exécution.

Le système propose désormais une approche par objectifs où Claude Code gère des dizaines ou centaines d'agents en parallèle. De nouveaux contrôles d'effort (élevé, extra élevé, max) sont intégrés à Claude.ai et aux espaces de travail, tandis que les limites de débit sont augmentées pour supporter cette intensité de traitement.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video