Anthropic lâche la bombe Opus 4.8

Françaisالعربية Deutsch English Español हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00Anthropic vient tout juste de sortir Claude Opus 4.8 aujourd'hui.

00:00:02Donc, dans cette vidéo, je vais rapidement vous expliquer

00:00:05ce qui a changé et ce à quoi vous devez faire attention

00:00:08avec ce tout nouveau modèle.

00:00:09Passons donc directement aux benchmarks.

00:00:12Nous avons ici Opus 4.8 mis en évidence

00:00:14et comparé à Opus 4.7, GPT 5.5 et Gemini 3.1 Pro,

00:00:20Opus les surpasse pratiquement tous dans chaque catégorie

00:00:24à l'exception du codage agentique en terminal,

00:00:26qui correspond au Terminal Bench 2.1.

00:00:28Là, il obtient un score de 74,6,

00:00:30ce qui représente tout de même un grand bond en avant par rapport à Opus 4.7,

00:00:34tout en restant derrière GPT 5.5.

00:00:37Mais pour tout le reste, le SWE Bench Pro,

00:00:40le raisonnement multidisciplinaire, l'utilisation informatique agentique,

00:00:42le travail intellectuel, ainsi que l'analyse financière agentique,

00:00:45il devance le reste du groupe.

00:00:47Maintenant, nous prenons tous les benchmarks avec beaucoup de recul

00:00:49à ce stade, mais il est agréable de voir ces grandes avancées

00:00:53par rapport à ce qu'ils ont rapporté avec Opus 4.7,

00:00:56il n'y a pas si longtemps.

00:00:57Je veux dire, quoi, c'était il y a quelques mois seulement,

00:00:58la version 4.7 était sortie et nous avons déjà la 4.8

00:01:01et nous passons de 64 à 69 sur le codage agentique.

00:01:04Franchement, c'est du bon travail.

00:01:05Maintenant, l'une des grandes améliorations de la 4.8 par rapport à la 4.7,

00:01:08selon Anthropic, c'est son honnêteté.

00:01:11Et par honnêteté, nous voulons dire que ce modèle d'IA,

00:01:14quand vous lui demandez de faire quelque chose,

00:01:15s'il ne peut pas le faire ou s'il ne l'a pas fait,

00:01:18il vous le dira vraiment.

00:01:19C'est un point très important

00:01:20si vous avez utilisé ces modèles

00:01:22ces dernières années,

00:01:22où vous lui demandez de faire quelque chose comme,

00:01:24hé, regarde cette transcription géante

00:01:27et lis-la vraiment et dis-moi ce que tu as fait.

00:01:29Et puis, quand vous regardez son résultat

00:01:31et que vous l'interrogez réellement,

00:01:32il dira quelque chose comme,

00:01:33eh bien, je l'ai juste résumée en fait.

00:01:35Je n'ai pas tout lu.

00:01:35C'est un problème majeur.

00:01:37Et si vous utilisez l'IA pour un travail sérieux,

00:01:40vous savez à quel point il est important de créer tous ces tests,

00:01:42pour vraiment s'assurer qu'elle fait ce qu'elle dit qu'elle fait.

00:01:46Mais Anthropic dit,

00:01:47hé, ce n'est peut-être plus autant un problème avec la 4.8

00:01:50par rapport aux modèles précédents.

00:01:51Plus précisément, ils disent,

00:01:52selon leurs évaluations,

00:01:54que vous pouvez consulter dans leur fiche système,

00:01:56qui fait environ 250 pages,

00:01:59ils disent qu'Opus 4.8

00:02:01est environ quatre fois moins susceptible que son prédécesseur

00:02:04de laisser passer sans remarque des défauts dans le code qu'il a écrit.

00:02:07Donc, encore une fois, elle sera beaucoup plus honnête

00:02:09sur ce qui ne fonctionne pas par rapport à ce qui fonctionne,

00:02:12et elle ne va pas vous manipuler.

00:02:13Ils évaluent également que la 4.8 a des taux de comportement désaligné

00:02:16comme la tromperie ou la coopération avec une utilisation abusive

00:02:18qui sont substantiellement inférieurs à ceux d'Opus 4.7

00:02:21et similaires à Mythos.

00:02:24Et vous pouvez voir ce comportement désaligné juste ici

00:02:25où Opus 4.7 et surtout Sonnet 4.6

00:02:28avaient certaines de ces tendances,

00:02:31et nous ne voyons pas vraiment cela autant avec Mythos

00:02:33ou Opus 4.8.

00:02:35Maintenant, au-delà du modèle lui-même,

00:02:36il y a quelques autres mises à jour qu'Anthropic a mises en avant.

00:02:39La première concerne les flux de travail dynamiques.

00:02:41Maintenant, les flux de travail dynamiques sont similaires aux objectifs.

00:02:43L'idée est que nous pouvons maintenant confier à Claude Code

00:02:45une tâche très complexe,

00:02:47et il va y travailler au fil du temps,

00:02:50en générant des dizaines à des centaines d'agents parallèles

00:02:52au cours d'une seule session

00:02:53pour s'assurer que le travail est réellement terminé.

00:02:56Comme vous le savez bien, il y a beaucoup de problèmes

00:02:57qui, même si vous faites quelque chose en mode plan

00:02:59et que vous le divisez en plusieurs tâches,

00:03:00sont tout simplement trop lourds pour Claude Code à gérer en une fois.

00:03:03Ces flux de travail dynamiques sont la réponse à ce problème,

00:03:05et je ferai une analyse approfondie

00:03:06des flux de travail dynamiques très prochainement.

00:03:09Mais si vous voulez essayer aujourd'hui,

00:03:11il y a deux vraies options.

00:03:12La première consiste à utiliser un langage simple

00:03:13et à dire, hé, Claude, crée un flux de travail dynamique,

00:03:15ou à activer le nouveau paramètre spécifique à Claude Code

00:03:18appelé UltraCode.

00:03:20Un autre grand changement pour Claude.ai,

00:03:22le chatbot et cowork actuel,

00:03:24ce n'est pas vraiment le cas avec le code,

00:03:26c'est qu'ils ont maintenant plus de contrôles

00:03:27lorsqu'il s'agit de choisir combien d'efforts

00:03:30Claude met dans la réponse, n'est-ce pas ?

00:03:31Nous avions cela avec Claude Code depuis un moment

00:03:33avec des niveaux comme élevé, extra élevé et max.

00:03:35Eh bien, c'est maintenant à l'intérieur de choses

00:03:36comme Claude.ai et cowork.

00:03:38Et enfin, si vous êtes quelqu'un

00:03:39qui a utilisé l'API Messages,

00:03:41elle accepte maintenant des entrées système dans le tableau de messages.

00:03:44C'est vraiment agréable

00:03:45car vous pouvez mettre à jour les instructions de Claude en pleine tâche.

00:03:47C'est assez similaire à Codex

00:03:50et à la fonction diriger

00:03:51par rapport à la fonction file d'attente

00:03:52quand vous lui donnez une invite supplémentaire.

00:03:54À noter, Opus définit aussi par défaut un effort élevé,

00:03:57pas extra élevé.

00:03:59Rappelez-vous avec Opus 4.7

00:04:00où ils nous ont montré ce graphique,

00:04:01ils nous disaient,

00:04:03hé, extra élevé, c'est là que vous voulez aller.

00:04:05Alors comprenez simplement que la 4.8 est sur élevé

00:04:07et qu'il vous reste deux niveaux au-dessus

00:04:09si vous voulez obtenir un peu plus d'efforts

00:04:11de ce nouveau modèle.

00:04:12Et si vous vous interrogez sur l'utilisation des jetons,

00:04:14ils ont augmenté les limites de débit dans Claude Code

00:04:16pour tenir compte de l'utilisation plus élevée des jetons

00:04:18des niveaux d'effort plus élevés,

00:04:20ce qui est vraiment agréable.

00:04:21Voilà votre aperçu rapide

00:04:22du tout nouveau Claude Opus 4.8.

00:04:24N'oubliez pas qu'il a exactement la même tarification

00:04:25qu'Opus 4.7,

00:04:26donc vous ne payez rien de plus

00:04:28pour cette nouvelle puissance.

00:04:29Comme toujours, faites-moi savoir ce que vous en pensez.

00:04:31Assurez-vous de consulter Chase AI Plus

00:04:33dans le commentaire épinglé

00:04:34si vous voulez mettre la main

00:04:35sur ma Masterclass Claude Code

00:04:36et je vous verrai bientôt.

Key Takeaway

Claude Opus 4.8 améliore significativement la fiabilité et les capacités de résolution de tâches complexes grâce à l'introduction de flux de travail dynamiques et une réduction marquée des erreurs de code sans augmentation de prix.

Highlights

Claude Opus 4.8 surpasse ses concurrents GPT 5.5 et Gemini 3.1 Pro dans le raisonnement multidisciplinaire, l'analyse financière agentique et le travail intellectuel.
Le score de codage agentique de 74,6 marque une progression par rapport aux 69 obtenus par la version 4.7.
Le taux d'omission de défauts dans le code généré est divisé par quatre par rapport à la version précédente.
Les flux de travail dynamiques permettent de traiter des tâches complexes en générant des dizaines à des centaines d'agents parallèles en une seule session.
La tarification reste identique à celle du modèle Opus 4.7 malgré les gains de performance.
L'entrée système est désormais prise en charge dans l'API Messages, permettant des ajustements d'instructions en cours de tâche.

Timeline

Performances et benchmarks de Claude Opus 4.8

Opus 4.8 domine la majorité des catégories de référence face à GPT 5.5 et Gemini 3.1 Pro.
Le modèle atteint un score de 74,6 au Terminal Bench 2.1.
Les progrès en codage agentique progressent de 64 à 69 points en quelques mois.

Le modèle 4.8 montre une supériorité sur Opus 4.7, GPT 5.5 et Gemini 3.1 Pro dans presque tous les domaines, incluant le SWE Bench Pro et le raisonnement multidisciplinaire. Bien qu'il reste légèrement derrière GPT 5.5 dans le Terminal Bench, il enregistre une avancée majeure par rapport à la version précédente.

Fiabilité, honnêteté et alignement du modèle

La capacité d'auto-évaluation du modèle est renforcée, réduisant la manipulation et les réponses inexactes.
Le taux de défauts non remarqués dans le code produit est quatre fois inférieur à celui du prédécesseur.
Les comportements désalignés comme la tromperie sont substantiellement réduits, atteignant des niveaux similaires au modèle Mythos.

Une amélioration fondamentale réside dans l'honnêteté du modèle : il signale désormais plus efficacement ses propres limites ou l'incapacité à accomplir une tâche spécifique. Ces résultats, documentés dans une fiche système de 250 pages, confirment une baisse significative des comportements problématiques par rapport aux versions 4.7 et Sonnet 4.6.

Flux de travail dynamiques et nouvelles fonctionnalités

Les flux de travail dynamiques permettent d'exécuter des tâches trop lourdes pour une seule requête via des agents parallèles.
Le paramètre UltraCode active la gestion avancée des sessions de travail complexes.
La nouvelle structure de l'API Messages permet de modifier les instructions système en temps réel durant l'exécution.

Le système propose désormais une approche par objectifs où Claude Code gère des dizaines ou centaines d'agents en parallèle. De nouveaux contrôles d'effort (élevé, extra élevé, max) sont intégrés à Claude.ai et aux espaces de travail, tandis que les limites de débit sont augmentées pour supporter cette intensité de traitement.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video