Claude a sorti Opus 4.7 et il n'y a même pas de comparaison

CChase AI
Computing/SoftwareBusiness NewsConsumer ElectronicsInternet Technology

Transcript

00:00:00Opus 4.7 vient de sortir et, selon les chiffres,
00:00:04c'est une mise à jour massive. Alors, plongeons-y. D'abord,
00:00:08les benchmarks. Ils affichent Mythos ici à droite,
00:00:12juste pour nous taquiner sur ce qui existe déjà.
00:00:15Mais je veux surtout comparer 4.7 à 4.6 car on ignore
00:00:20quand Mythos sera disponible et, d'après les chiffres,
00:00:23c'est un bond en avant très solide, surtout pour le code.
00:00:28En regardant le codage agentique, on passe de 53 à 64,
00:00:32de 80 à 87,
00:00:34puis de 65 à 69 sur les trois tests majeurs : SWE-bench
00:00:39Pro, SWE-bench Verified et Terminal Bench 2.0.
00:00:42Les seuls points où les benchmarks d'Opus 4.7
00:00:46ne sont pas au-dessus de tous les autres modèles,
00:00:49excepté Mythos, c'est la recherche agentique face à GPT 5.4.
00:00:54Il est à 89,3 contre Opus 4.7,
00:00:57qui a curieusement baissé par rapport à la 4.6, ce qui,
00:01:01quand on voit des choses pareilles,
00:01:02où les benchmarks sont inférieurs à ceux d'Opus 4.6,
00:01:06on se demande s'ils ne les insèrent pas exprès. Genre : « Non,
00:01:08ces tests sont légitimes. On ne mentirait pas. Regardez ça. »
00:01:11Euh,
00:01:12mais 5.4 est devant en recherche agentique et en raisonnement
00:01:17de niveau universitaire. Un autre progrès massif est la vision.
00:01:21On passe ainsi de 69 à 82,
00:01:25et cela pourrait être lié au fait que ce modèle a une bien meilleure
00:01:29vision.
00:01:29Ils nous disent que les images soumises à Opus 4.7 ont désormais
00:01:34une résolution 3x plus élevée, ce qui est énorme.
00:01:36Si vous travaillez sur des schémas ou du texte minuscule,
00:01:38et on voit ces mêmes tendances dans ces graphiques.
00:01:42Améliorations du travail intellectuel, de la vision, bond en analyse de documents,
00:01:46de 57,1 à 80,6, ce qui est un énorme plus.
00:01:50Si vous utilisez un outil comme CoWork,
00:01:52que vous l'utilisez au bureau et passez vos journées à lui
00:01:55fournir des documents. Le raisonnement sur long contexte est crucial.
00:01:57On insiste souvent sur cette chaîne sur la dégradation du contexte
00:02:02et l'importance de la gestion de session. Ça ne change pas.
00:02:07Passer de 71 à 75, c'est bien.
00:02:09Mais restez agressifs sur la purge de l'historique : dès que
00:02:13vous atteignez 20 ou 25 % de la fenêtre, purgez. Mais c'est un progrès.
00:02:17On aime voir ça. Et celui-ci est aussi intéressant.
00:02:19Ce benchmark de code lié au multimodal. Ils codent,
00:02:22mais cela inclut aussi l'envoi de contextes contenant
00:02:25des images. Ce n'est pas une surprise,
00:02:28et je pense que c'est lié en grande partie à la résolution.
00:02:30Au-delà du modèle, il y a eu quelques autres mises à jour.
00:02:32La principale est un meilleur contrôle de l'effort. Il y a un niveau « X High »,
00:02:37probablement emprunté à OpenAI, entre High et Max.
00:02:40De plus, Claude Code passe par défaut en « Extra High ».
00:02:44C'est sans doute une réponse aux critiques affirmant qu'Opus 4.6
00:02:48était bridé. Boris Cherny, le créateur d'Opus... enfin non, pas
00:02:52d'Opus, le créateur de Claude Code, a déclaré :
00:02:54« En fait, nous avions passé le niveau d'effort par défaut
00:02:58à Medium. » Donc, le fait de sortir le « X High »,
00:03:01est selon moi une réponse pour le rendre « meilleur »
00:03:05et plus persévérant, sans forcer le « Max » pour éviter que
00:03:10les gens ne se plaignent d'un épuisement trop rapide du forfait.
00:03:12Et n'oubliez pas,
00:03:13pour changer cela, tapez simplement /effort puis votre niveau.
00:03:16La haute résolution est aussi disponible sur l'API.
00:03:19Et ils ont aussi lancé la nouvelle commande /ultra-review.
00:03:24Cela permet d'avoir une session de révision dédiée.
00:03:28Ils ont également étendu le mode Auto. Si vous ne connaissez pas,
00:03:31c'est juste une alternative à l'option risquée d'ignorer les permissions.
00:03:34Un point à noter : Opus 4.7 va consommer plus de tokens
00:03:39que la version 4.6.
00:03:40Ils précisent qu'Opus 4.7 utilise un tokenizer mis à jour qui
00:03:45améliore le traitement du texte, mais cela augmente les tokens d'entrée
00:03:50d'environ 1 à 1,35 fois, selon le type de contenu.
00:03:54Deuxièmement, Opus 4.7 réfléchit plus aux niveaux d'effort élevés.
00:03:58Gardez-le en tête : l'effort par défaut est désormais « Extra High »
00:04:03alors qu'il était sur Medium, et Opus 4.7 consomme plus.
00:04:07Si vous étiez sur Medium tout ce temps,
00:04:09sans jamais changer, et que vous atteigniez déjà les limites
00:04:13sur la 4.6, méfiez-vous. Vous pourriez avoir des soucis de quota.
00:04:18Si vous êtes déjà dans ce cas,
00:04:19sachez qu'il va maintenant consommer encore plus de tokens.
00:04:21Fait intéressant : ils ont aussi supprimé la pensée étendue.
00:04:25Si vous voulez approfondir cette migration,
00:04:28ils ont publié un guide complet dans la documentation.
00:04:30Globalement, cela semble être une mise à jour très solide.
00:04:32Et j'ai hâte de m'y mettre pour la tester moi-même.

Key Takeaway

Opus 4.7 surpasse la version 4.6 grâce à une résolution visuelle 3x supérieure et des gains de performance en codage atteignant 87 % sur SWE-bench Verified, malgré une consommation de tokens accrue de 35 %.

Highlights

Les scores de codage agentique d'Opus 4.7 grimpent à 64 sur SWE-bench Pro et 87 sur SWE-bench Verified.

La résolution des images soumises au modèle est désormais 3 fois plus élevée pour l'analyse de schémas et de textes minuscules.

L'analyse de documents progresse de 57,1 % à 80,6 % dans les derniers tests de performance.

Le niveau d'effort par défaut passe de Medium à Extra High pour augmenter la persévérance du modèle lors du codage.

L'utilisation d'Opus 4.7 augmente la consommation de tokens d'entrée de 1 à 1,35 fois par rapport à la version 4.6.

Le nouveau tokenizer et les niveaux d'effort élevés entraînent un épuisement plus rapide des quotas d'utilisation.

Timeline

Performances comparatives et benchmarks de codage

  • Le passage de la version 4.6 à 4.7 marque une progression de 53 à 64 points sur le benchmark SWE-bench Pro.
  • Le modèle atteint 69 points sur Terminal Bench 2.0 contre 65 précédemment.
  • GPT 5.4 conserve une avance en recherche agentique avec un score de 89,3 contre 84,2 pour Opus 4.7.

Les tests de codage agentique montrent une solidité accrue dans l'exécution de tâches complexes. La version 4.7 affiche une légère baisse volontaire ou technique en recherche agentique par rapport à la 4.6. Ces chiffres positionnent le modèle juste derrière Mythos, dont la date de sortie reste inconnue.

Capacités de vision et analyse documentaire

  • La précision visuelle globale augmente de 13 points pour atteindre un score de 82.
  • L'analyse de documents complexes bondit de 23,5 points grâce à la haute résolution.
  • Le raisonnement sur long contexte s'améliore légèrement en passant de 71 à 75 %.

L'augmentation par trois de la résolution native permet au modèle de traiter des détails auparavant illisibles dans les schémas techniques. Cette amélioration profite directement au codage multimodal où des images servent de contexte au texte. La gestion de la session reste primordiale avec une recommandation de purge de l'historique dès que 25 % de la fenêtre contextuelle est atteinte.

Nouveaux contrôles d'effort et mises à jour de l'interface

  • La commande /effort introduit le niveau Extra High entre les réglages High et Max.
  • Claude Code adopte le niveau Extra High par défaut pour corriger le manque de persévérance de la version 4.6.
  • La fonction /ultra-review active une session dédiée à la révision critique du contenu.

Le réglage Extra High vise un équilibre entre la résolution de problèmes difficiles et la conservation des ressources. Cette modification répond aux critiques sur le bridage ressenti des versions antérieures qui utilisaient le niveau Medium par défaut. L'API supporte désormais la haute résolution pour les développeurs externes.

Impact sur la consommation de tokens et modifications techniques

  • Le nouveau tokenizer augmente le volume de tokens d'entrée jusqu'à 35 % selon le contenu.
  • Le mode de pensée étendue est supprimé dans cette mise à jour 4.7.
  • Le niveau d'effort Extra High génère une réflexion interne plus longue et coûteuse.

L'amélioration du traitement du texte via le nouveau tokenizer a un coût direct sur les limites de quota des utilisateurs. Les utilisateurs habitués aux limites de la version 4.6 risquent de saturer leurs forfaits plus rapidement. La documentation officielle détaille les étapes de migration pour les utilisateurs de l'API impactés par ces changements.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video