00:00:00Opus 4.7 vient de sortir et, selon les chiffres,
00:00:04c'est une mise à jour massive. Alors, plongeons-y. D'abord,
00:00:08les benchmarks. Ils affichent Mythos ici à droite,
00:00:12juste pour nous taquiner sur ce qui existe déjà.
00:00:15Mais je veux surtout comparer 4.7 à 4.6 car on ignore
00:00:20quand Mythos sera disponible et, d'après les chiffres,
00:00:23c'est un bond en avant très solide, surtout pour le code.
00:00:28En regardant le codage agentique, on passe de 53 à 64,
00:00:32de 80 à 87,
00:00:34puis de 65 à 69 sur les trois tests majeurs : SWE-bench
00:00:39Pro, SWE-bench Verified et Terminal Bench 2.0.
00:00:42Les seuls points où les benchmarks d'Opus 4.7
00:00:46ne sont pas au-dessus de tous les autres modèles,
00:00:49excepté Mythos, c'est la recherche agentique face à GPT 5.4.
00:00:54Il est à 89,3 contre Opus 4.7,
00:00:57qui a curieusement baissé par rapport à la 4.6, ce qui,
00:01:01quand on voit des choses pareilles,
00:01:02où les benchmarks sont inférieurs à ceux d'Opus 4.6,
00:01:06on se demande s'ils ne les insèrent pas exprès. Genre : « Non,
00:01:08ces tests sont légitimes. On ne mentirait pas. Regardez ça. »
00:01:11Euh,
00:01:12mais 5.4 est devant en recherche agentique et en raisonnement
00:01:17de niveau universitaire. Un autre progrès massif est la vision.
00:01:21On passe ainsi de 69 à 82,
00:01:25et cela pourrait être lié au fait que ce modèle a une bien meilleure
00:01:29vision.
00:01:29Ils nous disent que les images soumises à Opus 4.7 ont désormais
00:01:34une résolution 3x plus élevée, ce qui est énorme.
00:01:36Si vous travaillez sur des schémas ou du texte minuscule,
00:01:38et on voit ces mêmes tendances dans ces graphiques.
00:01:42Améliorations du travail intellectuel, de la vision, bond en analyse de documents,
00:01:46de 57,1 à 80,6, ce qui est un énorme plus.
00:01:50Si vous utilisez un outil comme CoWork,
00:01:52que vous l'utilisez au bureau et passez vos journées à lui
00:01:55fournir des documents. Le raisonnement sur long contexte est crucial.
00:01:57On insiste souvent sur cette chaîne sur la dégradation du contexte
00:02:02et l'importance de la gestion de session. Ça ne change pas.
00:02:07Passer de 71 à 75, c'est bien.
00:02:09Mais restez agressifs sur la purge de l'historique : dès que
00:02:13vous atteignez 20 ou 25 % de la fenêtre, purgez. Mais c'est un progrès.
00:02:17On aime voir ça. Et celui-ci est aussi intéressant.
00:02:19Ce benchmark de code lié au multimodal. Ils codent,
00:02:22mais cela inclut aussi l'envoi de contextes contenant
00:02:25des images. Ce n'est pas une surprise,
00:02:28et je pense que c'est lié en grande partie à la résolution.
00:02:30Au-delà du modèle, il y a eu quelques autres mises à jour.
00:02:32La principale est un meilleur contrôle de l'effort. Il y a un niveau « X High »,
00:02:37probablement emprunté à OpenAI, entre High et Max.
00:02:40De plus, Claude Code passe par défaut en « Extra High ».
00:02:44C'est sans doute une réponse aux critiques affirmant qu'Opus 4.6
00:02:48était bridé. Boris Cherny, le créateur d'Opus... enfin non, pas
00:02:52d'Opus, le créateur de Claude Code, a déclaré :
00:02:54« En fait, nous avions passé le niveau d'effort par défaut
00:02:58à Medium. » Donc, le fait de sortir le « X High »,
00:03:01est selon moi une réponse pour le rendre « meilleur »
00:03:05et plus persévérant, sans forcer le « Max » pour éviter que
00:03:10les gens ne se plaignent d'un épuisement trop rapide du forfait.
00:03:12Et n'oubliez pas,
00:03:13pour changer cela, tapez simplement /effort puis votre niveau.
00:03:16La haute résolution est aussi disponible sur l'API.
00:03:19Et ils ont aussi lancé la nouvelle commande /ultra-review.
00:03:24Cela permet d'avoir une session de révision dédiée.
00:03:28Ils ont également étendu le mode Auto. Si vous ne connaissez pas,
00:03:31c'est juste une alternative à l'option risquée d'ignorer les permissions.
00:03:34Un point à noter : Opus 4.7 va consommer plus de tokens
00:03:39que la version 4.6.
00:03:40Ils précisent qu'Opus 4.7 utilise un tokenizer mis à jour qui
00:03:45améliore le traitement du texte, mais cela augmente les tokens d'entrée
00:03:50d'environ 1 à 1,35 fois, selon le type de contenu.
00:03:54Deuxièmement, Opus 4.7 réfléchit plus aux niveaux d'effort élevés.
00:03:58Gardez-le en tête : l'effort par défaut est désormais « Extra High »
00:04:03alors qu'il était sur Medium, et Opus 4.7 consomme plus.
00:04:07Si vous étiez sur Medium tout ce temps,
00:04:09sans jamais changer, et que vous atteigniez déjà les limites
00:04:13sur la 4.6, méfiez-vous. Vous pourriez avoir des soucis de quota.
00:04:18Si vous êtes déjà dans ce cas,
00:04:19sachez qu'il va maintenant consommer encore plus de tokens.
00:04:21Fait intéressant : ils ont aussi supprimé la pensée étendue.
00:04:25Si vous voulez approfondir cette migration,
00:04:28ils ont publié un guide complet dans la documentation.
00:04:30Globalement, cela semble être une mise à jour très solide.
00:04:32Et j'ai hâte de m'y mettre pour la tester moi-même.