Opus 4.7 est GÉNIAL (sauf pour la consommation de tokens)

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Le nouveau meilleur modèle est arrivé : Opus 4.7. C'est visiblement
00:00:05une mise à jour majeure. Il est meilleur en code, en vision,
00:00:09en auto-vérification, et plus créatif pour les interfaces (UI).
00:00:12Le bémol : bien que le coût n'ait pas changé, le tokenizer si.
00:00:17Le même prompt peut consommer jusqu'à 35 % de tokens en plus,
00:00:22car il réfléchit davantage. Analysons les détails de cette sortie
00:00:26et les changements pour Claude Code. Plongeons dans le vif du sujet
00:00:30pour voir ce qui change et le tester.
00:00:31Commençons par les benchmarks. J'ai un peu menti tout à l'heure
00:00:40en disant que c'était le meilleur modèle. C'est le meilleur public,
00:00:44mais les benchmarks incluent Mythos, un modèle encore inaccessible.
00:00:47Selon Anthropic, Opus 4.7 teste de nouvelles protections contre
00:00:52les usages cyber à haut risque. Ce qu'ils en apprendront
00:00:56aidera au lancement des modèles de classe Mythos.
00:01:00J'espère faire une vidéo sur Mythos bientôt, car c'est la fin
00:01:03du développement tel qu'on le connaît. Abonnez-vous pour ça.
00:01:06Pour l'instant, oublions Mythos et concentrons-nous sur
00:01:10Opus 4.7, qui a fait d'énormes progrès sur les benchmarks.
00:01:13Je ne détaillerai pas tout ici, mettez sur pause pour lire
00:01:16chaque chiffre. Sur SWE Bench Pro, il fait un bond de 10 %
00:01:21par rapport à Opus 4.6, et 7 % sur la version vérifiée.
00:01:26C'est pareil partout, sauf en cybersécurité où il baisse un peu,
00:01:30à cause des protections mentionnées plus tôt. Ils semblent
00:01:34brider ce score artificiellement pour protéger le monde.
00:01:37J'ai aussi noté un détail étrange dans la fiche technique :
00:01:40les performances sur le long contexte semblent avoir chuté
00:01:45lors du test « needle in a haystack » par rapport à la 4.6.
00:01:50Curieux de voir l'impact à l'usage. Voyons d'autres améliorations
00:01:54notables qui pourraient changer votre façon d'utiliser Claude.
00:01:58D'abord, il suit mieux les instructions. Cela peut donner
00:02:01des résultats inattendus avec vos anciens prompts. Avant,
00:02:07il était plus souple, alors qu'Opus 4.7 est très littéral.
00:02:11Ensuite, le support multimodal est amélioré : les images
00:02:16peuvent avoir une résolution trois fois supérieure.
00:02:20L'usage de la mémoire est aussi optimisé. Opus 4.7 devrait
00:02:25mieux mémoriser les notes importantes sur plusieurs sessions,
00:02:30nécessitant ainsi moins de contexte initial pour les nouvelles tâches.
00:02:34C'est crucial, car le tokenizer et la réflexion ont changé.
00:02:39Le nouveau tokenizer améliore le traitement du texte,
00:02:45mais le même prompt peut coûter jusqu'à 35 % plus cher.
00:02:49Comme Opus 4.7 réfléchit davantage à haut niveau d'effort,
00:02:54il va consommer beaucoup de tokens. Pour couronner le tout,
00:02:58un nouveau niveau d'effort « extra high » est par défaut
00:03:02dans Claude Code. Je vous conseille de tester les différents
00:03:05niveaux pour voir si vous pouvez baisser sans perdre en qualité.
00:03:09Le niveau « extra high » consomme environ autant que
00:03:14le maximum d'Opus 4.6, mais le niveau « high » d'Opus 4.7
00:03:19surpasse le max d'Opus 4.6 en utilisant moins de tokens.
00:03:24Comparez bien les graphiques. Personnellement, je vais passer
00:03:27au niveau « high » dans la plupart des cas.
00:03:31Fin du résumé, passons aux tests réels. D'abord, l'UI Design :
00:03:35je lui ai demandé de créer un site de café avec un seul fichier
00:03:40index.html, au niveau d'effort maximum pour tous les modèles :
00:03:43Opus 4.7, 4.6, Gemini 3.1 et GPT 5.4. Voici le résultat d'Opus 4.7.
00:03:51C'est plutôt réussi, on sent bien l'ambiance café. La police
00:03:55est bien choisie, les images viennent d'Unsplash. Rien à redire.
00:03:59C'est simple, le menu est propre, tout est responsive.
00:04:04Comparé à Opus 4.6, le style est différent. La police
00:04:09et le menu sont similaires, mais le rendu global est moins bon :
00:04:12l'arrière-plan n'est pas top et le dégradé est un peu brutal.
00:04:16Opus 4.7 est clairement un cran au-dessus.
00:04:20Par contre, Gemini 3.1 m'a donné le meilleur résultat.
00:04:25C'est mon préféré. Dites-moi en commentaire ce que vous en pensez.
00:04:29J'adore le fond fixe lors du défilement. La section image
00:04:33et l'histoire sont très réussies, le menu est bien agencé,
00:04:36tout comme le pied de page. Gemini 3.1 gagne sur ce coup.
00:04:40En dernière place : GPT 5.4. On reconnaît tout de suite le style
00:04:45GPT avec ses cartes et ses effets de flou. Selon moi,
00:04:50ce n'est pas un bon site de café. On dirait n'importe quelle
00:04:55autre application GPT déjà vue mille fois.
00:04:59Opus 4.7 est bon en UI et fera encore mieux avec plus
00:05:04de directives. Pour l'instant, Opus 4.6 mène encore l'arène
00:05:09des sites web, mais la 4.7 devrait bientôt prendre sa place.
00:05:13C'était un test simple. Passons à quelque chose de plus complexe.
00:05:17Je demande à Claude Code et Opus 4.6 un tableau de bord
00:05:21de gestion de finances personnelles avec de nombreuses
00:05:25fonctionnalités, sans préciser la stack technique.
00:05:30Voici le résultat d'Opus 4.7, réalisé en un seul prompt
00:05:34en 20 minutes environ. Ma première réaction : Wow !
00:05:39C'est magnifique. L'UI est épurée, les graphiques sont top,
00:05:44la mise en page et les couleurs sont parfaites. Franchement,
00:05:48je n'aurais pas fait mieux. Le travail sur l'interface
00:05:53est fantastique. Toutes les pages demandées sont là :
00:05:57comptes, transactions, budgets... On ne peut pas encore
00:06:02ajouter de budgets ou d'objectifs via l'interface, mais
00:06:05on peut modifier les objectifs existants et l'API backend
00:06:10se met à jour. Ça fonctionne aussi pour les virements.
00:06:14Si je paie mon abonnement Claude Code, l'envoi réussit,
00:06:17ma valeur nette est mise à jour sur le tableau de bord,
00:06:22et une base de données gère ça en arrière-plan.
00:06:26La transaction apparaît bien dans l'historique récent.
00:06:30Côté code, c'est propre : React et Vite pour le frontend,
00:06:34comme je l'aurais fait. Il a utilisé React Router,
00:06:38peut-être que TanStack aurait été mieux, mais les deux
00:06:42se valent. Les composants UI sont bien organisés.
00:06:46Le seul point négatif est le backend : un serveur Express.
00:06:51Rien de grave, mais j'aurais préféré Bun ou Hono pour
00:06:54une application aussi simple. De plus, les données
00:06:59sont stockées en mémoire. Si je redémarre le serveur,
00:07:04il recharge le script de test et des tableaux locaux.
00:07:08Il n'y a pas de vraie base de données persistante.
00:07:13Pour Opus 4.6, Opus 4.7 gagne haut la main sur l'UI.
00:07:18Il y a un truc que je n'aime pas dans cette interface.
00:07:21Trop de marges ? Le mode clair alors que l'autre était sombre ?
00:07:24Je préfère nettement la version 4.7. Les composants sont
00:07:29similaires : cartes de valeur nette, graphiques, transactions,
00:07:33objectifs financiers et pages dédiées.
00:07:38Testons les fonctionnalités : j'ajoute une transaction
00:07:42de 150 $ pour les courses. Elle apparaît bien
00:07:46et ma valeur nette est mise à jour. Ça marche.
00:07:50Un point où la 4.6 bat peut-être la 4.7 sur un seul prompt :
00:07:54je peux ajouter des comptes, des objectifs et des budgets.
00:07:58J'ai pu ajouter un budget « éducation » facilement.
00:08:03Opus 4.6 a donc inclus plus de fonctionnalités de base,
00:08:07mais j'aurais pu simplement demander à la 4.7 de les ajouter.
00:08:12Côté code, Opus 4.6 utilise aussi React et Vite, mais
00:08:16avec React 19 et React Router 7, alors qu'Opus 4.7
00:08:20est resté sur React 18 et React Router 6, malgré
00:08:27ses connaissances plus récentes. Autre point pour la 4.6 :
00:08:32une vraie base de données SQLite pour la persistance.
00:08:36C'est une victoire sur ce point, mais il a utilisé
00:08:40du JavaScript partout, alors qu'Opus 4.7 a utilisé TypeScript.
00:08:45Passons à GPT 5.4... Honnêtement, je ne comprends pas.
00:08:50L'interface n'est pas utilisable, c'est fouillis et moche.
00:08:55La police est désagréable, je ne vais pas m'y attarder.
00:08:59C'est bien en dessous des résultats de Claude.
00:09:03Ajouter de l'argent fonctionne, mais ça rafraîchit toute la page.
00:09:07Le code n'est pas mieux : GPT 5.4 n'a pas voulu créer
00:09:11un projet complet. Il a fait au plus simple avec
00:09:14un index.html, un fichier JS et du CSS.
00:09:19Pas de base de données non plus, tout est en mémoire,
00:09:23et tout est en JavaScript au lieu de TypeScript.
00:09:28Quant à Gemini 3.1, j'ai eu beaucoup de mal à lancer
00:09:32l'application. J'ai dû envoyer plusieurs prompts de suivi.
00:09:36Au final, l'UI ressemble beaucoup à celle d'Opus 4.6.
00:09:41Peut-être ont-ils les mêmes données d'entraînement ?
00:09:45Mais rien ne fonctionne, les onglets ne sont pas cliquables.
00:09:50Gemini 3.1 s'en sort le moins bien, avec GPT 5.4 juste derrière.
00:09:54Pourtant, Gemini 3.1 avait une bonne approche technique :
00:09:59il a choisi Next.js, ce qui est intelligent pour gérer
00:10:02les routes API dans une application simple.
00:10:07Mais il a utilisé Prisma, alors que je préfère Drizzle.
00:10:10Ces tests m'ont surpris. J'utilisais beaucoup Codex
00:10:15en délaissant Claude Code, mais Opus 4.7 va me faire revenir.
00:10:19L'UI est superbe et l'appli fonctionne globalement.
00:10:24Bien sûr, tout dépend de la qualité du prompt. Ici,
00:10:28j'étais vague, mais le résultat reste impressionnant.
00:10:32Et vous, quel est votre modèle préféré en ce moment ?
00:10:36Dites-le-moi en commentaire, abonnez-vous et à bientôt
00:10:49pour la prochaine vidéo.

Key Takeaway

Opus 4.7 s'impose comme le leader de la conception d'interfaces utilisateur et du codage fonctionnel malgré une augmentation de 35 % du coût en tokens et une approche plus littérale des instructions.

Highlights

Le modèle Opus 4.7 consomme jusqu'à 35 % de tokens supplémentaires par rapport à la version 4.6 en raison d'un nouveau tokenizer et d'une réflexion accrue.

L'interface utilisateur générée par Opus 4.7 surpasse ses concurrents avec un design épuré en TypeScript et des graphiques parfaitement intégrés.

La résolution des images prises en charge par les capacités multimodales d'Opus 4.7 est trois fois supérieure à celle de la génération précédente.

Les performances en cybersécurité diminuent artificiellement pour intégrer des protections contre les usages cyber à haut risque.

Opus 4.7 utilise React 18 et React Router 6 pour le code frontal, tandis qu'Opus 4.6 privilégie des versions plus récentes comme React 19.

Le test « needle in a haystack » révèle une baisse inattendue des performances sur les contextes longs par rapport au modèle 4.6.

Timeline

Capacités techniques et nouveaux benchmarks

  • Opus 4.7 progresse de 10 % sur le benchmark SWE Bench Pro par rapport à la version 4.6.
  • Les scores en cybersécurité sont volontairement bridés pour tester des protections destinées aux futurs modèles de classe Mythos.
  • La précision lors de la recherche d'informations dans de longs documents affiche une régression notable.

Les benchmarks placent Opus 4.7 en tête des modèles publics actuels, juste derrière le modèle non publié Mythos. L'amélioration du codage et de la vision s'accompagne d'une sécurité renforcée contre les cyberattaques. Cette version privilégie la fiabilité des résultats au détriment de la performance pure dans les contextes extrêmement longs.

Optimisation du tokenizer et gestion des tokens

  • Le nouveau tokenizer augmente la consommation de ressources jusqu'à 35 % pour un prompt identique.
  • Le niveau d'effort « high » d'Opus 4.7 surpasse le mode maximum d'Opus 4.6 tout en utilisant moins de tokens.
  • La mémoire optimisée réduit le besoin de contexte initial lors des sessions de travail multiples.

L'évolution du traitement du texte rend le modèle beaucoup plus littéral dans le suivi des instructions. Un nouveau palier d'effort nommé « extra high » devient le standard par défaut dans Claude Code pour maximiser la réflexion. L'optimisation de la mémoire permet de conserver les notes importantes plus efficacement entre les différentes tâches.

Comparatif de design d'interface web

  • Opus 4.7 produit des sites web responsives avec une typographie soignée et des images intégrées via Unsplash.
  • Gemini 3.1 offre un meilleur rendu esthétique global grâce à des effets visuels comme l'arrière-plan fixe.
  • GPT 5.4 arrive en dernière position avec une interface générique composée de cartes et d'effets de flou répétitifs.

Le test de création d'un site de café révèle qu'Opus 4.7 améliore nettement le rendu visuel par rapport à Opus 4.6, notamment sur les dégradés et la mise en page. Bien que Gemini 3.1 gagne sur l'aspect purement visuel, Opus 4.7 reste le plus fonctionnel pour les sites nécessitant une structure propre. GPT 5.4 échoue à proposer une identité visuelle originale.

Développement d'applications complexes et architecture code

  • Opus 4.7 génère un tableau de bord financier complet et esthétique en seulement 20 minutes.
  • Le code produit utilise TypeScript pour le frontend mais s'appuie sur un stockage de données temporaire en mémoire.
  • Opus 4.6 intègre nativement une base de données persistante SQLite contrairement à son successeur.

L'application de finances personnelles créée par Opus 4.7 inclut la gestion des transactions, des comptes et des budgets avec une mise à jour en temps réel de la valeur nette. Sur le plan technique, le modèle privilégie React 18 et Express, tandis qu'Opus 4.6 choisit des versions de librairies plus récentes. La version 4.6 se distingue également par sa capacité à inclure davantage de fonctionnalités interactives dès le premier prompt.

Analyse comparative des modèles concurrents

  • GPT 5.4 échoue à créer un projet structuré et se limite à des fichiers JavaScript basiques sans base de données.
  • Gemini 3.1 propose une architecture Next.js pertinente mais livre une application non fonctionnelle aux onglets inactifs.
  • Opus 4.7 s'établit comme le choix préférentiel pour le développement rapide d'outils grâce à la qualité de ses composants UI.

Les tests sur GPT 5.4 montrent une régression avec une interface désagréable et un code qui nécessite de nombreux rafraîchissements de page. Gemini 3.1, malgré un choix technologique moderne avec Prisma, ne parvient pas à fournir un résultat cliquable ou stable. Opus 4.7 compense sa consommation élevée de tokens par une supériorité technique et visuelle immédiate.

Community Posts

View all posts