00:00:00Le nouveau meilleur modèle est arrivé : Opus 4.7. C'est visiblement
00:00:05une mise à jour majeure. Il est meilleur en code, en vision,
00:00:09en auto-vérification, et plus créatif pour les interfaces (UI).
00:00:12Le bémol : bien que le coût n'ait pas changé, le tokenizer si.
00:00:17Le même prompt peut consommer jusqu'à 35 % de tokens en plus,
00:00:22car il réfléchit davantage. Analysons les détails de cette sortie
00:00:26et les changements pour Claude Code. Plongeons dans le vif du sujet
00:00:30pour voir ce qui change et le tester.
00:00:31Commençons par les benchmarks. J'ai un peu menti tout à l'heure
00:00:40en disant que c'était le meilleur modèle. C'est le meilleur public,
00:00:44mais les benchmarks incluent Mythos, un modèle encore inaccessible.
00:00:47Selon Anthropic, Opus 4.7 teste de nouvelles protections contre
00:00:52les usages cyber à haut risque. Ce qu'ils en apprendront
00:00:56aidera au lancement des modèles de classe Mythos.
00:01:00J'espère faire une vidéo sur Mythos bientôt, car c'est la fin
00:01:03du développement tel qu'on le connaît. Abonnez-vous pour ça.
00:01:06Pour l'instant, oublions Mythos et concentrons-nous sur
00:01:10Opus 4.7, qui a fait d'énormes progrès sur les benchmarks.
00:01:13Je ne détaillerai pas tout ici, mettez sur pause pour lire
00:01:16chaque chiffre. Sur SWE Bench Pro, il fait un bond de 10 %
00:01:21par rapport à Opus 4.6, et 7 % sur la version vérifiée.
00:01:26C'est pareil partout, sauf en cybersécurité où il baisse un peu,
00:01:30à cause des protections mentionnées plus tôt. Ils semblent
00:01:34brider ce score artificiellement pour protéger le monde.
00:01:37J'ai aussi noté un détail étrange dans la fiche technique :
00:01:40les performances sur le long contexte semblent avoir chuté
00:01:45lors du test « needle in a haystack » par rapport à la 4.6.
00:01:50Curieux de voir l'impact à l'usage. Voyons d'autres améliorations
00:01:54notables qui pourraient changer votre façon d'utiliser Claude.
00:01:58D'abord, il suit mieux les instructions. Cela peut donner
00:02:01des résultats inattendus avec vos anciens prompts. Avant,
00:02:07il était plus souple, alors qu'Opus 4.7 est très littéral.
00:02:11Ensuite, le support multimodal est amélioré : les images
00:02:16peuvent avoir une résolution trois fois supérieure.
00:02:20L'usage de la mémoire est aussi optimisé. Opus 4.7 devrait
00:02:25mieux mémoriser les notes importantes sur plusieurs sessions,
00:02:30nécessitant ainsi moins de contexte initial pour les nouvelles tâches.
00:02:34C'est crucial, car le tokenizer et la réflexion ont changé.
00:02:39Le nouveau tokenizer améliore le traitement du texte,
00:02:45mais le même prompt peut coûter jusqu'à 35 % plus cher.
00:02:49Comme Opus 4.7 réfléchit davantage à haut niveau d'effort,
00:02:54il va consommer beaucoup de tokens. Pour couronner le tout,
00:02:58un nouveau niveau d'effort « extra high » est par défaut
00:03:02dans Claude Code. Je vous conseille de tester les différents
00:03:05niveaux pour voir si vous pouvez baisser sans perdre en qualité.
00:03:09Le niveau « extra high » consomme environ autant que
00:03:14le maximum d'Opus 4.6, mais le niveau « high » d'Opus 4.7
00:03:19surpasse le max d'Opus 4.6 en utilisant moins de tokens.
00:03:24Comparez bien les graphiques. Personnellement, je vais passer
00:03:27au niveau « high » dans la plupart des cas.
00:03:31Fin du résumé, passons aux tests réels. D'abord, l'UI Design :
00:03:35je lui ai demandé de créer un site de café avec un seul fichier
00:03:40index.html, au niveau d'effort maximum pour tous les modèles :
00:03:43Opus 4.7, 4.6, Gemini 3.1 et GPT 5.4. Voici le résultat d'Opus 4.7.
00:03:51C'est plutôt réussi, on sent bien l'ambiance café. La police
00:03:55est bien choisie, les images viennent d'Unsplash. Rien à redire.
00:03:59C'est simple, le menu est propre, tout est responsive.
00:04:04Comparé à Opus 4.6, le style est différent. La police
00:04:09et le menu sont similaires, mais le rendu global est moins bon :
00:04:12l'arrière-plan n'est pas top et le dégradé est un peu brutal.
00:04:16Opus 4.7 est clairement un cran au-dessus.
00:04:20Par contre, Gemini 3.1 m'a donné le meilleur résultat.
00:04:25C'est mon préféré. Dites-moi en commentaire ce que vous en pensez.
00:04:29J'adore le fond fixe lors du défilement. La section image
00:04:33et l'histoire sont très réussies, le menu est bien agencé,
00:04:36tout comme le pied de page. Gemini 3.1 gagne sur ce coup.
00:04:40En dernière place : GPT 5.4. On reconnaît tout de suite le style
00:04:45GPT avec ses cartes et ses effets de flou. Selon moi,
00:04:50ce n'est pas un bon site de café. On dirait n'importe quelle
00:04:55autre application GPT déjà vue mille fois.
00:04:59Opus 4.7 est bon en UI et fera encore mieux avec plus
00:05:04de directives. Pour l'instant, Opus 4.6 mène encore l'arène
00:05:09des sites web, mais la 4.7 devrait bientôt prendre sa place.
00:05:13C'était un test simple. Passons à quelque chose de plus complexe.
00:05:17Je demande à Claude Code et Opus 4.6 un tableau de bord
00:05:21de gestion de finances personnelles avec de nombreuses
00:05:25fonctionnalités, sans préciser la stack technique.
00:05:30Voici le résultat d'Opus 4.7, réalisé en un seul prompt
00:05:34en 20 minutes environ. Ma première réaction : Wow !
00:05:39C'est magnifique. L'UI est épurée, les graphiques sont top,
00:05:44la mise en page et les couleurs sont parfaites. Franchement,
00:05:48je n'aurais pas fait mieux. Le travail sur l'interface
00:05:53est fantastique. Toutes les pages demandées sont là :
00:05:57comptes, transactions, budgets... On ne peut pas encore
00:06:02ajouter de budgets ou d'objectifs via l'interface, mais
00:06:05on peut modifier les objectifs existants et l'API backend
00:06:10se met à jour. Ça fonctionne aussi pour les virements.
00:06:14Si je paie mon abonnement Claude Code, l'envoi réussit,
00:06:17ma valeur nette est mise à jour sur le tableau de bord,
00:06:22et une base de données gère ça en arrière-plan.
00:06:26La transaction apparaît bien dans l'historique récent.
00:06:30Côté code, c'est propre : React et Vite pour le frontend,
00:06:34comme je l'aurais fait. Il a utilisé React Router,
00:06:38peut-être que TanStack aurait été mieux, mais les deux
00:06:42se valent. Les composants UI sont bien organisés.
00:06:46Le seul point négatif est le backend : un serveur Express.
00:06:51Rien de grave, mais j'aurais préféré Bun ou Hono pour
00:06:54une application aussi simple. De plus, les données
00:06:59sont stockées en mémoire. Si je redémarre le serveur,
00:07:04il recharge le script de test et des tableaux locaux.
00:07:08Il n'y a pas de vraie base de données persistante.
00:07:13Pour Opus 4.6, Opus 4.7 gagne haut la main sur l'UI.
00:07:18Il y a un truc que je n'aime pas dans cette interface.
00:07:21Trop de marges ? Le mode clair alors que l'autre était sombre ?
00:07:24Je préfère nettement la version 4.7. Les composants sont
00:07:29similaires : cartes de valeur nette, graphiques, transactions,
00:07:33objectifs financiers et pages dédiées.
00:07:38Testons les fonctionnalités : j'ajoute une transaction
00:07:42de 150 $ pour les courses. Elle apparaît bien
00:07:46et ma valeur nette est mise à jour. Ça marche.
00:07:50Un point où la 4.6 bat peut-être la 4.7 sur un seul prompt :
00:07:54je peux ajouter des comptes, des objectifs et des budgets.
00:07:58J'ai pu ajouter un budget « éducation » facilement.
00:08:03Opus 4.6 a donc inclus plus de fonctionnalités de base,
00:08:07mais j'aurais pu simplement demander à la 4.7 de les ajouter.
00:08:12Côté code, Opus 4.6 utilise aussi React et Vite, mais
00:08:16avec React 19 et React Router 7, alors qu'Opus 4.7
00:08:20est resté sur React 18 et React Router 6, malgré
00:08:27ses connaissances plus récentes. Autre point pour la 4.6 :
00:08:32une vraie base de données SQLite pour la persistance.
00:08:36C'est une victoire sur ce point, mais il a utilisé
00:08:40du JavaScript partout, alors qu'Opus 4.7 a utilisé TypeScript.
00:08:45Passons à GPT 5.4... Honnêtement, je ne comprends pas.
00:08:50L'interface n'est pas utilisable, c'est fouillis et moche.
00:08:55La police est désagréable, je ne vais pas m'y attarder.
00:08:59C'est bien en dessous des résultats de Claude.
00:09:03Ajouter de l'argent fonctionne, mais ça rafraîchit toute la page.
00:09:07Le code n'est pas mieux : GPT 5.4 n'a pas voulu créer
00:09:11un projet complet. Il a fait au plus simple avec
00:09:14un index.html, un fichier JS et du CSS.
00:09:19Pas de base de données non plus, tout est en mémoire,
00:09:23et tout est en JavaScript au lieu de TypeScript.
00:09:28Quant à Gemini 3.1, j'ai eu beaucoup de mal à lancer
00:09:32l'application. J'ai dû envoyer plusieurs prompts de suivi.
00:09:36Au final, l'UI ressemble beaucoup à celle d'Opus 4.6.
00:09:41Peut-être ont-ils les mêmes données d'entraînement ?
00:09:45Mais rien ne fonctionne, les onglets ne sont pas cliquables.
00:09:50Gemini 3.1 s'en sort le moins bien, avec GPT 5.4 juste derrière.
00:09:54Pourtant, Gemini 3.1 avait une bonne approche technique :
00:09:59il a choisi Next.js, ce qui est intelligent pour gérer
00:10:02les routes API dans une application simple.
00:10:07Mais il a utilisé Prisma, alors que je préfère Drizzle.
00:10:10Ces tests m'ont surpris. J'utilisais beaucoup Codex
00:10:15en délaissant Claude Code, mais Opus 4.7 va me faire revenir.
00:10:19L'UI est superbe et l'appli fonctionne globalement.
00:10:24Bien sûr, tout dépend de la qualité du prompt. Ici,
00:10:28j'étais vague, mais le résultat reste impressionnant.
00:10:32Et vous, quel est votre modèle préféré en ce moment ?
00:10:36Dites-le-moi en commentaire, abonnez-vous et à bientôt
00:10:49pour la prochaine vidéo.