Le nouveau meilleur modèle est arrivé (GPT-5.4)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업경제 뉴스AI/미래기술

Transcript

00:00:00Vous pouvez remettre le compteur à zéro car il y a un nouveau champion.
00:00:03Cette fois, c'est GPT 5.4. Je l'ai testé et voici tout ce que vous devez savoir,
00:00:07ainsi que les points forts et les points faibles, en 5 minutes et 40 secondes.
00:00:11Voici l'essentiel en quelques points.
00:00:17GPT 5.4 est meilleur pour le travail intellectuel et la recherche Web, il gère l'ordinateur nativement,
00:00:22il y a un nouvel outil de recherche d'outils, il peut être guidé en pleine réponse,
00:00:26un nouveau mode rapide est disponible et il possède une fenêtre de contexte d'un million de tokens.
00:00:30Apparemment, l'objectif de la 5.4 était de combiner les capacités de codage de Codex 5.3 avec les connaissances,
00:00:34la recherche Web et les compétences professionnelles de GPT 5.2 pour faire de la 5.4 le modèle
00:00:40polyvalent par excellence.
00:00:41Et selon les tests tiers d'Artificial Analysis, cet objectif a été atteint.
00:00:45Il est classé meilleur modèle pour le code, meilleur modèle agentique et il est à égalité
00:00:46avec Gemini pour le titre de modèle le plus intelligent.
00:00:49Si l'on s'intéresse au point qui m'a le plus marqué, c'est l'utilisation native de l'ordinateur.
00:00:51Apparemment, OpenAI a conçu ce modèle comme leur premier modèle polyvalent avec des capacités
00:00:55intégrées de contrôle d'ordinateur, il devrait donc exceller à écrire du code
00:00:56pour piloter des machines via des bibliothèques comme Playwright, tout comme à envoyer des commandes
00:01:00de souris et de clavier en analysant des captures d'écran.
00:01:04Ils ont sorti une compétence Playwright expérimentale, alors je l'ai essayée.
00:01:08Dans Codex, en utilisant GPT 5.4 et le raisonnement avancé, j'ai demandé de créer
00:01:12une expérience 3D interactive du Tower Bridge à Londres.
00:01:16J'ai aussi utilisé la nouvelle compétence ainsi qu'un outil de génération d'images pour qu'il
00:01:18puisse générer ses propres ressources pour les textures.
00:01:22L'expérience elle-même était assez similaire à Codex 5.3, qui était jusqu'ici
00:01:24mon modèle préféré.
00:01:29Après environ 20 minutes de travail, c'est là qu'il a commencé à utiliser la nouvelle
00:01:30compétence Playwright, et c'était vraiment impressionnant.
00:01:33Il ouvrait le navigateur, cliquait, naviguait dans la scène, identifiait les problèmes visuels
00:01:37à corriger, comme cet arrière-plan qui ne s'intégrait pas bien, puis il retournait
00:01:41dans le code, corrigeait, et recommençait. Tout semblait fluide et naturel.
00:01:45La première itération du projet a pris environ 30 minutes à partir d'un seul prompt,
00:01:50puis j'ai envoyé des demandes de suivi pour ajouter des détails et corriger des bugs,
00:01:54comme des bateaux à l'envers ou des problèmes de texture sur la route.
00:01:58À chaque fois, il travaillait en autonomie pendant environ 30 minutes, ouvrant Chrome,
00:02:03vérifiant et modifiant, pour me donner cette version finale en environ une heure et demie
00:02:07de travail avec seulement 3 prompts. Ce n'est pas parfait, mais pour un développement
00:02:11totalement automatisé, c'est plutôt pas mal. Ce modèle est une mise à jour évidente
00:02:16pour ceux qui apprécient déjà Codex 5.3.
00:02:20J'ai trouvé ça drôle qu'après deux heures d'utilisation, il m'ait signalé
00:02:24que j'aurais pu gagner une heure si j'avais activé le nouveau mode rapide.
00:02:27C'est exactement le même modèle, la même intelligence et la même expérience, mais il délivre
00:02:31les tokens jusqu'à 1,5 fois plus vite car il est facturé au double de l'usage.
00:02:35C'est essentiellement un accès prioritaire et non un modèle différent.
00:02:41L'autre point que j'ai trouvé particulièrement intéressant, c'est la recherche d'outils.
00:02:44Cela résout le problème du chargement de toutes les définitions d'outils dans le prompt système
00:02:48dès le départ. Avec trop d'outils et de serveurs MCP, on gaspille des tokens
00:02:52et on sature le contexte, ce qui peut nuire à la qualité de la réponse.
00:02:56Désormais, avec GPT 5.4, le prompt contient une liste légère des outils disponibles et le modèle
00:03:00possède une fonction de recherche. Quand il a besoin d'un outil, il cherche sa définition
00:03:05et l'ajoute à la conversation juste au moment opportun.
00:03:09OpenAI affirme que cela réduit l'utilisation des tokens jusqu'à 47 %. Ils l'ont démontré
00:03:13lors d'un test avec 36 serveurs MCP tout en maintenant la même précision.
00:03:18Au-delà de ces fonctionnalités, ce modèle se concentre vraiment sur l'amélioration des outils,
00:03:22tant sur la manière dont il les utilise que sur le moment où il choisit de le faire.
00:03:26Cela se voit dans les benchmarks, mais pour être honnête, il n'y a pas grand-chose d'autre
00:03:30à dire à part que, oui, ce nouveau modèle est meilleur que le précédent.
00:03:34On peut résumer ses avantages : il est plus intelligent, il travaille plus longtemps
00:03:38et utilise mieux les outils, ce qui lui permet d'accomplir des tâches plus complexes.
00:03:42Bref, tout le monde sait que cette version surpasse la précédente, mais parlons
00:03:47maintenant des points négatifs.
00:03:51Le plus flagrant pour moi a été la vitesse.
00:03:52Même si j'aime que mes modèles réfléchissent un peu, j'ai parfois l'impression que GPT 5.4
00:03:54en fait trop, ou qu'il est simplement lent à réfléchir. Et je ne suis pas le seul
00:03:59à le penser.
00:04:04Les résultats d'Artificial Analysis montrent que GPT 5.4 est le plus long à générer
00:04:05un token, et de loin. C'est la même chose pour le temps nécessaire à générer
00:04:09les 500 premiers tokens.
00:04:14Je ne sais pas si c'est un problème du modèle ou du fournisseur, donc ça pourrait s'améliorer,
00:04:15mais on peut aussi être pessimiste et se dire qu'il est lent pour vous forcer
00:04:19à utiliser le nouveau mode rapide.
00:04:24Un autre bémol est la hausse des prix pour ceux qui utilisent l'API.
00:04:26Le modèle de base est à 2,50 $par million de tokens d'entrée et 15$ en sortie,
00:04:29mais le modèle Pro est vraiment coûteux.
00:04:34Il est facturé 30 $par million de tokens d'entrée et 180$ par million en sortie.
00:04:37Pire encore, si vous voulez profiter de la fenêtre de contexte d'un million de tokens,
00:04:43toute entrée dépassant 272 000 tokens sera facturée au double du tarif normal.
00:04:47Je vous conseille donc de compacter votre contexte pour l'instant.
00:04:52Le dernier point faible concerne le design d'interface. C'est subjectif,
00:04:55mais j'ai demandé à Opus 4.6 et GPT 5.4 de créer un site Web pour un café,
00:04:59et je préfère Opus, même si aucun des deux ne m'a époustouflé.
00:05:05Ce qui me dérange avec GPT 5.4 et les autres modèles GPT,
00:05:07c'est qu'ils semblent tous avoir la même interface utilisateur.
00:05:11Ils adorent ce style de cartes dépolies et, bien sûr, les dégradés.
00:05:14C'était juste un test, mais sur Design Arena, ce modèle n'est pas très bien classé.
00:05:19C'est un domaine où OpenAI n'est pas très performant pour le moment.
00:05:23Globalement, je vais l'utiliser au quotidien car je suis fan de Codex, mais je suis curieux
00:05:27de connaître votre avis.
00:05:32Quel est votre modèle préféré ?
00:05:33Dites-le-moi en commentaire, abonnez-vous,
00:05:34et comme toujours, on se retrouve dans la prochaine vidéo.
00:05:37à la prochaine.

Key Takeaway

GPT 5.4 s'impose comme le modèle le plus performant pour l'autonomie logicielle et le travail intellectuel complexe, malgré une lenteur de réflexion marquée et des coûts d'utilisation en forte hausse.

Highlights

Lancement de GPT 5.4, présenté comme le nouveau modèle polyvalent leader pour le code et les tâches agentiques.

Capacités natives de contrôle d'ordinateur permettant de naviguer sur le Web et d'utiliser des outils comme Playwright.

Introduction d'une fonction de recherche d'outils dynamique réduisant la consommation de tokens de 47 %.

Fenêtre de contexte étendue à un million de tokens, avec une tarification doublée au-delà de 272 000 tokens.

Disponibilité d'un nouveau « Mode Rapide » offrant une exécution 1,5 fois plus rapide moyennant un coût doublé.

Performances mitigées en design d'interface utilisateur par rapport à des modèles concurrents comme Opus 4.6.

Augmentation significative des tarifs de l'API, particulièrement pour le modèle Pro et les contextes longs.

Timeline

Introduction et aperçu des capacités

L'auteur présente GPT 5.4 comme le nouveau champion incontesté de l'intelligence artificielle en remplaçant les versions précédentes. Ce modèle fusionne les prouesses en codage de Codex 5.3 avec les capacités de recherche Web et professionnelles de GPT 5.2. Selon les tests d'Artificial Analysis, il se classe premier pour le code et les fonctions agentiques, égalant Gemini en intelligence pure. Les points clés incluent une gestion native de l'ordinateur, un mode rapide et une fenêtre de contexte massive. Cette introduction pose les bases d'un modèle conçu pour être l'outil polyvalent par excellence pour les travailleurs intellectuels.

Test pratique : Utilisation native de l'ordinateur

Cette section détaille une expérience concrète consistant à créer une scène 3D interactive du Tower Bridge à Londres. L'auteur utilise la compétence expérimentale Playwright pour permettre au modèle de piloter un navigateur et de corriger visuellement son propre code. GPT 5.4 a travaillé en autonomie pendant environ une heure et demie, n'ayant besoin que de trois prompts pour finaliser le projet. Il a su identifier des bugs visuels, comme des textures mal placées, en analysant des captures d'écran de manière fluide. Ce test démontre que le modèle excelle dans le développement automatisé et l'interaction directe avec les interfaces logicielles.

Optimisation des performances et recherche d'outils

L'auteur explore ici les innovations techniques telles que le « Mode Rapide » et la recherche dynamique d'outils. Le mode rapide permet d'obtenir des réponses 1,5 fois plus vite pour les utilisateurs prioritaires prêts à payer le double du prix standard. La recherche d'outils est une avancée majeure car elle évite de saturer le contexte en ne chargeant les définitions d'outils que lorsqu'elles sont nécessaires. OpenAI affirme que cette méthode réduit l'usage des tokens de 47 % tout en maintenant une précision constante, même avec 36 serveurs MCP connectés. Ces fonctionnalités visent à rendre le modèle plus efficace et capable de gérer des tâches de plus longue durée.

Points faibles : Vitesse, Coûts et Design

Malgré ses prouesses, GPT 5.4 souffre de défauts notables, à commencer par une latence élevée lors de la génération des premiers tokens. Les tarifs de l'API ont grimpé, atteignant 30 $ par million de tokens en entrée pour le modèle Pro, avec des malus pour les contextes très longs. Sur le plan créatif, le modèle peine en design d'interface, restant bloqué sur un style répétitif à base de dégradés et de cartes dépolies. Les benchmarks de « Design Arena » placent d'ailleurs OpenAI derrière certains de ses concurrents directs. L'auteur conclut en invitant sa communauté à partager son avis sur ce nouveau modèle par rapport à d'autres alternatives du marché.

Community Posts

View all posts