J'ai testé GLM 5.2 vs Opus 4.8 vs GPT 5.5

Françaisالعربية Deutsch English Español हिन्दी 한국어 Português Русский 中文

컴퓨터/소프트웨어게임/e스포츠AI/미래기술

Transcript

00:00:00GLM 5.2 vient de sortir cette semaine, et c'est le modèle open source le plus puissant que nous ayons jamais

00:00:04vu. Et certains benchmarks, comme vous pouvez le voir ici, montrent même que ce modèle surpasse les géants

00:00:10comme Opus 4.8 d'Anthropic et 5.5 d'OpenAI. Mais ces benchmarks sont-ils légitimes ? Comment ce modèle

00:00:18se compare-t-il face à Opus 4.8 et GPT 5.5 ? Eh bien, c'est exactement ce à quoi nous allons répondre

00:00:25dans la vidéo d'aujourd'hui, en réalisant de multiples tests avec ces trois grands modèles pour voir

00:00:31comment il se comporte réellement dans le monde réel. De plus, nous ferons une analyse approfondie

00:00:35d'un benchmark en particulier que je trouve assez important, et nous détaillerons ce que nous entendons

00:00:40par le fait que GLM 5.2 est meilleur, dans certains cas, qu'Opus et GPT 5.5. Parlons-nous du fait

00:00:47qu'il est plus efficace, qu'il coûte moins cher, ou qu'il fait mieux tout cela en même

00:00:51temps ? Alors, sans plus attendre, plongeons dans le vif du sujet. Maintenant, avant de passer

00:00:56aux tests comparatifs, regardons d'abord quelques-uns des benchmarks existants comparant ces

00:00:59trois modèles. Celui sur lequel je veux vraiment attirer votre attention est DeepSuite. DeepSuite est

00:01:04un benchmark relativement nouveau, conçu pour être une amélioration de projets comme Terminal

00:01:08Bench et Terminal Bench Pro. Je ne vais pas entrer dans les moindres détails de ce benchmark,

00:01:12vous pouvez consulter leur site web ou leur dépôt GitHub pour plus d'informations. Il se concentre

00:01:17sur des tâches agentiques de longue durée, spécifiquement 113 tâches en TypeScript, Go, Python, JavaScript,

00:01:23et Rust, avec des environnements isolés et des vérificateurs basés sur des programmes. Et sur ce graphique,

00:01:29nous pouvons voir le score, le pourcentage de réussite sur la gauche, ainsi que le coût moyen

00:01:34par tâche. Nous voulons être en haut à droite. La zone la plus efficace est ici, en haut

00:01:39à droite. C'est là que nous obtenons le meilleur score au coût le plus bas. Et nous voyons ici que GLM 5.2

00:01:44max nous donne 44 % à 3,92 $ par tâche. Si nous comparons cela à Opus 4.8 et GPT 5.5, nous voyons

00:01:55qu'ils font bien mieux. Au maximum, Opus 4.8 atteint 59 %, et 5.5 atteint 67 % au niveau extra élevé. Évidemment,

00:02:04aux niveaux extra élevé et max, nous avons un coût assez important. Pour GPT 5.5, c'est 7,23 $. 13 $ pour Opus,

00:02:12et pour GLM, c'est 3,92 $. Donc beaucoup moins cher. Cependant, quand nous regardons les différents niveaux d'effort

00:02:19à 5.5 et pour Opus, si nous sommes au niveau moyen, par exemple avec Opus 4.8, nous allons obtenir

00:02:25un score plus élevé que GLM 5.2, et nous serons moins chers. Soit 49 % à 3,44 $contre 44 % à 3,92$. Et c'est

00:02:36significatif, avec 5.5 à 54 % pour 2,75 $contre 44 % à 3,92$. Donc, d'emblée, sur ce benchmark,

00:02:47si on le prend tel quel, 4.8 et 5.5 sont un cran au-dessus de GLM 5.2. Et ce n'est pas surprenant. Ce sont

00:02:55les meilleurs des meilleurs modèles de pointe. Ce ne sont pas des modèles open source. Et si nous mettons vraiment

00:03:01le paquet, ils vont un peu surpasser GLM 5.2 sur ces tâches à long horizon, ce qui

00:03:07était attendu. Ce que vous n'auriez peut-être pas attendu, c'est le fait qu'il puisse faire mieux pour moins cher,

00:03:11ce qui est un problème. Et je voulais juste souligner cela, car je sais qu'il y a beaucoup

00:03:16de discussions et beaucoup de battage médiatique en ce moment autour de GLM 5.2 et du fait qu'il est open source. Et vous savez,

00:03:21cela implique immédiatement que, oh, c'est super, super bon marché. Et nous pouvons faire de très bonnes choses.

00:03:25Eh bien, en regardant les chiffres, c'est bon, mais ce n'est pas 4.8 ou 5.5 selon ce benchmark. Et rappelez-vous,

00:03:33ces chiffres pour 4.8 et 5.5 sont basés sur les coûts de l'API. Si je suis sur le plan max, c'est 10 fois moins cher

00:03:40que cela. Même chose si je suis juste sur le plan à 100 $ou 200$ par mois d'OpenAI. Donc

00:03:46c'est une autre chose à prendre en compte. Donc je voulais juste calmer les ardeurs de ceux qui disent que GLM est beaucoup moins cher, car ce n'est pas vraiment le cas. Et même si c'est open source,

00:03:50parce que ce n'est pas vraiment ça.

00:03:56GLM 5.2, le modèle open source qui obtient ces chiffres, n'est pas vraiment open source. Comme, vous

00:04:01ne pouvez pas juste télécharger ceci sur votre ordinateur. C'est open source dans le sens où vous pouvez voir le code,

00:04:05vous pouvez voir les poids. Ce n'est pas open source dans le sens où je peux aller le récupérer

00:04:09sur Ollama. Je peux l'exécuter sur mon PC personnel. Non, vous ne pouvez pas. Non, vous ne pouvez pas. Il s'agit de presque un

00:04:14billion de paramètres. Cela nécessite une tonne de matériel pour fonctionner. Donc ne soyez pas confus, car je sais

00:04:20qu'il y a une partie de la population qui l'est, mais c'est juste pour poser le décor. Et encore,

00:04:24c'est basé sur DeepSuite. Ce sont des tâches très intenses. Et

00:04:30aujourd'hui, nous allons faire quelques tests différents qui sont un peu plus accessibles et qui sont

00:04:35probablement plus représentatifs de ce que vous, l'utilisateur moyen, exécutez. Donc, quelque chose à garder

00:04:39en tête. Et juste pour que nous soyons tous sur la même longueur d'onde, voici ce que nous regardons en termes de coûts

00:04:44par jeton. Rappelez-vous, la raison pour laquelle c'était moins cher pour Opus 4.8 et 5.5, c'est parce qu'ils utilisaient beaucoup moins

00:04:50de jetons pour faire ce dont ils avaient besoin. C'était tout simplement plus efficace, mais sur une base par jeton.

00:04:55Et rappelez-vous, pour l'entrée et la sortie, c'est par million de jetons : GLM 5.2, 1,40 $ pour l'entrée,

00:05:01et 4,40 $ pour la sortie. Opus 4.8 est 5,7 fois plus cher. Et 5.5 de GPT est 6,8 fois plus

00:05:10cher. Donc, sur une base par jeton, c'est beaucoup moins cher. Mais rappelez-vous, nous nous soucions des résultats d'une tâche,

00:05:16pas nécessairement d'une comparaison jeton pour jeton. Et maintenant, avant de passer aux tests réels,

00:05:21un petit mot du sponsor d'aujourd'hui : moi. Je viens de publier ma Masterclass Cloud Code dans

00:05:26Chase AI Plus, et c'est le meilleur moyen de passer de zéro à développeur IA, surtout si vous n'avez

00:05:30pas de formation technique. Je mets cela à jour chaque semaine, et cela inclut également des masterclasses sur les codecs

00:05:35et sur la création de votre propre système d'exploitation agentique. Donc, si c'est quelque chose que vous voulez approfondir et que vous

00:05:40ne savez pas par où commencer, Chase AI Plus est l'endroit pour vous. Il y a un lien vers cela dans les commentaires épinglés.

00:05:46Voici comment nous allons effectuer ce test. Nous allons donner à chaque modèle la même

00:05:49invite en mode plan. Il va nous donner le plan. Nous pourrions faire quelques allers-retours,

00:05:53selon ce que nous pensons du plan qu'il propose. Et après cela, nous le laisserons s'exécuter.

00:05:58Après l'exécution, j'appliquerai mes critères de notation extrêmement subjectifs au résultat final et je vous ferai savoir

00:06:03lequel je préfère. Si vous n'aimez pas mes critères de notation ou ce que je décide être le meilleur, assurez-vous de

00:06:08laisser un commentaire. Je m'assurerai aussi de supprimer votre commentaire. Maintenant, ici sur la gauche, nous avons

00:06:14GPT 5.5 dans Codex sur extra élevé. Nous avons OpenCode au milieu exécutant GLM 5.2 sur extra élevé

00:06:21routé via OpenRouter. Et ici sur la droite, nous avons Cloud Code exécutant Opus 4.8

00:06:26sur élevé. Pourquoi ai-je choisi ces paramètres d'effort particuliers ? Parce que c'est comme ça que la plupart des gens

00:06:32utilisent ces modèles dans la vie réelle. Et il y a de fortes chances que vous soyez soit sur le plan max, soit sur une sorte

00:06:37de plan OpenAI, et vous ne l'exécutez probablement pas sur Moyen. Soyons honnêtes. Donc je pense que c'est une

00:06:42meilleure représentation de la façon dont votre utilisateur moyen utilise réellement ces modèles au quotidien.

00:06:47Donc, pour notre première invite, nous allons lui demander de construire un jeu de course en 3D jouable qui s'exécute dans le

00:06:51navigateur. Et surtout, nous gardons cette invite un peu vague. Je dis que vous avez toute liberté pour

00:06:56aller sur le web et choisir la pile et la bibliothèque que vous pensez être les meilleures pour exécuter cela. Alors

00:07:02allons-y et voyons ce qui se passe. Donc nous avons les trois modèles fonctionnant en mode plan.

00:07:08Et encore une fois, l'idée derrière le fait de rendre l'invite un peu vague est que nous voulons voir autant de

00:07:12divergence de la part de ces modèles que possible. Si je lui avais donné la feuille de route exacte, comment faire chaque chose,

00:07:18eh bien, alors nous ne verrions vraiment pas comment ces modèles pensent et comment ils abordent davantage des

00:07:23problèmes de type désordonné. Donc, après 13 minutes, Opus 4.8 a été le premier à finir de créer le jeu de course.

00:07:29Alors regardons ce qu'il a fait. Donc ici, nous sommes un peu en low poly. Il a du

00:07:37son. Le mouvement est assez fluide. On dirait que nous avons la capacité de dériver ici aussi.

00:07:44Okay, l'herbe interfère avec le fonctionnement de la physique. Dans l'ensemble, c'est assez fluide, mais vous

00:07:54savez, relativement ennuyeux, non ? C'est un circuit de course assez basique. Rien de fou, il n'a pas ajouté

00:07:59d'IA ou quoi que ce soit de ce genre. Donc je suis intéressé de voir comment les autres modèles se comportent en termes de

00:08:04complexité et ce que je ferai probablement après ce premier test si tous sont un peu comme la même vision

00:08:09fade. Nous allons probablement donner une autre invite pour monter la mise. Ensuite

00:08:13c'est GLM 5.2. Donc cela a pris environ cinq minutes de plus que Claude Code. Pour référence, GPT 5.5 travaille toujours,

00:08:20ce qui ne me surprend pas trop. Il a tendance à être un peu plus lent. En termes de comparaison de jetons,

00:08:26Claude Code a utilisé environ 100 000 jetons pour créer cela. Et GLM 5.2 en a pris plus d'un million. Et nous pouvons jeter un œil

00:08:33à l'intérieur d'Open Router pour cette exécution, où la dépense totale était de 1,21 $. Et le volume total de jetons était de 1,35

00:08:41million pour créer ce jeu. Donc, tout de suite, c'est une piste intéressante que nous avons.

00:08:48Les commandes sont assez saccadées, par rapport à ce que nous avions avec Claude Code. Je bouge

00:08:53très vite par rapport à la piste elle-même. Très vite. Comme si je criais à travers cela. Et nous sommes aussi comme

00:09:00juste il n'y a pas vraiment de différenciation entre la piste et le champ lui-même. Et dans

00:09:09certains cas, j'étais capable de presque, comme vous l'avez vu là, traverser la piste, mais pas vraiment.

00:09:15Donc, la voiture elle-même est un peu moins détaillée que ce que nous avons vu à l'intérieur de Claude Code. Je veux dire,

00:09:23il y a une piste, il y a un minuteur. En termes de gameplay réel, un peu bancal pour ce que c'est,

00:09:30pas aussi fluide. Et aussi, encore une fois, avec la situation low poly comme nous l'avons vu avec

00:09:36Opus. Donc, j'adorerais voir ce qu'il fait si nous lui disons de vraiment créer quelque chose qui semble

00:09:40mieux. Et aussi cette piste elle-même n'a pas vraiment beaucoup de sens. Donc maintenant nous regardons

00:09:44ce que GPT 5.5 a créé. Il l'appelle le circuit de fonderie, le contre-la-montre de nuit de trois tours

00:09:50à travers les aciéries. Donc, quelque chose de différent, j'imagine, que la piste générique que nous avons vue dans les

00:09:54deux dernières. Donc, commençons cela. Et c'est parti. Eh bien, je ne sais pas vraiment où je suis

00:10:04censé aller. Oh, je suppose que c'est la piste. Les roues ont l'air assez intéressantes. Elles tournent

00:10:10dans le mauvais sens. Donc c'est quelque chose. Okay, il y a des bruits très ennuyeux, en fait.

00:10:21Et je ne peux pas vraiment passer outre les roues tournant horizontalement, ou peu importe comment vous décririez cela.

00:10:28La piste elle-même est correcte, on peut se déplacer. Oui, vous pouvez aller au-delà de la piste et cela vous ralentit. Mais ce n'est pas

00:10:35clair que c'est une piste pavée, comme nous l'avons vu avec ce qu'Opus a construit. Et le reste est,

00:10:41vous savez, le champ. Donc des graphismes assez étranges, honnêtement. Aussi, quand vous considérez le fait

00:10:48que deux fois plus long qu'Opus, c'est assez bizarre. Oui, honnêtement, assez étrange. Encore,

00:10:55pourquoi, pourquoi a-t-il fait cela avec les roues ? Je n'en ai aucune idée. Encore une fois, il a opté pour le low poly.

00:11:00Et c'est juste très sombre, apparemment sans raison. Donc je veux dire, j'ai presque l'impression que

00:11:06c'est plus fonctionnel que ce que nous avons obtenu avec GLM 5.2, mais pas beaucoup mieux. Et vous considérez aussi le fait

00:11:12que c'était en extra élevé sur 5.5. Maintenant, en termes d'utilisation de jetons pour 5.5,

00:11:17cela représentait à peu près ce que nous avons vu avec Claude Code. Il a utilisé 7 % de sa fenêtre de cinq heures. Donc presque

00:11:22rien. Maintenant, classement général, j'aurais mis Opus 4.8 clairement en avance sur GLM 5.2 et 5.5. Je pensais que

00:11:28les deux derniers étaient assez bancals, mais nous allons leur donner une autre chance parce que

00:11:32nous allons leur dire de jeter un autre regard sur le code, de faire un autre passage. Et nous voulons aussi qu'ils

00:11:36fassent beaucoup mieux en termes de graphismes. Je ne veux pas du low poly. Je veux que cela ressemble

00:11:40à un jeu triple A ou aussi proche que possible. Alors voyons ce qui se passe quand nous leur donnons

00:11:46une deuxième tentative. Donc Opus et GLM ont terminé leur deuxième passage et 5.5 termine là. Donc

00:11:50jetons un œil d'abord à Opus 4.8. Donc tout de suite, nous voyons une voiture bien meilleure. C'est une énorme

00:11:58amélioration concernant la voiture par rapport à ce que nous avons vu auparavant. Nous voyons aussi un éclairage très différent.

00:12:04Comme vous pouvez voir le soleil réfléchi sur le sol lui-même et tout semble beaucoup plus fluide. Je veux dire,

00:12:10les arbres eux-mêmes sont des sortes de low poly, mais l'éclairage et surtout la voiture

00:12:15sont un grand pas en avant. Et il garde toujours ce même gameplay fluide. Je veux dire, à part le fait

00:12:20que nous avons des arbres sur la route, mais les arbres eux-mêmes sont aussi ombragés. Et pour un passage supplémentaire

00:12:26qui a pris 10 minutes et environ 50 000 jetons, pas mal. Maintenant, regardons GLM. Et à ce stade,

00:12:32cela a pris environ 1,2 million de jetons de plus pour effectuer cette mise à jour, portant notre dépense totale à 1,83 $.

00:12:38Donc démarrons-le. Et il semble qu'il ait essayé d'ajouter un éclairage différent. La voiture a l'air

00:12:46un peu meilleure, mais l'éclairage lui-même est assez étrange. C'est juste très éblouissant. La piste

00:12:52elle-même n'a pas beaucoup changé. Vous savez, c'est encore un peu comme de l'herbe partout. Et les

00:12:57commandes sont encore très saccadées, non ? Je vais très vite par rapport à la piste. Même genre de problème

00:13:04que j'avais avant où une partie de la piste je peux la traverser, une autre je ne peux pas. Donc, je veux dire,

00:13:10les graphismes de la voiture sont meilleurs, mais je dirais que l'éclairage et l'éblouissement sont si distrayants.

00:13:15C'est probablement une régression par rapport à ce que nous avions avant. Et voici le deuxième passage avec 5.5. Maintenant

00:13:21la voiture a l'air un peu meilleure, mais en regardant tout le reste, c'est un peu la même chose. Eh bien,

00:13:29les roues sont meilleures. Nous avons corrigé le problème des roues. Elles tournent vraiment comme des roues devraient,

00:13:34mais il y a encore des bruits ennuyeux. Et il n'y a pas vraiment de différenciation encore, entre le chemin

00:13:42et l'herbe. Donc cela donne l'impression d'être un peu la même chose qu'il a fait la première fois avec une

00:13:49voiture légèrement meilleure. Mais vous savez, quand nous lui avons dit de viser une esthétique triple A, je ne dirais pas qu'il

00:13:55a atteint l'objectif. Et encore une fois, je pense que globalement, si nous regardons ces trois modèles, GLM et 5.5 sont définitivement un cran

00:14:02en dessous d'Opus. Maintenant, pour notre prochain test, nous allons lui demander de nous construire un site web. Et l'invite que nous allons

00:14:07utiliser est celle-ci. Nous voulons qu'il construise une fausse page de destination pour un produit, qui est des lunettes intelligentes

00:14:12alimentées par IA. Pensez à quelque chose comme les lunettes Meta Ray-Bans. Encore une fois, nous donnons à ces modèles toute liberté en

00:14:16termes de pile et de conception. Nous lui disons de choisir ce qu'il pense être le mieux, installer ce dont nous

00:14:20avons besoin et rechercher les meilleures pratiques pour créer des pages de destination. Nous lui disons, Hey, allez-y et trouvez

00:14:25des images et des photos de produits. Et ne comptez pas uniquement sur la création de votre propre truc HTML. Et surtout,

00:14:31faites en sorte que cela ressemble à un site récompensé. Nous ne voulons pas que cela ressemble à de l'IA médiocre. Nous voulons une vraie

00:14:35hiérarchie visuelle, une typographie intentionnelle, et du mouvement là où cela a du sens. Donc page de destination pour des lunettes intelligentes,

00:14:42nous voulons que ce soit un style de type site récompensé. Alors voyons ce qu'ils proposent. Donc les trois

00:14:46ont terminé pour référence, GLM a utilisé environ un million de jetons pour exécuter cela tandis qu'Opus et 5.5

00:14:53ont utilisé environ cent mille, à peu près. Donc d'abord nous avons ce qu'Opus a construit pour nous, fond très sombre.

00:14:58Il a une sorte de ces lunettes qu'il a créées, et le texte est un peu coupé ici, ce qui est

00:15:04malheureux. En descendant, c'est aussi un peu bizarrement placé parce que nous pouvons voir le texte de défilement

00:15:12un peu par-dessus. Mais quand je passe la souris, vous pouvez voir qu'il bouge un peu et change

00:15:18de couleur, ce qui est plutôt cool. En faisant défiler, nous avons quelques animations de

00:15:24chargement de défilement pour tout. Mais dans l'ensemble, cela semble bien pour les lunettes elles-mêmes qui utilisent HTML.

00:15:31Donc, c'est comme, qu'est-ce que vous obtenez vraiment de cela ? Il n'a même pas trouvé de lunettes

00:15:35à utiliser. Et il a, vous savez, hé, voici comment vous pouvez réserver et voici comment vous pouvez acheter. Donc

00:15:41c'est correct. Encore une fois, nous ne lui avons pas donné beaucoup de direction, mais nous lui avons dit d'opter pour un look type

00:15:45site récompensé. Je ne considérerais pas cela à ce niveau-là. Maintenant regardons ce que GLM nous a construit.

00:15:51Et je ne sais pas vraiment ce qui se passe ici du tout. En fait, c'est presque à peine chargé.

00:15:59Il nous montre des lunettes, mais ce site est un peu un désastre. C'est comme s'il n'avait même pas

00:16:04vraiment fini. Il a presque juste tout jeté ensemble. Oui. Oui, l'invite n'était pas super

00:16:13détaillée, mais il devrait être capable de faire plus que cela sur la base de ce que je lui donne. C'est en fait

00:16:19terrible. Je n'ai aucune idée de ce qu'il essayait d'accomplir ici. Et enfin, nous avons GPT 5.5. Donc

00:16:25c'est un peu intéressant. Je pense que cela a l'air plutôt cool, bien que les lunettes

00:16:30chevauchent quelque peu le texte ici. Et nous avons beaucoup d'espace mort, ce que vous pourriez argumenter comme

00:16:34étant un choix de conception. Et nous avons la bannière qui bouge réellement, vous vous souviendrez que la

00:16:39version Opus avait une bannière, mais elle ne bougeait pas. Et puis en faisant défiler, vous remarquerez aussi que le

00:16:44curseur est un peu multicolore. Et en faisant défiler, on dirait qu'il a créé des actifs de type

00:16:50HTML. Je veux dire, étrange, non ? Nous lui avons dit, hé, vous pouvez aller trouver ce dont vous avez besoin en ligne

00:16:55si vous le souhaitez. Mais dans l'ensemble, probablement le meilleur des trois. Mais, vous savez, je ne dirais pas que j'étais amoureux

00:17:04d'aucun de ces modèles. Cela montre à quel point il faut avoir une main ferme quand on fait

00:17:09n'importe quelle sorte de conception visuelle ou des choses d'interface utilisateur comme même ces modèles les plus avancés luttent

00:17:14comme je n'ai aucune idée de ce qui se passe. C'est un désastre. Donc, dans l'ensemble, Opus était

00:17:21correct. 5.5 était le meilleur du lot et GLM était en fait un échec complet. Et tout comme nous l'avons fait avec

00:17:26la version jeu, nous allons leur donner un deuxième passage à cela et voir s'ils peuvent nettoyer ce qui s'est

00:17:30mal passé. Et en plus de cela, nous allons leur demander d'intégrer, de manière similaire, encore une fois, au jeu que nous leur avons fait

00:17:36créer, quelques éléments 3JS, comme nous voulons vraiment voir comment il peut repousser ses capacités avec

00:17:42des choses comme le mouvement et les graphismes et ce genre de chose. Et cette nouvelle invite ressemble à ceci : prenez

00:17:46la page de destination des lunettes intelligentes que vous venez de construire et reconstruisez-la comme une expérience 3D immersive en utilisant

00:17:51three.js. Donc nous voulons une scène 3D interactive réelle. Et encore une fois, nous lui donnons toute liberté pour

00:17:56l'exécuter comme bon lui semble. Et donc voici ce que nous avons obtenu avec Opus 4.8. Vous pouvez voir maintenant qu'il a ajouté

00:18:02quelques 3JS, ces lunettes bougent un peu. Mais au-delà de cela, nous avons certains des problèmes originaux,

00:18:08non ? Le texte étant coupé, étant écrasé ici. Et le reste de cela étant juste, homme, comme ceci est assez

00:18:13évident que l'IA a créé cela. Oh, fin de note, comme les coûts de jetons

00:18:21étaient à peu près égaux lors de la deuxième exécution pour tous ces modèles par rapport à la première. Ensuite,

00:18:27nous avons GLM 5.2. Et cette fois, il a réellement créé un site web qui a du sens. Nous avons ces lunettes,

00:18:32bien que les lunettes créées soient un peu étranges, comme si vous aviez seulement, vous savez,

00:18:36aucune lunette ne ressemblerait à cela, et le texte est aussi coupé ici. Mais nous avons une bannière

00:18:42qui défile quand je passe au-dessus, elle s'arrête. Et je dirais dans l'ensemble, en termes de

00:18:48la façon dont il a agencé le site web, je lui donnerais probablement l'avantage sur Opus. Maintenant, je ne pense pas

00:18:55qu'aucun des deux ne soit particulièrement bon. Et nous leur avons donné carte blanche pour faire ce qu'ils voulaient. Mais

00:18:59je mettrais cela au-dessus de ce genre de configuration. Bien que en termes de section principale elle-même,

00:19:05j'aime mieux Opus 4.8. Maintenant, GPT 5.5, je pense est le gagnant ici. Je pense que cela semble

00:19:10meilleur globalement d'un point de vue de conception subjectif. Et je pense que les graphismes de mouvement 3JS

00:19:18qu'il a ajoutés ici sont plutôt cool. Je pense que cela a du sens dans le contexte de ce qu'il a créé. Comme nous avons

00:19:22tout cet espace blanc en haut et les lunettes, vous savez, sont capables de vivre là. Et pour le

00:19:27reste du site web, je pense qu'il semble correct. Encore une fois, cela semble toujours très, guillemet, guillemet,

00:19:32IA médiocre dans le sens où l'IA a définitivement créé cela, mais ce n'est pas mauvais. Et comme de haut

00:19:37en bas, je préfère ce que 5.5 nous a donné par rapport à tous les autres. Et donc quand nous jetons un œil à cette

00:19:42chose, en intégrant ces benchmarks plus sophistiqués, comme DeepSuite aux côtés de

00:19:48ce que nous venons de faire aujourd'hui, je pense que c'est un peu ce à quoi nous nous attendions. Je ne pense pas que GLM ait fait extrêmement mal

00:19:56dans n'importe quel sens du terme, mais il semblait définitivement être un cran en dessous de GPT 5.5 ou 4.8 ou dans

00:20:03des scénarios où, vous savez, dans la première section où Opus était meilleur que tous. Et dans

00:20:07la deuxième section où GPT était meilleur que tous, GLM était toujours près du fond. Ce n'était pas

00:20:12grossièrement pire qu'aucun d'entre eux, mais ce n'était certainement pas meilleur. Et il a aussi utilisé infiniment plus de jetons.

00:20:17Et donc quand nous jetons un œil à quelque chose comme ceci, le score DeepSuite, où c'est comme,

00:20:21hé, GLM est un peu au fond et est en fait moins efficace que 5.5 et 4.8, à la fois en termes de

00:20:27coût et de performance. Cela a du sens. Je pense que c'est un peu ce que nous voyons. Et donc, grande

00:20:35image, GLM est-il un excellent modèle open source ? Certainement. Mais rencontre-t-il certains problèmes que les modèles open source

00:20:41ont en général, à savoir, ils ne sont pas aussi puissants ? Oui. Et en outre, si vous êtes quelqu'un qui est

00:20:47à fond open source, comprenez que ce n'est pas quelque chose que vous exécuteriez sur votre PC, n'est-ce pas ? Cela nécessite une

00:20:52tonne de matériel pour être utilisé. Et je pense que ce qui se perd dans la conversation est ce dont nous avons parlé au

00:20:57début, qui est, okay, les coûts sont déjà un problème pour GLM 5.2. Pourtant, cela

00:21:05ne prend même pas en compte l'énorme subvention que vous obtenez soit sur le plan Anthropic Max, soit sur le plan OpenAI

00:21:12Max. Donc, vous gardez cela à l'esprit, et okay, il n'y a pas vraiment de débat.

00:21:16Il n'y a vraiment pas de débat. Donc, suggérerais-je d'utiliser GLM 5.2 pour votre utilisateur moyen ? Non,

00:21:24pas vraiment. Je pense peut-être si vous faites des tâches de niveau inférieur et que vous êtes quelqu'un qui compare

00:21:29cela uniquement sur les prix de l'API, peut-être, peut-être. Mais, vous savez, je pense qu'il est assez difficile de soutenir cela

00:21:38parce que alors que faisons-nous quand le prochain, quand, vous savez, Sonnet 5 sort la semaine prochaine ? Comme,

00:21:42allez-vous simplement sauter de là à là ? Comme il y a quelque chose à dire sur le fait de simplement

00:21:46s'en tenir au modèle, surtout quand nous parlons plus de trucs au niveau de l'équipe entreprise,

00:21:50où les coûts d'API commencent vraiment à s'additionner. Parce qu'encore une fois, pour l'utilisateur individuel moyen qui va

00:21:55utiliser l'un des plans subventionnés et qui ne paie pas directement les coûts d'API, je ne vois pas d'argument pour

00:22:01GLM 5.2. Donc c'est là que je vais vous laisser aujourd'hui. J'espère avoir apporté un peu de lumière sur

00:22:05ce débat GLM et tout le battage médiatique que vous voyez autour de cela. Comme toujours, laissez-moi savoir ce que

00:22:09vous avez pensé dans les commentaires. Assurez-vous de consulter Chase AI Plus si vous voulez mettre la main sur la

00:22:13Masterclass Cloud Code, et je vous verrai autour.

Key Takeaway

Malgré l'engouement pour GLM 5.2, les modèles fermés comme Opus 4.8 et GPT 5.5 restent plus performants, plus efficaces en termes de consommation de jetons et offrent des résultats de meilleure qualité pour les tâches complexes de développement.

Highlights

Dans le benchmark DeepSuite, GPT 5.5 atteint un taux de réussite de 67 % contre 44 % pour GLM 5.2.
GLM 5.2 consomme environ 1,35 million de jetons pour créer un jeu 3D, alors que Claude Code avec Opus 4.8 n'en utilise que 100 000.
Bien que GLM 5.2 soit classé comme modèle open source, il nécessite une infrastructure matérielle massive et n'est pas exécutable sur un PC personnel standard.
Opus 4.8 et GPT 5.5 surclassent GLM 5.2 sur la majorité des tâches complexes de codage et de conception visuelle.
Le coût par tâche sur le benchmark DeepSuite est de 3,92 $pour GLM 5.2, contre 7,23$ pour GPT 5.5, mais ce dernier offre une meilleure efficacité globale par jeton.

Timeline

Comparaison des benchmarks et coûts

Le benchmark DeepSuite évalue la capacité des modèles à gérer des tâches de longue durée sur 113 exercices de programmation.
GLM 5.2 affiche un score de 44 % avec un coût de 3,92 $ par tâche.
Opus 4.8 et GPT 5.5 surpassent GLM 5.2 avec des scores respectifs de 59 % et 67 %.
GLM 5.2 n'est pas un modèle léger et nécessite des ressources matérielles importantes malgré son étiquette open source.

Le benchmark DeepSuite met en lumière une réalité technique où les modèles propriétaires conservent une avance sur les capacités d'exécution à long terme. Bien que GLM 5.2 soit vanté pour son aspect open source, il s'agit d'un modèle de près d'un billion de paramètres, rendant son exécution locale impossible pour l'utilisateur moyen. Les comparaisons de coûts révèlent que si GLM semble moins cher à la tâche, Opus 4.8 et GPT 5.5 démontrent une efficacité supérieure par million de jetons.

Tests de développement de jeux 3D

Opus 4.8 produit les résultats les plus fluides dès le premier essai.
GLM 5.2 et GPT 5.5 nécessitent des corrections substantielles pour atteindre un niveau de jouabilité correct.
GPT 5.5 corrige les erreurs graphiques lors du second passage mais peine à atteindre une esthétique triple A.

Les tests impliquant la création d'un jeu de course 3D illustrent les limites de ces modèles. Opus 4.8 parvient à générer une expérience fluide rapidement, tandis que GLM 5.2 montre des commandes saccadées et une physique imprécise. Lors du second passage, si les graphismes s'améliorent pour l'ensemble des modèles, les problèmes de cohérence visuelle et technique persistent, confirmant la supériorité d'Opus 4.8 dans ce contexte.

Conception de pages de destination

GPT 5.5 s'impose comme le modèle le plus efficace pour la structure et le design visuel.
GLM 5.2 échoue à générer une page web cohérente lors du premier essai.
L'intégration d'éléments 3JS montre une difficulté partagée par tous les modèles à produire une interface de niveau professionnel sans guidage précis.

La demande de création d'une page de destination pour des lunettes intelligentes révèle que même les modèles les plus avancés ont du mal avec la hiérarchie visuelle. GLM 5.2 produit un résultat proche de l'échec initial, tandis que GPT 5.5 tire son épingle du jeu avec une meilleure utilisation de l'espace et des graphismes. L'usage de 3JS a mis en exergue la difficulté pour ces IA de transformer une demande vague en une expérience utilisateur immersive et esthétique.

Évaluation globale et conclusion

GLM 5.2 reste un modèle performant mais se positionne systématiquement en retrait face à ses concurrents.
Les plans d'abonnement des modèles propriétaires rendent ces outils plus compétitifs pour les utilisateurs individuels que les coûts d'API bruts.
Le choix du modèle doit dépendre des exigences spécifiques de la tâche et de la gestion des coûts d'infrastructure.

L'analyse démontre que l'enthousiasme autour de GLM 5.2 occulte ses besoins matériels et son inefficacité relative. Pour un utilisateur individuel bénéficiant d'un abonnement max chez Anthropic ou OpenAI, le passage à GLM 5.2 ne présente pas d'avantage économique ou technique significatif. Le marché évolue rapidement, et les coûts d'API restent le facteur déterminant pour les entreprises.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video