Transcript
00:00:00GLM 5.2 vient de sortir cette semaine, et c'est le modèle open source le plus puissant que nous ayons jamais
00:00:04vu. Et certains benchmarks, comme vous pouvez le voir ici, montrent même que ce modèle surpasse les géants
00:00:10comme Opus 4.8 d'Anthropic et 5.5 d'OpenAI. Mais ces benchmarks sont-ils légitimes ? Comment ce modèle
00:00:18se compare-t-il face à Opus 4.8 et GPT 5.5 ? Eh bien, c'est exactement ce à quoi nous allons répondre
00:00:25dans la vidéo d'aujourd'hui, en réalisant de multiples tests avec ces trois grands modèles pour voir
00:00:31comment il se comporte réellement dans le monde réel. De plus, nous ferons une analyse approfondie
00:00:35d'un benchmark en particulier que je trouve assez important, et nous détaillerons ce que nous entendons
00:00:40par le fait que GLM 5.2 est meilleur, dans certains cas, qu'Opus et GPT 5.5. Parlons-nous du fait
00:00:47qu'il est plus efficace, qu'il coûte moins cher, ou qu'il fait mieux tout cela en même
00:00:51temps ? Alors, sans plus attendre, plongeons dans le vif du sujet. Maintenant, avant de passer
00:00:56aux tests comparatifs, regardons d'abord quelques-uns des benchmarks existants comparant ces
00:00:59trois modèles. Celui sur lequel je veux vraiment attirer votre attention est DeepSuite. DeepSuite est
00:01:04un benchmark relativement nouveau, conçu pour être une amélioration de projets comme Terminal
00:01:08Bench et Terminal Bench Pro. Je ne vais pas entrer dans les moindres détails de ce benchmark,
00:01:12vous pouvez consulter leur site web ou leur dépôt GitHub pour plus d'informations. Il se concentre
00:01:17sur des tâches agentiques de longue durée, spécifiquement 113 tâches en TypeScript, Go, Python, JavaScript,
00:01:23et Rust, avec des environnements isolés et des vérificateurs basés sur des programmes. Et sur ce graphique,
00:01:29nous pouvons voir le score, le pourcentage de réussite sur la gauche, ainsi que le coût moyen
00:01:34par tâche. Nous voulons être en haut à droite. La zone la plus efficace est ici, en haut
00:01:39à droite. C'est là que nous obtenons le meilleur score au coût le plus bas. Et nous voyons ici que GLM 5.2
00:01:44max nous donne 44 % à 3,92 $ par tâche. Si nous comparons cela à Opus 4.8 et GPT 5.5, nous voyons
00:01:55qu'ils font bien mieux. Au maximum, Opus 4.8 atteint 59 %, et 5.5 atteint 67 % au niveau extra élevé. Évidemment,
00:02:04aux niveaux extra élevé et max, nous avons un coût assez important. Pour GPT 5.5, c'est 7,23 $. 13 $ pour Opus,
00:02:12et pour GLM, c'est 3,92 $. Donc beaucoup moins cher. Cependant, quand nous regardons les différents niveaux d'effort
00:02:19à 5.5 et pour Opus, si nous sommes au niveau moyen, par exemple avec Opus 4.8, nous allons obtenir
00:02:25un score plus élevé que GLM 5.2, et nous serons moins chers. Soit 49 % à 3,44 $contre 44 % à 3,92$. Et c'est
00:02:36significatif, avec 5.5 à 54 % pour 2,75 $contre 44 % à 3,92$. Donc, d'emblée, sur ce benchmark,
00:02:47si on le prend tel quel, 4.8 et 5.5 sont un cran au-dessus de GLM 5.2. Et ce n'est pas surprenant. Ce sont
00:02:55les meilleurs des meilleurs modèles de pointe. Ce ne sont pas des modèles open source. Et si nous mettons vraiment
00:03:01le paquet, ils vont un peu surpasser GLM 5.2 sur ces tâches à long horizon, ce qui
00:03:07était attendu. Ce que vous n'auriez peut-être pas attendu, c'est le fait qu'il puisse faire mieux pour moins cher,
00:03:11ce qui est un problème. Et je voulais juste souligner cela, car je sais qu'il y a beaucoup
00:03:16de discussions et beaucoup de battage médiatique en ce moment autour de GLM 5.2 et du fait qu'il est open source. Et vous savez,
00:03:21cela implique immédiatement que, oh, c'est super, super bon marché. Et nous pouvons faire de très bonnes choses.
00:03:25Eh bien, en regardant les chiffres, c'est bon, mais ce n'est pas 4.8 ou 5.5 selon ce benchmark. Et rappelez-vous,
00:03:33ces chiffres pour 4.8 et 5.5 sont basés sur les coûts de l'API. Si je suis sur le plan max, c'est 10 fois moins cher
00:03:40que cela. Même chose si je suis juste sur le plan à 100 $ou 200$ par mois d'OpenAI. Donc
00:03:46c'est une autre chose à prendre en compte. Donc je voulais juste calmer les ardeurs de ceux qui disent que GLM est beaucoup moins cher, car ce n'est pas vraiment le cas. Et même si c'est open source,
00:03:50parce que ce n'est pas vraiment ça.
00:03:56GLM 5.2, le modèle open source qui obtient ces chiffres, n'est pas vraiment open source. Comme, vous
00:04:01ne pouvez pas juste télécharger ceci sur votre ordinateur. C'est open source dans le sens où vous pouvez voir le code,
00:04:05vous pouvez voir les poids. Ce n'est pas open source dans le sens où je peux aller le récupérer
00:04:09sur Ollama. Je peux l'exécuter sur mon PC personnel. Non, vous ne pouvez pas. Non, vous ne pouvez pas. Il s'agit de presque un
00:04:14billion de paramètres. Cela nécessite une tonne de matériel pour fonctionner. Donc ne soyez pas confus, car je sais
00:04:20qu'il y a une partie de la population qui l'est, mais c'est juste pour poser le décor. Et encore,
00:04:24c'est basé sur DeepSuite. Ce sont des tâches très intenses. Et
00:04:30aujourd'hui, nous allons faire quelques tests différents qui sont un peu plus accessibles et qui sont
00:04:35probablement plus représentatifs de ce que vous, l'utilisateur moyen, exécutez. Donc, quelque chose à garder
00:04:39en tête. Et juste pour que nous soyons tous sur la même longueur d'onde, voici ce que nous regardons en termes de coûts
00:04:44par jeton. Rappelez-vous, la raison pour laquelle c'était moins cher pour Opus 4.8 et 5.5, c'est parce qu'ils utilisaient beaucoup moins
00:04:50de jetons pour faire ce dont ils avaient besoin. C'était tout simplement plus efficace, mais sur une base par jeton.
00:04:55Et rappelez-vous, pour l'entrée et la sortie, c'est par million de jetons : GLM 5.2, 1,40 $ pour l'entrée,
00:05:01et 4,40 $ pour la sortie. Opus 4.8 est 5,7 fois plus cher. Et 5.5 de GPT est 6,8 fois plus
00:05:10cher. Donc, sur une base par jeton, c'est beaucoup moins cher. Mais rappelez-vous, nous nous soucions des résultats d'une tâche,
00:05:16pas nécessairement d'une comparaison jeton pour jeton. Et maintenant, avant de passer aux tests réels,
00:05:21un petit mot du sponsor d'aujourd'hui : moi. Je viens de publier ma Masterclass Cloud Code dans
00:05:26Chase AI Plus, et c'est le meilleur moyen de passer de zéro à développeur IA, surtout si vous n'avez
00:05:30pas de formation technique. Je mets cela à jour chaque semaine, et cela inclut également des masterclasses sur les codecs
00:05:35et sur la création de votre propre système d'exploitation agentique. Donc, si c'est quelque chose que vous voulez approfondir et que vous
00:05:40ne savez pas par où commencer, Chase AI Plus est l'endroit pour vous. Il y a un lien vers cela dans les commentaires épinglés.
00:05:46Voici comment nous allons effectuer ce test. Nous allons donner à chaque modèle la même
00:05:49invite en mode plan. Il va nous donner le plan. Nous pourrions faire quelques allers-retours,
00:05:53selon ce que nous pensons du plan qu'il propose. Et après cela, nous le laisserons s'exécuter.
00:05:58Après l'exécution, j'appliquerai mes critères de notation extrêmement subjectifs au résultat final et je vous ferai savoir
00:06:03lequel je préfère. Si vous n'aimez pas mes critères de notation ou ce que je décide être le meilleur, assurez-vous de
00:06:08laisser un commentaire. Je m'assurerai aussi de supprimer votre commentaire. Maintenant, ici sur la gauche, nous avons
00:06:14GPT 5.5 dans Codex sur extra élevé. Nous avons OpenCode au milieu exécutant GLM 5.2 sur extra élevé
00:06:21routé via OpenRouter. Et ici sur la droite, nous avons Cloud Code exécutant Opus 4.8
00:06:26sur élevé. Pourquoi ai-je choisi ces paramètres d'effort particuliers ? Parce que c'est comme ça que la plupart des gens
00:06:32utilisent ces modèles dans la vie réelle. Et il y a de fortes chances que vous soyez soit sur le plan max, soit sur une sorte
00:06:37de plan OpenAI, et vous ne l'exécutez probablement pas sur Moyen. Soyons honnêtes. Donc je pense que c'est une
00:06:42meilleure représentation de la façon dont votre utilisateur moyen utilise réellement ces modèles au quotidien.
00:06:47Donc, pour notre première invite, nous allons lui demander de construire un jeu de course en 3D jouable qui s'exécute dans le
00:06:51navigateur. Et surtout, nous gardons cette invite un peu vague. Je dis que vous avez toute liberté pour
00:06:56aller sur le web et choisir la pile et la bibliothèque que vous pensez être les meilleures pour exécuter cela. Alors
00:07:02allons-y et voyons ce qui se passe. Donc nous avons les trois modèles fonctionnant en mode plan.
00:07:08Et encore une fois, l'idée derrière le fait de rendre l'invite un peu vague est que nous voulons voir autant de
00:07:12divergence de la part de ces modèles que possible. Si je lui avais donné la feuille de route exacte, comment faire chaque chose,
00:07:18eh bien, alors nous ne verrions vraiment pas comment ces modèles pensent et comment ils abordent davantage des
00:07:23problèmes de type désordonné. Donc, après 13 minutes, Opus 4.8 a été le premier à finir de créer le jeu de course.
00:07:29Alors regardons ce qu'il a fait. Donc ici, nous sommes un peu en low poly. Il a du
00:07:37son. Le mouvement est assez fluide. On dirait que nous avons la capacité de dériver ici aussi.
00:07:44Okay, l'herbe interfère avec le fonctionnement de la physique. Dans l'ensemble, c'est assez fluide, mais vous
00:07:54savez, relativement ennuyeux, non ? C'est un circuit de course assez basique. Rien de fou, il n'a pas ajouté
00:07:59d'IA ou quoi que ce soit de ce genre. Donc je suis intéressé de voir comment les autres modèles se comportent en termes de
00:08:04complexité et ce que je ferai probablement après ce premier test si tous sont un peu comme la même vision
00:08:09fade. Nous allons probablement donner une autre invite pour monter la mise. Ensuite
00:08:13c'est GLM 5.2. Donc cela a pris environ cinq minutes de plus que Claude Code. Pour référence, GPT 5.5 travaille toujours,
00:08:20ce qui ne me surprend pas trop. Il a tendance à être un peu plus lent. En termes de comparaison de jetons,
00:08:26Claude Code a utilisé environ 100 000 jetons pour créer cela. Et GLM 5.2 en a pris plus d'un million. Et nous pouvons jeter un œil
00:08:33à l'intérieur d'Open Router pour cette exécution, où la dépense totale était de 1,21 $. Et le volume total de jetons était de 1,35
00:08:41million pour créer ce jeu. Donc, tout de suite, c'est une piste intéressante que nous avons.
00:08:48Les commandes sont assez saccadées, par rapport à ce que nous avions avec Claude Code. Je bouge
00:08:53très vite par rapport à la piste elle-même. Très vite. Comme si je criais à travers cela. Et nous sommes aussi comme
00:09:00juste il n'y a pas vraiment de différenciation entre la piste et le champ lui-même. Et dans
00:09:09certains cas, j'étais capable de presque, comme vous l'avez vu là, traverser la piste, mais pas vraiment.
00:09:15Donc, la voiture elle-même est un peu moins détaillée que ce que nous avons vu à l'intérieur de Claude Code. Je veux dire,
00:09:23il y a une piste, il y a un minuteur. En termes de gameplay réel, un peu bancal pour ce que c'est,
00:09:30pas aussi fluide. Et aussi, encore une fois, avec la situation low poly comme nous l'avons vu avec
00:09:36Opus. Donc, j'adorerais voir ce qu'il fait si nous lui disons de vraiment créer quelque chose qui semble
00:09:40mieux. Et aussi cette piste elle-même n'a pas vraiment beaucoup de sens. Donc maintenant nous regardons
00:09:44ce que GPT 5.5 a créé. Il l'appelle le circuit de fonderie, le contre-la-montre de nuit de trois tours
00:09:50à travers les aciéries. Donc, quelque chose de différent, j'imagine, que la piste générique que nous avons vue dans les
00:09:54deux dernières. Donc, commençons cela. Et c'est parti. Eh bien, je ne sais pas vraiment où je suis
00:10:04censé aller. Oh, je suppose que c'est la piste. Les roues ont l'air assez intéressantes. Elles tournent
00:10:10dans le mauvais sens. Donc c'est quelque chose. Okay, il y a des bruits très ennuyeux, en fait.
00:10:21Et je ne peux pas vraiment passer outre les roues tournant horizontalement, ou peu importe comment vous décririez cela.
00:10:28La piste elle-même est correcte, on peut se déplacer. Oui, vous pouvez aller au-delà de la piste et cela vous ralentit. Mais ce n'est pas
00:10:35clair que c'est une piste pavée, comme nous l'avons vu avec ce qu'Opus a construit. Et le reste est,
00:10:41vous savez, le champ. Donc des graphismes assez étranges, honnêtement. Aussi, quand vous considérez le fait
00:10:48que deux fois plus long qu'Opus, c'est assez bizarre. Oui, honnêtement, assez étrange. Encore,
00:10:55pourquoi, pourquoi a-t-il fait cela avec les roues ? Je n'en ai aucune idée. Encore une fois, il a opté pour le low poly.
00:11:00Et c'est juste très sombre, apparemment sans raison. Donc je veux dire, j'ai presque l'impression que
00:11:06c'est plus fonctionnel que ce que nous avons obtenu avec GLM 5.2, mais pas beaucoup mieux. Et vous considérez aussi le fait
00:11:12que c'était en extra élevé sur 5.5. Maintenant, en termes d'utilisation de jetons pour 5.5,
00:11:17cela représentait à peu près ce que nous avons vu avec Claude Code. Il a utilisé 7 % de sa fenêtre de cinq heures. Donc presque
00:11:22rien. Maintenant, classement général, j'aurais mis Opus 4.8 clairement en avance sur GLM 5.2 et 5.5. Je pensais que
00:11:28les deux derniers étaient assez bancals, mais nous allons leur donner une autre chance parce que
00:11:32nous allons leur dire de jeter un autre regard sur le code, de faire un autre passage. Et nous voulons aussi qu'ils
00:11:36fassent beaucoup mieux en termes de graphismes. Je ne veux pas du low poly. Je veux que cela ressemble
00:11:40à un jeu triple A ou aussi proche que possible. Alors voyons ce qui se passe quand nous leur donnons
00:11:46une deuxième tentative. Donc Opus et GLM ont terminé leur deuxième passage et 5.5 termine là. Donc
00:11:50jetons un œil d'abord à Opus 4.8. Donc tout de suite, nous voyons une voiture bien meilleure. C'est une énorme
00:11:58amélioration concernant la voiture par rapport à ce que nous avons vu auparavant. Nous voyons aussi un éclairage très différent.
00:12:04Comme vous pouvez voir le soleil réfléchi sur le sol lui-même et tout semble beaucoup plus fluide. Je veux dire,
00:12:10les arbres eux-mêmes sont des sortes de low poly, mais l'éclairage et surtout la voiture
00:12:15sont un grand pas en avant. Et il garde toujours ce même gameplay fluide. Je veux dire, à part le fait
00:12:20que nous avons des arbres sur la route, mais les arbres eux-mêmes sont aussi ombragés. Et pour un passage supplémentaire
00:12:26qui a pris 10 minutes et environ 50 000 jetons, pas mal. Maintenant, regardons GLM. Et à ce stade,
00:12:32cela a pris environ 1,2 million de jetons de plus pour effectuer cette mise à jour, portant notre dépense totale à 1,83 $.
00:12:38Donc démarrons-le. Et il semble qu'il ait essayé d'ajouter un éclairage différent. La voiture a l'air
00:12:46un peu meilleure, mais l'éclairage lui-même est assez étrange. C'est juste très éblouissant. La piste
00:12:52elle-même n'a pas beaucoup changé. Vous savez, c'est encore un peu comme de l'herbe partout. Et les
00:12:57commandes sont encore très saccadées, non ? Je vais très vite par rapport à la piste. Même genre de problème
00:13:04que j'avais avant où une partie de la piste je peux la traverser, une autre je ne peux pas. Donc, je veux dire,
00:13:10les graphismes de la voiture sont meilleurs, mais je dirais que l'éclairage et l'éblouissement sont si distrayants.
00:13:15C'est probablement une régression par rapport à ce que nous avions avant. Et voici le deuxième passage avec 5.5. Maintenant
00:13:21la voiture a l'air un peu meilleure, mais en regardant tout le reste, c'est un peu la même chose. Eh bien,
00:13:29les roues sont meilleures. Nous avons corrigé le problème des roues. Elles tournent vraiment comme des roues devraient,
00:13:34mais il y a encore des bruits ennuyeux. Et il n'y a pas vraiment de différenciation encore, entre le chemin
00:13:42et l'herbe. Donc cela donne l'impression d'être un peu la même chose qu'il a fait la première fois avec une
00:13:49voiture légèrement meilleure. Mais vous savez, quand nous lui avons dit de viser une esthétique triple A, je ne dirais pas qu'il
00:13:55a atteint l'objectif. Et encore une fois, je pense que globalement, si nous regardons ces trois modèles, GLM et 5.5 sont définitivement un cran
00:14:02en dessous d'Opus. Maintenant, pour notre prochain test, nous allons lui demander de nous construire un site web. Et l'invite que nous allons
00:14:07utiliser est celle-ci. Nous voulons qu'il construise une fausse page de destination pour un produit, qui est des lunettes intelligentes
00:14:12alimentées par IA. Pensez à quelque chose comme les lunettes Meta Ray-Bans. Encore une fois, nous donnons à ces modèles toute liberté en
00:14:16termes de pile et de conception. Nous lui disons de choisir ce qu'il pense être le mieux, installer ce dont nous
00:14:20avons besoin et rechercher les meilleures pratiques pour créer des pages de destination. Nous lui disons, Hey, allez-y et trouvez
00:14:25des images et des photos de produits. Et ne comptez pas uniquement sur la création de votre propre truc HTML. Et surtout,
00:14:31faites en sorte que cela ressemble à un site récompensé. Nous ne voulons pas que cela ressemble à de l'IA médiocre. Nous voulons une vraie
00:14:35hiérarchie visuelle, une typographie intentionnelle, et du mouvement là où cela a du sens. Donc page de destination pour des lunettes intelligentes,
00:14:42nous voulons que ce soit un style de type site récompensé. Alors voyons ce qu'ils proposent. Donc les trois
00:14:46ont terminé pour référence, GLM a utilisé environ un million de jetons pour exécuter cela tandis qu'Opus et 5.5
00:14:53ont utilisé environ cent mille, à peu près. Donc d'abord nous avons ce qu'Opus a construit pour nous, fond très sombre.
00:14:58Il a une sorte de ces lunettes qu'il a créées, et le texte est un peu coupé ici, ce qui est
00:15:04malheureux. En descendant, c'est aussi un peu bizarrement placé parce que nous pouvons voir le texte de défilement
00:15:12un peu par-dessus. Mais quand je passe la souris, vous pouvez voir qu'il bouge un peu et change
00:15:18de couleur, ce qui est plutôt cool. En faisant défiler, nous avons quelques animations de
00:15:24chargement de défilement pour tout. Mais dans l'ensemble, cela semble bien pour les lunettes elles-mêmes qui utilisent HTML.
00:15:31Donc, c'est comme, qu'est-ce que vous obtenez vraiment de cela ? Il n'a même pas trouvé de lunettes
00:15:35à utiliser. Et il a, vous savez, hé, voici comment vous pouvez réserver et voici comment vous pouvez acheter. Donc
00:15:41c'est correct. Encore une fois, nous ne lui avons pas donné beaucoup de direction, mais nous lui avons dit d'opter pour un look type
00:15:45site récompensé. Je ne considérerais pas cela à ce niveau-là. Maintenant regardons ce que GLM nous a construit.
00:15:51Et je ne sais pas vraiment ce qui se passe ici du tout. En fait, c'est presque à peine chargé.
00:15:59Il nous montre des lunettes, mais ce site est un peu un désastre. C'est comme s'il n'avait même pas
00:16:04vraiment fini. Il a presque juste tout jeté ensemble. Oui. Oui, l'invite n'était pas super
00:16:13détaillée, mais il devrait être capable de faire plus que cela sur la base de ce que je lui donne. C'est en fait
00:16:19terrible. Je n'ai aucune idée de ce qu'il essayait d'accomplir ici. Et enfin, nous avons GPT 5.5. Donc
00:16:25c'est un peu intéressant. Je pense que cela a l'air plutôt cool, bien que les lunettes
00:16:30chevauchent quelque peu le texte ici. Et nous avons beaucoup d'espace mort, ce que vous pourriez argumenter comme
00:16:34étant un choix de conception. Et nous avons la bannière qui bouge réellement, vous vous souviendrez que la
00:16:39version Opus avait une bannière, mais elle ne bougeait pas. Et puis en faisant défiler, vous remarquerez aussi que le
00:16:44curseur est un peu multicolore. Et en faisant défiler, on dirait qu'il a créé des actifs de type
00:16:50HTML. Je veux dire, étrange, non ? Nous lui avons dit, hé, vous pouvez aller trouver ce dont vous avez besoin en ligne
00:16:55si vous le souhaitez. Mais dans l'ensemble, probablement le meilleur des trois. Mais, vous savez, je ne dirais pas que j'étais amoureux
00:17:04d'aucun de ces modèles. Cela montre à quel point il faut avoir une main ferme quand on fait
00:17:09n'importe quelle sorte de conception visuelle ou des choses d'interface utilisateur comme même ces modèles les plus avancés luttent
00:17:14comme je n'ai aucune idée de ce qui se passe. C'est un désastre. Donc, dans l'ensemble, Opus était
00:17:21correct. 5.5 était le meilleur du lot et GLM était en fait un échec complet. Et tout comme nous l'avons fait avec
00:17:26la version jeu, nous allons leur donner un deuxième passage à cela et voir s'ils peuvent nettoyer ce qui s'est
00:17:30mal passé. Et en plus de cela, nous allons leur demander d'intégrer, de manière similaire, encore une fois, au jeu que nous leur avons fait
00:17:36créer, quelques éléments 3JS, comme nous voulons vraiment voir comment il peut repousser ses capacités avec
00:17:42des choses comme le mouvement et les graphismes et ce genre de chose. Et cette nouvelle invite ressemble à ceci : prenez
00:17:46la page de destination des lunettes intelligentes que vous venez de construire et reconstruisez-la comme une expérience 3D immersive en utilisant
00:17:51three.js. Donc nous voulons une scène 3D interactive réelle. Et encore une fois, nous lui donnons toute liberté pour
00:17:56l'exécuter comme bon lui semble. Et donc voici ce que nous avons obtenu avec Opus 4.8. Vous pouvez voir maintenant qu'il a ajouté
00:18:02quelques 3JS, ces lunettes bougent un peu. Mais au-delà de cela, nous avons certains des problèmes originaux,
00:18:08non ? Le texte étant coupé, étant écrasé ici. Et le reste de cela étant juste, homme, comme ceci est assez
00:18:13évident que l'IA a créé cela. Oh, fin de note, comme les coûts de jetons
00:18:21étaient à peu près égaux lors de la deuxième exécution pour tous ces modèles par rapport à la première. Ensuite,
00:18:27nous avons GLM 5.2. Et cette fois, il a réellement créé un site web qui a du sens. Nous avons ces lunettes,
00:18:32bien que les lunettes créées soient un peu étranges, comme si vous aviez seulement, vous savez,
00:18:36aucune lunette ne ressemblerait à cela, et le texte est aussi coupé ici. Mais nous avons une bannière
00:18:42qui défile quand je passe au-dessus, elle s'arrête. Et je dirais dans l'ensemble, en termes de
00:18:48la façon dont il a agencé le site web, je lui donnerais probablement l'avantage sur Opus. Maintenant, je ne pense pas
00:18:55qu'aucun des deux ne soit particulièrement bon. Et nous leur avons donné carte blanche pour faire ce qu'ils voulaient. Mais
00:18:59je mettrais cela au-dessus de ce genre de configuration. Bien que en termes de section principale elle-même,
00:19:05j'aime mieux Opus 4.8. Maintenant, GPT 5.5, je pense est le gagnant ici. Je pense que cela semble
00:19:10meilleur globalement d'un point de vue de conception subjectif. Et je pense que les graphismes de mouvement 3JS
00:19:18qu'il a ajoutés ici sont plutôt cool. Je pense que cela a du sens dans le contexte de ce qu'il a créé. Comme nous avons
00:19:22tout cet espace blanc en haut et les lunettes, vous savez, sont capables de vivre là. Et pour le
00:19:27reste du site web, je pense qu'il semble correct. Encore une fois, cela semble toujours très, guillemet, guillemet,
00:19:32IA médiocre dans le sens où l'IA a définitivement créé cela, mais ce n'est pas mauvais. Et comme de haut
00:19:37en bas, je préfère ce que 5.5 nous a donné par rapport à tous les autres. Et donc quand nous jetons un œil à cette
00:19:42chose, en intégrant ces benchmarks plus sophistiqués, comme DeepSuite aux côtés de
00:19:48ce que nous venons de faire aujourd'hui, je pense que c'est un peu ce à quoi nous nous attendions. Je ne pense pas que GLM ait fait extrêmement mal
00:19:56dans n'importe quel sens du terme, mais il semblait définitivement être un cran en dessous de GPT 5.5 ou 4.8 ou dans
00:20:03des scénarios où, vous savez, dans la première section où Opus était meilleur que tous. Et dans
00:20:07la deuxième section où GPT était meilleur que tous, GLM était toujours près du fond. Ce n'était pas
00:20:12grossièrement pire qu'aucun d'entre eux, mais ce n'était certainement pas meilleur. Et il a aussi utilisé infiniment plus de jetons.
00:20:17Et donc quand nous jetons un œil à quelque chose comme ceci, le score DeepSuite, où c'est comme,
00:20:21hé, GLM est un peu au fond et est en fait moins efficace que 5.5 et 4.8, à la fois en termes de
00:20:27coût et de performance. Cela a du sens. Je pense que c'est un peu ce que nous voyons. Et donc, grande
00:20:35image, GLM est-il un excellent modèle open source ? Certainement. Mais rencontre-t-il certains problèmes que les modèles open source
00:20:41ont en général, à savoir, ils ne sont pas aussi puissants ? Oui. Et en outre, si vous êtes quelqu'un qui est
00:20:47à fond open source, comprenez que ce n'est pas quelque chose que vous exécuteriez sur votre PC, n'est-ce pas ? Cela nécessite une
00:20:52tonne de matériel pour être utilisé. Et je pense que ce qui se perd dans la conversation est ce dont nous avons parlé au
00:20:57début, qui est, okay, les coûts sont déjà un problème pour GLM 5.2. Pourtant, cela
00:21:05ne prend même pas en compte l'énorme subvention que vous obtenez soit sur le plan Anthropic Max, soit sur le plan OpenAI
00:21:12Max. Donc, vous gardez cela à l'esprit, et okay, il n'y a pas vraiment de débat.
00:21:16Il n'y a vraiment pas de débat. Donc, suggérerais-je d'utiliser GLM 5.2 pour votre utilisateur moyen ? Non,
00:21:24pas vraiment. Je pense peut-être si vous faites des tâches de niveau inférieur et que vous êtes quelqu'un qui compare
00:21:29cela uniquement sur les prix de l'API, peut-être, peut-être. Mais, vous savez, je pense qu'il est assez difficile de soutenir cela
00:21:38parce que alors que faisons-nous quand le prochain, quand, vous savez, Sonnet 5 sort la semaine prochaine ? Comme,
00:21:42allez-vous simplement sauter de là à là ? Comme il y a quelque chose à dire sur le fait de simplement
00:21:46s'en tenir au modèle, surtout quand nous parlons plus de trucs au niveau de l'équipe entreprise,
00:21:50où les coûts d'API commencent vraiment à s'additionner. Parce qu'encore une fois, pour l'utilisateur individuel moyen qui va
00:21:55utiliser l'un des plans subventionnés et qui ne paie pas directement les coûts d'API, je ne vois pas d'argument pour
00:22:01GLM 5.2. Donc c'est là que je vais vous laisser aujourd'hui. J'espère avoir apporté un peu de lumière sur
00:22:05ce débat GLM et tout le battage médiatique que vous voyez autour de cela. Comme toujours, laissez-moi savoir ce que
00:22:09vous avez pensé dans les commentaires. Assurez-vous de consulter Chase AI Plus si vous voulez mettre la main sur la
00:22:13Masterclass Cloud Code, et je vous verrai autour.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video