GLM 5.2 est mon nouveau modèle préféré...
BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00Le meilleur modèle ouvert au monde actuellement ne vient pas d'une entreprise appelée OpenAI, il vient bien sûr d'un
00:00:04laboratoire chinois et il s'agit du GLM 5.2 de Zhipu. Ce modèle est vraiment impressionnant, égalant GPT 5.5 sur
00:00:10certains benchmarks, et il y a même une catégorie où il semble surpasser Claude, tout en
00:00:15étant sous licence MIT. Open, donc. Voyons voir ça. Le GLM 5.2 est un modèle de 744 milliards de paramètres au total,
00:00:26avec 40 milliards de paramètres actifs, et il a en fait la même taille que son prédécesseur, le GLM 5.1,
00:00:31ce qui rend son saut en matière d'intelligence d'autant plus impressionnant sur l'index
00:00:35d'Artificial Analysis. C'est un score combiné basé sur plusieurs benchmarks : raisonnement, codage,
00:00:40science, la totale. Le GLM 5.2 a obtenu un score de 51, soit 11 points de plus que sa précédente version,
00:00:45et il s'impose comme le meilleur modèle ouvert avec une marge confortable. On peut voir que Qwen 3.7 est juste derrière, puis Minimax M3,
00:00:51suivi de Kimi K 2.6. Cela le place en fait dans la même ligue que Gemini 3.5 Flash et GPT 5.4,
00:00:57ce qui est assez fou. Et sur quelques benchmarks inclus dans cet index, comme GPT-Eval,
00:01:03il surpasse même GPT 5.5. Si l'on se concentre spécifiquement sur le codage, il reste excellent sur l'index de codage,
00:01:09obtenant le même score que Gemini 3.1 Pro et battant même Sonnet 4.6, et il n'est pas si loin des
00:01:14meilleurs modèles de pointe. Il est aussi bien en avance sur Kimi K 2.7 Code, notre nouveau modèle, dont je sais qu'un
00:01:19bon nombre de personnes, moi y compris, sont très fans. J'ai toujours trouvé que les modèles Kimi avaient
00:01:23une sensation vraiment agréable. En dehors de l'index de codage, un autre benchmark que les gens semblent beaucoup apprécier ces
00:01:27derniers temps est SWE-bench, donc si on y jette un œil, il surpasse en fait Opus 4.7 sur un niveau d'effort moyen,
00:01:33ce qui est vraiment très impressionnant. Il est toutefois à noter que tous les modèles n'ont pas
00:01:38été testés sur celui-ci, et le harnais utilisé était en fait celui de Claude Code, en utilisant un peu d'astuces d'API
00:01:42pour pointer vers Zhipu au lieu d'Anthropic. Le dernier ensemble de benchmarks que j'aime, c'est Design Arena,
00:01:47et c'est là que les choses deviennent intéressantes. Le GLM 5.2 vient de prendre la première place globale sur le classement
00:01:53de conception web HTML en une seule étape de Design Arena, devenant le premier modèle à surpasser la lignée Claude,
00:01:58y compris Fable 5. Il semble que cela ait pu être un domaine de spécialisation du modèle, car une étude plus approfondie
00:02:02par Design Arena montre que le GLM 5.2 possède un ensemble solide de modèles experts qui évitent les anti-patterns
00:02:08courants de l'IA, donc vous devriez obtenir moins de dégradés violets, et il semble aussi très bien fonctionner
00:02:12avec des bibliothèques courantes comme Chart.js, Three.js et Tailwind. Cela vient avec un petit compromis,
00:02:18à savoir qu'il est un peu plus lent, mais j'y reviendrai plus tard. Il n'est pas non plus numéro un partout sur Design Arena :
00:02:22il arrive deuxième sur le développement de jeux, la visualisation de données et la 3D, et quatrième en ce qui concerne les composants d'interface utilisateur, mais cela reste
00:02:28super impressionnant. J'ai donc pensé à l'essayer sur quelques applications de démonstration, et la première consistait à
00:02:32recréer Linear, mais l'un des aspects gênants du GLM 5.2, ce qui est un petit inconvénient,
00:02:37est qu'il n'accepte que des modalités textuelles, donc on ne peut pas télécharger une capture d'écran et dire "recrée ça".
00:02:42J'ai donc envoyé une capture d'écran à Claude et lui ai demandé de me donner un prompt pour recréer cela,
00:02:46et c'est le prompt que j'ai fini par donner au GLM 5.2. Quoi qu'il en soit, les résultats que j'ai obtenus étaient super
00:02:51impressionnants. À gauche, j'ai la vraie page web Linear, et à droite, nous avons la recréation par GLM.
00:02:55On peut voir qu'il a bien saisi les éléments globaux, et pour la capture d'écran ici, il a en fait
00:02:59simplement recréé l'interface utilisateur, ce que je trouve très cool. En faisant défiler, on peut voir qu'il a bien saisi l'aspect
00:03:04global du site web de Linear, et je trouve que ça rend vraiment bien, donc il possède de solides compétences en design d'UI.
00:03:09Évidemment, ce n'est pas parfait puisqu'il ne pouvait pas prendre de capture d'écran, donc il fait ça
00:03:14comme une recréation du prompt textuel que je vous ai montré, mais cette page web est très jolie. À titre de comparaison,
00:03:19à gauche, voici ce que Claude Opus 4.8 m'a donné avec le même prompt exact, et celui-ci est
00:03:23Kimi K 2.7 Code, et là encore, ils ont tous fait du très bon travail en recréant le site web juste à partir de ce
00:03:29prompt, et je pense en fait préférer celui de Kimi K 2.7. Il a une sorte de sensation globale
00:03:34la plus réussie, et il semble le plus complet selon moi. Ensuite, j'ai pensé qu'il serait bon de
00:03:38donner à ces modèles un nouveau site web qu'ils n'ont probablement jamais vu auparavant, car Linear est probablement dans les
00:03:42données d'entraînement de beaucoup de ces modèles. J'ai donc simplement dit : "Conçois et construis un magnifique site web d'une page
00:03:46pour un produit fictif appelé North Star, une application de planification personnelle propulsée par l'IA". Vous pouvez voir
00:03:50qu'il y a aussi des consignes de design ici, comme vouloir une section "hero", de la preuve sociale, une section de tarification,
00:03:56tout ce qu'il y a de plus classique. Et en dessous, la direction artistique est : "Esthétique SaaS premium et propre,
00:04:00dégradés doux, typographie forte, cartes aux bords arrondis", etc. Voici le résultat obtenu de deux des
00:04:06modèles. Je vous dirai lequel est lequel à la fin, mais vous pouvez voir, en faisant défiler, que je trouve que
00:04:10ça rend vraiment bien, et je pense qu'il a fait du bon travail. C'est un site de startup assez basique avec votre
00:04:15section tarification habituelle, et c'est pareil à droite. J'aime peut-être un peu plus ce style-là,
00:04:20mais vous pouvez voir qu'il a opté pour ce look IA avec dégradés violets, mais je pense qu'il y a juste
00:04:25quelque chose chez ce site web qui semble un peu plus propre et complet pour moi, mais c'est
00:04:29purement une question d'opinion. Si vous avez un préféré, dites-le-moi dans les commentaires ci-dessous, et abonnez-vous
00:04:33pendant que vous y êtes. Celui de gauche était en fait le GLM 5.2, et celui-ci était Claude Opus 4.8.
00:04:39Pour être complet, voici ce que Kimi K 2.7 Code m'a donné, et je pense que celui-ci tombe vraiment dans ce genre
00:04:43de look et de ressenti IA avec ces dégradés violets. C'est assez similaire à celui de Claude, juste avec moins
00:04:48d'animations et moins de finitions. Je voulais aussi voir rapidement ce que le GLM 5.2 ferait si je ne lui donnais aucune
00:04:53consigne de design, donc j'ai juste donné la partie initiale du prompt, et je ne pense pas
00:04:56que le résultat soit mauvais, mais je ne suis pas sûr d'être d'accord avec Design Arena sur le fait que ça n'ait pas
00:05:01le look "IA habituel". Il utilise vraiment les dégradés violets au maximum. Pour le test suivant, j'ai ensuite
00:05:05pensé à les tester sur la création d'applications Three.js, et j'ai simplement dit : "Construis un jeu Three.js
00:05:10où je peux piloter une voiture de F1 sur Silverstone". Vous pouvez voir que celui-ci s'est mis au travail, et cela a pris
00:05:15environ 10 minutes. En faisant défiler tout en bas, il a utilisé 40 000 jetons et a coûté 32
00:05:20cents. C'est le résultat que nous a donné le GLM 5.2. Vous voyez, ça dit "Silverstone F1", "Démarrez votre
00:05:25moteur". Au fait, Lewis Hamilton vient de gagner pour Ferrari, c'est absolument génial. Je suis content de voir qu'on a
00:05:30une voiture rouge ici, celle de Ferrari. Bien qu'on soit certainement un peu plus lents que ce que j'aurais aimé,
00:05:35et une chose que je remarque ici, c'est que si j'appuie sur A, je semble aller à droite, et D à gauche, donc les contrôles sont
00:05:40inversés, mais pas sur les touches fléchées. Et ce n'est vraiment pas la vitesse à laquelle je voudrais
00:05:45qu'une Ferrari tourne sur Silverstone. Mais je veux dire, ce n'est pas trop mal pour une première tentative.
00:05:51Il semble que je vais plus vite en marche arrière, donc peut-être qu'en reculant sur la piste, ce sera mieux. J'ai essayé
00:05:55le même test avec Kimi K 2.7 Code, mais je n'ai pas obtenu d'exemple fonctionnel en une seule
00:05:59tentative. Quelque part ici, j'avais quelques erreurs de console qui tournaient en boucle, j'ai donc dû
00:06:04lui dire que j'avais quelques erreurs, mais il les a corrigées dans le deuxième prompt. Et vous pouvez voir
00:06:08que celui-ci a utilisé plus de jetons, 110 000, pour un coût de 81 cents. Le résultat obtenu était aussi
00:06:14un peu moins jouable. On dirait qu'on a un peu plus de vitesse, mais notre rayon de braquage est terrible. Je
00:06:19ne pense pas avoir déjà vu un pilote de F1 tourner comme ça, et on peut aussi traverser quelques bâtiments
00:06:23ici. C'est cool qu'ils aient les noms des virages de Silverstone, mais il n'y a pas de piste, ce sont
00:06:27apparemment juste des bollards. Le dernier, c'est Claude Opus 4.8, et celui-ci est un peu plus jouable,
00:06:33mis à part le fait qu'il ne devrait pas y avoir d'arbres au milieu de la piste de Silverstone. Je veux dire,
00:06:37la dernière fois que j'ai vérifié, il n'y en avait pas. Et ouais, c'est globalement un jeu assez bon. On a des contrôles
00:06:42de caméra ici. Mes roues n'aimeraient probablement pas ça si j'étais un pilote de F1, mais ça semble gérer
00:06:47plutôt bien. La piste elle-même, cependant, est l'une des plus confuses que j'aie jamais
00:06:52vu quelqu'un piloter. Il y a beaucoup de chevauchements ici et je ne sais pas vraiment dans quel sens
00:06:57aller. Mais je dirais qu'Opus 4.8 nous a donné la démo la plus jouable en une seule tentative. Le dernier test que j'ai fait,
00:07:02est un peu plus complexe : un front-end et un back-end à partir de zéro pour un tableau de bord de gestion des
00:07:07finances personnelles, avec quelques fonctionnalités listées ici. L'idée générale est de
00:07:11voir quelle pile technique il choisit en partant de zéro, et s'il peut relier un front-end et un back-end
00:07:16le tout en une seule tentative, sans erreur. Voici la tentative du GLM 5.2, et je dois dire, ouais, c'est
00:07:22un tableau de bord assez basique. Il n'y a rien d'extraordinaire, mais il n'y a pas non plus trop de choses complexes que vous pouvez
00:07:26faire avec le prompt que je lui ai donné. Tout semble fonctionner : j'ai ajouté des éléments à la base de données,
00:07:32j'ai payé mon abonnement Fable 5, toutes ces pages sont cliquables et tout est transféré
00:07:37entre elles quand je clique dessus. J'ai testé, il a donc fait du très bon travail à partir de
00:07:41ce seul prompt. Je suis toujours curieux de voir la pile choisie, et celui-ci est parti sur une application
00:07:46Next.js, utilisant Prisma pour la base de données. On peut voir que là-dedans, nous avons aussi une base de données
00:07:50de développement. J'aurais probablement préféré qu'il utilise Drizzle et peut-être TanStack, mais je ne peux pas vraiment
00:07:55me plaindre, je ne lui ai donné aucune consigne. Voici ce que Kimi K 2.7 Code m'a donné, et vous pouvez voir que c'est
00:07:59presque exactement la même application, juste, je dirais, un peu moins sophistiquée. Ils ont certainement certains des
00:08:04mêmes modèles dans leurs données d'entraînement quelque part qui ressemblent exactement à ça. Et là encore, ouais, je ne peux pas
00:08:09me plaindre trop, mais il manque une sorte de suppléments avec les boutons pour pouvoir
00:08:13effectuer des transferts. J'ai les fonctionnalités d'ajout de compte et d'ajout de transactions. Elles fonctionnent, mais je dirais que
00:08:18l'UI globale et l'expérience utilisateur sont un peu moins bonnes puisqu'il n'y a pas ces informations
00:08:23cliquables ici. La pile par défaut qu'il a choisie est, je dirais, aussi un peu moins bonne : il a utilisé React avec
00:08:28une configuration Vite normale et React Router, ce avec quoi je n'ai aucun problème, mais pour le back-end, il est parti sur
00:08:33Express, et si on jette un œil au fichier de base de données réel, il utilise juste Node SQLite pour écrire dedans, et
00:08:39écrire les schémas dans le texte ici, ce qui, je pense, sera un peu moins évolutif. Si j'étais
00:08:43en train de "vibe coder" complètement et que je ne connaissais rien à la pile, je choisirais probablement le GLM 5.2, mais si j'utilisais
00:08:48Kimi K 2.7 Code, j'aurais probablement donné des consignes pour utiliser Drizzle, Next.js et
00:08:53diverses autres choses, donc cela varie selon ce que vous aimez. En parlant d'être opinionné aussi, voici
00:08:58ce que Claude Opus 4.8 m'a donné. Il est parti sur un style complètement différent
00:09:03de ceux qu'on a vus avant, mais c'est une sorte de style textuel que Claude semble aimer en
00:09:07ce moment. C'est certainement ce qu'ils ont mis dans les données d'entraînement ou vers quoi ils le poussent, et tout
00:09:11cela fonctionne très bien, et ouais, je pense que ça rend vraiment bien. Je demanderais probablement d'utiliser
00:09:16des polices différentes et un jeu de couleurs différent, mais la base globale est très bonne. Il n'a
00:09:20pas vraiment fait de pages séparées pour ça, il a juste fait des sections séparées, donc peut-être que c'est moins bien, mais là encore,
00:09:25ça revient au prompt. Toutes les fonctionnalités et tout fonctionne. En jetant un coup d'œil
00:09:29au code réel qu'Opus m'a donné, je pense en fait que le GLM 5.2 a peut-être gagné sur ce coup-là. Ce qu'Opus
00:09:34a fait, c'est utiliser une application React normale, il ne s'est même pas soucié de React Router puisqu'il
00:09:38faisait tout sur cette seule page, et il est parti sur Express pour son back-end, mais il n'a
00:09:43pas fait de connexion à une base de données. Tout est en fait juste un stockage en mémoire qu'on peut voir
00:09:48ici, où il sème les données et exécute tout à partir d'un objet JavaScript, ce qui, là encore, probablement
00:09:53n'est pas ce que je veux si je dois scaler cela à l'avenir, mais ça revient au prompt. Je pense
00:09:58que c'est un peu ma principale conclusion après avoir testé ce modèle ces derniers jours. Je pense que pour beaucoup de
00:10:02tâches, vous pourriez secrètement remplacer Sonnet ou même Opus par le GLM 5.2 pour des tâches plus simples, et je
00:10:07ne le remarquerais probablement pas. C'est un modèle vraiment capable et si vous lui donnez la bonne orientation, vous obtenez
00:10:12de très bons résultats. C'est l'un des premiers modèles ouverts que je n'ai pas eu l'impression de devoir combattre pour
00:10:16l'utiliser, et aussi l'un des premiers modèles ouverts où, en l'utilisant, je n'ai pas eu ce sentiment que "je sais que Claude
00:10:21pourrait faire ça mieux ou plus vite". Les dernières choses à mentionner pour compléter ceci sont les jetons, le coût et
00:10:25la vitesse. L'un des inconvénients du GLM 5.2 pourrait être qu'il est un peu plus gourmand en jetons par rapport à
00:10:31d'autres modèles de sa catégorie. Il a utilisé une moyenne de 43 000 jetons par tâche, ce qui est plus que Kimi K 2.6,
00:10:37Minimax et DeepSeek. Mais la bonne nouvelle, c'est que ça ne coûte pas si cher, selon le
00:10:41fournisseur : c'est environ 1,40 $pour un million de jetons en entrée et 4,40$ pour un million de jetons en sortie. Et sur les
00:10:47benchmarks d'Artificial Analysis, il coûte en fait environ 50 cents par tâche, et vous pouvez voir que c'est un
00:10:52très bon point quand on compare le coût à l'intelligence. Ignorez l'étiquette Gemini ici, c'est en fait ce point bleu
00:10:57et vous pouvez voir que c'est un graphique assez chargé, mais ce que cela montre, c'est qu'à son niveau
00:11:02d'intelligence, le GLM 5.2 est le modèle le moins cher. Bien que je dirais ici que si vous pouvez accepter une baisse d'intelligence,
00:11:07je pense que Minimax et surtout DeepSeek V4 sont très bons pour ce prix. En termes de vitesse,
00:11:12le GLM 5.2 n'est en fait pas mauvais du tout. Il a surpassé la plupart des modèles ouverts proches de son niveau d'intelligence,
00:11:17donc DeepSeek V4, Kimi 2.7 Code et Minimax, et il est un peu derrière un modèle de pointe comme Gemini 3.1 Pro,
00:11:24qui a le même niveau d'intelligence, mais c'est un modèle de pointe. Et j'adorerais aussi voir Gemini
00:11:283.5 Pro ajouté à cette liste. Google, s'il vous plaît, sortez-le. En termes de vitesse également, Design Arena
00:11:33a en fait obtenu un résultat un peu différent, où ils disent que le GLM 5.2 obtient le score le plus élevé sur
00:11:38la préférence utilisateur pour le design, mais c'était aussi le plus lent parmi les meilleurs modèles. Bien qu'il soit aussi
00:11:42utile de noter que tous ces meilleurs modèles sont des modèles de pointe et non des modèles ouverts. Globalement, on a vraiment
00:11:47l'impression qu'on est à un point où ces modèles ouverts sont, disons, quatre à six mois derrière. Donc
00:11:51peut-être, trop optimiste, on pourrait envisager un modèle Fable pour l'année prochaine. Et je veux dire, eux-mêmes
00:11:56promettent quelque chose pour le premier trimestre. Et je déteste être d'accord avec cette personne sur quoi que ce soit, mais il soulève
00:12:01un bon point, qu'ils pourraient peut-être rattraper Fable sur les benchmarks, mais l'utilité réelle semble
00:12:06un peu différente. Et c'est ce en quoi Anthropic est très doué. C'est très rare de le voir
00:12:10leur faire un compliment, mais je dois être d'accord avec ce sentiment, où l'utilisation réelle
00:12:14de ces modèles semble un peu différente. Mais je pense que le GLM 5.2 est l'un des premiers à avoir
00:12:19brisé ce cycle pour moi. Je pense que si vous m'aviez dit il y a un an que ces modèles ouverts seraient aussi
00:12:23bons, j'aurais été absolument choqué et je ne vous aurais probablement pas cru. Et je ne suis pas vraiment
00:12:27un survivaliste, mais j'ai l'impression qu'avec le récent bannissement de Fable, je veux juste télécharger le GLM 5.2 et le stocker
00:12:31sur un SSD juste au cas où j'en aurais besoin plus tard. Dites-moi ce que vous pensez de ce modèle dans les commentaires
00:12:36ci-dessous, et dites-moi aussi quel est votre modèle ouvert préféré à utiliser. Pendant que vous y êtes, abonnez-vous,
00:12:40et comme toujours, on se voit dans la prochaine vidéo.