GLM 5.2 est mon nouveau modèle préféré...

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Le meilleur modèle ouvert au monde actuellement ne vient pas d'une entreprise appelée OpenAI, il vient bien sûr d'un
00:00:04laboratoire chinois et il s'agit du GLM 5.2 de Zhipu. Ce modèle est vraiment impressionnant, égalant GPT 5.5 sur
00:00:10certains benchmarks, et il y a même une catégorie où il semble surpasser Claude, tout en
00:00:15étant sous licence MIT. Open, donc. Voyons voir ça. Le GLM 5.2 est un modèle de 744 milliards de paramètres au total,
00:00:26avec 40 milliards de paramètres actifs, et il a en fait la même taille que son prédécesseur, le GLM 5.1,
00:00:31ce qui rend son saut en matière d'intelligence d'autant plus impressionnant sur l'index
00:00:35d'Artificial Analysis. C'est un score combiné basé sur plusieurs benchmarks : raisonnement, codage,
00:00:40science, la totale. Le GLM 5.2 a obtenu un score de 51, soit 11 points de plus que sa précédente version,
00:00:45et il s'impose comme le meilleur modèle ouvert avec une marge confortable. On peut voir que Qwen 3.7 est juste derrière, puis Minimax M3,
00:00:51suivi de Kimi K 2.6. Cela le place en fait dans la même ligue que Gemini 3.5 Flash et GPT 5.4,
00:00:57ce qui est assez fou. Et sur quelques benchmarks inclus dans cet index, comme GPT-Eval,
00:01:03il surpasse même GPT 5.5. Si l'on se concentre spécifiquement sur le codage, il reste excellent sur l'index de codage,
00:01:09obtenant le même score que Gemini 3.1 Pro et battant même Sonnet 4.6, et il n'est pas si loin des
00:01:14meilleurs modèles de pointe. Il est aussi bien en avance sur Kimi K 2.7 Code, notre nouveau modèle, dont je sais qu'un
00:01:19bon nombre de personnes, moi y compris, sont très fans. J'ai toujours trouvé que les modèles Kimi avaient
00:01:23une sensation vraiment agréable. En dehors de l'index de codage, un autre benchmark que les gens semblent beaucoup apprécier ces
00:01:27derniers temps est SWE-bench, donc si on y jette un œil, il surpasse en fait Opus 4.7 sur un niveau d'effort moyen,
00:01:33ce qui est vraiment très impressionnant. Il est toutefois à noter que tous les modèles n'ont pas
00:01:38été testés sur celui-ci, et le harnais utilisé était en fait celui de Claude Code, en utilisant un peu d'astuces d'API
00:01:42pour pointer vers Zhipu au lieu d'Anthropic. Le dernier ensemble de benchmarks que j'aime, c'est Design Arena,
00:01:47et c'est là que les choses deviennent intéressantes. Le GLM 5.2 vient de prendre la première place globale sur le classement
00:01:53de conception web HTML en une seule étape de Design Arena, devenant le premier modèle à surpasser la lignée Claude,
00:01:58y compris Fable 5. Il semble que cela ait pu être un domaine de spécialisation du modèle, car une étude plus approfondie
00:02:02par Design Arena montre que le GLM 5.2 possède un ensemble solide de modèles experts qui évitent les anti-patterns
00:02:08courants de l'IA, donc vous devriez obtenir moins de dégradés violets, et il semble aussi très bien fonctionner
00:02:12avec des bibliothèques courantes comme Chart.js, Three.js et Tailwind. Cela vient avec un petit compromis,
00:02:18à savoir qu'il est un peu plus lent, mais j'y reviendrai plus tard. Il n'est pas non plus numéro un partout sur Design Arena :
00:02:22il arrive deuxième sur le développement de jeux, la visualisation de données et la 3D, et quatrième en ce qui concerne les composants d'interface utilisateur, mais cela reste
00:02:28super impressionnant. J'ai donc pensé à l'essayer sur quelques applications de démonstration, et la première consistait à
00:02:32recréer Linear, mais l'un des aspects gênants du GLM 5.2, ce qui est un petit inconvénient,
00:02:37est qu'il n'accepte que des modalités textuelles, donc on ne peut pas télécharger une capture d'écran et dire "recrée ça".
00:02:42J'ai donc envoyé une capture d'écran à Claude et lui ai demandé de me donner un prompt pour recréer cela,
00:02:46et c'est le prompt que j'ai fini par donner au GLM 5.2. Quoi qu'il en soit, les résultats que j'ai obtenus étaient super
00:02:51impressionnants. À gauche, j'ai la vraie page web Linear, et à droite, nous avons la recréation par GLM.
00:02:55On peut voir qu'il a bien saisi les éléments globaux, et pour la capture d'écran ici, il a en fait
00:02:59simplement recréé l'interface utilisateur, ce que je trouve très cool. En faisant défiler, on peut voir qu'il a bien saisi l'aspect
00:03:04global du site web de Linear, et je trouve que ça rend vraiment bien, donc il possède de solides compétences en design d'UI.
00:03:09Évidemment, ce n'est pas parfait puisqu'il ne pouvait pas prendre de capture d'écran, donc il fait ça
00:03:14comme une recréation du prompt textuel que je vous ai montré, mais cette page web est très jolie. À titre de comparaison,
00:03:19à gauche, voici ce que Claude Opus 4.8 m'a donné avec le même prompt exact, et celui-ci est
00:03:23Kimi K 2.7 Code, et là encore, ils ont tous fait du très bon travail en recréant le site web juste à partir de ce
00:03:29prompt, et je pense en fait préférer celui de Kimi K 2.7. Il a une sorte de sensation globale
00:03:34la plus réussie, et il semble le plus complet selon moi. Ensuite, j'ai pensé qu'il serait bon de
00:03:38donner à ces modèles un nouveau site web qu'ils n'ont probablement jamais vu auparavant, car Linear est probablement dans les
00:03:42données d'entraînement de beaucoup de ces modèles. J'ai donc simplement dit : "Conçois et construis un magnifique site web d'une page
00:03:46pour un produit fictif appelé North Star, une application de planification personnelle propulsée par l'IA". Vous pouvez voir
00:03:50qu'il y a aussi des consignes de design ici, comme vouloir une section "hero", de la preuve sociale, une section de tarification,
00:03:56tout ce qu'il y a de plus classique. Et en dessous, la direction artistique est : "Esthétique SaaS premium et propre,
00:04:00dégradés doux, typographie forte, cartes aux bords arrondis", etc. Voici le résultat obtenu de deux des
00:04:06modèles. Je vous dirai lequel est lequel à la fin, mais vous pouvez voir, en faisant défiler, que je trouve que
00:04:10ça rend vraiment bien, et je pense qu'il a fait du bon travail. C'est un site de startup assez basique avec votre
00:04:15section tarification habituelle, et c'est pareil à droite. J'aime peut-être un peu plus ce style-là,
00:04:20mais vous pouvez voir qu'il a opté pour ce look IA avec dégradés violets, mais je pense qu'il y a juste
00:04:25quelque chose chez ce site web qui semble un peu plus propre et complet pour moi, mais c'est
00:04:29purement une question d'opinion. Si vous avez un préféré, dites-le-moi dans les commentaires ci-dessous, et abonnez-vous
00:04:33pendant que vous y êtes. Celui de gauche était en fait le GLM 5.2, et celui-ci était Claude Opus 4.8.
00:04:39Pour être complet, voici ce que Kimi K 2.7 Code m'a donné, et je pense que celui-ci tombe vraiment dans ce genre
00:04:43de look et de ressenti IA avec ces dégradés violets. C'est assez similaire à celui de Claude, juste avec moins
00:04:48d'animations et moins de finitions. Je voulais aussi voir rapidement ce que le GLM 5.2 ferait si je ne lui donnais aucune
00:04:53consigne de design, donc j'ai juste donné la partie initiale du prompt, et je ne pense pas
00:04:56que le résultat soit mauvais, mais je ne suis pas sûr d'être d'accord avec Design Arena sur le fait que ça n'ait pas
00:05:01le look "IA habituel". Il utilise vraiment les dégradés violets au maximum. Pour le test suivant, j'ai ensuite
00:05:05pensé à les tester sur la création d'applications Three.js, et j'ai simplement dit : "Construis un jeu Three.js
00:05:10où je peux piloter une voiture de F1 sur Silverstone". Vous pouvez voir que celui-ci s'est mis au travail, et cela a pris
00:05:15environ 10 minutes. En faisant défiler tout en bas, il a utilisé 40 000 jetons et a coûté 32
00:05:20cents. C'est le résultat que nous a donné le GLM 5.2. Vous voyez, ça dit "Silverstone F1", "Démarrez votre
00:05:25moteur". Au fait, Lewis Hamilton vient de gagner pour Ferrari, c'est absolument génial. Je suis content de voir qu'on a
00:05:30une voiture rouge ici, celle de Ferrari. Bien qu'on soit certainement un peu plus lents que ce que j'aurais aimé,
00:05:35et une chose que je remarque ici, c'est que si j'appuie sur A, je semble aller à droite, et D à gauche, donc les contrôles sont
00:05:40inversés, mais pas sur les touches fléchées. Et ce n'est vraiment pas la vitesse à laquelle je voudrais
00:05:45qu'une Ferrari tourne sur Silverstone. Mais je veux dire, ce n'est pas trop mal pour une première tentative.
00:05:51Il semble que je vais plus vite en marche arrière, donc peut-être qu'en reculant sur la piste, ce sera mieux. J'ai essayé
00:05:55le même test avec Kimi K 2.7 Code, mais je n'ai pas obtenu d'exemple fonctionnel en une seule
00:05:59tentative. Quelque part ici, j'avais quelques erreurs de console qui tournaient en boucle, j'ai donc dû
00:06:04lui dire que j'avais quelques erreurs, mais il les a corrigées dans le deuxième prompt. Et vous pouvez voir
00:06:08que celui-ci a utilisé plus de jetons, 110 000, pour un coût de 81 cents. Le résultat obtenu était aussi
00:06:14un peu moins jouable. On dirait qu'on a un peu plus de vitesse, mais notre rayon de braquage est terrible. Je
00:06:19ne pense pas avoir déjà vu un pilote de F1 tourner comme ça, et on peut aussi traverser quelques bâtiments
00:06:23ici. C'est cool qu'ils aient les noms des virages de Silverstone, mais il n'y a pas de piste, ce sont
00:06:27apparemment juste des bollards. Le dernier, c'est Claude Opus 4.8, et celui-ci est un peu plus jouable,
00:06:33mis à part le fait qu'il ne devrait pas y avoir d'arbres au milieu de la piste de Silverstone. Je veux dire,
00:06:37la dernière fois que j'ai vérifié, il n'y en avait pas. Et ouais, c'est globalement un jeu assez bon. On a des contrôles
00:06:42de caméra ici. Mes roues n'aimeraient probablement pas ça si j'étais un pilote de F1, mais ça semble gérer
00:06:47plutôt bien. La piste elle-même, cependant, est l'une des plus confuses que j'aie jamais
00:06:52vu quelqu'un piloter. Il y a beaucoup de chevauchements ici et je ne sais pas vraiment dans quel sens
00:06:57aller. Mais je dirais qu'Opus 4.8 nous a donné la démo la plus jouable en une seule tentative. Le dernier test que j'ai fait,
00:07:02est un peu plus complexe : un front-end et un back-end à partir de zéro pour un tableau de bord de gestion des
00:07:07finances personnelles, avec quelques fonctionnalités listées ici. L'idée générale est de
00:07:11voir quelle pile technique il choisit en partant de zéro, et s'il peut relier un front-end et un back-end
00:07:16le tout en une seule tentative, sans erreur. Voici la tentative du GLM 5.2, et je dois dire, ouais, c'est
00:07:22un tableau de bord assez basique. Il n'y a rien d'extraordinaire, mais il n'y a pas non plus trop de choses complexes que vous pouvez
00:07:26faire avec le prompt que je lui ai donné. Tout semble fonctionner : j'ai ajouté des éléments à la base de données,
00:07:32j'ai payé mon abonnement Fable 5, toutes ces pages sont cliquables et tout est transféré
00:07:37entre elles quand je clique dessus. J'ai testé, il a donc fait du très bon travail à partir de
00:07:41ce seul prompt. Je suis toujours curieux de voir la pile choisie, et celui-ci est parti sur une application
00:07:46Next.js, utilisant Prisma pour la base de données. On peut voir que là-dedans, nous avons aussi une base de données
00:07:50de développement. J'aurais probablement préféré qu'il utilise Drizzle et peut-être TanStack, mais je ne peux pas vraiment
00:07:55me plaindre, je ne lui ai donné aucune consigne. Voici ce que Kimi K 2.7 Code m'a donné, et vous pouvez voir que c'est
00:07:59presque exactement la même application, juste, je dirais, un peu moins sophistiquée. Ils ont certainement certains des
00:08:04mêmes modèles dans leurs données d'entraînement quelque part qui ressemblent exactement à ça. Et là encore, ouais, je ne peux pas
00:08:09me plaindre trop, mais il manque une sorte de suppléments avec les boutons pour pouvoir
00:08:13effectuer des transferts. J'ai les fonctionnalités d'ajout de compte et d'ajout de transactions. Elles fonctionnent, mais je dirais que
00:08:18l'UI globale et l'expérience utilisateur sont un peu moins bonnes puisqu'il n'y a pas ces informations
00:08:23cliquables ici. La pile par défaut qu'il a choisie est, je dirais, aussi un peu moins bonne : il a utilisé React avec
00:08:28une configuration Vite normale et React Router, ce avec quoi je n'ai aucun problème, mais pour le back-end, il est parti sur
00:08:33Express, et si on jette un œil au fichier de base de données réel, il utilise juste Node SQLite pour écrire dedans, et
00:08:39écrire les schémas dans le texte ici, ce qui, je pense, sera un peu moins évolutif. Si j'étais
00:08:43en train de "vibe coder" complètement et que je ne connaissais rien à la pile, je choisirais probablement le GLM 5.2, mais si j'utilisais
00:08:48Kimi K 2.7 Code, j'aurais probablement donné des consignes pour utiliser Drizzle, Next.js et
00:08:53diverses autres choses, donc cela varie selon ce que vous aimez. En parlant d'être opinionné aussi, voici
00:08:58ce que Claude Opus 4.8 m'a donné. Il est parti sur un style complètement différent
00:09:03de ceux qu'on a vus avant, mais c'est une sorte de style textuel que Claude semble aimer en
00:09:07ce moment. C'est certainement ce qu'ils ont mis dans les données d'entraînement ou vers quoi ils le poussent, et tout
00:09:11cela fonctionne très bien, et ouais, je pense que ça rend vraiment bien. Je demanderais probablement d'utiliser
00:09:16des polices différentes et un jeu de couleurs différent, mais la base globale est très bonne. Il n'a
00:09:20pas vraiment fait de pages séparées pour ça, il a juste fait des sections séparées, donc peut-être que c'est moins bien, mais là encore,
00:09:25ça revient au prompt. Toutes les fonctionnalités et tout fonctionne. En jetant un coup d'œil
00:09:29au code réel qu'Opus m'a donné, je pense en fait que le GLM 5.2 a peut-être gagné sur ce coup-là. Ce qu'Opus
00:09:34a fait, c'est utiliser une application React normale, il ne s'est même pas soucié de React Router puisqu'il
00:09:38faisait tout sur cette seule page, et il est parti sur Express pour son back-end, mais il n'a
00:09:43pas fait de connexion à une base de données. Tout est en fait juste un stockage en mémoire qu'on peut voir
00:09:48ici, où il sème les données et exécute tout à partir d'un objet JavaScript, ce qui, là encore, probablement
00:09:53n'est pas ce que je veux si je dois scaler cela à l'avenir, mais ça revient au prompt. Je pense
00:09:58que c'est un peu ma principale conclusion après avoir testé ce modèle ces derniers jours. Je pense que pour beaucoup de
00:10:02tâches, vous pourriez secrètement remplacer Sonnet ou même Opus par le GLM 5.2 pour des tâches plus simples, et je
00:10:07ne le remarquerais probablement pas. C'est un modèle vraiment capable et si vous lui donnez la bonne orientation, vous obtenez
00:10:12de très bons résultats. C'est l'un des premiers modèles ouverts que je n'ai pas eu l'impression de devoir combattre pour
00:10:16l'utiliser, et aussi l'un des premiers modèles ouverts où, en l'utilisant, je n'ai pas eu ce sentiment que "je sais que Claude
00:10:21pourrait faire ça mieux ou plus vite". Les dernières choses à mentionner pour compléter ceci sont les jetons, le coût et
00:10:25la vitesse. L'un des inconvénients du GLM 5.2 pourrait être qu'il est un peu plus gourmand en jetons par rapport à
00:10:31d'autres modèles de sa catégorie. Il a utilisé une moyenne de 43 000 jetons par tâche, ce qui est plus que Kimi K 2.6,
00:10:37Minimax et DeepSeek. Mais la bonne nouvelle, c'est que ça ne coûte pas si cher, selon le
00:10:41fournisseur : c'est environ 1,40 $pour un million de jetons en entrée et 4,40$ pour un million de jetons en sortie. Et sur les
00:10:47benchmarks d'Artificial Analysis, il coûte en fait environ 50 cents par tâche, et vous pouvez voir que c'est un
00:10:52très bon point quand on compare le coût à l'intelligence. Ignorez l'étiquette Gemini ici, c'est en fait ce point bleu
00:10:57et vous pouvez voir que c'est un graphique assez chargé, mais ce que cela montre, c'est qu'à son niveau
00:11:02d'intelligence, le GLM 5.2 est le modèle le moins cher. Bien que je dirais ici que si vous pouvez accepter une baisse d'intelligence,
00:11:07je pense que Minimax et surtout DeepSeek V4 sont très bons pour ce prix. En termes de vitesse,
00:11:12le GLM 5.2 n'est en fait pas mauvais du tout. Il a surpassé la plupart des modèles ouverts proches de son niveau d'intelligence,
00:11:17donc DeepSeek V4, Kimi 2.7 Code et Minimax, et il est un peu derrière un modèle de pointe comme Gemini 3.1 Pro,
00:11:24qui a le même niveau d'intelligence, mais c'est un modèle de pointe. Et j'adorerais aussi voir Gemini
00:11:283.5 Pro ajouté à cette liste. Google, s'il vous plaît, sortez-le. En termes de vitesse également, Design Arena
00:11:33a en fait obtenu un résultat un peu différent, où ils disent que le GLM 5.2 obtient le score le plus élevé sur
00:11:38la préférence utilisateur pour le design, mais c'était aussi le plus lent parmi les meilleurs modèles. Bien qu'il soit aussi
00:11:42utile de noter que tous ces meilleurs modèles sont des modèles de pointe et non des modèles ouverts. Globalement, on a vraiment
00:11:47l'impression qu'on est à un point où ces modèles ouverts sont, disons, quatre à six mois derrière. Donc
00:11:51peut-être, trop optimiste, on pourrait envisager un modèle Fable pour l'année prochaine. Et je veux dire, eux-mêmes
00:11:56promettent quelque chose pour le premier trimestre. Et je déteste être d'accord avec cette personne sur quoi que ce soit, mais il soulève
00:12:01un bon point, qu'ils pourraient peut-être rattraper Fable sur les benchmarks, mais l'utilité réelle semble
00:12:06un peu différente. Et c'est ce en quoi Anthropic est très doué. C'est très rare de le voir
00:12:10leur faire un compliment, mais je dois être d'accord avec ce sentiment, où l'utilisation réelle
00:12:14de ces modèles semble un peu différente. Mais je pense que le GLM 5.2 est l'un des premiers à avoir
00:12:19brisé ce cycle pour moi. Je pense que si vous m'aviez dit il y a un an que ces modèles ouverts seraient aussi
00:12:23bons, j'aurais été absolument choqué et je ne vous aurais probablement pas cru. Et je ne suis pas vraiment
00:12:27un survivaliste, mais j'ai l'impression qu'avec le récent bannissement de Fable, je veux juste télécharger le GLM 5.2 et le stocker
00:12:31sur un SSD juste au cas où j'en aurais besoin plus tard. Dites-moi ce que vous pensez de ce modèle dans les commentaires
00:12:36ci-dessous, et dites-moi aussi quel est votre modèle ouvert préféré à utiliser. Pendant que vous y êtes, abonnez-vous,
00:12:40et comme toujours, on se voit dans la prochaine vidéo.

Key Takeaway

Avec un score de 51 sur l'index Artificial Analysis et une première place en conception web sur Design Arena, GLM 5.2 s'établit comme le modèle ouvert le plus performant et économique pour le codage et le design d'interface utilisateur.

Highlights

  • GLM 5.2 de Zhipu est le meilleur modèle ouvert actuel, avec 744 milliards de paramètres au total et 40 milliards de paramètres actifs.

  • Sur l'index Artificial Analysis, GLM 5.2 atteint un score de 51, dépassant les modèles ouverts concurrents et atteignant la ligue de performance de Gemini 3.5 Flash et GPT 5.4.

  • Le modèle prend la première place sur le classement de conception web HTML de Design Arena, surpassant la lignée Claude.

  • Les coûts d'utilisation s'élèvent à environ 1,40 $par million de jetons en entrée et 4,40$ par million de jetons en sortie.

  • Contrairement à certains modèles, GLM 5.2 n'accepte que des entrées textuelles, empêchant l'analyse directe de captures d'écran.

Timeline

Performance et positionnement de GLM 5.2

  • GLM 5.2 est un modèle ouvert sous licence MIT.
  • Le modèle affiche un score combiné de 51 sur l'index Artificial Analysis.
  • Il surpasse les modèles de la lignée Claude sur le benchmark de conception web Design Arena.

Zhipu a développé GLM 5.2, un modèle massif de 744 milliards de paramètres. Il surpasse son prédécesseur, GLM 5.1, de 11 points sur les benchmarks de raisonnement et de codage. Malgré sa taille, il reste compétitif face aux modèles fermés propriétaires tout en offrant une licence ouverte.

Applications pratiques en design et développement

  • L'absence de support multimodal limite l'utilisation aux prompts purement textuels.
  • Le modèle excelle dans la recréation d'interfaces utilisateur à partir de descriptions textuelles.
  • Les performances en codage Three.js produisent des résultats fonctionnels malgré des difficultés sur les contrôles complexes.

L'incapacité du modèle à traiter des images nécessite de transformer les captures d'écran en prompts textuels descriptifs. Malgré cela, la précision dans la génération de code HTML/CSS permet de recréer fidèlement des sites comme Linear. Les tests de jeux Three.js montrent une capacité à générer des structures 3D, bien que la jouabilité nécessite parfois des ajustements.

Gestion technique et analyse des coûts

  • Le modèle privilégie nativement des piles technologiques comme Next.js avec Prisma.
  • GLM 5.2 présente un rapport intelligence-prix supérieur aux autres modèles de sa catégorie.
  • La vitesse du modèle reste compétitive face aux modèles ouverts équivalents.

L'analyse des choix techniques montre que le modèle préfère des frameworks modernes pour le développement full-stack. Avec un coût d'environ 50 cents par tâche de référence, il se positionne comme une option viable face à des alternatives comme DeepSeek V4 ou Minimax, particulièrement pour des tâches de complexité intermédiaire à élevée.

Community Posts

View all posts