GLM 4.7 est DINGUE pour le développement logiciel...

AAI LABS
Computing/SoftwareSmall Business/StartupsTelecommutingInternet Technology

Transcript

00:00:00L'équipe de ZAI vient de sortir GLM 4.7,
00:00:02et à 29 dollars par an,
00:00:04c'est ridiculement bon marché pour un modèle qu'ils prétendent atteindre 73% sur SWE bench,
00:00:09au même niveau que Sonnet 4.5.
00:00:11Le timing n'est pas un hasard.
00:00:12Ils se préparent à entrer en bourse et ont besoin de montrer leur pénétration en Occident..
00:00:15Ils ont même fait un Q&A en direct sur Reddit,
00:00:17ce que je n'ai jamais vu un laboratoire IA chinois faire.
00:00:19Mais la version 4.6 avait de vrais problèmes.
00:00:21Est-ce que la 4.7 est vraiment corrigée ?.
00:00:23Salut tout le monde,
00:00:23si vous êtes nouveau ici,
00:00:24bienvenue chez AI Labs,
00:00:25et bienvenue dans un nouvel épisode de Debunked,
00:00:27une série où nous prenons vraiment les outils et les modèles IA,
00:00:30nous dépouillons le battage marketing,
00:00:31et nous montrons ce qu'ils peuvent vraiment faire avec des tests réels et des résultats honnêtes.
00:00:35Le nouveau modèle a surtout été amélioré grâce à l'entraînement post-traitement,
00:00:38pas par un changement d'architecture.
00:00:40Il est fortement optimisé pour Claude Code,
00:00:42et l'équipe de ZAI a explicitement dit que c'était leur cadre prioritaire.
00:00:46Actuellement,
00:00:46il dépasse réellement beaucoup des modèles les plus performants,
00:00:49y compris GPT-4,
00:00:50en particulier sur les benchmarks de codage.
00:00:52Dans tous leurs plans de codage,
00:00:54ils ont ajouté ces nouveaux outils MCP,
00:00:56qui ne sont pas intégrés directement.
00:00:58Ce sont des serveurs MCP séparés.
00:01:00Ils en ont listés trois pour le moment..
00:01:02Et pour que tous fonctionnent, il vous suffit d'une clé API.
00:01:04C'est pourquoi ils sont inclus avec le plan,
00:01:06mais séparés du modèle..
00:01:07En ce qui concerne les limites d'utilisation,
00:01:09elles sont à peu près les mêmes que pour la version 4.6.
00:01:11Mais si vous ne savez pas ce qu'elles étaient avant,
00:01:13j'ai en fait généré un rapport à ce sujet.
00:01:15C'est amusant,
00:01:15j'ai d'abord essayé de le générer avec Gemini 3,
00:01:18et pour une raison quelconque,
00:01:19il n'a pas pu me donner une bonne comparaison des plans.
00:01:22Je suis revenu à Claude, et il a bien fait ses recherches.
00:01:24Globalement,
00:01:24ce que vous devez savoir,
00:01:25c'est que pour le plan d'entrée de gamme,
00:01:27vous obtenez 10 à 40 prompts dans Claude Code,
00:01:29tandis que dans GLM Coding,
00:01:30vous obtenez 120 prompts pour seulement 3 dollars,
00:01:33ce qui est une énorme différence.
00:01:34Cela augmente d'autant plus que vous montez dans les niveaux supérieurs,
00:01:38où le plan à 200 dollars vous donne jusqu'à 800 prompts dans cette fenêtre de 5 heures avec Claude,
00:01:42tandis que 30 dollars vous en donne 2 400.
00:01:44Tous ces tarifs sont réduits le premier mois,
00:01:47puis ils doublent.
00:01:48Mais si vous optez pour le plan annuel,
00:01:49c'est beaucoup plus abordable.
00:01:50Un autre benchmark important était l'examen final de l'humanité.
00:01:53Pour ceux qui ne le savent pas,
00:01:54c'est l'un de ces benchmarks non saturés,
00:01:56et la plupart des nouveaux modèles obtiennent encore de faibles résultats parce qu'il est véritablement difficile.
00:02:00Pour vraiment tester l'interface,
00:02:02nous avons ce prompt qui ne se concentre pas vraiment sur l'architecture.
00:02:05Il se concentre principalement sur la logique de conception que le modèle est censé implémenter,
00:02:09tout en fournissant quelques options de conception.
00:02:11Nous pouvons ensuite voir,
00:02:12en fonction de l'entreprise que je propose,
00:02:14qui dans ce cas est une plateforme de révision de code alimentée par l'IA,
00:02:17ce qu'il crée.
00:02:18Nous nous sommes également abonnés au plan MAX,
00:02:20et il y a deux façons de le connecter avec Claude Code.
00:02:22Dans les deux cas,
00:02:23vous modifiez le settings.json,
00:02:25mais l'un est situé à la racine de votre projet,
00:02:27ce qui change les paramètres globaux.
00:02:29Si vous le faites à l'intérieur de votre projet,
00:02:31cela change simplement les paramètres pour ce projet.
00:02:33Nous avons fait cela pour pouvoir vraiment le comparer avec Sonnet 4.5.
00:02:36Voici ce que Sonnet 4.5 a proposé.
00:02:38Le prompt est en fait assez bon,
00:02:39et nous l'utilisons pour vraiment identifier lequel de ces modèles construit une interface et comment créatifs ils sont en le faisant.
00:02:45C'est du JavaScript vanilla simple,
00:02:46donc nous ne regardons pas l'architecture pour le moment,
00:02:48juste la conception.
00:02:49Voici ce que GLM 4.7 a proposé.
00:02:52En termes de conception,
00:02:53c'est assez bon,
00:02:53mais il a commis une erreur où il n'a pas vraiment tenu compte de la longueur,
00:02:57c'est pourquoi les artefacts se cassent un peu.
00:02:59À part ça,
00:02:59la conception est solide,
00:03:01mais je n'aime vraiment pas ces emojis.
00:03:02Sonnet n'a utilisé aucun emoji,
00:03:04ce qui est bon et correspond au langage de conception.
00:03:06Pour vraiment les tester tous les deux,
00:03:08j'ai ce projet Next.js prédéfini,
00:03:10qui a ce contexte initialisé dont il a besoin pour construire une interface utilisateur évolutive et prête pour le backend.
00:03:15Cette partie est importante car,
00:03:17comme je vais évaluer les raisons pour lesquelles GLM a étonnamment mieux performé,
00:03:21cela va revenir à ce point.
00:03:22Framer Motion et les composants ShadCN ont été pré-installés pour construire l'interface utilisateur.
00:03:27On leur a demandé à tous les deux de construire la page principale du navigateur pour une plateforme de streaming de type Netflix.
00:03:32On leur a spécifié ce qu'il fallait construire et ce qui devait être sur la page.
00:03:35Si on parle de la convivialité du modèle GLM avec Claude Code,
00:03:39un problème avec GLM 4.6 était qu'il était extrêmement lent dans la génération de code.
00:03:43Ici, ce problème, selon mon expérience, n'a pas été résolu.
00:03:46C'est toujours extrêmement lent..
00:03:48Mais il y a un changement.
00:03:49Avec GLM 4.6,
00:03:50le modèle ne pensait pas vraiment,
00:03:51ce qui veut dire qu'il ne pensait pas à l'intérieur de Claude Code..
00:03:54La transcription détaillée que vous voyez ici montre clairement de la réflexion,
00:03:57mais cela n'apparaissait pas dans la version 4.6.
00:03:59Vous pouvez clairement voir que le modèle 4.7 pense,
00:04:02donc c'est été corrigé.
00:04:04À part ça,
00:04:04il y a quelques bizarreries que vous devez connaître.
00:04:07GLM 4.7 n'est pas très autonome..
00:04:09J'ai découvert cela pendant mes tests.
00:04:10Comme vous pouvez le voir ici,
00:04:12ce dossier GLM contient déjà un dossier de benchmark UI dans lequel il doit implémenter l'application,
00:04:16mais il a choisi de l'ignorer..
00:04:18Bien que ce soit clairement écrit dans le contexte,
00:04:20il a continué et a créé une autre application Next.js de son côté.
00:04:22Il ne l'a même pas initialisée,
00:04:24il a juste commencé à écrire du code.
00:04:25Parfois, il agit vraiment bêtement..
00:04:27Mais après que je l'ai corrigé et l'ai dirigé dans la bonne direction,
00:04:30en termes d'implémentation,
00:04:31voici ce que Claude a créé.
00:04:32Là encore,
00:04:33étant le modèle plus avancé,
00:04:34il est assez bon pour les interfaces.
00:04:35Voici ce que GLM 4.7 a créé.
00:04:36Claude a évidemment créé une meilleure interface parce que,
00:04:39selon nous,
00:04:40c'est toujours mieux en conception..
00:04:42Au vu du prix, c'est acceptable.
00:04:43Mais après avoir regardé le code et approfondi,
00:04:45puisqu'on leur avait dit que cela était censé être back-end prêt et que pour l'instant ils devaient utiliser des données fictives,
00:04:51le modèle GLM a en fait implémenté une meilleure architecture en plaçant toutes les données fictives dans un seul fichier..
00:04:56Ensuite,
00:04:56quand nous devons le remplacer,
00:04:58nous n'avons qu'à changer ce fichier parce que les imports sont connectés là,
00:05:01contrairement à ce que Claude a implémenté où chaque autre composant a son propre import.
00:05:05Quand nous allons vraiment implémenter le backend,
00:05:07nous devrons changer tous ces fichiers un par un.
00:05:09En termes d'architecture de base et de qualité de code,
00:05:12GLM s'est vraiment bien débrouillé,
00:05:14et cela m'a surpris parce que la version 4.6 ne l'était pas dans mes tests.
00:05:17Le plan précédent n'était vraiment pas justifié par la quantité de direction que j'ai dû donner et les erreurs qu'il a commises,
00:05:22mais celui-ci est définitivement un énorme progrès.
00:05:24Ces benchmarks sont définitivement justifiés par les tests que j'ai effectués.
00:05:27J'ai aussi regardé quelques petites choses dans le code,
00:05:30et GLM 4.7 est en fait un bon modèle.
00:05:32Compte tenu de ces résultats inattendus,
00:05:34nous recommandons honnêtement à tous les gens d'obtenir le plan à 29 dollars par an.
00:05:38Si vous avez déjà le plan Claude à 20 dollars,
00:05:41c'est basiquement rien en comparaison.
00:05:42Cela dit,
00:05:43ce n'est toujours pas un modèle que vous utiliseriez pour un codage complètement autonome.
00:05:46Même si Claude s'est vraiment trompé sur l'architecture ici,
00:05:49c'est suffisamment bon pour qu'il puisse le corriger et l'améliorer plus tard.
00:05:52Mais avec les petites bizarreries que GLM a toujours,
00:05:54nous ne pensons pas que c'est une bonne idée de dépendre uniquement de celui-ci.
00:05:57Cela nous amène à la fin de cette vidéo.
00:05:58Si vous souhaitez soutenir la chaîne et nous aider à continuer à faire des vidéos comme celle-ci,
00:06:02vous pouvez le faire en utilisant le bouton Super Thanks ci-dessous.
00:06:05Comme toujours,
00:06:06merci d'avoir regardé et je vous vois dans la prochaine vidéo.

Key Takeaway

GLM 4.7 représente une amélioration significative du modèle précédent avec un excellent rapport qualité-prix pour le développement logiciel, mais il reste moins autonome que Claude Sonnet 4.5 et ne convient pas pour une utilisation entièrement autonome.

Highlights

GLM 4.7 atteint 73% sur SWE bench, au même niveau que Sonnet 4.5, pour seulement 29 dollars par an

Le modèle a été amélioré principalement par post-traitement et est fortement optimisé pour Claude Code

GLM 4.7 offre 2 400 prompts pour 30 dollars annuels contre 800 prompts pour 200 dollars avec Claude

Le modèle 4.7 corrige le problème de la version 4.6 en affichant maintenant une vraie capacité de réflexion interne

En termes d'architecture et de qualité de code, GLM 4.7 surpasse Claude Sonnet 4.5 dans certains scénarios

Malgré les progrès, GLM 4.7 manque d'autonomie et nécessite une direction claire pour fonctionner optimalement

L'équipe de ZAI prépare son entrée en bourse et cherche à démontrer sa pénétration sur le marché occidental

Timeline

Présentation de GLM 4.7 et contexte commercial

L'équipe de ZAI a lancé GLM 4.7 à un tarif extrêmement compétitif de 29 dollars par an, prétendant atteindre 73% sur SWE bench, équivalent à Sonnet 4.5. Le timing de cette sortie coïncide avec la préparation de l'IPO de ZAI, nécessitant de démontrer leur pénétration sur le marché occidental. Les améliorations du modèle proviennent principalement du post-traitement plutôt que de changements architecturaux, avec une optimisation explicite pour Claude Code. L'équipe a également innové en organisant un Q&A en direct sur Reddit, une première pour un laboratoire IA chinois. Cette section contextualise pourquoi GLM 4.7 est lancé au moment où il l'est et comment il se positionne par rapport aux modèles concurrents.

Comparaison des plans tarifaires et limites d'utilisation

GLM 4.7 offre une différence drastique en termes d'allocation de prompts comparé à Claude. Pour le plan d'entrée de gamme, GLM Coding fournit 120 prompts pour 3 dollars contre 10 à 40 prompts pour Claude Code. Aux niveaux supérieurs, le plan à 200 dollars de Claude offre 800 prompts sur une fenêtre de 5 heures, tandis que 30 dollars par an chez GLM en offrent 2 400. Tous ces tarifs sont réduits le premier mois avant de doubler, mais le plan annuel reste beaucoup plus abordable. Cette tarification compétitive rend GLM 4.7 particulièrement attrayant pour les développeurs ayant un budget limité.

Test de conception avec le benchmark Humanity's Final Exam

Le test utilise un prompt qui se concentre sur la logique de conception plutôt que l'architecture, demandant au modèle de créer une interface pour une plateforme de révision de code alimentée par l'IA. Sonnet 4.5 a produit une interface en JavaScript vanilla appropriée sans emojis, correspondant au langage de conception. GLM 4.7 a proposé une conception solide mais avec une erreur concernant la longueur causant des artefacts cassés et incluant des emojis non pertinents. Bien que Claude ait surpassé GLM en conception visuelle, ce test initial montre que GLM peut produire des résultats acceptables pour un coût significativement inférieur.

Test pratique avec le projet Next.js Netflix-like

Un projet Next.js pré-configuré avec Framer Motion et ShadCN a été utilisé pour tester les deux modèles dans la création d'une page principale de plateforme de streaming. Claude a produit une meilleure interface utilisateur en tant que modèle plus avancé, ce qui est attendu. Cependant, un problème majeur identifié avec GLM 4.6 - sa lenteur extrême dans la génération de code - persiste dans la version 4.7. Une amélioration positive est que GLM 4.7 montre maintenant une capacité de réflexion interne visible dans les transcriptions détaillées, contrairement à la version 4.6 qui n'affichait pas cette capacité de pensée.

Analyse d'autonomie et d'architecture du code

GLM 4.7 souffre d'un manque d'autonomie notable, comme le montrent ses tests où le modèle a ignoré le contexte fourni et créé une nouvelle application Next.js au lieu d'utiliser le dossier benchmark existant. Cependant, une fois dirigé correctement, GLM a surpassé Claude en termes d'architecture du code en centralisant les données fictives dans un seul fichier, facilitant les remplacements futurs lors de l'implémentation du backend. Claude avait dispersé les imports sur plusieurs composants, rendant les mises à jour ultérieures plus laborieuses. Cette découverte révèle que bien que GLM soit moins autonome, son architecture de code peut être supérieure une fois correctement guidé.

Conclusion et recommandations

Compte tenu des résultats surprenants, l'analyste recommande honnêtement le plan annuel à 29 dollars pour tous les développeurs, en particulier ceux ayant déjà un abonnement Claude à 20 dollars. GLM 4.7 est considéré comme un bon modèle pour les tests benchmarks validant les résultats annoncés. Cependant, il ne convient pas pour un codage complètement autonome en raison de ses bizarreries persistantes et de son manque d'indépendance. Le consensus est que GLM 4.7 représente une amélioration majeure par rapport à la version 4.6, mais fonctionne mieux en combinaison avec Claude plutôt que comme remplacement complet.

Community Posts

View all posts