00:00:00L'équipe de ZAI vient de sortir GLM 4.7,
00:00:02et à 29 dollars par an,
00:00:04c'est ridiculement bon marché pour un modèle qu'ils prétendent atteindre 73% sur SWE bench,
00:00:09au même niveau que Sonnet 4.5.
00:00:11Le timing n'est pas un hasard.
00:00:12Ils se préparent à entrer en bourse et ont besoin de montrer leur pénétration en Occident..
00:00:15Ils ont même fait un Q&A en direct sur Reddit,
00:00:17ce que je n'ai jamais vu un laboratoire IA chinois faire.
00:00:19Mais la version 4.6 avait de vrais problèmes.
00:00:21Est-ce que la 4.7 est vraiment corrigée ?.
00:00:23Salut tout le monde,
00:00:23si vous êtes nouveau ici,
00:00:24bienvenue chez AI Labs,
00:00:25et bienvenue dans un nouvel épisode de Debunked,
00:00:27une série où nous prenons vraiment les outils et les modèles IA,
00:00:30nous dépouillons le battage marketing,
00:00:31et nous montrons ce qu'ils peuvent vraiment faire avec des tests réels et des résultats honnêtes.
00:00:35Le nouveau modèle a surtout été amélioré grâce à l'entraînement post-traitement,
00:00:38pas par un changement d'architecture.
00:00:40Il est fortement optimisé pour Claude Code,
00:00:42et l'équipe de ZAI a explicitement dit que c'était leur cadre prioritaire.
00:00:46Actuellement,
00:00:46il dépasse réellement beaucoup des modèles les plus performants,
00:00:49y compris GPT-4,
00:00:50en particulier sur les benchmarks de codage.
00:00:52Dans tous leurs plans de codage,
00:00:54ils ont ajouté ces nouveaux outils MCP,
00:00:56qui ne sont pas intégrés directement.
00:00:58Ce sont des serveurs MCP séparés.
00:01:00Ils en ont listés trois pour le moment..
00:01:02Et pour que tous fonctionnent, il vous suffit d'une clé API.
00:01:04C'est pourquoi ils sont inclus avec le plan,
00:01:06mais séparés du modèle..
00:01:07En ce qui concerne les limites d'utilisation,
00:01:09elles sont à peu près les mêmes que pour la version 4.6.
00:01:11Mais si vous ne savez pas ce qu'elles étaient avant,
00:01:13j'ai en fait généré un rapport à ce sujet.
00:01:15C'est amusant,
00:01:15j'ai d'abord essayé de le générer avec Gemini 3,
00:01:18et pour une raison quelconque,
00:01:19il n'a pas pu me donner une bonne comparaison des plans.
00:01:22Je suis revenu à Claude, et il a bien fait ses recherches.
00:01:24Globalement,
00:01:24ce que vous devez savoir,
00:01:25c'est que pour le plan d'entrée de gamme,
00:01:27vous obtenez 10 à 40 prompts dans Claude Code,
00:01:29tandis que dans GLM Coding,
00:01:30vous obtenez 120 prompts pour seulement 3 dollars,
00:01:33ce qui est une énorme différence.
00:01:34Cela augmente d'autant plus que vous montez dans les niveaux supérieurs,
00:01:38où le plan à 200 dollars vous donne jusqu'à 800 prompts dans cette fenêtre de 5 heures avec Claude,
00:01:42tandis que 30 dollars vous en donne 2 400.
00:01:44Tous ces tarifs sont réduits le premier mois,
00:01:47puis ils doublent.
00:01:48Mais si vous optez pour le plan annuel,
00:01:49c'est beaucoup plus abordable.
00:01:50Un autre benchmark important était l'examen final de l'humanité.
00:01:53Pour ceux qui ne le savent pas,
00:01:54c'est l'un de ces benchmarks non saturés,
00:01:56et la plupart des nouveaux modèles obtiennent encore de faibles résultats parce qu'il est véritablement difficile.
00:02:00Pour vraiment tester l'interface,
00:02:02nous avons ce prompt qui ne se concentre pas vraiment sur l'architecture.
00:02:05Il se concentre principalement sur la logique de conception que le modèle est censé implémenter,
00:02:09tout en fournissant quelques options de conception.
00:02:11Nous pouvons ensuite voir,
00:02:12en fonction de l'entreprise que je propose,
00:02:14qui dans ce cas est une plateforme de révision de code alimentée par l'IA,
00:02:17ce qu'il crée.
00:02:18Nous nous sommes également abonnés au plan MAX,
00:02:20et il y a deux façons de le connecter avec Claude Code.
00:02:22Dans les deux cas,
00:02:23vous modifiez le settings.json,
00:02:25mais l'un est situé à la racine de votre projet,
00:02:27ce qui change les paramètres globaux.
00:02:29Si vous le faites à l'intérieur de votre projet,
00:02:31cela change simplement les paramètres pour ce projet.
00:02:33Nous avons fait cela pour pouvoir vraiment le comparer avec Sonnet 4.5.
00:02:36Voici ce que Sonnet 4.5 a proposé.
00:02:38Le prompt est en fait assez bon,
00:02:39et nous l'utilisons pour vraiment identifier lequel de ces modèles construit une interface et comment créatifs ils sont en le faisant.
00:02:45C'est du JavaScript vanilla simple,
00:02:46donc nous ne regardons pas l'architecture pour le moment,
00:02:48juste la conception.
00:02:49Voici ce que GLM 4.7 a proposé.
00:02:52En termes de conception,
00:02:53c'est assez bon,
00:02:53mais il a commis une erreur où il n'a pas vraiment tenu compte de la longueur,
00:02:57c'est pourquoi les artefacts se cassent un peu.
00:02:59À part ça,
00:02:59la conception est solide,
00:03:01mais je n'aime vraiment pas ces emojis.
00:03:02Sonnet n'a utilisé aucun emoji,
00:03:04ce qui est bon et correspond au langage de conception.
00:03:06Pour vraiment les tester tous les deux,
00:03:08j'ai ce projet Next.js prédéfini,
00:03:10qui a ce contexte initialisé dont il a besoin pour construire une interface utilisateur évolutive et prête pour le backend.
00:03:15Cette partie est importante car,
00:03:17comme je vais évaluer les raisons pour lesquelles GLM a étonnamment mieux performé,
00:03:21cela va revenir à ce point.
00:03:22Framer Motion et les composants ShadCN ont été pré-installés pour construire l'interface utilisateur.
00:03:27On leur a demandé à tous les deux de construire la page principale du navigateur pour une plateforme de streaming de type Netflix.
00:03:32On leur a spécifié ce qu'il fallait construire et ce qui devait être sur la page.
00:03:35Si on parle de la convivialité du modèle GLM avec Claude Code,
00:03:39un problème avec GLM 4.6 était qu'il était extrêmement lent dans la génération de code.
00:03:43Ici, ce problème, selon mon expérience, n'a pas été résolu.
00:03:46C'est toujours extrêmement lent..
00:03:48Mais il y a un changement.
00:03:49Avec GLM 4.6,
00:03:50le modèle ne pensait pas vraiment,
00:03:51ce qui veut dire qu'il ne pensait pas à l'intérieur de Claude Code..
00:03:54La transcription détaillée que vous voyez ici montre clairement de la réflexion,
00:03:57mais cela n'apparaissait pas dans la version 4.6.
00:03:59Vous pouvez clairement voir que le modèle 4.7 pense,
00:04:02donc c'est été corrigé.
00:04:04À part ça,
00:04:04il y a quelques bizarreries que vous devez connaître.
00:04:07GLM 4.7 n'est pas très autonome..
00:04:09J'ai découvert cela pendant mes tests.
00:04:10Comme vous pouvez le voir ici,
00:04:12ce dossier GLM contient déjà un dossier de benchmark UI dans lequel il doit implémenter l'application,
00:04:16mais il a choisi de l'ignorer..
00:04:18Bien que ce soit clairement écrit dans le contexte,
00:04:20il a continué et a créé une autre application Next.js de son côté.
00:04:22Il ne l'a même pas initialisée,
00:04:24il a juste commencé à écrire du code.
00:04:25Parfois, il agit vraiment bêtement..
00:04:27Mais après que je l'ai corrigé et l'ai dirigé dans la bonne direction,
00:04:30en termes d'implémentation,
00:04:31voici ce que Claude a créé.
00:04:32Là encore,
00:04:33étant le modèle plus avancé,
00:04:34il est assez bon pour les interfaces.
00:04:35Voici ce que GLM 4.7 a créé.
00:04:36Claude a évidemment créé une meilleure interface parce que,
00:04:39selon nous,
00:04:40c'est toujours mieux en conception..
00:04:42Au vu du prix, c'est acceptable.
00:04:43Mais après avoir regardé le code et approfondi,
00:04:45puisqu'on leur avait dit que cela était censé être back-end prêt et que pour l'instant ils devaient utiliser des données fictives,
00:04:51le modèle GLM a en fait implémenté une meilleure architecture en plaçant toutes les données fictives dans un seul fichier..
00:04:56Ensuite,
00:04:56quand nous devons le remplacer,
00:04:58nous n'avons qu'à changer ce fichier parce que les imports sont connectés là,
00:05:01contrairement à ce que Claude a implémenté où chaque autre composant a son propre import.
00:05:05Quand nous allons vraiment implémenter le backend,
00:05:07nous devrons changer tous ces fichiers un par un.
00:05:09En termes d'architecture de base et de qualité de code,
00:05:12GLM s'est vraiment bien débrouillé,
00:05:14et cela m'a surpris parce que la version 4.6 ne l'était pas dans mes tests.
00:05:17Le plan précédent n'était vraiment pas justifié par la quantité de direction que j'ai dû donner et les erreurs qu'il a commises,
00:05:22mais celui-ci est définitivement un énorme progrès.
00:05:24Ces benchmarks sont définitivement justifiés par les tests que j'ai effectués.
00:05:27J'ai aussi regardé quelques petites choses dans le code,
00:05:30et GLM 4.7 est en fait un bon modèle.
00:05:32Compte tenu de ces résultats inattendus,
00:05:34nous recommandons honnêtement à tous les gens d'obtenir le plan à 29 dollars par an.
00:05:38Si vous avez déjà le plan Claude à 20 dollars,
00:05:41c'est basiquement rien en comparaison.
00:05:42Cela dit,
00:05:43ce n'est toujours pas un modèle que vous utiliseriez pour un codage complètement autonome.
00:05:46Même si Claude s'est vraiment trompé sur l'architecture ici,
00:05:49c'est suffisamment bon pour qu'il puisse le corriger et l'améliorer plus tard.
00:05:52Mais avec les petites bizarreries que GLM a toujours,
00:05:54nous ne pensons pas que c'est une bonne idée de dépendre uniquement de celui-ci.
00:05:57Cela nous amène à la fin de cette vidéo.
00:05:58Si vous souhaitez soutenir la chaîne et nous aider à continuer à faire des vidéos comme celle-ci,
00:06:02vous pouvez le faire en utilisant le bouton Super Thanks ci-dessous.
00:06:05Comme toujours,
00:06:06merci d'avoir regardé et je vous vois dans la prochaine vidéo.