00:00:00Die Jungs von ZAI haben gerade GLM 4.7 rausgebracht,
00:00:03und für 29 Dollar pro Jahr ist das lächerlich günstig für ein Modell,
00:00:07das sie mit 73% auf der SWE-Benchmark anprangern – auf Augenhöhe mit Sonnet 4.5.
00:00:11Das Timing ist kein Zufall.
00:00:13Sie gehen an die Börse und müssen westliche Akzeptanz zeigen..
00:00:15Sie haben sogar ein Live-Q&A auf Reddit gemacht,
00:00:17was ich noch nie von einem chinesischen KI-Labor gesehen habe.
00:00:19Aber 4.6 hatte echte Probleme. Ist 4.7 wirklich behoben?
00:00:23Hey, willkommen!
00:00:23Wenn ihr neu hier seid,
00:00:24das ist AI Labs,
00:00:25und das ist eine neue Episode von Debunked – eine Serie,
00:00:28in der wir KI-Tools und KI-Modelle tatsächlich testen,
00:00:30den Marketing-Hype wegschwemmen und euch zeigen,
00:00:32was sie wirklich können mit echten Tests und ehrlichen Ergebnissen..
00:00:35Das neue Modell wurde hauptsächlich durch Post-Training verbessert,
00:00:38nicht durch Architekturveränderungen.
00:00:40Es ist stark auf Claude-Code optimiert,
00:00:42und das ZAI-Team hat explizit gesagt,
00:00:44dass das ihr Priority-Framework ist.
00:00:46Aktuell schlägt es sogar viele der Top-Modelle,
00:00:48einschließlich GPT-5,
00:00:50besonders bei Code-Benchmarks.
00:00:52Bei all ihren Code-Plänen haben sie zusätzlich diese neuen MCP-Tools hinzugefügt,
00:00:56die nicht direkt integriert sind.
00:00:58Das sind separate MCP-Server.
00:01:00Sie haben derzeit drei gelistet..
00:01:02Und damit alle funktionieren,
00:01:03brauchst du nur einen API-Schlüssel.
00:01:04Deswegen sind sie im Plan enthalten,
00:01:06aber separat vom Modell..
00:01:07Was die Nutzungslimits angeht,
00:01:09sind sie ziemlich die gleichen wie bei 4.6.
00:01:11Aber falls du nicht wusstest,
00:01:12wie die vorher waren,
00:01:13habe ich dazu eigentlich einen Report generiert.
00:01:15Witzigerweise habe ich zuerst versucht,
00:01:17ihn mit Gemini 3 zu generieren,
00:01:18und aus irgendeinem Grund konnte es mir keinen ordentlichen Vergleich der Pläne geben.
00:01:22Ich bin wieder zu Claude gegangen,
00:01:23und es hat das schön recherchiert.
00:01:24Grundsätzlich: Bei der Entry-Level-Plan bekommst du 10 bis 40 Prompts in Claude-Code,
00:01:29während du bei GLM-Code 120 Prompts für nur 3 Dollar bekommst – ein riesiger Unterschied.
00:01:34Das nimmt zu,
00:01:35wenn du in die höheren Tiers gehst,
00:01:37wo der 200-Dollar-Plan dir bis zu 800 Prompts in diesem 5-Stunden-Fenster mit Claude gibt,
00:01:42während du mit 30 Dollar 2.400 bekommst.
00:01:44Alle diese Tarife sind im ersten Monat reduziert,
00:01:46dann verdoppeln sie sich.
00:01:48Aber wenn du den Jahresplan nimmst, ist es viel günstiger.
00:01:50Ein anderer wichtiger Benchmark war Humanitys Last Exam.
00:01:53Für die,
00:01:54die es nicht kennen: Es ist einer dieser ungesättigten Benchmarks,
00:01:56und die meisten neueren Modelle schneiden schlecht ab,
00:01:59weil er genuinely schwierig ist.
00:02:00Um die UI tatsächlich zu testen,
00:02:02haben wir diesen Prompt,
00:02:03der sich eigentlich nicht auf die Architektur konzentriert.
00:02:05Er konzentriert sich hauptsächlich auf die Design-Logik,
00:02:08die das Modell implementieren soll,
00:02:09während er auch einige Design-Optionen bietet.
00:02:11Wir können dann sehen – basierend auf dem Unternehmen,
00:02:14das ich vorschlage,
00:02:14in diesem Fall eine KI-gestützte Code-Review-Plattform –,
00:02:17was es macht.
00:02:18Wir haben uns auch für den MAX-Plan angemeldet,
00:02:19und es gibt zwei Wege,
00:02:20wie du ihn tatsächlich mit Claude-Code verbinden kannst.
00:02:22In beiden Fällen änderst du die settings.json,
00:02:25aber einer befindet sich im Root deines Projekts,
00:02:27was die globalen Einstellungen ändert.
00:02:29Wenn du das in deinem Projekt machst,
00:02:31ändert es das nur für dieses Projekt.
00:02:33Das haben wir gemacht,
00:02:34damit wir es mit Sonnet 4.5 vergleichen können.
00:02:36Das ist das, was Sonnet 4.5 produziert hat.
00:02:38Der Prompt ist eigentlich ziemlich gut,
00:02:40und wir verwenden ihn,
00:02:41um wirklich zu identifizieren,
00:02:42welche dieser Modelle UI bauen und wie kreativ sie das tun.
00:02:45Es ist einfaches Vanilla-JS,
00:02:46also schauen wir uns jetzt nicht die Architektur an,
00:02:48nur das Design.
00:02:49Das ist das, was GLM 4.7 produziert hat.
00:02:52Design-technisch ist es ziemlich gut,
00:02:53aber es hat hier einen Fehler gemacht,
00:02:55wo es nicht wirklich die Länge berücksichtigt hat,
00:02:57weshalb die Artefakte ein bisschen zerfallen.
00:02:59Abgesehen davon ist das Design solide,
00:03:01aber ich mag diese Emojis überhaupt nicht.
00:03:02Sonnet hat keine Emojis verwendet,
00:03:04was gut ist und zur Design-Sprache passt.
00:03:06Um sie beide tatsächlich zu testen,
00:03:08habe ich dieses vorgefertigte Next.js-Projekt,
00:03:10das diesen Kontext initialisiert hat – dass es eine skalierbare und Backend-ready UI bauen soll.
00:03:15Dieser Teil ist wichtig,
00:03:17denn wenn ich die Gründe bewerte,
00:03:18warum GLM überraschend besser abschnitt,
00:03:20kommt es auf diesen Punkt zurück.
00:03:22Framer Motion und ShadCN-Komponenten wurden vorinstalliert,
00:03:26um die UI zu bauen.
00:03:27Beide wurden gebeten,
00:03:28die Hauptseite des Browsers für eine Netflix-ähnliche Streaming-Plattform zu bauen.
00:03:32Ihnen wurde vorgegeben,
00:03:33was sie bauen sollen und was auf der Seite sein muss.
00:03:35Was die Nutzbarkeit des GLM-Modells mit Claude-Code angeht: Ein Problem mit GLM 4.6 war,
00:03:40dass es bei der Code-Generierung extrem langsam war.
00:03:43Hier ist dieses Problem meiner Erfahrung nach nicht behoben.
00:03:46Es ist immer noch extrem langsam..
00:03:48Aber es gibt eine Änderung.
00:03:49Bei GLM 4.6 hat das Modell eigentlich nicht gedacht – es hat nicht innerhalb von Claude-Code gedacht..
00:03:54Das detaillierte Transkript,
00:03:56das du hier bekommst,
00:03:57zeigt klar Denken,
00:03:57aber das war bei 4.6 nicht sichtbar.
00:03:59Du kannst hier klar sehen,
00:04:01dass es mit dem 4.7-Modell denkt,
00:04:02also das ist behoben.
00:04:04Abgesehen davon gibt es einige Eigenheiten,
00:04:06die du kennen musst.
00:04:07GLM 4.7 ist nicht besonders autonom..
00:04:09Das habe ich während meines Tests festgestellt.
00:04:10Wie du hier sehen kannst,
00:04:11hat dieser GLM-Ordner bereits einen UI-Benchmark-Ordner,
00:04:14in dem die App implementiert werden soll,
00:04:15aber es hat sich entschieden,
00:04:17das zu ignorieren..
00:04:18Obwohl es klar im Kontext geschrieben war,
00:04:19ist es vorgegangen und hat sich selbst eine andere Next.js-App erstellt.
00:04:22Es hat sie nicht mal initialisiert,
00:04:24es hat einfach angefangen zu coden.
00:04:25Manchmal macht es wirklich blöde Dinge..
00:04:27Aber nachdem ich es korrigiert habe und in die richtige Richtung gelenkt habe,
00:04:30ist das bei der Implementierung das,
00:04:31was Claude erstellt hat.
00:04:32Wieder mal,
00:04:33als das höherwertige Modell,
00:04:34ist es ziemlich gut bei der UI.
00:04:35Das ist das, was GLM 4.7 erstellt hat.
00:04:37Claude hat eindeutig eine bessere UI erstellt,
00:04:39weil es unserer Meinung nach immer noch besser beim Design ist..
00:04:42Für den Preis ist das okay.
00:04:43Aber nachdem ich mir den Code angeschaut und reingeschaut habe – da sie gesagt bekamen,
00:04:47dass das Backend-ready sein sollte und dass sie jetzt Mock-Daten verwenden müssen – hat das GLM-Modell tatsächlich eine bessere Architektur implementiert,
00:04:53indem es alle Mock-Daten in eine Datei platziert hat..
00:04:56Dann müssen wir nur diese Datei ändern,
00:04:57wenn wir die austauschen müssen,
00:04:59weil die Imports dort verbunden sind – im Gegensatz zu dem,
00:05:01was Claude implementiert hat,
00:05:03wo jede andere Komponente ihren eigenen Import hat.
00:05:05Wenn wir das Backend tatsächlich implementieren,
00:05:07müssen wir alle diese Dateien einzeln ändern.
00:05:09In Bezug auf grundlegende Architektur und Code-Qualität hat GLM eigentlich ganz gut abgeschnitten,
00:05:14und das hat mich überrascht,
00:05:15weil 4.6 in meinem Test nicht so gut war.
00:05:17Der vorherige Plan war durch all das Lenken und die Fehler,
00:05:20die es machte,
00:05:20nicht wirklich gerechtfertigt,
00:05:22aber dieser hier ist definitiv ein großer Sprung.
00:05:24Diese Benchmarks sind definitiv durch die Tests gerechtfertigt,
00:05:26die ich gemacht habe.
00:05:27Ich habe mir auch ein paar andere kleine Dinge im Code angeschaut,
00:05:30und GLM 4.7 ist tatsächlich ein gutes Modell.
00:05:32Angesichts dieser unerwarteten Ergebnisse empfehlen wir ehrlich gesagt jedem,
00:05:36den 29-Dollar-pro-Jahr-Plan zu holen.
00:05:38Wenn du bereits den 20-Dollar-Claude-Plan hast,
00:05:41ist das praktisch nichts im Vergleich.
00:05:42Das gesagt,
00:05:43es ist immer noch nicht ein Modell,
00:05:44das du für völlig autonomes Coding verwenden würdest.
00:05:46Obwohl Claude hier die Architektur wirklich vermasselt hat,
00:05:49ist es gut genug,
00:05:50dass es das später korrigieren und verbessern kann.
00:05:52Aber mit den kleinen Eigenheiten,
00:05:53die GLM immer noch hat,
00:05:54denken wir nicht,
00:05:54dass es eine gute Idee ist,
00:05:55sich ausschließlich darauf zu verlassen.
00:05:57Das bringt uns zum Ende dieses Videos.
00:05:58Wenn du den Kanal unterstützen möchtest und uns helfen möchtest,
00:06:01weiterhin Videos wie diese zu machen,
00:06:03kannst du das mit dem Super-Thanks-Button unten tun.
00:06:05Wie immer, danke fürs Zuschauen, und bis zum nächsten Mal!