GLM 4.7 ist WAHNSINN für Software-Entwicklung...

AAI LABS
Computing/SoftwareSmall Business/StartupsTelecommutingInternet Technology

Transcript

00:00:00Die Jungs von ZAI haben gerade GLM 4.7 rausgebracht,
00:00:03und für 29 Dollar pro Jahr ist das lächerlich günstig für ein Modell,
00:00:07das sie mit 73% auf der SWE-Benchmark anprangern – auf Augenhöhe mit Sonnet 4.5.
00:00:11Das Timing ist kein Zufall.
00:00:13Sie gehen an die Börse und müssen westliche Akzeptanz zeigen..
00:00:15Sie haben sogar ein Live-Q&A auf Reddit gemacht,
00:00:17was ich noch nie von einem chinesischen KI-Labor gesehen habe.
00:00:19Aber 4.6 hatte echte Probleme. Ist 4.7 wirklich behoben?
00:00:23Hey, willkommen!
00:00:23Wenn ihr neu hier seid,
00:00:24das ist AI Labs,
00:00:25und das ist eine neue Episode von Debunked – eine Serie,
00:00:28in der wir KI-Tools und KI-Modelle tatsächlich testen,
00:00:30den Marketing-Hype wegschwemmen und euch zeigen,
00:00:32was sie wirklich können mit echten Tests und ehrlichen Ergebnissen..
00:00:35Das neue Modell wurde hauptsächlich durch Post-Training verbessert,
00:00:38nicht durch Architekturveränderungen.
00:00:40Es ist stark auf Claude-Code optimiert,
00:00:42und das ZAI-Team hat explizit gesagt,
00:00:44dass das ihr Priority-Framework ist.
00:00:46Aktuell schlägt es sogar viele der Top-Modelle,
00:00:48einschließlich GPT-5,
00:00:50besonders bei Code-Benchmarks.
00:00:52Bei all ihren Code-Plänen haben sie zusätzlich diese neuen MCP-Tools hinzugefügt,
00:00:56die nicht direkt integriert sind.
00:00:58Das sind separate MCP-Server.
00:01:00Sie haben derzeit drei gelistet..
00:01:02Und damit alle funktionieren,
00:01:03brauchst du nur einen API-Schlüssel.
00:01:04Deswegen sind sie im Plan enthalten,
00:01:06aber separat vom Modell..
00:01:07Was die Nutzungslimits angeht,
00:01:09sind sie ziemlich die gleichen wie bei 4.6.
00:01:11Aber falls du nicht wusstest,
00:01:12wie die vorher waren,
00:01:13habe ich dazu eigentlich einen Report generiert.
00:01:15Witzigerweise habe ich zuerst versucht,
00:01:17ihn mit Gemini 3 zu generieren,
00:01:18und aus irgendeinem Grund konnte es mir keinen ordentlichen Vergleich der Pläne geben.
00:01:22Ich bin wieder zu Claude gegangen,
00:01:23und es hat das schön recherchiert.
00:01:24Grundsätzlich: Bei der Entry-Level-Plan bekommst du 10 bis 40 Prompts in Claude-Code,
00:01:29während du bei GLM-Code 120 Prompts für nur 3 Dollar bekommst – ein riesiger Unterschied.
00:01:34Das nimmt zu,
00:01:35wenn du in die höheren Tiers gehst,
00:01:37wo der 200-Dollar-Plan dir bis zu 800 Prompts in diesem 5-Stunden-Fenster mit Claude gibt,
00:01:42während du mit 30 Dollar 2.400 bekommst.
00:01:44Alle diese Tarife sind im ersten Monat reduziert,
00:01:46dann verdoppeln sie sich.
00:01:48Aber wenn du den Jahresplan nimmst, ist es viel günstiger.
00:01:50Ein anderer wichtiger Benchmark war Humanitys Last Exam.
00:01:53Für die,
00:01:54die es nicht kennen: Es ist einer dieser ungesättigten Benchmarks,
00:01:56und die meisten neueren Modelle schneiden schlecht ab,
00:01:59weil er genuinely schwierig ist.
00:02:00Um die UI tatsächlich zu testen,
00:02:02haben wir diesen Prompt,
00:02:03der sich eigentlich nicht auf die Architektur konzentriert.
00:02:05Er konzentriert sich hauptsächlich auf die Design-Logik,
00:02:08die das Modell implementieren soll,
00:02:09während er auch einige Design-Optionen bietet.
00:02:11Wir können dann sehen – basierend auf dem Unternehmen,
00:02:14das ich vorschlage,
00:02:14in diesem Fall eine KI-gestützte Code-Review-Plattform –,
00:02:17was es macht.
00:02:18Wir haben uns auch für den MAX-Plan angemeldet,
00:02:19und es gibt zwei Wege,
00:02:20wie du ihn tatsächlich mit Claude-Code verbinden kannst.
00:02:22In beiden Fällen änderst du die settings.json,
00:02:25aber einer befindet sich im Root deines Projekts,
00:02:27was die globalen Einstellungen ändert.
00:02:29Wenn du das in deinem Projekt machst,
00:02:31ändert es das nur für dieses Projekt.
00:02:33Das haben wir gemacht,
00:02:34damit wir es mit Sonnet 4.5 vergleichen können.
00:02:36Das ist das, was Sonnet 4.5 produziert hat.
00:02:38Der Prompt ist eigentlich ziemlich gut,
00:02:40und wir verwenden ihn,
00:02:41um wirklich zu identifizieren,
00:02:42welche dieser Modelle UI bauen und wie kreativ sie das tun.
00:02:45Es ist einfaches Vanilla-JS,
00:02:46also schauen wir uns jetzt nicht die Architektur an,
00:02:48nur das Design.
00:02:49Das ist das, was GLM 4.7 produziert hat.
00:02:52Design-technisch ist es ziemlich gut,
00:02:53aber es hat hier einen Fehler gemacht,
00:02:55wo es nicht wirklich die Länge berücksichtigt hat,
00:02:57weshalb die Artefakte ein bisschen zerfallen.
00:02:59Abgesehen davon ist das Design solide,
00:03:01aber ich mag diese Emojis überhaupt nicht.
00:03:02Sonnet hat keine Emojis verwendet,
00:03:04was gut ist und zur Design-Sprache passt.
00:03:06Um sie beide tatsächlich zu testen,
00:03:08habe ich dieses vorgefertigte Next.js-Projekt,
00:03:10das diesen Kontext initialisiert hat – dass es eine skalierbare und Backend-ready UI bauen soll.
00:03:15Dieser Teil ist wichtig,
00:03:17denn wenn ich die Gründe bewerte,
00:03:18warum GLM überraschend besser abschnitt,
00:03:20kommt es auf diesen Punkt zurück.
00:03:22Framer Motion und ShadCN-Komponenten wurden vorinstalliert,
00:03:26um die UI zu bauen.
00:03:27Beide wurden gebeten,
00:03:28die Hauptseite des Browsers für eine Netflix-ähnliche Streaming-Plattform zu bauen.
00:03:32Ihnen wurde vorgegeben,
00:03:33was sie bauen sollen und was auf der Seite sein muss.
00:03:35Was die Nutzbarkeit des GLM-Modells mit Claude-Code angeht: Ein Problem mit GLM 4.6 war,
00:03:40dass es bei der Code-Generierung extrem langsam war.
00:03:43Hier ist dieses Problem meiner Erfahrung nach nicht behoben.
00:03:46Es ist immer noch extrem langsam..
00:03:48Aber es gibt eine Änderung.
00:03:49Bei GLM 4.6 hat das Modell eigentlich nicht gedacht – es hat nicht innerhalb von Claude-Code gedacht..
00:03:54Das detaillierte Transkript,
00:03:56das du hier bekommst,
00:03:57zeigt klar Denken,
00:03:57aber das war bei 4.6 nicht sichtbar.
00:03:59Du kannst hier klar sehen,
00:04:01dass es mit dem 4.7-Modell denkt,
00:04:02also das ist behoben.
00:04:04Abgesehen davon gibt es einige Eigenheiten,
00:04:06die du kennen musst.
00:04:07GLM 4.7 ist nicht besonders autonom..
00:04:09Das habe ich während meines Tests festgestellt.
00:04:10Wie du hier sehen kannst,
00:04:11hat dieser GLM-Ordner bereits einen UI-Benchmark-Ordner,
00:04:14in dem die App implementiert werden soll,
00:04:15aber es hat sich entschieden,
00:04:17das zu ignorieren..
00:04:18Obwohl es klar im Kontext geschrieben war,
00:04:19ist es vorgegangen und hat sich selbst eine andere Next.js-App erstellt.
00:04:22Es hat sie nicht mal initialisiert,
00:04:24es hat einfach angefangen zu coden.
00:04:25Manchmal macht es wirklich blöde Dinge..
00:04:27Aber nachdem ich es korrigiert habe und in die richtige Richtung gelenkt habe,
00:04:30ist das bei der Implementierung das,
00:04:31was Claude erstellt hat.
00:04:32Wieder mal,
00:04:33als das höherwertige Modell,
00:04:34ist es ziemlich gut bei der UI.
00:04:35Das ist das, was GLM 4.7 erstellt hat.
00:04:37Claude hat eindeutig eine bessere UI erstellt,
00:04:39weil es unserer Meinung nach immer noch besser beim Design ist..
00:04:42Für den Preis ist das okay.
00:04:43Aber nachdem ich mir den Code angeschaut und reingeschaut habe – da sie gesagt bekamen,
00:04:47dass das Backend-ready sein sollte und dass sie jetzt Mock-Daten verwenden müssen – hat das GLM-Modell tatsächlich eine bessere Architektur implementiert,
00:04:53indem es alle Mock-Daten in eine Datei platziert hat..
00:04:56Dann müssen wir nur diese Datei ändern,
00:04:57wenn wir die austauschen müssen,
00:04:59weil die Imports dort verbunden sind – im Gegensatz zu dem,
00:05:01was Claude implementiert hat,
00:05:03wo jede andere Komponente ihren eigenen Import hat.
00:05:05Wenn wir das Backend tatsächlich implementieren,
00:05:07müssen wir alle diese Dateien einzeln ändern.
00:05:09In Bezug auf grundlegende Architektur und Code-Qualität hat GLM eigentlich ganz gut abgeschnitten,
00:05:14und das hat mich überrascht,
00:05:15weil 4.6 in meinem Test nicht so gut war.
00:05:17Der vorherige Plan war durch all das Lenken und die Fehler,
00:05:20die es machte,
00:05:20nicht wirklich gerechtfertigt,
00:05:22aber dieser hier ist definitiv ein großer Sprung.
00:05:24Diese Benchmarks sind definitiv durch die Tests gerechtfertigt,
00:05:26die ich gemacht habe.
00:05:27Ich habe mir auch ein paar andere kleine Dinge im Code angeschaut,
00:05:30und GLM 4.7 ist tatsächlich ein gutes Modell.
00:05:32Angesichts dieser unerwarteten Ergebnisse empfehlen wir ehrlich gesagt jedem,
00:05:36den 29-Dollar-pro-Jahr-Plan zu holen.
00:05:38Wenn du bereits den 20-Dollar-Claude-Plan hast,
00:05:41ist das praktisch nichts im Vergleich.
00:05:42Das gesagt,
00:05:43es ist immer noch nicht ein Modell,
00:05:44das du für völlig autonomes Coding verwenden würdest.
00:05:46Obwohl Claude hier die Architektur wirklich vermasselt hat,
00:05:49ist es gut genug,
00:05:50dass es das später korrigieren und verbessern kann.
00:05:52Aber mit den kleinen Eigenheiten,
00:05:53die GLM immer noch hat,
00:05:54denken wir nicht,
00:05:54dass es eine gute Idee ist,
00:05:55sich ausschließlich darauf zu verlassen.
00:05:57Das bringt uns zum Ende dieses Videos.
00:05:58Wenn du den Kanal unterstützen möchtest und uns helfen möchtest,
00:06:01weiterhin Videos wie diese zu machen,
00:06:03kannst du das mit dem Super-Thanks-Button unten tun.
00:06:05Wie immer, danke fürs Zuschauen, und bis zum nächsten Mal!

Key Takeaway

GLM 4.7 ist ein überraschend gutes und günstiges KI-Coding-Modell mit solider Architektur und verbesserten Fähigkeiten, bleibt aber langsam und weniger autonom als Claude Sonnet 4.5.

Highlights

GLM 4.7 ist für nur 29 Dollar pro Jahr erhältlich und erreicht 73% auf der SWE-Benchmark, was Sonnet 4.5 ebenbürtig ist

Das Modell wurde hauptsächlich durch Post-Training optimiert und ist speziell für Claude-Code entwickelt worden

GLM 4.7 zeigt jetzt Denken innerhalb von Claude-Code, was bei Version 4.6 nicht sichtbar war

Die Code-Architektur von GLM 4.7 ist überraschend besser als Claude Sonnet 4.5 bei Backend-Ready-Implementierungen, obwohl das Design von Claude besser ist

GLM 4.7 hat weniger Autonomie und Eigenheiten, die manuelle Steuerung erfordern – es ist nicht für völlig autonomes Coding geeignet

Im Entry-Level-Plan bietet GLM-Code 120 Prompts für 3 Dollar, während Claude-Code nur 10-40 Prompts bietet

Trotz verbesserter Architektur bleibt GLM 4.7 extrem langsam bei der Code-Generierung, ein Problem das seit 4.6 bestehen bleibt

Timeline

Einführung in GLM 4.7 und Marketing-Kontext

Die Jungs von ZAI haben GLM 4.7 mit einem Preis von 29 Dollar pro Jahr veröffentlicht und erreichen damit eine beeindruckende Platzierung von 73% auf der SWE-Benchmark, was Sonnet 4.5 ebenbürtig ist. Das Video wird als Teil der Serie "Debunked" präsentiert, in der KI-Tools und KI-Modelle mit echten Tests gründlich überprüft werden, um Marketing-Hype zu durchschauen und ehrliche Ergebnisse zu zeigen. Das Team merkt an, dass das Timing der Veröffentlichung kein Zufall ist, da ZAI an die Börse geht und westliche Akzeptanz zeigen muss – ein ungewöhnlicher Schritt für ein chinesisches KI-Labor ist sogar ein Live-Q&A auf Reddit. Der Titel des Videos signalisiert, dass 4.6 echte Probleme hatte, und dieses Video wird untersuchen, ob diese in Version 4.7 wirklich behoben wurden.

Technische Verbesserungen und Modell-Architektur

GLM 4.7 wurde hauptsächlich durch Post-Training verbessert, nicht durch grundlegende Architekturveränderungen. Das Modell ist stark auf Claude-Code optimiert, und das ZAI-Team hat explizit bestätigt, dass dies ihr Priority-Framework ist. Aktuell schlägt GLM 4.7 viele Top-Modelle, einschließlich GPT-5, besonders bei Code-Benchmarks. Zusätzlich zu den Code-Verbesserungen hat ZAI drei neue MCP-Tools hinzugefügt, die als separate MCP-Server funktionieren und nur einen API-Schlüssel für die Verbindung benötigen. Diese Tools sind im Plan enthalten, sind aber separat vom Modell selbst implementiert.

Preis-Vergleich und Nutzungslimits

Die Nutzungslimits von GLM 4.7 sind ähnlich wie bei 4.6, aber der Preis-Leistungs-Unterschied zu Claude ist bemerkenswert. Bei der Entry-Level-Plan erhält man 10-40 Prompts in Claude-Code, während GLM-Code 120 Prompts für nur 3 Dollar bietet – ein enormer Unterschied. Der 200-Dollar-Claude-Plan bietet 800 Prompts in einem 5-Stunden-Fenster, während der 30-Dollar-GLM-Plan 2.400 Prompts bereitstellt. Alle Tarife sind im ersten Monat reduziert und verdoppeln sich danach, aber der Jahresplan ist deutlich günstiger. Ein weiterer wichtiger Benchmark ist Humanity's Last Exam, ein ungesättigter Benchmark, bei dem die meisten neueren Modelle schlecht abschneiden, weil er wirklich schwierig ist.

UI-Design und UI-Generierungs-Test

Der Tester nutzte einen speziellen Prompt für die UI-Tests, der sich auf Design-Logik konzentriert statt auf Architektur, wobei auch Design-Optionen angeboten werden. Das Szenario war eine KI-gestützte Code-Review-Plattform mit Vanilla-JS. Sonnet 4.5 hat eine hochwertige UI ohne Emojis produziert, die zu einer soliden Design-Sprache passt. GLM 4.7 produzierte ebenfalls ein gutes Design, machte aber einen Fehler bezüglich der Längenkonsistenz, weshalb die Artefakte teilweise zerfallen, und nutzte unangebrachte Emojis. Trotz dieser Mängel ist das Design von GLM 4.7 technisch solide, aber Claude schnitt in dieser Designaufgabe deutlich besser ab.

Praktischer Code-Test mit Next.js und Architektur-Vergleich

Beide Modelle wurden gebeten, die Hauptseite einer Netflix-ähnlichen Streaming-Plattform mit vorinstallierten Framer Motion und ShadCN-Komponenten zu bauen. Ein kritisches Problem mit GLM 4.6 war die extrem langsame Code-Generierung, was in 4.7 leider nicht behoben wurde. Allerdings gibt es eine positive Änderung: GLM 4.7 zeigt jetzt sichtbares Denken innerhalb von Claude-Code, während 4.6 dies nicht tat. Ein großer Nachteil ist der mangelnde Autonomie: GLM 4.7 ignorierte den vordefinierten UI-Benchmark-Ordner und erstellte stattdessen eigene Next.js-Apps. Bei der Code-Architektur überraschte GLM 4.7 positiv, indem es alle Mock-Daten in eine zentrale Datei platzierte, während Claude jeden Komponenten-Import separat setzte – ein deutlicher Vorteil für zukünftige Backend-Implementierung.

Gesamtbewertung und Empfehlungen

Trotz überraschend guter Architektur-Ergebnisse wird festgestellt, dass GLM 4.7 kein Modell für völlig autonomes Coding ist und aufgrund seiner Eigenheiten kontinuierliche Steuerung benötigt. Der 29-Dollar-pro-Jahr-Plan wird jedem empfohlen, besonders wenn man bereits den 20-Dollar-Claude-Plan hat, da dies praktisch kostenlos ist. GLM 4.7 zeigt einen großen Sprung gegenüber 4.6 und die Benchmarks sind durch die Tests gerechtfertigt. Abschließend wird betont, dass man sich nicht ausschließlich auf GLM 4.7 verlassen sollte, aber es ist eine ausgezeichnete Option als Ergänzung, da es trotz Mängel überraschend gut bei der Code-Architektur abschneidet.

Community Posts

View all posts