GLM 5.2 ist mein neues Lieblingsmodell...

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Das derzeit beste offene Modell der Welt kommt nicht von einer Firma namens Open AI, sondern natürlich von einem
00:00:04chinesischen Labor, und zwar ist es GLM 5.2 von Zai. Dieses Modell ist wirklich beeindruckend und erreicht auf
00:00:10bestimmten Benchmarks das Niveau von GPT 5.5, und es gibt sogar einen Bereich, in dem es
00:00:15Fable zu schlagen scheint, während es gleichzeitig MIT-lizenziert und offen ist. Schauen wir es uns an. GLM 5.2 ist ein Modell mit insgesamt 744 Milliarden Parametern
00:00:26mit 40 Milliarden aktiven Parametern, und es hat tatsächlich die gleiche Größe wie sein Vorgänger, GLM 5.1,
00:00:31weshalb es sehr beeindruckend ist, dass sie einen solchen Sprung beim Intelligenz-Index
00:00:35von Artificial Analysis gemacht haben. Dies ist ein kombinierter Wert aus einer Reihe von Benchmarks, also Schlussfolgerungen, Programmierung,
00:00:40Wissenschaft und allem Drum und Dran. GLM 5.2 erzielte hier einen Wert von 51, was 11 Punkte vor seiner vorherigen Version liegt
00:00:45und es mit deutlichem Vorsprung zum besten offenen Modell macht. Man sieht, Qwen 3.7 liegt dahinter, dann Minimax M3,
00:00:51gefolgt von Kimi K 2.6. Damit reiht es sich in die gleiche Kategorie ein wie Gemini 3.5 Flash und GPT 5.4 bei
00:00:57einem maximalen Aufwand, was ziemlich verrückt ist. Und bei einigen der im Index enthaltenen Benchmarks wie GPT-Eval
00:01:03übertrifft es sogar GPT 5.5. Wenn wir uns speziell auf die Programmierung konzentrieren, ist es auch im Coding-Index großartig;
00:01:09es erzielt das gleiche Ergebnis wie Gemini 3.1 Pro und schlägt tatsächlich Sonic 4.6, und es liegt nicht weit entfernt von den
00:01:14Top-Frontier-Modellen. Es liegt auch ein gutes Stück vor Kimi K 2.7 Code, unserem neuesten Modell, von dem ich weiß,
00:01:19dass viele Leute – ich eingeschlossen – große Fans sind. Ich fand schon immer, dass die Kimi-Modelle ein wirklich
00:01:23schönes Gefühl haben. Außerhalb des Coding-Index ist ein weiterer Benchmark, den die Leute heutzutage sehr mögen,
00:01:27Deep SWE. Wenn wir uns den ansehen, übertrifft es tatsächlich Opus 4.7 bei mittlerem Aufwand.
00:01:33Das ist wirklich super beeindruckend. Es ist allerdings erwähnenswert, dass nicht jedes einzelne Modell
00:01:38getestet wurde und das verwendete Framework tatsächlich Claude Code war. Man muss nur ein bisschen API-Trickserei
00:01:42anwenden, um auf Zai statt auf Anthropic zu zeigen. Der letzte Satz an Benchmarks, den ich mag, sind Design-Arenen,
00:01:47und hier wird es interessant: GLM 5.2 hat gerade den ersten Platz insgesamt auf der Bestenliste für
00:01:53Single-Turn-HTML-Webdesign von Design Arena belegt und ist damit das erste Modell überhaupt, das die Claude-Linie
00:01:58einschließlich Fable 5 geschlagen hat. Es scheint, als wäre dies ein Fokusbereich des Modells gewesen, da eine weitere Untersuchung
00:02:02durch Design Arena zeigt, dass GLM 5.2 über eine starke Auswahl an Expertenvorlagen verfügt, die gängige
00:02:08KI-Antipatterns vermeiden, sodass man weniger lila Verläufe erhalten sollte. Außerdem scheint es wirklich gut
00:02:12mit gängigen Bibliotheken wie Chart.js, Three.js und Tailwind zu funktionieren. Es gibt einen kleinen Kompromiss, nämlich
00:02:18dass es etwas langsamer ist, aber darauf komme ich später zurück. Es ist auch nicht überall auf der Design Arena die Nummer eins,
00:02:22es liegt auf dem zweiten Platz bei Spieleentwicklung, Datenvisualisierung und 3D, sowie auf dem vierten bei UI-Komponenten, aber das ist
00:02:28immer noch super beeindruckend. Ich dachte, ich probiere das mal mit ein paar Demo-Apps aus, und die erste war tatsächlich,
00:02:32Linear nachzubauen. Aber eines der nervigen Dinge an GLM 5.2, was ein kleiner Nachteil ist,
00:02:37ist, dass es nur Textmodalitäten akzeptiert, man kann also keinen Screenshot hochladen und sagen: “Bau das nach”.
00:02:42Also habe ich einen Screenshot an Claude gesendet und gefragt, gib mir einen Prompt, um das nachzubauen
00:02:46und das ist der Prompt, den ich GLM 5.2 schließlich gegeben habe. Unabhängig davon waren die Ergebnisse, die ich zurückbekam, super
00:02:51eindrucksvoll. Links habe ich die echte Linear-Webseite und rechts die GLM-Nachbildung.
00:02:55Man sieht, dass es die allgemeinen Elemente richtig hinbekommen hat, und für den Screenshot hier habe ich einfach
00:02:59die UI nachgebaut, was ich sehr cool fand. Wenn wir nach unten scrollen, sieht man, dass es insgesamt das
00:03:04Gefühl der Linear-Webseite getroffen hat, und ich finde, es sieht wirklich gut aus. Es hat also starke UI-Design-Fähigkeiten.
00:03:09Natürlich ist es nicht perfekt, da es keinen Screenshot verarbeiten konnte, also macht es das eher als
00:03:14Nachbildung des Text-Prompts, den ich euch gezeigt habe, aber diese Webseite sieht wirklich schön aus. Zum Vergleich:
00:03:19Links habe ich das, was mir Claude Opus 4.8 mit exakt demselben Prompt gegeben hat, und das hier ist
00:03:23Kimi K 2.7 Code. Wieder haben alle einen ziemlich guten Job gemacht, die Webseite nur anhand des Prompts nachzubauen,
00:03:29und ich glaube, mir gefällt die von Kimi K 2.7 am besten. Sie hat irgendwie das insgesamt
00:03:34beste Gefühl und sieht meiner Meinung nach am vollständigsten aus. Als Nächstes dachte ich, es wäre gut,
00:03:38diesen Modellen eine neue Webseite zu geben, die sie wahrscheinlich noch nicht gesehen haben, da Linear wahrscheinlich in den
00:03:42Trainingsdaten vieler dieser Modelle ist. Also sagte ich einfach: Entwirf und baue eine schöne einseitige Webseite
00:03:46für ein fiktives Produkt namens North Star; es ist eine KI-gestützte persönliche Planungs-App. Ihr seht,
00:03:50es gibt auch einige Design-Vorgaben weiter unten, wie wir wollen einen Hero-Bereich, einige Social Proofs, einen Preisbereich,
00:03:56all die üblichen Dinge. Und unten ist die Design-Vorgabe: saubere, hochwertige SaaS-Ästhetik,
00:04:00weiche Verläufe, starke Typografie, abgerundete Karten und so weiter. Das ist das Ergebnis, das ich von zwei der
00:04:06Modelle bekommen habe, und ich sage euch am Ende, welches welches ist. Aber man sieht, während wir nach unten scrollen, ich denke, das
00:04:10sieht wirklich schön aus und hat einen ziemlich guten Job gemacht. Es ist eine ziemlich einfache Startup-Webseite mit dem
00:04:15normalen Preisbereich usw. Und genauso rechts hier. Ich mag diesen Stil vielleicht ein bisschen
00:04:20mehr, aber man sieht, es hat sich für diesen KI-Look mit lila Verläufen entschieden, aber ich denke, da ist einfach
00:04:25etwas an dieser Webseite, das für mich sauberer und vollständiger aussieht, aber das ist
00:04:29komplett subjektiv. Wenn ihr einen Favoriten habt, lasst es mich in den Kommentaren unten wissen, und abonniert auch,
00:04:33während ihr dabei seid. Das Modell links war tatsächlich GLM 5.2 und das hier war Claude Opus 4.8.
00:04:39Zur Vervollständigung: Das hat mir Kimi K 2.7 Code gegeben, und ich finde, dieses hier fällt tatsächlich in diesen
00:04:43KI-Look mit diesen lila Verläufen. Es ist dem Claude-Modell etwas ähnlich, nur mit weniger
00:04:48Animationen und weniger Schliff. Ich wollte auch schnell sehen, was GLM 5.2 macht, wenn ich ihm keine
00:04:53Design-Vorgaben gebe. Ich habe ihm also nur den ersten Teil des Prompts gegeben, und ich glaube nicht,
00:04:56dass die Ausgabe schlecht aussieht, aber ich bin mir nicht sicher, ob ich Design Arena zustimmen kann, dass dies nicht den
00:05:01üblichen KI-Look hat. Das nutzt wirklich diese lila Verläufe bis zum Maximum. Für den nächsten Test habe ich
00:05:05sie dann an Three.js-Anwendungen ausprobiert und einfach gesagt: Baue ein Three.js-Spiel,
00:05:10bei dem ich ein F1-Auto um Silverstone fahren kann. Man sieht, dieses Modell hat sich an die Arbeit gemacht, und das hat
00:05:15insgesamt etwa 10 Minuten gedauert. Wenn wir ganz nach unten scrollen, wurden 40.000 Token verwendet und es kostete 32
00:05:20Cent. Das ist das Ergebnis, das GLM 5.2 uns gegeben hat. Man sieht, es steht Silverstone F1 und “Starte deinen
00:05:25Motor”. Übrigens, Lewis Hamilton hat gerade für Ferrari gewonnen, das ist absolut großartig. Ich freue mich zu sehen, dass wir
00:05:30hier ein rotes Auto als Ferrari haben, obwohl wir definitiv etwas langsamer sind, als ich es mir wünschen würde,
00:05:35und eine Sache, die mir hier auffällt, ist, wenn ich A drücke, scheine ich nach rechts zu fahren und D nach links, also sind die Steuerelemente
00:05:40invertiert, aber anscheinend nicht bei den Pfeiltasten. Und das ist definitiv nicht die Geschwindigkeit, mit der ich
00:05:45möchte, dass ein Ferrari um Silverstone fährt, aber ich meine, es ist nicht zu schlecht für einen ersten Versuch. Es
00:05:51scheint, ich fahre schneller, wenn ich rückwärts fahre, also vielleicht ist das besser. Ich habe den
00:05:55gleichen Test mit Kimi K 2.7 Code versucht, aber ich habe in einem einzigen Prompt kein
00:05:59funktionierendes Beispiel zurückbekommen. Irgendwo weiter unten hatte ich ein paar Konsolenfehler, die ständig geloopt haben, also musste ich
00:06:04ihm sagen, dass ich ein paar Fehler hatte, aber dann hat es die im zweiten Prompt behoben. Und man sieht,
00:06:08dieses hier hat tatsächlich mehr Token verbraucht, nämlich 110.000, und hat 81 Cent gekostet. Das Ergebnis war auch
00:06:14etwas weniger spielbar. Es scheint, wir haben etwas mehr Geschwindigkeit, aber unser Wendekreis ist schrecklich. Ich
00:06:19glaube nicht, dass ich jemals einen F1-Fahrer so habe wenden sehen, und wir können auch durch ein paar Gebäude fahren.
00:06:23Es ist cool, dass sie die Namen der Kurven in Silverstone haben, aber es gibt auch keine Strecke, es sind
00:06:27anscheinend nur Leitpfosten. Das letzte ist Claude Opus 4.8, und dieses ist etwas spielbarer,
00:06:33abgesehen von der Tatsache, dass ich nicht glaube, dass Bäume mitten auf der Silverstone-Strecke stehen. Ich meine,
00:06:37das letzte Mal, als ich nachgesehen habe, gab es keine, und ja, es ist insgesamt ein ziemlich gutes Spiel. Wir haben hier Kamera-Steuerungen,
00:06:42meine Räder würden das wahrscheinlich nicht mögen, wenn ich ein F1-Fahrer wäre, aber es scheint
00:06:47ganz gut zu funktionieren. Die Strecke selbst ist allerdings auch eine der verwirrendsten Strecken, die ich
00:06:52jemals jemanden habe fahren sehen. Es gibt hier viel Überlappung und ich weiß eigentlich nicht, in welche Richtung
00:06:57ich fahren soll. Aber ich würde sagen, dass Opus 4.8 uns die spielbarste Demo in einem einzigen Prompt gegeben hat. Der letzte Test, den ich gemacht habe,
00:07:02ist etwas aufwendiger. Es ist ein Frontend und ein Backend von Grund auf für ein persönliches Finanzmanagement-Dashboard
00:07:07mit ein paar Funktionen, die ihr hier aufgelistet seht. Die allgemeine Idee hier ist
00:07:11zu sehen, welchen Stack es wählt, wenn es ganz neu anfängt, und auch, ob es ein Frontend und ein Backend
00:07:16alles in diesem einen Prompt ohne Fehler verbinden kann. Hier ist der Versuch von GLM 5.2, und ich muss sagen, ja, es ist ein
00:07:22ziemlich einfach aussehendes Dashboard. Es gibt nichts Ausgefallenes, aber es gibt auch nicht allzu viele ausgefallene Dinge,
00:07:26die man mit dem Prompt, den ich ihm gegeben habe, tun kann. Alles scheint zu funktionieren, ich habe Dinge zur Datenbank hinzugefügt,
00:07:32ich habe mein Fable 5-Abonnement hier bezahlt, all diese Seiten sind anklickbar und alles wird übertragen
00:07:37zwischen ihnen, wenn ich darauf klicke. Ich habe es getestet, es scheint also einen sehr guten Job gemacht zu haben mit
00:07:41diesem einen Prompt. Ich bin immer neugierig, welchen Stack es gewählt hat, und dieses hier hat sich für eine Next.js-
00:07:46Anwendung entschieden und Prisma für die Datenbank verwendet. Wir können sehen, dass wir hier auch eine Entwicklungsdatenbank haben.
00:07:50Ich hätte wahrscheinlich bevorzugt, wenn es Drizzle und vielleicht TanStack verwendet hätte, aber ich kann mich nicht wirklich
00:07:55beschweren, ich habe ihm keine Richtung vorgegeben. Das ist tatsächlich das, was mir Kimi K 2.7 Code gegeben hat, und man sieht, es ist
00:07:59fast die exakt gleiche Anwendung, nur würde ich sagen, nicht ganz so schick. Sie haben definitiv einige der
00:08:04gleichen Vorlagen irgendwo in ihrem Training, die genau so aussehen. Und wieder, ja, ich kann mich nicht
00:08:09allzu sehr darüber beschweren, aber es fehlen so ein bisschen all die Extras mit den Schaltflächen,
00:08:13um übertragen zu können. Ich habe die Funktionen für Konten hinzufügen und Transaktionen hinzufügen, sie funktionieren, aber ich würde nur sagen, die
00:08:18allgemeine UI davon und die Benutzererfahrung ist etwas schlechter, da es diese Informationen
00:08:23oben nicht anklickbar hat. Der Standard-Stack, den es gewählt hat, würde ich auch sagen, ist etwas schlechter. Es hat React hier verwendet mit
00:08:28nur einem normalen Vite-Setup und React Router, womit ich kein Problem habe, aber das Backend war
00:08:33Express, und wenn wir uns die eigentliche Datenbankdatei ansehen, verwendet es einfach Node SQLite, um hineinzuschreiben, und
00:08:39schreibt die Schemata in den Text hier, was ich denke, etwas weniger skalierbar sein wird, wenn ich
00:08:43komplett “Vibe Coding” betreiben würde und nichts über den Stack wüsste, würde ich wahrscheinlich GLM 5.2 wollen, aber wenn ich
00:08:48Kimi K 2.7 Code benutzen würde, hätte ich ihm wahrscheinlich Anweisungen gegeben, Drizzle, Next.js und
00:08:53verschiedene andere Dinge zu verwenden, also variiert es einfach je nachdem, was ihr mögt. Wo wir gerade von subjektiv sprechen,
00:08:58das ist tatsächlich das, was mir Claude Opus 4.8 gegeben hat. Es hat definitiv einen komplett anderen Stil
00:09:03verwendet als die, die wir zuvor gesehen haben, aber es ist eine Art von Textstil, den Claude im Moment zu mögen scheint
00:09:07bei dem, was sie in die Trainingsdaten gesteckt haben oder worauf sie es hinsteuern. Und alles
00:09:11davon funktioniert wirklich gut, und ja, ich finde es sieht wirklich gut aus. Ich würde dies wahrscheinlich dazu bringen, vielleicht
00:09:16andere Schriftarten und ein anderes Farbschema zu verwenden, aber die Basis ist sehr gut. Es hat
00:09:20tatsächlich keine separaten Seiten dafür gemacht, es hat nur separate Bereiche gemacht, also vielleicht ist das schlechter, aber auch das
00:09:25kommt auf den Prompt an. Alle Funktionen und alles dergleichen funktioniert. Wenn wir uns
00:09:29den tatsächlichen Code ansehen, den Opus mir gegeben hat, denke ich tatsächlich, dass GLM 5.2 das hier gewonnen haben könnte. Was Opus
00:09:34getan hat, ist, es hat einfach eine normale React-Anwendung verwendet, es hat sich nicht einmal mit React Router aufgehalten,
00:09:38da alles auf dieser einzelnen Seite war, und es hat auch Express für sein Backend verwendet, aber dann hat es
00:09:43überhaupt keine Verbindung zu einer Datenbank hergestellt. Alles ist tatsächlich nur ein In-Memory-Speicher, den wir
00:09:48hier sehen können, wo es die Daten einfügt und alles über ein JavaScript-Objekt laufen lässt, was wieder wahrscheinlich
00:09:53nicht das ist, was ich will, wenn ich das in Zukunft skalieren werde. Aber es kommt auf den Prompt an. Ich denke,
00:09:58das ist meine wichtigste Erkenntnis, wenn ich dieses Modell in den letzten Tagen teste. Ich denke, für viele
00:10:02Aufgaben könnte man heimlich GLM 5.2 anstelle von Sonnet oder sogar Opus für einfachere Aufgaben einsetzen, und ich
00:10:07würde es wahrscheinlich nicht bemerken. Es ist ein wirklich fähiges Modell, und wenn ihr ihm die richtige Steuerung gebt, erhaltet ihr
00:10:12wirklich gute Ergebnisse. Es ist eines der ersten offenen Modelle, bei denen ich nicht das Gefühl hatte, gegen das Modell
00:10:16anzukämpfen, und auch eines der ersten offenen Modelle, bei denen ich beim Benutzen nicht dieses Gefühl hatte: “Ich weiß, Claude
00:10:21könnte das besser oder schneller”. Die letzten Dinge, die zu erwähnen sind, um das abzurunden, sind Token-Kosten und
00:10:25Geschwindigkeit. Einer der Nachteile von GLM 5.2 könnte sein, dass es etwas “token-hungriger” ist, wenn man es mit
00:10:31anderen Modellen seiner Klasse vergleicht. Es hat durchschnittlich 43.000 Token pro Aufgabe verwendet, was mehr ist als bei Kimi K 2.6,
00:10:37Minimax und DeepSeek. Aber die gute Nachricht ist, es kostet tatsächlich nicht so viel, je nach
00:10:41Anbieter. Es kostet etwa 1,40 Dollar für eine Million Input-Token und 4,40 Dollar für eine Million Output-Token. Und auf den
00:10:47Benchmarks von Artificial Analysis kostete es tatsächlich etwa 50 Cent pro Aufgabe, und man sieht, das ist ein
00:10:52ziemlich guter Punkt beim Vergleich von Kosten versus Intelligenz. Ignoriert das Gemini-Label hier, es ist tatsächlich dieser blaue
00:10:57Punkt, und man sieht, es ist eine ziemlich überfüllte Grafik, aber was das eigentlich zeigt, ist, bei seinem Intelligenzniveau
00:11:02ist GLM 5.2 das günstigste Modell. Obwohl ich hier sagen werde, wenn ihr Abstriche bei der Intelligenz hinnehmen könnt,
00:11:07finde ich Minimax und besonders DeepSeek V4 sehr gut für den Preis. Was die Geschwindigkeit betrifft,
00:11:12ist GLM 5.2 eigentlich gar nicht schlecht. Es hat die meisten offenen Modelle in seinem Intelligenzbereich übertroffen,
00:11:17also DeepSeek V4, Kimi 2.7 Code und Minimax, und liegt ein bisschen hinter einem Frontier-Modell wie Gemini 3.1 Pro,
00:11:24das das gleiche Intelligenzniveau hat, aber das ist ein Frontier-Modell. Und ich würde auch gerne sehen, wie Gemini
00:11:283.5 Pro zu dieser Liste hinzugefügt wird. Google, bitte veröffentlicht das. Was die Geschwindigkeit angeht, hat Design Arena
00:11:33anscheinend ein etwas anderes Ergebnis erzielt, wo sie sagen, dass GLM 5.2 am höchsten bei der
00:11:38Nutzerpräferenz des Designs punktet, aber es war auch das langsamste der Top-Modelle, obwohl es auch
00:11:42erwähnenswert ist, dass all diese Top-Modelle Frontier-Modelle sind und keine offenen. Insgesamt fühlt es sich wirklich
00:11:47so an, als wären wir an einem Punkt, an dem diese offenen Modelle sagen wir vier bis sechs Monate hinterher sind,
00:11:51vielleicht zu optimistisch gesehen könnten wir bis nächstes Jahr ein “Fable”-Modell sehen. Und ich meine, sie selbst
00:11:56versprechen tatsächlich bis Q1 etwas. Und ich hasse es, dieser nächsten Person bei irgendetwas zuzustimmen, aber er macht
00:12:01einen guten Punkt, dass sie auf den Benchmarks vielleicht Fable einholen könnten, aber der tatsächliche Nutzen fühlt sich ein
00:12:06kleines bisschen anders an. Und das ist es, was Anthropic sehr gut kann. Es ist sehr selten, ihn tatsächlich
00:12:10ein Kompliment geben zu sehen, aber ich muss der Stimmung zustimmen, dass das tatsächliche Benutzen
00:12:14dieser Modelle sich ein kleines bisschen anders anfühlt. Aber ich denke, GLM 5.2 ist eines der ersten, das diesen
00:12:19Zyklus für mich durchbrochen hat. Ich denke, wenn ihr mir vor einem Jahr gesagt hättet, dass diese offenen Modelle annähernd
00:12:23so gut wären, wäre ich absolut schockiert gewesen und hätte es wahrscheinlich nicht geglaubt. Und ich bin eigentlich nicht
00:12:27ein Weltuntergangs-Prepper, aber ich habe das Gefühl, nach dem kürzlichen Fable-Verbot will ich GLM 5.2 nur herunterladen und
00:12:31auf einer SSD speichern, für den Fall, dass ich es später brauche. Lasst mich in den Kommentaren
00:12:36unten wissen, was ihr von diesem Modell haltet, und sagt mir auch, was euer liebstes offenes Modell ist, während ihr dabei seid. Abonniert,
00:12:40und wie immer: Wir sehen uns im nächsten Video.

Key Takeaway

GLM 5.2 ist das derzeit leistungsfähigste offene Modell, das bei Benchmark-Tests in den Bereichen Programmierung und Webdesign Frontier-Modelle wie GPT-4 oder Claude Opus herausfordert und dabei ein kosteneffizientes Verhältnis zwischen Intelligenz und Rechenaufwand bietet.

Highlights

  • GLM 5.2 erreicht auf dem Artificial Analysis Intelligenz-Index einen Wert von 51 und übertrifft damit seine Vorgängerversion um 11 Punkte.

  • Das Modell verfügt über 744 Milliarden Parameter, wobei 40 Milliarden als aktive Parameter fungieren.

  • Design Arena stuft GLM 5.2 als führendes Modell für Single-Turn-HTML-Webdesign ein, noch vor Claude-basierten Modellen.

  • Die Kosten für die Nutzung von GLM 5.2 liegen bei 1,40 Dollar pro Million Input-Token und 4,40 Dollar pro Million Output-Token.

  • Bei der Entwicklung von Three.js-Anwendungen benötigen die Modelle bis zu 110.000 Token, wobei GLM 5.2 die spielbarste Grundstruktur ohne manuelle Nachbesserung liefert.

Timeline

Leistungsmerkmale und Benchmarks

  • GLM 5.2 erzielt einen Intelligenz-Index-Wert von 51.
  • Das Modell ist unter der MIT-Lizenz offen verfügbar.
  • Die Performance erreicht in einigen Bereichen das Niveau von GPT 5.5.

Mit 744 Milliarden Parametern und 40 aktiven Parametern bietet das Modell eine signifikante Steigerung gegenüber der Version 5.1. Es positioniert sich in Benchmarks wie Deep SWE und GPT-Eval auf Augenhöhe mit führenden proprietären Systemen wie Gemini 3.5 Flash und GPT 5.4.

Design-Fähigkeiten und UI-Erstellung

  • Das Modell führt die Design Arena Bestenliste für HTML-Webdesign an.
  • Die Anwendung von Expertenvorlagen minimiert gängige KI-Designfehler wie lila Verläufe.
  • Die UI-Erstellung erfolgt rein textbasiert ohne direkte Screenshot-Verarbeitung.

Die Implementierung von Design-Code für Bibliotheken wie Tailwind, Chart.js und Three.js ist besonders ausgeprägt. Trotz des fehlenden multimodalen Supports für Bild-Eingaben übertreffen die durch textuelle Prompts generierten Ergebnisse oft direkte Konkurrenten hinsichtlich der ästhetischen Qualität.

Praktische Coding-Tests

  • GLM 5.2 generiert lauffähige Three.js-Spielanwendungen mit geringem Token-Verbrauch.
  • Das Modell kann Frontend- und Backend-Architekturen wie Next.js und Prisma in einem einzigen Prompt verbinden.
  • Die erzeugte Code-Qualität ist für skalierbare Anwendungen besser geeignet als rein In-Memory-basierte Ansätze anderer Modelle.

In komplexen Aufgaben wie der Erstellung eines Finanzmanagement-Dashboards wählt das Modell moderne Tech-Stacks aus. Im Vergleich zu Kimi K 2.7 oder Claude Opus liefert es häufiger konsistente Ergebnisse, die ohne komplexe Fehlerbehebung in der Konsole funktionieren.

Kosten, Geschwindigkeit und Fazit

  • GLM 5.2 bietet ein vorteilhaftes Preis-Leistungs-Verhältnis für seine Intelligenzklasse.
  • Das Modell verbraucht durchschnittlich 43.000 Token pro Aufgabe.
  • Die Verarbeitungsgeschwindigkeit liegt leicht unter der von hochspezialisierten Frontier-Modellen.

Die Analyse zeigt, dass das Modell trotz höherer Token-Nutzung pro Anfrage kostengünstiger ist als vergleichbare Modelle im gleichen Intelligenzsegment. Es stellt eine praktikable Alternative zu geschlossenen Systemen dar, wobei die lokale Verfügbarkeit durch das Herunterladen eine zusätzliche Sicherheit für Anwender bietet.

Community Posts

View all posts