Transcript
00:00:00Das derzeit beste offene Modell der Welt kommt nicht von einer Firma namens Open AI, sondern natürlich von einem
00:00:04chinesischen Labor, und zwar ist es GLM 5.2 von Zai. Dieses Modell ist wirklich beeindruckend und erreicht auf
00:00:10bestimmten Benchmarks das Niveau von GPT 5.5, und es gibt sogar einen Bereich, in dem es
00:00:15Fable zu schlagen scheint, während es gleichzeitig MIT-lizenziert und offen ist. Schauen wir es uns an. GLM 5.2 ist ein Modell mit insgesamt 744 Milliarden Parametern
00:00:26mit 40 Milliarden aktiven Parametern, und es hat tatsächlich die gleiche Größe wie sein Vorgänger, GLM 5.1,
00:00:31weshalb es sehr beeindruckend ist, dass sie einen solchen Sprung beim Intelligenz-Index
00:00:35von Artificial Analysis gemacht haben. Dies ist ein kombinierter Wert aus einer Reihe von Benchmarks, also Schlussfolgerungen, Programmierung,
00:00:40Wissenschaft und allem Drum und Dran. GLM 5.2 erzielte hier einen Wert von 51, was 11 Punkte vor seiner vorherigen Version liegt
00:00:45und es mit deutlichem Vorsprung zum besten offenen Modell macht. Man sieht, Qwen 3.7 liegt dahinter, dann Minimax M3,
00:00:51gefolgt von Kimi K 2.6. Damit reiht es sich in die gleiche Kategorie ein wie Gemini 3.5 Flash und GPT 5.4 bei
00:00:57einem maximalen Aufwand, was ziemlich verrückt ist. Und bei einigen der im Index enthaltenen Benchmarks wie GPT-Eval
00:01:03übertrifft es sogar GPT 5.5. Wenn wir uns speziell auf die Programmierung konzentrieren, ist es auch im Coding-Index großartig;
00:01:09es erzielt das gleiche Ergebnis wie Gemini 3.1 Pro und schlägt tatsächlich Sonic 4.6, und es liegt nicht weit entfernt von den
00:01:14Top-Frontier-Modellen. Es liegt auch ein gutes Stück vor Kimi K 2.7 Code, unserem neuesten Modell, von dem ich weiß,
00:01:19dass viele Leute – ich eingeschlossen – große Fans sind. Ich fand schon immer, dass die Kimi-Modelle ein wirklich
00:01:23schönes Gefühl haben. Außerhalb des Coding-Index ist ein weiterer Benchmark, den die Leute heutzutage sehr mögen,
00:01:27Deep SWE. Wenn wir uns den ansehen, übertrifft es tatsächlich Opus 4.7 bei mittlerem Aufwand.
00:01:33Das ist wirklich super beeindruckend. Es ist allerdings erwähnenswert, dass nicht jedes einzelne Modell
00:01:38getestet wurde und das verwendete Framework tatsächlich Claude Code war. Man muss nur ein bisschen API-Trickserei
00:01:42anwenden, um auf Zai statt auf Anthropic zu zeigen. Der letzte Satz an Benchmarks, den ich mag, sind Design-Arenen,
00:01:47und hier wird es interessant: GLM 5.2 hat gerade den ersten Platz insgesamt auf der Bestenliste für
00:01:53Single-Turn-HTML-Webdesign von Design Arena belegt und ist damit das erste Modell überhaupt, das die Claude-Linie
00:01:58einschließlich Fable 5 geschlagen hat. Es scheint, als wäre dies ein Fokusbereich des Modells gewesen, da eine weitere Untersuchung
00:02:02durch Design Arena zeigt, dass GLM 5.2 über eine starke Auswahl an Expertenvorlagen verfügt, die gängige
00:02:08KI-Antipatterns vermeiden, sodass man weniger lila Verläufe erhalten sollte. Außerdem scheint es wirklich gut
00:02:12mit gängigen Bibliotheken wie Chart.js, Three.js und Tailwind zu funktionieren. Es gibt einen kleinen Kompromiss, nämlich
00:02:18dass es etwas langsamer ist, aber darauf komme ich später zurück. Es ist auch nicht überall auf der Design Arena die Nummer eins,
00:02:22es liegt auf dem zweiten Platz bei Spieleentwicklung, Datenvisualisierung und 3D, sowie auf dem vierten bei UI-Komponenten, aber das ist
00:02:28immer noch super beeindruckend. Ich dachte, ich probiere das mal mit ein paar Demo-Apps aus, und die erste war tatsächlich,
00:02:32Linear nachzubauen. Aber eines der nervigen Dinge an GLM 5.2, was ein kleiner Nachteil ist,
00:02:37ist, dass es nur Textmodalitäten akzeptiert, man kann also keinen Screenshot hochladen und sagen: “Bau das nach”.
00:02:42Also habe ich einen Screenshot an Claude gesendet und gefragt, gib mir einen Prompt, um das nachzubauen
00:02:46und das ist der Prompt, den ich GLM 5.2 schließlich gegeben habe. Unabhängig davon waren die Ergebnisse, die ich zurückbekam, super
00:02:51eindrucksvoll. Links habe ich die echte Linear-Webseite und rechts die GLM-Nachbildung.
00:02:55Man sieht, dass es die allgemeinen Elemente richtig hinbekommen hat, und für den Screenshot hier habe ich einfach
00:02:59die UI nachgebaut, was ich sehr cool fand. Wenn wir nach unten scrollen, sieht man, dass es insgesamt das
00:03:04Gefühl der Linear-Webseite getroffen hat, und ich finde, es sieht wirklich gut aus. Es hat also starke UI-Design-Fähigkeiten.
00:03:09Natürlich ist es nicht perfekt, da es keinen Screenshot verarbeiten konnte, also macht es das eher als
00:03:14Nachbildung des Text-Prompts, den ich euch gezeigt habe, aber diese Webseite sieht wirklich schön aus. Zum Vergleich:
00:03:19Links habe ich das, was mir Claude Opus 4.8 mit exakt demselben Prompt gegeben hat, und das hier ist
00:03:23Kimi K 2.7 Code. Wieder haben alle einen ziemlich guten Job gemacht, die Webseite nur anhand des Prompts nachzubauen,
00:03:29und ich glaube, mir gefällt die von Kimi K 2.7 am besten. Sie hat irgendwie das insgesamt
00:03:34beste Gefühl und sieht meiner Meinung nach am vollständigsten aus. Als Nächstes dachte ich, es wäre gut,
00:03:38diesen Modellen eine neue Webseite zu geben, die sie wahrscheinlich noch nicht gesehen haben, da Linear wahrscheinlich in den
00:03:42Trainingsdaten vieler dieser Modelle ist. Also sagte ich einfach: Entwirf und baue eine schöne einseitige Webseite
00:03:46für ein fiktives Produkt namens North Star; es ist eine KI-gestützte persönliche Planungs-App. Ihr seht,
00:03:50es gibt auch einige Design-Vorgaben weiter unten, wie wir wollen einen Hero-Bereich, einige Social Proofs, einen Preisbereich,
00:03:56all die üblichen Dinge. Und unten ist die Design-Vorgabe: saubere, hochwertige SaaS-Ästhetik,
00:04:00weiche Verläufe, starke Typografie, abgerundete Karten und so weiter. Das ist das Ergebnis, das ich von zwei der
00:04:06Modelle bekommen habe, und ich sage euch am Ende, welches welches ist. Aber man sieht, während wir nach unten scrollen, ich denke, das
00:04:10sieht wirklich schön aus und hat einen ziemlich guten Job gemacht. Es ist eine ziemlich einfache Startup-Webseite mit dem
00:04:15normalen Preisbereich usw. Und genauso rechts hier. Ich mag diesen Stil vielleicht ein bisschen
00:04:20mehr, aber man sieht, es hat sich für diesen KI-Look mit lila Verläufen entschieden, aber ich denke, da ist einfach
00:04:25etwas an dieser Webseite, das für mich sauberer und vollständiger aussieht, aber das ist
00:04:29komplett subjektiv. Wenn ihr einen Favoriten habt, lasst es mich in den Kommentaren unten wissen, und abonniert auch,
00:04:33während ihr dabei seid. Das Modell links war tatsächlich GLM 5.2 und das hier war Claude Opus 4.8.
00:04:39Zur Vervollständigung: Das hat mir Kimi K 2.7 Code gegeben, und ich finde, dieses hier fällt tatsächlich in diesen
00:04:43KI-Look mit diesen lila Verläufen. Es ist dem Claude-Modell etwas ähnlich, nur mit weniger
00:04:48Animationen und weniger Schliff. Ich wollte auch schnell sehen, was GLM 5.2 macht, wenn ich ihm keine
00:04:53Design-Vorgaben gebe. Ich habe ihm also nur den ersten Teil des Prompts gegeben, und ich glaube nicht,
00:04:56dass die Ausgabe schlecht aussieht, aber ich bin mir nicht sicher, ob ich Design Arena zustimmen kann, dass dies nicht den
00:05:01üblichen KI-Look hat. Das nutzt wirklich diese lila Verläufe bis zum Maximum. Für den nächsten Test habe ich
00:05:05sie dann an Three.js-Anwendungen ausprobiert und einfach gesagt: Baue ein Three.js-Spiel,
00:05:10bei dem ich ein F1-Auto um Silverstone fahren kann. Man sieht, dieses Modell hat sich an die Arbeit gemacht, und das hat
00:05:15insgesamt etwa 10 Minuten gedauert. Wenn wir ganz nach unten scrollen, wurden 40.000 Token verwendet und es kostete 32
00:05:20Cent. Das ist das Ergebnis, das GLM 5.2 uns gegeben hat. Man sieht, es steht Silverstone F1 und “Starte deinen
00:05:25Motor”. Übrigens, Lewis Hamilton hat gerade für Ferrari gewonnen, das ist absolut großartig. Ich freue mich zu sehen, dass wir
00:05:30hier ein rotes Auto als Ferrari haben, obwohl wir definitiv etwas langsamer sind, als ich es mir wünschen würde,
00:05:35und eine Sache, die mir hier auffällt, ist, wenn ich A drücke, scheine ich nach rechts zu fahren und D nach links, also sind die Steuerelemente
00:05:40invertiert, aber anscheinend nicht bei den Pfeiltasten. Und das ist definitiv nicht die Geschwindigkeit, mit der ich
00:05:45möchte, dass ein Ferrari um Silverstone fährt, aber ich meine, es ist nicht zu schlecht für einen ersten Versuch. Es
00:05:51scheint, ich fahre schneller, wenn ich rückwärts fahre, also vielleicht ist das besser. Ich habe den
00:05:55gleichen Test mit Kimi K 2.7 Code versucht, aber ich habe in einem einzigen Prompt kein
00:05:59funktionierendes Beispiel zurückbekommen. Irgendwo weiter unten hatte ich ein paar Konsolenfehler, die ständig geloopt haben, also musste ich
00:06:04ihm sagen, dass ich ein paar Fehler hatte, aber dann hat es die im zweiten Prompt behoben. Und man sieht,
00:06:08dieses hier hat tatsächlich mehr Token verbraucht, nämlich 110.000, und hat 81 Cent gekostet. Das Ergebnis war auch
00:06:14etwas weniger spielbar. Es scheint, wir haben etwas mehr Geschwindigkeit, aber unser Wendekreis ist schrecklich. Ich
00:06:19glaube nicht, dass ich jemals einen F1-Fahrer so habe wenden sehen, und wir können auch durch ein paar Gebäude fahren.
00:06:23Es ist cool, dass sie die Namen der Kurven in Silverstone haben, aber es gibt auch keine Strecke, es sind
00:06:27anscheinend nur Leitpfosten. Das letzte ist Claude Opus 4.8, und dieses ist etwas spielbarer,
00:06:33abgesehen von der Tatsache, dass ich nicht glaube, dass Bäume mitten auf der Silverstone-Strecke stehen. Ich meine,
00:06:37das letzte Mal, als ich nachgesehen habe, gab es keine, und ja, es ist insgesamt ein ziemlich gutes Spiel. Wir haben hier Kamera-Steuerungen,
00:06:42meine Räder würden das wahrscheinlich nicht mögen, wenn ich ein F1-Fahrer wäre, aber es scheint
00:06:47ganz gut zu funktionieren. Die Strecke selbst ist allerdings auch eine der verwirrendsten Strecken, die ich
00:06:52jemals jemanden habe fahren sehen. Es gibt hier viel Überlappung und ich weiß eigentlich nicht, in welche Richtung
00:06:57ich fahren soll. Aber ich würde sagen, dass Opus 4.8 uns die spielbarste Demo in einem einzigen Prompt gegeben hat. Der letzte Test, den ich gemacht habe,
00:07:02ist etwas aufwendiger. Es ist ein Frontend und ein Backend von Grund auf für ein persönliches Finanzmanagement-Dashboard
00:07:07mit ein paar Funktionen, die ihr hier aufgelistet seht. Die allgemeine Idee hier ist
00:07:11zu sehen, welchen Stack es wählt, wenn es ganz neu anfängt, und auch, ob es ein Frontend und ein Backend
00:07:16alles in diesem einen Prompt ohne Fehler verbinden kann. Hier ist der Versuch von GLM 5.2, und ich muss sagen, ja, es ist ein
00:07:22ziemlich einfach aussehendes Dashboard. Es gibt nichts Ausgefallenes, aber es gibt auch nicht allzu viele ausgefallene Dinge,
00:07:26die man mit dem Prompt, den ich ihm gegeben habe, tun kann. Alles scheint zu funktionieren, ich habe Dinge zur Datenbank hinzugefügt,
00:07:32ich habe mein Fable 5-Abonnement hier bezahlt, all diese Seiten sind anklickbar und alles wird übertragen
00:07:37zwischen ihnen, wenn ich darauf klicke. Ich habe es getestet, es scheint also einen sehr guten Job gemacht zu haben mit
00:07:41diesem einen Prompt. Ich bin immer neugierig, welchen Stack es gewählt hat, und dieses hier hat sich für eine Next.js-
00:07:46Anwendung entschieden und Prisma für die Datenbank verwendet. Wir können sehen, dass wir hier auch eine Entwicklungsdatenbank haben.
00:07:50Ich hätte wahrscheinlich bevorzugt, wenn es Drizzle und vielleicht TanStack verwendet hätte, aber ich kann mich nicht wirklich
00:07:55beschweren, ich habe ihm keine Richtung vorgegeben. Das ist tatsächlich das, was mir Kimi K 2.7 Code gegeben hat, und man sieht, es ist
00:07:59fast die exakt gleiche Anwendung, nur würde ich sagen, nicht ganz so schick. Sie haben definitiv einige der
00:08:04gleichen Vorlagen irgendwo in ihrem Training, die genau so aussehen. Und wieder, ja, ich kann mich nicht
00:08:09allzu sehr darüber beschweren, aber es fehlen so ein bisschen all die Extras mit den Schaltflächen,
00:08:13um übertragen zu können. Ich habe die Funktionen für Konten hinzufügen und Transaktionen hinzufügen, sie funktionieren, aber ich würde nur sagen, die
00:08:18allgemeine UI davon und die Benutzererfahrung ist etwas schlechter, da es diese Informationen
00:08:23oben nicht anklickbar hat. Der Standard-Stack, den es gewählt hat, würde ich auch sagen, ist etwas schlechter. Es hat React hier verwendet mit
00:08:28nur einem normalen Vite-Setup und React Router, womit ich kein Problem habe, aber das Backend war
00:08:33Express, und wenn wir uns die eigentliche Datenbankdatei ansehen, verwendet es einfach Node SQLite, um hineinzuschreiben, und
00:08:39schreibt die Schemata in den Text hier, was ich denke, etwas weniger skalierbar sein wird, wenn ich
00:08:43komplett “Vibe Coding” betreiben würde und nichts über den Stack wüsste, würde ich wahrscheinlich GLM 5.2 wollen, aber wenn ich
00:08:48Kimi K 2.7 Code benutzen würde, hätte ich ihm wahrscheinlich Anweisungen gegeben, Drizzle, Next.js und
00:08:53verschiedene andere Dinge zu verwenden, also variiert es einfach je nachdem, was ihr mögt. Wo wir gerade von subjektiv sprechen,
00:08:58das ist tatsächlich das, was mir Claude Opus 4.8 gegeben hat. Es hat definitiv einen komplett anderen Stil
00:09:03verwendet als die, die wir zuvor gesehen haben, aber es ist eine Art von Textstil, den Claude im Moment zu mögen scheint
00:09:07bei dem, was sie in die Trainingsdaten gesteckt haben oder worauf sie es hinsteuern. Und alles
00:09:11davon funktioniert wirklich gut, und ja, ich finde es sieht wirklich gut aus. Ich würde dies wahrscheinlich dazu bringen, vielleicht
00:09:16andere Schriftarten und ein anderes Farbschema zu verwenden, aber die Basis ist sehr gut. Es hat
00:09:20tatsächlich keine separaten Seiten dafür gemacht, es hat nur separate Bereiche gemacht, also vielleicht ist das schlechter, aber auch das
00:09:25kommt auf den Prompt an. Alle Funktionen und alles dergleichen funktioniert. Wenn wir uns
00:09:29den tatsächlichen Code ansehen, den Opus mir gegeben hat, denke ich tatsächlich, dass GLM 5.2 das hier gewonnen haben könnte. Was Opus
00:09:34getan hat, ist, es hat einfach eine normale React-Anwendung verwendet, es hat sich nicht einmal mit React Router aufgehalten,
00:09:38da alles auf dieser einzelnen Seite war, und es hat auch Express für sein Backend verwendet, aber dann hat es
00:09:43überhaupt keine Verbindung zu einer Datenbank hergestellt. Alles ist tatsächlich nur ein In-Memory-Speicher, den wir
00:09:48hier sehen können, wo es die Daten einfügt und alles über ein JavaScript-Objekt laufen lässt, was wieder wahrscheinlich
00:09:53nicht das ist, was ich will, wenn ich das in Zukunft skalieren werde. Aber es kommt auf den Prompt an. Ich denke,
00:09:58das ist meine wichtigste Erkenntnis, wenn ich dieses Modell in den letzten Tagen teste. Ich denke, für viele
00:10:02Aufgaben könnte man heimlich GLM 5.2 anstelle von Sonnet oder sogar Opus für einfachere Aufgaben einsetzen, und ich
00:10:07würde es wahrscheinlich nicht bemerken. Es ist ein wirklich fähiges Modell, und wenn ihr ihm die richtige Steuerung gebt, erhaltet ihr
00:10:12wirklich gute Ergebnisse. Es ist eines der ersten offenen Modelle, bei denen ich nicht das Gefühl hatte, gegen das Modell
00:10:16anzukämpfen, und auch eines der ersten offenen Modelle, bei denen ich beim Benutzen nicht dieses Gefühl hatte: “Ich weiß, Claude
00:10:21könnte das besser oder schneller”. Die letzten Dinge, die zu erwähnen sind, um das abzurunden, sind Token-Kosten und
00:10:25Geschwindigkeit. Einer der Nachteile von GLM 5.2 könnte sein, dass es etwas “token-hungriger” ist, wenn man es mit
00:10:31anderen Modellen seiner Klasse vergleicht. Es hat durchschnittlich 43.000 Token pro Aufgabe verwendet, was mehr ist als bei Kimi K 2.6,
00:10:37Minimax und DeepSeek. Aber die gute Nachricht ist, es kostet tatsächlich nicht so viel, je nach
00:10:41Anbieter. Es kostet etwa 1,40 Dollar für eine Million Input-Token und 4,40 Dollar für eine Million Output-Token. Und auf den
00:10:47Benchmarks von Artificial Analysis kostete es tatsächlich etwa 50 Cent pro Aufgabe, und man sieht, das ist ein
00:10:52ziemlich guter Punkt beim Vergleich von Kosten versus Intelligenz. Ignoriert das Gemini-Label hier, es ist tatsächlich dieser blaue
00:10:57Punkt, und man sieht, es ist eine ziemlich überfüllte Grafik, aber was das eigentlich zeigt, ist, bei seinem Intelligenzniveau
00:11:02ist GLM 5.2 das günstigste Modell. Obwohl ich hier sagen werde, wenn ihr Abstriche bei der Intelligenz hinnehmen könnt,
00:11:07finde ich Minimax und besonders DeepSeek V4 sehr gut für den Preis. Was die Geschwindigkeit betrifft,
00:11:12ist GLM 5.2 eigentlich gar nicht schlecht. Es hat die meisten offenen Modelle in seinem Intelligenzbereich übertroffen,
00:11:17also DeepSeek V4, Kimi 2.7 Code und Minimax, und liegt ein bisschen hinter einem Frontier-Modell wie Gemini 3.1 Pro,
00:11:24das das gleiche Intelligenzniveau hat, aber das ist ein Frontier-Modell. Und ich würde auch gerne sehen, wie Gemini
00:11:283.5 Pro zu dieser Liste hinzugefügt wird. Google, bitte veröffentlicht das. Was die Geschwindigkeit angeht, hat Design Arena
00:11:33anscheinend ein etwas anderes Ergebnis erzielt, wo sie sagen, dass GLM 5.2 am höchsten bei der
00:11:38Nutzerpräferenz des Designs punktet, aber es war auch das langsamste der Top-Modelle, obwohl es auch
00:11:42erwähnenswert ist, dass all diese Top-Modelle Frontier-Modelle sind und keine offenen. Insgesamt fühlt es sich wirklich
00:11:47so an, als wären wir an einem Punkt, an dem diese offenen Modelle sagen wir vier bis sechs Monate hinterher sind,
00:11:51vielleicht zu optimistisch gesehen könnten wir bis nächstes Jahr ein “Fable”-Modell sehen. Und ich meine, sie selbst
00:11:56versprechen tatsächlich bis Q1 etwas. Und ich hasse es, dieser nächsten Person bei irgendetwas zuzustimmen, aber er macht
00:12:01einen guten Punkt, dass sie auf den Benchmarks vielleicht Fable einholen könnten, aber der tatsächliche Nutzen fühlt sich ein
00:12:06kleines bisschen anders an. Und das ist es, was Anthropic sehr gut kann. Es ist sehr selten, ihn tatsächlich
00:12:10ein Kompliment geben zu sehen, aber ich muss der Stimmung zustimmen, dass das tatsächliche Benutzen
00:12:14dieser Modelle sich ein kleines bisschen anders anfühlt. Aber ich denke, GLM 5.2 ist eines der ersten, das diesen
00:12:19Zyklus für mich durchbrochen hat. Ich denke, wenn ihr mir vor einem Jahr gesagt hättet, dass diese offenen Modelle annähernd
00:12:23so gut wären, wäre ich absolut schockiert gewesen und hätte es wahrscheinlich nicht geglaubt. Und ich bin eigentlich nicht
00:12:27ein Weltuntergangs-Prepper, aber ich habe das Gefühl, nach dem kürzlichen Fable-Verbot will ich GLM 5.2 nur herunterladen und
00:12:31auf einer SSD speichern, für den Fall, dass ich es später brauche. Lasst mich in den Kommentaren
00:12:36unten wissen, was ihr von diesem Modell haltet, und sagt mir auch, was euer liebstes offenes Modell ist, während ihr dabei seid. Abonniert,
00:12:40und wie immer: Wir sehen uns im nächsten Video.