Ich habe GLM 5.2 gegen Opus 4.8 und GPT 5.5 getestet

Deutschالعربية English Español Français हिन्दी 한국어 Português Русский 中文

컴퓨터/소프트웨어게임/e스포츠AI/미래기술

Transcript

00:00:00GLM 5.2 kam erst diese Woche heraus und es ist das stärkste Open-Source-Modell, das wir je

00:00:04gesehen haben. Und einige Benchmarks, wie ihr hier seht, zeigen sogar, dass dieses Modell die Giganten

00:00:10wie Anthropics Opus 4.8 und OpenAIs 5.5 übertrifft. Aber sind diese Benchmarks legitim? Wie schneidet dieses Modell

00:00:18im direkten Vergleich mit Opus 4.8 und GPT 5.5 ab? Nun, genau das werden wir

00:00:25im heutigen Video beantworten, indem ich mehrere Tests mit diesen drei großen Modellen durchführe und sehe,

00:00:31wie es tatsächlich in der realen Welt abschneidet. Darüber hinaus werden wir einen Deep Dive in einen

00:00:35Benchmark im Besonderen machen, den ich für ziemlich wichtig halte, und aufschlüsseln, was wir eigentlich

00:00:40damit meinen, dass GLM 5.2 in einigen Fällen besser ist als Opus und GPT 5.5. Sprechen wir davon,

00:00:47dass es effizienter ist, weniger kostet oder dass es tatsächlich all diese Dinge gleichzeitig besser macht?

00:00:51Also ohne weitere Umschweife, legen wir einfach los. Nun, bevor wir uns in den Direktvergleich

00:00:56stürzen, schauen wir uns zunächst einige der bestehenden Benchmarks an, die diese

00:00:59drei Modelle vergleichen. Der eine, auf den ich wirklich achten möchte, ist DeepSuite. Nun, DeepSuite ist

00:01:04ein relativ neuer Benchmark, und er soll eine Verbesserung gegenüber Dingen wie Terminal

00:01:08Bench und Terminal Bench Pro sein. Ich werde nicht ultra tief in diesen Benchmark eintauchen, ihr

00:01:12Sie können sich deren Website oder GitHub-Repo ansehen, wo es genauer erklärt wird. Aber es konzentriert

00:01:17auf langlaufende agentische Aufgaben, spezifisch 113 Aufgaben in TypeScript, Go, Python, JavaScript,

00:01:23und Rust mit isolierten Umgebungen und programmgestützten Verifizierern. Und hier auf dieser Grafik sehen wir

00:01:29die Punktzahl, den Prozentsatz der richtigen Antworten auf der linken Seite, sowie die durchschnittlichen Kosten

00:01:34pro Aufgabe. Nun, wir wollen nach oben rechts. Der effizienteste Bereich ist hier oben

00:01:39rechts. Dort bekommen wir die höchste Punktzahl bei den niedrigsten Kosten. Und wir können hier sehen, dass GLM 5.2

00:01:44Max uns 44% bei 3,92 $ pro Aufgabe liefert. Wenn wir das mit Opus 4.8 und GPT 5.5 vergleichen, sehen wir,

00:01:55dass sie viel besser abschneiden. Bei Max erreicht Opus 4.8 59% und 5.5 erreicht 67% bei Extra High. Offensichtlich,

00:02:04haben wir bei Extra High und Max ziemlich hohe Kosten. Für GPT 5.5 sind es 7,23 $. 13 $ für Opus,

00:02:12und bei GLM sind es 3,92 $. Also viel billiger. Wenn wir uns jedoch verschiedene Anstrengungsstufen ansehen,

00:02:19bei 5.5 und bei Opus, wenn wir zum Beispiel bei Medium sind, erreichen wir mit Opus 4.8

00:02:25eine höhere Punktzahl als mit GLM 5.2, und wir sind weniger teuer. Also 49% bei 3,44 $gegenüber 44% bei 3,92$. Und das ist

00:02:36signifikant bei 5.5 mit 54% bei 2,75 $gegenüber 44% bei 3,92$. Also gleich zu Beginn, bei diesem Benchmark,

00:02:47wenn wir ihn für bare Münze nehmen, sind 4.8 und 5.5 eine Stufe über GLM 5.2. Und das ist nicht überraschend. Das sind

00:02:55die besten der besten Frontier-Modelle. Sie sind nicht Open Source. Und wenn wir wirklich Vollgas

00:03:01geben, werden sie GLM 5.2 bei diesen langwierigen Aufgaben ziemlich überflügeln,

00:03:07das ist irgendwie zu erwarten. Was ihr vielleicht nicht erwartet habt, ist die Tatsache, dass es für weniger Geld besser sein kann,

00:03:11was irgendwie ein Problem ist. Und ich möchte das einfach nur mal erwähnen, weil ich weiß, dass es gerade viel

00:03:16Gerede und viel Hype um GLM 5.2 gibt und die Tatsache, dass es Open Source ist. Und ihr wisst,

00:03:21das impliziert sofort irgendwie: Oh, es ist super, super billig. Und wir können wirklich gute Dinge tun.

00:03:25Nun, ich meine, nach den Zahlen ist es gut, aber es ist basierend auf diesem Benchmark nicht 4.8 oder 5.5. Und denkt daran,

00:03:33diese 4.8- und 5.5-Zahlen basieren auf API-Kosten. Wenn ich im Max-Plan bin, ist es etwa 10-mal billiger als

00:03:40das. Dasselbe gilt, wenn ich einfach nur im 100-$-Monats-Plan oder 200-$-Monats-Plan von OpenAI bin. Also

00:03:46ist das eine weitere Sache, die man berücksichtigen muss. Also wollte ich nur mal die Bremse ziehen bei all diesem

00:03:50Gerede, dass GLM viel billiger ist, weil das irgendwie nicht der Fall ist. Und obwohl es Open Source ist,

00:03:56GLM 5.2, das Open-Source-Modell, das diese Zahlen erreicht, das ist nicht Open Source. Wie, ihr könnt

00:04:01es einfach nicht auf euren Computer herunterladen. Es ist Open Source in dem Sinne, dass ihr den Code sehen könnt,

00:04:05ihr könnt die Gewichte sehen. Es ist nicht Open Source in dem Sinne von: Oh nein, es ist einfach, ich kann es einfach

00:04:09auf OLAMA holen. Ich kann es auf meinem persönlichen PC ausführen. Nein, könnt ihr nicht. Nein, könnt ihr nicht. Das sind fast eine

00:04:14Billion Parameter. Das erfordert eine Menge Hardware zum Ausführen. Also lasst euch nicht verwirren, weil ich weiß,

00:04:20dass es einen Teil der Bevölkerung gibt, der das tut, aber das ist nur, um den Rahmen zu setzen. Und noch einmal,

00:04:24das ist bei Deep-Suite-Sachen. Das sind sehr intensive Aufgaben, die gestellt werden. Und

00:04:30heute werden wir ein paar verschiedene Tests machen, die ein wenig niedriger angesiedelt sind und die

00:04:35wahrscheinlich eher eine Reflexion dessen sind, was ihr, der durchschnittliche Benutzer, ausführt. Also etwas, das man im Kopf

00:04:39behalten sollte. Und nur damit wir alle auf derselben Seite sind, das ist, was wir uns in Bezug auf die Kosten

00:04:44pro Token ansehen. Denkt daran, der Grund, warum es für Opus 4.8 und 5.5 billiger war, ist, dass es einfach viel weniger

00:04:50Token verbraucht hat, um das zu tun, was es tun musste. Es war letztendlich effizienter, aber auf Token-Basis.

00:04:55Und denkt daran, für Eingabe und Ausgabe, dies ist pro Million Token, GLM 5.2, 1,40 $ für die Eingabe,

00:05:014,40 $ für die Ausgabe. Und Opus 4.8 ist 5,7-mal teurer. Und 5.5 von GPT ist 6,8-mal

00:05:10teurer. Also auf Token-Basis viel billiger. Aber denkt daran, uns geht es um die Ergebnisse für eine Aufgabe,

00:05:16nicht notwendigerweise um einen Eins-zu-eins-Token-Vergleich. Und jetzt, bevor wir zu den eigentlichen Tests springen,

00:05:21ein kurzes Wort vom Sponsor des heutigen Tages, mir. Also habe ich gerade meine Cloud Code Masterclass innerhalb von

00:05:26Chase AI Plus veröffentlicht und es ist der beste Weg, um vom Nullpunkt zum KI-Entwickler zu werden, besonders wenn ihr nicht

00:05:30aus einem technischen Hintergrund kommt. Ich aktualisiere das jede Woche und es enthält auch Masterclasses für Codecs

00:05:35und für das Erstellen eures eigenen agentischen Betriebssystems. Wenn das also etwas ist, worüber ihr mehr erfahren wollt und ihr

00:05:40nicht sicher seid, wo ihr anfangen sollt, ist Chase AI Plus der richtige Ort für euch. Es gibt einen Link dazu in den angepinnten Kommentaren.

00:05:46Also hier ist, wie wir diesen Test durchführen werden. Wir werden jedem einzelnen Modell denselben

00:05:49Prompt und Plan-Modus geben. Es wird uns den Plan geben. Wir werden vielleicht etwas hin und her gehen,

00:05:53abhängig davon, was wir von dem Plan halten, den es sich ausgedacht hat. Und danach lassen wir es ausführen.

00:05:58Nachdem es ausgeführt wurde, werde ich meine extrem subjektiven Bewertungskriterien auf das Endergebnis anwenden und euch mitteilen,

00:06:03welches mir am besten gefällt. Wenn ihr meine Bewertungskriterien nicht mögt oder das, was ich für am besten halte, stellt sicher,

00:06:08einen Kommentar zu hinterlassen. Ich werde auch sicherstellen, euren Kommentar zu löschen. Nun, hier auf der linken Seite haben wir

00:06:14GPT 5.5 innerhalb von Codex auf Extra High. Wir haben OpenCode in der Mitte, das GLM 5.2 auf Extra High ausführt,

00:06:21geroutet über OpenRouter. Und hier auf der rechten Seite haben wir Cloud Code, das Opus 4.8

00:06:26auf High ausführt. Nun, warum habe ich diese speziellen Einstellungen für die Anstrengung gewählt? Weil das die Art ist, wie die meisten Leute

00:06:32diese im wirklichen Leben nutzen. Und die Chancen stehen gut, dass ihr entweder im Max-Plan seid oder ihr seid in irgendeiner Art

00:06:37von Open AI-Plan und ihr führt es wahrscheinlich nicht auf Medium aus. Seien wir ehrlich. Also ich denke, das ist eine

00:06:42bessere Reflexion dessen, wie euer durchschnittlicher Benutzer diese Modelle tatsächlich Tag für Tag nutzt.

00:06:47Also für unseren ersten Prompt werden wir es ein spielbares 3D-Rennspiel bauen lassen, das im

00:06:51Browser läuft. Und wichtig ist, wir halten diesen Prompt etwas vage. Ich sage, ihr habt volle Freiheit,

00:06:56ins Web zu gehen und euch den Stack und die Bibliothek auszusuchen, von denen ihr denkt, dass sie am besten sind, um das auszuführen. Und so

00:07:02lass uns das mal ausführen und sehen, was passiert. Wir haben also alle drei Modelle im Plan-Modus laufen.

00:07:08Und noch einmal, der Gedanke dahinter, den Prompt etwas vage zu machen, ist, dass wir so viel

00:07:12Divergenz wie möglich von diesen Modellen sehen wollen. Wenn ich den genauen Fahrplan gegeben hätte, wie man jede einzelne Sache macht,

00:07:18nun, dann bekommen wir wirklich nicht zu sehen, wie diese Modelle denken und wie sie an eher

00:07:23messy Probleme herangehen. Also nach 13 Minuten war Opus 4.8 das erste, das fertig war, das Rennspiel zu erstellen.

00:07:29Also schauen wir uns an, was es gemacht hat. Hier sind wir also, etwas Low Poly. Es hat tatsächlich

00:07:37etwas Sound dabei. Läuft ziemlich flüssig. Sieht so aus, als hätten wir auch die Möglichkeit, hier zu driften.

00:07:44Okay, das Gras beeinträchtigt eigentlich irgendwie, wie die Physik funktioniert. Insgesamt, irgendwie ziemlich flüssig, aber wisst ihr,

00:07:54ziemlich langweilige Rennstrecke. Nichts Verrücktes, hat keine Art von KI oder so etwas hinzugefügt.

00:07:59Also bin ich gespannt zu sehen, wie die anderen Modelle in Bezug auf Komplexität abschneiden, und was ich wahrscheinlich

00:08:04nach diesem ersten Test tun werde, falls diese alle nur so eine Art fade Vision sind. Wir werden es wahrscheinlich

00:08:09mit einem weiteren Prompt versuchen, der den Einsatz erhöht. Als nächstes ist

00:08:13GLM 5.2. Es dauerte etwa fünf Minuten länger als Cloud Code. Zur Referenz, GPT 5.5 arbeitet immer noch,

00:08:20was mich nicht allzu sehr überrascht. Es neigt dazu, etwas langsamer zu sein. Im Hinblick auf den Token-Vergleich,

00:08:26hat Claude Code etwa 100.000 Token verwendet, um das zu erstellen. Und GLM 5.2 brauchte über eine Million. Und wir können einen Blick

00:08:33innerhalb von Open Router für diesen Durchlauf werfen, wo die Gesamtausgabe 1,21 $ betrug. Und das Gesamtvolumen der Token betrug 1,35

00:08:41Millionen, um dieses Spiel zu erstellen. Also gleich interessant, was für eine Strecke wir hier haben.

00:08:48Die Steuerung ist im Vergleich zu dem, was wir mit Claude Code hatten, ziemlich sprunghaft. Wie, ich bewege mich

00:08:53sehr schnell im Verhältnis zur Strecke selbst. Sehr schnell. Wie, ich rase hier durch. Und wir sind auch so

00:09:00etwas wie, es gibt keine wirkliche Differenzierung zwischen der Strecke und dem Feld selbst. Und in

00:09:09bestimmten Fällen war ich in der Lage, fast, wie ihr da gesehen habt, durch die Strecke zu fahren, aber nicht wirklich.

00:09:15Also ist auch das Auto selbst etwas weniger detailliert als das, was wir innerhalb von Claude Code gesehen haben. Ich meine,

00:09:23also es gibt eine Strecke, es hat einen Timer. In Bezug auf das tatsächliche Gameplay, ein wenig hölzern für das, was

00:09:30es ist, nicht annähernd so flüssig. Und auch hier, wieder mit der Low-Poly-Situation wie bei

00:09:36Opus. Und also würde ich gerne sehen, was es tut, wenn wir ihm sagen, es soll wirklich etwas erstellen, das

00:09:40besser aussieht. Und auch diese Strecke selbst ergibt eigentlich nicht allzu viel Sinn. Also jetzt schauen wir uns an,

00:09:44was GPT 5.5 erstellt hat. Es nennt es den Foundry Circuit, das Night Shift Time Trial, drei Runden

00:09:50durch das Stahlwerk. Also etwas anderes, schätze ich, als die generische Strecke, die wir in den

00:09:54letzten beiden gesehen haben. Also lass uns das starten. Und los geht's. Nun, ich weiß eigentlich nicht, wohin ich

00:10:04hin soll. Oh, ich schätze, das ist die Strecke. Die Räder sehen irgendwie interessant aus. Sie drehen sich irgendwie

00:10:10falsch herum. Also das ist etwas. Okay, es hat irgendwie sehr nervige Geräusche, tatsächlich.

00:10:21Und ich komme irgendwie nicht darüber hinweg, dass die Räder horizontal fahren, oder wie auch immer man das beschreiben würde.

00:10:28Die Strecke selbst ist in Ordnung, kann sich irgendwie bewegen. Ja, man kann über die Strecke hinausfahren und es verlangsamt dich. Aber es ist nicht

00:10:35klar, dass dies eine gepflasterte Strecke ist, wie wir es bei dem sahen, was Opus gebaut hat. Und wie der Rest ist,

00:10:41wisst ihr, das Feld. Also irgendwie seltsame Grafiken, ehrlich gesagt. Auch, wenn man bedenkt,

00:10:48die Tatsache, dass es doppelt so lange wie Opus dauert, ist irgendwie seltsam. Ja, ehrlich gesagt, irgendwie seltsam. Wieder,

00:10:55wie, warum hat es das bei den Rädern gemacht? Ich habe keine Ahnung. Wieder, ging für das Low-Poly-Ding.

00:11:00Und es ist einfach irgendwie sehr dunkel, aus scheinbar keinem Grund. Also ich meine, wie, ich habe fast, ich habe das Gefühl,

00:11:06dass dies funktionaler ist als das, was wir mit GLM 5.2 bekommen haben, aber wie, nicht viel besser. Und ihr auch

00:11:12berücksichtigt die Tatsache, dass dies auf Extra High bei 5.5 war. Nun, in Bezug auf den Token-Verbrauch für 5.5,

00:11:17kam es ungefähr auf das heraus, was wir mit Claude Code gesehen haben. Es hat 7% seines Fünf-Stunden-Fensters verwendet. Also fast

00:11:22nichts. Nun, im Gesamtranking hätte ich Opus 4.8 eindeutig vor GLM 5.2 und 5.5 platziert. Ich dachte,

00:11:28die letzten beiden waren irgendwie hölzern, aber wir werden ihnen tatsächlich noch eine Chance geben, weil

00:11:32wir ihnen sagen werden, sie sollen sich den Code noch einmal ansehen, noch einen Durchgang machen. Und wir wollen auch,

00:11:36dass sie viel besser abschneiden in Bezug auf die Grafiken. Ich möchte nicht die Low-Poly-Sachen. Ich möchte, dass das aussieht

00:11:40wie ein AAA-Spiel oder so nah wie möglich daran. Also lass uns sehen, was passiert, wenn wir ihnen

00:11:46Versuch Nummer zwei geben. Also haben Opus und GLM ihren zweiten Durchgang beendet und 5.5 ist dort fertig geworden. Also

00:11:50werfen wir zuerst einen Blick auf Opus 4.8. Also gleich sehen wir ein Auto, das viel besser ist. Wie, das ist ein riesiger

00:11:58Fortschritt in Bezug auf das Auto als das, was wir vorher gesehen haben. Wir sehen auch eine Menge anderer Beleuchtung.

00:12:04Wie, ihr könnt die Sonne sehen, die sich auf dem Boden selbst reflektiert und alles sieht viel glatter aus. Ich meine,

00:12:10die Bäume selbst sind so etwas wie Low-Polygon-Dinger, aber die Beleuchtung und besonders das Auto

00:12:15sind ein bedeutender Schritt nach vorne. Und es behält irgendwie immer noch dieselbe flüssige Spielweise bei. Ich meine, abgesehen von der

00:12:20Tatsache, dass wir Bäume auf der Straße haben, aber die Bäume selbst sind auch beschattet. Und für einen zusätzlichen

00:12:26Durchgang, der 10 Minuten und etwa 50.000 Token dauerte, nicht schlecht. Nun schauen wir uns GLM an. Und an diesem Punkt

00:12:32dauerte es etwa weitere 1,2 oder so Millionen Token, um dieses Update zu machen, was unsere Gesamtausgabe auf 1,83 $ brachte.

00:12:38Also lass uns das starten. Und es sieht so aus, als hätte es versucht, eine Art von anderer Beleuchtung hinzuzufügen. Das Auto sieht

00:12:46ein bisschen besser aus, aber die Beleuchtung selbst ist irgendwie seltsam. Wie, es ist einfach sehr blendend. Die Strecke

00:12:52selbst hat sich nicht viel verändert. Ihr wisst, es ist immer noch irgendwie einfach überall Gras. Und die

00:12:57Steuerung ist immer noch sehr sprunghaft, richtig? Wie, ich fahre sehr schnell im Verhältnis zur Strecke. Dieselbe Art von Problem,

00:13:04das ich vorher hatte, wo ich wie durch einen Teil der Strecke fahren kann, durch einen Teil nicht. Also ich meine,

00:13:10die Grafiken für das Auto sehen besser aus, aber ich würde argumentieren, die Beleuchtung und die Blendung ist so ablenkend.

00:13:15Es ist wahrscheinlich eine Art Downgrade gegenüber dem, was wir vorher hatten. Und hier ist der zweite Durchgang mit 5.5. Nun

00:13:21sieht das Auto ein bisschen besser aus, aber alles andere betrachtend, ist dies irgendwie das Gleiche. Nun,

00:13:29die Räder sind besser. Wir haben das Räderproblem behoben. Sie drehen sich tatsächlich so, wie sich Räder drehen sollten,

00:13:34aber haben immer noch nervige Geräusche. Und es gibt wieder keine wirkliche Differenzierung zwischen dem Pfad

00:13:42und dem Gras. Also fühlt es sich irgendwie wie genau dasselbe an, das es beim ersten Mal getan hat, mit einem

00:13:49etwas besseren Auto. Aber ihr wisst, wenn wir ihm sagten, geh für eine AAA-Ästhetik, würde ich nicht sagen, es

00:13:55hat ins Schwarze getroffen. Und wieder, ich habe das Gefühl, großes Bild. Wir betrachten diese drei GM und 5.5, definitiv eine Stufe

00:14:02unter Opus. Nun für unseren nächsten Test werden wir es eine Website bauen lassen. Und der Prompt, den wir

00:14:07verwenden werden, ist dieser. Wir wollen, dass es eine gefälschte Landing Page für ein Produkt baut, das KI-gestützte

00:14:12smarte Brillen ist. Denkt an etwas wie Meta Ray-Bans. Wieder, wir geben diesen Modellen volle Freiheit in

00:14:16Bezug auf den Stack und das Design. Wir sagen ihnen, sie sollen sich aussuchen, was sie für das Beste halten, installieren, was wir

00:14:20brauchen, und nach den besten Praktiken für das Erstellen von Landing Pages suchen. Wir sagen ihnen: Hey, geht voran und findet

00:14:25Bilder und Produktaufnahmen. Und verlasst euch nicht nur auf das Erstellen eurer eigenen Art von HTML-Sachen. Und wichtig ist,

00:14:31wir sagen: Lasst es wie eine Award-Site aussehen. Wir wollen nicht, dass es wie KI-Slop aussieht. Wir wollen echte

00:14:35visuelle Hierarchie, beabsichtigte Typografie und Bewegung, wo es Sinn ergibt. Also Landing Page für smarte

00:14:42Brillen, wir wollen, dass es so etwas wie einen Award-Stil hat. Also lasst uns sehen, was sie sich ausdenken. Also alle drei

00:14:46von ihnen sind fertig geworden. Zur Referenz, GLM hat etwa eine Million Token verwendet, um dies auszuführen, während Opus und 5.5

00:14:53etwa hunderttausend verwendet haben, mehr oder weniger. Also zuerst haben wir das, was Opus für uns gebaut hat: sehr dunkler Hintergrund.

00:14:58Es hat so etwas wie diese Brillen, die es erstellt hat, und der Text ist genau hier irgendwie abgeschnitten, was

00:15:04bedauerlich ist. Während wir nach unten scrollen, ist dies auch irgendwie seltsam platziert, weil wir den Scroll-Text

00:15:12irgendwie über dem Ganzen sehen können. Aber wenn ich mit der Maus darüber fahre, könnt ihr sehen, wie es sich irgendwie bewegt

00:15:18und die Farbe ändert, was irgendwie cool ist. Während ich nach unten scrolle, haben wir einige scrollende Arten von Ladeanimationen

00:15:24für alles. Aber alles in allem sieht es für die Brillen selbst, die HTML verwenden, in Ordnung aus.

00:15:31Also es ist wie, was bekommt ihr eigentlich davon? Es hat nicht einmal versucht, irgendwelche Brillen

00:15:35zu finden, die man verwenden kann. Und es hat, ihr wisst schon, hey, hier ist, wie ihr sie reservieren könnt und hier ist, wie ihr sie kaufen könnt. Also

00:15:41ist es in Ordnung. Wieder, wir haben ihm nicht eine Menge Anweisungen gegeben, aber wir sagten ihm, geht auf so etwas wie einen Award-

00:15:45Typ Look. Ich würde es nicht auf diesem Niveau betrachten. Nun lasst uns einen Blick auf das werfen, was GLM für uns gebaut hat.

00:15:51Und ich weiß eigentlich überhaupt nicht, was hier los ist. Tatsächlich ist dies irgendwie wie kaum geladen.

00:15:59Es zeigt uns einige Brillen, aber wie diese Website ist irgendwie wie ein Desaster. Es ist, als hätte es nicht einmal

00:16:04wirklich beendet. Es hat es fast einfach alles zusammengeworfen. Ja. Ja, der Prompt war nicht super

00:16:13detailliert, aber es sollte in der Lage sein, mehr als das zu tun, basierend auf dem, was ich ihm gegeben habe. Das ist wie tatsächlich

00:16:19schrecklich. Ich habe keine Ahnung, was es eigentlich hier zu erreichen versuchte. Und zuletzt haben wir GPT 5.5. Also

00:16:25das ist ein bisschen interessant. Ich denke, es sieht irgendwie cool aus, obwohl die Brillen

00:16:30etwas den Text hier überlappen. Und wir haben viel toten Raum, was man argumentieren könnte, dass das

00:16:34etwas von einer Designentscheidung ist. Und wir haben das Banner, das sich tatsächlich bewegt, ihr erinnert euch, das

00:16:39Opus-Version hatte ein Banner, aber es hat sich nicht bewegt. Und dann, während wir nach unten scrollen, werdet ihr auch bemerken, dass der

00:16:44Cursor irgendwie wie mehrfarbig ist. Und während wir nach unten scrollen, sieht es so aus, als hätte es einige HTML-

00:16:50Art Assets erstellt. Ich meine, seltsam, richtig? Wir haben ihm gesagt, hey, ihr könnt online gehen und finden, was ihr finden müsst,

00:16:55wenn ihr wollt. Aber insgesamt wahrscheinlich das beste aus der Gruppe. Aber ihr wisst, ich würde nicht sagen, ich war verliebt

00:17:04in irgendeines davon, zeigt euch irgendwie, wie eine starke Hand ihr führen müsst, wenn ihr irgendeine Art

00:17:09von visuellem Design oder UI-Sachen macht, wie sogar diese fortschrittlichsten Modelle kämpfen, wie,

00:17:14ich habe tatsächlich keine Ahnung, was zum Teufel hier los ist. Also insgesamt war Opus

00:17:21in Ordnung. 5.5 war das beste des Haufens und GLM war wie tatsächlich ein komplettes Versagen. Und genau wie wir es mit

00:17:26der Gaming-Version getan haben, werden wir ihnen einen zweiten Durchgang bei diesem geben und sehen, ob sie aufräumen können, was

00:17:30schief gelaufen ist. Und darüber hinaus werden wir sie bitten, ähnlich wie, wieder, bei dem Spiel, das wir sie

00:17:36haben erstellen lassen, einige Three-JS-Elemente zu integrieren, wie, wir wollen wirklich sehen, wie es seine Fähigkeiten bei

00:17:42Dingen wie Bewegung und Grafiken und dergleichen pushen kann. Und dieser neue Prompt sieht so aus: Nehmt

00:17:46die Landing Page für smarte Brillen, die ihr gerade gebaut habt, und baut sie als immersives 3D-Erlebnis neu mit

00:17:51Three.JS. Also wollen wir eine tatsächliche interaktive 3D-Szene. Und wieder geben wir ihr volle Freiheit,

00:17:56sie so auszuführen, wie sie es für passend hält. Und also hier ist, was wir mit Opus 4.8 bekommen haben. Ihr könnt jetzt sehen, dass es

00:18:02einige Three-JS hinzugefügt hat, diese Brillen bewegen sich irgendwie. Aber darüber hinaus haben wir einige der ursprünglichen Probleme,

00:18:08richtig, dass der Text abgeschnitten ist, er hier überschrieben wird. Und der Rest davon ist irgendwie nur

00:18:13man, wie, das ist ziemlich offensichtlich, dass KI dies erstellt hat. Oh, am Rande, wie Token-Kosten

00:18:21waren im zweiten Durchgang durchgehend ziemlich gleich für alle diese. Als nächstes,

00:18:27haben wir GLM 5.2. Und diesmal hat es tatsächlich eine Website erstellt, die Sinn ergibt. Wir haben diese Brillen,

00:18:32obwohl die Brillen, die es gemacht hat, irgendwie wie seltsam sind, wie, ihr habt nur, wisst ihr,

00:18:36keine Brillen würden tatsächlich so aussehen, und der Text ist auch hier abgeschnitten. Aber wir haben ein Banner,

00:18:42das scrollt, wenn ich darüber scrolle, es stoppt. Und ich würde insgesamt sagen, in Bezug auf

00:18:48wie es die Website angelegt hat, würde ich wahrscheinlich ihm den Vorzug vor Opus geben. Nun, ich denke nicht,

00:18:55dass irgendeines von ihnen besonders gut ist. Und wir haben ihnen irgendwie freien Lauf gelassen, zu tun, was sie wollen. Aber

00:18:59ich würde dies über eine Art Setup stellen. Obwohl in Bezug auf den Hero-Abschnitt selbst,

00:19:05mag ich Opus 4.8 lieber. Nun, GPT 5.5, ich denke, ist hier der Gewinner. Ich denke, das sieht einfach insgesamt

00:19:10von einem subjektiven Design-Standpunkt aus besser aus. Und ich denke, die Three-JS-Art von Bewegungs-Grafiken,

00:19:18die es hier hinzugefügt hat, sind ziemlich cool. Ich denke, es ergibt Sinn im Kontext dessen, was es erstellt hat. Wie, wir haben

00:19:22all diesen weißen Raum oben und die Brillen können irgendwie darin leben. Und was den

00:19:27Rest der Website angeht, ich denke, es sieht in Ordnung aus. Wieder, es sieht immer noch sehr nach, in Anführungszeichen,

00:19:32KI-Slop aus, in dem Sinne, dass KI dies definitiv erstellt hat, aber es sieht nicht schlecht aus. Und wie von oben

00:19:37nach unten, bevorzuge ich das, was uns 5.5 gegeben hat, über all die anderen. Und also, wenn wir uns diese ganze

00:19:42Sache ansehen, ganzheitlich diese komplexeren Benchmarks einbringend, wie Deep-Suite neben

00:19:48dem, was wir heute gerade getan haben, denke ich, ist das irgendwie, was wir erwartet haben. Ich denke nicht, dass GLM extrem schlecht

00:19:56in irgendeinem Sinne des Wortes abgeschnitten hat, aber es fühlte sich definitiv an, als wäre es eine Stufe unter GPT 5.5 oder 4.8 oder in

00:20:03Szenarien, wo, ihr wisst schon, in dem ersten Abschnitt, wo Opus besser war als alle von ihnen. Und in

00:20:07dem zweiten Abschnitt, wo GPT besser war als alle von ihnen, war GLM immer nahe am Boden. Es war nicht

00:20:12grob schlechter als irgendeines von ihnen, aber es war sicherlich nicht besser. Und es hat auch unendlich mehr Token verbraucht.

00:20:17Und also wenn wir uns so etwas wie dies ansehen, den Deep-Suite-Score, wo es heißt:

00:20:21Hey, GLM ist irgendwie am Boden und ist tatsächlich weniger effizient als 5.5 und 4.8, sowohl in Bezug auf

00:20:27Kosten als auch darauf, wie gut es abschneidet. Es ergibt irgendwie Sinn. Ich denke, das ist irgendwie, was wir sehen. Also großes

00:20:35Bild, ist GLM ein großartiges Open-Source-Modell? Definitiv. Aber stößt es auf einige Probleme, die Open-Source-

00:20:41Modelle im Allgemeinen haben, nämlich, sie sind nicht so leistungsstark? Ja. Und außerdem, wenn ihr jemand seid, der

00:20:47Open-Source-Maximierung betreibt, versteht, dass dies nichts ist, das ihr auf eurem PC ausführen würdet, richtig? Dies erfordert eine

00:20:52Menge Hardware zu verwenden. Und ich denke, was in der Konversation verloren geht, ist das, worüber wir am Anfang gesprochen haben,

00:20:57was ist, okay, die Kosten sind irgendwie schon ein Problem für GLM 5.2. Doch das nimmt nicht einmal

00:21:05die riesige Subventionierung in Kauf, die ihr entweder im Anthropic Max-Plan oder im OpenAI

00:21:12Max-Plan bekommt. Also behaltet das im Kopf und wie, okay, das ist irgendwie keine Debatte.

00:21:16Es ist wirklich keine Debatte. Also würde ich vorschlagen, GLM 5.2 für eure durchschnittliche Person zu verwenden? Nein,

00:21:24nicht wirklich. Ich denke vielleicht, wenn ihr Aufgaben auf niedrigerem Niveau erledigt und ihr seid jemand, der es

00:21:29rein auf API-Preise vergleicht, vielleicht, vielleicht. Aber es ist, ihr wisst, ich denke, es ist irgendwie schwer zu argumentieren,

00:21:38dass, weil dann was tun wir, wenn das nächste, wenn, ihr wisst schon, Sonnet 5 nächste Woche herauskommt? Wie,

00:21:42springt ihr dann einfach von dort zu dort? Wie, es gibt etwas zu sagen, bei dem Modell zu bleiben, besonders wenn wir

00:21:46mehr auf Unternehmens-Team-Ebene sprechen,

00:21:50wo die API-Kosten wirklich anfangen sich zu summieren. Weil wieder, für den durchschnittlichen einzelnen Benutzer, der

00:21:55einen der subventionierten Pläne verwenden wird und nicht direkt API-Kosten bezahlt, sehe ich kein Argument für

00:22:01GLM 5.2. Also da werde ich euch Leute für heute lassen. Hoffentlich habe ich etwas Licht auf diese

00:22:05ganze GLM-Debatte und all den Hype geworfen, den ihr darum seht. Wie immer, lasst mich wissen, was ihr

00:22:09in den Kommentaren dachtet. Stellt sicher, Chase AI Plus auszuprobieren, wenn ihr eure Hände an die

00:22:13Cloud Code Masterclass bekommen wollt, und wir sehen uns.

Key Takeaway

Obwohl GLM 5.2 als leistungsfähiges Open-Source-Modell vermarktet wird, übertreffen Opus 4.8 und GPT 5.5 das Modell in realen, komplexen Entwicklungsaufgaben bei gleichzeitig höherer Effizienz und besserem visuellen Output.

Highlights

GLM 5.2 erreicht im DeepSuite-Benchmark 44 % Korrektheit bei Kosten von 3,92 $pro Aufgabe, während GPT 5.5 bei 67 % und 7,23$ abschneidet.
Für die Erstellung eines webbasierten 3D-Rennspiels verbrauchte GLM 5.2 über eine Million Token, im Vergleich zu etwa 100.000 Token bei Claude Code mit Opus 4.8.
GLM 5.2 ist kein echtes Open-Source-Modell für den Heimgebrauch, da es fast eine Billion Parameter umfasst und erhebliche Hardware-Ressourcen erfordert.
Bei der Gestaltung einer Landing Page für smarte Brillen erzielte GPT 5.5 das visuell ansprechendste Ergebnis, während GLM 5.2 in der ersten Ausführung scheiterte.
Trotz niedrigerer Kosten pro Token bleibt die Gesamteffizienz von GLM 5.2 bei komplexen, agentischen Aufgaben hinter Opus 4.8 und GPT 5.5 zurück.
Opus 4.8 und GPT 5.5 bieten durch subventionierte Monatspläne für Durchschnittsnutzer ein besseres Preis-Leistungs-Verhältnis als die direkte API-Nutzung von GLM 5.2.

Timeline

Vergleich der Benchmarks und Effizienz

DeepSuite zeigt eine Diskrepanz zwischen Modell-Hype und tatsächlicher Leistung in agentischen Aufgaben.
Opus 4.8 und GPT 5.5 übertreffen GLM 5.2 in der Erfolgsquote bei komplexen Coding-Aufgaben.
Token-basierte Kosten sind irreführend, wenn die Gesamteffizienz zur Erledigung einer Aufgabe betrachtet wird.

Die Analyse von DeepSuite verdeutlicht, dass GLM 5.2 bei der Ausführung von 113 Aufgaben in verschiedenen Programmiersprachen weniger effizient arbeitet. Während GLM 5.2 kostengünstiger pro Token ist, benötigen die Frontier-Modelle Opus 4.8 und GPT 5.5 insgesamt weniger Token, um Aufgaben zu lösen, was die Gesamtkosten pro abgeschlossener Aufgabe senkt. Zudem wird klargestellt, dass GLM 5.2 aufgrund seiner Größe keine lokale Ausführung auf Standard-PCs ermöglicht.

Praxistest: Entwicklung eines 3D-Rennspiels

Opus 4.8 liefert im ersten Durchgang die flüssigste Spielmechanik und Grafik.
GLM 5.2 zeigt Defizite bei der Physiksteuerung und der visuellen Differenzierung von Spielelementen.
GPT 5.5 benötigt für ähnliche Ergebnisse deutlich mehr Zeit und produziert teils fehlerhafte Geometrien wie falsch drehende Räder.

Die Modelle erhielten die Aufgabe, ein 3D-Rennspiel im Browser zu erstellen. Opus 4.8 überzeugte durch eine schnelle Umsetzung und saubere Physik, während GLM 5.2 trotz eines Token-Verbrauchs von über einer Million eine sprunghafte Steuerung und geringe Detailtiefe aufwies. Ein zweiter Durchgang verbesserte zwar das Auto-Design, konnte jedoch die grundlegenden Probleme der anderen Modelle kaum ausgleichen.

Design-Leistung bei Web-Landing-Pages

GPT 5.5 liefert bei der Erstellung einer Landing Page das visuell konsistenteste Design.
GLM 5.2 scheitert in der ersten Runde der Webseiten-Erstellung fast vollständig.
Opus 4.8 zeigt gute Ansätze, leidet aber unter Platzierungsproblemen des Inhalts.

Beim Test, eine Landing Page für smarte Brillen mit Award-ähnlichem Design zu erstellen, zeigte sich die Überlegenheit von GPT 5.5, besonders bei der Integration von Three.js für 3D-Elemente. GLM 5.2 bot ein instabiles Ergebnis, das kaum funktionale UI-Standards erfüllte. Abschließend wird festgehalten, dass für den durchschnittlichen Nutzer die Nutzung der etablierten, subventionierten Pläne von OpenAI oder Anthropic aufgrund der überlegenen Ergebnisse sinnvoller ist als der Umstieg auf GLM 5.2.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video