Ich habe GLM 5.2 gegen Opus 4.8 und GPT 5.5 getestet

CChase AI
컴퓨터/소프트웨어게임/e스포츠AI/미래기술

Transcript

00:00:00GLM 5.2 kam erst diese Woche heraus und es ist das stärkste Open-Source-Modell, das wir je
00:00:04gesehen haben. Und einige Benchmarks, wie ihr hier seht, zeigen sogar, dass dieses Modell die Giganten
00:00:10wie Anthropics Opus 4.8 und OpenAIs 5.5 übertrifft. Aber sind diese Benchmarks legitim? Wie schneidet dieses Modell
00:00:18im direkten Vergleich mit Opus 4.8 und GPT 5.5 ab? Nun, genau das werden wir
00:00:25im heutigen Video beantworten, indem ich mehrere Tests mit diesen drei großen Modellen durchführe und sehe,
00:00:31wie es tatsächlich in der realen Welt abschneidet. Darüber hinaus werden wir einen Deep Dive in einen
00:00:35Benchmark im Besonderen machen, den ich für ziemlich wichtig halte, und aufschlüsseln, was wir eigentlich
00:00:40damit meinen, dass GLM 5.2 in einigen Fällen besser ist als Opus und GPT 5.5. Sprechen wir davon,
00:00:47dass es effizienter ist, weniger kostet oder dass es tatsächlich all diese Dinge gleichzeitig besser macht?
00:00:51Also ohne weitere Umschweife, legen wir einfach los. Nun, bevor wir uns in den Direktvergleich
00:00:56stürzen, schauen wir uns zunächst einige der bestehenden Benchmarks an, die diese
00:00:59drei Modelle vergleichen. Der eine, auf den ich wirklich achten möchte, ist DeepSuite. Nun, DeepSuite ist
00:01:04ein relativ neuer Benchmark, und er soll eine Verbesserung gegenüber Dingen wie Terminal
00:01:08Bench und Terminal Bench Pro sein. Ich werde nicht ultra tief in diesen Benchmark eintauchen, ihr
00:01:12Sie können sich deren Website oder GitHub-Repo ansehen, wo es genauer erklärt wird. Aber es konzentriert
00:01:17auf langlaufende agentische Aufgaben, spezifisch 113 Aufgaben in TypeScript, Go, Python, JavaScript,
00:01:23und Rust mit isolierten Umgebungen und programmgestützten Verifizierern. Und hier auf dieser Grafik sehen wir
00:01:29die Punktzahl, den Prozentsatz der richtigen Antworten auf der linken Seite, sowie die durchschnittlichen Kosten
00:01:34pro Aufgabe. Nun, wir wollen nach oben rechts. Der effizienteste Bereich ist hier oben
00:01:39rechts. Dort bekommen wir die höchste Punktzahl bei den niedrigsten Kosten. Und wir können hier sehen, dass GLM 5.2
00:01:44Max uns 44% bei 3,92 $ pro Aufgabe liefert. Wenn wir das mit Opus 4.8 und GPT 5.5 vergleichen, sehen wir,
00:01:55dass sie viel besser abschneiden. Bei Max erreicht Opus 4.8 59% und 5.5 erreicht 67% bei Extra High. Offensichtlich,
00:02:04haben wir bei Extra High und Max ziemlich hohe Kosten. Für GPT 5.5 sind es 7,23 $. 13 $ für Opus,
00:02:12und bei GLM sind es 3,92 $. Also viel billiger. Wenn wir uns jedoch verschiedene Anstrengungsstufen ansehen,
00:02:19bei 5.5 und bei Opus, wenn wir zum Beispiel bei Medium sind, erreichen wir mit Opus 4.8
00:02:25eine höhere Punktzahl als mit GLM 5.2, und wir sind weniger teuer. Also 49% bei 3,44 $gegenüber 44% bei 3,92$. Und das ist
00:02:36signifikant bei 5.5 mit 54% bei 2,75 $gegenüber 44% bei 3,92$. Also gleich zu Beginn, bei diesem Benchmark,
00:02:47wenn wir ihn für bare Münze nehmen, sind 4.8 und 5.5 eine Stufe über GLM 5.2. Und das ist nicht überraschend. Das sind
00:02:55die besten der besten Frontier-Modelle. Sie sind nicht Open Source. Und wenn wir wirklich Vollgas
00:03:01geben, werden sie GLM 5.2 bei diesen langwierigen Aufgaben ziemlich überflügeln,
00:03:07das ist irgendwie zu erwarten. Was ihr vielleicht nicht erwartet habt, ist die Tatsache, dass es für weniger Geld besser sein kann,
00:03:11was irgendwie ein Problem ist. Und ich möchte das einfach nur mal erwähnen, weil ich weiß, dass es gerade viel
00:03:16Gerede und viel Hype um GLM 5.2 gibt und die Tatsache, dass es Open Source ist. Und ihr wisst,
00:03:21das impliziert sofort irgendwie: Oh, es ist super, super billig. Und wir können wirklich gute Dinge tun.
00:03:25Nun, ich meine, nach den Zahlen ist es gut, aber es ist basierend auf diesem Benchmark nicht 4.8 oder 5.5. Und denkt daran,
00:03:33diese 4.8- und 5.5-Zahlen basieren auf API-Kosten. Wenn ich im Max-Plan bin, ist es etwa 10-mal billiger als
00:03:40das. Dasselbe gilt, wenn ich einfach nur im 100-$-Monats-Plan oder 200-$-Monats-Plan von OpenAI bin. Also
00:03:46ist das eine weitere Sache, die man berücksichtigen muss. Also wollte ich nur mal die Bremse ziehen bei all diesem
00:03:50Gerede, dass GLM viel billiger ist, weil das irgendwie nicht der Fall ist. Und obwohl es Open Source ist,
00:03:56GLM 5.2, das Open-Source-Modell, das diese Zahlen erreicht, das ist nicht Open Source. Wie, ihr könnt
00:04:01es einfach nicht auf euren Computer herunterladen. Es ist Open Source in dem Sinne, dass ihr den Code sehen könnt,
00:04:05ihr könnt die Gewichte sehen. Es ist nicht Open Source in dem Sinne von: Oh nein, es ist einfach, ich kann es einfach
00:04:09auf OLAMA holen. Ich kann es auf meinem persönlichen PC ausführen. Nein, könnt ihr nicht. Nein, könnt ihr nicht. Das sind fast eine
00:04:14Billion Parameter. Das erfordert eine Menge Hardware zum Ausführen. Also lasst euch nicht verwirren, weil ich weiß,
00:04:20dass es einen Teil der Bevölkerung gibt, der das tut, aber das ist nur, um den Rahmen zu setzen. Und noch einmal,
00:04:24das ist bei Deep-Suite-Sachen. Das sind sehr intensive Aufgaben, die gestellt werden. Und
00:04:30heute werden wir ein paar verschiedene Tests machen, die ein wenig niedriger angesiedelt sind und die
00:04:35wahrscheinlich eher eine Reflexion dessen sind, was ihr, der durchschnittliche Benutzer, ausführt. Also etwas, das man im Kopf
00:04:39behalten sollte. Und nur damit wir alle auf derselben Seite sind, das ist, was wir uns in Bezug auf die Kosten
00:04:44pro Token ansehen. Denkt daran, der Grund, warum es für Opus 4.8 und 5.5 billiger war, ist, dass es einfach viel weniger
00:04:50Token verbraucht hat, um das zu tun, was es tun musste. Es war letztendlich effizienter, aber auf Token-Basis.
00:04:55Und denkt daran, für Eingabe und Ausgabe, dies ist pro Million Token, GLM 5.2, 1,40 $ für die Eingabe,
00:05:014,40 $ für die Ausgabe. Und Opus 4.8 ist 5,7-mal teurer. Und 5.5 von GPT ist 6,8-mal
00:05:10teurer. Also auf Token-Basis viel billiger. Aber denkt daran, uns geht es um die Ergebnisse für eine Aufgabe,
00:05:16nicht notwendigerweise um einen Eins-zu-eins-Token-Vergleich. Und jetzt, bevor wir zu den eigentlichen Tests springen,
00:05:21ein kurzes Wort vom Sponsor des heutigen Tages, mir. Also habe ich gerade meine Cloud Code Masterclass innerhalb von
00:05:26Chase AI Plus veröffentlicht und es ist der beste Weg, um vom Nullpunkt zum KI-Entwickler zu werden, besonders wenn ihr nicht
00:05:30aus einem technischen Hintergrund kommt. Ich aktualisiere das jede Woche und es enthält auch Masterclasses für Codecs
00:05:35und für das Erstellen eures eigenen agentischen Betriebssystems. Wenn das also etwas ist, worüber ihr mehr erfahren wollt und ihr
00:05:40nicht sicher seid, wo ihr anfangen sollt, ist Chase AI Plus der richtige Ort für euch. Es gibt einen Link dazu in den angepinnten Kommentaren.
00:05:46Also hier ist, wie wir diesen Test durchführen werden. Wir werden jedem einzelnen Modell denselben
00:05:49Prompt und Plan-Modus geben. Es wird uns den Plan geben. Wir werden vielleicht etwas hin und her gehen,
00:05:53abhängig davon, was wir von dem Plan halten, den es sich ausgedacht hat. Und danach lassen wir es ausführen.
00:05:58Nachdem es ausgeführt wurde, werde ich meine extrem subjektiven Bewertungskriterien auf das Endergebnis anwenden und euch mitteilen,
00:06:03welches mir am besten gefällt. Wenn ihr meine Bewertungskriterien nicht mögt oder das, was ich für am besten halte, stellt sicher,
00:06:08einen Kommentar zu hinterlassen. Ich werde auch sicherstellen, euren Kommentar zu löschen. Nun, hier auf der linken Seite haben wir
00:06:14GPT 5.5 innerhalb von Codex auf Extra High. Wir haben OpenCode in der Mitte, das GLM 5.2 auf Extra High ausführt,
00:06:21geroutet über OpenRouter. Und hier auf der rechten Seite haben wir Cloud Code, das Opus 4.8
00:06:26auf High ausführt. Nun, warum habe ich diese speziellen Einstellungen für die Anstrengung gewählt? Weil das die Art ist, wie die meisten Leute
00:06:32diese im wirklichen Leben nutzen. Und die Chancen stehen gut, dass ihr entweder im Max-Plan seid oder ihr seid in irgendeiner Art
00:06:37von Open AI-Plan und ihr führt es wahrscheinlich nicht auf Medium aus. Seien wir ehrlich. Also ich denke, das ist eine
00:06:42bessere Reflexion dessen, wie euer durchschnittlicher Benutzer diese Modelle tatsächlich Tag für Tag nutzt.
00:06:47Also für unseren ersten Prompt werden wir es ein spielbares 3D-Rennspiel bauen lassen, das im
00:06:51Browser läuft. Und wichtig ist, wir halten diesen Prompt etwas vage. Ich sage, ihr habt volle Freiheit,
00:06:56ins Web zu gehen und euch den Stack und die Bibliothek auszusuchen, von denen ihr denkt, dass sie am besten sind, um das auszuführen. Und so
00:07:02lass uns das mal ausführen und sehen, was passiert. Wir haben also alle drei Modelle im Plan-Modus laufen.
00:07:08Und noch einmal, der Gedanke dahinter, den Prompt etwas vage zu machen, ist, dass wir so viel
00:07:12Divergenz wie möglich von diesen Modellen sehen wollen. Wenn ich den genauen Fahrplan gegeben hätte, wie man jede einzelne Sache macht,
00:07:18nun, dann bekommen wir wirklich nicht zu sehen, wie diese Modelle denken und wie sie an eher
00:07:23messy Probleme herangehen. Also nach 13 Minuten war Opus 4.8 das erste, das fertig war, das Rennspiel zu erstellen.
00:07:29Also schauen wir uns an, was es gemacht hat. Hier sind wir also, etwas Low Poly. Es hat tatsächlich
00:07:37etwas Sound dabei. Läuft ziemlich flüssig. Sieht so aus, als hätten wir auch die Möglichkeit, hier zu driften.
00:07:44Okay, das Gras beeinträchtigt eigentlich irgendwie, wie die Physik funktioniert. Insgesamt, irgendwie ziemlich flüssig, aber wisst ihr,
00:07:54ziemlich langweilige Rennstrecke. Nichts Verrücktes, hat keine Art von KI oder so etwas hinzugefügt.
00:07:59Also bin ich gespannt zu sehen, wie die anderen Modelle in Bezug auf Komplexität abschneiden, und was ich wahrscheinlich
00:08:04nach diesem ersten Test tun werde, falls diese alle nur so eine Art fade Vision sind. Wir werden es wahrscheinlich
00:08:09mit einem weiteren Prompt versuchen, der den Einsatz erhöht. Als nächstes ist
00:08:13GLM 5.2. Es dauerte etwa fünf Minuten länger als Cloud Code. Zur Referenz, GPT 5.5 arbeitet immer noch,
00:08:20was mich nicht allzu sehr überrascht. Es neigt dazu, etwas langsamer zu sein. Im Hinblick auf den Token-Vergleich,
00:08:26hat Claude Code etwa 100.000 Token verwendet, um das zu erstellen. Und GLM 5.2 brauchte über eine Million. Und wir können einen Blick
00:08:33innerhalb von Open Router für diesen Durchlauf werfen, wo die Gesamtausgabe 1,21 $ betrug. Und das Gesamtvolumen der Token betrug 1,35
00:08:41Millionen, um dieses Spiel zu erstellen. Also gleich interessant, was für eine Strecke wir hier haben.
00:08:48Die Steuerung ist im Vergleich zu dem, was wir mit Claude Code hatten, ziemlich sprunghaft. Wie, ich bewege mich
00:08:53sehr schnell im Verhältnis zur Strecke selbst. Sehr schnell. Wie, ich rase hier durch. Und wir sind auch so
00:09:00etwas wie, es gibt keine wirkliche Differenzierung zwischen der Strecke und dem Feld selbst. Und in
00:09:09bestimmten Fällen war ich in der Lage, fast, wie ihr da gesehen habt, durch die Strecke zu fahren, aber nicht wirklich.
00:09:15Also ist auch das Auto selbst etwas weniger detailliert als das, was wir innerhalb von Claude Code gesehen haben. Ich meine,
00:09:23also es gibt eine Strecke, es hat einen Timer. In Bezug auf das tatsächliche Gameplay, ein wenig hölzern für das, was
00:09:30es ist, nicht annähernd so flüssig. Und auch hier, wieder mit der Low-Poly-Situation wie bei
00:09:36Opus. Und also würde ich gerne sehen, was es tut, wenn wir ihm sagen, es soll wirklich etwas erstellen, das
00:09:40besser aussieht. Und auch diese Strecke selbst ergibt eigentlich nicht allzu viel Sinn. Also jetzt schauen wir uns an,
00:09:44was GPT 5.5 erstellt hat. Es nennt es den Foundry Circuit, das Night Shift Time Trial, drei Runden
00:09:50durch das Stahlwerk. Also etwas anderes, schätze ich, als die generische Strecke, die wir in den
00:09:54letzten beiden gesehen haben. Also lass uns das starten. Und los geht's. Nun, ich weiß eigentlich nicht, wohin ich
00:10:04hin soll. Oh, ich schätze, das ist die Strecke. Die Räder sehen irgendwie interessant aus. Sie drehen sich irgendwie
00:10:10falsch herum. Also das ist etwas. Okay, es hat irgendwie sehr nervige Geräusche, tatsächlich.
00:10:21Und ich komme irgendwie nicht darüber hinweg, dass die Räder horizontal fahren, oder wie auch immer man das beschreiben würde.
00:10:28Die Strecke selbst ist in Ordnung, kann sich irgendwie bewegen. Ja, man kann über die Strecke hinausfahren und es verlangsamt dich. Aber es ist nicht
00:10:35klar, dass dies eine gepflasterte Strecke ist, wie wir es bei dem sahen, was Opus gebaut hat. Und wie der Rest ist,
00:10:41wisst ihr, das Feld. Also irgendwie seltsame Grafiken, ehrlich gesagt. Auch, wenn man bedenkt,
00:10:48die Tatsache, dass es doppelt so lange wie Opus dauert, ist irgendwie seltsam. Ja, ehrlich gesagt, irgendwie seltsam. Wieder,
00:10:55wie, warum hat es das bei den Rädern gemacht? Ich habe keine Ahnung. Wieder, ging für das Low-Poly-Ding.
00:11:00Und es ist einfach irgendwie sehr dunkel, aus scheinbar keinem Grund. Also ich meine, wie, ich habe fast, ich habe das Gefühl,
00:11:06dass dies funktionaler ist als das, was wir mit GLM 5.2 bekommen haben, aber wie, nicht viel besser. Und ihr auch
00:11:12berücksichtigt die Tatsache, dass dies auf Extra High bei 5.5 war. Nun, in Bezug auf den Token-Verbrauch für 5.5,
00:11:17kam es ungefähr auf das heraus, was wir mit Claude Code gesehen haben. Es hat 7% seines Fünf-Stunden-Fensters verwendet. Also fast
00:11:22nichts. Nun, im Gesamtranking hätte ich Opus 4.8 eindeutig vor GLM 5.2 und 5.5 platziert. Ich dachte,
00:11:28die letzten beiden waren irgendwie hölzern, aber wir werden ihnen tatsächlich noch eine Chance geben, weil
00:11:32wir ihnen sagen werden, sie sollen sich den Code noch einmal ansehen, noch einen Durchgang machen. Und wir wollen auch,
00:11:36dass sie viel besser abschneiden in Bezug auf die Grafiken. Ich möchte nicht die Low-Poly-Sachen. Ich möchte, dass das aussieht
00:11:40wie ein AAA-Spiel oder so nah wie möglich daran. Also lass uns sehen, was passiert, wenn wir ihnen
00:11:46Versuch Nummer zwei geben. Also haben Opus und GLM ihren zweiten Durchgang beendet und 5.5 ist dort fertig geworden. Also
00:11:50werfen wir zuerst einen Blick auf Opus 4.8. Also gleich sehen wir ein Auto, das viel besser ist. Wie, das ist ein riesiger
00:11:58Fortschritt in Bezug auf das Auto als das, was wir vorher gesehen haben. Wir sehen auch eine Menge anderer Beleuchtung.
00:12:04Wie, ihr könnt die Sonne sehen, die sich auf dem Boden selbst reflektiert und alles sieht viel glatter aus. Ich meine,
00:12:10die Bäume selbst sind so etwas wie Low-Polygon-Dinger, aber die Beleuchtung und besonders das Auto
00:12:15sind ein bedeutender Schritt nach vorne. Und es behält irgendwie immer noch dieselbe flüssige Spielweise bei. Ich meine, abgesehen von der
00:12:20Tatsache, dass wir Bäume auf der Straße haben, aber die Bäume selbst sind auch beschattet. Und für einen zusätzlichen
00:12:26Durchgang, der 10 Minuten und etwa 50.000 Token dauerte, nicht schlecht. Nun schauen wir uns GLM an. Und an diesem Punkt
00:12:32dauerte es etwa weitere 1,2 oder so Millionen Token, um dieses Update zu machen, was unsere Gesamtausgabe auf 1,83 $ brachte.
00:12:38Also lass uns das starten. Und es sieht so aus, als hätte es versucht, eine Art von anderer Beleuchtung hinzuzufügen. Das Auto sieht
00:12:46ein bisschen besser aus, aber die Beleuchtung selbst ist irgendwie seltsam. Wie, es ist einfach sehr blendend. Die Strecke
00:12:52selbst hat sich nicht viel verändert. Ihr wisst, es ist immer noch irgendwie einfach überall Gras. Und die
00:12:57Steuerung ist immer noch sehr sprunghaft, richtig? Wie, ich fahre sehr schnell im Verhältnis zur Strecke. Dieselbe Art von Problem,
00:13:04das ich vorher hatte, wo ich wie durch einen Teil der Strecke fahren kann, durch einen Teil nicht. Also ich meine,
00:13:10die Grafiken für das Auto sehen besser aus, aber ich würde argumentieren, die Beleuchtung und die Blendung ist so ablenkend.
00:13:15Es ist wahrscheinlich eine Art Downgrade gegenüber dem, was wir vorher hatten. Und hier ist der zweite Durchgang mit 5.5. Nun
00:13:21sieht das Auto ein bisschen besser aus, aber alles andere betrachtend, ist dies irgendwie das Gleiche. Nun,
00:13:29die Räder sind besser. Wir haben das Räderproblem behoben. Sie drehen sich tatsächlich so, wie sich Räder drehen sollten,
00:13:34aber haben immer noch nervige Geräusche. Und es gibt wieder keine wirkliche Differenzierung zwischen dem Pfad
00:13:42und dem Gras. Also fühlt es sich irgendwie wie genau dasselbe an, das es beim ersten Mal getan hat, mit einem
00:13:49etwas besseren Auto. Aber ihr wisst, wenn wir ihm sagten, geh für eine AAA-Ästhetik, würde ich nicht sagen, es
00:13:55hat ins Schwarze getroffen. Und wieder, ich habe das Gefühl, großes Bild. Wir betrachten diese drei GM und 5.5, definitiv eine Stufe
00:14:02unter Opus. Nun für unseren nächsten Test werden wir es eine Website bauen lassen. Und der Prompt, den wir
00:14:07verwenden werden, ist dieser. Wir wollen, dass es eine gefälschte Landing Page für ein Produkt baut, das KI-gestützte
00:14:12smarte Brillen ist. Denkt an etwas wie Meta Ray-Bans. Wieder, wir geben diesen Modellen volle Freiheit in
00:14:16Bezug auf den Stack und das Design. Wir sagen ihnen, sie sollen sich aussuchen, was sie für das Beste halten, installieren, was wir
00:14:20brauchen, und nach den besten Praktiken für das Erstellen von Landing Pages suchen. Wir sagen ihnen: Hey, geht voran und findet
00:14:25Bilder und Produktaufnahmen. Und verlasst euch nicht nur auf das Erstellen eurer eigenen Art von HTML-Sachen. Und wichtig ist,
00:14:31wir sagen: Lasst es wie eine Award-Site aussehen. Wir wollen nicht, dass es wie KI-Slop aussieht. Wir wollen echte
00:14:35visuelle Hierarchie, beabsichtigte Typografie und Bewegung, wo es Sinn ergibt. Also Landing Page für smarte
00:14:42Brillen, wir wollen, dass es so etwas wie einen Award-Stil hat. Also lasst uns sehen, was sie sich ausdenken. Also alle drei
00:14:46von ihnen sind fertig geworden. Zur Referenz, GLM hat etwa eine Million Token verwendet, um dies auszuführen, während Opus und 5.5
00:14:53etwa hunderttausend verwendet haben, mehr oder weniger. Also zuerst haben wir das, was Opus für uns gebaut hat: sehr dunkler Hintergrund.
00:14:58Es hat so etwas wie diese Brillen, die es erstellt hat, und der Text ist genau hier irgendwie abgeschnitten, was
00:15:04bedauerlich ist. Während wir nach unten scrollen, ist dies auch irgendwie seltsam platziert, weil wir den Scroll-Text
00:15:12irgendwie über dem Ganzen sehen können. Aber wenn ich mit der Maus darüber fahre, könnt ihr sehen, wie es sich irgendwie bewegt
00:15:18und die Farbe ändert, was irgendwie cool ist. Während ich nach unten scrolle, haben wir einige scrollende Arten von Ladeanimationen
00:15:24für alles. Aber alles in allem sieht es für die Brillen selbst, die HTML verwenden, in Ordnung aus.
00:15:31Also es ist wie, was bekommt ihr eigentlich davon? Es hat nicht einmal versucht, irgendwelche Brillen
00:15:35zu finden, die man verwenden kann. Und es hat, ihr wisst schon, hey, hier ist, wie ihr sie reservieren könnt und hier ist, wie ihr sie kaufen könnt. Also
00:15:41ist es in Ordnung. Wieder, wir haben ihm nicht eine Menge Anweisungen gegeben, aber wir sagten ihm, geht auf so etwas wie einen Award-
00:15:45Typ Look. Ich würde es nicht auf diesem Niveau betrachten. Nun lasst uns einen Blick auf das werfen, was GLM für uns gebaut hat.
00:15:51Und ich weiß eigentlich überhaupt nicht, was hier los ist. Tatsächlich ist dies irgendwie wie kaum geladen.
00:15:59Es zeigt uns einige Brillen, aber wie diese Website ist irgendwie wie ein Desaster. Es ist, als hätte es nicht einmal
00:16:04wirklich beendet. Es hat es fast einfach alles zusammengeworfen. Ja. Ja, der Prompt war nicht super
00:16:13detailliert, aber es sollte in der Lage sein, mehr als das zu tun, basierend auf dem, was ich ihm gegeben habe. Das ist wie tatsächlich
00:16:19schrecklich. Ich habe keine Ahnung, was es eigentlich hier zu erreichen versuchte. Und zuletzt haben wir GPT 5.5. Also
00:16:25das ist ein bisschen interessant. Ich denke, es sieht irgendwie cool aus, obwohl die Brillen
00:16:30etwas den Text hier überlappen. Und wir haben viel toten Raum, was man argumentieren könnte, dass das
00:16:34etwas von einer Designentscheidung ist. Und wir haben das Banner, das sich tatsächlich bewegt, ihr erinnert euch, das
00:16:39Opus-Version hatte ein Banner, aber es hat sich nicht bewegt. Und dann, während wir nach unten scrollen, werdet ihr auch bemerken, dass der
00:16:44Cursor irgendwie wie mehrfarbig ist. Und während wir nach unten scrollen, sieht es so aus, als hätte es einige HTML-
00:16:50Art Assets erstellt. Ich meine, seltsam, richtig? Wir haben ihm gesagt, hey, ihr könnt online gehen und finden, was ihr finden müsst,
00:16:55wenn ihr wollt. Aber insgesamt wahrscheinlich das beste aus der Gruppe. Aber ihr wisst, ich würde nicht sagen, ich war verliebt
00:17:04in irgendeines davon, zeigt euch irgendwie, wie eine starke Hand ihr führen müsst, wenn ihr irgendeine Art
00:17:09von visuellem Design oder UI-Sachen macht, wie sogar diese fortschrittlichsten Modelle kämpfen, wie,
00:17:14ich habe tatsächlich keine Ahnung, was zum Teufel hier los ist. Also insgesamt war Opus
00:17:21in Ordnung. 5.5 war das beste des Haufens und GLM war wie tatsächlich ein komplettes Versagen. Und genau wie wir es mit
00:17:26der Gaming-Version getan haben, werden wir ihnen einen zweiten Durchgang bei diesem geben und sehen, ob sie aufräumen können, was
00:17:30schief gelaufen ist. Und darüber hinaus werden wir sie bitten, ähnlich wie, wieder, bei dem Spiel, das wir sie
00:17:36haben erstellen lassen, einige Three-JS-Elemente zu integrieren, wie, wir wollen wirklich sehen, wie es seine Fähigkeiten bei
00:17:42Dingen wie Bewegung und Grafiken und dergleichen pushen kann. Und dieser neue Prompt sieht so aus: Nehmt
00:17:46die Landing Page für smarte Brillen, die ihr gerade gebaut habt, und baut sie als immersives 3D-Erlebnis neu mit
00:17:51Three.JS. Also wollen wir eine tatsächliche interaktive 3D-Szene. Und wieder geben wir ihr volle Freiheit,
00:17:56sie so auszuführen, wie sie es für passend hält. Und also hier ist, was wir mit Opus 4.8 bekommen haben. Ihr könnt jetzt sehen, dass es
00:18:02einige Three-JS hinzugefügt hat, diese Brillen bewegen sich irgendwie. Aber darüber hinaus haben wir einige der ursprünglichen Probleme,
00:18:08richtig, dass der Text abgeschnitten ist, er hier überschrieben wird. Und der Rest davon ist irgendwie nur
00:18:13man, wie, das ist ziemlich offensichtlich, dass KI dies erstellt hat. Oh, am Rande, wie Token-Kosten
00:18:21waren im zweiten Durchgang durchgehend ziemlich gleich für alle diese. Als nächstes,
00:18:27haben wir GLM 5.2. Und diesmal hat es tatsächlich eine Website erstellt, die Sinn ergibt. Wir haben diese Brillen,
00:18:32obwohl die Brillen, die es gemacht hat, irgendwie wie seltsam sind, wie, ihr habt nur, wisst ihr,
00:18:36keine Brillen würden tatsächlich so aussehen, und der Text ist auch hier abgeschnitten. Aber wir haben ein Banner,
00:18:42das scrollt, wenn ich darüber scrolle, es stoppt. Und ich würde insgesamt sagen, in Bezug auf
00:18:48wie es die Website angelegt hat, würde ich wahrscheinlich ihm den Vorzug vor Opus geben. Nun, ich denke nicht,
00:18:55dass irgendeines von ihnen besonders gut ist. Und wir haben ihnen irgendwie freien Lauf gelassen, zu tun, was sie wollen. Aber
00:18:59ich würde dies über eine Art Setup stellen. Obwohl in Bezug auf den Hero-Abschnitt selbst,
00:19:05mag ich Opus 4.8 lieber. Nun, GPT 5.5, ich denke, ist hier der Gewinner. Ich denke, das sieht einfach insgesamt
00:19:10von einem subjektiven Design-Standpunkt aus besser aus. Und ich denke, die Three-JS-Art von Bewegungs-Grafiken,
00:19:18die es hier hinzugefügt hat, sind ziemlich cool. Ich denke, es ergibt Sinn im Kontext dessen, was es erstellt hat. Wie, wir haben
00:19:22all diesen weißen Raum oben und die Brillen können irgendwie darin leben. Und was den
00:19:27Rest der Website angeht, ich denke, es sieht in Ordnung aus. Wieder, es sieht immer noch sehr nach, in Anführungszeichen,
00:19:32KI-Slop aus, in dem Sinne, dass KI dies definitiv erstellt hat, aber es sieht nicht schlecht aus. Und wie von oben
00:19:37nach unten, bevorzuge ich das, was uns 5.5 gegeben hat, über all die anderen. Und also, wenn wir uns diese ganze
00:19:42Sache ansehen, ganzheitlich diese komplexeren Benchmarks einbringend, wie Deep-Suite neben
00:19:48dem, was wir heute gerade getan haben, denke ich, ist das irgendwie, was wir erwartet haben. Ich denke nicht, dass GLM extrem schlecht
00:19:56in irgendeinem Sinne des Wortes abgeschnitten hat, aber es fühlte sich definitiv an, als wäre es eine Stufe unter GPT 5.5 oder 4.8 oder in
00:20:03Szenarien, wo, ihr wisst schon, in dem ersten Abschnitt, wo Opus besser war als alle von ihnen. Und in
00:20:07dem zweiten Abschnitt, wo GPT besser war als alle von ihnen, war GLM immer nahe am Boden. Es war nicht
00:20:12grob schlechter als irgendeines von ihnen, aber es war sicherlich nicht besser. Und es hat auch unendlich mehr Token verbraucht.
00:20:17Und also wenn wir uns so etwas wie dies ansehen, den Deep-Suite-Score, wo es heißt:
00:20:21Hey, GLM ist irgendwie am Boden und ist tatsächlich weniger effizient als 5.5 und 4.8, sowohl in Bezug auf
00:20:27Kosten als auch darauf, wie gut es abschneidet. Es ergibt irgendwie Sinn. Ich denke, das ist irgendwie, was wir sehen. Also großes
00:20:35Bild, ist GLM ein großartiges Open-Source-Modell? Definitiv. Aber stößt es auf einige Probleme, die Open-Source-
00:20:41Modelle im Allgemeinen haben, nämlich, sie sind nicht so leistungsstark? Ja. Und außerdem, wenn ihr jemand seid, der
00:20:47Open-Source-Maximierung betreibt, versteht, dass dies nichts ist, das ihr auf eurem PC ausführen würdet, richtig? Dies erfordert eine
00:20:52Menge Hardware zu verwenden. Und ich denke, was in der Konversation verloren geht, ist das, worüber wir am Anfang gesprochen haben,
00:20:57was ist, okay, die Kosten sind irgendwie schon ein Problem für GLM 5.2. Doch das nimmt nicht einmal
00:21:05die riesige Subventionierung in Kauf, die ihr entweder im Anthropic Max-Plan oder im OpenAI
00:21:12Max-Plan bekommt. Also behaltet das im Kopf und wie, okay, das ist irgendwie keine Debatte.
00:21:16Es ist wirklich keine Debatte. Also würde ich vorschlagen, GLM 5.2 für eure durchschnittliche Person zu verwenden? Nein,
00:21:24nicht wirklich. Ich denke vielleicht, wenn ihr Aufgaben auf niedrigerem Niveau erledigt und ihr seid jemand, der es
00:21:29rein auf API-Preise vergleicht, vielleicht, vielleicht. Aber es ist, ihr wisst, ich denke, es ist irgendwie schwer zu argumentieren,
00:21:38dass, weil dann was tun wir, wenn das nächste, wenn, ihr wisst schon, Sonnet 5 nächste Woche herauskommt? Wie,
00:21:42springt ihr dann einfach von dort zu dort? Wie, es gibt etwas zu sagen, bei dem Modell zu bleiben, besonders wenn wir
00:21:46mehr auf Unternehmens-Team-Ebene sprechen,
00:21:50wo die API-Kosten wirklich anfangen sich zu summieren. Weil wieder, für den durchschnittlichen einzelnen Benutzer, der
00:21:55einen der subventionierten Pläne verwenden wird und nicht direkt API-Kosten bezahlt, sehe ich kein Argument für
00:22:01GLM 5.2. Also da werde ich euch Leute für heute lassen. Hoffentlich habe ich etwas Licht auf diese
00:22:05ganze GLM-Debatte und all den Hype geworfen, den ihr darum seht. Wie immer, lasst mich wissen, was ihr
00:22:09in den Kommentaren dachtet. Stellt sicher, Chase AI Plus auszuprobieren, wenn ihr eure Hände an die
00:22:13Cloud Code Masterclass bekommen wollt, und wir sehen uns.

Key Takeaway

Obwohl GLM 5.2 als leistungsfähiges Open-Source-Modell vermarktet wird, übertreffen Opus 4.8 und GPT 5.5 das Modell in realen, komplexen Entwicklungsaufgaben bei gleichzeitig höherer Effizienz und besserem visuellen Output.

Highlights

  • GLM 5.2 erreicht im DeepSuite-Benchmark 44 % Korrektheit bei Kosten von 3,92 $pro Aufgabe, während GPT 5.5 bei 67 % und 7,23$ abschneidet.

  • Für die Erstellung eines webbasierten 3D-Rennspiels verbrauchte GLM 5.2 über eine Million Token, im Vergleich zu etwa 100.000 Token bei Claude Code mit Opus 4.8.

  • GLM 5.2 ist kein echtes Open-Source-Modell für den Heimgebrauch, da es fast eine Billion Parameter umfasst und erhebliche Hardware-Ressourcen erfordert.

  • Bei der Gestaltung einer Landing Page für smarte Brillen erzielte GPT 5.5 das visuell ansprechendste Ergebnis, während GLM 5.2 in der ersten Ausführung scheiterte.

  • Trotz niedrigerer Kosten pro Token bleibt die Gesamteffizienz von GLM 5.2 bei komplexen, agentischen Aufgaben hinter Opus 4.8 und GPT 5.5 zurück.

  • Opus 4.8 und GPT 5.5 bieten durch subventionierte Monatspläne für Durchschnittsnutzer ein besseres Preis-Leistungs-Verhältnis als die direkte API-Nutzung von GLM 5.2.

Timeline

Vergleich der Benchmarks und Effizienz

  • DeepSuite zeigt eine Diskrepanz zwischen Modell-Hype und tatsächlicher Leistung in agentischen Aufgaben.
  • Opus 4.8 und GPT 5.5 übertreffen GLM 5.2 in der Erfolgsquote bei komplexen Coding-Aufgaben.
  • Token-basierte Kosten sind irreführend, wenn die Gesamteffizienz zur Erledigung einer Aufgabe betrachtet wird.

Die Analyse von DeepSuite verdeutlicht, dass GLM 5.2 bei der Ausführung von 113 Aufgaben in verschiedenen Programmiersprachen weniger effizient arbeitet. Während GLM 5.2 kostengünstiger pro Token ist, benötigen die Frontier-Modelle Opus 4.8 und GPT 5.5 insgesamt weniger Token, um Aufgaben zu lösen, was die Gesamtkosten pro abgeschlossener Aufgabe senkt. Zudem wird klargestellt, dass GLM 5.2 aufgrund seiner Größe keine lokale Ausführung auf Standard-PCs ermöglicht.

Praxistest: Entwicklung eines 3D-Rennspiels

  • Opus 4.8 liefert im ersten Durchgang die flüssigste Spielmechanik und Grafik.
  • GLM 5.2 zeigt Defizite bei der Physiksteuerung und der visuellen Differenzierung von Spielelementen.
  • GPT 5.5 benötigt für ähnliche Ergebnisse deutlich mehr Zeit und produziert teils fehlerhafte Geometrien wie falsch drehende Räder.

Die Modelle erhielten die Aufgabe, ein 3D-Rennspiel im Browser zu erstellen. Opus 4.8 überzeugte durch eine schnelle Umsetzung und saubere Physik, während GLM 5.2 trotz eines Token-Verbrauchs von über einer Million eine sprunghafte Steuerung und geringe Detailtiefe aufwies. Ein zweiter Durchgang verbesserte zwar das Auto-Design, konnte jedoch die grundlegenden Probleme der anderen Modelle kaum ausgleichen.

Design-Leistung bei Web-Landing-Pages

  • GPT 5.5 liefert bei der Erstellung einer Landing Page das visuell konsistenteste Design.
  • GLM 5.2 scheitert in der ersten Runde der Webseiten-Erstellung fast vollständig.
  • Opus 4.8 zeigt gute Ansätze, leidet aber unter Platzierungsproblemen des Inhalts.

Beim Test, eine Landing Page für smarte Brillen mit Award-ähnlichem Design zu erstellen, zeigte sich die Überlegenheit von GPT 5.5, besonders bei der Integration von Three.js für 3D-Elemente. GLM 5.2 bot ein instabiles Ergebnis, das kaum funktionale UI-Standards erfüllte. Abschließend wird festgehalten, dass für den durchschnittlichen Nutzer die Nutzung der etablierten, subventionierten Pläne von OpenAI oder Anthropic aufgrund der überlegenen Ergebnisse sinnvoller ist als der Umstieg auf GLM 5.2.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video