Transcript
00:00:00GLM 5.2 kam erst diese Woche heraus und es ist das stärkste Open-Source-Modell, das wir je
00:00:04gesehen haben. Und einige Benchmarks, wie ihr hier seht, zeigen sogar, dass dieses Modell die Giganten
00:00:10wie Anthropics Opus 4.8 und OpenAIs 5.5 übertrifft. Aber sind diese Benchmarks legitim? Wie schneidet dieses Modell
00:00:18im direkten Vergleich mit Opus 4.8 und GPT 5.5 ab? Nun, genau das werden wir
00:00:25im heutigen Video beantworten, indem ich mehrere Tests mit diesen drei großen Modellen durchführe und sehe,
00:00:31wie es tatsächlich in der realen Welt abschneidet. Darüber hinaus werden wir einen Deep Dive in einen
00:00:35Benchmark im Besonderen machen, den ich für ziemlich wichtig halte, und aufschlüsseln, was wir eigentlich
00:00:40damit meinen, dass GLM 5.2 in einigen Fällen besser ist als Opus und GPT 5.5. Sprechen wir davon,
00:00:47dass es effizienter ist, weniger kostet oder dass es tatsächlich all diese Dinge gleichzeitig besser macht?
00:00:51Also ohne weitere Umschweife, legen wir einfach los. Nun, bevor wir uns in den Direktvergleich
00:00:56stürzen, schauen wir uns zunächst einige der bestehenden Benchmarks an, die diese
00:00:59drei Modelle vergleichen. Der eine, auf den ich wirklich achten möchte, ist DeepSuite. Nun, DeepSuite ist
00:01:04ein relativ neuer Benchmark, und er soll eine Verbesserung gegenüber Dingen wie Terminal
00:01:08Bench und Terminal Bench Pro sein. Ich werde nicht ultra tief in diesen Benchmark eintauchen, ihr
00:01:12Sie können sich deren Website oder GitHub-Repo ansehen, wo es genauer erklärt wird. Aber es konzentriert
00:01:17auf langlaufende agentische Aufgaben, spezifisch 113 Aufgaben in TypeScript, Go, Python, JavaScript,
00:01:23und Rust mit isolierten Umgebungen und programmgestützten Verifizierern. Und hier auf dieser Grafik sehen wir
00:01:29die Punktzahl, den Prozentsatz der richtigen Antworten auf der linken Seite, sowie die durchschnittlichen Kosten
00:01:34pro Aufgabe. Nun, wir wollen nach oben rechts. Der effizienteste Bereich ist hier oben
00:01:39rechts. Dort bekommen wir die höchste Punktzahl bei den niedrigsten Kosten. Und wir können hier sehen, dass GLM 5.2
00:01:44Max uns 44% bei 3,92 $ pro Aufgabe liefert. Wenn wir das mit Opus 4.8 und GPT 5.5 vergleichen, sehen wir,
00:01:55dass sie viel besser abschneiden. Bei Max erreicht Opus 4.8 59% und 5.5 erreicht 67% bei Extra High. Offensichtlich,
00:02:04haben wir bei Extra High und Max ziemlich hohe Kosten. Für GPT 5.5 sind es 7,23 $. 13 $ für Opus,
00:02:12und bei GLM sind es 3,92 $. Also viel billiger. Wenn wir uns jedoch verschiedene Anstrengungsstufen ansehen,
00:02:19bei 5.5 und bei Opus, wenn wir zum Beispiel bei Medium sind, erreichen wir mit Opus 4.8
00:02:25eine höhere Punktzahl als mit GLM 5.2, und wir sind weniger teuer. Also 49% bei 3,44 $gegenüber 44% bei 3,92$. Und das ist
00:02:36signifikant bei 5.5 mit 54% bei 2,75 $gegenüber 44% bei 3,92$. Also gleich zu Beginn, bei diesem Benchmark,
00:02:47wenn wir ihn für bare Münze nehmen, sind 4.8 und 5.5 eine Stufe über GLM 5.2. Und das ist nicht überraschend. Das sind
00:02:55die besten der besten Frontier-Modelle. Sie sind nicht Open Source. Und wenn wir wirklich Vollgas
00:03:01geben, werden sie GLM 5.2 bei diesen langwierigen Aufgaben ziemlich überflügeln,
00:03:07das ist irgendwie zu erwarten. Was ihr vielleicht nicht erwartet habt, ist die Tatsache, dass es für weniger Geld besser sein kann,
00:03:11was irgendwie ein Problem ist. Und ich möchte das einfach nur mal erwähnen, weil ich weiß, dass es gerade viel
00:03:16Gerede und viel Hype um GLM 5.2 gibt und die Tatsache, dass es Open Source ist. Und ihr wisst,
00:03:21das impliziert sofort irgendwie: Oh, es ist super, super billig. Und wir können wirklich gute Dinge tun.
00:03:25Nun, ich meine, nach den Zahlen ist es gut, aber es ist basierend auf diesem Benchmark nicht 4.8 oder 5.5. Und denkt daran,
00:03:33diese 4.8- und 5.5-Zahlen basieren auf API-Kosten. Wenn ich im Max-Plan bin, ist es etwa 10-mal billiger als
00:03:40das. Dasselbe gilt, wenn ich einfach nur im 100-$-Monats-Plan oder 200-$-Monats-Plan von OpenAI bin. Also
00:03:46ist das eine weitere Sache, die man berücksichtigen muss. Also wollte ich nur mal die Bremse ziehen bei all diesem
00:03:50Gerede, dass GLM viel billiger ist, weil das irgendwie nicht der Fall ist. Und obwohl es Open Source ist,
00:03:56GLM 5.2, das Open-Source-Modell, das diese Zahlen erreicht, das ist nicht Open Source. Wie, ihr könnt
00:04:01es einfach nicht auf euren Computer herunterladen. Es ist Open Source in dem Sinne, dass ihr den Code sehen könnt,
00:04:05ihr könnt die Gewichte sehen. Es ist nicht Open Source in dem Sinne von: Oh nein, es ist einfach, ich kann es einfach
00:04:09auf OLAMA holen. Ich kann es auf meinem persönlichen PC ausführen. Nein, könnt ihr nicht. Nein, könnt ihr nicht. Das sind fast eine
00:04:14Billion Parameter. Das erfordert eine Menge Hardware zum Ausführen. Also lasst euch nicht verwirren, weil ich weiß,
00:04:20dass es einen Teil der Bevölkerung gibt, der das tut, aber das ist nur, um den Rahmen zu setzen. Und noch einmal,
00:04:24das ist bei Deep-Suite-Sachen. Das sind sehr intensive Aufgaben, die gestellt werden. Und
00:04:30heute werden wir ein paar verschiedene Tests machen, die ein wenig niedriger angesiedelt sind und die
00:04:35wahrscheinlich eher eine Reflexion dessen sind, was ihr, der durchschnittliche Benutzer, ausführt. Also etwas, das man im Kopf
00:04:39behalten sollte. Und nur damit wir alle auf derselben Seite sind, das ist, was wir uns in Bezug auf die Kosten
00:04:44pro Token ansehen. Denkt daran, der Grund, warum es für Opus 4.8 und 5.5 billiger war, ist, dass es einfach viel weniger
00:04:50Token verbraucht hat, um das zu tun, was es tun musste. Es war letztendlich effizienter, aber auf Token-Basis.
00:04:55Und denkt daran, für Eingabe und Ausgabe, dies ist pro Million Token, GLM 5.2, 1,40 $ für die Eingabe,
00:05:014,40 $ für die Ausgabe. Und Opus 4.8 ist 5,7-mal teurer. Und 5.5 von GPT ist 6,8-mal
00:05:10teurer. Also auf Token-Basis viel billiger. Aber denkt daran, uns geht es um die Ergebnisse für eine Aufgabe,
00:05:16nicht notwendigerweise um einen Eins-zu-eins-Token-Vergleich. Und jetzt, bevor wir zu den eigentlichen Tests springen,
00:05:21ein kurzes Wort vom Sponsor des heutigen Tages, mir. Also habe ich gerade meine Cloud Code Masterclass innerhalb von
00:05:26Chase AI Plus veröffentlicht und es ist der beste Weg, um vom Nullpunkt zum KI-Entwickler zu werden, besonders wenn ihr nicht
00:05:30aus einem technischen Hintergrund kommt. Ich aktualisiere das jede Woche und es enthält auch Masterclasses für Codecs
00:05:35und für das Erstellen eures eigenen agentischen Betriebssystems. Wenn das also etwas ist, worüber ihr mehr erfahren wollt und ihr
00:05:40nicht sicher seid, wo ihr anfangen sollt, ist Chase AI Plus der richtige Ort für euch. Es gibt einen Link dazu in den angepinnten Kommentaren.
00:05:46Also hier ist, wie wir diesen Test durchführen werden. Wir werden jedem einzelnen Modell denselben
00:05:49Prompt und Plan-Modus geben. Es wird uns den Plan geben. Wir werden vielleicht etwas hin und her gehen,
00:05:53abhängig davon, was wir von dem Plan halten, den es sich ausgedacht hat. Und danach lassen wir es ausführen.
00:05:58Nachdem es ausgeführt wurde, werde ich meine extrem subjektiven Bewertungskriterien auf das Endergebnis anwenden und euch mitteilen,
00:06:03welches mir am besten gefällt. Wenn ihr meine Bewertungskriterien nicht mögt oder das, was ich für am besten halte, stellt sicher,
00:06:08einen Kommentar zu hinterlassen. Ich werde auch sicherstellen, euren Kommentar zu löschen. Nun, hier auf der linken Seite haben wir
00:06:14GPT 5.5 innerhalb von Codex auf Extra High. Wir haben OpenCode in der Mitte, das GLM 5.2 auf Extra High ausführt,
00:06:21geroutet über OpenRouter. Und hier auf der rechten Seite haben wir Cloud Code, das Opus 4.8
00:06:26auf High ausführt. Nun, warum habe ich diese speziellen Einstellungen für die Anstrengung gewählt? Weil das die Art ist, wie die meisten Leute
00:06:32diese im wirklichen Leben nutzen. Und die Chancen stehen gut, dass ihr entweder im Max-Plan seid oder ihr seid in irgendeiner Art
00:06:37von Open AI-Plan und ihr führt es wahrscheinlich nicht auf Medium aus. Seien wir ehrlich. Also ich denke, das ist eine
00:06:42bessere Reflexion dessen, wie euer durchschnittlicher Benutzer diese Modelle tatsächlich Tag für Tag nutzt.
00:06:47Also für unseren ersten Prompt werden wir es ein spielbares 3D-Rennspiel bauen lassen, das im
00:06:51Browser läuft. Und wichtig ist, wir halten diesen Prompt etwas vage. Ich sage, ihr habt volle Freiheit,
00:06:56ins Web zu gehen und euch den Stack und die Bibliothek auszusuchen, von denen ihr denkt, dass sie am besten sind, um das auszuführen. Und so
00:07:02lass uns das mal ausführen und sehen, was passiert. Wir haben also alle drei Modelle im Plan-Modus laufen.
00:07:08Und noch einmal, der Gedanke dahinter, den Prompt etwas vage zu machen, ist, dass wir so viel
00:07:12Divergenz wie möglich von diesen Modellen sehen wollen. Wenn ich den genauen Fahrplan gegeben hätte, wie man jede einzelne Sache macht,
00:07:18nun, dann bekommen wir wirklich nicht zu sehen, wie diese Modelle denken und wie sie an eher
00:07:23messy Probleme herangehen. Also nach 13 Minuten war Opus 4.8 das erste, das fertig war, das Rennspiel zu erstellen.
00:07:29Also schauen wir uns an, was es gemacht hat. Hier sind wir also, etwas Low Poly. Es hat tatsächlich
00:07:37etwas Sound dabei. Läuft ziemlich flüssig. Sieht so aus, als hätten wir auch die Möglichkeit, hier zu driften.
00:07:44Okay, das Gras beeinträchtigt eigentlich irgendwie, wie die Physik funktioniert. Insgesamt, irgendwie ziemlich flüssig, aber wisst ihr,
00:07:54ziemlich langweilige Rennstrecke. Nichts Verrücktes, hat keine Art von KI oder so etwas hinzugefügt.
00:07:59Also bin ich gespannt zu sehen, wie die anderen Modelle in Bezug auf Komplexität abschneiden, und was ich wahrscheinlich
00:08:04nach diesem ersten Test tun werde, falls diese alle nur so eine Art fade Vision sind. Wir werden es wahrscheinlich
00:08:09mit einem weiteren Prompt versuchen, der den Einsatz erhöht. Als nächstes ist
00:08:13GLM 5.2. Es dauerte etwa fünf Minuten länger als Cloud Code. Zur Referenz, GPT 5.5 arbeitet immer noch,
00:08:20was mich nicht allzu sehr überrascht. Es neigt dazu, etwas langsamer zu sein. Im Hinblick auf den Token-Vergleich,
00:08:26hat Claude Code etwa 100.000 Token verwendet, um das zu erstellen. Und GLM 5.2 brauchte über eine Million. Und wir können einen Blick
00:08:33innerhalb von Open Router für diesen Durchlauf werfen, wo die Gesamtausgabe 1,21 $ betrug. Und das Gesamtvolumen der Token betrug 1,35
00:08:41Millionen, um dieses Spiel zu erstellen. Also gleich interessant, was für eine Strecke wir hier haben.
00:08:48Die Steuerung ist im Vergleich zu dem, was wir mit Claude Code hatten, ziemlich sprunghaft. Wie, ich bewege mich
00:08:53sehr schnell im Verhältnis zur Strecke selbst. Sehr schnell. Wie, ich rase hier durch. Und wir sind auch so
00:09:00etwas wie, es gibt keine wirkliche Differenzierung zwischen der Strecke und dem Feld selbst. Und in
00:09:09bestimmten Fällen war ich in der Lage, fast, wie ihr da gesehen habt, durch die Strecke zu fahren, aber nicht wirklich.
00:09:15Also ist auch das Auto selbst etwas weniger detailliert als das, was wir innerhalb von Claude Code gesehen haben. Ich meine,
00:09:23also es gibt eine Strecke, es hat einen Timer. In Bezug auf das tatsächliche Gameplay, ein wenig hölzern für das, was
00:09:30es ist, nicht annähernd so flüssig. Und auch hier, wieder mit der Low-Poly-Situation wie bei
00:09:36Opus. Und also würde ich gerne sehen, was es tut, wenn wir ihm sagen, es soll wirklich etwas erstellen, das
00:09:40besser aussieht. Und auch diese Strecke selbst ergibt eigentlich nicht allzu viel Sinn. Also jetzt schauen wir uns an,
00:09:44was GPT 5.5 erstellt hat. Es nennt es den Foundry Circuit, das Night Shift Time Trial, drei Runden
00:09:50durch das Stahlwerk. Also etwas anderes, schätze ich, als die generische Strecke, die wir in den
00:09:54letzten beiden gesehen haben. Also lass uns das starten. Und los geht's. Nun, ich weiß eigentlich nicht, wohin ich
00:10:04hin soll. Oh, ich schätze, das ist die Strecke. Die Räder sehen irgendwie interessant aus. Sie drehen sich irgendwie
00:10:10falsch herum. Also das ist etwas. Okay, es hat irgendwie sehr nervige Geräusche, tatsächlich.
00:10:21Und ich komme irgendwie nicht darüber hinweg, dass die Räder horizontal fahren, oder wie auch immer man das beschreiben würde.
00:10:28Die Strecke selbst ist in Ordnung, kann sich irgendwie bewegen. Ja, man kann über die Strecke hinausfahren und es verlangsamt dich. Aber es ist nicht
00:10:35klar, dass dies eine gepflasterte Strecke ist, wie wir es bei dem sahen, was Opus gebaut hat. Und wie der Rest ist,
00:10:41wisst ihr, das Feld. Also irgendwie seltsame Grafiken, ehrlich gesagt. Auch, wenn man bedenkt,
00:10:48die Tatsache, dass es doppelt so lange wie Opus dauert, ist irgendwie seltsam. Ja, ehrlich gesagt, irgendwie seltsam. Wieder,
00:10:55wie, warum hat es das bei den Rädern gemacht? Ich habe keine Ahnung. Wieder, ging für das Low-Poly-Ding.
00:11:00Und es ist einfach irgendwie sehr dunkel, aus scheinbar keinem Grund. Also ich meine, wie, ich habe fast, ich habe das Gefühl,
00:11:06dass dies funktionaler ist als das, was wir mit GLM 5.2 bekommen haben, aber wie, nicht viel besser. Und ihr auch
00:11:12berücksichtigt die Tatsache, dass dies auf Extra High bei 5.5 war. Nun, in Bezug auf den Token-Verbrauch für 5.5,
00:11:17kam es ungefähr auf das heraus, was wir mit Claude Code gesehen haben. Es hat 7% seines Fünf-Stunden-Fensters verwendet. Also fast
00:11:22nichts. Nun, im Gesamtranking hätte ich Opus 4.8 eindeutig vor GLM 5.2 und 5.5 platziert. Ich dachte,
00:11:28die letzten beiden waren irgendwie hölzern, aber wir werden ihnen tatsächlich noch eine Chance geben, weil
00:11:32wir ihnen sagen werden, sie sollen sich den Code noch einmal ansehen, noch einen Durchgang machen. Und wir wollen auch,
00:11:36dass sie viel besser abschneiden in Bezug auf die Grafiken. Ich möchte nicht die Low-Poly-Sachen. Ich möchte, dass das aussieht
00:11:40wie ein AAA-Spiel oder so nah wie möglich daran. Also lass uns sehen, was passiert, wenn wir ihnen
00:11:46Versuch Nummer zwei geben. Also haben Opus und GLM ihren zweiten Durchgang beendet und 5.5 ist dort fertig geworden. Also
00:11:50werfen wir zuerst einen Blick auf Opus 4.8. Also gleich sehen wir ein Auto, das viel besser ist. Wie, das ist ein riesiger
00:11:58Fortschritt in Bezug auf das Auto als das, was wir vorher gesehen haben. Wir sehen auch eine Menge anderer Beleuchtung.
00:12:04Wie, ihr könnt die Sonne sehen, die sich auf dem Boden selbst reflektiert und alles sieht viel glatter aus. Ich meine,
00:12:10die Bäume selbst sind so etwas wie Low-Polygon-Dinger, aber die Beleuchtung und besonders das Auto
00:12:15sind ein bedeutender Schritt nach vorne. Und es behält irgendwie immer noch dieselbe flüssige Spielweise bei. Ich meine, abgesehen von der
00:12:20Tatsache, dass wir Bäume auf der Straße haben, aber die Bäume selbst sind auch beschattet. Und für einen zusätzlichen
00:12:26Durchgang, der 10 Minuten und etwa 50.000 Token dauerte, nicht schlecht. Nun schauen wir uns GLM an. Und an diesem Punkt
00:12:32dauerte es etwa weitere 1,2 oder so Millionen Token, um dieses Update zu machen, was unsere Gesamtausgabe auf 1,83 $ brachte.
00:12:38Also lass uns das starten. Und es sieht so aus, als hätte es versucht, eine Art von anderer Beleuchtung hinzuzufügen. Das Auto sieht
00:12:46ein bisschen besser aus, aber die Beleuchtung selbst ist irgendwie seltsam. Wie, es ist einfach sehr blendend. Die Strecke
00:12:52selbst hat sich nicht viel verändert. Ihr wisst, es ist immer noch irgendwie einfach überall Gras. Und die
00:12:57Steuerung ist immer noch sehr sprunghaft, richtig? Wie, ich fahre sehr schnell im Verhältnis zur Strecke. Dieselbe Art von Problem,
00:13:04das ich vorher hatte, wo ich wie durch einen Teil der Strecke fahren kann, durch einen Teil nicht. Also ich meine,
00:13:10die Grafiken für das Auto sehen besser aus, aber ich würde argumentieren, die Beleuchtung und die Blendung ist so ablenkend.
00:13:15Es ist wahrscheinlich eine Art Downgrade gegenüber dem, was wir vorher hatten. Und hier ist der zweite Durchgang mit 5.5. Nun
00:13:21sieht das Auto ein bisschen besser aus, aber alles andere betrachtend, ist dies irgendwie das Gleiche. Nun,
00:13:29die Räder sind besser. Wir haben das Räderproblem behoben. Sie drehen sich tatsächlich so, wie sich Räder drehen sollten,
00:13:34aber haben immer noch nervige Geräusche. Und es gibt wieder keine wirkliche Differenzierung zwischen dem Pfad
00:13:42und dem Gras. Also fühlt es sich irgendwie wie genau dasselbe an, das es beim ersten Mal getan hat, mit einem
00:13:49etwas besseren Auto. Aber ihr wisst, wenn wir ihm sagten, geh für eine AAA-Ästhetik, würde ich nicht sagen, es
00:13:55hat ins Schwarze getroffen. Und wieder, ich habe das Gefühl, großes Bild. Wir betrachten diese drei GM und 5.5, definitiv eine Stufe
00:14:02unter Opus. Nun für unseren nächsten Test werden wir es eine Website bauen lassen. Und der Prompt, den wir
00:14:07verwenden werden, ist dieser. Wir wollen, dass es eine gefälschte Landing Page für ein Produkt baut, das KI-gestützte
00:14:12smarte Brillen ist. Denkt an etwas wie Meta Ray-Bans. Wieder, wir geben diesen Modellen volle Freiheit in
00:14:16Bezug auf den Stack und das Design. Wir sagen ihnen, sie sollen sich aussuchen, was sie für das Beste halten, installieren, was wir
00:14:20brauchen, und nach den besten Praktiken für das Erstellen von Landing Pages suchen. Wir sagen ihnen: Hey, geht voran und findet
00:14:25Bilder und Produktaufnahmen. Und verlasst euch nicht nur auf das Erstellen eurer eigenen Art von HTML-Sachen. Und wichtig ist,
00:14:31wir sagen: Lasst es wie eine Award-Site aussehen. Wir wollen nicht, dass es wie KI-Slop aussieht. Wir wollen echte
00:14:35visuelle Hierarchie, beabsichtigte Typografie und Bewegung, wo es Sinn ergibt. Also Landing Page für smarte
00:14:42Brillen, wir wollen, dass es so etwas wie einen Award-Stil hat. Also lasst uns sehen, was sie sich ausdenken. Also alle drei
00:14:46von ihnen sind fertig geworden. Zur Referenz, GLM hat etwa eine Million Token verwendet, um dies auszuführen, während Opus und 5.5
00:14:53etwa hunderttausend verwendet haben, mehr oder weniger. Also zuerst haben wir das, was Opus für uns gebaut hat: sehr dunkler Hintergrund.
00:14:58Es hat so etwas wie diese Brillen, die es erstellt hat, und der Text ist genau hier irgendwie abgeschnitten, was
00:15:04bedauerlich ist. Während wir nach unten scrollen, ist dies auch irgendwie seltsam platziert, weil wir den Scroll-Text
00:15:12irgendwie über dem Ganzen sehen können. Aber wenn ich mit der Maus darüber fahre, könnt ihr sehen, wie es sich irgendwie bewegt
00:15:18und die Farbe ändert, was irgendwie cool ist. Während ich nach unten scrolle, haben wir einige scrollende Arten von Ladeanimationen
00:15:24für alles. Aber alles in allem sieht es für die Brillen selbst, die HTML verwenden, in Ordnung aus.
00:15:31Also es ist wie, was bekommt ihr eigentlich davon? Es hat nicht einmal versucht, irgendwelche Brillen
00:15:35zu finden, die man verwenden kann. Und es hat, ihr wisst schon, hey, hier ist, wie ihr sie reservieren könnt und hier ist, wie ihr sie kaufen könnt. Also
00:15:41ist es in Ordnung. Wieder, wir haben ihm nicht eine Menge Anweisungen gegeben, aber wir sagten ihm, geht auf so etwas wie einen Award-
00:15:45Typ Look. Ich würde es nicht auf diesem Niveau betrachten. Nun lasst uns einen Blick auf das werfen, was GLM für uns gebaut hat.
00:15:51Und ich weiß eigentlich überhaupt nicht, was hier los ist. Tatsächlich ist dies irgendwie wie kaum geladen.
00:15:59Es zeigt uns einige Brillen, aber wie diese Website ist irgendwie wie ein Desaster. Es ist, als hätte es nicht einmal
00:16:04wirklich beendet. Es hat es fast einfach alles zusammengeworfen. Ja. Ja, der Prompt war nicht super
00:16:13detailliert, aber es sollte in der Lage sein, mehr als das zu tun, basierend auf dem, was ich ihm gegeben habe. Das ist wie tatsächlich
00:16:19schrecklich. Ich habe keine Ahnung, was es eigentlich hier zu erreichen versuchte. Und zuletzt haben wir GPT 5.5. Also
00:16:25das ist ein bisschen interessant. Ich denke, es sieht irgendwie cool aus, obwohl die Brillen
00:16:30etwas den Text hier überlappen. Und wir haben viel toten Raum, was man argumentieren könnte, dass das
00:16:34etwas von einer Designentscheidung ist. Und wir haben das Banner, das sich tatsächlich bewegt, ihr erinnert euch, das
00:16:39Opus-Version hatte ein Banner, aber es hat sich nicht bewegt. Und dann, während wir nach unten scrollen, werdet ihr auch bemerken, dass der
00:16:44Cursor irgendwie wie mehrfarbig ist. Und während wir nach unten scrollen, sieht es so aus, als hätte es einige HTML-
00:16:50Art Assets erstellt. Ich meine, seltsam, richtig? Wir haben ihm gesagt, hey, ihr könnt online gehen und finden, was ihr finden müsst,
00:16:55wenn ihr wollt. Aber insgesamt wahrscheinlich das beste aus der Gruppe. Aber ihr wisst, ich würde nicht sagen, ich war verliebt
00:17:04in irgendeines davon, zeigt euch irgendwie, wie eine starke Hand ihr führen müsst, wenn ihr irgendeine Art
00:17:09von visuellem Design oder UI-Sachen macht, wie sogar diese fortschrittlichsten Modelle kämpfen, wie,
00:17:14ich habe tatsächlich keine Ahnung, was zum Teufel hier los ist. Also insgesamt war Opus
00:17:21in Ordnung. 5.5 war das beste des Haufens und GLM war wie tatsächlich ein komplettes Versagen. Und genau wie wir es mit
00:17:26der Gaming-Version getan haben, werden wir ihnen einen zweiten Durchgang bei diesem geben und sehen, ob sie aufräumen können, was
00:17:30schief gelaufen ist. Und darüber hinaus werden wir sie bitten, ähnlich wie, wieder, bei dem Spiel, das wir sie
00:17:36haben erstellen lassen, einige Three-JS-Elemente zu integrieren, wie, wir wollen wirklich sehen, wie es seine Fähigkeiten bei
00:17:42Dingen wie Bewegung und Grafiken und dergleichen pushen kann. Und dieser neue Prompt sieht so aus: Nehmt
00:17:46die Landing Page für smarte Brillen, die ihr gerade gebaut habt, und baut sie als immersives 3D-Erlebnis neu mit
00:17:51Three.JS. Also wollen wir eine tatsächliche interaktive 3D-Szene. Und wieder geben wir ihr volle Freiheit,
00:17:56sie so auszuführen, wie sie es für passend hält. Und also hier ist, was wir mit Opus 4.8 bekommen haben. Ihr könnt jetzt sehen, dass es
00:18:02einige Three-JS hinzugefügt hat, diese Brillen bewegen sich irgendwie. Aber darüber hinaus haben wir einige der ursprünglichen Probleme,
00:18:08richtig, dass der Text abgeschnitten ist, er hier überschrieben wird. Und der Rest davon ist irgendwie nur
00:18:13man, wie, das ist ziemlich offensichtlich, dass KI dies erstellt hat. Oh, am Rande, wie Token-Kosten
00:18:21waren im zweiten Durchgang durchgehend ziemlich gleich für alle diese. Als nächstes,
00:18:27haben wir GLM 5.2. Und diesmal hat es tatsächlich eine Website erstellt, die Sinn ergibt. Wir haben diese Brillen,
00:18:32obwohl die Brillen, die es gemacht hat, irgendwie wie seltsam sind, wie, ihr habt nur, wisst ihr,
00:18:36keine Brillen würden tatsächlich so aussehen, und der Text ist auch hier abgeschnitten. Aber wir haben ein Banner,
00:18:42das scrollt, wenn ich darüber scrolle, es stoppt. Und ich würde insgesamt sagen, in Bezug auf
00:18:48wie es die Website angelegt hat, würde ich wahrscheinlich ihm den Vorzug vor Opus geben. Nun, ich denke nicht,
00:18:55dass irgendeines von ihnen besonders gut ist. Und wir haben ihnen irgendwie freien Lauf gelassen, zu tun, was sie wollen. Aber
00:18:59ich würde dies über eine Art Setup stellen. Obwohl in Bezug auf den Hero-Abschnitt selbst,
00:19:05mag ich Opus 4.8 lieber. Nun, GPT 5.5, ich denke, ist hier der Gewinner. Ich denke, das sieht einfach insgesamt
00:19:10von einem subjektiven Design-Standpunkt aus besser aus. Und ich denke, die Three-JS-Art von Bewegungs-Grafiken,
00:19:18die es hier hinzugefügt hat, sind ziemlich cool. Ich denke, es ergibt Sinn im Kontext dessen, was es erstellt hat. Wie, wir haben
00:19:22all diesen weißen Raum oben und die Brillen können irgendwie darin leben. Und was den
00:19:27Rest der Website angeht, ich denke, es sieht in Ordnung aus. Wieder, es sieht immer noch sehr nach, in Anführungszeichen,
00:19:32KI-Slop aus, in dem Sinne, dass KI dies definitiv erstellt hat, aber es sieht nicht schlecht aus. Und wie von oben
00:19:37nach unten, bevorzuge ich das, was uns 5.5 gegeben hat, über all die anderen. Und also, wenn wir uns diese ganze
00:19:42Sache ansehen, ganzheitlich diese komplexeren Benchmarks einbringend, wie Deep-Suite neben
00:19:48dem, was wir heute gerade getan haben, denke ich, ist das irgendwie, was wir erwartet haben. Ich denke nicht, dass GLM extrem schlecht
00:19:56in irgendeinem Sinne des Wortes abgeschnitten hat, aber es fühlte sich definitiv an, als wäre es eine Stufe unter GPT 5.5 oder 4.8 oder in
00:20:03Szenarien, wo, ihr wisst schon, in dem ersten Abschnitt, wo Opus besser war als alle von ihnen. Und in
00:20:07dem zweiten Abschnitt, wo GPT besser war als alle von ihnen, war GLM immer nahe am Boden. Es war nicht
00:20:12grob schlechter als irgendeines von ihnen, aber es war sicherlich nicht besser. Und es hat auch unendlich mehr Token verbraucht.
00:20:17Und also wenn wir uns so etwas wie dies ansehen, den Deep-Suite-Score, wo es heißt:
00:20:21Hey, GLM ist irgendwie am Boden und ist tatsächlich weniger effizient als 5.5 und 4.8, sowohl in Bezug auf
00:20:27Kosten als auch darauf, wie gut es abschneidet. Es ergibt irgendwie Sinn. Ich denke, das ist irgendwie, was wir sehen. Also großes
00:20:35Bild, ist GLM ein großartiges Open-Source-Modell? Definitiv. Aber stößt es auf einige Probleme, die Open-Source-
00:20:41Modelle im Allgemeinen haben, nämlich, sie sind nicht so leistungsstark? Ja. Und außerdem, wenn ihr jemand seid, der
00:20:47Open-Source-Maximierung betreibt, versteht, dass dies nichts ist, das ihr auf eurem PC ausführen würdet, richtig? Dies erfordert eine
00:20:52Menge Hardware zu verwenden. Und ich denke, was in der Konversation verloren geht, ist das, worüber wir am Anfang gesprochen haben,
00:20:57was ist, okay, die Kosten sind irgendwie schon ein Problem für GLM 5.2. Doch das nimmt nicht einmal
00:21:05die riesige Subventionierung in Kauf, die ihr entweder im Anthropic Max-Plan oder im OpenAI
00:21:12Max-Plan bekommt. Also behaltet das im Kopf und wie, okay, das ist irgendwie keine Debatte.
00:21:16Es ist wirklich keine Debatte. Also würde ich vorschlagen, GLM 5.2 für eure durchschnittliche Person zu verwenden? Nein,
00:21:24nicht wirklich. Ich denke vielleicht, wenn ihr Aufgaben auf niedrigerem Niveau erledigt und ihr seid jemand, der es
00:21:29rein auf API-Preise vergleicht, vielleicht, vielleicht. Aber es ist, ihr wisst, ich denke, es ist irgendwie schwer zu argumentieren,
00:21:38dass, weil dann was tun wir, wenn das nächste, wenn, ihr wisst schon, Sonnet 5 nächste Woche herauskommt? Wie,
00:21:42springt ihr dann einfach von dort zu dort? Wie, es gibt etwas zu sagen, bei dem Modell zu bleiben, besonders wenn wir
00:21:46mehr auf Unternehmens-Team-Ebene sprechen,
00:21:50wo die API-Kosten wirklich anfangen sich zu summieren. Weil wieder, für den durchschnittlichen einzelnen Benutzer, der
00:21:55einen der subventionierten Pläne verwenden wird und nicht direkt API-Kosten bezahlt, sehe ich kein Argument für
00:22:01GLM 5.2. Also da werde ich euch Leute für heute lassen. Hoffentlich habe ich etwas Licht auf diese
00:22:05ganze GLM-Debatte und all den Hype geworfen, den ihr darum seht. Wie immer, lasst mich wissen, was ihr
00:22:09in den Kommentaren dachtet. Stellt sicher, Chase AI Plus auszuprobieren, wenn ihr eure Hände an die
00:22:13Cloud Code Masterclass bekommen wollt, und wir sehen uns.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video