Ich habe DeepSeek V4 vs. Claude Code vs. Codex getestet
CChase AI
Computing/SoftwareInternet Technology
Transcript
00:00:00In den letzten 24 Stunden gab es riesige Updates
00:00:02für zwei der größten KI-Modelle der Welt.
00:00:04Zuerst erschien GPT 5.5,
00:00:07das mit bestimmten Benchmark-Werten aufwartet,
00:00:10die Claudes Mythos übertreffen.
00:00:12Zweitens gab es die Veröffentlichung von DeepSeek V4,
00:00:15ein Open-Source-Modell mit offenen Gewichten,
00:00:18das Benchmarks hat, die mit den großen Vorreitern mithalten.
00:00:22Angesichts all dieser neuen Modelle zur Auswahl,
00:00:24was soll man als Durchschnittsnutzer tun?
00:00:27Nun, heute helfe ich dir, diese Frage zu beantworten,
00:00:29indem ich Opus 4.7, GPT 5.5
00:00:33und DeepSeek V4 gegeneinander antreten lasse,
00:00:36damit du sehen kannst, welches für dich sinnvoll ist.
00:00:39Bevor wir diesen direkten Vergleich starten
00:00:41zwischen GPT 5.5 in Codecs,
00:00:45DeepSeek V4 in Open Code,
00:00:47und Opus 4.7 in Claude Code,
00:00:51werfen wir zuerst einen kurzen Blick auf die Benchmarks,
00:00:53besonders bei diesen zwei neuesten Modellen,
00:00:54die in den letzten 24 Stunden veröffentlicht wurden.
00:00:56Lass uns zuerst über die Kosten sprechen.
00:00:58DeepSeek V4 ist, wie du weißt,
00:01:00ein Open-Source-Modell mit offenen Gewichten,
00:01:01aber das bedeutet nicht, dass du es auf deinem Computer ausführen kannst,
00:01:04denn dieses Ding ist riesig.
00:01:05Ich spreche von 1,6 Billionen Parametern.
00:01:08Du brauchst ernsthafte Hardware, um das zu betreiben.
00:01:10Also müssen wir immer noch dafür bezahlen.
00:01:11Wir werden immer noch die API nutzen müssen,
00:01:13aber es ist unendlich viel günstiger als die Konkurrenz,
00:01:15etwa achtmal günstiger.
00:01:18Und von den drei Modellen
00:01:19ist das brandneue GPT 5.5 tatsächlich das teuerste,
00:01:22was irgendwie überraschend ist, da OpenAI im Großen und Ganzen
00:01:24günstiger war als die Anthropic-Konkurrenz.
00:01:28In Bezug auf die Kosten,
00:01:30die pro 1 Million Output-Token anfallen.
00:01:32Für GPT 5.5 sind es 30 $.
00:01:35Für Anthropic sind es 25 $.
00:01:38Und für DeepSeek sind es 3,48 $.
00:01:41Wenn wir über Input-Token sprechen,
00:01:44was ein kleinerer Teil des Ganzen ist,
00:01:46sind GPT 5.5 und Opus 5.7 gleich.
00:01:49Das sind 5 $ pro 1 Million Input.
00:01:53Und bei DeepSeek sind es etwa 1,70 $.
00:01:57Also viel günstiger beim Input und viel günstiger beim Output.
00:02:01Davon abgesehen, wenn es um 5.5 geht,
00:02:03ist das doppelt so teuer wie 5.4.
00:02:06Allerdings behauptet OpenAI, dass es durch seine Leistung
00:02:10deutlich weniger Token verbraucht.
00:02:11Während es also doppelt so viel kostet wie 5.4,
00:02:14sagen sie, dass es in Bezug auf den tatsächlichen Token-Verbrauch und die Kosten
00:02:17für dieselbe Aufgabe am Ende nur etwa 20 %
00:02:20teurer ist, wenn alles gesagt und getan ist.
00:02:21Behalte das also im Hinterkopf.
00:02:24Wir haben über die Kosten gesprochen.
00:02:25Lass uns jetzt über die Benchmarks sprechen.
00:02:26Wie gut sind diese Modelle auf dem Papier?
00:02:27Ich weiß, wir sind alle etwas abgestumpft gegenüber Benchmarks im Allgemeinen.
00:02:31Wir müssen sie mit Vorsicht genießen,
00:02:32aber es lohnt sich trotzdem, sie sich anzusehen,
00:02:33besonders wenn wir die Zahlen betrachten,
00:02:36die von jedem Akteur im selben Benchmark gemeldet werden.
00:02:39Es gab drei in der Kategorie Codierung,
00:02:42für die alle drei Zahlen gemeldet haben.
00:02:43Das waren SWE Bench Verified, SWE Bench Pro
00:02:46und Terminal Bench 2.0.
00:02:48Für SWE Bench Verified und SWE Bench Pro
00:02:50war Opus dort der Gewinner.
00:02:52Bei Terminal Bench 2.0 war GPT der klare Sieger mit 87,2,
00:02:56was übrigens eine höhere Zahl ist,
00:02:59als Anthropic für Mythos gemeldet hat.
00:03:02Oh, Entschuldigung, Mythos.
00:03:03Was irgendwie verrückt ist.
00:03:05Du weißt schon, das streng geheime Modell, das sie nicht veröffentlichen können,
00:03:07schneidet bei Terminal Bench 2 anscheinend schlechter ab als GPT 5.5.
00:03:10Terminal Bench 2.0 ist hier der größte Ausreißer.
00:03:13Opus 4.7 und V4 Pro liegen weit zurück,
00:03:16aber sieh dir Opus 4.7 im Vergleich zu V4 Pro an.
00:03:20Es sind weniger als zwei Punkte, während es achtmal günstiger ist.
00:03:23Und man sieht hier die gleiche Art von Geschichte
00:03:24bei SWE Bench Verified und SWE Bench Pro.
00:03:26Ja, Opus gewinnt.
00:03:28Aber wenn wir den zweiten mit dem dritten Platz vergleichen
00:03:31und V4 ist immer auf dem dritten Platz,
00:03:33gibt es nicht den riesigen Abstand, den man erwarten würde.
00:03:36Ich meine, fünf Punkte sind nicht nichts, weißt du,
00:03:38bei SWE Bench Verified, 85 zu 86.
00:03:41Aber noch einmal: achtmal günstiger, Open Source.
00:03:45Du weißt schon, es gibt hier einige tatsächliche Kompromisse,
00:03:46die wir eingehen können, wenn wir nicht die meiste Leistung brauchen.
00:03:49Eine weitere interessante Sache,
00:03:51über die man sprechen kann, ist der lange Kontext, bei dem Opus 4.7 seltsamerweise
00:03:55den Zahlen nach wirklich schlecht ist, deutlich schlechter als 4.6,
00:03:58was mich irgendwie verblüfft.
00:04:00Und wenn wir von langem Kontext sprechen,
00:04:01bei dem wir versuchen, Dinge abzurufen,
00:04:03zwischen 500.000 Token und 1 Million Token,
00:04:06ist 4.7 tatsächlich schrecklich.
00:04:08Und schneidet viel schlechter ab als DeepSeek und GPT 5.5.
00:04:12Jetzt könnte man eine ganze Diskussion darüber führen,
00:04:14warum man überhaupt im Bereich von 500.000 bis 1 Million Token arbeitet.
00:04:17Wie viele Leute arbeiten eigentlich dort?
00:04:20Denn wir erleben dort so oder so Kontext-Verfall,
00:04:22egal, welches Modell du benutzt.
00:04:24Aber es ist interessant, dass wir aus irgendeinem Grund
00:04:26eine gewisse Regression gesehen haben,
00:04:27wenn es um die Anthropic-Modelle geht.
00:04:29Aber im Großen und Ganzen denke ich, die Erkenntnis ist,
00:04:325.5 ist wirklich stark.
00:04:33Es schlägt Opus 4.7 bei bestimmten Metriken,
00:04:36verliert bei bestimmten Metriken,
00:04:37aber es ist ein extrem robustes Modell.
00:04:39Und obendrein, nun ja, V4 Pro hinkt im Großen und Ganzen hinterher.
00:04:42Es ist in Schlagdistanz, während es unendlich viel günstiger ist,
00:04:45was wiederum eine großartige Option für deinen durchschnittlichen Kunden ist.
00:04:48Denn momentan fühlt es sich an, als hättest du nicht viele Optionen,
00:04:52auf der Open-Source-Seite, die tatsächlich konkurrieren können.
00:04:54Lass uns jetzt in den direkten Vergleichstest
00:04:56mit allen drei dieser Modelle springen.
00:04:59Und wir benutzen für jedes dieser Modelle ein Harness.
00:05:00Bei 5.5 wird es Codecs sein.
00:05:02Bei Opus 4.7 wird es Claude Code sein.
00:05:04Und bei DeepSeek V4 Pro benutze ich Open Code.
00:05:07Und für den ersten Test werden wir sie
00:05:10einen Flugsimulator für uns
00:05:11in 3JS erstellen lassen, der im Browser läuft.
00:05:14Du kannst den Prompt genau hier sehen.
00:05:17Ich sage, ich möchte, dass sich das Fliegen gut anfühlt.
00:05:18Ich möchte, dass es ein gewisses Gewicht hat.
00:05:20Ich möchte starke Visuals und ich möchte, dass es
00:05:21die Struktur und die Werkzeuge nutzt, die es für korrekt hält.
00:05:25Es ist also unkompliziert genug, dass sie wissen, was zu tun ist,
00:05:27doch es gibt genug Spielraum, damit wir
00:05:30einige Divergenzen zwischen den Modellen sehen können.
00:05:33Und während wir uns ansehen werden,
00:05:34was sie im One-Shot schaffen,
00:05:36werden wir mehrere Iterationen davon durchlaufen
00:05:38und Folge-Prompts haben.
00:05:40Denn so cool es ist zu sehen,
00:05:44wie gut es im One-Shot abschneidet,
00:05:46so arbeiten wir im echten Leben nicht wirklich, oder?
00:05:49Ich möchte sehen, wie es abschneidet,
00:05:52wenn ich ihm Folge-Prompts gebe
00:05:54und wie schnell es dauert, bis ich etwas habe, das mir gefällt.
00:05:55Und wenn wir diese drei Modelle vergleichen,
00:05:57gibt es wirklich vier Dinge, auf die ich achten werde.
00:05:58Es wird die Zeit sein.
00:06:01Wie lange dauert es, das zu bauen?
00:06:02Kosten, wie viele Token verbrauchen wir?
00:06:04Qualität, wie gut ist es?
00:06:06Und dann ist vier die Art von Stimmung (Vibes).
00:06:06Und das bezieht sich irgendwie auf Qualität.
00:06:09Es ist sehr subjektiv.
00:06:11Welches mag ich eigentlich mehr?
00:06:13Und auch erwähnenswert, alle drei Modelle,
00:06:16alle drei Harnesses benutzen auch genau die gleichen Fähigkeiten.
00:06:18Beginnen wir also mit DeepSeek und den Fragen,
00:06:20die es uns stellt. Es fragt, welche Art von Flugmodell wir wollen.
00:06:22Lass uns ein volles Sim-Modell nehmen.
00:06:23Es empfiehlt Ozeane und Inseln für das Terrain.
00:06:25Das nehmen wir.
00:06:26Lass uns sehen, und dann fragt es nach Kameravorlieben.
00:06:27Lass uns beides machen.
00:06:29Lass uns sehen, ob es uns einen Schalter
00:06:32für die Ego- und die Third-Person-Perspektive geben kann.
00:06:33Wir nehmen seine empfohlene Werkzeugpräferenz.
00:06:35Und wir nehmen einfach ein Low-Poly-Modell
00:06:38für das Flugzeug und die Visuals selbst.
00:06:40Jetzt zu Codecs, die gleiche Art von Fragen.
00:06:42Obwohl es uns nur drei stellt.
00:06:44Sagt, für welche Art von Flug sollte dieser Plan optimiert sein?
00:06:48Lass uns ein hartes Simulationsmodell nehmen.
00:06:50Welches spielbare Erlebnis ist am wichtigsten für den Browser?
00:06:52Lass uns Insel-Start-Loop machen.
00:06:54Es ist irgendwie interessant, wie sie alle dasselbe haben.
00:06:56Und welche Kamera- und Flugzeugpräsentation?
00:06:58Ich werde dafür auch einen Umschalter nehmen.
00:07:02Und für Claude Code nehmen wir Study-Sim-Learning
00:07:04für den Input: Ozean und Inseln.
00:07:05Wir werden Tastatur und Maus nehmen.
00:07:09Es lässt es nicht an die Arbeit gehen.
00:07:11Der Planmodus ist also im Großen und Ganzen bei allen drei sehr ähnlich.
00:07:12Ziemlich die gleichen Fragen wie:
00:07:13Was willst du, wie die Physik sein soll?
00:07:15Was willst du, wie das Terrain sein soll?
00:07:17Was willst du, wie der Kamerawinkel sein soll?
00:07:19Also kein riesiger Unterschied dort.
00:07:20Und lass uns sehen, womit sie planmäßig zurückkommen.
00:07:22Alles klar, alle drei Pläne sind fertig.
00:07:24Lass uns also jeden von ihnen ziemlich schnell durchgehen
00:07:26und einige der Unterschiede sehen.
00:07:29Das erste, das wir uns hier ansehen, ist DeepSeek.
00:07:31Und es ist ziemlich minimalistisch in Bezug auf den Plan, den es darlegt.
00:07:33Es gibt uns also die Projektstruktur
00:07:35und spricht dann sehr schnell über Flugphysik,
00:07:37Umgebung, Kamera und HUD-Overlay
00:07:40und wirklich nur ein paar Aufzählungspunkte.
00:07:43Auf der anderen Seite, wenn wir uns 5.5 in Codecs ansehen,
00:07:46sowie die Annahmen,
00:07:47die das alles für uns darlegen.
00:07:49Und dann haben wir den Plan von Claude Code, der am längsten gedauert hat.
00:07:50Er brauchte etwa fünf Minuten, ist aber bei weitem der gründlichste,
00:07:53weil er den Kontext und den Stack umfasst.
00:07:55Das Layout spricht über das Flugmodell.
00:07:57Es geht auf die verschiedenen Flugphasen ein,
00:08:00spricht über Strömungsabrisse, wie den Strömungsabriss-Warnsummer.
00:08:02Es geht sehr, sehr ins Detail.
00:08:03Es behandelt die Steuerung, die Welt, den Mod,
00:08:06das eigentliche Flugzeug, das wir benutzen werden, die Leistung,
00:08:08und es geht immer so weiter.
00:08:10Also sehr detailliert.
00:08:11Jetzt lassen wir alle drei ihren Plan umsetzen,
00:08:14und wir werden sehen, wie das Endergebnis aussieht.
00:08:15GPT 5.5 in Codecs war als erstes fertig.
00:08:19Also schauen wir uns an, wie es aussieht.
00:08:20Hier ist der Flugsimulator, den es uns erstellt hat.
00:08:22Wir haben ein paar Wolken am Himmel.
00:08:26Wir haben da oben etwas, das wie eine Anstellwinkelanzeige aussieht.
00:08:31Wir haben unsere Geschwindigkeit weiter unten,
00:08:34und mal sehen, ob wir das Ding
00:08:35tatsächlich vom Boden abheben können.
00:08:36Ich merke an, es gibt keine richtige Landebahn.
00:08:38Es ist einfach nur glattes Gras.
00:08:39Und eigentlich sollte es so eine Art Insel sein.
00:08:42Obwohl, wenn die Kamera etwas spinnt,
00:08:45kann man für einen Moment die Landebahn da unten sehen.
00:08:48Alles klar, wir stürzen ab und wir...
00:08:50wir kommen gar nicht vom Boden weg, oder?
00:08:51Das hier ist also tatsächlich etwas,
00:08:54es ist eigentlich ziemlich schwierig.
00:08:55Also werde ich ihm
00:09:00einen zweiten Prompt geben und bitten, es ein bisschen einfacher
00:09:03zu fliegen zu machen, denn es passiert hier eine Menge,
00:09:05aber das ist hart.
00:09:06Also habe ich geschrieben: Es ist wirklich schwer zu fliegen.
00:09:08Können wir das benutzerfreundlicher machen?
00:09:10Also ein bisschen mehr wie ein Arcade-Spiel.
00:09:12Und auch die Grafik könnte etwas Arbeit vertragen.
00:09:15Mal sehen, wie es das macht.
00:09:16Es ist übrigens bemerkenswert, dass 5.5 etwa sieben Minuten brauchte,
00:09:21um diesen ersten Entwurf für uns zu erstellen.
00:09:23Und es hat 63.000 Token verbraucht.
00:09:26Okay, es hat gesagt, es hat das Fliegen etwas einfacher gemacht
00:09:28und die Grafik aktualisiert.
00:09:29Also schauen wir uns an, wie der zweite Durchgang aussieht.
00:09:32Das haben wir bekommen.
00:09:32Die Grafik sieht definitiv besser aus,
00:09:34aber mal sehen, ob wir diesmal tatsächlich von der Landebahn
00:09:36abheben können.
00:09:37Also, gut, Schub auf hundert Prozent,
00:09:4150, 60, sieben.
00:09:43Was ist die Abhebegeschwindigkeit bei einer Cessna?
00:09:46Alles klar, 70, 80, 90.
00:09:49Wir müssen jetzt vom Boden wegkommen.
00:09:51Okay, falscher Weg.
00:09:53Los geht's, abheben, abheben.
00:09:56Nein, das wird mich wahrscheinlich wieder zum Absturz bringen, oder?
00:09:58Ja, Strömungsabriss.
00:09:59Okay, das braucht noch etwas Arbeit.
00:10:02Also geben wir Codex noch eine Chance.
00:10:05Geben wir 5.5 noch eine Chance,
00:10:07das wirklich spielbar zu machen.
00:10:08Ich habe ihm also gesagt, dass ich das Flugzeug nicht einmal
00:10:10vom Boden in den Flug bekomme.
00:10:11Wir müssen das Abheben definitiv einfacher machen
00:10:12und das Ding wirklich fliegen können.
00:10:14Okay, es sagt, es hat das Problem beim Start behoben.
00:10:16Anscheinend waren vorher die Bremsen blockiert.
00:10:19Ich weiß nicht, ob das der Grund war, warum wir es nicht hinbekommen haben.
00:10:21Oh, es hat es nicht automatisch auf Start eingestellt.
00:10:24Landeklappen, ja, das war,
00:10:25wir hatten das im Super-Simulator-Modus.
00:10:29Aber hier ist der dritte Versuch unseres Flugsimulators.
00:10:32Mal sehen, wie wir uns schlagen.
00:10:34Können wir vom Boden abheben?
00:10:36Oh, wir hüpfen diesmal auf der Landebahn,
00:10:37was auch immer das ist.
00:10:38Alles klar, cool, wir sind in der Luft.
00:10:41Wir bewegen uns tatsächlich.
00:10:44Mal sehen, ob wir durch einen dieser Ringe kommen.
00:10:45Ich meine, die Grafik ist nicht so schlecht, wissen Sie,
00:10:49für etwas, das in weniger als 10 Minuten generiert wurde.
00:10:52Es scheint ziemlich genau zu sein, was,
00:10:56es zeigt mir meine Vertikalgeschwindigkeit,
00:10:59Fuß pro Minute unten am Rand,
00:11:00meine tatsächliche Höhe, die Knoten, Kurs, Höhe über Grund (AGL).
00:11:04Es ist also relativ ausgefeilt
00:11:06in Bezug darauf, alles zu verfolgen.
00:11:08Ich meine, diese kleine Anzeige vorne,
00:11:10sieht aus wie eine Anstellwinkelanzeige,
00:11:13was ziemlich cool ist.
00:11:14Es hat also einige gute Dinge an sich.
00:11:18Die eigentliche Steuerung ist etwas holprig.
00:11:21Wie Sie sehen können, kann ich das kaum kontrollieren,
00:11:23aber im Großen und Ganzen nicht schlecht.
00:11:25Wir können das irgendwie kamikaze-mäßig fliegen
00:11:27und sehen, was bei, wissen Sie, 18.000 Fuß pro Minute passiert.
00:11:31Aber ja, wissen Sie, für 66.000 Token,
00:11:36etwa 10 Minuten, 15 Minuten oder so, mehr oder weniger,
00:11:40mit dem Hin und Her,
00:11:41denke ich nicht, dass das schlecht ist.
00:11:42Also schauen wir uns DeepSeek an.
00:11:44Es hat etwa 10 Minuten gebraucht, um das zu tun.
00:11:46Und in Bezug auf Token: 63.000 und 44 Cent.
00:11:51Also 44 Cent, 10 Minuten.
00:11:53Und hier ist, was DeepSeek für uns entwickelt hat.
00:11:56Ich habe keine Ahnung,
00:12:00was ich hier sehe.
00:12:03Das sollte eine Third-Person-Ansicht sein.
00:12:06Das sollte das Cockpit sein.
00:12:07Und offensichtlich war unser erster Durchgang mit DeepSeek
00:12:11ein weiteres Desaster.
00:12:13Ich sage also DeepSeek, dass der Simulator ein komplettes Chaos ist.
00:12:16Die Grafik ist total fehlerhaft
00:12:17und ich kann überhaupt nichts fliegen.
00:12:20Bitte reparieren.
00:12:21Und hier ist unser zweiter Durchgang.
00:12:24Ich habe immer noch keine Ahnung.
00:12:26Absolut keine Idee.
00:12:28Was zum Teufel DeepSeek da macht.
00:12:30Oh, hey, da ist ein Flugzeug.
00:12:32Oh, da ist etwas.
00:12:33Ja, das ist, das ist brutal.
00:12:38Und ehrlich gesagt habe ich das Gefühl, selbst wenn ich ihm einen weiteren Prompt gebe,
00:12:42müsste ich sehr, sehr spezifisch werden,
00:12:44was wir zu erreichen versuchen, was wiederum,
00:12:47ziemlich hinter dem zurückbleibt, was wir mit Codex erreicht haben.
00:12:49Da waren es sehr, wissen Sie, eher vage Prompts.
00:12:51Ich konnte zumindest etwas erreichen, das in die Richtung geht,
00:12:53sogar beim ersten Versuch.
00:12:54Hier hat es ganz klar mit der Grafik
00:12:57komplett zu kämpfen.
00:12:58Wir sind einfach, ich weiß nicht einmal, wie ich das beschreiben soll,
00:13:01aber hey, es war super billig.
00:13:03Also schauen wir uns an, was Claude Code
00:13:07als Referenz für uns tun konnte.
00:13:09Es hat 13 Minuten gedauert, den Plan tatsächlich auszuführen.
00:13:12Der Plan selbst hat fünf Minuten gedauert.
00:13:13Also nennen wir es 20 Minuten bis zum ersten Ergebnis.
00:13:17Und dann die gesamten Token,
00:13:19dieser Durchlauf brauchte etwa 15% plus die 5% vor dem Plan.
00:13:22Wir schauen also auf, oh Entschuldigung,
00:13:24wir kommen auf 11% Kontext plus 5% davor.
00:13:28Sagen wir 20 Minuten, 150.000 Token für Claude Code,
00:13:33was definitiv das teuerste
00:13:34und langsamste von allen war.
00:13:36Und hier ist Claude Codes Versuch dazu.
00:13:39Warum auch immer befinden wir uns sofort in der Luft.
00:13:43Wir stürzen ab.
00:13:44Wir fliegen nach Instrumentenflugregeln (IFR).
00:13:45Ich weiß nicht, was passiert.
00:13:48Wir sind dabei, irgendetwas zu rammen.
00:13:50Können wir das retten?
00:13:51Können wir das aus einem Sturzflug abfangen?
00:13:53Nein, wir stürzen ab, nein, wir sind tot.
00:13:54Okay, das ist interessant.
00:13:56Wieder schleudert es uns sofort in die Luft.
00:14:00Wir sind in den Wolken.
00:14:02Wir stürzen ab.
00:14:03Ich weiß nicht, was passiert.
00:14:05Wir brauchen, wir brauchen einen zweiten Durchgang.
00:14:08Also habe ich geschrieben: Beim Laden werde ich sofort in die Luft geschleudert.
00:14:11Es ist schwer zu kontrollieren.
00:14:12Ich möchte auf der Landebahn starten und es soll einfacher zu fliegen sein.
00:14:15Oh, und übrigens, verbessern Sie auch diese Grafik.
00:14:17Es hat etwa vier Minuten gedauert, aber es wurden Änderungen vorgenommen.
00:14:20Wir spawnen auf der Landebahn.
00:14:22Es hat das Fahrwerk geändert.
00:14:23Jetzt ist es ein Bugradfahrwerk und ein paar andere Sachen.
00:14:24Also schauen wir mal, wie es aussieht.
00:14:26Richtig, also hier ist es.
00:14:27Wieder werden wir sofort in eine Nebelbank geworfen.
00:14:29Ich versuche, das Ding zu kontrollieren.
00:14:31Und ich, ja, da ist absolut nichts zu kontrollieren.
00:14:33Alles klar, wir werden,
00:14:34wir geben Claude Code noch eine Chance hier.
00:14:37Also habe ich ihm gesagt, dass es mich immer noch sofort in den Himmel
00:14:39schleudert.
00:14:40Ich sagte, lassen Sie uns auf ein viel arcadigeres Gefühl
00:14:42bei der Steuerung gehen.
00:14:43Ich denke, das hätten wir wahrscheinlich bei den ersten
00:14:44Prompts für alle drei tun sollen.
00:14:46Ich denke, wenn man eine Art realistische Simulation will,
00:14:50tut es sich wirklich schwer,
00:14:53das auf eine Art und Weise zu tun, bei der es noch benutzerfreundlich ist.
00:14:57Ich glaube, es leistet unter der Haube gute Arbeit
00:14:59in Bezug auf, okay, Anstellwinkel.
00:15:01Alles klar, du stürzt bei diesem, wissen Sie,
00:15:02Winkel im Vergleich zur Geschwindigkeit ab und so weiter.
00:15:04Aber das tatsächlich vom Computer aus zu manipulieren
00:15:07ist im Grunde unmöglich.
00:15:09Obwohl ich denke, dass das Nebel-Zeug wirklich seltsam ist.
00:15:12Also schauen wir mal, ob es nach der zweiten Runde von Prompts
00:15:15in der Lage ist, etwas besser abzuschneiden,
00:15:16denn im Moment hat GPT 5.5 viel, viel besser abgeschnitten.
00:15:20Claude Code hat also einige weitere Änderungen vorgenommen,
00:15:22es benutzerfreundlicher gemacht.
00:15:23Und schauen wir mal, ob ich diesmal immer noch
00:15:24diesmal für meine Instrumentenflugberechtigung.
00:15:26Also ja, wir machen weiter.
00:15:28Wir machen weiter mit der Instrumentenflugberechtigung.
00:15:30Wir sind hier bei den Instrumenten, aber ich kann es irgendwie sehen.
00:15:33Ich kann mein Instrumentenbrett überprüfen.
00:15:35Alles klar, wir verlassen die Landebahn.
00:15:37Ja, okay.
00:15:42Kann ich... warum steht ein Baum auf der Landebahn?
00:15:44Ich versuche aufzusteigen.
00:15:46Kann ich aufsteigen?
00:15:47Kann ich die Nase hochziehen?
00:15:49Klicke auf Canvas, um die Maus zu sperren, was?
00:15:53Oh, wir sind in der Luft.
00:15:54Nein, nein, wir sind abgestürzt.
00:15:57Also ja, ich denke, das ist ziemlich eindeutig.
00:16:02GPT 5.5 ist meiner Meinung nach eindeutig der Gewinner.
00:16:06Claude Code war auf dem zweiten Platz.
00:16:08Ich würde ihm den zweiten Platz geben.
00:16:10Es hatte definitiv zu kämpfen,
00:16:13selbst mit den Prompts, die wir ihm gegeben haben.
00:16:14Wir haben ihm keine großartigen Prompts gegeben, seien wir ehrlich.
00:16:16Ich denke, mit mehr Zeit, besseren Prompts,
00:16:19ein paar mehr Hin-und-Her-Diskussionen,
00:16:20hätten wir es dahin bringen können, wo wir es haben wollten.
00:16:21Es hatte zumindest ein Flugzeug, eine Landebahn.
00:16:25Es hatte Bäume auf der Landebahn,
00:16:26aber es hatte die eigentlichen Dinge, die wir brauchten,
00:16:29im Gegensatz zu DeepSeek mit OpenCODE.
00:16:32Ich hatte keine Ahnung, was da los war.
00:16:34Das war ein komplettes Chaos.
00:16:35Ich habe das Gefühl, ich hätte von vorne anfangen müssen,
00:16:36also ihm einen sehr spezifischen Prompt geben müssen.
00:16:38Es war nicht einmal annähernd brauchbar,
00:16:39aber GPT 5.5, direkt aus dem Stand,
00:16:42bei ziemlich vagen Prompts,
00:16:44fand ich, hat es wirklich gut gemacht.
00:16:455.5 verbrauchte außerdem insgesamt 66.000 Token.
00:16:48Wir schauen uns hier Opus insgesamt an,
00:16:52etwa 200.000 Token.
00:16:53Also ein Viertel der Token, im Wesentlichen ein Viertel der Kosten.
00:16:56Und es war ein bisschen schneller.
00:16:58Ich meine, an diesem Punkt ist es mir egal,
00:16:59wie viel länger OpenCODE tatsächlich brauchte als GPT 5.5.
00:17:03Und es war einfach schlecht, seien wir ehrlich, es war einfach schlecht.
00:17:07Kommen wir nun zu Test Nummer zwei.
00:17:10Diesmal werden wir sie bitten,
00:17:12eine Landingpage zu erstellen, die WebGPU-Shader-Arbeit
00:17:16mit Three.js präsentiert.
00:17:18Nun, WebGPU-Shader-Arbeit ist die Art von Dingen, die man
00:17:21auf Award-Websites sieht.
00:17:23Ich spreche von Websites wie Igloo, so etwas,
00:17:26sehr hochwertige Grafiken.
00:17:28Es sieht aus wie ein Videospiel.
00:17:29Es nutzt im Grunde die Grafikkarte deines Computers,
00:17:32um all das zu rendern.
00:17:34Ich erwarte nicht, dass einer von ihnen auch nur annähernd
00:17:37das erreicht, was wir hier sehen, aber ich will sehen, was sie tun können,
00:17:40indem sie im Wesentlichen Shader-Technologie verwenden.
00:17:42Das ist definitiv eine Stufe über deiner einfachen
00:17:45SaaS-vorlagenbasierten Landingpage.
00:17:46Ich will sehen, was sie können, und sie an ihre Grenzen
00:17:48in der Welt des Webdesigns bringen.
00:17:50Ich habe allen eine Fähigkeit gegeben, die tatsächlich aufschlüsselt,
00:17:53wie man so etwas macht.
00:17:55Es ist also nicht so, dass sie völlig im Dunkeln tappen
00:17:57oder einer einen Vorteil gegenüber dem anderen hat.
00:18:00Das einzige, was ich ihnen gesagt habe, ist, dass es sich modern
00:18:02und visuell beeindruckend anfühlen soll, etwas, das man bei Awards sehen würde,
00:18:05und dass sie GPU-Compute intelligent nutzen sollen.
00:18:08Sie können also den Stack und die Projektstruktur wählen,
00:18:10die sie mögen, und gutes Urteilsvermögen bei Hero-Konzept,
00:18:13UI und Interaktionen zeigen.
00:18:15Und genau wie beim ersten Test sind sie alle im Planungsmodus.
00:18:17Also fangen wir an.
00:18:18Okay, sie haben alle ihren Plan fertiggestellt, und witzigerweise
00:18:21hat keiner von ihnen mir irgendwelche Fragen gestellt,
00:18:22obwohl wir sie in den Planungsmodus versetzt haben.
00:18:24Schauen wir uns also zuerst GPT 5.5 an.
00:18:28Es sagt uns, dass es einen vollflächigen,
00:18:30interaktiven, GPU-gesteuerten Hero-Bereich machen wird.
00:18:32Das Konzept wird ein lebendiges Signalfeld
00:18:34mit einer Art dichtem Partikel-Ding sein, das es machen wird.
00:18:36Wir werden sehen, wie das am Ende aussieht.
00:18:38Und insgesamt ist es ein minimales Landingpage-Konzept im Award-Stil.
00:18:41Vollständig interaktive WebGPU-Szene
00:18:43mit pointer-reaktiver Compute-Simulation.
00:18:46Alles klar, für DeepSeek ist es ein ziemlich kurzer und knackiger Plan,
00:18:50genau wie wir es beim Flugsimulator gesehen haben.
00:18:53Hoffentlich bekommen wir dieses Mal ein besseres Ergebnis,
00:18:54aber ein Hero-Bereich mit 75.000 GPU-Compute-Partikeln.
00:18:58Ich vermute irgendwie, dass alle von ihnen
00:19:01auf eine Art Partikel-Thema für den Hero-Bereich setzen werden.
00:19:04Es wird also Mausinteraktion und Integration haben.
00:19:08Es wird eine einmalige Initialisierung geben.
00:19:10Und dann sollten wir Dinge sehen wie Bloom,
00:19:13chromatische Aberration, eine benutzerdefinierte Vignette und etwas Filmkörnung.
00:19:16Wir werden also sehen, wie das am Ende tatsächlich aussieht.
00:19:19Und dann haben wir Opus 4.7, wieder ein Plan,
00:19:21der auf dieses Partikel-Ding mit Bloom setzt,
00:19:23und es wird interaktiv mit der Maus sein.
00:19:25Wir werden also sehen, ob einer davon tatsächlich anders aussieht,
00:19:27denn oberflächlich klingen alle ihre Pläne sehr ähnlich.
00:19:29Das erste war GPT 5.5.
00:19:32Es hat etwa sechs Minuten gedauert.
00:19:34Und an Token haben wir 107.000 verbraucht.
00:19:37Schauen wir mal, was es uns gebaut hat.
00:19:40Und hier ist, was es für uns erstellt hat.
00:19:42Nun, das ist sehr hell.
00:19:45Es ist also schwer, die eigentlichen Partikel überhaupt zu sehen,
00:19:47aber weißt du, während wir nach oben und unten scrollen,
00:19:50gibt es eine Animation, die im Hintergrund abläuft,
00:19:52sowie einige subtile Farbveränderungen.
00:19:56Es sieht so aus, als ob unsere Maus im Moment
00:20:00die Partikel anziehen soll.
00:20:01Und wir haben, ich bewege das mal hierhin.
00:20:03Es gab einige Optionen zum Abstoßen versus Drift.
00:20:08Aber wie gesagt, es ist etwas schwer zu sehen,
00:20:11wegen der Helligkeit.
00:20:12Also habe ich ihm gesagt, dass es schwer ist, die Partikel
00:20:14wegen der Helligkeit tatsächlich zu sehen.
00:20:14Es übernimmt auch einen Großteil der Hero-Technik.
00:20:16Können wir also die Helligkeit etwas reduzieren
00:20:18und es auch ein bisschen mehr nach rechts verschieben?
00:20:20Denn im Moment ist es irgendwie überwältigend.
00:20:23Man kann den Text links nicht wirklich lesen,
00:20:25weil diese Partikel einfach so verdammt hell sind.
00:20:27Und hier ist das Update nach dem zweiten Durchlauf.
00:20:30Es ist ein bisschen besser.
00:20:31Es ist nicht so überwältigend und lässt etwas Platz für den Text.
00:20:35Obwohl ich sagen muss, dass es fast etwas unscharf ist,
00:20:39aber weißt du, es ist nicht schlecht.
00:20:41Es hat genau das getan, was wir ihm gesagt haben,
00:20:44angesichts der etwas vagen Aufgabenstellung.
00:20:46Ich bin also nicht gerade weggeblasen von dem Design, das es entwickelt hat,
00:20:49aber ich bin auch nicht sauer deswegen.
00:20:51Schauen wir uns jetzt Claude Code an,
00:20:52denn während wir all das gemacht haben,
00:20:55steckt DeepSeek immer noch hier in den Gräben
00:20:57und versucht, das herauszufinden.
00:20:58Und hier ist, was Claude Code uns gegeben hat.
00:21:01Also irgendwie nichts.
00:21:06Ich bin mir nicht sicher, ob der Hintergrund,
00:21:10ich nehme an, der gesamte Hintergrund soll das
00:21:14WebGL sein, nehme ich an.
00:21:19Es ist sehr schlicht,
00:21:21was ich vermute, etwas ist, das man absolut tun könnte.
00:21:24Ich meine, auf dem Bildschirm sieht es nicht,
00:21:25ich meine, es sieht irgendwie cool aus, aber ich werde ehrlich sein,
00:21:28ich habe nach etwas Auffälligerem gesucht.
00:21:31Also beim zweiten Durchlauf,
00:21:31als ich ihm sagte, es solle es etwas auffälliger machen,
00:21:34gab es keinen großen Unterschied.
00:21:35Obwohl es sehr subtil ist.
00:21:38Da ist irgendwie diese Filmkörnung,
00:21:40fast wie diese Unschärfe, die von unten nach oben verläuft.
00:21:43Es ist also eine ziemlich subtile Sache.
00:21:45Und du kannst hier unten sehen,
00:21:47es verfolgt die Bilder pro Sekunde.
00:21:49Es verwendet 250.000 Partikel.
00:21:51Also, ich meine, ehrlich gesagt sieht es cool aus.
00:21:54Es ist nur nicht super auffällig.
00:21:56Es ist definitiv eine Geschmackssache.
00:21:58Die gesamten Token auf der Seite von Claude Code waren etwa 175.000,
00:22:01und es dauerte etwas länger als 5.5 in Codex.
00:22:05Schauen wir uns nun DeepSeek an,
00:22:07das an diesem Punkt 116.000 Token verbraucht hat.
00:22:10Es hat auch am längsten gedauert,
00:22:12aber die Gesamtkosten liegen wieder unter einem Dollar.
00:22:15Und hier ist, was es uns gegeben hat.
00:22:17Es ist also diese Art von Partikelfeld-Ding,
00:22:21das einigermaßen meiner Maus folgt.
00:22:25Interessant.
00:22:27Ich glaube, es könnte einen epileptischen Anfall auslösen.
00:22:29Ehrlich gesagt, darüber hinaus ist es ziemlich langweilig.
00:22:35Der Flux, weißt du, das Röntgenbild hier ändert irgendwie die Farben,
00:22:39aber ja, so ziemlich nur dieses Ding erschaffen.
00:22:43Nachdem ich DeepSeek angewiesen hatte, einen weiteren Durchlauf zu machen,
00:22:45kam es dann mit diesem Ergebnis zurück,
00:22:46bei dem es jetzt irgendwie so ein seltsames Parallaxe-Ding hat.
00:22:49Es hat etwas blaues Zeug, das im Hintergrund passiert.
00:22:53Und jetzt dieses Ding, das wie ein UFO ist,
00:22:55das irgendwie auf deine Maus reagiert,
00:22:58aber ja, es ist etwas.
00:23:02Und insgesamt lag die Token-Anzahl von DeepSeek bei 130.000 Token,
00:23:05was bei 1,43 Dollar liegt.
00:23:08Wo lässt uns das also nach all diesen Tests wirklich?
00:23:13Sprechen wir nun über die Endergebnisse.
00:23:15Wenn es um Test Nummer eins geht,
00:23:16das war der Flugsimulator, klarer Gewinner.
00:23:18Das war GPT 5.5 innerhalb von Codex.
00:23:21Es war schneller als Opus 4.7 innerhalb von Claude Code.
00:23:25Es war auch schneller und das Endergebnis war bei weitem das beste.
00:23:29DeepSeek hat beim Flugsimulator schrecklich abgeschnitten.
00:23:32Es war nicht einmal annähernd das, was wir zu tun versuchten.
00:23:34Ich hätte es weiter anregen müssen,
00:23:35es anregen, es anregen müssen, um es auch nur annähernd
00:23:38an den ersten Durchgang von 5.5 und Opus 4.7 heranzubringen, und Claude Code
00:23:43war so, eh, es war nicht schrecklich.
00:23:46Es hat am Anfang wirklich nicht funktioniert,
00:23:48aber nach ein paar Prompts konnte man sagen,
00:23:50Wir konnten es an einen Punkt bringen, an dem es gleichwertig
00:23:52zu dem war, was GPT 5.5 leistete.
00:23:54Das hätte mehr Prompts erfordert.
00:23:55Es hätte mehr Zeit gekostet
00:23:57und wäre letztendlich teurer gewesen.
00:23:59Also ein klarer Sieg für 5.5.
00:24:01Was die Web-GPU-Landingpage angeht,
00:24:03hatte DeepSeek auch hier Schwierigkeiten.
00:24:04Ich war kein Fan davon.
00:24:06Ich weiß nicht einmal, was das darstellen soll.
00:24:08Sicher, ich habe ihm keinen besonders guten Prompt gegeben,
00:24:10aber ist das wirklich das, was wir als
00:24:13Basis-Median-Ergebnis bekommen werden?
00:24:16Wenn ich DeepSeek nicht an die Zügel nehme
00:24:19und es wirklich zwinge, etwas zu tun, anscheinend ja.
00:24:22Wenn wir jetzt Opus und 5.5 vergleichen,
00:24:24hätte ich mich für Opus 4.7 und Claude Code entschieden,
00:24:27was die Umsetzung der Web-GPU-Sache angeht.
00:24:29Ich denke, das ist auch eine Frage des Geschmacks.
00:24:31Ja, man könnte argumentieren, dass 5.5 auffälliger war,
00:24:35aber ich fand es irgendwie hässlich.
00:24:37Noch einmal, bei all diesen Tests haben wir die Prompts eher vage gehalten,
00:24:41um zu sehen, welchen Weg das Modell einschlagen würde.
00:24:43Daher würde ich Opus hier definitiv den Vorzug geben,
00:24:46obwohl es teurer war
00:24:48und auch etwas länger gebraucht hat.
00:24:50Wenn man ihnen einen konkreteren Prompt gegeben hätte,
00:24:55der sehr genau vorgibt, was man tun möchte,
00:24:57hätte 5.5 genau das getan, was wir wollten.
00:24:59Es hat ja eine Web-GPU-Landingpage erstellt.
00:25:02Ich fand sie nur hässlich.
00:25:04Die Aufgabe wurde also trotzdem erfüllt.
00:25:06Nur eben nicht so gut wie durch Opus, denke ich.
00:25:08Was bedeutet das nun im Großen und Ganzen,
00:25:09wenn man alles zusammennimmt?
00:25:11Nun, ich denke, es ist eine tolle Nachricht
00:25:13für alle, die Agent-Code-Systeme nutzen.
00:25:16Wir haben Auswahlmöglichkeiten, richtig?
00:25:18Man kann Opus und Claude Code verwenden,
00:25:20oder man nutzt GPT 5.5 und Codecs.
00:25:23Mit beiden liegt man nicht falsch.
00:25:25Ich glaube, das ist mittlerweile reine Geschmackssache.
00:25:28Und das Beste daran ist: Wenn man den Weg über Claude Code geht,
00:25:31lässt sich das meiste davon auf Codecs übertragen.
00:25:33Und wenn man den Weg über Codecs wählt,
00:25:34gilt das meiste davon auch für Claude Code.
00:25:37Ich sehe also keinen Vendor Lock-in, im Sinne von,
00:25:40"Oh, ich habe nur Claude Code gelernt".
00:25:42Dass man nicht zu Codecs wechseln könnte oder umgekehrt.
00:25:44Das ist absolut nicht der Fall.
00:25:45Wenn man es richtig angeht,
00:25:46lernt man die Grundlagen der KI
00:25:48und wie man Dinge baut.
00:25:49Und das lässt sich auf beide anwenden.
00:25:51Und je mehr Wettbewerb es gibt,
00:25:53desto besser ist es für uns, die Verbraucher.
00:25:54Was DeepSeek angeht, tja, ich weiß nicht.
00:25:59Ich war nicht sehr beeindruckt.
00:26:00Vielleicht ist das eine Situation, wo man sagt, okay,
00:26:02DeepSeek ist sinnvoll, wenn wir einfachere Aufgaben erledigen,
00:26:04für die wir nicht die Power von Opus brauchen,
00:26:06oder die Leistung eines GPT 5.5 nicht erforderlich ist.
00:26:10Denn denken Sie daran, wir sprechen von etwas,
00:26:11das achtmal günstiger ist.
00:26:13Aber das ist natürlich etwas, das wir berücksichtigen müssen.
00:26:16aber war sie achtmal schlechter?
00:26:19Vielleicht, vielleicht auch nicht.
00:26:21Es ist schwer, das wirklich
00:26:23zu artikulieren und zu quantifizieren.
00:26:24Aber natürlich müssen wir das berücksichtigen.
00:26:27Ich sehe es also nicht wirklich als Konkurrenz,
00:26:30um ehrlich zu sein, zu 4.7 oder 5.5.
00:26:33Ich denke jedoch, wenn man einfachere Aufgaben erledigt
00:26:35und sehr token-bewusst oder kostenbewusst arbeitet,
00:26:38dann könnte DeepSeek durchaus für einen infrage kommen.
00:26:41Das war's für heute von mir.
00:26:42Ich hoffe, das hat etwas Licht auf diese drei Modelle geworfen
00:26:45und darauf, wie sie im Vergleich zueinander stehen.
00:26:47Ich finde, es ist eine großartige Zeit für diesen Bereich.
00:26:49Mehr Wettbewerb ist besser für alle.
00:26:51Wie immer, wenn ihr euch Zugang
00:26:53zum Claude Code Masterclass sichern wollt,
00:26:55schaut euch Chase AI Plus an.
00:26:56Einen Link dazu findet ihr in der Beschreibung.
00:26:58Und wir sehen uns dann wieder.