Ich habe DeepSeek V4 vs. Claude Code vs. Codex getestet

Deutschالعربية English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

컴퓨터/소프트웨어AI/미래기술

Transcript

00:00:00In den letzten 24 Stunden gab es riesige Updates

00:00:02für zwei der größten KI-Modelle der Welt.

00:00:04Zuerst erschien GPT 5.5,

00:00:07das mit bestimmten Benchmark-Werten aufwartet,

00:00:10die Claudes Mythos übertreffen.

00:00:12Zweitens gab es die Veröffentlichung von DeepSeek V4,

00:00:15ein Open-Source-Modell mit offenen Gewichten,

00:00:18das Benchmarks hat, die mit den großen Vorreitern mithalten.

00:00:22Angesichts all dieser neuen Modelle zur Auswahl,

00:00:24was soll man als Durchschnittsnutzer tun?

00:00:27Nun, heute helfe ich dir, diese Frage zu beantworten,

00:00:29indem ich Opus 4.7, GPT 5.5

00:00:33und DeepSeek V4 gegeneinander antreten lasse,

00:00:36damit du sehen kannst, welches für dich sinnvoll ist.

00:00:39Bevor wir diesen direkten Vergleich starten

00:00:41zwischen GPT 5.5 in Codecs,

00:00:45DeepSeek V4 in Open Code,

00:00:47und Opus 4.7 in Claude Code,

00:00:51werfen wir zuerst einen kurzen Blick auf die Benchmarks,

00:00:53besonders bei diesen zwei neuesten Modellen,

00:00:54die in den letzten 24 Stunden veröffentlicht wurden.

00:00:56Lass uns zuerst über die Kosten sprechen.

00:00:58DeepSeek V4 ist, wie du weißt,

00:01:00ein Open-Source-Modell mit offenen Gewichten,

00:01:01aber das bedeutet nicht, dass du es auf deinem Computer ausführen kannst,

00:01:04denn dieses Ding ist riesig.

00:01:05Ich spreche von 1,6 Billionen Parametern.

00:01:08Du brauchst ernsthafte Hardware, um das zu betreiben.

00:01:10Also müssen wir immer noch dafür bezahlen.

00:01:11Wir werden immer noch die API nutzen müssen,

00:01:13aber es ist unendlich viel günstiger als die Konkurrenz,

00:01:15etwa achtmal günstiger.

00:01:18Und von den drei Modellen

00:01:19ist das brandneue GPT 5.5 tatsächlich das teuerste,

00:01:22was irgendwie überraschend ist, da OpenAI im Großen und Ganzen

00:01:24günstiger war als die Anthropic-Konkurrenz.

00:01:28In Bezug auf die Kosten,

00:01:30die pro 1 Million Output-Token anfallen.

00:01:32Für GPT 5.5 sind es 30 $.

00:01:35Für Anthropic sind es 25 $.

00:01:38Und für DeepSeek sind es 3,48 $.

00:01:41Wenn wir über Input-Token sprechen,

00:01:44was ein kleinerer Teil des Ganzen ist,

00:01:46sind GPT 5.5 und Opus 5.7 gleich.

00:01:49Das sind 5 $ pro 1 Million Input.

00:01:53Und bei DeepSeek sind es etwa 1,70 $.

00:01:57Also viel günstiger beim Input und viel günstiger beim Output.

00:02:01Davon abgesehen, wenn es um 5.5 geht,

00:02:03ist das doppelt so teuer wie 5.4.

00:02:06Allerdings behauptet OpenAI, dass es durch seine Leistung

00:02:10deutlich weniger Token verbraucht.

00:02:11Während es also doppelt so viel kostet wie 5.4,

00:02:14sagen sie, dass es in Bezug auf den tatsächlichen Token-Verbrauch und die Kosten

00:02:17für dieselbe Aufgabe am Ende nur etwa 20 %

00:02:20teurer ist, wenn alles gesagt und getan ist.

00:02:21Behalte das also im Hinterkopf.

00:02:24Wir haben über die Kosten gesprochen.

00:02:25Lass uns jetzt über die Benchmarks sprechen.

00:02:26Wie gut sind diese Modelle auf dem Papier?

00:02:27Ich weiß, wir sind alle etwas abgestumpft gegenüber Benchmarks im Allgemeinen.

00:02:31Wir müssen sie mit Vorsicht genießen,

00:02:32aber es lohnt sich trotzdem, sie sich anzusehen,

00:02:33besonders wenn wir die Zahlen betrachten,

00:02:36die von jedem Akteur im selben Benchmark gemeldet werden.

00:02:39Es gab drei in der Kategorie Codierung,

00:02:42für die alle drei Zahlen gemeldet haben.

00:02:43Das waren SWE Bench Verified, SWE Bench Pro

00:02:46und Terminal Bench 2.0.

00:02:48Für SWE Bench Verified und SWE Bench Pro

00:02:50war Opus dort der Gewinner.

00:02:52Bei Terminal Bench 2.0 war GPT der klare Sieger mit 87,2,

00:02:56was übrigens eine höhere Zahl ist,

00:02:59als Anthropic für Mythos gemeldet hat.

00:03:02Oh, Entschuldigung, Mythos.

00:03:03Was irgendwie verrückt ist.

00:03:05Du weißt schon, das streng geheime Modell, das sie nicht veröffentlichen können,

00:03:07schneidet bei Terminal Bench 2 anscheinend schlechter ab als GPT 5.5.

00:03:10Terminal Bench 2.0 ist hier der größte Ausreißer.

00:03:13Opus 4.7 und V4 Pro liegen weit zurück,

00:03:16aber sieh dir Opus 4.7 im Vergleich zu V4 Pro an.

00:03:20Es sind weniger als zwei Punkte, während es achtmal günstiger ist.

00:03:23Und man sieht hier die gleiche Art von Geschichte

00:03:24bei SWE Bench Verified und SWE Bench Pro.

00:03:26Ja, Opus gewinnt.

00:03:28Aber wenn wir den zweiten mit dem dritten Platz vergleichen

00:03:31und V4 ist immer auf dem dritten Platz,

00:03:33gibt es nicht den riesigen Abstand, den man erwarten würde.

00:03:36Ich meine, fünf Punkte sind nicht nichts, weißt du,

00:03:38bei SWE Bench Verified, 85 zu 86.

00:03:41Aber noch einmal: achtmal günstiger, Open Source.

00:03:45Du weißt schon, es gibt hier einige tatsächliche Kompromisse,

00:03:46die wir eingehen können, wenn wir nicht die meiste Leistung brauchen.

00:03:49Eine weitere interessante Sache,

00:03:51über die man sprechen kann, ist der lange Kontext, bei dem Opus 4.7 seltsamerweise

00:03:55den Zahlen nach wirklich schlecht ist, deutlich schlechter als 4.6,

00:03:58was mich irgendwie verblüfft.

00:04:00Und wenn wir von langem Kontext sprechen,

00:04:01bei dem wir versuchen, Dinge abzurufen,

00:04:03zwischen 500.000 Token und 1 Million Token,

00:04:06ist 4.7 tatsächlich schrecklich.

00:04:08Und schneidet viel schlechter ab als DeepSeek und GPT 5.5.

00:04:12Jetzt könnte man eine ganze Diskussion darüber führen,

00:04:14warum man überhaupt im Bereich von 500.000 bis 1 Million Token arbeitet.

00:04:17Wie viele Leute arbeiten eigentlich dort?

00:04:20Denn wir erleben dort so oder so Kontext-Verfall,

00:04:22egal, welches Modell du benutzt.

00:04:24Aber es ist interessant, dass wir aus irgendeinem Grund

00:04:26eine gewisse Regression gesehen haben,

00:04:27wenn es um die Anthropic-Modelle geht.

00:04:29Aber im Großen und Ganzen denke ich, die Erkenntnis ist,

00:04:325.5 ist wirklich stark.

00:04:33Es schlägt Opus 4.7 bei bestimmten Metriken,

00:04:36verliert bei bestimmten Metriken,

00:04:37aber es ist ein extrem robustes Modell.

00:04:39Und obendrein, nun ja, V4 Pro hinkt im Großen und Ganzen hinterher.

00:04:42Es ist in Schlagdistanz, während es unendlich viel günstiger ist,

00:04:45was wiederum eine großartige Option für deinen durchschnittlichen Kunden ist.

00:04:48Denn momentan fühlt es sich an, als hättest du nicht viele Optionen,

00:04:52auf der Open-Source-Seite, die tatsächlich konkurrieren können.

00:04:54Lass uns jetzt in den direkten Vergleichstest

00:04:56mit allen drei dieser Modelle springen.

00:04:59Und wir benutzen für jedes dieser Modelle ein Harness.

00:05:00Bei 5.5 wird es Codecs sein.

00:05:02Bei Opus 4.7 wird es Claude Code sein.

00:05:04Und bei DeepSeek V4 Pro benutze ich Open Code.

00:05:07Und für den ersten Test werden wir sie

00:05:10einen Flugsimulator für uns

00:05:11in 3JS erstellen lassen, der im Browser läuft.

00:05:14Du kannst den Prompt genau hier sehen.

00:05:17Ich sage, ich möchte, dass sich das Fliegen gut anfühlt.

00:05:18Ich möchte, dass es ein gewisses Gewicht hat.

00:05:20Ich möchte starke Visuals und ich möchte, dass es

00:05:21die Struktur und die Werkzeuge nutzt, die es für korrekt hält.

00:05:25Es ist also unkompliziert genug, dass sie wissen, was zu tun ist,

00:05:27doch es gibt genug Spielraum, damit wir

00:05:30einige Divergenzen zwischen den Modellen sehen können.

00:05:33Und während wir uns ansehen werden,

00:05:34was sie im One-Shot schaffen,

00:05:36werden wir mehrere Iterationen davon durchlaufen

00:05:38und Folge-Prompts haben.

00:05:40Denn so cool es ist zu sehen,

00:05:44wie gut es im One-Shot abschneidet,

00:05:46so arbeiten wir im echten Leben nicht wirklich, oder?

00:05:49Ich möchte sehen, wie es abschneidet,

00:05:52wenn ich ihm Folge-Prompts gebe

00:05:54und wie schnell es dauert, bis ich etwas habe, das mir gefällt.

00:05:55Und wenn wir diese drei Modelle vergleichen,

00:05:57gibt es wirklich vier Dinge, auf die ich achten werde.

00:05:58Es wird die Zeit sein.

00:06:01Wie lange dauert es, das zu bauen?

00:06:02Kosten, wie viele Token verbrauchen wir?

00:06:04Qualität, wie gut ist es?

00:06:06Und dann ist vier die Art von Stimmung (Vibes).

00:06:06Und das bezieht sich irgendwie auf Qualität.

00:06:09Es ist sehr subjektiv.

00:06:11Welches mag ich eigentlich mehr?

00:06:13Und auch erwähnenswert, alle drei Modelle,

00:06:16alle drei Harnesses benutzen auch genau die gleichen Fähigkeiten.

00:06:18Beginnen wir also mit DeepSeek und den Fragen,

00:06:20die es uns stellt. Es fragt, welche Art von Flugmodell wir wollen.

00:06:22Lass uns ein volles Sim-Modell nehmen.

00:06:23Es empfiehlt Ozeane und Inseln für das Terrain.

00:06:25Das nehmen wir.

00:06:26Lass uns sehen, und dann fragt es nach Kameravorlieben.

00:06:27Lass uns beides machen.

00:06:29Lass uns sehen, ob es uns einen Schalter

00:06:32für die Ego- und die Third-Person-Perspektive geben kann.

00:06:33Wir nehmen seine empfohlene Werkzeugpräferenz.

00:06:35Und wir nehmen einfach ein Low-Poly-Modell

00:06:38für das Flugzeug und die Visuals selbst.

00:06:40Jetzt zu Codecs, die gleiche Art von Fragen.

00:06:42Obwohl es uns nur drei stellt.

00:06:44Sagt, für welche Art von Flug sollte dieser Plan optimiert sein?

00:06:48Lass uns ein hartes Simulationsmodell nehmen.

00:06:50Welches spielbare Erlebnis ist am wichtigsten für den Browser?

00:06:52Lass uns Insel-Start-Loop machen.

00:06:54Es ist irgendwie interessant, wie sie alle dasselbe haben.

00:06:56Und welche Kamera- und Flugzeugpräsentation?

00:06:58Ich werde dafür auch einen Umschalter nehmen.

00:07:02Und für Claude Code nehmen wir Study-Sim-Learning

00:07:04für den Input: Ozean und Inseln.

00:07:05Wir werden Tastatur und Maus nehmen.

00:07:09Es lässt es nicht an die Arbeit gehen.

00:07:11Der Planmodus ist also im Großen und Ganzen bei allen drei sehr ähnlich.

00:07:12Ziemlich die gleichen Fragen wie:

00:07:13Was willst du, wie die Physik sein soll?

00:07:15Was willst du, wie das Terrain sein soll?

00:07:17Was willst du, wie der Kamerawinkel sein soll?

00:07:19Also kein riesiger Unterschied dort.

00:07:20Und lass uns sehen, womit sie planmäßig zurückkommen.

00:07:22Alles klar, alle drei Pläne sind fertig.

00:07:24Lass uns also jeden von ihnen ziemlich schnell durchgehen

00:07:26und einige der Unterschiede sehen.

00:07:29Das erste, das wir uns hier ansehen, ist DeepSeek.

00:07:31Und es ist ziemlich minimalistisch in Bezug auf den Plan, den es darlegt.

00:07:33Es gibt uns also die Projektstruktur

00:07:35und spricht dann sehr schnell über Flugphysik,

00:07:37Umgebung, Kamera und HUD-Overlay

00:07:40und wirklich nur ein paar Aufzählungspunkte.

00:07:43Auf der anderen Seite, wenn wir uns 5.5 in Codecs ansehen,

00:07:46sowie die Annahmen,

00:07:47die das alles für uns darlegen.

00:07:49Und dann haben wir den Plan von Claude Code, der am längsten gedauert hat.

00:07:50Er brauchte etwa fünf Minuten, ist aber bei weitem der gründlichste,

00:07:53weil er den Kontext und den Stack umfasst.

00:07:55Das Layout spricht über das Flugmodell.

00:07:57Es geht auf die verschiedenen Flugphasen ein,

00:08:00spricht über Strömungsabrisse, wie den Strömungsabriss-Warnsummer.

00:08:02Es geht sehr, sehr ins Detail.

00:08:03Es behandelt die Steuerung, die Welt, den Mod,

00:08:06das eigentliche Flugzeug, das wir benutzen werden, die Leistung,

00:08:08und es geht immer so weiter.

00:08:10Also sehr detailliert.

00:08:11Jetzt lassen wir alle drei ihren Plan umsetzen,

00:08:14und wir werden sehen, wie das Endergebnis aussieht.

00:08:15GPT 5.5 in Codecs war als erstes fertig.

00:08:19Also schauen wir uns an, wie es aussieht.

00:08:20Hier ist der Flugsimulator, den es uns erstellt hat.

00:08:22Wir haben ein paar Wolken am Himmel.

00:08:26Wir haben da oben etwas, das wie eine Anstellwinkelanzeige aussieht.

00:08:31Wir haben unsere Geschwindigkeit weiter unten,

00:08:34und mal sehen, ob wir das Ding

00:08:35tatsächlich vom Boden abheben können.

00:08:36Ich merke an, es gibt keine richtige Landebahn.

00:08:38Es ist einfach nur glattes Gras.

00:08:39Und eigentlich sollte es so eine Art Insel sein.

00:08:42Obwohl, wenn die Kamera etwas spinnt,

00:08:45kann man für einen Moment die Landebahn da unten sehen.

00:08:48Alles klar, wir stürzen ab und wir...

00:08:50wir kommen gar nicht vom Boden weg, oder?

00:08:51Das hier ist also tatsächlich etwas,

00:08:54es ist eigentlich ziemlich schwierig.

00:08:55Also werde ich ihm

00:09:00einen zweiten Prompt geben und bitten, es ein bisschen einfacher

00:09:03zu fliegen zu machen, denn es passiert hier eine Menge,

00:09:05aber das ist hart.

00:09:06Also habe ich geschrieben: Es ist wirklich schwer zu fliegen.

00:09:08Können wir das benutzerfreundlicher machen?

00:09:10Also ein bisschen mehr wie ein Arcade-Spiel.

00:09:12Und auch die Grafik könnte etwas Arbeit vertragen.

00:09:15Mal sehen, wie es das macht.

00:09:16Es ist übrigens bemerkenswert, dass 5.5 etwa sieben Minuten brauchte,

00:09:21um diesen ersten Entwurf für uns zu erstellen.

00:09:23Und es hat 63.000 Token verbraucht.

00:09:26Okay, es hat gesagt, es hat das Fliegen etwas einfacher gemacht

00:09:28und die Grafik aktualisiert.

00:09:29Also schauen wir uns an, wie der zweite Durchgang aussieht.

00:09:32Das haben wir bekommen.

00:09:32Die Grafik sieht definitiv besser aus,

00:09:34aber mal sehen, ob wir diesmal tatsächlich von der Landebahn

00:09:36abheben können.

00:09:37Also, gut, Schub auf hundert Prozent,

00:09:4150, 60, sieben.

00:09:43Was ist die Abhebegeschwindigkeit bei einer Cessna?

00:09:46Alles klar, 70, 80, 90.

00:09:49Wir müssen jetzt vom Boden wegkommen.

00:09:51Okay, falscher Weg.

00:09:53Los geht's, abheben, abheben.

00:09:56Nein, das wird mich wahrscheinlich wieder zum Absturz bringen, oder?

00:09:58Ja, Strömungsabriss.

00:09:59Okay, das braucht noch etwas Arbeit.

00:10:02Also geben wir Codex noch eine Chance.

00:10:05Geben wir 5.5 noch eine Chance,

00:10:07das wirklich spielbar zu machen.

00:10:08Ich habe ihm also gesagt, dass ich das Flugzeug nicht einmal

00:10:10vom Boden in den Flug bekomme.

00:10:11Wir müssen das Abheben definitiv einfacher machen

00:10:12und das Ding wirklich fliegen können.

00:10:14Okay, es sagt, es hat das Problem beim Start behoben.

00:10:16Anscheinend waren vorher die Bremsen blockiert.

00:10:19Ich weiß nicht, ob das der Grund war, warum wir es nicht hinbekommen haben.

00:10:21Oh, es hat es nicht automatisch auf Start eingestellt.

00:10:24Landeklappen, ja, das war,

00:10:25wir hatten das im Super-Simulator-Modus.

00:10:29Aber hier ist der dritte Versuch unseres Flugsimulators.

00:10:32Mal sehen, wie wir uns schlagen.

00:10:34Können wir vom Boden abheben?

00:10:36Oh, wir hüpfen diesmal auf der Landebahn,

00:10:37was auch immer das ist.

00:10:38Alles klar, cool, wir sind in der Luft.

00:10:41Wir bewegen uns tatsächlich.

00:10:44Mal sehen, ob wir durch einen dieser Ringe kommen.

00:10:45Ich meine, die Grafik ist nicht so schlecht, wissen Sie,

00:10:49für etwas, das in weniger als 10 Minuten generiert wurde.

00:10:52Es scheint ziemlich genau zu sein, was,

00:10:56es zeigt mir meine Vertikalgeschwindigkeit,

00:10:59Fuß pro Minute unten am Rand,

00:11:00meine tatsächliche Höhe, die Knoten, Kurs, Höhe über Grund (AGL).

00:11:04Es ist also relativ ausgefeilt

00:11:06in Bezug darauf, alles zu verfolgen.

00:11:08Ich meine, diese kleine Anzeige vorne,

00:11:10sieht aus wie eine Anstellwinkelanzeige,

00:11:13was ziemlich cool ist.

00:11:14Es hat also einige gute Dinge an sich.

00:11:18Die eigentliche Steuerung ist etwas holprig.

00:11:21Wie Sie sehen können, kann ich das kaum kontrollieren,

00:11:23aber im Großen und Ganzen nicht schlecht.

00:11:25Wir können das irgendwie kamikaze-mäßig fliegen

00:11:27und sehen, was bei, wissen Sie, 18.000 Fuß pro Minute passiert.

00:11:31Aber ja, wissen Sie, für 66.000 Token,

00:11:36etwa 10 Minuten, 15 Minuten oder so, mehr oder weniger,

00:11:40mit dem Hin und Her,

00:11:41denke ich nicht, dass das schlecht ist.

00:11:42Also schauen wir uns DeepSeek an.

00:11:44Es hat etwa 10 Minuten gebraucht, um das zu tun.

00:11:46Und in Bezug auf Token: 63.000 und 44 Cent.

00:11:51Also 44 Cent, 10 Minuten.

00:11:53Und hier ist, was DeepSeek für uns entwickelt hat.

00:11:56Ich habe keine Ahnung,

00:12:00was ich hier sehe.

00:12:03Das sollte eine Third-Person-Ansicht sein.

00:12:06Das sollte das Cockpit sein.

00:12:07Und offensichtlich war unser erster Durchgang mit DeepSeek

00:12:11ein weiteres Desaster.

00:12:13Ich sage also DeepSeek, dass der Simulator ein komplettes Chaos ist.

00:12:16Die Grafik ist total fehlerhaft

00:12:17und ich kann überhaupt nichts fliegen.

00:12:20Bitte reparieren.

00:12:21Und hier ist unser zweiter Durchgang.

00:12:24Ich habe immer noch keine Ahnung.

00:12:26Absolut keine Idee.

00:12:28Was zum Teufel DeepSeek da macht.

00:12:30Oh, hey, da ist ein Flugzeug.

00:12:32Oh, da ist etwas.

00:12:33Ja, das ist, das ist brutal.

00:12:38Und ehrlich gesagt habe ich das Gefühl, selbst wenn ich ihm einen weiteren Prompt gebe,

00:12:42müsste ich sehr, sehr spezifisch werden,

00:12:44was wir zu erreichen versuchen, was wiederum,

00:12:47ziemlich hinter dem zurückbleibt, was wir mit Codex erreicht haben.

00:12:49Da waren es sehr, wissen Sie, eher vage Prompts.

00:12:51Ich konnte zumindest etwas erreichen, das in die Richtung geht,

00:12:53sogar beim ersten Versuch.

00:12:54Hier hat es ganz klar mit der Grafik

00:12:57komplett zu kämpfen.

00:12:58Wir sind einfach, ich weiß nicht einmal, wie ich das beschreiben soll,

00:13:01aber hey, es war super billig.

00:13:03Also schauen wir uns an, was Claude Code

00:13:07als Referenz für uns tun konnte.

00:13:09Es hat 13 Minuten gedauert, den Plan tatsächlich auszuführen.

00:13:12Der Plan selbst hat fünf Minuten gedauert.

00:13:13Also nennen wir es 20 Minuten bis zum ersten Ergebnis.

00:13:17Und dann die gesamten Token,

00:13:19dieser Durchlauf brauchte etwa 15% plus die 5% vor dem Plan.

00:13:22Wir schauen also auf, oh Entschuldigung,

00:13:24wir kommen auf 11% Kontext plus 5% davor.

00:13:28Sagen wir 20 Minuten, 150.000 Token für Claude Code,

00:13:33was definitiv das teuerste

00:13:34und langsamste von allen war.

00:13:36Und hier ist Claude Codes Versuch dazu.

00:13:39Warum auch immer befinden wir uns sofort in der Luft.

00:13:43Wir stürzen ab.

00:13:44Wir fliegen nach Instrumentenflugregeln (IFR).

00:13:45Ich weiß nicht, was passiert.

00:13:48Wir sind dabei, irgendetwas zu rammen.

00:13:50Können wir das retten?

00:13:51Können wir das aus einem Sturzflug abfangen?

00:13:53Nein, wir stürzen ab, nein, wir sind tot.

00:13:54Okay, das ist interessant.

00:13:56Wieder schleudert es uns sofort in die Luft.

00:14:00Wir sind in den Wolken.

00:14:02Wir stürzen ab.

00:14:03Ich weiß nicht, was passiert.

00:14:05Wir brauchen, wir brauchen einen zweiten Durchgang.

00:14:08Also habe ich geschrieben: Beim Laden werde ich sofort in die Luft geschleudert.

00:14:11Es ist schwer zu kontrollieren.

00:14:12Ich möchte auf der Landebahn starten und es soll einfacher zu fliegen sein.

00:14:15Oh, und übrigens, verbessern Sie auch diese Grafik.

00:14:17Es hat etwa vier Minuten gedauert, aber es wurden Änderungen vorgenommen.

00:14:20Wir spawnen auf der Landebahn.

00:14:22Es hat das Fahrwerk geändert.

00:14:23Jetzt ist es ein Bugradfahrwerk und ein paar andere Sachen.

00:14:24Also schauen wir mal, wie es aussieht.

00:14:26Richtig, also hier ist es.

00:14:27Wieder werden wir sofort in eine Nebelbank geworfen.

00:14:29Ich versuche, das Ding zu kontrollieren.

00:14:31Und ich, ja, da ist absolut nichts zu kontrollieren.

00:14:33Alles klar, wir werden,

00:14:34wir geben Claude Code noch eine Chance hier.

00:14:37Also habe ich ihm gesagt, dass es mich immer noch sofort in den Himmel

00:14:39schleudert.

00:14:40Ich sagte, lassen Sie uns auf ein viel arcadigeres Gefühl

00:14:42bei der Steuerung gehen.

00:14:43Ich denke, das hätten wir wahrscheinlich bei den ersten

00:14:44Prompts für alle drei tun sollen.

00:14:46Ich denke, wenn man eine Art realistische Simulation will,

00:14:50tut es sich wirklich schwer,

00:14:53das auf eine Art und Weise zu tun, bei der es noch benutzerfreundlich ist.

00:14:57Ich glaube, es leistet unter der Haube gute Arbeit

00:14:59in Bezug auf, okay, Anstellwinkel.

00:15:01Alles klar, du stürzt bei diesem, wissen Sie,

00:15:02Winkel im Vergleich zur Geschwindigkeit ab und so weiter.

00:15:04Aber das tatsächlich vom Computer aus zu manipulieren

00:15:07ist im Grunde unmöglich.

00:15:09Obwohl ich denke, dass das Nebel-Zeug wirklich seltsam ist.

00:15:12Also schauen wir mal, ob es nach der zweiten Runde von Prompts

00:15:15in der Lage ist, etwas besser abzuschneiden,

00:15:16denn im Moment hat GPT 5.5 viel, viel besser abgeschnitten.

00:15:20Claude Code hat also einige weitere Änderungen vorgenommen,

00:15:22es benutzerfreundlicher gemacht.

00:15:23Und schauen wir mal, ob ich diesmal immer noch

00:15:24diesmal für meine Instrumentenflugberechtigung.

00:15:26Also ja, wir machen weiter.

00:15:28Wir machen weiter mit der Instrumentenflugberechtigung.

00:15:30Wir sind hier bei den Instrumenten, aber ich kann es irgendwie sehen.

00:15:33Ich kann mein Instrumentenbrett überprüfen.

00:15:35Alles klar, wir verlassen die Landebahn.

00:15:37Ja, okay.

00:15:42Kann ich... warum steht ein Baum auf der Landebahn?

00:15:44Ich versuche aufzusteigen.

00:15:46Kann ich aufsteigen?

00:15:47Kann ich die Nase hochziehen?

00:15:49Klicke auf Canvas, um die Maus zu sperren, was?

00:15:53Oh, wir sind in der Luft.

00:15:54Nein, nein, wir sind abgestürzt.

00:15:57Also ja, ich denke, das ist ziemlich eindeutig.

00:16:02GPT 5.5 ist meiner Meinung nach eindeutig der Gewinner.

00:16:06Claude Code war auf dem zweiten Platz.

00:16:08Ich würde ihm den zweiten Platz geben.

00:16:10Es hatte definitiv zu kämpfen,

00:16:13selbst mit den Prompts, die wir ihm gegeben haben.

00:16:14Wir haben ihm keine großartigen Prompts gegeben, seien wir ehrlich.

00:16:16Ich denke, mit mehr Zeit, besseren Prompts,

00:16:19ein paar mehr Hin-und-Her-Diskussionen,

00:16:20hätten wir es dahin bringen können, wo wir es haben wollten.

00:16:21Es hatte zumindest ein Flugzeug, eine Landebahn.

00:16:25Es hatte Bäume auf der Landebahn,

00:16:26aber es hatte die eigentlichen Dinge, die wir brauchten,

00:16:29im Gegensatz zu DeepSeek mit OpenCODE.

00:16:32Ich hatte keine Ahnung, was da los war.

00:16:34Das war ein komplettes Chaos.

00:16:35Ich habe das Gefühl, ich hätte von vorne anfangen müssen,

00:16:36also ihm einen sehr spezifischen Prompt geben müssen.

00:16:38Es war nicht einmal annähernd brauchbar,

00:16:39aber GPT 5.5, direkt aus dem Stand,

00:16:42bei ziemlich vagen Prompts,

00:16:44fand ich, hat es wirklich gut gemacht.

00:16:455.5 verbrauchte außerdem insgesamt 66.000 Token.

00:16:48Wir schauen uns hier Opus insgesamt an,

00:16:52etwa 200.000 Token.

00:16:53Also ein Viertel der Token, im Wesentlichen ein Viertel der Kosten.

00:16:56Und es war ein bisschen schneller.

00:16:58Ich meine, an diesem Punkt ist es mir egal,

00:16:59wie viel länger OpenCODE tatsächlich brauchte als GPT 5.5.

00:17:03Und es war einfach schlecht, seien wir ehrlich, es war einfach schlecht.

00:17:07Kommen wir nun zu Test Nummer zwei.

00:17:10Diesmal werden wir sie bitten,

00:17:12eine Landingpage zu erstellen, die WebGPU-Shader-Arbeit

00:17:16mit Three.js präsentiert.

00:17:18Nun, WebGPU-Shader-Arbeit ist die Art von Dingen, die man

00:17:21auf Award-Websites sieht.

00:17:23Ich spreche von Websites wie Igloo, so etwas,

00:17:26sehr hochwertige Grafiken.

00:17:28Es sieht aus wie ein Videospiel.

00:17:29Es nutzt im Grunde die Grafikkarte deines Computers,

00:17:32um all das zu rendern.

00:17:34Ich erwarte nicht, dass einer von ihnen auch nur annähernd

00:17:37das erreicht, was wir hier sehen, aber ich will sehen, was sie tun können,

00:17:40indem sie im Wesentlichen Shader-Technologie verwenden.

00:17:42Das ist definitiv eine Stufe über deiner einfachen

00:17:45SaaS-vorlagenbasierten Landingpage.

00:17:46Ich will sehen, was sie können, und sie an ihre Grenzen

00:17:48in der Welt des Webdesigns bringen.

00:17:50Ich habe allen eine Fähigkeit gegeben, die tatsächlich aufschlüsselt,

00:17:53wie man so etwas macht.

00:17:55Es ist also nicht so, dass sie völlig im Dunkeln tappen

00:17:57oder einer einen Vorteil gegenüber dem anderen hat.

00:18:00Das einzige, was ich ihnen gesagt habe, ist, dass es sich modern

00:18:02und visuell beeindruckend anfühlen soll, etwas, das man bei Awards sehen würde,

00:18:05und dass sie GPU-Compute intelligent nutzen sollen.

00:18:08Sie können also den Stack und die Projektstruktur wählen,

00:18:10die sie mögen, und gutes Urteilsvermögen bei Hero-Konzept,

00:18:13UI und Interaktionen zeigen.

00:18:15Und genau wie beim ersten Test sind sie alle im Planungsmodus.

00:18:17Also fangen wir an.

00:18:18Okay, sie haben alle ihren Plan fertiggestellt, und witzigerweise

00:18:21hat keiner von ihnen mir irgendwelche Fragen gestellt,

00:18:22obwohl wir sie in den Planungsmodus versetzt haben.

00:18:24Schauen wir uns also zuerst GPT 5.5 an.

00:18:28Es sagt uns, dass es einen vollflächigen,

00:18:30interaktiven, GPU-gesteuerten Hero-Bereich machen wird.

00:18:32Das Konzept wird ein lebendiges Signalfeld

00:18:34mit einer Art dichtem Partikel-Ding sein, das es machen wird.

00:18:36Wir werden sehen, wie das am Ende aussieht.

00:18:38Und insgesamt ist es ein minimales Landingpage-Konzept im Award-Stil.

00:18:41Vollständig interaktive WebGPU-Szene

00:18:43mit pointer-reaktiver Compute-Simulation.

00:18:46Alles klar, für DeepSeek ist es ein ziemlich kurzer und knackiger Plan,

00:18:50genau wie wir es beim Flugsimulator gesehen haben.

00:18:53Hoffentlich bekommen wir dieses Mal ein besseres Ergebnis,

00:18:54aber ein Hero-Bereich mit 75.000 GPU-Compute-Partikeln.

00:18:58Ich vermute irgendwie, dass alle von ihnen

00:19:01auf eine Art Partikel-Thema für den Hero-Bereich setzen werden.

00:19:04Es wird also Mausinteraktion und Integration haben.

00:19:08Es wird eine einmalige Initialisierung geben.

00:19:10Und dann sollten wir Dinge sehen wie Bloom,

00:19:13chromatische Aberration, eine benutzerdefinierte Vignette und etwas Filmkörnung.

00:19:16Wir werden also sehen, wie das am Ende tatsächlich aussieht.

00:19:19Und dann haben wir Opus 4.7, wieder ein Plan,

00:19:21der auf dieses Partikel-Ding mit Bloom setzt,

00:19:23und es wird interaktiv mit der Maus sein.

00:19:25Wir werden also sehen, ob einer davon tatsächlich anders aussieht,

00:19:27denn oberflächlich klingen alle ihre Pläne sehr ähnlich.

00:19:29Das erste war GPT 5.5.

00:19:32Es hat etwa sechs Minuten gedauert.

00:19:34Und an Token haben wir 107.000 verbraucht.

00:19:37Schauen wir mal, was es uns gebaut hat.

00:19:40Und hier ist, was es für uns erstellt hat.

00:19:42Nun, das ist sehr hell.

00:19:45Es ist also schwer, die eigentlichen Partikel überhaupt zu sehen,

00:19:47aber weißt du, während wir nach oben und unten scrollen,

00:19:50gibt es eine Animation, die im Hintergrund abläuft,

00:19:52sowie einige subtile Farbveränderungen.

00:19:56Es sieht so aus, als ob unsere Maus im Moment

00:20:00die Partikel anziehen soll.

00:20:01Und wir haben, ich bewege das mal hierhin.

00:20:03Es gab einige Optionen zum Abstoßen versus Drift.

00:20:08Aber wie gesagt, es ist etwas schwer zu sehen,

00:20:11wegen der Helligkeit.

00:20:12Also habe ich ihm gesagt, dass es schwer ist, die Partikel

00:20:14wegen der Helligkeit tatsächlich zu sehen.

00:20:14Es übernimmt auch einen Großteil der Hero-Technik.

00:20:16Können wir also die Helligkeit etwas reduzieren

00:20:18und es auch ein bisschen mehr nach rechts verschieben?

00:20:20Denn im Moment ist es irgendwie überwältigend.

00:20:23Man kann den Text links nicht wirklich lesen,

00:20:25weil diese Partikel einfach so verdammt hell sind.

00:20:27Und hier ist das Update nach dem zweiten Durchlauf.

00:20:30Es ist ein bisschen besser.

00:20:31Es ist nicht so überwältigend und lässt etwas Platz für den Text.

00:20:35Obwohl ich sagen muss, dass es fast etwas unscharf ist,

00:20:39aber weißt du, es ist nicht schlecht.

00:20:41Es hat genau das getan, was wir ihm gesagt haben,

00:20:44angesichts der etwas vagen Aufgabenstellung.

00:20:46Ich bin also nicht gerade weggeblasen von dem Design, das es entwickelt hat,

00:20:49aber ich bin auch nicht sauer deswegen.

00:20:51Schauen wir uns jetzt Claude Code an,

00:20:52denn während wir all das gemacht haben,

00:20:55steckt DeepSeek immer noch hier in den Gräben

00:20:57und versucht, das herauszufinden.

00:20:58Und hier ist, was Claude Code uns gegeben hat.

00:21:01Also irgendwie nichts.

00:21:06Ich bin mir nicht sicher, ob der Hintergrund,

00:21:10ich nehme an, der gesamte Hintergrund soll das

00:21:14WebGL sein, nehme ich an.

00:21:19Es ist sehr schlicht,

00:21:21was ich vermute, etwas ist, das man absolut tun könnte.

00:21:24Ich meine, auf dem Bildschirm sieht es nicht,

00:21:25ich meine, es sieht irgendwie cool aus, aber ich werde ehrlich sein,

00:21:28ich habe nach etwas Auffälligerem gesucht.

00:21:31Also beim zweiten Durchlauf,

00:21:31als ich ihm sagte, es solle es etwas auffälliger machen,

00:21:34gab es keinen großen Unterschied.

00:21:35Obwohl es sehr subtil ist.

00:21:38Da ist irgendwie diese Filmkörnung,

00:21:40fast wie diese Unschärfe, die von unten nach oben verläuft.

00:21:43Es ist also eine ziemlich subtile Sache.

00:21:45Und du kannst hier unten sehen,

00:21:47es verfolgt die Bilder pro Sekunde.

00:21:49Es verwendet 250.000 Partikel.

00:21:51Also, ich meine, ehrlich gesagt sieht es cool aus.

00:21:54Es ist nur nicht super auffällig.

00:21:56Es ist definitiv eine Geschmackssache.

00:21:58Die gesamten Token auf der Seite von Claude Code waren etwa 175.000,

00:22:01und es dauerte etwas länger als 5.5 in Codex.

00:22:05Schauen wir uns nun DeepSeek an,

00:22:07das an diesem Punkt 116.000 Token verbraucht hat.

00:22:10Es hat auch am längsten gedauert,

00:22:12aber die Gesamtkosten liegen wieder unter einem Dollar.

00:22:15Und hier ist, was es uns gegeben hat.

00:22:17Es ist also diese Art von Partikelfeld-Ding,

00:22:21das einigermaßen meiner Maus folgt.

00:22:25Interessant.

00:22:27Ich glaube, es könnte einen epileptischen Anfall auslösen.

00:22:29Ehrlich gesagt, darüber hinaus ist es ziemlich langweilig.

00:22:35Der Flux, weißt du, das Röntgenbild hier ändert irgendwie die Farben,

00:22:39aber ja, so ziemlich nur dieses Ding erschaffen.

00:22:43Nachdem ich DeepSeek angewiesen hatte, einen weiteren Durchlauf zu machen,

00:22:45kam es dann mit diesem Ergebnis zurück,

00:22:46bei dem es jetzt irgendwie so ein seltsames Parallaxe-Ding hat.

00:22:49Es hat etwas blaues Zeug, das im Hintergrund passiert.

00:22:53Und jetzt dieses Ding, das wie ein UFO ist,

00:22:55das irgendwie auf deine Maus reagiert,

00:22:58aber ja, es ist etwas.

00:23:02Und insgesamt lag die Token-Anzahl von DeepSeek bei 130.000 Token,

00:23:05was bei 1,43 Dollar liegt.

00:23:08Wo lässt uns das also nach all diesen Tests wirklich?

00:23:13Sprechen wir nun über die Endergebnisse.

00:23:15Wenn es um Test Nummer eins geht,

00:23:16das war der Flugsimulator, klarer Gewinner.

00:23:18Das war GPT 5.5 innerhalb von Codex.

00:23:21Es war schneller als Opus 4.7 innerhalb von Claude Code.

00:23:25Es war auch schneller und das Endergebnis war bei weitem das beste.

00:23:29DeepSeek hat beim Flugsimulator schrecklich abgeschnitten.

00:23:32Es war nicht einmal annähernd das, was wir zu tun versuchten.

00:23:34Ich hätte es weiter anregen müssen,

00:23:35es anregen, es anregen müssen, um es auch nur annähernd

00:23:38an den ersten Durchgang von 5.5 und Opus 4.7 heranzubringen, und Claude Code

00:23:43war so, eh, es war nicht schrecklich.

00:23:46Es hat am Anfang wirklich nicht funktioniert,

00:23:48aber nach ein paar Prompts konnte man sagen,

00:23:50Wir konnten es an einen Punkt bringen, an dem es gleichwertig

00:23:52zu dem war, was GPT 5.5 leistete.

00:23:54Das hätte mehr Prompts erfordert.

00:23:55Es hätte mehr Zeit gekostet

00:23:57und wäre letztendlich teurer gewesen.

00:23:59Also ein klarer Sieg für 5.5.

00:24:01Was die Web-GPU-Landingpage angeht,

00:24:03hatte DeepSeek auch hier Schwierigkeiten.

00:24:04Ich war kein Fan davon.

00:24:06Ich weiß nicht einmal, was das darstellen soll.

00:24:08Sicher, ich habe ihm keinen besonders guten Prompt gegeben,

00:24:10aber ist das wirklich das, was wir als

00:24:13Basis-Median-Ergebnis bekommen werden?

00:24:16Wenn ich DeepSeek nicht an die Zügel nehme

00:24:19und es wirklich zwinge, etwas zu tun, anscheinend ja.

00:24:22Wenn wir jetzt Opus und 5.5 vergleichen,

00:24:24hätte ich mich für Opus 4.7 und Claude Code entschieden,

00:24:27was die Umsetzung der Web-GPU-Sache angeht.

00:24:29Ich denke, das ist auch eine Frage des Geschmacks.

00:24:31Ja, man könnte argumentieren, dass 5.5 auffälliger war,

00:24:35aber ich fand es irgendwie hässlich.

00:24:37Noch einmal, bei all diesen Tests haben wir die Prompts eher vage gehalten,

00:24:41um zu sehen, welchen Weg das Modell einschlagen würde.

00:24:43Daher würde ich Opus hier definitiv den Vorzug geben,

00:24:46obwohl es teurer war

00:24:48und auch etwas länger gebraucht hat.

00:24:50Wenn man ihnen einen konkreteren Prompt gegeben hätte,

00:24:55der sehr genau vorgibt, was man tun möchte,

00:24:57hätte 5.5 genau das getan, was wir wollten.

00:24:59Es hat ja eine Web-GPU-Landingpage erstellt.

00:25:02Ich fand sie nur hässlich.

00:25:04Die Aufgabe wurde also trotzdem erfüllt.

00:25:06Nur eben nicht so gut wie durch Opus, denke ich.

00:25:08Was bedeutet das nun im Großen und Ganzen,

00:25:09wenn man alles zusammennimmt?

00:25:11Nun, ich denke, es ist eine tolle Nachricht

00:25:13für alle, die Agent-Code-Systeme nutzen.

00:25:16Wir haben Auswahlmöglichkeiten, richtig?

00:25:18Man kann Opus und Claude Code verwenden,

00:25:20oder man nutzt GPT 5.5 und Codecs.

00:25:23Mit beiden liegt man nicht falsch.

00:25:25Ich glaube, das ist mittlerweile reine Geschmackssache.

00:25:28Und das Beste daran ist: Wenn man den Weg über Claude Code geht,

00:25:31lässt sich das meiste davon auf Codecs übertragen.

00:25:33Und wenn man den Weg über Codecs wählt,

00:25:34gilt das meiste davon auch für Claude Code.

00:25:37Ich sehe also keinen Vendor Lock-in, im Sinne von,

00:25:40"Oh, ich habe nur Claude Code gelernt".

00:25:42Dass man nicht zu Codecs wechseln könnte oder umgekehrt.

00:25:44Das ist absolut nicht der Fall.

00:25:45Wenn man es richtig angeht,

00:25:46lernt man die Grundlagen der KI

00:25:48und wie man Dinge baut.

00:25:49Und das lässt sich auf beide anwenden.

00:25:51Und je mehr Wettbewerb es gibt,

00:25:53desto besser ist es für uns, die Verbraucher.

00:25:54Was DeepSeek angeht, tja, ich weiß nicht.

00:25:59Ich war nicht sehr beeindruckt.

00:26:00Vielleicht ist das eine Situation, wo man sagt, okay,

00:26:02DeepSeek ist sinnvoll, wenn wir einfachere Aufgaben erledigen,

00:26:04für die wir nicht die Power von Opus brauchen,

00:26:06oder die Leistung eines GPT 5.5 nicht erforderlich ist.

00:26:10Denn denken Sie daran, wir sprechen von etwas,

00:26:11das achtmal günstiger ist.

00:26:13Aber das ist natürlich etwas, das wir berücksichtigen müssen.

00:26:16aber war sie achtmal schlechter?

00:26:19Vielleicht, vielleicht auch nicht.

00:26:21Es ist schwer, das wirklich

00:26:23zu artikulieren und zu quantifizieren.

00:26:24Aber natürlich müssen wir das berücksichtigen.

00:26:27Ich sehe es also nicht wirklich als Konkurrenz,

00:26:30um ehrlich zu sein, zu 4.7 oder 5.5.

00:26:33Ich denke jedoch, wenn man einfachere Aufgaben erledigt

00:26:35und sehr token-bewusst oder kostenbewusst arbeitet,

00:26:38dann könnte DeepSeek durchaus für einen infrage kommen.

00:26:41Das war's für heute von mir.

00:26:42Ich hoffe, das hat etwas Licht auf diese drei Modelle geworfen

00:26:45und darauf, wie sie im Vergleich zueinander stehen.

00:26:47Ich finde, es ist eine großartige Zeit für diesen Bereich.

00:26:49Mehr Wettbewerb ist besser für alle.

00:26:51Wie immer, wenn ihr euch Zugang

00:26:53zum Claude Code Masterclass sichern wollt,

00:26:55schaut euch Chase AI Plus an.

00:26:56Einen Link dazu findet ihr in der Beschreibung.

00:26:58Und wir sehen uns dann wieder.

Key Takeaway

GPT 5.5 in Codecs erweist sich als das leistungsstärkste Modell für komplexe Codierungsaufgaben, während Opus 4.7 bei der visuellen Gestaltung punktet und DeepSeek V4 eine kosteneffiziente, wenn auch weniger präzise Open-Source-Alternative bietet.

Highlights

GPT 5.5 kostet 30 $pro 1 Million Output-Token, während Opus 4.7 bei 25$ und DeepSeek V4 bei 3,48 $ liegen.
Im Terminal Bench 2.0 erreicht GPT 5.5 einen Wert von 87,2 und übertrifft damit das Modell Mythos.
Der Bau eines 3JS-Flugsimulators dauerte bei GPT 5.5 etwa 7 Minuten mit einem Verbrauch von 63.000 Token.
Claude Code liefert in der Planung die gründlichsten Ergebnisse, ist jedoch bei der Ausführung langsamer und teurer als GPT 5.5 in Codecs.
DeepSeek V4 Pro erfordert als 1,6-Billionen-Parameter-Modell zwar API-Zugriff, bietet aber eine etwa achtmal kostengünstigere Leistung als die Konkurrenz.
Bei der Web-GPU-Landingpage überzeugt Opus 4.7 durch eine qualitativ hochwertigere visuelle Umsetzung im Vergleich zu den anderen Modellen.

Timeline

Vergleich der Modellkosten und Benchmarks

GPT 5.5 ist mit 30 $ pro 1 Million Output-Token das teuerste Modell im Test.
DeepSeek V4 bietet mit 3,48 $ pro 1 Million Output-Token die mit Abstand niedrigsten Kosten.
Opus 4.7 zeigt eine unerwartete Schwäche bei der Verarbeitung von Kontexten zwischen 500.000 und 1 Million Token.
Benchmarks zeigen, dass GPT 5.5 besonders im Terminal Bench 2.0 mit 87,2 Punkten dominiert.

Die Analyse beginnt mit einem Überblick über die Kostenstruktur und die Benchmark-Leistung. Trotz des hohen Preises von GPT 5.5 behauptet OpenAI, dass durch höhere Effizienz bei der Token-Nutzung die Gesamtkosten für eine Aufgabe nur 20 % über denen von 5.4 liegen. Im Bereich Coding belegen die Benchmarks zwar Opus 4.7 in mehreren Kategorien als Sieger, doch der Abstand zu DeepSeek ist geringer als erwartet. Überraschend ist die Regression bei Opus 4.7 im langen Kontext, wo es schlechter abschneidet als die Konkurrenz.

Testlauf 1: Flugsimulator-Erstellung

GPT 5.5 erstellt als erstes einen funktionalen Flugsimulator innerhalb von 7 Minuten.
DeepSeek V4 liefert für den Flugsimulator unbrauchbare Ergebnisse und erfordert zu spezifische Prompts.
Claude Code benötigt für die Planung 5 Minuten und für die Umsetzung weitere 13 Minuten.
GPT 5.5 erweist sich bei vagen Prompts als am besten handhabbar und liefert das stabilste Endergebnis.

Für den Flugsimulator-Test wurden drei Harnesses verwendet: Codecs für GPT 5.5, Claude Code für Opus 4.7 und Open Code für DeepSeek V4. GPT 5.5 benötigte 63.000 Token und etwa 7 Minuten, um eine spielbare Version zu erstellen. Claude Code produzierte zwar sehr detaillierte Pläne, war jedoch insgesamt langsamer und verbrauchte deutlich mehr Token (150.000). DeepSeek scheiterte an der Grafik und der Physik, was eine manuelle Nachbesserung unmöglich machte.

Testlauf 2: Web-GPU-Landingpage

Opus 4.7 erzielt bei der Erstellung der Web-GPU-Landingpage die ästhetisch ansprechendsten Ergebnisse.
GPT 5.5 erfüllt die Aufgabe, produziert jedoch ein visuell überladenes Design.
DeepSeek V4 liefert erneut nur grundlegende Partikeleffekte ohne erkennbares Webdesign-Konzept.
Die Kosten für DeepSeek in diesem Test liegen bei unter 1,43 Dollar für 130.000 Token.

Dieser Test verlangte eine Landingpage mit WebGPU-Shadern, ähnlich wie bei Award-Websites. GPT 5.5 war schnell, produzierte aber ein zu helles und unscharfes Design. Opus 4.7 wurde hier als Sieger für das Design gewählt, obwohl es teurer war als die Alternativen. DeepSeek V4 lieferte auch hier nur ein einfaches Partikelfeld, das weit hinter den visuellen Anforderungen zurückblieb.

Abschlussfazit und Modellwahl

GPT 5.5 ist die derzeit beste Wahl für automatisierte Agent-Systeme.
DeepSeek V4 ist eine Option für sehr einfache oder kostenbewusste Projekte, bei denen volle Power nicht nötig ist.
Die Lernkurve bei Claude Code lässt sich weitgehend auf Codecs übertragen, was den Vendor Lock-in minimiert.
Wettbewerb zwischen den Modellen steigert die Qualität für die Endanwender.

Zusammenfassend lässt sich sagen, dass GPT 5.5 in den durchgeführten Tests die konsistentesten Ergebnisse lieferte. Die Austauschbarkeit der Systeme zwischen Claude Code und Codecs bietet Nutzern Flexibilität. DeepSeek wird eher als Nischenlösung für einfache Aufgaben gesehen, die bei starkem Kostenfokus Sinn ergibt, jedoch nicht als direkter Konkurrent für anspruchsvolle Entwicklungsaufgaben.

Community Posts

Write about this video