00:00:00Anfang dieses Monats hat Alibaba Qwen 3.5 mit einem 400-Milliarden-Parameter-Modell veröffentlicht und
00:00:05einem Max-Thinking-Modell, das behauptet, bessere Benchmarks als Opus 4.5 zu haben, bei hohen Anforderungen,
00:00:11um es lokal auszuführen.
00:00:12Aber erst diese Woche haben sie die Qwen 3.5 Medium-Serie veröffentlicht, die fast so
00:00:17leistungsstark wie die Max-Modelle ist und lokal auf einem modernen MacBook Pro läuft. Sie behaupten,
00:00:22dass sie auch bessere Benchmarks als Sonnet 4.5 haben, was ich nicht glaube. Abonniert also den Kanal
00:00:27und lasst uns diese beiden Modelle auf die Probe stellen.
00:00:31Die meisten Entwickler geben zu, dass Sonnet 4.5 ein großartiges Modell ist, das gut mit Claude
00:00:35Code, Co-Work und der gesamten Anthropic-Suite harmoniert, was für ein Premium-Erlebnis sorgt.
00:00:40Aber man muss online sein, damit diese Modelle funktionieren, und sie sind nicht gerade billig.
00:00:44Die Medium-Serie von Qwen 3.5 will das ändern, indem sie es ermöglicht, ein Modell lokal zu nutzen,
00:00:49das so gut wie Sonnet 4.5 ist – und die Leute auf Twitter drehen völlig durch.
00:00:54Aber ich bin nicht überzeugt, dass es tatsächlich so gut wie Sonnet 4.5 ist.
00:00:58Deshalb werde ich beide Modelle mit einer einfachen, mittleren und schweren Aufgabe testen, um zu sehen,
00:01:02welches besser abschneidet.
00:01:04Doch bevor wir mit dem Test beginnen, muss ich ein kleines Geständnis ablegen.
00:01:07Ich werde Qwen 3.5 nicht wirklich lokal ausführen, da mein bescheidenes M1 MacBook Pro nicht
00:01:12über den nötigen gemeinsamen Speicher für eine ordentliche Inferenz verfügt.
00:01:15Stattdessen nutze ich Qwen 3.5 35b über OpenRouter in Verbindung mit OpenCode und
00:01:21werde Sonnet 4.5 in Claude Code im Clean-Modus ausführen, damit es keine meiner
00:01:25Skills, Plugins oder MCP-Tools verwendet.
00:01:27Wir fangen einfach an und lassen die Modelle eine To-do-Liste von Grund auf mit React und Vite erstellen.
00:01:32Wenn wir uns ansehen, was Sonnet 4.5 produziert hat, sehen wir dieses typische AI-Lila.
00:01:36Ich kann Aufgaben hinzufügen und als erledigt markieren, ich kann die Liste leeren und
00:01:40beim Neuladen der Seite bleibt alles erhalten, da der lokale Speicher genutzt wurde.
00:01:44Schauen wir uns Qwen 3.5 an: Beide haben ein ähnliches Design und haben das
00:01:48Standard-Styling von Vite nicht überschrieben.
00:01:51Aber auch hier kann ich Aufgaben hinzufügen.
00:01:53Und hier haben wir ein paar zusätzliche Optionen.
00:01:54Wir können die Kategorie wählen, die, ich glaube, Priorität festlegen und
00:01:59vielleicht ein Erstellungs- oder Fälligkeitsdatum angeben.
00:02:02Ich kann also so etwas wie "Einkaufen gehen" eingeben, und es zeigt das Datum, die Priorität und
00:02:06die Kategorie an, was wirklich cool ist.
00:02:08Werfen wir einen Blick auf den Code.
00:02:09Das hier ist von Sonnet. Hier wird ein useEffect verwendet, ich denke,
00:02:13für den lokalen Speicher hier unten.
00:02:15Das ist okay, aber ich hätte es lieber anders gelöst.
00:02:17Hier wird die Funktion "add to-do" genutzt und wir haben Funktionen für Aktionen.
00:02:22Hier zum Umschalten und hier zum Löschen der Aufgabe.
00:02:25Das sieht alles gut aus.
00:02:26Eine Sache, die mich etwas überrascht, ist der Teil oben mit dem JSON-Parsing.
00:02:32Es scheint im lokalen Speicher als JSON gespeichert und dann geparst zu werden.
00:02:35Es wäre schöner gewesen, diesen Code in einer separaten Funktion zu haben, damit
00:02:38er bei weiteren Ergänzungen nicht den Anfang des Codes verstopft.
00:02:42Bei Qwen haben wir Kategorien, und es scheint kein useEffect verwendet zu werden,
00:02:46was gut ist.
00:02:48Beim Runterscrollen sehen wir "handleSubmit", ein Name, den ich bevorzugen würde.
00:02:51Außerdem gibt es handleUpdate, handleDelete und handleToggleCompleted.
00:02:55Was mir hier besonders gefällt: Die Aufgaben wurden in eine separate Komponente ausgelagert.
00:02:59Anstatt die Hauptkomponente der App zu überladen, wurde hier eine neue Komponente erstellt,
00:03:03die weiter unten im App-Bereich verwendet wird, da es ja mehrere
00:03:07Aufgaben-Elemente gibt.
00:03:08Dieser Punkt geht also an Qwen, da es eine Liste mit deutlich mehr Funktionen erstellt hat.
00:03:13Nachdem ich diese Tests durchgeführt hatte, bemerkte ich jedoch, dass bei Qwen in
00:03:18OpenCode der Superpower-Skill aktiviert war.
00:03:19Ich habe es also ohne den Skill erneut versucht, und das ist das Ergebnis.
00:03:23Ich schätze, der Punkt geht dann wohl doch an Sonnet.
00:03:25Kommen wir zum zweiten Test: Der Bau eines interaktiven Sonnensystems mit
00:03:29React, Vite und Three.js.
00:03:31Claude hat hier auf Anhieb einen viel besseren Job gemacht.
00:03:33Okay, es fehlen ein paar Planeten, aber ich kann die vorhandenen anklicken.
00:03:37Ich klicke auf die Sonne und erhalte Informationen über sie.
00:03:39Ich klicke hier unten auf Uranus und bekomme ebenfalls Infos angezeigt.
00:03:44Auch die Steuerung auf der Seite ist tadellos: Ich kann schwenken, rotieren, zoomen
00:03:48und so weiter.
00:03:49Und hier ist das Ergebnis von Qwen.
00:03:50Ja, eine leere Seite.
00:03:51In der Konsole sehen wir eine Fehlermeldung, die ich mehrfach an Qwen zurückgegeben habe,
00:03:56die es aber nicht lösen konnte.
00:03:58Tatsächlich war der gesamte Prozess der Erstellung ziemlich mühsam.
00:04:01Qwen ist ein paar Mal "eingeschlafen" und ich musste es aufwecken, zudem hatte es Probleme,
00:04:05Fehler wiederholt zu beheben.
00:04:06Ganz zu schweigen davon: Schaut man sich die Dateien von Qwen an, haben wir hier eine package.json,
00:04:10ein package-lock und ein node_modules-Verzeichnis, das überhaupt nicht genutzt wurde, da
00:04:15das Hauptprojekt im Verzeichnis "solar-system" liegt, inklusive korrekter package.json
00:04:20und ordentlichem node_modules-Verzeichnis.
00:04:21Somit gewinnt Claude auch den zweiten Test.
00:04:23Für den finalen Test sollten die Modelle eine bestehende Codebasis so anpassen, dass ein Screenshot
00:04:28eines Tweets erstellt wird, wenn der Nutzer die URL in der App postet.
00:04:32Wir beginnen mit Claude, das diese Seite hier erstellt hat.
00:04:35Es gibt mir die Option, den Hintergrund und das Padding zu ändern.
00:04:38Beim ersten Versuch gab es einen Fehler, den Claude jedoch fixen konnte.
00:04:42Ich kopiere die URL für diesen Tweet von JSON, füge sie hier ein und klicke auf Capture.
00:04:47Nach ein paar Sekunden erhalten wir unten das Bild mit der Option zum Download.
00:04:51Hier ist nun das Ergebnis von Qwen mit dieser Seite hier.
00:04:54Wieder kopiere ich diesen Tweet und füge ihn ein.
00:04:56Es steht dort "Video extrahieren" statt Screenshot, aber es beginnt mit der Aufnahme, was vielversprechend aussieht.
00:05:01Doch nach einer Weile laufen wir in ein 60-Sekunden-Timeout, ähnlich wie bei dem Fehler,
00:05:06den wir bei Sonnet hatten.
00:05:07Ich bat Qwen um eine Lösung; es hat zwar das Timeout verlängert, aber nicht das eigentliche Problem
00:05:11behoben, das die Verzögerung verursacht hat.
00:05:13Es sieht also so aus, als ob Sonnet 4.5 alle drei Tests gewinnt.
00:05:17Obwohl Qwen 3.5/35b auf dem Papier Sonnet 4.5 übertreffen sollte, scheint das im
00:05:24Praxistest nicht der Fall zu sein.
00:05:26Versteht mich nicht falsch: Es ist extrem beeindruckend, dass man ein Modell mit 35 oder gar 27
00:05:31Milliarden Parametern lokal auf einem modernen MacBook laufen lassen kann.
00:05:34Aber egal, was die Leute auf Twitter sagen: Es gibt keine Chance, dass es bei Coding-Aufgaben
00:05:38besser als Sonnet 4.5 abschneidet, wie man an den vorangegangenen Tests sehen konnte.
00:05:42Warum also lassen die Benchmarks es so gut aussehen?
00:05:45Nun, die Wahrscheinlichkeit ist groß, dass Qwen 3.5 gezielt auf Benchmark-Fragen wie
00:05:51Sweebench-Verified nachtrainiert wurde, um dort exzellent abzuschneiden.
00:05:55Ein Modell wie Sonnet 4.5 hingegen wurde auf einem viel breiteren und robusteren Datensatz trainiert,
00:06:01wodurch es nuanciertere Aufgaben besser bewältigen kann.
00:06:03Außerdem hatte das getestete Qwen-Modell 35 Milliarden Parameter, nutzte aber nur 3 Milliarden
00:06:08während der Inferenz.
00:06:09Obwohl Anthropic keine Zahlen nennt, wird geschätzt, dass schon Sonnet 3 auf 70 Milliarden Parametern
00:06:14trainiert wurde, und Sonnet 4.5 hat zweifellos noch viel mehr.
00:06:18Es ist also nicht wirklich fair, diese Modelle nur anhand von Benchmarks zu vergleichen.
00:06:19Es ist immer wichtig, eigene Recherchen anzustellen und eigene Evaluierungen durchzuführen.
00:06:23Es gibt schließlich einen Grund, warum Qwen 3.5 nicht in der Modell-Liste von OpenCode Go stand.
00:06:26Wo wir gerade bei Qwen sind: Ihr TTS-Modell wurde vor Kurzem veröffentlicht und Joss
00:06:31hat dazu ein tolles Video über Voice-Cloning, Emotionen in der Stimme und vieles mehr gemacht,
00:06:35das ihr euch hier ansehen könnt.
00:06:39hier ansehen.