Qwen 3.5 35B vs. Sonnet 4.5: Schließt sich die Lücke?

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00Anfang dieses Monats hat Alibaba Qwen 3.5 mit einem 400-Milliarden-Parameter-Modell veröffentlicht und
00:00:05einem Max-Thinking-Modell, das behauptet, bessere Benchmarks als Opus 4.5 zu haben, bei hohen Anforderungen,
00:00:11um es lokal auszuführen.
00:00:12Aber erst diese Woche haben sie die Qwen 3.5 Medium-Serie veröffentlicht, die fast so
00:00:17leistungsstark wie die Max-Modelle ist und lokal auf einem modernen MacBook Pro läuft. Sie behaupten,
00:00:22dass sie auch bessere Benchmarks als Sonnet 4.5 haben, was ich nicht glaube. Abonniert also den Kanal
00:00:27und lasst uns diese beiden Modelle auf die Probe stellen.
00:00:31Die meisten Entwickler geben zu, dass Sonnet 4.5 ein großartiges Modell ist, das gut mit Claude
00:00:35Code, Co-Work und der gesamten Anthropic-Suite harmoniert, was für ein Premium-Erlebnis sorgt.
00:00:40Aber man muss online sein, damit diese Modelle funktionieren, und sie sind nicht gerade billig.
00:00:44Die Medium-Serie von Qwen 3.5 will das ändern, indem sie es ermöglicht, ein Modell lokal zu nutzen,
00:00:49das so gut wie Sonnet 4.5 ist – und die Leute auf Twitter drehen völlig durch.
00:00:54Aber ich bin nicht überzeugt, dass es tatsächlich so gut wie Sonnet 4.5 ist.
00:00:58Deshalb werde ich beide Modelle mit einer einfachen, mittleren und schweren Aufgabe testen, um zu sehen,
00:01:02welches besser abschneidet.
00:01:04Doch bevor wir mit dem Test beginnen, muss ich ein kleines Geständnis ablegen.
00:01:07Ich werde Qwen 3.5 nicht wirklich lokal ausführen, da mein bescheidenes M1 MacBook Pro nicht
00:01:12über den nötigen gemeinsamen Speicher für eine ordentliche Inferenz verfügt.
00:01:15Stattdessen nutze ich Qwen 3.5 35b über OpenRouter in Verbindung mit OpenCode und
00:01:21werde Sonnet 4.5 in Claude Code im Clean-Modus ausführen, damit es keine meiner
00:01:25Skills, Plugins oder MCP-Tools verwendet.
00:01:27Wir fangen einfach an und lassen die Modelle eine To-do-Liste von Grund auf mit React und Vite erstellen.
00:01:32Wenn wir uns ansehen, was Sonnet 4.5 produziert hat, sehen wir dieses typische AI-Lila.
00:01:36Ich kann Aufgaben hinzufügen und als erledigt markieren, ich kann die Liste leeren und
00:01:40beim Neuladen der Seite bleibt alles erhalten, da der lokale Speicher genutzt wurde.
00:01:44Schauen wir uns Qwen 3.5 an: Beide haben ein ähnliches Design und haben das
00:01:48Standard-Styling von Vite nicht überschrieben.
00:01:51Aber auch hier kann ich Aufgaben hinzufügen.
00:01:53Und hier haben wir ein paar zusätzliche Optionen.
00:01:54Wir können die Kategorie wählen, die, ich glaube, Priorität festlegen und
00:01:59vielleicht ein Erstellungs- oder Fälligkeitsdatum angeben.
00:02:02Ich kann also so etwas wie "Einkaufen gehen" eingeben, und es zeigt das Datum, die Priorität und
00:02:06die Kategorie an, was wirklich cool ist.
00:02:08Werfen wir einen Blick auf den Code.
00:02:09Das hier ist von Sonnet. Hier wird ein useEffect verwendet, ich denke,
00:02:13für den lokalen Speicher hier unten.
00:02:15Das ist okay, aber ich hätte es lieber anders gelöst.
00:02:17Hier wird die Funktion "add to-do" genutzt und wir haben Funktionen für Aktionen.
00:02:22Hier zum Umschalten und hier zum Löschen der Aufgabe.
00:02:25Das sieht alles gut aus.
00:02:26Eine Sache, die mich etwas überrascht, ist der Teil oben mit dem JSON-Parsing.
00:02:32Es scheint im lokalen Speicher als JSON gespeichert und dann geparst zu werden.
00:02:35Es wäre schöner gewesen, diesen Code in einer separaten Funktion zu haben, damit
00:02:38er bei weiteren Ergänzungen nicht den Anfang des Codes verstopft.
00:02:42Bei Qwen haben wir Kategorien, und es scheint kein useEffect verwendet zu werden,
00:02:46was gut ist.
00:02:48Beim Runterscrollen sehen wir "handleSubmit", ein Name, den ich bevorzugen würde.
00:02:51Außerdem gibt es handleUpdate, handleDelete und handleToggleCompleted.
00:02:55Was mir hier besonders gefällt: Die Aufgaben wurden in eine separate Komponente ausgelagert.
00:02:59Anstatt die Hauptkomponente der App zu überladen, wurde hier eine neue Komponente erstellt,
00:03:03die weiter unten im App-Bereich verwendet wird, da es ja mehrere
00:03:07Aufgaben-Elemente gibt.
00:03:08Dieser Punkt geht also an Qwen, da es eine Liste mit deutlich mehr Funktionen erstellt hat.
00:03:13Nachdem ich diese Tests durchgeführt hatte, bemerkte ich jedoch, dass bei Qwen in
00:03:18OpenCode der Superpower-Skill aktiviert war.
00:03:19Ich habe es also ohne den Skill erneut versucht, und das ist das Ergebnis.
00:03:23Ich schätze, der Punkt geht dann wohl doch an Sonnet.
00:03:25Kommen wir zum zweiten Test: Der Bau eines interaktiven Sonnensystems mit
00:03:29React, Vite und Three.js.
00:03:31Claude hat hier auf Anhieb einen viel besseren Job gemacht.
00:03:33Okay, es fehlen ein paar Planeten, aber ich kann die vorhandenen anklicken.
00:03:37Ich klicke auf die Sonne und erhalte Informationen über sie.
00:03:39Ich klicke hier unten auf Uranus und bekomme ebenfalls Infos angezeigt.
00:03:44Auch die Steuerung auf der Seite ist tadellos: Ich kann schwenken, rotieren, zoomen
00:03:48und so weiter.
00:03:49Und hier ist das Ergebnis von Qwen.
00:03:50Ja, eine leere Seite.
00:03:51In der Konsole sehen wir eine Fehlermeldung, die ich mehrfach an Qwen zurückgegeben habe,
00:03:56die es aber nicht lösen konnte.
00:03:58Tatsächlich war der gesamte Prozess der Erstellung ziemlich mühsam.
00:04:01Qwen ist ein paar Mal "eingeschlafen" und ich musste es aufwecken, zudem hatte es Probleme,
00:04:05Fehler wiederholt zu beheben.
00:04:06Ganz zu schweigen davon: Schaut man sich die Dateien von Qwen an, haben wir hier eine package.json,
00:04:10ein package-lock und ein node_modules-Verzeichnis, das überhaupt nicht genutzt wurde, da
00:04:15das Hauptprojekt im Verzeichnis "solar-system" liegt, inklusive korrekter package.json
00:04:20und ordentlichem node_modules-Verzeichnis.
00:04:21Somit gewinnt Claude auch den zweiten Test.
00:04:23Für den finalen Test sollten die Modelle eine bestehende Codebasis so anpassen, dass ein Screenshot
00:04:28eines Tweets erstellt wird, wenn der Nutzer die URL in der App postet.
00:04:32Wir beginnen mit Claude, das diese Seite hier erstellt hat.
00:04:35Es gibt mir die Option, den Hintergrund und das Padding zu ändern.
00:04:38Beim ersten Versuch gab es einen Fehler, den Claude jedoch fixen konnte.
00:04:42Ich kopiere die URL für diesen Tweet von JSON, füge sie hier ein und klicke auf Capture.
00:04:47Nach ein paar Sekunden erhalten wir unten das Bild mit der Option zum Download.
00:04:51Hier ist nun das Ergebnis von Qwen mit dieser Seite hier.
00:04:54Wieder kopiere ich diesen Tweet und füge ihn ein.
00:04:56Es steht dort "Video extrahieren" statt Screenshot, aber es beginnt mit der Aufnahme, was vielversprechend aussieht.
00:05:01Doch nach einer Weile laufen wir in ein 60-Sekunden-Timeout, ähnlich wie bei dem Fehler,
00:05:06den wir bei Sonnet hatten.
00:05:07Ich bat Qwen um eine Lösung; es hat zwar das Timeout verlängert, aber nicht das eigentliche Problem
00:05:11behoben, das die Verzögerung verursacht hat.
00:05:13Es sieht also so aus, als ob Sonnet 4.5 alle drei Tests gewinnt.
00:05:17Obwohl Qwen 3.5/35b auf dem Papier Sonnet 4.5 übertreffen sollte, scheint das im
00:05:24Praxistest nicht der Fall zu sein.
00:05:26Versteht mich nicht falsch: Es ist extrem beeindruckend, dass man ein Modell mit 35 oder gar 27
00:05:31Milliarden Parametern lokal auf einem modernen MacBook laufen lassen kann.
00:05:34Aber egal, was die Leute auf Twitter sagen: Es gibt keine Chance, dass es bei Coding-Aufgaben
00:05:38besser als Sonnet 4.5 abschneidet, wie man an den vorangegangenen Tests sehen konnte.
00:05:42Warum also lassen die Benchmarks es so gut aussehen?
00:05:45Nun, die Wahrscheinlichkeit ist groß, dass Qwen 3.5 gezielt auf Benchmark-Fragen wie
00:05:51Sweebench-Verified nachtrainiert wurde, um dort exzellent abzuschneiden.
00:05:55Ein Modell wie Sonnet 4.5 hingegen wurde auf einem viel breiteren und robusteren Datensatz trainiert,
00:06:01wodurch es nuanciertere Aufgaben besser bewältigen kann.
00:06:03Außerdem hatte das getestete Qwen-Modell 35 Milliarden Parameter, nutzte aber nur 3 Milliarden
00:06:08während der Inferenz.
00:06:09Obwohl Anthropic keine Zahlen nennt, wird geschätzt, dass schon Sonnet 3 auf 70 Milliarden Parametern
00:06:14trainiert wurde, und Sonnet 4.5 hat zweifellos noch viel mehr.
00:06:18Es ist also nicht wirklich fair, diese Modelle nur anhand von Benchmarks zu vergleichen.
00:06:19Es ist immer wichtig, eigene Recherchen anzustellen und eigene Evaluierungen durchzuführen.
00:06:23Es gibt schließlich einen Grund, warum Qwen 3.5 nicht in der Modell-Liste von OpenCode Go stand.
00:06:26Wo wir gerade bei Qwen sind: Ihr TTS-Modell wurde vor Kurzem veröffentlicht und Joss
00:06:31hat dazu ein tolles Video über Voice-Cloning, Emotionen in der Stimme und vieles mehr gemacht,
00:06:35das ihr euch hier ansehen könnt.
00:06:39hier ansehen.

Key Takeaway

Obwohl Qwen 3.5 in Benchmarks dominiert, beweist der Praxistest, dass Sonnet 4.5 bei komplexen Coding-Aufgaben und der Fehlerresistenz weiterhin die unangefochtene Spitze bleibt.

Highlights

Vergleich zwischen dem lokalen Modell Qwen 3.5 35B und dem Cloud-basierten Sonnet 4.5.

Trotz besserer Benchmark-Ergebnisse von Qwen 3.5 schneidet Sonnet 4.5 in realen Programmiertests deutlich besser ab.

Qwen 3.5 zeigt Schwächen bei komplexen Aufgaben wie der Integration von Three.js und der Fehlerbehebung.

Sonnet 4.5 überzeugt durch eine robustere Code-Struktur und bessere Handhabung von API-Timeouts.

Vermutung

Timeline

Einführung und Modellvorstellung

Der Sprecher stellt die neuen Qwen 3.5 Modelle von Alibaba vor, insbesondere die Medium-Serie mit 35 Milliarden Parametern. Diese Modelle sollen lokal auf moderner Hardware wie einem MacBook Pro laufen und behaupten, das leistungsstarke Sonnet 4.5 in Benchmarks zu übertreffen. Es wird jedoch Skepsis geäußert, da Benchmarks oft nicht die reale Performance widerspiegeln. Der Versuchsaufbau wird erklärt: Qwen wird über OpenRouter getestet, während Sonnet 4.5 direkt in der Claude-Umgebung läuft. Ziel ist es, die Diskrepanz zwischen Marketing-Versprechen und tatsächlicher Anwendbarkeit zu prüfen.

Erster Test: React To-do-Liste

Die Modelle sollen eine einfache To-do-App mit React und Vite erstellen, die Daten im lokalen Speicher ablegt. Sonnet 4.5 liefert ein solides Ergebnis mit Standard-Styling, nutzt aber einen etwas unübersichtlichen Code-Aufbau für das JSON-Parsing. Qwen 3.5 erstellt zunächst eine funktionsreichere App mit Kategorien und Prioritäten, was den Sprecher zunächst beeindruckt. Bei genauerer Analyse stellt sich jedoch heraus, dass Qwen einen aktivierten "Superpower-Skill" nutzte, was den Vergleich verfälschte. Ohne diese Hilfe war das Ergebnis von Sonnet überlegen, da die Code-Struktur sauberer und zuverlässiger war.

Zweiter Test: Interaktives Sonnensystem

In der mittleren Schwierigkeitsstufe müssen die KIs ein 3D-Sonnensystem mit Three.js visualisieren. Claude (Sonnet 4.5) meistert die Aufgabe fast perfekt und bietet eine funktionierende Steuerung sowie interaktive Informationen zu den Planeten. Im Gegensatz dazu liefert Qwen 3.5 lediglich eine leere Seite und produziert Fehlermeldungen in der Konsole, die es selbst nach mehrmaliger Aufforderung nicht korrigieren kann. Zudem zeigt Qwen strukturelle Mängel bei der Dateiverwaltung, indem es unnötige Ordner erstellt und den Überblick über die Projektstruktur verliert. Dieser Testabschnitt verdeutlicht die Überlegenheit von Sonnet bei komplexen Bibliotheks-Integrationen.

Finaler Test: Tweet-Screenshot-Tool

Die schwerste Aufgabe besteht darin, eine bestehende Codebasis so zu erweitern, dass Screenshots von Twitter-URLs erstellt werden. Claude bewältigt die Herausforderung und kann einen anfänglichen Fehler eigenständig korrigieren, sodass am Ende ein fertiges Bild zum Download bereitsteht. Qwen hingegen scheitert an einem 60-Sekunden-Timeout und findet keine funktionierende Lösung für die Verzögerung bei der Bildgenerierung. Obwohl die Benutzeroberfläche von Qwen vielversprechend aussah, mangelt es am Ende an der funktionalen Umsetzung. Damit gewinnt Sonnet 4.5 alle drei Kategorien des direkten Vergleichs.

Fazit und Analyse der Benchmarks

Der Sprecher resümiert, dass Benchmarks wie Sweebench oft irreführend sind, da Modelle gezielt darauf trainiert werden können. Während Qwen auf dem Papier führt, bietet Sonnet 4.5 durch ein breiteres Training eine deutlich höhere Nuancierung und Zuverlässigkeit in der Praxis. Es wird betont, dass die Parameter-Anzahl allein nicht über die Qualität entscheidet, da Sonnet vermutlich auf weitaus größeren Datensätzen basiert als das 35B-Modell von Qwen. Abschließend wird auf die Bedeutung eigener Tests hingewiesen und ein weiteres Video zum Thema Text-to-Speech von Qwen empfohlen. Der Beitrag endet mit der Bestätigung, dass Premium-Cloud-Modelle aktuell noch nicht durch kleine lokale Modelle ersetzt werden können.

Community Posts

View all posts