Qwen 3.5 Small Models sind UNGLAUBLICH! (0.8B & 2B auf Edge-Geräten im Test)

BBetter Stack
Computing/SoftwareBusiness NewsConsumer ElectronicsCell Phones

Transcript

00:00:00Das Internet spielt gerade verrückt, und dieses Mal liegt es an Qwen 3.5,
00:00:05speziell an deren Serie kleiner Modelle. Alibaba hat gerade native multimodale
00:00:10Versionen von Qwen 3.5 veröffentlicht, die nur 2 Milliarden oder sogar 0,8 Milliarden Parameter groß sind.
00:00:17In den Bereichen logisches Denken und Sehen übertreffen sie Modelle, die viermal so groß sind.
00:00:22Und sie sind so winzig, dass wir sie jetzt lokal auf 6 Jahre alten Laptops und Smartphones ausführen können,
00:00:28ganz ohne Internetverbindung. In diesem Video schauen wir uns speziell die neuen
00:00:34Modelle der Small-Serie von Qwen 3.5 an, wie das mit 0,8 und 2 Milliarden Parametern. Wir werden sie auch
00:00:40auf einem M2 MacBook Pro sowie auf einem iPhone 14 Pro testen und herausfinden, wie leistungsfähig sie wirklich sind.
00:00:48Das wird ein Riesenspaß, also legen wir direkt los.
00:00:55Warum sind also alle so besessen von diesen neuen Qwen 3.5 Modellen? Schließlich gibt es kleine Modelle
00:01:01schon seit einer Weile. Ich habe in einem früheren Video sogar die Granite 4.0 Nano-Modelle von IBM vorgestellt,
00:01:08und deren Modell war gerade mal 300 Millionen Parameter groß. Was macht diese kleinen Qwen-Modelle also so besonders?
00:01:14Nun, es dreht sich alles um die sogenannte Intelligenzdichte. Lange Zeit galt die Regel:
00:01:20Wenn ein Modell sehen, denken und coden soll, muss es riesig sein. Aber diese neuen Qwen 3.5 Small-Modelle
00:01:27beweisen, dass das nicht der Fall sein muss. Sie haben es irgendwie geschafft, ihre großen Modelle in
00:01:33winzige Versionen zu komprimieren, die immer noch eine einheitliche multimodale Architektur unterstützen. Das bedeutet,
00:01:39ihr 0,8-Milliarden-Modell beantwortet nicht nur Text, sondern hat auch Bildverarbeitungs- und Coding-Fähigkeiten fest eingebaut.
00:01:46Werfen wir einen kurzen Blick auf die Benchmarks, denn die sind ziemlich interessant. Im MMLU-Benchmark,
00:01:51der Allgemeinwissen und logisches Denken misst, erreicht das 2-Milliarden-Modell einen Wert von 66,5,
00:01:57während das 0,8-Milliarden-Modell 42,3 erreicht. Das mag nicht allzu beeindruckend klingen, aber bedenken Sie,
00:02:04dass zum Vergleich das ursprüngliche Llama 2 mit 7 Milliarden Parametern, das 2023 erschien,
00:02:11beim gleichen Benchmark 45,3 Punkte erzielte. Das zeigt einfach, wie sehr wir es geschafft haben, die
00:02:17Parametergröße zu schrumpfen und dennoch ein ordentliches Verständnisniveau beizubehalten. Aber seht euch das an:
00:02:23Der wahre Clou ist ihre multimodale Leistung. In spezialisierten Sehtests wie OCRBench
00:02:29erzielt das 2-Milliarden-Modell 85,4 Punkte und das 0,8-Milliarden-Modell 79,1. Dies deutet darauf hin, dass sie
00:02:37sehr fähig für Aufgaben wie das Lesen komplexer Dokumente und das Analysieren von Bildern mit Text sind.
00:02:43Oh, und beide unterstützen ein riesiges Kontextfenster von 262.000 Token. Man kann ihnen also ganze PDFs füttern oder
00:02:51sie zur Analyse großer Codebasen nutzen. Das ist ziemlich beeindruckend. Aber schauen wir uns nun an,
00:02:56wie sie tatsächlich abschneiden. Da sowohl das 0,8- als auch das 2-Milliarden-Modell lokal auf fast jedem
00:03:02modernen Laptop laufen, werde ich diese Tests im Flugmodus, ganz ohne Internetverbindung,
00:03:08auf meinem lokalen Laptop durchführen. Für den ersten Test starten wir einen lokalen Server in LM Studio
00:03:14und verbinden ihn mit CLINE in VS Code, um zu sehen, ob diese winzigen Modelle echte Coding-Aufgaben bewältigen können.
00:03:21Zuerst müsst ihr im Modelle-Tab die GGUF-Versionen des 0,8-Milliarden- und des
00:03:282-Milliarden-Parameter-Modells herunterladen. Und da wir diese Modelle für Coding-Aufgaben nutzen wollen,
00:03:33müssen wir auch die verfügbare Kontextlänge ein ordentliches Stück erhöhen. Sobald das erledigt ist,
00:03:38können wir den Server starten. Springen wir nun zu CLINE. Wie erwähnt, werde ich zuerst
00:03:43mein WLAN ausschalten, damit wir diese Tests komplett offline durchführen können. Dann stelle ich in CLINE
00:03:50im Bereich API-Konfiguration sicher, dass die URL auf unseren benutzerdefinierten LM Studio Server zeigt. Achten wir auch darauf,
00:03:56dass wir das 0,8-Milliarden-Modell auswählen. Als Prompt bitte ich das Modell,
00:04:01eine einfache Website für ein kleines Café zu erstellen. Mir ist aufgefallen: Wenn wir kein spezielles Framework
00:04:07vorgeben und Qwen selbst entscheiden lassen, will es React installieren, was für unsere Demo
00:04:14im Offline-Modus nicht funktionieren würde. Also habe ich den Prompt angepasst und explizit nach HTML, CSS und JavaScript
00:04:20ohne externe Bibliotheken gefragt. Starten wir den Test. Das Modell hat etwa eine Minute gebraucht,
00:04:25um diese Aufgabe abzuschließen. Und hier ist unser Endergebnis. Wie Sie sehen können, ist die Seite sehr schlicht,
00:04:32das Design ist nicht besonders ästhetisch und der Text ist sehr dunkel. Mir ist auch aufgefallen,
00:04:37dass das Modell im CSS versucht hat, spezifische Bilder von Unsplash hart zu codieren, die zu unserem Thema passen. Das ist eine
00:04:43interessante Beobachtung. Wenn wir das WLAN kurz wieder einschalten, sehen wir,
00:04:48dass eines dieser Bilder tatsächlich geladen wird. Es scheint ein Bild eines Arztes zu sein, der ein Telefon hält. Das ist ziemlich
00:04:54willkürlich. Die anderen Bilder enthalten ungültige URLs. Ich habe auch versucht, das Modell erneut aufzufordern,
00:05:00den fehlerhaften Text zu korrigieren und andere Bereiche zu verbessern, aber es gelang ihm nicht zuverlässig. Insgesamt
00:05:06würde ich sagen: Obwohl dieses Modell fähig ist zu coden und Tools aufzurufen, halte ich es nicht für
00:05:12eine gute Idee, es in realen Szenarien einzusetzen, da die Parameteranzahl einfach zu gering ist. Aber
00:05:17testen wir nun das 2-Milliarden-Parameter-Modell mit demselben Prompt und sehen wir, wie es sich schlägt. Dieses
00:05:23Modell hat mir tatsächlich viel Kopfzerbrechen bereitet, weil es oft in einer Endlosschleife hängen blieb
00:05:28und denselben Abschnitt immer wieder schrieb. Ich musste die Aufgabe stoppen und neu starten. Ich bin nicht sicher,
00:05:34ob das ein Problem des Modells selbst ist, oder wie LM Studio den Server betreibt oder wie Cline
00:05:40den Prompt verarbeitet. Aber mit dieser speziellen Konfiguration war das ein ständiger Kampf
00:05:45für mich. Eine weitere Sache, die mir auffiel: Während das 0,8-Milliarden-Parameter-Modell direkt mit dem
00:05:51Programmieren begann, bevorzugte die 2-Milliarden-Version, zuerst einen Plan zu strukturieren und dann mit dem
00:05:57eigentlichen Coden fortzufahren. Das 2-Milliarden-Modell schloss die Aufgabe in etwa drei Minuten ab,
00:06:02also deutlich länger. Schauen wir uns das Endergebnis an. Wie wir sehen können, ist es bereits
00:06:08eine Steigerung, da das Design viel sauberer aussieht und ein bräunliches Farbschema verwendet, was eher
00:06:14der visuellen Identität eines Cafés entspricht. Noch etwas ist mir aufgefallen: Wenn wir das WLAN einschalten,
00:06:20lädt es tatsächlich einige externe Icons, wodurch die gesamte Seite noch besser aussieht.
00:06:24Diese Version hat sogar versucht, die Warenkorb-Funktion zu implementieren, nach der ich anfangs gefragt hatte,
00:06:29denn wir haben jetzt diese schicke Warenkorb-Seitenleiste, obwohl ich keinen Button zum Hinzufügen
00:06:35auf den Artikelkarten sehe. Als ich versuchte, diese Probleme per Prompt zu beheben, trat erneut dasselbe
00:06:41technische Problem auf: Das Modell geriet in eine Endlosschleife. Ich dachte mir, das könnte einfach ein Problem von
00:06:46LM Studio in Verbindung mit Cline oder etwas Ähnlichem sein. Aber seien wir ehrlich: Offensichtlich
00:06:51würde niemand ernsthaft in Erwägung ziehen, solch kleine Modelle für komplexes und seriöses Coding zu nutzen.
00:06:56Ich habe diese Tests nur aus Neugier durchgeführt, um zu sehen, ob eine so geringe Parameteranzahl
00:07:02dennoch ein brauchbares Ergebnis für eine Coding-Aufgabe liefern kann. Machen wir jetzt etwas Spannenderes.
00:07:07Versuchen wir, diese Modelle auf einem iPhone 14 Pro laufen zu lassen. Dafür habe ich eine native iOS-App mit
00:07:14Swift und dem MLX Swift Framework gebaut. MLX ist Apples Open-Source-Bibliothek, die es ermöglicht,
00:07:22Modelle direkt auf der Unified Memory Architecture von Apple Silicon auszuführen. Durch die Nutzung der Metal GPU können wir
00:07:29diese Qwen-Modelle mit Hardwarebeschleunigung direkt auf dem Gerät betreiben. Ich werde auch
00:07:34einen Link zum Repo für dieses Swift-Projekt in die Beschreibung setzen, damit ihr es herunterladen und auf eurem eigenen Gerät kompilieren könnt.
00:07:40Sobald wir die App öffnen, beginnt sie sofort mit dem Download des 0,8-Milliarden-Modells.
00:07:46Sobald das erledigt ist, sind wir bereit. Aber bevor ich einen Prompt eingebe,
00:07:52schalte ich den Flugmodus auf meinem iPhone ein. Beginnen wir mit einem einfachen “Hallo”. Aus irgendeinem
00:07:58Grund antwortet es, dass sein Name Alex sei. Okay, das ist sehr willkürlich, aber gut. Aber habt ihr bemerkt,
00:08:04wie schnell die Antwort gestreamt wurde? Ich bin ehrlich gesagt verblüfft, wie schnell dieses Modell
00:08:10in Echtzeit antwortet. Versuchen wir nun den berühmten Autowasch-Test, den die meisten Modelle normalerweise falsch machen.
00:08:17Und siehe da, Qwen 3.5 antwortet tatsächlich korrekt. Das ist schon mal beeindruckend.
00:08:23Das Coolste an diesen Modellen ist, dass sie auch Bildverarbeitungsfunktionen nutzen können. Ich werde ihm jetzt
00:08:29das Bild einer Banane zeigen. Mal sehen, ob es versteht, was es ist und in welchem Zustand
00:08:35sie sich befindet. Es erkennt korrekt, dass es sich tatsächlich um eine Banane handelt, obwohl es sagt, es sei eine
00:08:40“Hundebanane”. Von diesem Begriff habe ich ehrlich gesagt noch nie gehört. Eine Hundebanane? Was soll das sein? Wovon redet
00:08:47Qwen hier? Na ja, egal, es denkt jedenfalls, sie sei überreif. Und es warnt mich, dass der Verzehr
00:08:52vielleicht nicht sicher sei, was nicht stimmt. Ich habe diese Banane heute Morgen gegessen und sie war köstlich. Aber wie auch immer,
00:08:58ich bin wieder einmal beeindruckt, wie schnell es meinen Prompt verarbeitet und mir die
00:09:04Antwort liefert. Versuchen wir ein anderes Bild. Mal sehen, ob es die Hunderasse auf
00:09:09diesem Bild identifizieren kann. Hier sehen wir, dass es nicht ganz genau ist, da es denkt, es sähe zwei
00:09:15Hunde, was nicht stimmt. Und es nennt die Rasse nicht. Fragen wir also gezielt, was für eine Art
00:09:20von Hund es ist. Es denkt, es sei ein Golden Retriever, was offensichtlich weit von der Wahrheit entfernt ist. Also,
00:09:27obwohl einige Antworten nicht ganz korrekt und manche einfach nur lustig sind,
00:09:34bin ich dennoch aufrichtig beeindruckt, dass ein so kleines Modell über Bildinhalte urteilen kann und das in einem so enormen Tempo.
00:09:39Als Letztes möchte ich die OCR-Fähigkeiten dieses Modells testen, die in den Benchmarks so angepriesen wurden.
00:09:45Speziell möchte ich sehen, ob dieses Modell identifizieren kann, in welcher Sprache der Text auf diesem Bild verfasst ist.
00:09:50Um euch etwas Kontext zu geben: Die auf diesem Bild gezeigte Sprache ist Lettisch, was meine Muttersprache ist,
00:09:55da ich ursprünglich aus Lettland komme. Leider versagt Qwen bei diesem Test, denn das ist nicht Slowenisch,
00:10:00und unsere Sprache ist dem Slowenischen nicht einmal ähnlich. Ich finde es auch witzig, wie selbstbewusst es
00:10:05ein Wort in dasselbe Wort übersetzt, von dem ich mir nicht einmal sicher bin, ob es ein echtes Wort ist. Es finden also eindeutig
00:10:11starke Halluzinationen in dieser Antwort statt. Gut, wechseln wir nun zum 2-Milliarden-
00:10:19Parameter-Modell. Wenn man im Dropdown umschaltet, wird es dieses zuerst herunterladen. Sobald das
00:10:25erledigt ist, können wir dieselben Tests mit dieser Version durchführen, um zu sehen, ob wir spürbare Verbesserungen erzielen. Also,
00:10:30wieder ein einfaches “Hallo”. Okay, zumindest antwortet diesmal nicht Alex. Das ist
00:10:36schon mal eine Verbesserung. Machen wir den Autowasch-Test noch einmal. Und wieder besteht das Modell
00:10:42den Test. Gut gemacht. Weiter geht's mit dem Bananen-Bild. Und diesmal
00:10:47erhalten wir eine sinnvollere Antwort. Es erkennt, dass es sich tatsächlich um eine Banane handelt. Und was den
00:10:53Zustand betrifft, sagt es, sie sei vollreif und essfertig, was stimmt. Versuchen wir das Hundebild
00:11:00erneut. Diesmal heißt es, es sei ein Zwergspitz. Ich finde nicht mal, dass diese Rassen
00:11:06auch nur ansatzweise ähnlich sind. Leider ist also auch das 2-Milliarden-Modell schlecht darin, Hunderassen zu bestimmen.
00:11:11Und schließlich versuchen wir noch einmal das Bild mit dem Text, um zu sehen, ob es die Sprache erkennt.
00:11:18Und siehe da: Das 2-Milliarden-Parameter-Modell hat korrekt erkannt, dass dieser Text tatsächlich
00:11:22Lettisch ist. Das ist ziemlich cool. Da haben wir es also. Das ist die Qwen 3.5 Small-Modellserie. Ich
00:11:29glaube ehrlich gesagt, dass dies trotz der kleinen Unstimmigkeiten die leistungsfähigsten winzigen Modelle sind,
00:11:36die ich je benutzt habe. Dass wir jetzt ein quelloffenes, natives multimodales LLM haben, das offline auf einem
00:11:42iPhone 14 Pro läuft und bei relativ hoher Geschwindigkeit sinnvolle Ergebnisse liefert,
00:11:49ist super beeindruckend. Qwen hat sich diesmal wirklich selbst übertroffen. Gut gemacht. Aber es gibt
00:11:55ein eher trauriges Update zu vermelden. Als ich dieses Video fertigstellte, tauchten Berichte auf, dass Alibaba
00:12:01das Qwen-Team umfassend umstrukturiert. Wichtige Führungskräfte und Top-Ingenieure hinter
00:12:07diesen Modellen haben das Unternehmen angeblich verlassen, einige um eigene KI-Startups zu gründen. Dies lässt die
00:12:13Community rätseln, ob die Ära der rasanten Durchbrüche bei Qwen nun gebremst wird. Das macht
00:12:18diese aktuellen Modelle noch bedeutender, da sie vielleicht für längere Zeit die letzte große Veröffentlichung dieses
00:12:24speziellen Teams sein könnten. Aber was denkt ihr über diese Modelle der Small-Serie? Habt ihr sie
00:12:30ausprobiert? Werdet ihr sie nutzen? Lasst es uns unten in den Kommentaren wissen. Und Leute, wenn euch
00:12:35diese Art von technischen Analysen gefällt, lasst es mich wissen, indem ihr auf den Like-Button unter dem Video klickt.
00:12:39Und vergesst auch nicht, unseren Kanal zu abonnieren. Ich bin Andres von Better Stack und wir sehen
00:12:45uns in den nächsten Videos.
00:12:50Tschüss!

Key Takeaway

Die Qwen 3.5 Small-Modelle setzen neue Maßstäbe für lokale KI-Leistung auf Mobilgeräten, indem sie trotz minimaler Parameterzahl komplexe multimodale Aufgaben und große Kontextfenster bewältigen.

Highlights

Veröffentlichung der Qwen 3.5 Small-Serie mit nativen multimodalen Modellen (0,8B und 2B Parameter).

Hohe Intelligenzdichte ermöglicht lokale Ausführung auf Edge-Geräten wie iPhones ohne Internetverbindung.

Das 2B-Modell übertrifft in Benchmarks wie MMLU das ursprüngliche Llama 2 7B trotz deutlich geringerer Größe.

Beeindruckende visuelle Fähigkeiten und Unterstützung eines Kontextfensters von 262.000 Token.

Eingeschränkte Zuverlässigkeit bei komplexen Coding-Aufgaben und spezifischen Bilderkennungen (z. B. Hunderassen).

Erfolgreiche Demonstration der Hardwarebeschleunigung auf Apple Silicon mittels MLX Swift Framework.

Ungewisse Zukunft von Qwen aufgrund einer massiven Umstrukturierung des Entwicklungsteams bei Alibaba.

Timeline

Einführung in Qwen 3.5 Small

Das Video beginnt mit der Vorstellung der neuen Qwen 3.5 Serie von Alibaba, die ultrakleine Modelle mit 0,8 und 2 Milliarden Parametern umfasst. Diese Modelle sind nativ multimodal und zeichnen sich durch eine außergewöhnliche Leistung in den Bereichen logisches Denken und Sehen aus. Der Sprecher betont, dass diese Winzlinge selbst auf sechs Jahre alten Laptops und modernen Smartphones vollständig offline betrieben werden können. Es wird angekündigt, dass die Modelle auf einem M2 MacBook Pro und einem iPhone 14 Pro getestet werden, um ihre wahre Leistungsfähigkeit zu demonstrieren. Dieser Abschnitt legt den Grundstein für die Untersuchung der Frage, wie viel Intelligenz in so kleine Architekturen passt.

Intelligenzdichte und Benchmarks

In diesem Teil wird das Konzept der Intelligenzdichte erläutert, welches erklärt, warum diese kleinen Modelle trotz ihrer Größe so fähig sind. Qwen 3.5 nutzt eine einheitliche multimodale Architektur, die Bildverarbeitung und Coding-Fähigkeiten direkt integriert. Ein Vergleich der MMLU-Benchmarks zeigt, dass das 2B-Modell mit 66,5 Punkten sogar das deutlich größere Llama 2 7B schlägt. Besonders hervorzuheben sind die OCR-Ergebnisse und das enorme Kontextfenster von 262.000 Token, das die Analyse ganzer Dokumente ermöglicht. Dies verdeutlicht den technologischen Sprung bei der Komprimierung von Wissen in minimale Parameterzahlen.

Lokale Coding-Tests in VS Code

Der Sprecher führt einen praktischen Coding-Test durch, indem er die Modelle über LM Studio und Cline in VS Code einbindet. Zuerst wird das 0,8B-Modell aufgefordert, eine einfache Café-Website ohne externe Bibliotheken zu erstellen, was zu einem funktionalen, aber optisch mangelhaften Ergebnis führt. Das 2B-Modell liefert ein besseres Design mit passendem Farbschema, leidet jedoch unter technischen Problemen wie Endlosschleifen während der Generierung. Es wird angemerkt, dass die Modelle zwar einfache Aufgaben bewältigen, aber für ernsthaftes Software-Engineering noch zu unzuverlässig sind. Dennoch ist die Fähigkeit, Code-Strukturen offline auf einem Laptop zu entwerfen, ein bemerkenswerter Fortschritt.

On-Device Tests auf dem iPhone 14 Pro

Hier verlagert sich der Test auf ein iPhone 14 Pro, auf dem eine native iOS-App mit Apples MLX Swift Framework läuft. Das 0,8B-Modell beeindruckt durch extrem schnelle Antwortzeiten im Flugmodus und löst sogar logische Rätsel wie den Autowasch-Test korrekt. Bei der Bilderkennung identifiziert es eine Banane, nutzt aber seltsame Begriffe wie "Hundebanane" und scheitert an der Identifizierung von Hunderassen. Die Geschwindigkeit der Echtzeit-Verarbeitung auf der mobilen GPU wird als verblüffend beschrieben. Auch die Texterkennung (OCR) wird getestet, wobei das kleinste Modell die lettische Sprache fälschlicherweise als Slowenisch einordnet.

Vergleich mit dem 2B-Modell und Team-News

Abschließend wird das 2B-Modell auf dem Smartphone getestet, welches deutlich präzisere Antworten bei der Bildanalyse liefert und die lettische Sprache korrekt erkennt. Der Sprecher zeigt sich tief beeindruckt von der Kombination aus Geschwindigkeit und multimodaler Genauigkeit auf einem mobilen Endgerät. Das Video endet jedoch mit einer ernüchternden Nachricht über die Umstrukturierung des Qwen-Teams bei Alibaba und den Weggang wichtiger Ingenieure. Dies wirft Fragen über die zukünftige Entwicklung und weitere Durchbrüche dieser Modellreihe auf. Der Beitrag schließt mit der Aufforderung an die Community, eigene Erfahrungen mit den Small-Modellen zu teilen.

Community Posts

View all posts