00:00:00Das Internet spielt gerade verrückt, und dieses Mal liegt es an Qwen 3.5,
00:00:05speziell an deren Serie kleiner Modelle. Alibaba hat gerade native multimodale
00:00:10Versionen von Qwen 3.5 veröffentlicht, die nur 2 Milliarden oder sogar 0,8 Milliarden Parameter groß sind.
00:00:17In den Bereichen logisches Denken und Sehen übertreffen sie Modelle, die viermal so groß sind.
00:00:22Und sie sind so winzig, dass wir sie jetzt lokal auf 6 Jahre alten Laptops und Smartphones ausführen können,
00:00:28ganz ohne Internetverbindung. In diesem Video schauen wir uns speziell die neuen
00:00:34Modelle der Small-Serie von Qwen 3.5 an, wie das mit 0,8 und 2 Milliarden Parametern. Wir werden sie auch
00:00:40auf einem M2 MacBook Pro sowie auf einem iPhone 14 Pro testen und herausfinden, wie leistungsfähig sie wirklich sind.
00:00:48Das wird ein Riesenspaß, also legen wir direkt los.
00:00:55Warum sind also alle so besessen von diesen neuen Qwen 3.5 Modellen? Schließlich gibt es kleine Modelle
00:01:01schon seit einer Weile. Ich habe in einem früheren Video sogar die Granite 4.0 Nano-Modelle von IBM vorgestellt,
00:01:08und deren Modell war gerade mal 300 Millionen Parameter groß. Was macht diese kleinen Qwen-Modelle also so besonders?
00:01:14Nun, es dreht sich alles um die sogenannte Intelligenzdichte. Lange Zeit galt die Regel:
00:01:20Wenn ein Modell sehen, denken und coden soll, muss es riesig sein. Aber diese neuen Qwen 3.5 Small-Modelle
00:01:27beweisen, dass das nicht der Fall sein muss. Sie haben es irgendwie geschafft, ihre großen Modelle in
00:01:33winzige Versionen zu komprimieren, die immer noch eine einheitliche multimodale Architektur unterstützen. Das bedeutet,
00:01:39ihr 0,8-Milliarden-Modell beantwortet nicht nur Text, sondern hat auch Bildverarbeitungs- und Coding-Fähigkeiten fest eingebaut.
00:01:46Werfen wir einen kurzen Blick auf die Benchmarks, denn die sind ziemlich interessant. Im MMLU-Benchmark,
00:01:51der Allgemeinwissen und logisches Denken misst, erreicht das 2-Milliarden-Modell einen Wert von 66,5,
00:01:57während das 0,8-Milliarden-Modell 42,3 erreicht. Das mag nicht allzu beeindruckend klingen, aber bedenken Sie,
00:02:04dass zum Vergleich das ursprüngliche Llama 2 mit 7 Milliarden Parametern, das 2023 erschien,
00:02:11beim gleichen Benchmark 45,3 Punkte erzielte. Das zeigt einfach, wie sehr wir es geschafft haben, die
00:02:17Parametergröße zu schrumpfen und dennoch ein ordentliches Verständnisniveau beizubehalten. Aber seht euch das an:
00:02:23Der wahre Clou ist ihre multimodale Leistung. In spezialisierten Sehtests wie OCRBench
00:02:29erzielt das 2-Milliarden-Modell 85,4 Punkte und das 0,8-Milliarden-Modell 79,1. Dies deutet darauf hin, dass sie
00:02:37sehr fähig für Aufgaben wie das Lesen komplexer Dokumente und das Analysieren von Bildern mit Text sind.
00:02:43Oh, und beide unterstützen ein riesiges Kontextfenster von 262.000 Token. Man kann ihnen also ganze PDFs füttern oder
00:02:51sie zur Analyse großer Codebasen nutzen. Das ist ziemlich beeindruckend. Aber schauen wir uns nun an,
00:02:56wie sie tatsächlich abschneiden. Da sowohl das 0,8- als auch das 2-Milliarden-Modell lokal auf fast jedem
00:03:02modernen Laptop laufen, werde ich diese Tests im Flugmodus, ganz ohne Internetverbindung,
00:03:08auf meinem lokalen Laptop durchführen. Für den ersten Test starten wir einen lokalen Server in LM Studio
00:03:14und verbinden ihn mit CLINE in VS Code, um zu sehen, ob diese winzigen Modelle echte Coding-Aufgaben bewältigen können.
00:03:21Zuerst müsst ihr im Modelle-Tab die GGUF-Versionen des 0,8-Milliarden- und des
00:03:282-Milliarden-Parameter-Modells herunterladen. Und da wir diese Modelle für Coding-Aufgaben nutzen wollen,
00:03:33müssen wir auch die verfügbare Kontextlänge ein ordentliches Stück erhöhen. Sobald das erledigt ist,
00:03:38können wir den Server starten. Springen wir nun zu CLINE. Wie erwähnt, werde ich zuerst
00:03:43mein WLAN ausschalten, damit wir diese Tests komplett offline durchführen können. Dann stelle ich in CLINE
00:03:50im Bereich API-Konfiguration sicher, dass die URL auf unseren benutzerdefinierten LM Studio Server zeigt. Achten wir auch darauf,
00:03:56dass wir das 0,8-Milliarden-Modell auswählen. Als Prompt bitte ich das Modell,
00:04:01eine einfache Website für ein kleines Café zu erstellen. Mir ist aufgefallen: Wenn wir kein spezielles Framework
00:04:07vorgeben und Qwen selbst entscheiden lassen, will es React installieren, was für unsere Demo
00:04:14im Offline-Modus nicht funktionieren würde. Also habe ich den Prompt angepasst und explizit nach HTML, CSS und JavaScript
00:04:20ohne externe Bibliotheken gefragt. Starten wir den Test. Das Modell hat etwa eine Minute gebraucht,
00:04:25um diese Aufgabe abzuschließen. Und hier ist unser Endergebnis. Wie Sie sehen können, ist die Seite sehr schlicht,
00:04:32das Design ist nicht besonders ästhetisch und der Text ist sehr dunkel. Mir ist auch aufgefallen,
00:04:37dass das Modell im CSS versucht hat, spezifische Bilder von Unsplash hart zu codieren, die zu unserem Thema passen. Das ist eine
00:04:43interessante Beobachtung. Wenn wir das WLAN kurz wieder einschalten, sehen wir,
00:04:48dass eines dieser Bilder tatsächlich geladen wird. Es scheint ein Bild eines Arztes zu sein, der ein Telefon hält. Das ist ziemlich
00:04:54willkürlich. Die anderen Bilder enthalten ungültige URLs. Ich habe auch versucht, das Modell erneut aufzufordern,
00:05:00den fehlerhaften Text zu korrigieren und andere Bereiche zu verbessern, aber es gelang ihm nicht zuverlässig. Insgesamt
00:05:06würde ich sagen: Obwohl dieses Modell fähig ist zu coden und Tools aufzurufen, halte ich es nicht für
00:05:12eine gute Idee, es in realen Szenarien einzusetzen, da die Parameteranzahl einfach zu gering ist. Aber
00:05:17testen wir nun das 2-Milliarden-Parameter-Modell mit demselben Prompt und sehen wir, wie es sich schlägt. Dieses
00:05:23Modell hat mir tatsächlich viel Kopfzerbrechen bereitet, weil es oft in einer Endlosschleife hängen blieb
00:05:28und denselben Abschnitt immer wieder schrieb. Ich musste die Aufgabe stoppen und neu starten. Ich bin nicht sicher,
00:05:34ob das ein Problem des Modells selbst ist, oder wie LM Studio den Server betreibt oder wie Cline
00:05:40den Prompt verarbeitet. Aber mit dieser speziellen Konfiguration war das ein ständiger Kampf
00:05:45für mich. Eine weitere Sache, die mir auffiel: Während das 0,8-Milliarden-Parameter-Modell direkt mit dem
00:05:51Programmieren begann, bevorzugte die 2-Milliarden-Version, zuerst einen Plan zu strukturieren und dann mit dem
00:05:57eigentlichen Coden fortzufahren. Das 2-Milliarden-Modell schloss die Aufgabe in etwa drei Minuten ab,
00:06:02also deutlich länger. Schauen wir uns das Endergebnis an. Wie wir sehen können, ist es bereits
00:06:08eine Steigerung, da das Design viel sauberer aussieht und ein bräunliches Farbschema verwendet, was eher
00:06:14der visuellen Identität eines Cafés entspricht. Noch etwas ist mir aufgefallen: Wenn wir das WLAN einschalten,
00:06:20lädt es tatsächlich einige externe Icons, wodurch die gesamte Seite noch besser aussieht.
00:06:24Diese Version hat sogar versucht, die Warenkorb-Funktion zu implementieren, nach der ich anfangs gefragt hatte,
00:06:29denn wir haben jetzt diese schicke Warenkorb-Seitenleiste, obwohl ich keinen Button zum Hinzufügen
00:06:35auf den Artikelkarten sehe. Als ich versuchte, diese Probleme per Prompt zu beheben, trat erneut dasselbe
00:06:41technische Problem auf: Das Modell geriet in eine Endlosschleife. Ich dachte mir, das könnte einfach ein Problem von
00:06:46LM Studio in Verbindung mit Cline oder etwas Ähnlichem sein. Aber seien wir ehrlich: Offensichtlich
00:06:51würde niemand ernsthaft in Erwägung ziehen, solch kleine Modelle für komplexes und seriöses Coding zu nutzen.
00:06:56Ich habe diese Tests nur aus Neugier durchgeführt, um zu sehen, ob eine so geringe Parameteranzahl
00:07:02dennoch ein brauchbares Ergebnis für eine Coding-Aufgabe liefern kann. Machen wir jetzt etwas Spannenderes.
00:07:07Versuchen wir, diese Modelle auf einem iPhone 14 Pro laufen zu lassen. Dafür habe ich eine native iOS-App mit
00:07:14Swift und dem MLX Swift Framework gebaut. MLX ist Apples Open-Source-Bibliothek, die es ermöglicht,
00:07:22Modelle direkt auf der Unified Memory Architecture von Apple Silicon auszuführen. Durch die Nutzung der Metal GPU können wir
00:07:29diese Qwen-Modelle mit Hardwarebeschleunigung direkt auf dem Gerät betreiben. Ich werde auch
00:07:34einen Link zum Repo für dieses Swift-Projekt in die Beschreibung setzen, damit ihr es herunterladen und auf eurem eigenen Gerät kompilieren könnt.
00:07:40Sobald wir die App öffnen, beginnt sie sofort mit dem Download des 0,8-Milliarden-Modells.
00:07:46Sobald das erledigt ist, sind wir bereit. Aber bevor ich einen Prompt eingebe,
00:07:52schalte ich den Flugmodus auf meinem iPhone ein. Beginnen wir mit einem einfachen “Hallo”. Aus irgendeinem
00:07:58Grund antwortet es, dass sein Name Alex sei. Okay, das ist sehr willkürlich, aber gut. Aber habt ihr bemerkt,
00:08:04wie schnell die Antwort gestreamt wurde? Ich bin ehrlich gesagt verblüfft, wie schnell dieses Modell
00:08:10in Echtzeit antwortet. Versuchen wir nun den berühmten Autowasch-Test, den die meisten Modelle normalerweise falsch machen.
00:08:17Und siehe da, Qwen 3.5 antwortet tatsächlich korrekt. Das ist schon mal beeindruckend.
00:08:23Das Coolste an diesen Modellen ist, dass sie auch Bildverarbeitungsfunktionen nutzen können. Ich werde ihm jetzt
00:08:29das Bild einer Banane zeigen. Mal sehen, ob es versteht, was es ist und in welchem Zustand
00:08:35sie sich befindet. Es erkennt korrekt, dass es sich tatsächlich um eine Banane handelt, obwohl es sagt, es sei eine
00:08:40“Hundebanane”. Von diesem Begriff habe ich ehrlich gesagt noch nie gehört. Eine Hundebanane? Was soll das sein? Wovon redet
00:08:47Qwen hier? Na ja, egal, es denkt jedenfalls, sie sei überreif. Und es warnt mich, dass der Verzehr
00:08:52vielleicht nicht sicher sei, was nicht stimmt. Ich habe diese Banane heute Morgen gegessen und sie war köstlich. Aber wie auch immer,
00:08:58ich bin wieder einmal beeindruckt, wie schnell es meinen Prompt verarbeitet und mir die
00:09:04Antwort liefert. Versuchen wir ein anderes Bild. Mal sehen, ob es die Hunderasse auf
00:09:09diesem Bild identifizieren kann. Hier sehen wir, dass es nicht ganz genau ist, da es denkt, es sähe zwei
00:09:15Hunde, was nicht stimmt. Und es nennt die Rasse nicht. Fragen wir also gezielt, was für eine Art
00:09:20von Hund es ist. Es denkt, es sei ein Golden Retriever, was offensichtlich weit von der Wahrheit entfernt ist. Also,
00:09:27obwohl einige Antworten nicht ganz korrekt und manche einfach nur lustig sind,
00:09:34bin ich dennoch aufrichtig beeindruckt, dass ein so kleines Modell über Bildinhalte urteilen kann und das in einem so enormen Tempo.
00:09:39Als Letztes möchte ich die OCR-Fähigkeiten dieses Modells testen, die in den Benchmarks so angepriesen wurden.
00:09:45Speziell möchte ich sehen, ob dieses Modell identifizieren kann, in welcher Sprache der Text auf diesem Bild verfasst ist.
00:09:50Um euch etwas Kontext zu geben: Die auf diesem Bild gezeigte Sprache ist Lettisch, was meine Muttersprache ist,
00:09:55da ich ursprünglich aus Lettland komme. Leider versagt Qwen bei diesem Test, denn das ist nicht Slowenisch,
00:10:00und unsere Sprache ist dem Slowenischen nicht einmal ähnlich. Ich finde es auch witzig, wie selbstbewusst es
00:10:05ein Wort in dasselbe Wort übersetzt, von dem ich mir nicht einmal sicher bin, ob es ein echtes Wort ist. Es finden also eindeutig
00:10:11starke Halluzinationen in dieser Antwort statt. Gut, wechseln wir nun zum 2-Milliarden-
00:10:19Parameter-Modell. Wenn man im Dropdown umschaltet, wird es dieses zuerst herunterladen. Sobald das
00:10:25erledigt ist, können wir dieselben Tests mit dieser Version durchführen, um zu sehen, ob wir spürbare Verbesserungen erzielen. Also,
00:10:30wieder ein einfaches “Hallo”. Okay, zumindest antwortet diesmal nicht Alex. Das ist
00:10:36schon mal eine Verbesserung. Machen wir den Autowasch-Test noch einmal. Und wieder besteht das Modell
00:10:42den Test. Gut gemacht. Weiter geht's mit dem Bananen-Bild. Und diesmal
00:10:47erhalten wir eine sinnvollere Antwort. Es erkennt, dass es sich tatsächlich um eine Banane handelt. Und was den
00:10:53Zustand betrifft, sagt es, sie sei vollreif und essfertig, was stimmt. Versuchen wir das Hundebild
00:11:00erneut. Diesmal heißt es, es sei ein Zwergspitz. Ich finde nicht mal, dass diese Rassen
00:11:06auch nur ansatzweise ähnlich sind. Leider ist also auch das 2-Milliarden-Modell schlecht darin, Hunderassen zu bestimmen.
00:11:11Und schließlich versuchen wir noch einmal das Bild mit dem Text, um zu sehen, ob es die Sprache erkennt.
00:11:18Und siehe da: Das 2-Milliarden-Parameter-Modell hat korrekt erkannt, dass dieser Text tatsächlich
00:11:22Lettisch ist. Das ist ziemlich cool. Da haben wir es also. Das ist die Qwen 3.5 Small-Modellserie. Ich
00:11:29glaube ehrlich gesagt, dass dies trotz der kleinen Unstimmigkeiten die leistungsfähigsten winzigen Modelle sind,
00:11:36die ich je benutzt habe. Dass wir jetzt ein quelloffenes, natives multimodales LLM haben, das offline auf einem
00:11:42iPhone 14 Pro läuft und bei relativ hoher Geschwindigkeit sinnvolle Ergebnisse liefert,
00:11:49ist super beeindruckend. Qwen hat sich diesmal wirklich selbst übertroffen. Gut gemacht. Aber es gibt
00:11:55ein eher trauriges Update zu vermelden. Als ich dieses Video fertigstellte, tauchten Berichte auf, dass Alibaba
00:12:01das Qwen-Team umfassend umstrukturiert. Wichtige Führungskräfte und Top-Ingenieure hinter
00:12:07diesen Modellen haben das Unternehmen angeblich verlassen, einige um eigene KI-Startups zu gründen. Dies lässt die
00:12:13Community rätseln, ob die Ära der rasanten Durchbrüche bei Qwen nun gebremst wird. Das macht
00:12:18diese aktuellen Modelle noch bedeutender, da sie vielleicht für längere Zeit die letzte große Veröffentlichung dieses
00:12:24speziellen Teams sein könnten. Aber was denkt ihr über diese Modelle der Small-Serie? Habt ihr sie
00:12:30ausprobiert? Werdet ihr sie nutzen? Lasst es uns unten in den Kommentaren wissen. Und Leute, wenn euch
00:12:35diese Art von technischen Analysen gefällt, lasst es mich wissen, indem ihr auf den Like-Button unter dem Video klickt.
00:12:39Und vergesst auch nicht, unseren Kanal zu abonnieren. Ich bin Andres von Better Stack und wir sehen
00:12:45uns in den nächsten Videos.
00:12:50Tschüss!