Les modèles Qwen 3.5 Small sont INCROYABLES ! (Test du 0.8B et 2B sur appareils mobiles)

BBetter Stack
컴퓨터/소프트웨어경제 뉴스가전제품/카메라스마트폰/모바일

Transcript

00:00:00Internet s'enflamme en ce moment, et cette fois, c'est à cause de Qwen 3.5,
00:00:05plus précisément leur série de petits modèles. Alibaba vient de sortir des versions
00:00:10multimodales natives de Qwen 3.5, qui ne font que 2 milliards, voire 0,8 milliard de paramètres.
00:00:17Ils surpassent certains modèles quatre fois plus grands en raisonnement et en vision.
00:00:22Et ils sont si minuscules qu'on peut désormais les faire tourner localement sur des ordinateurs
00:00:28et smartphones vieux de 6 ans, sans connexion internet. Dans cette vidéo, nous allons
00:00:34nous intéresser spécifiquement aux nouveaux petits modèles de Qwen 3.5, comme le 0,8 et le 2 milliards.
00:00:40On va aussi les tester sur un MacBook Pro M2 ainsi que sur un iPhone 14 Pro
00:00:48pour voir leur réelle puissance. Ça va être super sympa, alors c'est parti.
00:00:55Alors, pourquoi tout le monde est obsédé par ces nouveaux modèles Qwen 3.5 ? Après tout,
00:01:01les petits modèles existent depuis un moment. J'ai même parlé des modèles Granite 4.0 nano
00:01:08d'IBM dans une vidéo précédente, et leur modèle ne faisait que 300 millions de paramètres.
00:01:14Qu'est-ce qui rend ces petits modèles Qwen si différents ? Tout est question de “densité d'intelligence”.
00:01:20Pendant longtemps, la règle était : pour un modèle capable de voir, raisonner et coder,
00:01:27il fallait un modèle géant. Mais ces nouveaux petits modèles Qwen 3.5 prouvent le contraire.
00:01:33Ils ont réussi à compresser leurs grands modèles en versions miniatures qui conservent
00:01:39une architecture multimodale unifiée. Cela signifie que leur modèle de 0,8 milliard
00:01:46ne se contente pas de répondre par texte ; il intègre aussi des capacités de vision et de code.
00:01:51Regardons rapidement leurs benchmarks, car ils sont assez intéressants. Sur le test MMLU,
00:01:57qui mesure les connaissances générales et le raisonnement, le modèle 2B atteint un score de 66,5,
00:02:04tandis que le 0,8B atteint 42,3. Cela peut sembler peu impressionnant, mais gardez en tête
00:02:11que pour comparaison, l'original Llama 2 de 7 milliards de paramètres, sorti en 2023,
00:02:17avait obtenu 45,3 sur ce même test. Cela montre à quel point on a réussi à réduire
00:02:23la taille des paramètres tout en gardant un score de compréhension correct. Mais regardez ça,
00:02:29leur vrai point fort est la performance multimodale. Dans les tests de vision spécialisés comme OCRBench,
00:02:37le modèle 2B obtient 85,4 et le 0,8B atteint 79,1. Cela indique qu'ils sont
00:02:43très capables pour des tâches comme la lecture de documents complexes et l'analyse d'images textuelles.
00:02:51Oh, et ils supportent tous deux une fenêtre de contexte massive de 262K, on peut donc leur soumettre
00:02:56des PDF entiers ou analyser de larges bases de code. C'est assez impressionnant. Voyons maintenant
00:03:02leurs performances réelles. Comme les modèles 0,8B et 2B peuvent tourner localement sur presque
00:03:08n'importe quel ordinateur récent, je vais faire ces tests en mode avion, sans aucune connexion internet
00:03:14sur mon ordinateur. Pour le premier test, on va lancer un serveur local sur LM Studio
00:03:21et le relier à CLINE dans VS Code pour voir si ces modèles minuscules gèrent une tâche de code réelle.
00:03:28D'abord, il faut aller dans l'onglet modèles et télécharger les versions GGUF des modèles 0,8B et 2B.
00:03:33Comme on va les utiliser pour coder, il faudra aussi augmenter considérablement la longueur
00:03:38du contexte disponible. Une fois que c'est fait, on peut lancer le serveur. Passons maintenant à CLINE.
00:03:43Tout d'abord, comme je l'ai dit, je vais couper le Wi-Fi pour faire ces tests totalement hors ligne.
00:03:50Ensuite, dans la configuration de l'API de CLINE, je vais pointer vers l'URL de notre serveur
00:03:56LM Studio personnalisé. Assurons-nous aussi de choisir le modèle 0,8 milliard. Pour le prompt,
00:04:01je vais demander au modèle de créer un site web d'entreprise simple pour un petit café.
00:04:07J'ai remarqué que si on ne précise pas de framework particulier et qu'on laisse Qwen choisir,
00:04:14il choisit d'installer React, ce qui ne fonctionnera pas pour notre démo en mode hors ligne.
00:04:20J'ai donc modifié le prompt pour demander spécifiquement du HTML, CSS et JavaScript sans bibliothèques
00:04:25externes. Lançons le test. Il a fallu environ une minute au modèle pour terminer cette tâche.
00:04:32Voici le résultat final. Comme vous voyez, le site est très basique, le design n'est pas très esthétique,
00:04:37et le texte est très sombre. J'ai aussi remarqué que dans le CSS, le modèle a essayé
00:04:43d'intégrer des images spécifiques d'Unsplash correspondant à notre thème. C'est une observation
00:04:48intéressante. Si on réactive le Wi-Fi un instant, on voit que l'une de ces images se charge.
00:04:54C'est apparemment l'image d'un docteur tenant un téléphone. C'est assez aléatoire. Mais les autres
00:05:00images ont des URL invalides. J'ai essayé de demander au modèle de corriger le texte
00:05:06et d'améliorer d'autres zones, mais il n'a pas pu le faire de manière fiable. Globalement, je dirais que
00:05:12même si ce modèle est capable de coder et d'appeler des outils, ce n'est pas une bonne idée
00:05:17de l'utiliser pour de vrais projets, car le nombre de paramètres est trop faible. Testons maintenant
00:05:23le modèle de 2 milliards avec le même prompt pour comparer. Ce modèle m'a donné beaucoup
00:05:28de fil à retordre car il se bloquait souvent dans une boucle, réécrivant sans cesse la même section.
00:05:34J'ai dû arrêter et redémarrer la tâche. Je ne sais pas si c'est un problème du modèle lui-même,
00:05:40de la gestion du serveur par LM Studio ou de la façon dont Cline traite le prompt.
00:05:45Mais avec cette configuration précise, c'était un combat permanent. Une autre chose que j'ai remarquée,
00:05:51c'est que si le modèle 0,8B est passé direct au code, la version 2B a préféré structurer un plan
00:05:57avant de procéder au codage réel. Le modèle 2B a terminé la tâche en environ trois minutes,
00:06:02donc nettement plus longtemps. Voyons le résultat final. Comme on peut le voir, c'est déjà
00:06:08un cran au-dessus car le design est plus propre et utilise un thème marron, plus proche
00:06:14de l'identité visuelle d'un café. J'ai aussi noté qu'en activant le Wi-Fi, il charge
00:06:20des icônes externes, ce qui rend le site encore plus réussi. Cette version a même essayé
00:06:24d'implémenter la fonctionnalité de panier que j'avais demandée au départ, car on a maintenant
00:06:29cette barre latérale de panier, même s'il manque un bouton d'ajout sur les fiches produits.
00:06:35Quand j'ai tenté de corriger ces problèmes via un prompt, je suis retombé sur le même souci
00:06:41technique où le modèle tournait en boucle. J'en ai déduit que c'était peut-être un conflit
00:06:46entre LM Studio et Cline. Mais soyons honnêtes, personne n'envisagerait sérieusement d'utiliser
00:06:51des modèles aussi petits pour du code complexe et sérieux. J'ai juste fait ces tests par curiosité
00:06:56pour voir si un si petit nombre de paramètres pouvait encore produire un résultat cohérent.
00:07:02Passons maintenant à quelque chose de plus excitant. Essayons de faire tourner ces modèles
00:07:07sur un iPhone 14 Pro. Pour ce faire, j'ai créé une application iOS native en utilisant Swift
00:07:14et le framework MLX Swift. MLX est la bibliothèque open source d'Apple qui permet de faire tourner
00:07:22des modèles directement sur l'architecture de mémoire unifiée Apple Silicon. En exploitant le GPU Metal,
00:07:29on peut faire fonctionner ces modèles Qwen avec accélération matérielle sur l'appareil.
00:07:34Je mettrai un lien vers le dépôt de ce projet Swift en description pour que vous puissiez le compiler.
00:07:40Dès qu'on ouvre l'appli, elle commence immédiatement à télécharger le modèle de 0,8 milliard.
00:07:46Une fois terminé, nous sommes prêts. Mais avant de lancer un prompt, je vais passer
00:07:52mon iPhone en mode avion. Commençons par un simple “hello”. Pour une raison inconnue,
00:07:58il me répond que son nom est Alex. C'est très bizarre, mais soit. Mais avez-vous remarqué
00:08:04la vitesse à laquelle la réponse s'est affichée ? Je suis bluffé par la rapidité avec laquelle
00:08:10ce modèle répond en temps réel. Tentons maintenant le célèbre test du lavage de voiture,
00:08:17sur lequel la plupart des modèles échouent. Et regardez ça, Qwen 3.5 répond correctement.
00:08:23C'est déjà impressionnant. Le plus cool avec ces modèles, c'est qu'ils ont des capacités de vision.
00:08:29Je vais donc lui montrer l'image d'une banane. Voyons s'il comprend ce que c'est et son état.
00:08:35Il identifie correctement que c'est une banane, bien qu'il dise que c'est une “dog banana”.
00:08:40Je n'ai jamais entendu ce terme. Une banane pour chien ? De quoi parle Qwen ici ?
00:08:47Bon, quoi qu'il en soit, il pense qu'elle est trop mûre. Il me prévient qu'elle n'est peut-être pas
00:08:52bonne à manger, ce qui est faux. Je l'ai mangée ce matin et elle était délicieuse. Mais encore
00:08:58une fois, je suis impressionné par la vitesse de traitement du prompt et de la réponse.
00:09:04Essayons une autre image. Voyons s'il peut identifier la race du chien sur cette photo.
00:09:09Ici, on voit que ce n'est pas très précis car il pense voir deux chiens, ce qui est faux.
00:09:15Et il ne mentionne pas la race. Demandons-lui spécifiquement de quel genre de chien il s'agit.
00:09:20Il pense que c'est un golden retriever, ce qui est très loin de la vérité. Donc même si
00:09:27certaines réponses ne sont pas tout à fait exactes, et certaines sont vraiment drôles,
00:09:34je reste sincèrement impressionné par le fait qu'un si petit modèle puisse raisonner sur le contenu
00:09:39d'une image aussi rapidement. Enfin, je veux tester ses capacités d'OCR, vantées dans les benchmarks.
00:09:45Plus précisément, je veux voir s'il peut identifier la langue du texte sur cette image.
00:09:50Pour le contexte, la langue sur cette image est le letton, qui est ma langue maternelle,
00:09:55car je suis originaire de Lettonie. Malheureusement, Qwen échoue car ce n'est pas du slovène,
00:10:00et nos langues ne sont même pas similaires. Je trouve aussi drôle la façon dont il traduit
00:10:05confiants un mot par le même mot, dont je ne suis même pas sûr qu'il existe. Il y a clairement
00:10:11de grosses hallucinations dans cette réponse. Passons maintenant au modèle de 2 milliards.
00:10:19En changeant dans le menu, il va d'abord le télécharger. Une fois que c'est fait,
00:10:25nous pouvons refaire les mêmes tests pour voir s'il y a des améliorations notables.
00:10:30Recommençons par un simple “hello”. Au moins cette fois, ce n'est pas Alex qui répond.
00:10:36C'est déjà un progrès. Refaisons le test du lavage de voiture. Une fois de plus, le modèle réussit,
00:10:42donc bravo. Passons à l'image de la banane. Cette fois, nous avons une réponse plus cohérente.
00:10:47Il détecte bien qu'il s'agit d'une banane. Et concernant son état, il dit qu'elle est mûre
00:10:53et prête à être mangée, ce qui est vrai. Retentons la photo du chien. Celui-ci dit que c'est
00:11:00un Loulou de Poméranie. Je ne pense pas que ces races soient même un peu ressemblantes.
00:11:06Malheureusement, même le modèle 2B est mauvais pour identifier les races de chiens.
00:11:11Enfin, essayons à nouveau l'image avec du texte pour voir s'il identifie la langue.
00:11:18Et regardez ça, le modèle 2B a correctement identifié que ce texte est bien du letton.
00:11:22C'est vraiment cool. Voilà donc la série des petits modèles Qwen 3.5. Je pense sincèrement
00:11:29que malgré les petites incohérences, ce sont les modèles nains les plus puissants que j'aie utilisés.
00:11:36Le fait qu'on puisse avoir un LLM multimodal natif et open source tournant sur un iPhone 14 Pro
00:11:42hors ligne, avec des résultats cohérents et une vitesse d'inférence rapide, est super impressionnant.
00:11:49Qwen s'est vraiment surpassé cette fois. Bravo. Cependant, il y a une mise à jour un peu triste.
00:11:55Alors que je finissais cette vidéo, des rapports indiquent qu'Alibaba restructure l'équipe Qwen.
00:12:01Des figures clés et des ingénieurs de pointe auraient quitté l'entreprise pour lancer leurs propres
00:12:07startups d'IA. La communauté se demande si l'ère des percées rapides de Qwen ne va pas ralentir.
00:12:13Cela rend ces modèles actuels encore plus importants, car ils pourraient être la dernière sortie
00:12:18majeure de cette équipe spécifique avant un moment. Et vous, que pensez-vous de ces petits modèles ?
00:12:24Les avez-vous testés ? Allez-vous les utiliser ? Dites-le nous dans les commentaires ci-dessous.
00:12:30Et les amis, si vous aimez ce genre d'analyses techniques, faites-le moi savoir en cliquant
00:12:35sur le bouton “j'aime” sous la vidéo. N'oubliez pas non plus de vous abonner à notre chaîne.
00:12:39C'était Andres de Better Stack, et je vous donne rendez-vous dans les prochaines vidéos.

Key Takeaway

Les modèles Qwen 3.5 Small redéfinissent la "densité d'intelligence" en offrant des capacités multimodales et de raisonnement exceptionnelles sur des appareils locaux et mobiles malgré leur taille minuscule.

Highlights

Sortie des modèles multimodaux natifs Qwen 3.5 avec seulement 0,8B et 2B de paramètres.

Capacité à fonctionner localement sur des appareils mobiles et anciens sans connexion internet.

Scores de benchmarks impressionnants surpassant des modèles beaucoup plus grands comme Llama 2 7B sur le test MMLU.

Fenêtre de contexte massive de 262K permettant l'analyse de documents longs et de bases de code.

Performances multimodales élevées avec des scores OCRBench atteignant 85,4 pour le modèle 2B.

Tests de codage réussis via LM Studio et Cline, montrant une supériorité du modèle 2B sur le design et la logique.

Inquiétudes sur l'avenir de Qwen suite à des rapports de restructuration interne chez Alibaba.

Timeline

Introduction et présentation de Qwen 3.5 Small

L'animateur présente l'engouement actuel pour les nouveaux modèles miniatures d'Alibaba, spécifiquement les versions 0,8B et 2B. Ces modèles se distinguent par leur architecture multimodale native malgré une taille de paramètres extrêmement réduite. L'intérêt majeur réside dans la possibilité de les faire tourner hors ligne sur des smartphones vieux de six ans ou des ordinateurs récents. La vidéo promet des tests concrets sur MacBook Pro M2 et iPhone 14 Pro pour évaluer leur puissance réelle. Cette introduction pose les bases d'une révolution dans l'IA locale et accessible.

Analyse des benchmarks et densité d'intelligence

Ce segment explore le concept de "densité d'intelligence" qui rend Qwen 3.5 différent des modèles précédents comme le Granite d'IBM. Les benchmarks montrent que le modèle 2B obtient un score de 66,5 sur MMLU, surpassant le Llama 2 7B original. En vision, les modèles brillent particulièrement sur OCRBench avec des scores allant jusqu'à 85,4, prouvant leur efficacité pour l'analyse de documents. Une caractéristique technique clé est leur fenêtre de contexte de 262K tokens, idéale pour traiter de gros fichiers PDF. Ces statistiques confirment que la taille des paramètres ne limite plus drastiquement les capacités de raisonnement.

Tests de codage hors ligne sur PC

L'animateur effectue un test de développement web en utilisant LM Studio et l'extension Cline dans VS Code, le tout sans connexion internet. Le modèle 0,8B parvient à créer un site de café basique mais souffre d'un design médiocre et d'erreurs dans les URL d'images. En comparaison, le modèle 2B produit un résultat plus esthétique et structuré, bien qu'il rencontre des problèmes de boucles infinies lors de la génération. Le test révèle que si ces modèles sont capables de coder, ils ne sont pas encore prêts pour des projets professionnels complexes. Cette expérience souligne les limites actuelles des modèles nains face aux tâches de production logicielle.

Tests de vision et raisonnement sur iPhone 14 Pro

La démonstration passe sur mobile grâce au framework MLX Swift d'Apple, permettant d'utiliser le GPU Metal pour l'accélération matérielle. Le modèle 0,8B surprend par sa vitesse d'inférence quasi instantanée et réussit le test de logique du lavage de voiture. Cependant, les tests de vision montrent des résultats mitigés : le modèle identifie une banane comme une "dog banana" et échoue à reconnaître les races de chiens. Le modèle 2B s'avère nettement plus précis, identifiant correctement le letton comme langue source sur une image textuelle. Ces tests mobiles illustrent le potentiel immense de l'IA embarquée pour des interactions quotidiennes rapides.

Conclusion et incertitudes sur l'avenir de Qwen

En conclusion, l'animateur exprime son admiration pour les performances de Qwen 3.5, les qualifiant de modèles nains les plus puissants testés à ce jour. Le fait d'avoir un LLM multimodal natif et open source fonctionnant parfaitement sur un iPhone est une étape historique. Cependant, la vidéo se termine sur une note douce-amère concernant la restructuration de l'équipe Qwen chez Alibaba et le départ d'ingénieurs clés. Cette situation laisse planer un doute sur la fréquence des futures innovations majeures de cette gamme. L'appel à l'action invite les spectateurs à partager leurs propres expériences de test en commentaires.

Community Posts

View all posts