00:00:00Internet s'enflamme en ce moment, et cette fois, c'est à cause de Qwen 3.5,
00:00:05plus précisément leur série de petits modèles. Alibaba vient de sortir des versions
00:00:10multimodales natives de Qwen 3.5, qui ne font que 2 milliards, voire 0,8 milliard de paramètres.
00:00:17Ils surpassent certains modèles quatre fois plus grands en raisonnement et en vision.
00:00:22Et ils sont si minuscules qu'on peut désormais les faire tourner localement sur des ordinateurs
00:00:28et smartphones vieux de 6 ans, sans connexion internet. Dans cette vidéo, nous allons
00:00:34nous intéresser spécifiquement aux nouveaux petits modèles de Qwen 3.5, comme le 0,8 et le 2 milliards.
00:00:40On va aussi les tester sur un MacBook Pro M2 ainsi que sur un iPhone 14 Pro
00:00:48pour voir leur réelle puissance. Ça va être super sympa, alors c'est parti.
00:00:55Alors, pourquoi tout le monde est obsédé par ces nouveaux modèles Qwen 3.5 ? Après tout,
00:01:01les petits modèles existent depuis un moment. J'ai même parlé des modèles Granite 4.0 nano
00:01:08d'IBM dans une vidéo précédente, et leur modèle ne faisait que 300 millions de paramètres.
00:01:14Qu'est-ce qui rend ces petits modèles Qwen si différents ? Tout est question de “densité d'intelligence”.
00:01:20Pendant longtemps, la règle était : pour un modèle capable de voir, raisonner et coder,
00:01:27il fallait un modèle géant. Mais ces nouveaux petits modèles Qwen 3.5 prouvent le contraire.
00:01:33Ils ont réussi à compresser leurs grands modèles en versions miniatures qui conservent
00:01:39une architecture multimodale unifiée. Cela signifie que leur modèle de 0,8 milliard
00:01:46ne se contente pas de répondre par texte ; il intègre aussi des capacités de vision et de code.
00:01:51Regardons rapidement leurs benchmarks, car ils sont assez intéressants. Sur le test MMLU,
00:01:57qui mesure les connaissances générales et le raisonnement, le modèle 2B atteint un score de 66,5,
00:02:04tandis que le 0,8B atteint 42,3. Cela peut sembler peu impressionnant, mais gardez en tête
00:02:11que pour comparaison, l'original Llama 2 de 7 milliards de paramètres, sorti en 2023,
00:02:17avait obtenu 45,3 sur ce même test. Cela montre à quel point on a réussi à réduire
00:02:23la taille des paramètres tout en gardant un score de compréhension correct. Mais regardez ça,
00:02:29leur vrai point fort est la performance multimodale. Dans les tests de vision spécialisés comme OCRBench,
00:02:37le modèle 2B obtient 85,4 et le 0,8B atteint 79,1. Cela indique qu'ils sont
00:02:43très capables pour des tâches comme la lecture de documents complexes et l'analyse d'images textuelles.
00:02:51Oh, et ils supportent tous deux une fenêtre de contexte massive de 262K, on peut donc leur soumettre
00:02:56des PDF entiers ou analyser de larges bases de code. C'est assez impressionnant. Voyons maintenant
00:03:02leurs performances réelles. Comme les modèles 0,8B et 2B peuvent tourner localement sur presque
00:03:08n'importe quel ordinateur récent, je vais faire ces tests en mode avion, sans aucune connexion internet
00:03:14sur mon ordinateur. Pour le premier test, on va lancer un serveur local sur LM Studio
00:03:21et le relier à CLINE dans VS Code pour voir si ces modèles minuscules gèrent une tâche de code réelle.
00:03:28D'abord, il faut aller dans l'onglet modèles et télécharger les versions GGUF des modèles 0,8B et 2B.
00:03:33Comme on va les utiliser pour coder, il faudra aussi augmenter considérablement la longueur
00:03:38du contexte disponible. Une fois que c'est fait, on peut lancer le serveur. Passons maintenant à CLINE.
00:03:43Tout d'abord, comme je l'ai dit, je vais couper le Wi-Fi pour faire ces tests totalement hors ligne.
00:03:50Ensuite, dans la configuration de l'API de CLINE, je vais pointer vers l'URL de notre serveur
00:03:56LM Studio personnalisé. Assurons-nous aussi de choisir le modèle 0,8 milliard. Pour le prompt,
00:04:01je vais demander au modèle de créer un site web d'entreprise simple pour un petit café.
00:04:07J'ai remarqué que si on ne précise pas de framework particulier et qu'on laisse Qwen choisir,
00:04:14il choisit d'installer React, ce qui ne fonctionnera pas pour notre démo en mode hors ligne.
00:04:20J'ai donc modifié le prompt pour demander spécifiquement du HTML, CSS et JavaScript sans bibliothèques
00:04:25externes. Lançons le test. Il a fallu environ une minute au modèle pour terminer cette tâche.
00:04:32Voici le résultat final. Comme vous voyez, le site est très basique, le design n'est pas très esthétique,
00:04:37et le texte est très sombre. J'ai aussi remarqué que dans le CSS, le modèle a essayé
00:04:43d'intégrer des images spécifiques d'Unsplash correspondant à notre thème. C'est une observation
00:04:48intéressante. Si on réactive le Wi-Fi un instant, on voit que l'une de ces images se charge.
00:04:54C'est apparemment l'image d'un docteur tenant un téléphone. C'est assez aléatoire. Mais les autres
00:05:00images ont des URL invalides. J'ai essayé de demander au modèle de corriger le texte
00:05:06et d'améliorer d'autres zones, mais il n'a pas pu le faire de manière fiable. Globalement, je dirais que
00:05:12même si ce modèle est capable de coder et d'appeler des outils, ce n'est pas une bonne idée
00:05:17de l'utiliser pour de vrais projets, car le nombre de paramètres est trop faible. Testons maintenant
00:05:23le modèle de 2 milliards avec le même prompt pour comparer. Ce modèle m'a donné beaucoup
00:05:28de fil à retordre car il se bloquait souvent dans une boucle, réécrivant sans cesse la même section.
00:05:34J'ai dû arrêter et redémarrer la tâche. Je ne sais pas si c'est un problème du modèle lui-même,
00:05:40de la gestion du serveur par LM Studio ou de la façon dont Cline traite le prompt.
00:05:45Mais avec cette configuration précise, c'était un combat permanent. Une autre chose que j'ai remarquée,
00:05:51c'est que si le modèle 0,8B est passé direct au code, la version 2B a préféré structurer un plan
00:05:57avant de procéder au codage réel. Le modèle 2B a terminé la tâche en environ trois minutes,
00:06:02donc nettement plus longtemps. Voyons le résultat final. Comme on peut le voir, c'est déjà
00:06:08un cran au-dessus car le design est plus propre et utilise un thème marron, plus proche
00:06:14de l'identité visuelle d'un café. J'ai aussi noté qu'en activant le Wi-Fi, il charge
00:06:20des icônes externes, ce qui rend le site encore plus réussi. Cette version a même essayé
00:06:24d'implémenter la fonctionnalité de panier que j'avais demandée au départ, car on a maintenant
00:06:29cette barre latérale de panier, même s'il manque un bouton d'ajout sur les fiches produits.
00:06:35Quand j'ai tenté de corriger ces problèmes via un prompt, je suis retombé sur le même souci
00:06:41technique où le modèle tournait en boucle. J'en ai déduit que c'était peut-être un conflit
00:06:46entre LM Studio et Cline. Mais soyons honnêtes, personne n'envisagerait sérieusement d'utiliser
00:06:51des modèles aussi petits pour du code complexe et sérieux. J'ai juste fait ces tests par curiosité
00:06:56pour voir si un si petit nombre de paramètres pouvait encore produire un résultat cohérent.
00:07:02Passons maintenant à quelque chose de plus excitant. Essayons de faire tourner ces modèles
00:07:07sur un iPhone 14 Pro. Pour ce faire, j'ai créé une application iOS native en utilisant Swift
00:07:14et le framework MLX Swift. MLX est la bibliothèque open source d'Apple qui permet de faire tourner
00:07:22des modèles directement sur l'architecture de mémoire unifiée Apple Silicon. En exploitant le GPU Metal,
00:07:29on peut faire fonctionner ces modèles Qwen avec accélération matérielle sur l'appareil.
00:07:34Je mettrai un lien vers le dépôt de ce projet Swift en description pour que vous puissiez le compiler.
00:07:40Dès qu'on ouvre l'appli, elle commence immédiatement à télécharger le modèle de 0,8 milliard.
00:07:46Une fois terminé, nous sommes prêts. Mais avant de lancer un prompt, je vais passer
00:07:52mon iPhone en mode avion. Commençons par un simple “hello”. Pour une raison inconnue,
00:07:58il me répond que son nom est Alex. C'est très bizarre, mais soit. Mais avez-vous remarqué
00:08:04la vitesse à laquelle la réponse s'est affichée ? Je suis bluffé par la rapidité avec laquelle
00:08:10ce modèle répond en temps réel. Tentons maintenant le célèbre test du lavage de voiture,
00:08:17sur lequel la plupart des modèles échouent. Et regardez ça, Qwen 3.5 répond correctement.
00:08:23C'est déjà impressionnant. Le plus cool avec ces modèles, c'est qu'ils ont des capacités de vision.
00:08:29Je vais donc lui montrer l'image d'une banane. Voyons s'il comprend ce que c'est et son état.
00:08:35Il identifie correctement que c'est une banane, bien qu'il dise que c'est une “dog banana”.
00:08:40Je n'ai jamais entendu ce terme. Une banane pour chien ? De quoi parle Qwen ici ?
00:08:47Bon, quoi qu'il en soit, il pense qu'elle est trop mûre. Il me prévient qu'elle n'est peut-être pas
00:08:52bonne à manger, ce qui est faux. Je l'ai mangée ce matin et elle était délicieuse. Mais encore
00:08:58une fois, je suis impressionné par la vitesse de traitement du prompt et de la réponse.
00:09:04Essayons une autre image. Voyons s'il peut identifier la race du chien sur cette photo.
00:09:09Ici, on voit que ce n'est pas très précis car il pense voir deux chiens, ce qui est faux.
00:09:15Et il ne mentionne pas la race. Demandons-lui spécifiquement de quel genre de chien il s'agit.
00:09:20Il pense que c'est un golden retriever, ce qui est très loin de la vérité. Donc même si
00:09:27certaines réponses ne sont pas tout à fait exactes, et certaines sont vraiment drôles,
00:09:34je reste sincèrement impressionné par le fait qu'un si petit modèle puisse raisonner sur le contenu
00:09:39d'une image aussi rapidement. Enfin, je veux tester ses capacités d'OCR, vantées dans les benchmarks.
00:09:45Plus précisément, je veux voir s'il peut identifier la langue du texte sur cette image.
00:09:50Pour le contexte, la langue sur cette image est le letton, qui est ma langue maternelle,
00:09:55car je suis originaire de Lettonie. Malheureusement, Qwen échoue car ce n'est pas du slovène,
00:10:00et nos langues ne sont même pas similaires. Je trouve aussi drôle la façon dont il traduit
00:10:05confiants un mot par le même mot, dont je ne suis même pas sûr qu'il existe. Il y a clairement
00:10:11de grosses hallucinations dans cette réponse. Passons maintenant au modèle de 2 milliards.
00:10:19En changeant dans le menu, il va d'abord le télécharger. Une fois que c'est fait,
00:10:25nous pouvons refaire les mêmes tests pour voir s'il y a des améliorations notables.
00:10:30Recommençons par un simple “hello”. Au moins cette fois, ce n'est pas Alex qui répond.
00:10:36C'est déjà un progrès. Refaisons le test du lavage de voiture. Une fois de plus, le modèle réussit,
00:10:42donc bravo. Passons à l'image de la banane. Cette fois, nous avons une réponse plus cohérente.
00:10:47Il détecte bien qu'il s'agit d'une banane. Et concernant son état, il dit qu'elle est mûre
00:10:53et prête à être mangée, ce qui est vrai. Retentons la photo du chien. Celui-ci dit que c'est
00:11:00un Loulou de Poméranie. Je ne pense pas que ces races soient même un peu ressemblantes.
00:11:06Malheureusement, même le modèle 2B est mauvais pour identifier les races de chiens.
00:11:11Enfin, essayons à nouveau l'image avec du texte pour voir s'il identifie la langue.
00:11:18Et regardez ça, le modèle 2B a correctement identifié que ce texte est bien du letton.
00:11:22C'est vraiment cool. Voilà donc la série des petits modèles Qwen 3.5. Je pense sincèrement
00:11:29que malgré les petites incohérences, ce sont les modèles nains les plus puissants que j'aie utilisés.
00:11:36Le fait qu'on puisse avoir un LLM multimodal natif et open source tournant sur un iPhone 14 Pro
00:11:42hors ligne, avec des résultats cohérents et une vitesse d'inférence rapide, est super impressionnant.
00:11:49Qwen s'est vraiment surpassé cette fois. Bravo. Cependant, il y a une mise à jour un peu triste.
00:11:55Alors que je finissais cette vidéo, des rapports indiquent qu'Alibaba restructure l'équipe Qwen.
00:12:01Des figures clés et des ingénieurs de pointe auraient quitté l'entreprise pour lancer leurs propres
00:12:07startups d'IA. La communauté se demande si l'ère des percées rapides de Qwen ne va pas ralentir.
00:12:13Cela rend ces modèles actuels encore plus importants, car ils pourraient être la dernière sortie
00:12:18majeure de cette équipe spécifique avant un moment. Et vous, que pensez-vous de ces petits modèles ?
00:12:24Les avez-vous testés ? Allez-vous les utiliser ? Dites-le nous dans les commentaires ci-dessous.
00:12:30Et les amis, si vous aimez ce genre d'analyses techniques, faites-le moi savoir en cliquant
00:12:35sur le bouton “j'aime” sous la vidéo. N'oubliez pas non plus de vous abonner à notre chaîne.
00:12:39C'était Andres de Better Stack, et je vous donne rendez-vous dans les prochaines vidéos.