00:00:00La plupart des gens pensent que l'utilisation d'un modèle de vision-langage puissant nécessite un GPU massif
00:00:05ou un abonnement payant à un service cloud.
00:00:08Pourtant, Liquid AI a récemment publié une démo de son dernier modèle LFM tournant entièrement
00:00:14dans un navigateur web.
00:00:16Grâce à WebGPU et à l'ONNX Runtime, ce modèle peut traiter des images et des vidéos localement.
00:00:23Cela signifie que vos données ne quittent jamais votre ordinateur et que vous n'avez même pas besoin d'internet
00:00:28une fois que le modèle est mis en cache sur votre appareil.
00:00:30Honnêtement, je trouve ça génial. Dans cette vidéo, nous allons donc examiner
00:00:34ce modèle, voir ses performances, faire un petit test et déterminer s'il est aussi puissant
00:00:40qu'annoncé.
00:00:41Ça va être très intéressant, alors c'est parti.
00:00:48LFM signifie Liquid Foundation Model (Modèle de Fondation Liquide).
00:00:52Au lieu de s'appuyer uniquement sur l'architecture transformer, Liquid AI utilise une conception hybride.
00:00:58Elle combine des blocs convolutionnels avec ce qu'on appelle la "grouped query attention".
00:01:03Le modèle de 1,6 milliard de paramètres est spécifiquement optimisé pour la vision et le langage.
00:01:09Il est entraîné sur un ensemble de données massif de 28 billions de tokens, ce qui l'aide à surpasser
00:01:15sa catégorie.
00:01:16Dans les benchmarks, il égale souvent les performances de modèles deux fois plus grands, tout en étant
00:01:21nettement plus rapide sur les appareils mobiles comme les ordinateurs portables et les téléphones.
00:01:26Maintenant, vous vous demandez peut-être : comment ont-ils réussi à condenser une telle intelligence
00:01:31dans un format qui consomme moins d'un gigaoctet de RAM ?
00:01:34Contrairement aux autres modèles miniatures qui sont des versions compressées de géants du cloud,
00:01:40Liquid AI utilise une philosophie baptisée "l'efficacité par conception".
00:01:44Le terme "Liquid" fait référence à leur architecture LIV (Linear Input Varying).
00:01:51Alors que les transformers traditionnels ont une mémoire qui s'alourdit au fil de l'interaction,
00:01:56le modèle Liquid utilise un système hybride de blocs convolutionnels adaptatifs.
00:02:01Ces blocs agissent comme des filtres intelligents qui ne traitent que les informations locales les plus pertinentes,
00:02:07comprimant efficacement les données à mesure qu'elles traversent le modèle.
00:02:11Cela permet au LFM de maintenir sa fenêtre de contexte massive de 32 000 tokens sans le ralentissement exponentiel
00:02:18ou les pics de mémoire habituels que l'on observe chez les transformers classiques.
00:02:23Certains détails techniques permettent à ce modèle de se démarquer des autres.
00:02:28Tout d'abord, il possède une résolution native.
00:02:30Il gère des images jusqu'à 512 par 512 pixels sans distorsion ni mise à l'échelle.
00:02:37Pour les images plus grandes, il utilise une stratégie de pavage qui divise l'image en fragments
00:02:42tout en conservant une vignette pour le contexte global.
00:02:46Ensuite, il est extrêmement efficace.
00:02:47Grâce à son architecture hybride, il offre une empreinte mémoire très faible, tournant souvent
00:02:52avec moins d'un gigaoctet de RAM.
00:02:54Mais le plus impressionnant reste l'intégration de WebGPU.
00:02:58La démo sur Hugging Face montre comment on peut l'utiliser pour du sous-titrage par webcam en temps réel.
00:03:04Essayons-le par nous-mêmes pour voir ses performances.
00:03:08Très bien, voyons comment cela fonctionne concrètement.
00:03:11Je suppose que nous devons choisir le modèle de vision à charger.
00:03:15Essayons le plus puissant avec la précision FP16.
00:03:18Chargeons-le.
00:03:20Le téléchargement de ce modèle prend un certain temps.
00:03:23Tout est téléchargé directement sur votre appareil.
00:03:25Ainsi, la prochaine fois que vous ouvrirez l'application, tout sera en cache.
00:03:28D'accord.
00:03:29Nous avons maintenant téléchargé le modèle avec quantification FP16.
00:03:34Cliquons sur "Démarrer" pour voir le résultat.
00:03:36Oh, regardez ça.
00:03:38Un homme barbu portant un sweat à capuche regarde la caméra.
00:03:40D'accord, il est capable de détecter les types d'objets présents dans la vidéo, ce qui est
00:03:45plutôt cool.
00:03:46On peut donc faire de la détection d'objets.
00:03:50Voyons s'il peut détecter un téléphone.
00:03:51Oui, il détecte que je tiens un iPhone avec une coque noire.
00:03:57C'est vraiment impressionnant.
00:03:58Regardez ça.
00:04:00Il le fait vraiment en temps réel.
00:04:02Je suis bluffé.
00:04:04Et si je fais ceci ?
00:04:05Est-ce qu'il reconnaît un homme faisant le signe de la paix avec sa main ?
00:04:10C'est super.
00:04:12Et si je lève le pouce ?
00:04:13Oui, il voit bien le pouce levé.
00:04:15Le modèle détecte tout ce que je fais en temps réel.
00:04:18Voyons s'il peut détecter mon microphone.
00:04:21Oh, il détecte même qu'il y a l'inscription "Rode" dessus.
00:04:24Wow, il peut même lire du texte sur le boîtier, c'est vraiment génial.
00:04:29Le fait d'obtenir ces descriptions en temps réel prouve vraiment que ce modèle
00:04:33est très puissant.
00:04:35Je vais essayer de couper la connexion internet pour voir si ça fonctionne toujours.
00:04:40J'ai désactivé le Wi-Fi et oui, nous obtenons toujours les mêmes résultats, c'est
00:04:50fantastique.
00:04:51Et voilà, tout le monde.
00:04:52C'est l'essentiel sur le tout nouveau Liquid Foundation Model.
00:04:56C'est incroyable de voir à quel point ces modèles d'IA ont évolué en termes de quantification
00:05:01et de capacité à tourner sur des appareils locaux comme mon ordinateur portable ici.
00:05:05Il y a deux ans à peine, on ne l'aurait pas cru, mais aujourd'hui
00:05:10il devient de plus en plus courant de faire tourner ces modèles via WebGPU.
00:05:14Alors, que pensez-vous du Liquid Foundation Model ?
00:05:16L'avez-vous testé ?
00:05:17Allez-vous l'utiliser ?
00:05:18Quels seraient selon vous les meilleurs cas d'usage pour un tel modèle ?
00:05:21Dites-nous ce que vous en pensez dans l'espace commentaires.
00:05:23Et si vous aimez ce genre d'analyses techniques, faites-le-moi savoir en cliquant
00:05:27sur le bouton "j'aime" sous la vidéo, et n'oubliez pas de vous abonner à notre chaîne.
00:05:32C'était Andris de Better Stack, on se retrouve dans les prochaines vidéos.