Le modèle de vision le plus RAPIDE pour votre ordinateur portable (Liquid AI LFM 2.5)

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00La plupart des gens pensent que l'utilisation d'un modèle de vision-langage puissant nécessite un GPU massif
00:00:05ou un abonnement payant à un service cloud.
00:00:08Pourtant, Liquid AI a récemment publié une démo de son dernier modèle LFM tournant entièrement
00:00:14dans un navigateur web.
00:00:16Grâce à WebGPU et à l'ONNX Runtime, ce modèle peut traiter des images et des vidéos localement.
00:00:23Cela signifie que vos données ne quittent jamais votre ordinateur et que vous n'avez même pas besoin d'internet
00:00:28une fois que le modèle est mis en cache sur votre appareil.
00:00:30Honnêtement, je trouve ça génial. Dans cette vidéo, nous allons donc examiner
00:00:34ce modèle, voir ses performances, faire un petit test et déterminer s'il est aussi puissant
00:00:40qu'annoncé.
00:00:41Ça va être très intéressant, alors c'est parti.
00:00:48LFM signifie Liquid Foundation Model (Modèle de Fondation Liquide).
00:00:52Au lieu de s'appuyer uniquement sur l'architecture transformer, Liquid AI utilise une conception hybride.
00:00:58Elle combine des blocs convolutionnels avec ce qu'on appelle la "grouped query attention".
00:01:03Le modèle de 1,6 milliard de paramètres est spécifiquement optimisé pour la vision et le langage.
00:01:09Il est entraîné sur un ensemble de données massif de 28 billions de tokens, ce qui l'aide à surpasser
00:01:15sa catégorie.
00:01:16Dans les benchmarks, il égale souvent les performances de modèles deux fois plus grands, tout en étant
00:01:21nettement plus rapide sur les appareils mobiles comme les ordinateurs portables et les téléphones.
00:01:26Maintenant, vous vous demandez peut-être : comment ont-ils réussi à condenser une telle intelligence
00:01:31dans un format qui consomme moins d'un gigaoctet de RAM ?
00:01:34Contrairement aux autres modèles miniatures qui sont des versions compressées de géants du cloud,
00:01:40Liquid AI utilise une philosophie baptisée "l'efficacité par conception".
00:01:44Le terme "Liquid" fait référence à leur architecture LIV (Linear Input Varying).
00:01:51Alors que les transformers traditionnels ont une mémoire qui s'alourdit au fil de l'interaction,
00:01:56le modèle Liquid utilise un système hybride de blocs convolutionnels adaptatifs.
00:02:01Ces blocs agissent comme des filtres intelligents qui ne traitent que les informations locales les plus pertinentes,
00:02:07comprimant efficacement les données à mesure qu'elles traversent le modèle.
00:02:11Cela permet au LFM de maintenir sa fenêtre de contexte massive de 32 000 tokens sans le ralentissement exponentiel
00:02:18ou les pics de mémoire habituels que l'on observe chez les transformers classiques.
00:02:23Certains détails techniques permettent à ce modèle de se démarquer des autres.
00:02:28Tout d'abord, il possède une résolution native.
00:02:30Il gère des images jusqu'à 512 par 512 pixels sans distorsion ni mise à l'échelle.
00:02:37Pour les images plus grandes, il utilise une stratégie de pavage qui divise l'image en fragments
00:02:42tout en conservant une vignette pour le contexte global.
00:02:46Ensuite, il est extrêmement efficace.
00:02:47Grâce à son architecture hybride, il offre une empreinte mémoire très faible, tournant souvent
00:02:52avec moins d'un gigaoctet de RAM.
00:02:54Mais le plus impressionnant reste l'intégration de WebGPU.
00:02:58La démo sur Hugging Face montre comment on peut l'utiliser pour du sous-titrage par webcam en temps réel.
00:03:04Essayons-le par nous-mêmes pour voir ses performances.
00:03:08Très bien, voyons comment cela fonctionne concrètement.
00:03:11Je suppose que nous devons choisir le modèle de vision à charger.
00:03:15Essayons le plus puissant avec la précision FP16.
00:03:18Chargeons-le.
00:03:20Le téléchargement de ce modèle prend un certain temps.
00:03:23Tout est téléchargé directement sur votre appareil.
00:03:25Ainsi, la prochaine fois que vous ouvrirez l'application, tout sera en cache.
00:03:28D'accord.
00:03:29Nous avons maintenant téléchargé le modèle avec quantification FP16.
00:03:34Cliquons sur "Démarrer" pour voir le résultat.
00:03:36Oh, regardez ça.
00:03:38Un homme barbu portant un sweat à capuche regarde la caméra.
00:03:40D'accord, il est capable de détecter les types d'objets présents dans la vidéo, ce qui est
00:03:45plutôt cool.
00:03:46On peut donc faire de la détection d'objets.
00:03:50Voyons s'il peut détecter un téléphone.
00:03:51Oui, il détecte que je tiens un iPhone avec une coque noire.
00:03:57C'est vraiment impressionnant.
00:03:58Regardez ça.
00:04:00Il le fait vraiment en temps réel.
00:04:02Je suis bluffé.
00:04:04Et si je fais ceci ?
00:04:05Est-ce qu'il reconnaît un homme faisant le signe de la paix avec sa main ?
00:04:10C'est super.
00:04:12Et si je lève le pouce ?
00:04:13Oui, il voit bien le pouce levé.
00:04:15Le modèle détecte tout ce que je fais en temps réel.
00:04:18Voyons s'il peut détecter mon microphone.
00:04:21Oh, il détecte même qu'il y a l'inscription "Rode" dessus.
00:04:24Wow, il peut même lire du texte sur le boîtier, c'est vraiment génial.
00:04:29Le fait d'obtenir ces descriptions en temps réel prouve vraiment que ce modèle
00:04:33est très puissant.
00:04:35Je vais essayer de couper la connexion internet pour voir si ça fonctionne toujours.
00:04:40J'ai désactivé le Wi-Fi et oui, nous obtenons toujours les mêmes résultats, c'est
00:04:50fantastique.
00:04:51Et voilà, tout le monde.
00:04:52C'est l'essentiel sur le tout nouveau Liquid Foundation Model.
00:04:56C'est incroyable de voir à quel point ces modèles d'IA ont évolué en termes de quantification
00:05:01et de capacité à tourner sur des appareils locaux comme mon ordinateur portable ici.
00:05:05Il y a deux ans à peine, on ne l'aurait pas cru, mais aujourd'hui
00:05:10il devient de plus en plus courant de faire tourner ces modèles via WebGPU.
00:05:14Alors, que pensez-vous du Liquid Foundation Model ?
00:05:16L'avez-vous testé ?
00:05:17Allez-vous l'utiliser ?
00:05:18Quels seraient selon vous les meilleurs cas d'usage pour un tel modèle ?
00:05:21Dites-nous ce que vous en pensez dans l'espace commentaires.
00:05:23Et si vous aimez ce genre d'analyses techniques, faites-le-moi savoir en cliquant
00:05:27sur le bouton "j'aime" sous la vidéo, et n'oubliez pas de vous abonner à notre chaîne.
00:05:32C'était Andris de Better Stack, on se retrouve dans les prochaines vidéos.

Key Takeaway

Le Liquid Foundation Model (LFM) redéfinit l'IA de vision locale en offrant des performances de pointe et un traitement en temps réel directement dans le navigateur avec une empreinte matérielle minimale.

Highlights

Liquid AI a lancé le modèle LFM 2.5 capable de fonctionner localement dans un navigateur via WebGPU.

L'architecture hybride combine des blocs convolutionnels et la "grouped query attention" pour plus d'efficacité.

Le modèle de 1,6 milliard de paramètres rivalise avec des modèles deux fois plus grands dans les benchmarks.

Une consommation de mémoire extrêmement faible, nécessitant souvent moins d'un gigaoctet de RAM.

Capacité de traitement en temps réel pour la vision par ordinateur sans connexion internet après la mise en cache.

Gestion native des images haute résolution grâce à une stratégie innovante de pavage et de vignettes.

Timeline

Introduction et accessibilité locale

L'intervenant commence par déconstruire le mythe selon lequel l'IA puissante nécessite obligatoirement des serveurs cloud coûteux ou des GPU massifs. Il introduit la solution de Liquid AI qui utilise les technologies WebGPU et ONNX Runtime pour un traitement strictement local. Cette approche garantit la confidentialité des données puisque les informations ne quittent jamais l'appareil de l'utilisateur. Une fois le modèle mis en cache, une connexion internet n'est même plus requise pour son fonctionnement. Cette introduction pose les bases d'une analyse comparative sur les performances et la praticité du modèle LFM.

Architecture et efficacité du modèle LFM

Cette section détaille l'architecture unique du Liquid Foundation Model qui s'écarte du design standard des Transformers. En utilisant une conception hybride nommée "Linear Input Varying" (LIV), le modèle combine des blocs convolutionnels adaptatifs pour optimiser le traitement des données. Avec 1,6 milliard de paramètres entraînés sur 28 billions de tokens, il parvient à surpasser des modèles bien plus volumineux. L'efficacité par conception permet de maintenir une fenêtre de contexte de 32 000 tokens sans ralentissement exponentiel. Cette prouesse technique explique comment le système parvient à consommer moins d'un gigaoctet de RAM sur un ordinateur portable.

Caractéristiques techniques et gestion d'image

Le présentateur explore les spécificités techniques qui permettent au modèle de se démarquer dans le domaine de la vision. Le LFM gère une résolution native de 512 par 512 pixels et utilise une technique de pavage intelligente pour les images plus grandes. Cette méthode divise l'image en fragments tout en conservant une vue globale pour ne perdre aucun contexte important. L'intégration fluide de WebGPU est soulignée comme un élément clé pour permettre le sous-titrage vidéo en temps réel. Cette partie du briefing montre comment l'optimisation logicielle compense les limitations matérielles des appareils mobiles.

Démonstration pratique et tests en temps réel

La démonstration commence par le chargement du modèle en précision FP16 directement sur l'appareil de l'utilisateur. L'intervenant teste ensuite les capacités de détection d'objets en utilisant sa propre webcam en temps réel. Le modèle identifie avec précision des éléments tels qu'un iPhone avec une coque noire, un microphone Rode et même des gestes de la main. Le test ultime consiste à couper totalement la connexion Wi-Fi pour prouver l'autonomie du système. Les résultats restent identiques, confirmant que le modèle fonctionne parfaitement de manière autonome et locale.

Conclusion et perspectives d'avenir

En conclusion, l'analyste exprime son admiration devant l'évolution rapide de la quantification de l'IA au cours des deux dernières années. Ce qui semblait impossible auparavant, comme faire tourner un modèle de vision complexe dans un navigateur, est désormais une réalité accessible. Il encourage les spectateurs à réfléchir aux nombreux cas d'usage possibles pour une IA locale et privée. La vidéo se termine par une invitation à interagir dans les commentaires et à s'abonner pour plus d'analyses techniques. Ce résumé final souligne l'importance croissante de l'accessibilité de l'IA pour le grand public.

Community Posts

View all posts