Google vient de résoudre le plus gros problème de l'IA multimodale (Gemma 4 12B)
BBetter Stack
Computing/SoftwareConsumer Electronics
Transcript
00:00:00Google vient de dévoiler son tout nouveau modèle Gemma 4 de 12 milliards de paramètres, et c'est une révolution.
00:00:06Non, sérieusement, ce n'est pas du clic-bait. Ce modèle change réellement la donne par sa conception même.
00:00:13Ce qui le distingue de tous les autres modèles d'IA, c'est le fait qu'il est entièrement
00:00:18sans encodeur. Qu'est-ce que cela signifie, comment ça marche et pourquoi est-ce si important ?
00:00:24Eh bien, ce sont d'excellentes questions que nous allons explorer dans la vidéo d'aujourd'hui. Ça va être
00:00:29très amusant. Alors, plongeons dans le vif du sujet. Le modèle Gemma 4 12 milliards possède une nouvelle architecture qui
00:00:39s'éloigne complètement du fonctionnement de tous les autres modèles multimodaux. Modèle multimodal. Oh mon
00:00:46Dieu, quel virelangue. Pour comprendre pourquoi c'est si important, nous devons
00:00:51examiner comment les autres modèles multimodaux traitent les données actuellement. Les modèles de langage sont conçus pour lire
00:00:57des jetons, essentiellement des morceaux de texte transformés en nombres. Ils ne savent pas naturellement ce qu'est un pixel ou ce qu'est
00:01:05une onde sonore. Donc, habituellement, nous assemblons différents modèles. Si vous donnez une image à une IA, un énorme
00:01:11encodeur de vision l'intercepte d'abord. Il utilise énormément de puissance de traitement pour traduire ces pixels bruts en
00:01:19un langage que le LLM peut réellement comprendre. Il en va de même pour l'audio. Un encodeur vocal séparé doit
00:01:25traduire les ondes sonores au préalable. Au moment où le véritable cerveau de l'IA reçoit les données, vous faites tourner trois
00:01:32réseaux séparés en même temps. Sur un ordinateur portable standard, cela sature complètement votre VRAM et ralentit
00:01:38tout. Mais Google DeepMind a examiné ce problème et s'est demandé : et si nous pouvions simplement supprimer l'intermédiaire ?
00:01:44Donc, dans le modèle Gemma 4 12 milliards, ils ont complètement supprimé l'encodeur de vision lourd. Au lieu de cela,
00:01:51quand vous lui envoyez une image, le modèle la découpe en petites parcelles de 48 par 48 pixels. Et au lieu de faire passer
00:01:58ces parcelles à travers des douzaines de couches d'un réseau de vision séparé, les pixels bruts passent par une seule
00:02:04étape mathématique légère appelée projection linéaire. Et cette projection linéaire est juste une grille massive de nombres
00:02:11qui prend 2304 valeurs de pixels, car cela correspond à un carré de 48 par 48 pixels, les multiplie en
00:02:19une seule étape et les étire en une seule ligne qui correspond parfaitement au format de jetons de texte du LLM.
00:02:26Donc, il n'analyse pas encore ce qu'il y a dans l'image, il reformate simplement les données brutes pour qu'elles puissent passer
00:02:32dans le modèle. Et si vous regardez les modèles standards, leurs encodeurs de vision sont massifs. Par exemple,
00:02:38celui-ci a 550 millions de paramètres. C'est parce qu'un encodeur traditionnel a besoin de beaucoup de données pour remodeler,
00:02:45mapper et comprendre l'image. Il possède des douzaines de couches d'attention internes calculant les relations
00:02:50entre les pixels, essayant de déterminer où sont les bords, quelles sont les formes et quels pourraient être les objets
00:02:57avant même de le transmettre au modèle de texte. Mais DeepMind l'a réduit en supprimant complètement toute cette lourde
00:03:04puissance cérébrale. Ils ont réalisé que l'épine dorsale du langage est déjà incroyablement intelligente et possède suffisamment
00:03:10de couches pour effectuer le raisonnement visuel réel. Donc, en supprimant toutes ces couches de réflexion, il ne restait plus que
00:03:1735 millions de paramètres, ce qui correspond littéralement au nombre physique brut de poids de connexion nécessaires
00:03:24pour mapper ces grilles de pixels dans un format de texte. C'est donc une carte statique à couche unique qui fonctionne pour chaque image.
00:03:30Comme il n'effectue aucune réflexion interne, il ne consomme pratiquement aucune puissance de traitement, libérant la VRAM
00:03:37et laissant le LLM principal gérer l'intelligence réelle nativement. Et pour comprendre comment fonctionne cette étape unique,
00:03:44il faut regarder ce qui se passe réellement à l'intérieur de l'épine dorsale d'un modèle de langage. Chaque modèle de langage a une
00:03:50règle de formatage interne appelée dimension cachée. Considérez-la comme une taille de plateau standardisée. Qu'il s'agisse
00:03:56du mot pomme, d'un morceau de code ou d'une ponctuation, tout ce qui est envoyé dans le LLM doit être converti
00:04:04en cette liste massive spécifique de nombres car elle doit correspondre aux dimensions des matrices. Et ces bruts
00:04:1148 par 48 parcelles de pixels ne sont qu'une grille de 2304 nombres de couleurs individuels. Si vous essayez d'envoyer ce morceau brut
00:04:19directement dans le LLM, le modèle le rejettera car les dimensions ne correspondent pas. Et c'est
00:04:26exactement pour cela que cette couche de mappage de 35 millions de paramètres existe. C'est littéralement une seule grille massive de
00:04:33poids de connexion qui multiplie ces 2304 valeurs de pixels et les étire en une seule ligne qui
00:04:40correspond parfaitement au format de jetons de texte du LLM. Il n'effectue aucune réflexion analytique, il agit simplement comme un convertisseur
00:04:48de format pour que les données puissent glisser directement dans le transformateur principal où le raisonnement visuel réel se produit
00:04:54nativement. Et le modèle fait quelque chose de similaire pour le raisonnement audio également, mais pour l'audio c'est encore plus simple.
00:05:01Donc, la façon dont ils ont réussi à se débarrasser de l'encodeur audio est de prendre un signal audio brut de 16 kilohertz et
00:05:07de le découper en trames continues de 40 millisecondes. Chaque petite trame contient exactement 640 nombres à virgule flottante
00:05:15décrivant l'onde sonore. Le modèle prend ces 640 nombres flottants et les fait passer par une couche de projection simple similaire
00:05:21qui les mappe directement dans l'espace d'entrée du modèle de langage. Pour l'épine dorsale du transformateur,
00:05:28un bloc audio de 40 millisecondes semble identique à un flux continu de jetons de texte. Parce que le son
00:05:35est déjà une séquence chronologique, tout comme une phrase dans une séquence de mots, le LLM traite l'audio
00:05:42exactement comme du texte. Donc, cette intégration native profonde permet au modèle de 12 milliards de paramètres de gérer la transcription en direct,
00:05:49la traduction et le formatage du texte en un seul passage sans vous forcer à charger des réseaux vocaux
00:05:56séparés dans votre mémoire. Donc, cette tactique intelligente est une victoire massive pour faire tourner des modèles localement sur votre propre
00:06:02matériel. En supprimant tout l'encombrement des encodeurs, DeepMind a réussi à intégrer une puissance de raisonnement incroyable
00:06:08dans une petite empreinte. Et en regardant le benchmark, il s'approche des performances de leurs énormes modèles de 26
00:06:15milliards de paramètres, mais il tient facilement sur un ordinateur portable standard avec 16 gigaoctets de VRAM
00:06:21ou plus. De plus, Google a inclus des rédacteurs de prédiction multi-jetons natifs dès la sortie de la boîte, ce qui signifie qu'il prédit
00:06:28plusieurs jetons à la fois pour des vitesses d'inférence locales rapides sans vous forcer à compresser le modèle.
00:06:34Tout cela semble impressionnant. Alors testons-le et voyons comment cela fonctionne sur mon MacBook Pro M2 local.
00:06:41Et certaines personnes dans ma précédente vidéo OMLX demandaient combien de VRAM j'ai réellement sur ma
00:06:48machine ? Donc, pour répondre à cette question, j'ai 24 gigaoctets de VRAM. C'est donc ce avec quoi nous travaillons
00:06:53aujourd'hui. Je dois aussi dire que cette application de galerie d'edge est tellement buggée. Par exemple, si j'essaie d'ajouter une
00:07:01image et que je demande “s'il te plaît, analyse cette image”, elle échouera instantanément et me donnera cette erreur aléatoire. Et ceci
00:07:13est sur la dernière version. Donc, malheureusement, nous n'avons pas pu tester l'encodeur de vision en utilisant l'application officielle AI edge
00:07:20gallery, mais il y a un autre moyen de le tester. D'accord. Donc, puisque je ne pouvais pas
00:07:26tester de manière fiable le traitement d'image avec le modèle Gemma 4 12 milliards sur l'application Google AI edge gallery,
00:07:34j'ai décidé de le tester sur OMLX. Et j'ai aussi fait une vidéo sur OMLX. C'est un framework incroyable
00:07:42pour faire tourner des modèles d'IA localement, spécifiquement sur Apple Silicon. Et comme vous pouvez le voir ici, j'ai
00:07:47téléchargé la version quantifiée huit bits de ce modèle. Donc, maintenant je vais aller dans la section chat
00:07:54et voyons à quelle vitesse il peut réellement faire du raisonnement d'image en temps réel. Donc ici, j'ai un dossier de test
00:08:01avec deux images. L'une d'elles est juste une capture d'écran des départs d'aéroport. Donc nous utiliserons cette image
00:08:09et demanderons “que vois-tu dans cette image”. Et je veux que vous fassiez attention au fait que je n'accélère pas cette vidéo.
00:08:18Tout ceci est en temps réel. Je veux que vous fassiez attention à la vitesse à laquelle il est capable de faire du raisonnement
00:08:24sur une telle image. Donc ça commence ici, il charge le modèle, génère, et boum, regardez ça.
00:08:33Regardez à quelle vitesse il est capable d'analyser cette image et d'en extraire des informations précieuses.
00:08:41La première fois que j'ai vu ça sur OMLX, j'ai été sincèrement époustouflé par sa vitesse. C'est absolument insensé.
00:08:50Donc je dois dire que c'est le meilleur modèle que j'ai testé localement pour le raisonnement d'image. Et je veux aussi
00:08:57que vous fassiez attention au fait que je fais tourner ce modèle hors ligne. Je n'ai pas activé mon Wi-Fi.
00:09:03Donc, essayons un autre exemple. Celui-ci est juste une image floue de la série télévisée Vikings montrant quelques
00:09:10personnages. Alors, encore une fois, ouvrons cette image et demandons la même chose. Que vois-tu dans cette
00:09:21image ? Il génère.
00:09:27Et boum, regardez ça.
00:09:30Je veux dire, c'est juste insensé. C'est si rapide. J'ai été tellement surpris.
00:09:37Donc ouais, je suis honnêtement très, très impressionné par les performances de traitement d'image de ce nouveau modèle.
00:09:43Voilà, les amis. C'est le nouveau modèle Gemma 4 12 milliards sans encodeur en un mot.
00:09:50J'étais assez frustré de ne pas pouvoir le tester en toute confiance dans leur application officielle AI edge gallery
00:09:56application. Mais comme nous l'avons vu, il existe d'autres alternatives et peut-être même de meilleurs moyens de le faire
00:10:01tourner localement. Donc je pense que c'est un très bon modèle et il change complètement l'avenir de l'exécution
00:10:07des modèles d'IA locaux. Google DeepMind a juste prouvé qu'une seule épine dorsale de langage est assez intelligente
00:10:13pour gérer la vision et le son nativement. Donc cette nouvelle technique ouvrira probablement la voie au développement d'encore
00:10:19plus de modèles de raisonnement multimodal efficaces qui peuvent facilement tourner sur des appareils de pointe. Alors qu'en pensez-vous
00:10:26du nouveau modèle Gemma ? L'avez-vous essayé ? L'utiliserez-vous ? Faites-le nous savoir dans la section commentaires ci-
00:10:32dessous. Et les amis, si vous aimez ce genre de analyses techniques, veuillez me le faire savoir en écrasant ce bouton “j'aime”
00:10:37sous la vidéo. Et n'oubliez pas non plus de vous abonner à notre chaîne. C'était Andres
00:10:43de BetterStack et je vous verrai dans les prochaines vidéos.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video