Google vient de résoudre le plus gros problème de l'IA multimodale (Gemma 4 12B)

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라

Transcript

00:00:00Google vient de dévoiler son tout nouveau modèle Gemma 4 de 12 milliards de paramètres, et c'est une révolution.
00:00:06Non, sérieusement, ce n'est pas du clic-bait. Ce modèle change réellement la donne par sa conception même.
00:00:13Ce qui le distingue de tous les autres modèles d'IA, c'est le fait qu'il est entièrement
00:00:18sans encodeur. Qu'est-ce que cela signifie, comment ça marche et pourquoi est-ce si important ?
00:00:24Eh bien, ce sont d'excellentes questions que nous allons explorer dans la vidéo d'aujourd'hui. Ça va être
00:00:29très amusant. Alors, plongeons dans le vif du sujet. Le modèle Gemma 4 12 milliards possède une nouvelle architecture qui
00:00:39s'éloigne complètement du fonctionnement de tous les autres modèles multimodaux. Modèle multimodal. Oh mon
00:00:46Dieu, quel virelangue. Pour comprendre pourquoi c'est si important, nous devons
00:00:51examiner comment les autres modèles multimodaux traitent les données actuellement. Les modèles de langage sont conçus pour lire
00:00:57des jetons, essentiellement des morceaux de texte transformés en nombres. Ils ne savent pas naturellement ce qu'est un pixel ou ce qu'est
00:01:05une onde sonore. Donc, habituellement, nous assemblons différents modèles. Si vous donnez une image à une IA, un énorme
00:01:11encodeur de vision l'intercepte d'abord. Il utilise énormément de puissance de traitement pour traduire ces pixels bruts en
00:01:19un langage que le LLM peut réellement comprendre. Il en va de même pour l'audio. Un encodeur vocal séparé doit
00:01:25traduire les ondes sonores au préalable. Au moment où le véritable cerveau de l'IA reçoit les données, vous faites tourner trois
00:01:32réseaux séparés en même temps. Sur un ordinateur portable standard, cela sature complètement votre VRAM et ralentit
00:01:38tout. Mais Google DeepMind a examiné ce problème et s'est demandé : et si nous pouvions simplement supprimer l'intermédiaire ?
00:01:44Donc, dans le modèle Gemma 4 12 milliards, ils ont complètement supprimé l'encodeur de vision lourd. Au lieu de cela,
00:01:51quand vous lui envoyez une image, le modèle la découpe en petites parcelles de 48 par 48 pixels. Et au lieu de faire passer
00:01:58ces parcelles à travers des douzaines de couches d'un réseau de vision séparé, les pixels bruts passent par une seule
00:02:04étape mathématique légère appelée projection linéaire. Et cette projection linéaire est juste une grille massive de nombres
00:02:11qui prend 2304 valeurs de pixels, car cela correspond à un carré de 48 par 48 pixels, les multiplie en
00:02:19une seule étape et les étire en une seule ligne qui correspond parfaitement au format de jetons de texte du LLM.
00:02:26Donc, il n'analyse pas encore ce qu'il y a dans l'image, il reformate simplement les données brutes pour qu'elles puissent passer
00:02:32dans le modèle. Et si vous regardez les modèles standards, leurs encodeurs de vision sont massifs. Par exemple,
00:02:38celui-ci a 550 millions de paramètres. C'est parce qu'un encodeur traditionnel a besoin de beaucoup de données pour remodeler,
00:02:45mapper et comprendre l'image. Il possède des douzaines de couches d'attention internes calculant les relations
00:02:50entre les pixels, essayant de déterminer où sont les bords, quelles sont les formes et quels pourraient être les objets
00:02:57avant même de le transmettre au modèle de texte. Mais DeepMind l'a réduit en supprimant complètement toute cette lourde
00:03:04puissance cérébrale. Ils ont réalisé que l'épine dorsale du langage est déjà incroyablement intelligente et possède suffisamment
00:03:10de couches pour effectuer le raisonnement visuel réel. Donc, en supprimant toutes ces couches de réflexion, il ne restait plus que
00:03:1735 millions de paramètres, ce qui correspond littéralement au nombre physique brut de poids de connexion nécessaires
00:03:24pour mapper ces grilles de pixels dans un format de texte. C'est donc une carte statique à couche unique qui fonctionne pour chaque image.
00:03:30Comme il n'effectue aucune réflexion interne, il ne consomme pratiquement aucune puissance de traitement, libérant la VRAM
00:03:37et laissant le LLM principal gérer l'intelligence réelle nativement. Et pour comprendre comment fonctionne cette étape unique,
00:03:44il faut regarder ce qui se passe réellement à l'intérieur de l'épine dorsale d'un modèle de langage. Chaque modèle de langage a une
00:03:50règle de formatage interne appelée dimension cachée. Considérez-la comme une taille de plateau standardisée. Qu'il s'agisse
00:03:56du mot pomme, d'un morceau de code ou d'une ponctuation, tout ce qui est envoyé dans le LLM doit être converti
00:04:04en cette liste massive spécifique de nombres car elle doit correspondre aux dimensions des matrices. Et ces bruts
00:04:1148 par 48 parcelles de pixels ne sont qu'une grille de 2304 nombres de couleurs individuels. Si vous essayez d'envoyer ce morceau brut
00:04:19directement dans le LLM, le modèle le rejettera car les dimensions ne correspondent pas. Et c'est
00:04:26exactement pour cela que cette couche de mappage de 35 millions de paramètres existe. C'est littéralement une seule grille massive de
00:04:33poids de connexion qui multiplie ces 2304 valeurs de pixels et les étire en une seule ligne qui
00:04:40correspond parfaitement au format de jetons de texte du LLM. Il n'effectue aucune réflexion analytique, il agit simplement comme un convertisseur
00:04:48de format pour que les données puissent glisser directement dans le transformateur principal où le raisonnement visuel réel se produit
00:04:54nativement. Et le modèle fait quelque chose de similaire pour le raisonnement audio également, mais pour l'audio c'est encore plus simple.
00:05:01Donc, la façon dont ils ont réussi à se débarrasser de l'encodeur audio est de prendre un signal audio brut de 16 kilohertz et
00:05:07de le découper en trames continues de 40 millisecondes. Chaque petite trame contient exactement 640 nombres à virgule flottante
00:05:15décrivant l'onde sonore. Le modèle prend ces 640 nombres flottants et les fait passer par une couche de projection simple similaire
00:05:21qui les mappe directement dans l'espace d'entrée du modèle de langage. Pour l'épine dorsale du transformateur,
00:05:28un bloc audio de 40 millisecondes semble identique à un flux continu de jetons de texte. Parce que le son
00:05:35est déjà une séquence chronologique, tout comme une phrase dans une séquence de mots, le LLM traite l'audio
00:05:42exactement comme du texte. Donc, cette intégration native profonde permet au modèle de 12 milliards de paramètres de gérer la transcription en direct,
00:05:49la traduction et le formatage du texte en un seul passage sans vous forcer à charger des réseaux vocaux
00:05:56séparés dans votre mémoire. Donc, cette tactique intelligente est une victoire massive pour faire tourner des modèles localement sur votre propre
00:06:02matériel. En supprimant tout l'encombrement des encodeurs, DeepMind a réussi à intégrer une puissance de raisonnement incroyable
00:06:08dans une petite empreinte. Et en regardant le benchmark, il s'approche des performances de leurs énormes modèles de 26
00:06:15milliards de paramètres, mais il tient facilement sur un ordinateur portable standard avec 16 gigaoctets de VRAM
00:06:21ou plus. De plus, Google a inclus des rédacteurs de prédiction multi-jetons natifs dès la sortie de la boîte, ce qui signifie qu'il prédit
00:06:28plusieurs jetons à la fois pour des vitesses d'inférence locales rapides sans vous forcer à compresser le modèle.
00:06:34Tout cela semble impressionnant. Alors testons-le et voyons comment cela fonctionne sur mon MacBook Pro M2 local.
00:06:41Et certaines personnes dans ma précédente vidéo OMLX demandaient combien de VRAM j'ai réellement sur ma
00:06:48machine ? Donc, pour répondre à cette question, j'ai 24 gigaoctets de VRAM. C'est donc ce avec quoi nous travaillons
00:06:53aujourd'hui. Je dois aussi dire que cette application de galerie d'edge est tellement buggée. Par exemple, si j'essaie d'ajouter une
00:07:01image et que je demande “s'il te plaît, analyse cette image”, elle échouera instantanément et me donnera cette erreur aléatoire. Et ceci
00:07:13est sur la dernière version. Donc, malheureusement, nous n'avons pas pu tester l'encodeur de vision en utilisant l'application officielle AI edge
00:07:20gallery, mais il y a un autre moyen de le tester. D'accord. Donc, puisque je ne pouvais pas
00:07:26tester de manière fiable le traitement d'image avec le modèle Gemma 4 12 milliards sur l'application Google AI edge gallery,
00:07:34j'ai décidé de le tester sur OMLX. Et j'ai aussi fait une vidéo sur OMLX. C'est un framework incroyable
00:07:42pour faire tourner des modèles d'IA localement, spécifiquement sur Apple Silicon. Et comme vous pouvez le voir ici, j'ai
00:07:47téléchargé la version quantifiée huit bits de ce modèle. Donc, maintenant je vais aller dans la section chat
00:07:54et voyons à quelle vitesse il peut réellement faire du raisonnement d'image en temps réel. Donc ici, j'ai un dossier de test
00:08:01avec deux images. L'une d'elles est juste une capture d'écran des départs d'aéroport. Donc nous utiliserons cette image
00:08:09et demanderons “que vois-tu dans cette image”. Et je veux que vous fassiez attention au fait que je n'accélère pas cette vidéo.
00:08:18Tout ceci est en temps réel. Je veux que vous fassiez attention à la vitesse à laquelle il est capable de faire du raisonnement
00:08:24sur une telle image. Donc ça commence ici, il charge le modèle, génère, et boum, regardez ça.
00:08:33Regardez à quelle vitesse il est capable d'analyser cette image et d'en extraire des informations précieuses.
00:08:41La première fois que j'ai vu ça sur OMLX, j'ai été sincèrement époustouflé par sa vitesse. C'est absolument insensé.
00:08:50Donc je dois dire que c'est le meilleur modèle que j'ai testé localement pour le raisonnement d'image. Et je veux aussi
00:08:57que vous fassiez attention au fait que je fais tourner ce modèle hors ligne. Je n'ai pas activé mon Wi-Fi.
00:09:03Donc, essayons un autre exemple. Celui-ci est juste une image floue de la série télévisée Vikings montrant quelques
00:09:10personnages. Alors, encore une fois, ouvrons cette image et demandons la même chose. Que vois-tu dans cette
00:09:21image ? Il génère.
00:09:27Et boum, regardez ça.
00:09:30Je veux dire, c'est juste insensé. C'est si rapide. J'ai été tellement surpris.
00:09:37Donc ouais, je suis honnêtement très, très impressionné par les performances de traitement d'image de ce nouveau modèle.
00:09:43Voilà, les amis. C'est le nouveau modèle Gemma 4 12 milliards sans encodeur en un mot.
00:09:50J'étais assez frustré de ne pas pouvoir le tester en toute confiance dans leur application officielle AI edge gallery
00:09:56application. Mais comme nous l'avons vu, il existe d'autres alternatives et peut-être même de meilleurs moyens de le faire
00:10:01tourner localement. Donc je pense que c'est un très bon modèle et il change complètement l'avenir de l'exécution
00:10:07des modèles d'IA locaux. Google DeepMind a juste prouvé qu'une seule épine dorsale de langage est assez intelligente
00:10:13pour gérer la vision et le son nativement. Donc cette nouvelle technique ouvrira probablement la voie au développement d'encore
00:10:19plus de modèles de raisonnement multimodal efficaces qui peuvent facilement tourner sur des appareils de pointe. Alors qu'en pensez-vous
00:10:26du nouveau modèle Gemma ? L'avez-vous essayé ? L'utiliserez-vous ? Faites-le nous savoir dans la section commentaires ci-
00:10:32dessous. Et les amis, si vous aimez ce genre de analyses techniques, veuillez me le faire savoir en écrasant ce bouton “j'aime”
00:10:37sous la vidéo. Et n'oubliez pas non plus de vous abonner à notre chaîne. C'était Andres
00:10:43de BetterStack et je vous verrai dans les prochaines vidéos.

Key Takeaway

En supprimant les encodeurs complexes au profit d'une projection linéaire directe, Gemma 4 12B permet un raisonnement multimodal natif et ultra-rapide sur du matériel grand public.

Highlights

  • Le modèle Gemma 4 12B élimine les encodeurs de vision et audio traditionnels pour traiter directement les données brutes.

  • L'architecture remplace les réseaux de vision massifs par une projection linéaire simple de 35 millions de paramètres.

  • La suppression des encodeurs intermédiaires libère significativement la VRAM, permettant une exécution efficace sur des ordinateurs portables standards.

  • Le modèle traite les parcelles de pixels 48x48 directement en les convertissant en jetons compatibles avec le modèle de langage principal.

  • Les données audio sont traitées en trames de 40 millisecondes (640 nombres flottants), traitées par le LLM comme une séquence temporelle identique à du texte.

  • Les tests locaux sur Apple Silicon démontrent une capacité de raisonnement d'image en temps réel sans accès internet.

Timeline

Architecture sans encodeur

  • L'IA conventionnelle utilise des encodeurs séparés lourds pour traduire les pixels ou l'audio en données compréhensibles par le LLM.
  • Gemma 4 12B traite les images en les découpant en parcelles de 48x48 pixels.
  • Une projection linéaire de 35 millions de paramètres convertit ces données brutes en format texte sans analyse intermédiaire.

Les modèles multimodaux classiques saturent la VRAM en faisant tourner simultanément des réseaux de vision et de langage. Google a réduit la complexité en supprimant l'encodeur de 550 millions de paramètres au profit d'une couche unique. Cette méthode utilise la puissance de raisonnement native du modèle de langage pour interpréter les données visuelles directement.

Traitement natif de l'audio et du texte

  • Le LLM utilise une dimension cachée standardisée pour traiter tous les types de données.
  • Le signal audio est découpé en trames de 40 millisecondes contenant 640 nombres à virgule flottante.
  • Le modèle traite l'audio comme une séquence chronologique similaire au flux de jetons textuels.

Le système transforme l'audio et la vision en formats compatibles avec la structure interne du transformateur. En traitant l'audio comme une suite de jetons, le modèle gère la transcription et la traduction nativement. Cette intégration profonde évite le chargement de réseaux vocaux externes en mémoire.

Performances et tests locaux

  • Le modèle fonctionne efficacement sur un MacBook Pro avec 24 Go de VRAM.
  • L'inférence locale permet d'analyser des images hors ligne avec une latence quasi nulle.
  • La technique d'encodage direct permet des performances proches des modèles de 26 milliards de paramètres.

Les tests pratiques sur OMLX confirment la capacité du modèle à analyser des images et des captures d'écran en temps réel. Cette architecture prouve qu'un LLM optimisé peut gérer la multimodalité sans nécessiter de supercalculateur. Cela ouvre la voie à des applications locales plus performantes sur des appareils de pointe.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video