Google vient-il de créer le modèle Edge AI ULTIME ? (Gemma 4)

BBetter Stack
Computing/SoftwareLanguagesConsumer ElectronicsCell PhonesInternet Technology

Transcript

00:00:00La semaine dernière, Google a fait quelque chose d'inattendu.
00:00:02Ils ont publié un modèle véritablement open-source sous licence Apache 2.0.
00:00:08Il s'appelle Gemma 4 et propose des versions spécialisées pour le edge d'à peine 2,3 milliards de paramètres
00:00:14conçues pour fonctionner entièrement hors ligne sur des appareils comme votre iPhone, vos flagships Android
00:00:21ou même sur un Raspberry Pi.
00:00:23On dirait que la course au meilleur petit modèle s'intensifie vraiment.
00:00:28Il y a quelques semaines, j'ai testé QWAN 3.5 pour voir comment il repoussait les limites
00:00:33de l'IA locale, mais Google promet maintenant une densité d'intelligence encore plus élevée.
00:00:39Dans cette vidéo, nous allons donc effectuer des tests similaires sur Gemma 4 pour voir si ce modèle est vraiment
00:00:44le meilleur petit modèle du marché.
00:00:47Ça va être très intéressant, alors plongeons dans le vif du sujet.
00:00:53Alors, qu'est-ce qui rend ces nouveaux modèles Gemma 4 si uniques ?
00:00:57Eh bien, le véritable changement technique réside dans ce que Google appelle les "embeddings par couche".
00:01:03Dans les transformers traditionnels, un jeton reçoit un seul embedding au début qui doit porter
00:01:08tout son sens à travers chaque couche.
00:01:11Mais dans Gemma 4, chaque couche possède son propre ensemble d'embeddings, permettant au modèle d'introduire
00:01:16de nouvelles informations exactement là où elles sont nécessaires.
00:01:19C'est pourquoi vous voyez le "E" dans les noms de modèles E2B et E4B.
00:01:24Cela signifie "paramètres effectifs".
00:01:27Bien que le modèle agisse avec la profondeur de raisonnement d'un modèle de 5 milliards de paramètres, il n'utilise
00:01:32qu'environ 2,3 milliards de paramètres actifs lors de l'inférence.
00:01:36Cela se traduit par une densité d'intelligence bien plus élevée, lui permettant de gérer une logique complexe
00:01:42tout en utilisant moins de 1,5 Go de RAM.
00:01:46Et au-delà des performances textuelles, Gemma 4 est nativement multimodal.
00:01:50Cela signifie que la vision, le texte et même l'audio sont traités au sein de la même architecture unifiée
00:01:56plutôt que d'être ajoutés comme des modules séparés.
00:01:59Cette architecture permet un nouveau mode de réflexion qui utilise une chaîne de raisonnement interne pour vérifier
00:02:05sa propre logique avant de vous donner une réponse.
00:02:08C'est spécifiquement conçu pour éviter les boucles infinies et les erreurs logiques qui
00:02:13touchent souvent les petits modèles.
00:02:15Il est également livré avec une fenêtre de contexte de 128K et supporte plus de 140 langues, ce qui devrait
00:02:22le rendre nettement plus performant pour des tâches comme l'OCR complexe ou l'identification de langues locales.
00:02:29Et pour illustrer ces capacités, Google a publié des benchmarks impressionnants.
00:02:34Dans leurs tests internes, le modèle E4B a obtenu un score de 42,5 % sur le benchmark mathématique AIME 2026,
00:02:43ce qui est plus du double du score des modèles de la génération précédente, bien plus volumineux.
00:02:49Ils ont également démontré le potentiel agentique du modèle sur le T2 bench, où il a montré
00:02:54un bond massif dans la précision de l'utilisation des outils.
00:02:57Ils ont aussi prouvé ce potentiel agentique via une fonctionnalité appelée "compétences d'agent".
00:03:02Au lieu de simplement générer du texte statique, on a vu le modèle utiliser l'appel de fonction natif
00:03:07pour gérer des flux de travail en plusieurs étapes, comme interroger Wikipédia pour des données en direct ou créer
00:03:13un widget complet de cris d'animaux.
00:03:15Tout cela semble impressionnant, mais essayons-le par nous-mêmes pour voir comment ça fonctionne.
00:03:20Dans ma précédente vidéo sur QWAN 3.5, j'ai testé les petits modèles en les lançant localement sans
00:03:25connexion Internet avec LMStudio et CLINE.
00:03:28Je vais utiliser la même configuration pour tester GEMMA 4.
00:03:32D'abord, nous devons télécharger les modèles sur LMStudio, puis augmenter la fenêtre de contexte disponible
00:03:37et lancer le serveur.
00:03:39Nous pouvons ensuite aller dans CLINE et connecter notre serveur LMStudio local, choisir le modèle E2B,
00:03:45couper notre connexion Internet et commencer nos tests.
00:03:49La dernière fois, nous avons vu que QWAN 3.5 était plutôt bon pour générer un site web simple de café en HTML,
00:03:55CSS et JavaScript avec deux de leurs modèles aux paramètres les plus réduits.
00:04:00Réutilisons le même prompt pour voir si GEMMA 4 est aussi doué pour cette tâche de codage.
00:04:05Il a fallu environ 1,5 minute au modèle E2B pour terminer cette tâche.
00:04:10Et pour un modèle avec 2,3 milliards de paramètres actifs, les résultats étaient franchement un peu décevants
00:04:16comparés à ceux de QWAN qui n'utilisait que 0,8 milliard de paramètres.
00:04:22Le plus agaçant était que GEMMA a ajouté la liste des tâches à la fin du fichier HTML ainsi qu'à
00:04:28la fin du fichier CSS, j'ai donc dû l'effacer manuellement des deux fichiers avant
00:04:33d'ouvrir la page.
00:04:34Il a aussi prétendu avoir écrit un fichier JavaScript, alors qu'aucun fichier JS n'a été produit
00:04:40dans le résultat final, donc les tests de l'E2B étaient un peu décevants.
00:04:45Mais la situation s'est nettement améliorée en passant à la version du modèle E4B.
00:04:50Cette version a mis environ 3,5 minutes pour finir la tâche, mais le résultat final était nettement
00:04:55meilleur.
00:04:56Peut-être pas en termes de design, il a toujours l'air très fade, mais cette version avait
00:05:00une fonctionnalité de panier fonctionnelle, ce qu'aucun des tests précédents, pour QWAN comme pour GEMMA,
00:05:06n'avait réussi à produire.
00:05:08La version E4B est donc déjà un grand pas en avant par rapport à la version E2B, mais évidemment personne
00:05:15n'envisagerait sérieusement d'utiliser d'aussi petits modèles pour du codage complexe ou sérieux.
00:05:20J'ai juste mené ces tests par curiosité pour voir si un nombre de paramètres aussi restreint pouvait
00:05:25quand même produire un résultat significatif pour une tâche de codage donnée.
00:05:29Très bien, voyons maintenant comment GEMMA 4 se comporte sur des appareils mobiles comme un iPhone.
00:05:34Dans ma vidéo QWAN 3.5, j'avais conçu une application iOS personnalisée capable de faire tourner le modèle
00:05:40sur le GPU Metal natif en utilisant le framework MLX de Swift.
00:05:44Bien que GEMMA 4 soit open source, il n'y a malheureusement pas de liaisons MLX disponibles pour ce
00:05:49modèle pour l'instant, qui permettraient de le faire tourner sur iOS avec des capacités multimodales.
00:05:56Et Google eux-mêmes font tourner GEMMA 4 sur leur application AI Edge Gallery en utilisant leur propre
00:06:01framework d'inférence appelé Lite RTLM, qui ne supporte malheureusement pas non plus les liaisons iOS
00:06:07pour le moment.
00:06:08Donc pour l'essayer sur un iPhone, notre meilleure option actuelle est d'utiliser leur application Edge Gallery.
00:06:13Nous allons donc effectuer nos tests sur leur propre application et voir ses performances.
00:06:18Allons dans la section de chat IA.
00:06:20Ici, on nous proposera de télécharger la version E2B de GEMMA 4.
00:06:25Vous avez aussi l'option de télécharger la version E4B, mais pour une raison quelconque, l'application dit
00:06:29que je n'ai pas assez d'espace, ce qui est certainement faux, c'est donc peut-être
00:06:34un bug de l'application.
00:06:36Quoi qu'il en soit, maintenant que j'ai téléchargé le modèle, nous pouvons enfin commencer à l'utiliser.
00:06:41Et commençons par taper un simple bonjour.
00:06:43Waouh, vous avez vu la rapidité de la réponse ?
00:06:46Beaucoup plus rapide que QWAN 3.5.
00:06:48C'est peut-être la magie du framework Lite RTLM qu'ils utilisent.
00:06:53Maintenant, essayons le célèbre test du lavage de voiture pour voir si GEMMA répond correctement.
00:06:57Waouh, il me donne une réponse vraiment longue.
00:07:00Et à la fin, nous voyons que la recommandation finale est de conduire, ce qui est correct,
00:07:06mais je dois tenir compte du fait qu'il se base sur la commodité et le confort
00:07:10et non sur le fait logique réel.
00:07:13Donc je ne sais pas, il réussit un peu le test, mais il échoue aussi un peu en même temps.
00:07:18Très bien, passons maintenant à la section d'analyse d'image et voyons si GEMMA peut identifier
00:07:24le chien sur cette photo.
00:07:26Il a bien identifié qu'il s'agit d'un chien et donne d'autres détails sur l'image.
00:07:31C'est donc plutôt cool.
00:07:32Mais si je lui demande quelle est la race du chien ?
00:07:35Il répond en disant que c'est un Border Collie, ce qui est faux.
00:07:39C'est en réalité un Corgi.
00:07:40Mais je dois dire que pour à peine plus de 2 milliards de paramètres actifs, cette réponse est
00:07:45quand même plutôt bonne.
00:07:46Enfin, essayons le test d'OCR.
00:07:48Si vous avez regardé ma précédente vidéo sur QWAN 3.5, vous vous souviendrez que je l'ai testé avec
00:07:54une image contenant du texte en letton, qui est ma langue maternelle.
00:07:59GEMMA se vante de pouvoir comprendre jusqu'à 140 langues.
00:08:05Je suppose donc qu'il devrait réussir ce test facilement.
00:08:08Et oui, en effet, il identifie que la langue est le letton.
00:08:13Et je suis surpris de voir que la majeure partie du texte est en fait très juste.
00:08:16À quelques exceptions près, je vois que certains mots n'existent pas et que certaines structures
00:08:22grammaticales sont vraiment bizarres.
00:08:24Mais ça reste très impressionnant.
00:08:26Je vais donc valider ce test.
00:08:28Maintenant, cela pose la question : est-ce que je peux discuter avec ce modèle en letton ?
00:08:32Laissez-moi essayer cela ensuite.
00:08:33Je vois que la réponse est effectivement en letton.
00:08:36Mais encore une fois, les structures grammaticales sont très bizarres.
00:08:39Et personne ne parle comme ça.
00:08:41Mais quand même, le letton est une langue très peu parlée.
00:08:44C'est donc déjà impressionnant qu'il ait toutes ces connaissances dans un si petit modèle.
00:08:48Et pendant que j'y suis, je vais lui demander qui est l'actuel président des États-Unis pour voir
00:08:53quelle est la date limite des connaissances de GEMMA 4.
00:08:56Il répond que c'est Joe Biden.
00:08:58Et si je demande ensuite : "quelle est ta date limite de connaissances ?"
00:09:02Il me dira que c'est janvier 2025, ce qui concorde.
00:09:06Voilà donc GEMMA 4, le tout nouveau modèle open source de Google.
00:09:07Et je dois être honnête, ce modèle semble plutôt bon.
00:09:10Il fait ce qu'il annonce, même s'il manque un peu de créativité en design web.
00:09:14Mais à part ça, les petits modèles, comme nous venons de le voir, sont tout à fait capables
00:09:19de réussir toutes les tâches que je leur ai confiées.
00:09:24C'est dommage que nous n'ayons toujours pas les liaisons MLX pour ce modèle, car j'aimerais
00:09:27vraiment utiliser GEMMA 4 localement sur une application iOS personnalisée.
00:09:32Mais je suis sûr que Google ne tardera pas à rendre cette version publique.
00:09:36En attendant, je garde un œil attentif sur les projets communautaires comme SwiftLM, qui
00:09:41travaillent déjà sur des liaisons natives non officielles pour ces modèles.
00:09:46C'était donc mon avis sur le modèle.
00:09:50Que pensez-vous de GEMMA 4 ?
00:09:52L'avez-vous essayé ?
00:09:54Allez-vous l'utiliser ?
00:09:55Dites-le-nous dans la section des commentaires ci-dessous.
00:09:56Et si vous aimez ce genre d'analyses techniques, faites-le-moi savoir en cliquant sur le
00:09:59bouton "J'aime" sous la vidéo.
00:10:03Et n'oubliez pas non plus de vous abonner à notre chaîne.
00:10:05C'était Andres de BetterStack et je vous donne rendez-vous dans les prochaines vidéos.
00:10:07[Musique]

Key Takeaway

Gemma 4 surpasse les petits modèles précédents en densité d'intelligence grâce à des embeddings par couche et une architecture nativement multimodale capable de fonctionner localement avec moins de 1,5 Go de RAM.

Highlights

Gemma 4 propose des modèles spécialisés pour le edge de 2,3 milliards de paramètres sous licence open-source Apache 2.0.

L'architecture utilise des embeddings par couche permettant au modèle d'introduire de nouvelles informations à chaque étape du traitement.

Le modèle E4B affiche un score de 42,5 % au benchmark mathématique AIME 2026, soit le double des modèles précédents plus volumineux.

Une fenêtre de contexte de 128K supporte plus de 140 langues pour des tâches complexes de reconnaissance optique de caractères.

Le fonctionnement local sur mobile nécessite moins de 1,5 Go de RAM grâce à une densité d'intelligence optimisée.

La version E4B réussit à générer une fonctionnalité de panier d'achat fonctionnelle en codage HTML/CSS, surpassant les performances de QWAN 3.5.

Les connaissances internes du modèle sont à jour jusqu'en janvier 2025.

Timeline

Lancement et spécifications de Gemma 4

  • Google publie Gemma 4 sous licence Apache 2.0 pour une utilisation open-source totale.
  • Le modèle cible les appareils à ressources limitées comme le Raspberry Pi ou les smartphones.
  • La version 2,3 milliards de paramètres est conçue pour une exécution entièrement hors ligne.

Cette version marque une accélération dans la course aux modèles légers et performants. Les versions spécialisées visent une intégration sur les flagships Android et les iPhone. L'objectif est de proposer une densité d'intelligence supérieure aux modèles concurrents comme QWAN 3.5.

Innovations techniques et architecture multimodale

  • Chaque couche du transformer possède son propre ensemble d'embeddings pour enrichir le contexte dynamiquement.
  • Le modèle utilise 2,3 milliards de paramètres actifs lors de l'inférence tout en raisonnant comme un modèle de 5 milliards.
  • L'architecture unifiée traite nativement la vision, le texte et l'audio sans modules séparés.

Le système d'embeddings par couche remplace la méthode traditionnelle où un jeton reçoit un seul embedding initial. Cette structure permet une chaîne de raisonnement interne pour vérifier la logique et éviter les boucles infinies. Le support de 140 langues et une fenêtre de contexte de 128K renforcent ses capacités globales.

Benchmarks et capacités agentiques

  • Le score de 42,5 % sur AIME 2026 démontre une progression majeure en résolution mathématique.
  • L'appel de fonction natif permet la gestion de flux de travail complexes en plusieurs étapes.
  • Le modèle peut interroger des sources externes comme Wikipédia ou créer des widgets interactifs en temps réel.

Les tests internes montrent un bond massif dans la précision de l'utilisation des outils sur le T2 bench. Ces compétences d'agent permettent au modèle de ne plus simplement générer du texte statique mais d'agir sur son environnement. Le gain de performance est particulièrement visible par rapport aux modèles de la génération précédente pourtant plus grands.

Tests de codage local avec LMStudio

  • Le modèle E2B génère un site web basique en 1,5 minute mais avec des erreurs structurelles importantes.
  • La version E4B produit un code fonctionnel incluant un panier d'achat après 3,5 minutes de traitement.
  • L'inférence s'effectue localement sans connexion internet via le serveur LMStudio.

Les performances de codage de la version E2B sont jugées décevantes en raison de l'ajout de texte parasite dans les fichiers HTML et CSS. En revanche, le modèle E4B se distingue en réussissant là où QWAN avait échoué sur la logique du panier d'achat. Ces tests confirment que malgré leur petite taille, ces modèles produisent des résultats significatifs pour des tâches de développement simples.

Performances sur iPhone et analyse d'image

  • Le framework Lite RTLM de Google assure une vitesse de réponse supérieure à celle de QWAN 3.5 sur mobile.
  • La reconnaissance d'image identifie correctement les objets mais peut échouer sur des précisions de race spécifiques.
  • Le test d'OCR en letton confirme la capacité du modèle à traiter des langues peu répandues avec précision.

L'utilisation sur iOS se fait via l'application Edge Gallery en raison de l'absence actuelle de liaisons MLX officielles. Le test logique du lavage de voiture donne un résultat correct basé sur le confort, bien que la structure soit verbeuse. L'identification de texte en letton est particulièrement impressionnante malgré quelques erreurs grammaticales mineures.

Limites de connaissances et perspectives

  • La date de coupure des connaissances du modèle est fixée à janvier 2025.
  • Des projets communautaires comme SwiftLM travaillent sur des liaisons natives non officielles pour iOS.
  • Le modèle manque de créativité en design visuel malgré sa robustesse technique.

Gemma 4 remplit ses promesses techniques pour l'IA embarquée. Bien que l'intégration native sur iOS via MLX manque encore, le potentiel pour des applications personnalisées est élevé. Le modèle se positionne comme un outil fiable pour des tâches utilitaires locales plutôt que pour la création purement esthétique.

Community Posts

View all posts