00:00:00La semaine dernière, Google a fait quelque chose d'inattendu.
00:00:02Ils ont publié un modèle véritablement open-source sous licence Apache 2.0.
00:00:08Il s'appelle Gemma 4 et propose des versions spécialisées pour le edge d'à peine 2,3 milliards de paramètres
00:00:14conçues pour fonctionner entièrement hors ligne sur des appareils comme votre iPhone, vos flagships Android
00:00:21ou même sur un Raspberry Pi.
00:00:23On dirait que la course au meilleur petit modèle s'intensifie vraiment.
00:00:28Il y a quelques semaines, j'ai testé QWAN 3.5 pour voir comment il repoussait les limites
00:00:33de l'IA locale, mais Google promet maintenant une densité d'intelligence encore plus élevée.
00:00:39Dans cette vidéo, nous allons donc effectuer des tests similaires sur Gemma 4 pour voir si ce modèle est vraiment
00:00:44le meilleur petit modèle du marché.
00:00:47Ça va être très intéressant, alors plongeons dans le vif du sujet.
00:00:53Alors, qu'est-ce qui rend ces nouveaux modèles Gemma 4 si uniques ?
00:00:57Eh bien, le véritable changement technique réside dans ce que Google appelle les "embeddings par couche".
00:01:03Dans les transformers traditionnels, un jeton reçoit un seul embedding au début qui doit porter
00:01:08tout son sens à travers chaque couche.
00:01:11Mais dans Gemma 4, chaque couche possède son propre ensemble d'embeddings, permettant au modèle d'introduire
00:01:16de nouvelles informations exactement là où elles sont nécessaires.
00:01:19C'est pourquoi vous voyez le "E" dans les noms de modèles E2B et E4B.
00:01:24Cela signifie "paramètres effectifs".
00:01:27Bien que le modèle agisse avec la profondeur de raisonnement d'un modèle de 5 milliards de paramètres, il n'utilise
00:01:32qu'environ 2,3 milliards de paramètres actifs lors de l'inférence.
00:01:36Cela se traduit par une densité d'intelligence bien plus élevée, lui permettant de gérer une logique complexe
00:01:42tout en utilisant moins de 1,5 Go de RAM.
00:01:46Et au-delà des performances textuelles, Gemma 4 est nativement multimodal.
00:01:50Cela signifie que la vision, le texte et même l'audio sont traités au sein de la même architecture unifiée
00:01:56plutôt que d'être ajoutés comme des modules séparés.
00:01:59Cette architecture permet un nouveau mode de réflexion qui utilise une chaîne de raisonnement interne pour vérifier
00:02:05sa propre logique avant de vous donner une réponse.
00:02:08C'est spécifiquement conçu pour éviter les boucles infinies et les erreurs logiques qui
00:02:13touchent souvent les petits modèles.
00:02:15Il est également livré avec une fenêtre de contexte de 128K et supporte plus de 140 langues, ce qui devrait
00:02:22le rendre nettement plus performant pour des tâches comme l'OCR complexe ou l'identification de langues locales.
00:02:29Et pour illustrer ces capacités, Google a publié des benchmarks impressionnants.
00:02:34Dans leurs tests internes, le modèle E4B a obtenu un score de 42,5 % sur le benchmark mathématique AIME 2026,
00:02:43ce qui est plus du double du score des modèles de la génération précédente, bien plus volumineux.
00:02:49Ils ont également démontré le potentiel agentique du modèle sur le T2 bench, où il a montré
00:02:54un bond massif dans la précision de l'utilisation des outils.
00:02:57Ils ont aussi prouvé ce potentiel agentique via une fonctionnalité appelée "compétences d'agent".
00:03:02Au lieu de simplement générer du texte statique, on a vu le modèle utiliser l'appel de fonction natif
00:03:07pour gérer des flux de travail en plusieurs étapes, comme interroger Wikipédia pour des données en direct ou créer
00:03:13un widget complet de cris d'animaux.
00:03:15Tout cela semble impressionnant, mais essayons-le par nous-mêmes pour voir comment ça fonctionne.
00:03:20Dans ma précédente vidéo sur QWAN 3.5, j'ai testé les petits modèles en les lançant localement sans
00:03:25connexion Internet avec LMStudio et CLINE.
00:03:28Je vais utiliser la même configuration pour tester GEMMA 4.
00:03:32D'abord, nous devons télécharger les modèles sur LMStudio, puis augmenter la fenêtre de contexte disponible
00:03:37et lancer le serveur.
00:03:39Nous pouvons ensuite aller dans CLINE et connecter notre serveur LMStudio local, choisir le modèle E2B,
00:03:45couper notre connexion Internet et commencer nos tests.
00:03:49La dernière fois, nous avons vu que QWAN 3.5 était plutôt bon pour générer un site web simple de café en HTML,
00:03:55CSS et JavaScript avec deux de leurs modèles aux paramètres les plus réduits.
00:04:00Réutilisons le même prompt pour voir si GEMMA 4 est aussi doué pour cette tâche de codage.
00:04:05Il a fallu environ 1,5 minute au modèle E2B pour terminer cette tâche.
00:04:10Et pour un modèle avec 2,3 milliards de paramètres actifs, les résultats étaient franchement un peu décevants
00:04:16comparés à ceux de QWAN qui n'utilisait que 0,8 milliard de paramètres.
00:04:22Le plus agaçant était que GEMMA a ajouté la liste des tâches à la fin du fichier HTML ainsi qu'à
00:04:28la fin du fichier CSS, j'ai donc dû l'effacer manuellement des deux fichiers avant
00:04:33d'ouvrir la page.
00:04:34Il a aussi prétendu avoir écrit un fichier JavaScript, alors qu'aucun fichier JS n'a été produit
00:04:40dans le résultat final, donc les tests de l'E2B étaient un peu décevants.
00:04:45Mais la situation s'est nettement améliorée en passant à la version du modèle E4B.
00:04:50Cette version a mis environ 3,5 minutes pour finir la tâche, mais le résultat final était nettement
00:04:55meilleur.
00:04:56Peut-être pas en termes de design, il a toujours l'air très fade, mais cette version avait
00:05:00une fonctionnalité de panier fonctionnelle, ce qu'aucun des tests précédents, pour QWAN comme pour GEMMA,
00:05:06n'avait réussi à produire.
00:05:08La version E4B est donc déjà un grand pas en avant par rapport à la version E2B, mais évidemment personne
00:05:15n'envisagerait sérieusement d'utiliser d'aussi petits modèles pour du codage complexe ou sérieux.
00:05:20J'ai juste mené ces tests par curiosité pour voir si un nombre de paramètres aussi restreint pouvait
00:05:25quand même produire un résultat significatif pour une tâche de codage donnée.
00:05:29Très bien, voyons maintenant comment GEMMA 4 se comporte sur des appareils mobiles comme un iPhone.
00:05:34Dans ma vidéo QWAN 3.5, j'avais conçu une application iOS personnalisée capable de faire tourner le modèle
00:05:40sur le GPU Metal natif en utilisant le framework MLX de Swift.
00:05:44Bien que GEMMA 4 soit open source, il n'y a malheureusement pas de liaisons MLX disponibles pour ce
00:05:49modèle pour l'instant, qui permettraient de le faire tourner sur iOS avec des capacités multimodales.
00:05:56Et Google eux-mêmes font tourner GEMMA 4 sur leur application AI Edge Gallery en utilisant leur propre
00:06:01framework d'inférence appelé Lite RTLM, qui ne supporte malheureusement pas non plus les liaisons iOS
00:06:07pour le moment.
00:06:08Donc pour l'essayer sur un iPhone, notre meilleure option actuelle est d'utiliser leur application Edge Gallery.
00:06:13Nous allons donc effectuer nos tests sur leur propre application et voir ses performances.
00:06:18Allons dans la section de chat IA.
00:06:20Ici, on nous proposera de télécharger la version E2B de GEMMA 4.
00:06:25Vous avez aussi l'option de télécharger la version E4B, mais pour une raison quelconque, l'application dit
00:06:29que je n'ai pas assez d'espace, ce qui est certainement faux, c'est donc peut-être
00:06:34un bug de l'application.
00:06:36Quoi qu'il en soit, maintenant que j'ai téléchargé le modèle, nous pouvons enfin commencer à l'utiliser.
00:06:41Et commençons par taper un simple bonjour.
00:06:43Waouh, vous avez vu la rapidité de la réponse ?
00:06:46Beaucoup plus rapide que QWAN 3.5.
00:06:48C'est peut-être la magie du framework Lite RTLM qu'ils utilisent.
00:06:53Maintenant, essayons le célèbre test du lavage de voiture pour voir si GEMMA répond correctement.
00:06:57Waouh, il me donne une réponse vraiment longue.
00:07:00Et à la fin, nous voyons que la recommandation finale est de conduire, ce qui est correct,
00:07:06mais je dois tenir compte du fait qu'il se base sur la commodité et le confort
00:07:10et non sur le fait logique réel.
00:07:13Donc je ne sais pas, il réussit un peu le test, mais il échoue aussi un peu en même temps.
00:07:18Très bien, passons maintenant à la section d'analyse d'image et voyons si GEMMA peut identifier
00:07:24le chien sur cette photo.
00:07:26Il a bien identifié qu'il s'agit d'un chien et donne d'autres détails sur l'image.
00:07:31C'est donc plutôt cool.
00:07:32Mais si je lui demande quelle est la race du chien ?
00:07:35Il répond en disant que c'est un Border Collie, ce qui est faux.
00:07:39C'est en réalité un Corgi.
00:07:40Mais je dois dire que pour à peine plus de 2 milliards de paramètres actifs, cette réponse est
00:07:45quand même plutôt bonne.
00:07:46Enfin, essayons le test d'OCR.
00:07:48Si vous avez regardé ma précédente vidéo sur QWAN 3.5, vous vous souviendrez que je l'ai testé avec
00:07:54une image contenant du texte en letton, qui est ma langue maternelle.
00:07:59GEMMA se vante de pouvoir comprendre jusqu'à 140 langues.
00:08:05Je suppose donc qu'il devrait réussir ce test facilement.
00:08:08Et oui, en effet, il identifie que la langue est le letton.
00:08:13Et je suis surpris de voir que la majeure partie du texte est en fait très juste.
00:08:16À quelques exceptions près, je vois que certains mots n'existent pas et que certaines structures
00:08:22grammaticales sont vraiment bizarres.
00:08:24Mais ça reste très impressionnant.
00:08:26Je vais donc valider ce test.
00:08:28Maintenant, cela pose la question : est-ce que je peux discuter avec ce modèle en letton ?
00:08:32Laissez-moi essayer cela ensuite.
00:08:33Je vois que la réponse est effectivement en letton.
00:08:36Mais encore une fois, les structures grammaticales sont très bizarres.
00:08:39Et personne ne parle comme ça.
00:08:41Mais quand même, le letton est une langue très peu parlée.
00:08:44C'est donc déjà impressionnant qu'il ait toutes ces connaissances dans un si petit modèle.
00:08:48Et pendant que j'y suis, je vais lui demander qui est l'actuel président des États-Unis pour voir
00:08:53quelle est la date limite des connaissances de GEMMA 4.
00:08:56Il répond que c'est Joe Biden.
00:08:58Et si je demande ensuite : "quelle est ta date limite de connaissances ?"
00:09:02Il me dira que c'est janvier 2025, ce qui concorde.
00:09:06Voilà donc GEMMA 4, le tout nouveau modèle open source de Google.
00:09:07Et je dois être honnête, ce modèle semble plutôt bon.
00:09:10Il fait ce qu'il annonce, même s'il manque un peu de créativité en design web.
00:09:14Mais à part ça, les petits modèles, comme nous venons de le voir, sont tout à fait capables
00:09:19de réussir toutes les tâches que je leur ai confiées.
00:09:24C'est dommage que nous n'ayons toujours pas les liaisons MLX pour ce modèle, car j'aimerais
00:09:27vraiment utiliser GEMMA 4 localement sur une application iOS personnalisée.
00:09:32Mais je suis sûr que Google ne tardera pas à rendre cette version publique.
00:09:36En attendant, je garde un œil attentif sur les projets communautaires comme SwiftLM, qui
00:09:41travaillent déjà sur des liaisons natives non officielles pour ces modèles.
00:09:46C'était donc mon avis sur le modèle.
00:09:50Que pensez-vous de GEMMA 4 ?
00:09:52L'avez-vous essayé ?
00:09:54Allez-vous l'utiliser ?
00:09:55Dites-le-nous dans la section des commentaires ci-dessous.
00:09:56Et si vous aimez ce genre d'analyses techniques, faites-le-moi savoir en cliquant sur le
00:09:59bouton "J'aime" sous la vidéo.
00:10:03Et n'oubliez pas non plus de vous abonner à notre chaîne.
00:10:05C'était Andres de BetterStack et je vous donne rendez-vous dans les prochaines vidéos.
00:10:07[Musique]