Google Genie 3 : Faut-il vraiment croire au buzz ?

BBetter Stack
Computing/SoftwareVideo & Computer GamesStocksConsumer Electronics

Transcript

00:00:00La semaine dernière, Google a dévoilé Genie 3, son modèle phare de monde infini, où vous
00:00:05pouvez simuler un environnement et interagir avec lui comme dans un vrai jeu vidéo.
00:00:10Soudain, toutes les actions des sociétés de jeux vidéo ont chuté par peur que ce ne soit
00:00:16le début de la fin pour cette industrie.
00:00:20Et puis, quelque chose d'encore plus intéressant s'est produit.
00:00:22Une entreprise tech chinoise nommée Robiant a sorti son propre concurrent open source à Genie,
00:00:28qui semble offrir des graphismes encore meilleurs que son homologue de Google.
00:00:32Et tout d'un coup, les vannes sont ouvertes pour la course qui déterminera quelle entreprise
00:00:37remplacera la première les jeux vidéo traditionnels par cette nouvelle technologie de jeu.
00:00:43Mais alors que tout le monde s'emballe pour cette folie des modèles de mondes infinis,
00:00:49je suis là pour vous dire que ce n'est peut-être qu'une promesse marketing sans fondement.
00:00:54Qu'est-ce qui me rend si sûr de moi ?
00:00:55C'est précisément ce dont nous allons parler dans la vidéo d'aujourd'hui.
00:01:02Dès que Genie 3 est sorti, je me suis précipité sur le site pour l'essayer.
00:01:07Mais dès que j'ai cliqué sur le bouton d'exploration, je suis tombé sur une décevante page 404.
00:01:14Et c'est parce que je vis au Canada.
00:01:16Pour le moment, Google n'autorise que les citoyens des États-Unis à tester
00:01:20cette merveille technologique de pointe.
00:01:23Évidemment, j'ai activé mon VPN et réessayé depuis une localisation américaine.
00:01:27Cette fois, j'ai essuyé un autre refus m'indiquant que je devais être membre UltraPlan
00:01:33pour accéder à ce logiciel révolutionnaire.
00:01:37Et si vous vous demandez combien coûte l'UltraPlan, disons que c'est un peu plus
00:01:41que ce que je suis prêt à payer juste pour tester un outil IA surmédiatisé.
00:01:46Mais cela soulève une question : pourquoi est-il si difficile d'accéder à Genie 3 ?
00:01:51La réponse sera très importante pour la suite, mais j'y reviendrai
00:01:56plus tard dans cette vidéo.
00:01:57Même si je n'ai pas eu la chance ni les fonds pour essayer Genie 3, entre-temps,
00:02:04à l'autre bout du monde, une entreprise chinoise appelée Robiont,
00:02:09qui semble être une filiale d'Ant Group, elle-même affiliée à Alibaba Group (propriétaire de Qwen),
00:02:15a sorti son propre modèle de monde infini
00:02:20appelé Lingbot World, qui, surprise, est open source.
00:02:25Cela signifie que nous pouvons réellement le tester et voir de quoi il est capable.
00:02:29En regardant leurs exemples, le rendu était absolument époustouflant.
00:02:32Mais dès que j'ai inspecté la page du projet, j'ai eu une autre grande déception.
00:02:38Bien que leur page soit remplie de vidéos d'exemples où l'on peut se déplacer librement
00:02:43dans l'espace avec les flèches du clavier, en réalité, cette version
00:02:48permettant un contrôle total du personnage est encore en développement.
00:02:51Ils prévoient de sortir Lingbot Fast, qui serait l'équivalent complet de Genie 3, mais
00:02:56nous ne savons pas encore quand il sera disponible.
00:02:57Pour l'instant, nous avons accès à leur modèle de base de 14 milliards de paramètres, qui offre
00:03:03des « simulations haute fidélité, contrôlables et logiquement cohérentes ».
00:03:08Mais concrètement, tout ce que ce modèle peut faire actuellement, c'est générer une vidéo.
00:03:14Oui, juste une simple vidéo.
00:03:16J'étais donc perplexe : où se trouve l'aspect « contrôle » ?
00:03:20Eh bien, ils permettent de fournir ses propres valeurs de position intrinsèques de caméra,
00:03:25on peut donc en un sens contrôler le mouvement de caméra, ce qui est une alternative
00:03:31à la navigation au clavier, mais il faut le pré-enregistrer.
00:03:35En quoi est-ce différent de n'importe quel autre générateur de vidéo
00:03:40qui permet aussi de contrôler les mouvements de caméra ?
00:03:41Voici la distinction fondamentale.
00:03:44Dans un générateur de vidéo IA classique, le modèle essaie toujours de prédire l'image suivante
00:03:50au fil de la vidéo, et on a vu dans de nombreux mèmes internet comment cela dérape
00:03:55si la vidéo dure trop longtemps, car le modèle ne conserve pas
00:04:00les informations sur ce qui se passe hors du cadre.
00:04:04Si la caméra s'éloigne d'un objet puis revient, l'objet peut avoir disparu
00:04:09parce que toute la scène est générée à la volée.
00:04:13C'est là que le cerveau géométrique de 14 milliards de paramètres de Lingbot World
00:04:18entre en jeu.
00:04:19Contrairement à un générateur standard qui devine les prochains pixels, Lingbot World
00:04:24utilise les données intrinsèques de la caméra et des poses à 6 degrés de liberté pour
00:04:31faire correspondre chaque pixel à un point précis de l'espace 3D.
00:04:33Il crée ce que les chercheurs appellent la « permanence de l'objet » car il comprend
00:04:39la relation mathématique entre l'objectif de la caméra et l'environnement.
00:04:42En gros, il se souvient qu'un objet spécifique existe à des coordonnées précises.
00:04:47Cette intégrité structurelle explique pourquoi ce modèle est si massif et gourmand en calcul.
00:04:52À quel point ?
00:04:53Oh là là, accrochez-vous.
00:04:55J'ai essayé de déployer Lingbot World sur une instance avec un seul GPU RTX 1590
00:05:02pour lancer la démo d'exemple fournie, et ça a planté immédiatement.
00:05:07C'était naïf de penser qu'une seule 1590 pourrait supporter une telle charge.
00:05:13J'ai essayé avec deux 1590, et non, ça a encore planté.
00:05:18Puis avec quatre 1590, et une fois de plus, crash total.
00:05:23J'ai alors lancé un conteneur avec huit RTX 1590 pour faire tourner la démo
00:05:31et ça a encore planté.
00:05:32La raison est que lorsqu'on fait tourner ce modèle de monde infini longtemps,
00:05:38la quantité de mémoire que le modèle doit stocker sur les scènes augmente sans cesse
00:05:44jusqu'à atteindre une erreur « out of memory »
00:05:49par manque de RAM.
00:05:50J'ai finalement réussi à faire tourner la démo sur une config de 8 GPU en réduisant
00:05:55la taille de l'échantillon de 70 à seulement 20.
00:05:59Honnêtement, la différence de qualité n'était pas si flagrante.
00:06:03Mais cela montre à quel point l'exécution de ce modèle est incroyablement coûteuse
00:06:09en termes de ressources informatiques.
00:06:10Pour en revenir à Genie 3, c'est précisément pour cela qu'il est réservé aux membres Ultra,
00:06:16car Google doit bien rentabiliser les coûts de GPU pour faire tourner ce truc.
00:06:21C'est aussi pourquoi les démos sont limitées à quelques secondes : à un moment,
00:06:27la mémoire explose et tout le système s'effondre.
00:06:32Pour vous donner une idée du coût démentiel sur du matériel grand public,
00:06:37une seule RTX 1590 coûte jusqu'à 5 000 $.
00:06:43Multipliez par 8, le minimum requis pour faire tourner le modèle.
00:06:48Rien que de le dire à voix haute, ça semble ridicule.
00:06:51On arrive à 40 000 $, sans compter les autres composants
00:06:57et la RAM dont le prix explose aussi actuellement.
00:07:01Quand on prend en compte ce chiffre, plus la limite de 60 secondes
00:07:06imposée par Genie, plus le problème de saturation de la RAM,
00:07:12on comprend que tout ce concept de monde infini n'est que du battage médiatique
00:07:18irréalisable sur du matériel grand public avec l'architecture actuelle.
00:07:24Même les auteurs de ces deux outils admettent ces problèmes.
00:07:28Le coût d'inférence élevé nécessite actuellement des GPU de classe entreprise,
00:07:34rendant la technologie inaccessible aux particuliers.
00:07:37La simulation manque de stabilité à long terme.
00:07:39Cela mène souvent à une dérive environnementale où la scène perd progressivement
00:07:44son intégrité structurelle sur des durées prolongées.
00:07:46Exactement.
00:07:48Au moins, l'équipe de LinkBot est honnête là-dessus.
00:07:51Voyons ce que Google en dit.
00:07:53Le modèle peut supporter quelques minutes d'interaction continue plutôt que de longues heures.
00:07:59Ils ne l'admettent pas ouvertement, mais on sait tous pourquoi maintenant.
00:08:04C'est pour ça que je vous le dis : les jeux vidéo traditionnels ne vont pas disparaître demain.
00:08:09Cela ressemble à une chimère pour l'instant et peut-être, un jour, s'ils
00:08:15résolvent ces problèmes de calcul, on pourra commencer à y réfléchir.
00:08:20Mais là, tout de suite, sérieux...
00:08:23Je suis aussi très curieux de tester LinkBot Fast quand il arrivera enfin.
00:08:27Mais d'ici là, je ne pense pas que cette technologie devienne grand public de sitôt.
00:08:32Si vous voulez quand même essayer LinkBot World par vous-même, voici mon conseil.
00:08:37Ne faites pas comme moi.
00:08:38N'empilez pas huit RTX 1590, car une telle configuration sur RunPod
00:08:45vous coûtera 7 $ par heure d'utilisation.
00:08:48Lancez plutôt un seul conteneur H200, qui ne coûte que 3,50 $ l'heure,
00:08:55réglez le flag “nproc/node” sur 1, baissez peut-être l'échantillonnage à 50 ou 20,
00:09:01et vous serez paré.
00:09:02Vous pouvez aussi utiliser la version quantifiée en 4-bit de ce modèle, créée par Caelan Humphries,
00:09:08qui réduit considérablement la consommation de mémoire GPU tout en gardant une qualité visuelle
00:09:13comparable pour l'inférence.
00:09:15Techniquement, vous pourriez essayer de faire tourner ça sur une seule RTX 1590.
00:09:19Si vous le faites, dites-moi ce que ça donne.
00:09:21Quant à moi, j'ai lancé la démo sur un conteneur H200 et oui, j'ai obtenu
00:09:28le même résultat que sur leur page de démo.
00:09:30Puis j'ai généré une image IA de ce Viking combattant Loki et je l'ai soumise
00:09:36à la même commande.
00:09:37Et voici le résultat obtenu.
00:09:39On peut voir que le modèle maintient l'intégrité de l'environnement et du château
00:09:44tout au long de la vidéo, mais il y a encore des artefacts bizarres.
00:09:48Honnêtement, je ne sais pas trop quoi en penser.
00:09:52Je suis sûr que je pourrais générer une meilleure vidéo de gameplay via un workflow ComfyUI,
00:09:59d'ailleurs si vous voulez apprendre à créer votre propre générateur vidéo comme Sora
00:10:04sans les coûts de calcul énormes, allez voir ma vidéo sur le sujet.
00:10:09Voilà pour mon avis sur Genie 3, tout ce buzz et le futur des jeux vidéo.
00:10:16Je salue l'équipe de Lingbot pour avoir partagé leurs modèles en open source, nous permettant
00:10:20de mieux comprendre comment fonctionne un modèle de type Genie.
00:10:25Mais ce n'est que mon humble avis.
00:10:27Et vous, que pensez-vous de ces modèles de mondes infinis ?
00:10:30Je suis curieux de vous lire, alors partagez vos réflexions dans les commentaires.
00:10:36Si vous avez trouvé cette vidéo utile, faites-le moi savoir en cliquant sur le pouce bleu.
00:10:41N'oubliez pas de vous abonner à la chaîne pour plus de vidéos de ce genre.
00:10:45C'était Andris de Better Stack, on se retrouve dans les prochaines vidéos.
00:11:00(musique entraînante)

Key Takeaway

Malgré l'enthousiasme médiatique, les modèles de mondes infinis comme Genie 3 restent inaccessibles au grand public en raison de coûts de calcul prohibitifs et de limitations techniques majeures.

Highlights

Google a lancé Genie 3

Timeline

L'émergence des modèles de mondes infinis

L'auteur introduit Google Genie 3, une technologie capable de créer des environnements de jeux vidéo simulés en temps réel. Cette annonce a provoqué une chute des actions des entreprises de jeux vidéo traditionnels par peur d'une disruption majeure. Parallèlement, une entreprise chinoise nommée Robiont a lancé Lingbot World, un concurrent open source affichant des graphismes supérieurs. La course est lancée pour déterminer qui remplacera l'industrie classique par ces simulations IA. Cependant, l'analyste reste sceptique et suggère que ce buzz pourrait n'être qu'une promesse marketing vide de sens.

Les barrières à l'entrée de Google Genie 3

L'animateur partage son expérience frustrante en tentant d'accéder à Genie 3 depuis le Canada, se heurtant à une erreur 404 géographique. Même après l'utilisation d'un VPN pour simuler une localisation aux États-Unis, l'accès reste bloqué derrière le mur payant de l'UltraPlan de Google. Le coût de cet abonnement est jugé trop élevé pour un simple test d'outil surmédiatisé. Cette difficulté d'accès soulève des questions fondamentales sur la viabilité commerciale de la technologie. Cette section souligne que l'innovation reste, pour l'instant, réservée à une élite financière et géographique.

Analyse de Lingbot World et limites actuelles

L'attention se porte sur Lingbot World, une filiale d'Ant Group liée à Alibaba, qui propose un modèle open source de 14 milliards de paramètres. Bien que les démos suggèrent un contrôle total au clavier, cette fonctionnalité baptisée Lingbot Fast est toujours en cours de développement. Actuellement, l'outil se limite principalement à la génération de vidéos basées sur des trajectoires de caméra pré-enregistrées. L'utilisateur peut contrôler les mouvements intrinsèques de la caméra, mais pas encore le personnage de manière interactive. Cette distinction est cruciale pour comprendre l'état réel de maturité de ces technologies par rapport aux promesses.

Technologie et permanence des objets

L'auteur explique la différence technique majeure entre un générateur vidéo classique et un modèle de monde infini comme Lingbot World. Les générateurs standards oublient souvent les éléments hors cadre, provoquant des incohérences visuelles lorsque la caméra revient sur ses pas. À l'inverse, Lingbot utilise des données géométriques à 6 degrés de liberté pour ancrer chaque pixel dans un espace 3D mathématique. Cela permet de créer une "permanence de l'objet", où le modèle se souvient de l'emplacement exact des éléments environnementaux. Cette intégrité structurelle est ce qui rend le modèle si performant, mais aussi extrêmement lourd à traiter.

Le coût prohibitif du matériel et erreurs système

La réalité brutale du matériel nécessaire est mise en lumière par une série d'échecs techniques lors des tests. L'auteur a tenté de faire tourner le modèle sur un, deux, quatre, puis huit GPU RTX 1590, subissant systématiquement des plantages par manque de mémoire vive. Le stockage des données de scènes s'accumule jusqu'à l'explosion de la RAM, limitant les démos à seulement quelques secondes. Un système capable de faire tourner correctement cet outil coûterait environ 40 000 dollars, sans compter les autres composants. Cela explique pourquoi Google réserve Genie 3 aux membres Ultra et limite drastiquement la durée des interactions.

Scepticisme et perspectives d'avenir

Les développeurs eux-mêmes admettent les faiblesses de la technologie, notamment le coût d'inférence élevé et le manque de stabilité à long terme. La simulation souffre de dérives environnementales où la structure de la scène se dégrade après quelques minutes d'utilisation. L'auteur conclut que les jeux vidéo traditionnels ne sont pas menacés dans un avenir proche car cette technologie est encore une chimère. Bien que Lingbot Fast soit attendu avec curiosité, l'architecture actuelle semble inadaptée à un usage grand public. L'honnêteté de l'équipe de Lingbot sur ces limites contraste avec le discours plus opaque de Google.

Conseils pratiques et conclusion

Pour ceux qui souhaitent tester Lingbot World, l'auteur conseille d'utiliser des instances cloud H200 plus économiques plutôt que d'acheter des cartes grand public. L'utilisation de versions quantifiées en 4-bit peut également aider à réduire l'empreinte mémoire sur des cartes comme la RTX 1590. Un test final est présenté avec une image de Viking, montrant une bonne intégrité environnementale malgré la présence d'artefacts visuels. L'auteur suggère finalement que des workflows comme ComfyUI peuvent produire des résultats supérieurs pour moins de ressources. La vidéo se termine par un appel aux commentaires des spectateurs sur le futur de ces mondes infinis.

Community Posts

View all posts