00:00:00La semaine dernière, Google a dévoilé Genie 3, son modèle phare de monde infini, où vous
00:00:05pouvez simuler un environnement et interagir avec lui comme dans un vrai jeu vidéo.
00:00:10Soudain, toutes les actions des sociétés de jeux vidéo ont chuté par peur que ce ne soit
00:00:16le début de la fin pour cette industrie.
00:00:20Et puis, quelque chose d'encore plus intéressant s'est produit.
00:00:22Une entreprise tech chinoise nommée Robiant a sorti son propre concurrent open source à Genie,
00:00:28qui semble offrir des graphismes encore meilleurs que son homologue de Google.
00:00:32Et tout d'un coup, les vannes sont ouvertes pour la course qui déterminera quelle entreprise
00:00:37remplacera la première les jeux vidéo traditionnels par cette nouvelle technologie de jeu.
00:00:43Mais alors que tout le monde s'emballe pour cette folie des modèles de mondes infinis,
00:00:49je suis là pour vous dire que ce n'est peut-être qu'une promesse marketing sans fondement.
00:00:54Qu'est-ce qui me rend si sûr de moi ?
00:00:55C'est précisément ce dont nous allons parler dans la vidéo d'aujourd'hui.
00:01:02Dès que Genie 3 est sorti, je me suis précipité sur le site pour l'essayer.
00:01:07Mais dès que j'ai cliqué sur le bouton d'exploration, je suis tombé sur une décevante page 404.
00:01:14Et c'est parce que je vis au Canada.
00:01:16Pour le moment, Google n'autorise que les citoyens des États-Unis à tester
00:01:20cette merveille technologique de pointe.
00:01:23Évidemment, j'ai activé mon VPN et réessayé depuis une localisation américaine.
00:01:27Cette fois, j'ai essuyé un autre refus m'indiquant que je devais être membre UltraPlan
00:01:33pour accéder à ce logiciel révolutionnaire.
00:01:37Et si vous vous demandez combien coûte l'UltraPlan, disons que c'est un peu plus
00:01:41que ce que je suis prêt à payer juste pour tester un outil IA surmédiatisé.
00:01:46Mais cela soulève une question : pourquoi est-il si difficile d'accéder à Genie 3 ?
00:01:51La réponse sera très importante pour la suite, mais j'y reviendrai
00:01:56plus tard dans cette vidéo.
00:01:57Même si je n'ai pas eu la chance ni les fonds pour essayer Genie 3, entre-temps,
00:02:04à l'autre bout du monde, une entreprise chinoise appelée Robiont,
00:02:09qui semble être une filiale d'Ant Group, elle-même affiliée à Alibaba Group (propriétaire de Qwen),
00:02:15a sorti son propre modèle de monde infini
00:02:20appelé Lingbot World, qui, surprise, est open source.
00:02:25Cela signifie que nous pouvons réellement le tester et voir de quoi il est capable.
00:02:29En regardant leurs exemples, le rendu était absolument époustouflant.
00:02:32Mais dès que j'ai inspecté la page du projet, j'ai eu une autre grande déception.
00:02:38Bien que leur page soit remplie de vidéos d'exemples où l'on peut se déplacer librement
00:02:43dans l'espace avec les flèches du clavier, en réalité, cette version
00:02:48permettant un contrôle total du personnage est encore en développement.
00:02:51Ils prévoient de sortir Lingbot Fast, qui serait l'équivalent complet de Genie 3, mais
00:02:56nous ne savons pas encore quand il sera disponible.
00:02:57Pour l'instant, nous avons accès à leur modèle de base de 14 milliards de paramètres, qui offre
00:03:03des « simulations haute fidélité, contrôlables et logiquement cohérentes ».
00:03:08Mais concrètement, tout ce que ce modèle peut faire actuellement, c'est générer une vidéo.
00:03:14Oui, juste une simple vidéo.
00:03:16J'étais donc perplexe : où se trouve l'aspect « contrôle » ?
00:03:20Eh bien, ils permettent de fournir ses propres valeurs de position intrinsèques de caméra,
00:03:25on peut donc en un sens contrôler le mouvement de caméra, ce qui est une alternative
00:03:31à la navigation au clavier, mais il faut le pré-enregistrer.
00:03:35En quoi est-ce différent de n'importe quel autre générateur de vidéo
00:03:40qui permet aussi de contrôler les mouvements de caméra ?
00:03:41Voici la distinction fondamentale.
00:03:44Dans un générateur de vidéo IA classique, le modèle essaie toujours de prédire l'image suivante
00:03:50au fil de la vidéo, et on a vu dans de nombreux mèmes internet comment cela dérape
00:03:55si la vidéo dure trop longtemps, car le modèle ne conserve pas
00:04:00les informations sur ce qui se passe hors du cadre.
00:04:04Si la caméra s'éloigne d'un objet puis revient, l'objet peut avoir disparu
00:04:09parce que toute la scène est générée à la volée.
00:04:13C'est là que le cerveau géométrique de 14 milliards de paramètres de Lingbot World
00:04:18entre en jeu.
00:04:19Contrairement à un générateur standard qui devine les prochains pixels, Lingbot World
00:04:24utilise les données intrinsèques de la caméra et des poses à 6 degrés de liberté pour
00:04:31faire correspondre chaque pixel à un point précis de l'espace 3D.
00:04:33Il crée ce que les chercheurs appellent la « permanence de l'objet » car il comprend
00:04:39la relation mathématique entre l'objectif de la caméra et l'environnement.
00:04:42En gros, il se souvient qu'un objet spécifique existe à des coordonnées précises.
00:04:47Cette intégrité structurelle explique pourquoi ce modèle est si massif et gourmand en calcul.
00:04:52À quel point ?
00:04:53Oh là là, accrochez-vous.
00:04:55J'ai essayé de déployer Lingbot World sur une instance avec un seul GPU RTX 1590
00:05:02pour lancer la démo d'exemple fournie, et ça a planté immédiatement.
00:05:07C'était naïf de penser qu'une seule 1590 pourrait supporter une telle charge.
00:05:13J'ai essayé avec deux 1590, et non, ça a encore planté.
00:05:18Puis avec quatre 1590, et une fois de plus, crash total.
00:05:23J'ai alors lancé un conteneur avec huit RTX 1590 pour faire tourner la démo
00:05:31et ça a encore planté.
00:05:32La raison est que lorsqu'on fait tourner ce modèle de monde infini longtemps,
00:05:38la quantité de mémoire que le modèle doit stocker sur les scènes augmente sans cesse
00:05:44jusqu'à atteindre une erreur « out of memory »
00:05:49par manque de RAM.
00:05:50J'ai finalement réussi à faire tourner la démo sur une config de 8 GPU en réduisant
00:05:55la taille de l'échantillon de 70 à seulement 20.
00:05:59Honnêtement, la différence de qualité n'était pas si flagrante.
00:06:03Mais cela montre à quel point l'exécution de ce modèle est incroyablement coûteuse
00:06:09en termes de ressources informatiques.
00:06:10Pour en revenir à Genie 3, c'est précisément pour cela qu'il est réservé aux membres Ultra,
00:06:16car Google doit bien rentabiliser les coûts de GPU pour faire tourner ce truc.
00:06:21C'est aussi pourquoi les démos sont limitées à quelques secondes : à un moment,
00:06:27la mémoire explose et tout le système s'effondre.
00:06:32Pour vous donner une idée du coût démentiel sur du matériel grand public,
00:06:37une seule RTX 1590 coûte jusqu'à 5 000 $.
00:06:43Multipliez par 8, le minimum requis pour faire tourner le modèle.
00:06:48Rien que de le dire à voix haute, ça semble ridicule.
00:06:51On arrive à 40 000 $, sans compter les autres composants
00:06:57et la RAM dont le prix explose aussi actuellement.
00:07:01Quand on prend en compte ce chiffre, plus la limite de 60 secondes
00:07:06imposée par Genie, plus le problème de saturation de la RAM,
00:07:12on comprend que tout ce concept de monde infini n'est que du battage médiatique
00:07:18irréalisable sur du matériel grand public avec l'architecture actuelle.
00:07:24Même les auteurs de ces deux outils admettent ces problèmes.
00:07:28Le coût d'inférence élevé nécessite actuellement des GPU de classe entreprise,
00:07:34rendant la technologie inaccessible aux particuliers.
00:07:37La simulation manque de stabilité à long terme.
00:07:39Cela mène souvent à une dérive environnementale où la scène perd progressivement
00:07:44son intégrité structurelle sur des durées prolongées.
00:07:46Exactement.
00:07:48Au moins, l'équipe de LinkBot est honnête là-dessus.
00:07:51Voyons ce que Google en dit.
00:07:53Le modèle peut supporter quelques minutes d'interaction continue plutôt que de longues heures.
00:07:59Ils ne l'admettent pas ouvertement, mais on sait tous pourquoi maintenant.
00:08:04C'est pour ça que je vous le dis : les jeux vidéo traditionnels ne vont pas disparaître demain.
00:08:09Cela ressemble à une chimère pour l'instant et peut-être, un jour, s'ils
00:08:15résolvent ces problèmes de calcul, on pourra commencer à y réfléchir.
00:08:20Mais là, tout de suite, sérieux...
00:08:23Je suis aussi très curieux de tester LinkBot Fast quand il arrivera enfin.
00:08:27Mais d'ici là, je ne pense pas que cette technologie devienne grand public de sitôt.
00:08:32Si vous voulez quand même essayer LinkBot World par vous-même, voici mon conseil.
00:08:37Ne faites pas comme moi.
00:08:38N'empilez pas huit RTX 1590, car une telle configuration sur RunPod
00:08:45vous coûtera 7 $ par heure d'utilisation.
00:08:48Lancez plutôt un seul conteneur H200, qui ne coûte que 3,50 $ l'heure,
00:08:55réglez le flag “nproc/node” sur 1, baissez peut-être l'échantillonnage à 50 ou 20,
00:09:01et vous serez paré.
00:09:02Vous pouvez aussi utiliser la version quantifiée en 4-bit de ce modèle, créée par Caelan Humphries,
00:09:08qui réduit considérablement la consommation de mémoire GPU tout en gardant une qualité visuelle
00:09:13comparable pour l'inférence.
00:09:15Techniquement, vous pourriez essayer de faire tourner ça sur une seule RTX 1590.
00:09:19Si vous le faites, dites-moi ce que ça donne.
00:09:21Quant à moi, j'ai lancé la démo sur un conteneur H200 et oui, j'ai obtenu
00:09:28le même résultat que sur leur page de démo.
00:09:30Puis j'ai généré une image IA de ce Viking combattant Loki et je l'ai soumise
00:09:36à la même commande.
00:09:37Et voici le résultat obtenu.
00:09:39On peut voir que le modèle maintient l'intégrité de l'environnement et du château
00:09:44tout au long de la vidéo, mais il y a encore des artefacts bizarres.
00:09:48Honnêtement, je ne sais pas trop quoi en penser.
00:09:52Je suis sûr que je pourrais générer une meilleure vidéo de gameplay via un workflow ComfyUI,
00:09:59d'ailleurs si vous voulez apprendre à créer votre propre générateur vidéo comme Sora
00:10:04sans les coûts de calcul énormes, allez voir ma vidéo sur le sujet.
00:10:09Voilà pour mon avis sur Genie 3, tout ce buzz et le futur des jeux vidéo.
00:10:16Je salue l'équipe de Lingbot pour avoir partagé leurs modèles en open source, nous permettant
00:10:20de mieux comprendre comment fonctionne un modèle de type Genie.
00:10:25Mais ce n'est que mon humble avis.
00:10:27Et vous, que pensez-vous de ces modèles de mondes infinis ?
00:10:30Je suis curieux de vous lire, alors partagez vos réflexions dans les commentaires.
00:10:36Si vous avez trouvé cette vidéo utile, faites-le moi savoir en cliquant sur le pouce bleu.
00:10:41N'oubliez pas de vous abonner à la chaîne pour plus de vidéos de ce genre.
00:10:45C'était Andris de Better Stack, on se retrouve dans les prochaines vidéos.
00:11:00(musique entraînante)