Comment utiliser le modèle VOID pour les cinéastes indépendants ne pouvant retourner sur le plateau
April 30, 2026
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
Le modèle VOID, publié par les chercheurs de Netflix, n'est pas un simple outil pour effacer des personnes. Il calcule les relations de causalité physique pour déterminer comment les objets restants doivent se déplacer selon la gravité une fois qu'un élément a disparu. Pour une production indépendante où un acteur principal a soudainement quitté le projet ou qu'un problème de droit d'auteur surgit sans budget pour retourner des scènes, cette technologie est littéralement une bouée de sauvetage.
Le modèle VOID consomme énormément de mémoire car il doit assurer la continuité entre les images vidéo. Les 24 Go de VRAM d'une RTX 4090 domestique sont loin d'être suffisants. Comme un minimum de 40 Go est requis, au lieu d'acheter une station de travail à plusieurs dizaines de milliers d'euros, il faut louer des instances sur RunPod ou Lambda Labs. En 2026, un modèle H100 PCIe peut être loué pour environ 2 dollars et demi de l'heure. Cela peut sembler coûteux, mais comparé aux frais de tournage, c'est pratiquement gratuit.
La configuration prend 30 minutes. Dans le tableau de bord RunPod, créez une instance en choisissant un modèle incluant PyTorch 2.2.0 et CUDA 12.1. Exécutez apt-get install ffmpeg dans le terminal, clonez le dépôt officiel, installez les dépendances, et vous êtes prêt. Veillez à charger les fichiers de poids (weights) sur un volume réseau. Vous devez économiser le temps et l'argent nécessaires au retéléchargement de gigaoctets de données à chaque redémarrage de l'instance.
Le rotoscoping manuel est un enfer. Le modèle VOID utilise une structure de « Quad Mask » à 4 niveaux qui divise les valeurs de 0 (cible à supprimer) à 255 (arrière-plan), mais il n'est pas nécessaire de les dessiner manuellement. En extrayant les données Magic Mask de DaVinci Resolve et en utilisant un script de conversion, vous éliminez 80 % du temps de travail.
Dans DaVinci Resolve, masquez l'objet principal et les objets influencés dans des nœuds séparés et exportez-les en séquence PNG. Utilisez ensuite un script FFmpeg pour assigner le masque de l'objet principal au noir (0) et le masque d'influence au gris (127). Appliquez un filtre gris foncé (63) sur l'interface où les deux zones se chevauchent pour fusionner la vidéo finale du Quad Mask. De cette manière, si un personnage tenait une tasse, l'IA dessinera d'elle-même la trajectoire de la tasse tombant au sol après la suppression du personnage.
Les résultats de l'inpainting sont parfois trop propres, ce qui pose problème. Si les zones environnantes ont un aspect de pellicule granuleuse mais que la zone effacée est lisse comme une retouche Photoshop, le public s'en rendra compte immédiatement. Bien que le système à deux passes de VOID stabilise les tremblements, il ne reproduit pas les particules de bruit de la vidéo d'origine.
Ce décalage se résout en prélevant un profil de bruit sur une zone propre de la vidéo source. Ouvrez le nœud Film Grain de DaVinci Resolve pour analyser la taille des grains de la source originale. Appliquez ensuite un grain artificiel avec les mêmes réglages en superposition (overlay) uniquement sur la zone du masque. En utilisant une clé de luminance (Luma Key) pour concentrer davantage de grain sur les tons moyens, la frontière entre la zone générée par l'IA et les prises de vues réelles disparaît complètement.
Si l'arrière-plan est complexe, l'IA déforme parfois la structure des objets. Dans ce cas, il ne faut pas prendre la sortie de VOID pour une vérité absolue, mais adopter une stratégie hybride en mélangeant Stable Diffusion (SDXL).
Extrayez uniquement les images présentant de graves erreurs et créez des images de référence corrigées avec SDXL en ajustant l'éclairage de l'arrière-plan. Insérez ces images modifiées dans un outil comme EbSynth pour appliquer la texture à toute la séquence selon les vecteurs de mouvement de la vidéo. Enfin, utilisez la technologie RIFE pour l'interpolation d'images afin de fluidifier les mouvements saccadés. C'est un processus manuel pour réparer les erreurs de l'IA, mais le résultat final atteint une stabilité de niveau professionnel.
Les frais de cloud sont facturés à la seconde. Lancer un rendu 4K sans réfléchir est un gaspillage de budget. Commencez par saisir des instances Spot sur RunPod. Elles peuvent être interrompues à tout moment, mais elles sont 70 % moins chères que les instances sur demande (On-demand).
Avant de passer au travail sérieux, lancez une inférence en basse résolution 480p pour la première passe. Créez une liste de contrôle pour vérifier si les limites de l'objet à supprimer bavent ou si le mouvement des objets environnants est physiquement cohérent. Ce n'est que lorsque les résultats du test sont concluants que vous devez pousser la puissance de la H100 au maximum pour le rendu final en haute résolution. Une technologie qui ne tient pas compte de l'efficacité est un luxe que les cinéastes indépendants ne peuvent pas se permettre.