00:00:00Na semana passada, a Google revelou o Genie 3, seu principal modelo de mundo infinito, onde você
00:00:05pode simular um ambiente e interagir com ele como em um videogame real.
00:00:10E, de repente, as ações de empresas de games despencaram por medo de que este fosse o
00:00:16começo do fim para a indústria dos videogames.
00:00:20Mas aí, algo ainda mais interessante aconteceu.
00:00:22Uma empresa de tecnologia chinesa chamada Robiant lançou seu próprio concorrente de código aberto do Genie, que
00:00:28parece ter gráficos ainda melhores que o seu equivalente da Google.
00:00:32E agora, de uma hora para outra, as comportas se abriram para a corrida que determinará qual empresa
00:00:37será a primeira a substituir os videogames tradicionais por essa nova tecnologia de jogos.
00:00:43Mas enquanto todos estão empolgados com essa febre de modelos de mundo infinito, eu vim dizer que isso
00:00:49pode ser apenas uma promessa exagerada sem substância real.
00:00:54O que me deixa tão seguro disso?
00:00:55Bem, é sobre isso que vamos conversar no vídeo de hoje.
00:01:02Assim que o Genie 3 foi lançado, eu corri para o site para testá-lo por conta própria.
00:01:07Mas logo que cliquei no botão de explorar, dei de cara com um decepcionante erro 404.
00:01:14E isso é porque eu moro no Canadá.
00:01:16E, por enquanto, a Google só permitiu que cidadãos dos Estados Unidos experimentassem
00:01:20essa maravilha tecnológica de ponta.
00:01:23Então, obviamente, liguei minha VPN e tentei novamente a partir de uma localização nos EUA.
00:01:27Desta vez, fui recebido por outra rejeição frustrante, informando que preciso ser um membro
00:01:33UltraPlan para acessar esse software revolucionário.
00:01:37E se você está se perguntando quanto custa o UltraPlan, bem, digamos que é um pouco mais
00:01:41do que eu me sentiria confortável pagando só para testar essa ferramenta de IA superestimada.
00:01:46Mas isso levanta a questão: por que é tão difícil colocar as mãos no Genie 3 para começar?
00:01:51A resposta a essa pergunta será muito importante para a nossa história, mas voltarei a
00:01:56falar nisso mais adiante no vídeo.
00:01:57Embora eu não tenha tido sorte nem fundos disponíveis para testar o Genie 3, enquanto isso, por sorte,
00:02:04do outro lado do globo, uma empresa chinesa chamada Robiont — que parece ser
00:02:09uma subsidiária do Ant Group, que por sua vez é afiliada ao Alibaba Group, que
00:02:15por acaso é a mesma empresa dona da Quen — lançou seu próprio modelo de mundo infinito
00:02:20chamado Lingbot World, que surpreendentemente é de código aberto.
00:02:25Isso significa que podemos realmente testá-lo e ver do que ele é capaz.
00:02:29E olhando os exemplos deles, parecia absolutamente deslumbrante.
00:02:32Mas quando comecei a inspecionar a página do projeto, tive outra grande decepção.
00:02:38Embora a página esteja cheia de vídeos de exemplo onde você pode andar livremente pelo
00:02:43espaço com as setas do teclado, na realidade, essa versão do modelo com controle total de
00:02:48personagem ainda está em desenvolvimento.
00:02:51Eles planejam lançar o Lingbot Fast, que seria um equivalente completo ao Genie 3, mas
00:02:56não sabemos quando ele chegará.
00:02:57No momento, temos acesso ao modelo base de 14 bilhões de parâmetros, que oferece
00:03:03abre aspas, "simulações de alta fidelidade, controláveis e logicamente consistentes".
00:03:08Mas, basicamente, a única coisa que este modelo é capaz de fazer por enquanto é gerar um vídeo.
00:03:14Sim, apenas um vídeo.
00:03:16Fiquei meio confuso: onde entra o fator de controle?
00:03:20Bem, eles têm a opção de você fornecer seus próprios valores intrínsecos de posição da câmera, então
00:03:25você pode, de certa forma, controlar o movimento da câmera, o que seria uma alternativa à navegação
00:03:31pelas setas, mas você teria que pré-gravar isso.
00:03:35Como isso é diferente de qualquer outro gerador de vídeo por aí que também oferece controle
00:03:40de movimentos de câmera?
00:03:41Bem, aqui está a distinção fundamental.
00:03:44Em um gerador de vídeo por IA comum, o modelo tenta sempre prever o próximo quadro conforme
00:03:50o vídeo progride, e vimos em muitos memes na internet como isso dá errado
00:03:55se o vídeo continuar por muito tempo, e isso acontece porque o modelo não retém
00:04:00informações sobre o que está acontecendo fora do enquadramento.
00:04:04Assim, se a câmera se afasta de um objeto e depois volta, o objeto pode não estar mais lá
00:04:09porque a cena inteira é gerada em tempo real.
00:04:13É aqui que o cérebro geométrico de 14 bilhões de parâmetros do modelo Lingbot World
00:04:18entra em cena.
00:04:19Diferente de um gerador de vídeo padrão que apenas adivinha o próximo conjunto de pixels, o Lingbot World
00:04:24usa dados intrínsecos da câmera e poses de 6 graus de liberdade para mapear cada pixel a um ponto
00:04:31específico no espaço 3D.
00:04:33Ele cria o que pesquisadores chamam de "permanência de objeto", porque entende a relação matemática
00:04:39entre a lente da câmera e o ambiente.
00:04:42Basicamente, ele lembra que um objeto específico existe em coordenadas específicas.
00:04:47E essa integridade estrutural é o motivo pelo qual este modelo é tão massivo e faminto por processamento.
00:04:52Quão faminto?
00:04:53Nossa, deixa eu te contar.
00:04:55Tentei rodar o modelo Lingbot World em uma instância com uma única GPU RTX 1590 e
00:05:02tentei rodar a demonstração básica que eles forneceram, e ela travou imediatamente.
00:05:07Foi ingenuidade minha achar que uma única 1590 daria conta desse recado.
00:05:13Aí tentei rodar com duas 1590s e não, continuou travando.
00:05:18Depois tentei com 4 1590s e, mais uma vez, travou.
00:05:23Então iniciei um container com 8 RTX 1590s e tentei rodar o exemplo básico
00:05:31e ainda assim travou.
00:05:32Veja bem, o motivo é que ao rodar esse modelo de mundo infinito por um período prolongado,
00:05:38a quantidade de memória que o modelo precisa armazenar sobre as cenas vai ficando cada vez maior,
00:05:44até o ponto em que ocorre um erro de falta de memória porque simplesmente
00:05:49acabou a memória RAM.
00:05:50Mas consegui rodar com sucesso a demonstração em uma configuração de 8 GPUs ao baixar
00:05:55o tamanho da amostra de 70 (padrão) para apenas 20.
00:05:59E honestamente, a diferença entre 70 e 20 amostras não foi tão perceptível.
00:06:03Mas isso só mostra quão absurdamente caro, em termos computacionais, rodar esse modelo
00:06:09de mundo infinito se torna.
00:06:10Voltando ao Genie 3, é exatamente por isso que eles só permitem o acesso para membros ultra,
00:06:16porque precisam de alguma forma recuperar os custos de GPU para rodar esse negócio.
00:06:21E é também por isso que você só ganha alguns segundos de demonstração, porque em certo
00:06:27ponto a memória infla tanto que o sistema inteiro acaba colapsando.
00:06:32Para se ter uma ideia de quão insanamente caro seria rodar um modelo desses em hardware
00:06:37de nível doméstico, uma única RTX 1590 custa até US$ 5.000.
00:06:43Agora pegue 8 dessas, que é o mínimo necessário para rodar isso.
00:06:48Cara, até falar isso em voz alta soa ridículo.
00:06:51Mas enfim, 8 dessas custariam cerca de US$ 40.000, sem falar nas outras peças
00:06:57e na memória RAM, que também está com o preço explodindo agora.
00:07:01Levando isso em conta, esse valor, somado ao limite máximo de 60 segundos por rodada
00:07:06que o Genie impõe, mais o problema da memória RAM, são exatamente os
00:07:12motivos pelos quais toda essa coisa de modelo de mundo infinito é só hype e não é nada
00:07:18viável em hardware comum com a arquitetura que temos hoje.
00:07:24E até os autores de ambas as ferramentas admitem esses problemas.
00:07:28O alto custo de inferência atualmente exige GPUs de nível empresarial, tornando a tecnologia
00:07:34inacessível em hardware de consumidor final.
00:07:37A simulação carece de estabilidade a longo prazo.
00:07:39Isso geralmente leva a um "desvio ambiental", onde a cena perde gradualmente sua integridade
00:07:44estrutural durante durações estendidas.
00:07:46Exatamente.
00:07:48E pelo menos a equipe do LinkBot está sendo aberta sobre isso.
00:07:51Vejamos o que a Google tem a dizer.
00:07:53O modelo pode suportar alguns minutos de interação contínua, em vez de horas seguidas.
00:07:59Digo, eles não admitem abertamente, mas a essa altura todos sabemos o porquê.
00:08:04Por isso eu digo a vocês: os videogames tradicionais não vão desaparecer tão cedo.
00:08:09Isso parece um sonho distante agora e, talvez, se no futuro descobrirem como
00:08:15resolver esses problemas computacionais, poderemos começar a pensar nisso.
00:08:20Mas agora, fala sério, né?
00:08:23Também estou super curioso para testar o LinkBot Fast quando ele finalmente chegar.
00:08:27Mas até lá, não acho que essa tecnologia vá se tornar popular tão cedo.
00:08:32Mas se você estiver curioso para testar o LinkBot World por si mesmo, aqui vai meu conselho.
00:08:37Não faça o que eu fiz.
00:08:38Não tente juntar oito RTX 1590s, porque uma configuração dessas em uma plataforma como RunPod
00:08:45vai drenar US$ 7 por hora de uso.
00:08:48Em vez disso, inicie um container simples de H200, que custa apenas US$ 3,50 por hora, defina a
00:08:55flag "nproc/node" para 1, reduza a contagem de amostras para 50 ou 20 e você
00:09:01estará pronto.
00:09:02Você também pode usar a versão quantizada em 4 bits deste modelo, criada pelo usuário Caelan Humphries,
00:09:08que reduz significativamente o consumo de memória da GPU, mantendo uma qualidade visual
00:09:13comparável para inferência.
00:09:15Assim, tecnicamente, você poderia tentar rodar em uma única RTX 1590.
00:09:19E se fizer isso, me conte como foi.
00:09:21Quanto a mim, rodei a demonstração básica em um container H200 e, sim, basicamente obtive o
00:09:28mesmo resultado da página de demonstração deles.
00:09:30Depois, gerei uma imagem por IA desse Viking lutando contra Loki e alimentei o
00:09:36mesmo comando com essa imagem.
00:09:37E este foi o resultado que obtive.
00:09:39Acho que dá para ver como o modelo mantém a integridade do ambiente e do castelo
00:09:44ao longo do vídeo, mas ele ainda gera alguns artefatos estranhos.
00:09:48Sinceramente, não sei bem o que pensar disso.
00:09:52Tenho certeza de que conseguiria gerar um vídeo de gameplay melhor usando um fluxo padrão do ComfyUI —
00:09:59aliás, se você tiver interesse em aprender a criar seu próprio gerador de vídeo estilo Sora
00:10:04sem o custo pesado de processamento, confira este vídeo que fiz há um tempo sobre o assunto.
00:10:09Então é isso, pessoal, essa é a minha opinião sobre o Genie 3, todo esse hype e o futuro
00:10:15dos videogames.
00:10:16Eu realmente agradeço à equipe por trás do Lingbot por abrir o código de seus modelos para que possamos
00:10:20entender melhor como um modelo tipo o Genie funciona.
00:10:25Mas essa é apenas a minha visão sobre o tema.
00:10:27O mais importante: o que você acha desses modelos de mundo infinito?
00:10:30Estou curioso para saber sua opinião, então deixe seus pensamentos na seção de comentários
00:10:35logo abaixo.
00:10:36E pessoal, se acharam este vídeo útil, deixem o seu "curtir" clicando no botão abaixo
00:10:40do vídeo.
00:10:41E também não se esqueçam de se inscrever no canal para mais vídeos como este.
00:10:45Aqui é o Andris da Better Stack e vejo vocês nos próximos vídeos.
00:11:00(música animada)