A IA Genie 3 do Google merece um olhar mais atento além do hype

BBetter Stack
Computing/SoftwareVideo & Computer GamesStocksConsumer Electronics

Transcript

00:00:00Na semana passada, a Google revelou o Genie 3, seu principal modelo de mundo infinito, onde você
00:00:05pode simular um ambiente e interagir com ele como em um videogame real.
00:00:10E, de repente, as ações de empresas de games despencaram por medo de que este fosse o
00:00:16começo do fim para a indústria dos videogames.
00:00:20Mas aí, algo ainda mais interessante aconteceu.
00:00:22Uma empresa de tecnologia chinesa chamada Robiant lançou seu próprio concorrente de código aberto do Genie, que
00:00:28parece ter gráficos ainda melhores que o seu equivalente da Google.
00:00:32E agora, de uma hora para outra, as comportas se abriram para a corrida que determinará qual empresa
00:00:37será a primeira a substituir os videogames tradicionais por essa nova tecnologia de jogos.
00:00:43Mas enquanto todos estão empolgados com essa febre de modelos de mundo infinito, eu vim dizer que isso
00:00:49pode ser apenas uma promessa exagerada sem substância real.
00:00:54O que me deixa tão seguro disso?
00:00:55Bem, é sobre isso que vamos conversar no vídeo de hoje.
00:01:02Assim que o Genie 3 foi lançado, eu corri para o site para testá-lo por conta própria.
00:01:07Mas logo que cliquei no botão de explorar, dei de cara com um decepcionante erro 404.
00:01:14E isso é porque eu moro no Canadá.
00:01:16E, por enquanto, a Google só permitiu que cidadãos dos Estados Unidos experimentassem
00:01:20essa maravilha tecnológica de ponta.
00:01:23Então, obviamente, liguei minha VPN e tentei novamente a partir de uma localização nos EUA.
00:01:27Desta vez, fui recebido por outra rejeição frustrante, informando que preciso ser um membro
00:01:33UltraPlan para acessar esse software revolucionário.
00:01:37E se você está se perguntando quanto custa o UltraPlan, bem, digamos que é um pouco mais
00:01:41do que eu me sentiria confortável pagando só para testar essa ferramenta de IA superestimada.
00:01:46Mas isso levanta a questão: por que é tão difícil colocar as mãos no Genie 3 para começar?
00:01:51A resposta a essa pergunta será muito importante para a nossa história, mas voltarei a
00:01:56falar nisso mais adiante no vídeo.
00:01:57Embora eu não tenha tido sorte nem fundos disponíveis para testar o Genie 3, enquanto isso, por sorte,
00:02:04do outro lado do globo, uma empresa chinesa chamada Robiont — que parece ser
00:02:09uma subsidiária do Ant Group, que por sua vez é afiliada ao Alibaba Group, que
00:02:15por acaso é a mesma empresa dona da Quen — lançou seu próprio modelo de mundo infinito
00:02:20chamado Lingbot World, que surpreendentemente é de código aberto.
00:02:25Isso significa que podemos realmente testá-lo e ver do que ele é capaz.
00:02:29E olhando os exemplos deles, parecia absolutamente deslumbrante.
00:02:32Mas quando comecei a inspecionar a página do projeto, tive outra grande decepção.
00:02:38Embora a página esteja cheia de vídeos de exemplo onde você pode andar livremente pelo
00:02:43espaço com as setas do teclado, na realidade, essa versão do modelo com controle total de
00:02:48personagem ainda está em desenvolvimento.
00:02:51Eles planejam lançar o Lingbot Fast, que seria um equivalente completo ao Genie 3, mas
00:02:56não sabemos quando ele chegará.
00:02:57No momento, temos acesso ao modelo base de 14 bilhões de parâmetros, que oferece
00:03:03abre aspas, "simulações de alta fidelidade, controláveis e logicamente consistentes".
00:03:08Mas, basicamente, a única coisa que este modelo é capaz de fazer por enquanto é gerar um vídeo.
00:03:14Sim, apenas um vídeo.
00:03:16Fiquei meio confuso: onde entra o fator de controle?
00:03:20Bem, eles têm a opção de você fornecer seus próprios valores intrínsecos de posição da câmera, então
00:03:25você pode, de certa forma, controlar o movimento da câmera, o que seria uma alternativa à navegação
00:03:31pelas setas, mas você teria que pré-gravar isso.
00:03:35Como isso é diferente de qualquer outro gerador de vídeo por aí que também oferece controle
00:03:40de movimentos de câmera?
00:03:41Bem, aqui está a distinção fundamental.
00:03:44Em um gerador de vídeo por IA comum, o modelo tenta sempre prever o próximo quadro conforme
00:03:50o vídeo progride, e vimos em muitos memes na internet como isso dá errado
00:03:55se o vídeo continuar por muito tempo, e isso acontece porque o modelo não retém
00:04:00informações sobre o que está acontecendo fora do enquadramento.
00:04:04Assim, se a câmera se afasta de um objeto e depois volta, o objeto pode não estar mais lá
00:04:09porque a cena inteira é gerada em tempo real.
00:04:13É aqui que o cérebro geométrico de 14 bilhões de parâmetros do modelo Lingbot World
00:04:18entra em cena.
00:04:19Diferente de um gerador de vídeo padrão que apenas adivinha o próximo conjunto de pixels, o Lingbot World
00:04:24usa dados intrínsecos da câmera e poses de 6 graus de liberdade para mapear cada pixel a um ponto
00:04:31específico no espaço 3D.
00:04:33Ele cria o que pesquisadores chamam de "permanência de objeto", porque entende a relação matemática
00:04:39entre a lente da câmera e o ambiente.
00:04:42Basicamente, ele lembra que um objeto específico existe em coordenadas específicas.
00:04:47E essa integridade estrutural é o motivo pelo qual este modelo é tão massivo e faminto por processamento.
00:04:52Quão faminto?
00:04:53Nossa, deixa eu te contar.
00:04:55Tentei rodar o modelo Lingbot World em uma instância com uma única GPU RTX 1590 e
00:05:02tentei rodar a demonstração básica que eles forneceram, e ela travou imediatamente.
00:05:07Foi ingenuidade minha achar que uma única 1590 daria conta desse recado.
00:05:13Aí tentei rodar com duas 1590s e não, continuou travando.
00:05:18Depois tentei com 4 1590s e, mais uma vez, travou.
00:05:23Então iniciei um container com 8 RTX 1590s e tentei rodar o exemplo básico
00:05:31e ainda assim travou.
00:05:32Veja bem, o motivo é que ao rodar esse modelo de mundo infinito por um período prolongado,
00:05:38a quantidade de memória que o modelo precisa armazenar sobre as cenas vai ficando cada vez maior,
00:05:44até o ponto em que ocorre um erro de falta de memória porque simplesmente
00:05:49acabou a memória RAM.
00:05:50Mas consegui rodar com sucesso a demonstração em uma configuração de 8 GPUs ao baixar
00:05:55o tamanho da amostra de 70 (padrão) para apenas 20.
00:05:59E honestamente, a diferença entre 70 e 20 amostras não foi tão perceptível.
00:06:03Mas isso só mostra quão absurdamente caro, em termos computacionais, rodar esse modelo
00:06:09de mundo infinito se torna.
00:06:10Voltando ao Genie 3, é exatamente por isso que eles só permitem o acesso para membros ultra,
00:06:16porque precisam de alguma forma recuperar os custos de GPU para rodar esse negócio.
00:06:21E é também por isso que você só ganha alguns segundos de demonstração, porque em certo
00:06:27ponto a memória infla tanto que o sistema inteiro acaba colapsando.
00:06:32Para se ter uma ideia de quão insanamente caro seria rodar um modelo desses em hardware
00:06:37de nível doméstico, uma única RTX 1590 custa até US$ 5.000.
00:06:43Agora pegue 8 dessas, que é o mínimo necessário para rodar isso.
00:06:48Cara, até falar isso em voz alta soa ridículo.
00:06:51Mas enfim, 8 dessas custariam cerca de US$ 40.000, sem falar nas outras peças
00:06:57e na memória RAM, que também está com o preço explodindo agora.
00:07:01Levando isso em conta, esse valor, somado ao limite máximo de 60 segundos por rodada
00:07:06que o Genie impõe, mais o problema da memória RAM, são exatamente os
00:07:12motivos pelos quais toda essa coisa de modelo de mundo infinito é só hype e não é nada
00:07:18viável em hardware comum com a arquitetura que temos hoje.
00:07:24E até os autores de ambas as ferramentas admitem esses problemas.
00:07:28O alto custo de inferência atualmente exige GPUs de nível empresarial, tornando a tecnologia
00:07:34inacessível em hardware de consumidor final.
00:07:37A simulação carece de estabilidade a longo prazo.
00:07:39Isso geralmente leva a um "desvio ambiental", onde a cena perde gradualmente sua integridade
00:07:44estrutural durante durações estendidas.
00:07:46Exatamente.
00:07:48E pelo menos a equipe do LinkBot está sendo aberta sobre isso.
00:07:51Vejamos o que a Google tem a dizer.
00:07:53O modelo pode suportar alguns minutos de interação contínua, em vez de horas seguidas.
00:07:59Digo, eles não admitem abertamente, mas a essa altura todos sabemos o porquê.
00:08:04Por isso eu digo a vocês: os videogames tradicionais não vão desaparecer tão cedo.
00:08:09Isso parece um sonho distante agora e, talvez, se no futuro descobrirem como
00:08:15resolver esses problemas computacionais, poderemos começar a pensar nisso.
00:08:20Mas agora, fala sério, né?
00:08:23Também estou super curioso para testar o LinkBot Fast quando ele finalmente chegar.
00:08:27Mas até lá, não acho que essa tecnologia vá se tornar popular tão cedo.
00:08:32Mas se você estiver curioso para testar o LinkBot World por si mesmo, aqui vai meu conselho.
00:08:37Não faça o que eu fiz.
00:08:38Não tente juntar oito RTX 1590s, porque uma configuração dessas em uma plataforma como RunPod
00:08:45vai drenar US$ 7 por hora de uso.
00:08:48Em vez disso, inicie um container simples de H200, que custa apenas US$ 3,50 por hora, defina a
00:08:55flag "nproc/node" para 1, reduza a contagem de amostras para 50 ou 20 e você
00:09:01estará pronto.
00:09:02Você também pode usar a versão quantizada em 4 bits deste modelo, criada pelo usuário Caelan Humphries,
00:09:08que reduz significativamente o consumo de memória da GPU, mantendo uma qualidade visual
00:09:13comparável para inferência.
00:09:15Assim, tecnicamente, você poderia tentar rodar em uma única RTX 1590.
00:09:19E se fizer isso, me conte como foi.
00:09:21Quanto a mim, rodei a demonstração básica em um container H200 e, sim, basicamente obtive o
00:09:28mesmo resultado da página de demonstração deles.
00:09:30Depois, gerei uma imagem por IA desse Viking lutando contra Loki e alimentei o
00:09:36mesmo comando com essa imagem.
00:09:37E este foi o resultado que obtive.
00:09:39Acho que dá para ver como o modelo mantém a integridade do ambiente e do castelo
00:09:44ao longo do vídeo, mas ele ainda gera alguns artefatos estranhos.
00:09:48Sinceramente, não sei bem o que pensar disso.
00:09:52Tenho certeza de que conseguiria gerar um vídeo de gameplay melhor usando um fluxo padrão do ComfyUI —
00:09:59aliás, se você tiver interesse em aprender a criar seu próprio gerador de vídeo estilo Sora
00:10:04sem o custo pesado de processamento, confira este vídeo que fiz há um tempo sobre o assunto.
00:10:09Então é isso, pessoal, essa é a minha opinião sobre o Genie 3, todo esse hype e o futuro
00:10:15dos videogames.
00:10:16Eu realmente agradeço à equipe por trás do Lingbot por abrir o código de seus modelos para que possamos
00:10:20entender melhor como um modelo tipo o Genie funciona.
00:10:25Mas essa é apenas a minha visão sobre o tema.
00:10:27O mais importante: o que você acha desses modelos de mundo infinito?
00:10:30Estou curioso para saber sua opinião, então deixe seus pensamentos na seção de comentários
00:10:35logo abaixo.
00:10:36E pessoal, se acharam este vídeo útil, deixem o seu "curtir" clicando no botão abaixo
00:10:40do vídeo.
00:10:41E também não se esqueçam de se inscrever no canal para mais vídeos como este.
00:10:45Aqui é o Andris da Better Stack e vejo vocês nos próximos vídeos.
00:11:00(música animada)

Key Takeaway

Embora os modelos de mundo infinito como o Genie 3 e o Lingbot World sejam tecnologicamente impressionantes, seus custos computacionais proibitivos e limitações de memória impedem que substituam os videogames tradicionais no futuro próximo.

Highlights

O Google Genie 3 promete simular ambientes de videogame interativos

Timeline

A Chegada dos Modelos de Mundo Infinito

O vídeo começa discutindo o lançamento do Genie 3 pelo Google, um modelo capaz de simular ambientes interativos semelhantes a videogames. Este anúncio causou uma queda nas ações de empresas de games, gerando temor sobre o futuro da indústria tradicional. Logo em seguida, a empresa chinesa Robiont revelou o Lingbot World, um concorrente de código aberto com visuais potencialmente superiores. O narrador estabelece o cenário de uma nova corrida tecnológica para substituir motores de jogo convencionais por IA. No entanto, ele introduz uma perspectiva cética, sugerindo que o entusiasmo atual pode ser um hype exagerado sem base prática imediata.

Barreiras de Acesso e o Plano Ultra do Google

Nesta seção, o autor relata sua frustração ao tentar testar o Genie 3 a partir do Canadá, encontrando bloqueios geográficos e erros de página. Ele explica que o acesso é restrito aos Estados Unidos e exige a assinatura do caro plano Ultra do Google. Essa dificuldade de acesso levanta questões sobre a viabilidade comercial e a escalabilidade da ferramenta para o público geral. O narrador utiliza uma VPN para contornar a restrição geográfica, mas esbarra novamente no muro de pagamento (paywall). Esta barreira financeira é um indicativo precoce dos altos custos operacionais que a Google enfrenta para manter o processamento do modelo.

Análise Técnica do Lingbot World e Código Aberto

O foco muda para o Lingbot World, uma alternativa de código aberto ligada ao grupo Alibaba que permite uma inspeção mais profunda da tecnologia. Embora as demonstrações mostrem navegação livre, a versão atual disponível é o modelo base de 14 bilhões de parâmetros, que ainda carece de controle total em tempo real. O diferencial técnico reside no uso de dados intrínsecos de câmera e poses de 6 graus de liberdade para mapear pixels no espaço 3D. Isso cria a chamada "permanência de objeto", garantindo que o ambiente seja consistente mesmo quando a câmera se move. Diferente de geradores de vídeo comuns que apenas preveem pixels, este modelo mantém uma estrutura geométrica lógica da cena.

O Pesadelo do Hardware e Consumo de Memória

O autor detalha seus testes práticos tentando rodar o Lingbot World em múltiplas GPUs RTX 1590, enfrentando falhas consecutivas de memória. Mesmo utilizando uma configuração com oito GPUs de alto desempenho, o sistema travou devido à imensa quantidade de dados que a IA precisa armazenar sobre a cena. Ele explica que a memória RAM necessária cresce exponencialmente à medida que a simulação progride, levando ao colapso do sistema. Para conseguir rodar a demonstração, foi necessário reduzir drasticamente o tamanho das amostras de processamento. Esse experimento demonstra por que o Google impõe limites rígidos de tempo nas interações do Genie 3.

Custos Proibitivos e o Futuro dos Videogames

Esta parte aborda os custos financeiros absurdos, estimando que um hardware capaz de rodar esses modelos em casa custaria cerca de US$ 40.000. O autor cita documentos dos próprios desenvolvedores que admitem a falta de estabilidade a longo prazo e o fenômeno do "desvio ambiental". Por essas razões, ele afirma categoricamente que os videogames tradicionais não desaparecerão tão cedo, pois a arquitetura atual de hardware não suporta tal carga. A tecnologia é descrita como um sonho distante que ainda precisa superar obstáculos de engenharia fundamentais. O hype é confrontado com a realidade econômica de que ninguém pagaria fortunas para jogar simulações instáveis de poucos minutos.

Dicas Práticas de Implementação e Conclusão

O vídeo encerra com conselhos para entusiastas que desejam testar o Lingbot World sem gastar fortunas, sugerindo o uso de instâncias de GPU H200 em nuvem. O autor também menciona uma versão quantizada em 4 bits criada pela comunidade, que permite rodar o modelo com menor consumo de memória. Ele demonstra resultados próprios gerados a partir de imagens de IA, notando que, embora a integridade ambiental seja boa, ainda surgem artefatos visuais estranhos. Por fim, ele compara a tecnologia com fluxos de trabalho do ComfyUI, sugerindo que existem métodos mais eficientes para gerar vídeos hoje. O narrador agradece aos desenvolvedores pelo código aberto e convida o público a debater o futuro desses modelos nos comentários.

Community Posts

View all posts