Genie 3 de Google: El hype de la IA merece un análisis profundo

BBetter Stack
컴퓨터/소프트웨어게임/e스포츠주식 투자가전제품/카메라

Transcript

00:00:00La semana pasada, Google presentó Genie 3, su modelo insignia de mundos infinitos, donde puedes
00:00:05simular un entorno e interactuar con él como en un videojuego de verdad.
00:00:10De repente, todas las acciones de empresas de videojuegos se desplomaron por el temor a que esto fuera
00:00:16el principio del fin de la industria de los videojuegos.
00:00:20Y entonces ocurrió algo aún más interesante.
00:00:22Una empresa tecnológica china llamada Robiant lanzó su propio competidor de código abierto de Genie, que
00:00:28parece tener incluso mejores gráficos que su homólogo de Google.
00:00:32Y ahora, de pronto, se han abierto las compuertas en la carrera por determinar qué empresa
00:00:37será la primera en sustituir los videojuegos tradicionales por esta nueva tecnología de juego.
00:00:43Pero mientras todo el mundo se entusiasma con esta nueva moda de los mundos infinitos, estoy aquí para decirles que
00:00:49esto podría ser solo una promesa exagerada sin contenido real.
00:00:54¿Por qué estoy tan seguro de ello?
00:00:55Bueno, de eso es de lo que vamos a hablar en el video de hoy.
00:01:02En cuanto salió Genie 3, corrí al sitio para probarlo yo mismo.
00:01:07Pero en cuanto hice clic en el botón de explorar, me topé con un decepcionante error 404.
00:01:14Y eso es porque vivo en Canadá.
00:01:16Y, por el momento, Google solo ha permitido a los ciudadanos de Estados Unidos probar
00:01:20esta maravilla tecnológica de vanguardia.
00:01:23Así que, obviamente, encendí mi VPN e intenté de nuevo desde una ubicación en EE. UU.
00:01:27Y esta vez me encontré con otro rechazo decepcionante, indicando que necesito ser
00:01:33miembro del Plan Ultra para acceder a este software revolucionario.
00:01:37Y si se preguntan cuánto cuesta el Plan Ultra, bueno, digamos que es un poco más de
00:01:41lo que me sentiría cómodo pagando solo por probar esta herramienta de IA sobrevalorada.
00:01:46Pero esto plantea la pregunta: ¿por qué es tan difícil ponerle las manos encima a Genie 3?
00:01:51Y la respuesta a esta pregunta será muy importante para nuestra historia, pero volveré a
00:01:56eso más adelante en este video.
00:01:57Así que, aunque no tuve suerte ni fondos disponibles para probar Genie 3, mientras tanto, por suerte,
00:02:04al otro lado del globo, una empresa china llamada Robiont, que parece ser
00:02:09una subsidiaria de Ant Group, que a su vez es una filial de Alibaba Group, que
00:02:15resulta ser la misma empresa dueña de Quen, lanzó su propio modelo de mundo infinito
00:02:20llamado Lingbot World, que sorprendentemente es de código abierto.
00:02:25Eso significa que realmente podemos probarlo y ver de qué es capaz.
00:02:29Y mirando sus ejemplos, se veía absolutamente impresionante.
00:02:32Pero una vez que empecé a inspeccionar la página del proyecto, me llevé otra gran decepción.
00:02:38Aunque su página está llena de videos de ejemplo donde puedes caminar libremente por
00:02:43el espacio con las flechas del teclado, en realidad, esta versión del modelo que incluye controles
00:02:48completos del personaje todavía está en desarrollo.
00:02:51Tienen planeado lanzar Lingbot fast, que sería un equivalente total a Genie 3, pero
00:02:56aún no sabemos cuándo llegará.
00:02:57Por el momento, tenemos acceso a su modelo base de 14 mil millones de parámetros, que ofrece
00:03:03citando textualmente: “simulaciones de alta fidelidad, controlables y lógicamente consistentes”.
00:03:08Pero básicamente, lo único que este modelo es capaz de hacer por ahora es generar un video.
00:03:14Sí, solo un video.
00:03:16Así que estaba un poco confundido, ¿dónde entra el factor de control?
00:03:20Bueno, tienen la opción de proporcionar tus propios valores intrínsecos de posición de cámara, así que
00:03:25puedes, en cierto sentido, controlar el movimiento de la cámara, lo cual supongo que ofrece una alternativa
00:03:31a la navegación con las flechas, pero tendrías que grabarlo previamente.
00:03:35¿En qué se diferencia esto de cualquier otro generador de video que también ofrezca
00:03:40la capacidad de controlar los movimientos de cámara?
00:03:41Bueno, aquí está la distinción clave.
00:03:44En un generador de video por IA normal, el modelo intenta predecir siempre el siguiente fotograma
00:03:50a medida que el video de referencia avanza, y hemos visto en muchos videos de memes de internet
00:03:55lo terriblemente mal que sale esto si el video continúa, y eso es porque el modelo no retiene
00:04:00información sobre lo que sucede fuera del encuadre.
00:04:04Así que si una cámara se aleja del objeto y luego vuelve, es posible que el objeto ya no esté
00:04:09porque toda la escena se genera sobre la marcha.
00:04:13Aquí es donde entra en juego el cerebro geométrico de 14 mil millones de parámetros del modelo Lingbot World.
00:04:19A diferencia de un generador de video estándar que simplemente adivina el siguiente conjunto de píxeles, Lingbot World
00:04:24utiliza datos intrínsecos de cámara y poses de 6 grados de libertad para asignar cada píxel a un
00:04:31punto específico en el espacio 3D.
00:04:33Crea lo que los investigadores llaman “permanencia del objeto” porque comprende la relación matemática
00:04:39entre la lente de la cámara y el entorno.
00:04:42Así que básicamente recuerda que un objeto específico existe en coordenadas específicas.
00:04:47Y esta integridad estructural es la razón por la que este modelo es tan enorme y consume tantos recursos.
00:04:52¿Cuántos?
00:04:53Vaya, déjenme decirles.
00:04:55Intenté desplegar el modelo Lingbot World en una instancia con una sola GPU RTX 1590 y
00:05:02traté de ejecutar la demo de muestra básica que proporcionaron, y simplemente falló de inmediato.
00:05:07Fue un poco ingenuo de mi parte pensar que una sola 1590 podría manejar esa carga.
00:05:13Luego intenté ejecutarlo con dos 1590 y no, todavía fallaba.
00:05:18Luego lo intenté con 4 1590 y, una vez más, seguía fallando.
00:05:23Después inicié un contenedor con 8 RTX 1590 e intenté ejecutar el ejemplo básico de la demo y
00:05:31siguió fallando.
00:05:32Verán, la razón es que al ejecutar este modelo de mundo infinito durante un periodo prolongado,
00:05:38la cantidad de memoria que el modelo debe almacenar sobre las escenas sigue creciendo y creciendo
00:05:44hasta un punto en el que simplemente obtendrás un error de memoria insuficiente porque te quedaste
00:05:49sin RAM.
00:05:50Pero logré ejecutar con éxito la demo de muestra en una configuración de 8 GPU al reducir
00:05:55el tamaño de la muestra de los 70 por defecto a solo 20.
00:05:59Y sinceramente, la diferencia entre 70 y 20 muestras no era tan perceptible.
00:06:03Pero esto solo demuestra lo increíblemente costoso que se vuelve, computacionalmente hablando,
00:06:09ejecutar este modelo de mundo infinito.
00:06:10Y volviendo a Genie 3, esta es exactamente la razón por la que solo permiten el acceso a miembros ultra,
00:06:16porque necesitan recuperar de alguna manera los costos de GPU de ejecutar esta cosa.
00:06:21Y también es por eso que solo te dan unos pocos segundos por demo, porque en algún
00:06:27punto la memoria se infla tanto que todo el sistema acaba colapsando.
00:06:32Y para que se den una idea de lo increíblemente caro que sería ejecutar un modelo así en hardware
00:06:37de consumo, una sola RTX 1590 cuesta hasta $5,000.
00:06:43Ahora tomen 8 de esas, que es el mínimo requerido para ejecutar esto.
00:06:48Hombre, incluso decirlo en voz alta suena ridículo.
00:06:51Pero bueno, 8 de esas te costarán hasta $40,000, sin mencionar el resto de componentes
00:06:57y la RAM, que también está subiendo de precio una barbaridad ahora mismo.
00:07:01Y cuando tienes eso en cuenta, esta cifra, más el límite máximo de ejecución de 60 segundos con
00:07:06el que Genie está limitando sus pruebas, más el problema del exceso de memoria RAM, son exactamente las
00:07:12razones por las que todo esto del modelo de mundo infinito es puro humo y no es realmente viable
00:07:18en hardware de consumo con la arquitectura actual que tenemos.
00:07:24E incluso los autores de ambas herramientas están admitiendo estos problemas.
00:07:28El alto costo de inferencia requiere actualmente GPUs de nivel empresarial, lo que hace que la
00:07:34tecnología sea inaccesible en hardware de consumo.
00:07:37La simulación carece de estabilidad a largo plazo.
00:07:39Esto a menudo conduce a una deriva ambiental donde la escena pierde gradualmente su integridad
00:07:44estructural durante periodos prolongados.
00:07:46Exactamente.
00:07:48Y al menos el equipo de LinkBot está siendo abierto al respecto.
00:07:51Veamos qué tiene que decir Google sobre esto.
00:07:53El modelo puede soportar unos pocos minutos de interacción continua en lugar de horas extendidas.
00:07:59O sea, no lo admiten abiertamente, pero a estas alturas todos sabemos por qué es así.
00:08:04Por eso les digo, amigos, los videojuegos tradicionales no van a desaparecer pronto.
00:08:09Esto parece un sueño imposible ahora mismo y quizás, solo quizás, en el futuro, si logran
00:08:15resolver estos problemas de computación, podríamos empezar a considerar esto.
00:08:20Pero ahora mismo, por favor, seamos realistas.
00:08:23También tengo mucha curiosidad por probar LinkBot fast cuando finalmente llegue.
00:08:27Pero hasta entonces, no creo que esta tecnología se vuelva popular pronto.
00:08:32Pero si tienes curiosidad por probar LinkBot world por tu cuenta, este es mi consejo.
00:08:37No hagas lo mismo que yo.
00:08:38No juntes ocho RTX 1590 porque una configuración así en una plataforma como RunPod
00:08:45te consumirá $7 cada hora de funcionamiento.
00:08:48En su lugar, inicia un contenedor H200 simple, que solo cuesta $3.50 por hora, y establece
00:08:55el parámetro “nproc/node” en 1 y quizás baja el número de muestras a 50 o incluso 20 y
00:09:01con eso estarás listo.
00:09:02También podrías usar la versión cuantizada de 4 bits de este modelo, creada por el usuario Caelan Humphries,
00:09:08que reduce significativamente el consumo de memoria GPU manteniendo una calidad visual
00:09:13comparable para la inferencia.
00:09:15Así que, técnicamente, podrías intentar ejecutar eso en una sola RTX 1590.
00:09:19Y si lo haces, cuéntame qué tal te va.
00:09:21En cuanto a mí, ejecuté la demo básica en un contenedor H200 y, bueno, básicamente obtuve el
00:09:28mismo resultado que en su página de demostración.
00:09:30Luego generé una imagen por IA de este vikingo luchando contra Loki y pasé esta imagen por
00:09:36el mismo comando.
00:09:37Y este es el resultado que obtuve.
00:09:39Supongo que pueden ver cómo el modelo mantiene la integridad del entorno y del castillo
00:09:44durante todo el video, pero todavía genera algunos artefactos extraños.
00:09:48Sinceramente, no sé qué pensar al respecto, para ser franco.
00:09:52Estoy seguro de que podría generar un mejor video de gameplay usando un flujo estándar de Comfy UI, el cual,
00:09:59por cierto, si les interesa aprender a hacer su propio generador de video como Sora
00:10:04sin el alto costo computacional, miren el video que hice hace poco sobre ese tema.
00:10:09Así que ahí lo tienen, amigos, esa es mi opinión sobre Genie 3, todo el bombo publicitario y el futuro
00:10:15de los videojuegos.
00:10:16Realmente agradezco al equipo detrás de Lingbot por liberar sus modelos como código abierto para que podamos
00:10:20entender mejor cómo funciona un modelo tipo Genie.
00:10:25Pero esa es solo mi humilde opinión sobre el tema.
00:10:27Más importante aún, ¿qué piensan ustedes sobre estos modelos de mundos infinitos?
00:10:30Tengo curiosidad por saber qué opinan, así que dejen sus comentarios aquí
00:10:35abajo.
00:10:36Y amigos, si este video les resultó útil, háganmelo saber dándole al botón de me gusta que está debajo
00:10:40del video.
00:10:41Y tampoco olviden suscribirse a nuestro canal para más videos como este.
00:10:45Soy Andris de Better Stack y los veré en los próximos videos.
00:11:00(música animada)

Key Takeaway

Aunque Genie 3 y Lingbot World representan un avance asombroso en IA generativa, sus altísimos costos computacionales y problemas de memoria impiden que sustituyan a los videojuegos tradicionales en el corto plazo.

Highlights

Google presentó Genie 3

Timeline

Introducción y la amenaza a la industria del videojuego

El video comienza analizando el impacto del anuncio de Google sobre Genie 3 y cómo esto provocó el desplome de acciones en empresas de videojuegos. El narrador introduce a Lingbot World, un competidor chino de código abierto que parece superar visualmente a la propuesta de Google. Se plantea la gran pregunta de si estamos ante el fin de los videojuegos tradicionales o si es solo una promesa exagerada. Este segmento es crucial porque establece la tensión competitiva entre las grandes tecnológicas y el escepticismo del analista. El autor advierte que, a pesar del entusiasmo general, existen razones de peso para dudar de la viabilidad inmediata de esta tecnología.

Barreras de acceso y el misterio del Plan Ultra

El autor relata su frustrante experiencia intentando probar Genie 3 desde Canadá, encontrándose con bloqueos regionales y errores 404. Tras usar una VPN, descubre que Google requiere una suscripción al Plan Ultra, cuyo costo es considerablemente alto para una prueba. Esta sección destaca la opacidad de Google y cómo las barreras económicas ocultan la ineficiencia técnica del modelo. El narrador sugiere que estos obstáculos no son arbitrarios, sino que responden a la necesidad de mitigar los inmensos gastos operativos. Se establece así una conexión directa entre la exclusividad del servicio y la dificultad técnica de su ejecución.

Lingbot World: La alternativa de código abierto y geometría 3D

Se explora a fondo Lingbot World, una herramienta de la empresa Robiont vinculada a Alibaba que ofrece un modelo base de 14 mil millones de parámetros. A diferencia de los generadores de video estándar que solo predicen píxeles, este modelo utiliza datos de cámara y poses de 6 grados de libertad. El concepto fundamental aquí es la "permanencia del objeto", lo que permite que la IA entienda coordenadas espaciales reales y mantenga la coherencia visual. El autor explica que, aunque la versión con controles totales sigue en desarrollo, el modelo actual ya demuestra una integridad estructural superior. Este análisis técnico justifica por qué estos modelos requieren una potencia de cálculo tan desproporcionada en comparación con la IA convencional.

El muro del hardware: 8 GPUs y errores de memoria

El narrador detalla su intento de ejecutar Lingbot World utilizando múltiples tarjetas gráficas RTX 1590, fallando sistemáticamente por falta de memoria RAM. Solo tras configurar un sistema con 8 GPUs y reducir las muestras de 70 a 20 logró una ejecución exitosa de apenas unos segundos. El costo de una configuración mínima para hacer funcionar este software asciende a unos 40,000 dólares, lo que lo vuelve inaccesible para el usuario común. Este segmento desmiente la idea de que la IA reemplazará a las consolas actuales en el futuro cercano debido a esta brecha económica. Se concluye que la arquitectura actual de hardware no está preparada para la carga masiva que exigen los mundos infinitos.

Limitaciones admitidas y la realidad de la simulación

Tanto los creadores de Lingbot como Google admiten discretamente que sus modelos no pueden mantener simulaciones estables durante periodos prolongados. Aparece el fenómeno de la "deriva ambiental", donde la escena pierde su estructura y lógica tras unos minutos de interacción. Google limita sus demostraciones a 60 segundos precisamente para evitar el colapso del sistema por el inflado de la memoria. El autor refuerza su tesis de que los videojuegos tradicionales, basados en motores lógicos, siguen siendo muy superiores en estabilidad. Esta sección sirve para validar las críticas del narrador mediante las propias advertencias de los desarrolladores tecnológicos.

Guía práctica de ejecución y conclusiones finales

Para los entusiastas que deseen probar la tecnología, el autor recomienda usar instancias de H200 o versiones cuantizadas de 4 bits para ahorrar costos y memoria. Muestra un ejemplo propio de un vikingo generado por IA donde se aprecia la retención del entorno, aunque todavía con artefactos visuales notorios. El video cierra sugiriendo que existen métodos más eficientes, como flujos en Comfy UI, para generar videos de alta calidad sin tanto desperdicio de recursos. El narrador agradece el código abierto de Lingbot por permitir este análisis profundo de la realidad técnica tras el marketing. Finalmente, invita a la audiencia a compartir su opinión sobre si este futuro de mundos infinitos es realmente deseable o posible.

Community Posts

View all posts