00:00:00La semana pasada, Google presentó Genie 3, su modelo insignia de mundos infinitos, donde puedes
00:00:05simular un entorno e interactuar con él como en un videojuego de verdad.
00:00:10De repente, todas las acciones de empresas de videojuegos se desplomaron por el temor a que esto fuera
00:00:16el principio del fin de la industria de los videojuegos.
00:00:20Y entonces ocurrió algo aún más interesante.
00:00:22Una empresa tecnológica china llamada Robiant lanzó su propio competidor de código abierto de Genie, que
00:00:28parece tener incluso mejores gráficos que su homólogo de Google.
00:00:32Y ahora, de pronto, se han abierto las compuertas en la carrera por determinar qué empresa
00:00:37será la primera en sustituir los videojuegos tradicionales por esta nueva tecnología de juego.
00:00:43Pero mientras todo el mundo se entusiasma con esta nueva moda de los mundos infinitos, estoy aquí para decirles que
00:00:49esto podría ser solo una promesa exagerada sin contenido real.
00:00:54¿Por qué estoy tan seguro de ello?
00:00:55Bueno, de eso es de lo que vamos a hablar en el video de hoy.
00:01:02En cuanto salió Genie 3, corrí al sitio para probarlo yo mismo.
00:01:07Pero en cuanto hice clic en el botón de explorar, me topé con un decepcionante error 404.
00:01:14Y eso es porque vivo en Canadá.
00:01:16Y, por el momento, Google solo ha permitido a los ciudadanos de Estados Unidos probar
00:01:20esta maravilla tecnológica de vanguardia.
00:01:23Así que, obviamente, encendí mi VPN e intenté de nuevo desde una ubicación en EE. UU.
00:01:27Y esta vez me encontré con otro rechazo decepcionante, indicando que necesito ser
00:01:33miembro del Plan Ultra para acceder a este software revolucionario.
00:01:37Y si se preguntan cuánto cuesta el Plan Ultra, bueno, digamos que es un poco más de
00:01:41lo que me sentiría cómodo pagando solo por probar esta herramienta de IA sobrevalorada.
00:01:46Pero esto plantea la pregunta: ¿por qué es tan difícil ponerle las manos encima a Genie 3?
00:01:51Y la respuesta a esta pregunta será muy importante para nuestra historia, pero volveré a
00:01:56eso más adelante en este video.
00:01:57Así que, aunque no tuve suerte ni fondos disponibles para probar Genie 3, mientras tanto, por suerte,
00:02:04al otro lado del globo, una empresa china llamada Robiont, que parece ser
00:02:09una subsidiaria de Ant Group, que a su vez es una filial de Alibaba Group, que
00:02:15resulta ser la misma empresa dueña de Quen, lanzó su propio modelo de mundo infinito
00:02:20llamado Lingbot World, que sorprendentemente es de código abierto.
00:02:25Eso significa que realmente podemos probarlo y ver de qué es capaz.
00:02:29Y mirando sus ejemplos, se veía absolutamente impresionante.
00:02:32Pero una vez que empecé a inspeccionar la página del proyecto, me llevé otra gran decepción.
00:02:38Aunque su página está llena de videos de ejemplo donde puedes caminar libremente por
00:02:43el espacio con las flechas del teclado, en realidad, esta versión del modelo que incluye controles
00:02:48completos del personaje todavía está en desarrollo.
00:02:51Tienen planeado lanzar Lingbot fast, que sería un equivalente total a Genie 3, pero
00:02:56aún no sabemos cuándo llegará.
00:02:57Por el momento, tenemos acceso a su modelo base de 14 mil millones de parámetros, que ofrece
00:03:03citando textualmente: “simulaciones de alta fidelidad, controlables y lógicamente consistentes”.
00:03:08Pero básicamente, lo único que este modelo es capaz de hacer por ahora es generar un video.
00:03:14Sí, solo un video.
00:03:16Así que estaba un poco confundido, ¿dónde entra el factor de control?
00:03:20Bueno, tienen la opción de proporcionar tus propios valores intrínsecos de posición de cámara, así que
00:03:25puedes, en cierto sentido, controlar el movimiento de la cámara, lo cual supongo que ofrece una alternativa
00:03:31a la navegación con las flechas, pero tendrías que grabarlo previamente.
00:03:35¿En qué se diferencia esto de cualquier otro generador de video que también ofrezca
00:03:40la capacidad de controlar los movimientos de cámara?
00:03:41Bueno, aquí está la distinción clave.
00:03:44En un generador de video por IA normal, el modelo intenta predecir siempre el siguiente fotograma
00:03:50a medida que el video de referencia avanza, y hemos visto en muchos videos de memes de internet
00:03:55lo terriblemente mal que sale esto si el video continúa, y eso es porque el modelo no retiene
00:04:00información sobre lo que sucede fuera del encuadre.
00:04:04Así que si una cámara se aleja del objeto y luego vuelve, es posible que el objeto ya no esté
00:04:09porque toda la escena se genera sobre la marcha.
00:04:13Aquí es donde entra en juego el cerebro geométrico de 14 mil millones de parámetros del modelo Lingbot World.
00:04:19A diferencia de un generador de video estándar que simplemente adivina el siguiente conjunto de píxeles, Lingbot World
00:04:24utiliza datos intrínsecos de cámara y poses de 6 grados de libertad para asignar cada píxel a un
00:04:31punto específico en el espacio 3D.
00:04:33Crea lo que los investigadores llaman “permanencia del objeto” porque comprende la relación matemática
00:04:39entre la lente de la cámara y el entorno.
00:04:42Así que básicamente recuerda que un objeto específico existe en coordenadas específicas.
00:04:47Y esta integridad estructural es la razón por la que este modelo es tan enorme y consume tantos recursos.
00:04:52¿Cuántos?
00:04:53Vaya, déjenme decirles.
00:04:55Intenté desplegar el modelo Lingbot World en una instancia con una sola GPU RTX 1590 y
00:05:02traté de ejecutar la demo de muestra básica que proporcionaron, y simplemente falló de inmediato.
00:05:07Fue un poco ingenuo de mi parte pensar que una sola 1590 podría manejar esa carga.
00:05:13Luego intenté ejecutarlo con dos 1590 y no, todavía fallaba.
00:05:18Luego lo intenté con 4 1590 y, una vez más, seguía fallando.
00:05:23Después inicié un contenedor con 8 RTX 1590 e intenté ejecutar el ejemplo básico de la demo y
00:05:31siguió fallando.
00:05:32Verán, la razón es que al ejecutar este modelo de mundo infinito durante un periodo prolongado,
00:05:38la cantidad de memoria que el modelo debe almacenar sobre las escenas sigue creciendo y creciendo
00:05:44hasta un punto en el que simplemente obtendrás un error de memoria insuficiente porque te quedaste
00:05:49sin RAM.
00:05:50Pero logré ejecutar con éxito la demo de muestra en una configuración de 8 GPU al reducir
00:05:55el tamaño de la muestra de los 70 por defecto a solo 20.
00:05:59Y sinceramente, la diferencia entre 70 y 20 muestras no era tan perceptible.
00:06:03Pero esto solo demuestra lo increíblemente costoso que se vuelve, computacionalmente hablando,
00:06:09ejecutar este modelo de mundo infinito.
00:06:10Y volviendo a Genie 3, esta es exactamente la razón por la que solo permiten el acceso a miembros ultra,
00:06:16porque necesitan recuperar de alguna manera los costos de GPU de ejecutar esta cosa.
00:06:21Y también es por eso que solo te dan unos pocos segundos por demo, porque en algún
00:06:27punto la memoria se infla tanto que todo el sistema acaba colapsando.
00:06:32Y para que se den una idea de lo increíblemente caro que sería ejecutar un modelo así en hardware
00:06:37de consumo, una sola RTX 1590 cuesta hasta $5,000.
00:06:43Ahora tomen 8 de esas, que es el mínimo requerido para ejecutar esto.
00:06:48Hombre, incluso decirlo en voz alta suena ridículo.
00:06:51Pero bueno, 8 de esas te costarán hasta $40,000, sin mencionar el resto de componentes
00:06:57y la RAM, que también está subiendo de precio una barbaridad ahora mismo.
00:07:01Y cuando tienes eso en cuenta, esta cifra, más el límite máximo de ejecución de 60 segundos con
00:07:06el que Genie está limitando sus pruebas, más el problema del exceso de memoria RAM, son exactamente las
00:07:12razones por las que todo esto del modelo de mundo infinito es puro humo y no es realmente viable
00:07:18en hardware de consumo con la arquitectura actual que tenemos.
00:07:24E incluso los autores de ambas herramientas están admitiendo estos problemas.
00:07:28El alto costo de inferencia requiere actualmente GPUs de nivel empresarial, lo que hace que la
00:07:34tecnología sea inaccesible en hardware de consumo.
00:07:37La simulación carece de estabilidad a largo plazo.
00:07:39Esto a menudo conduce a una deriva ambiental donde la escena pierde gradualmente su integridad
00:07:44estructural durante periodos prolongados.
00:07:46Exactamente.
00:07:48Y al menos el equipo de LinkBot está siendo abierto al respecto.
00:07:51Veamos qué tiene que decir Google sobre esto.
00:07:53El modelo puede soportar unos pocos minutos de interacción continua en lugar de horas extendidas.
00:07:59O sea, no lo admiten abiertamente, pero a estas alturas todos sabemos por qué es así.
00:08:04Por eso les digo, amigos, los videojuegos tradicionales no van a desaparecer pronto.
00:08:09Esto parece un sueño imposible ahora mismo y quizás, solo quizás, en el futuro, si logran
00:08:15resolver estos problemas de computación, podríamos empezar a considerar esto.
00:08:20Pero ahora mismo, por favor, seamos realistas.
00:08:23También tengo mucha curiosidad por probar LinkBot fast cuando finalmente llegue.
00:08:27Pero hasta entonces, no creo que esta tecnología se vuelva popular pronto.
00:08:32Pero si tienes curiosidad por probar LinkBot world por tu cuenta, este es mi consejo.
00:08:37No hagas lo mismo que yo.
00:08:38No juntes ocho RTX 1590 porque una configuración así en una plataforma como RunPod
00:08:45te consumirá $7 cada hora de funcionamiento.
00:08:48En su lugar, inicia un contenedor H200 simple, que solo cuesta $3.50 por hora, y establece
00:08:55el parámetro “nproc/node” en 1 y quizás baja el número de muestras a 50 o incluso 20 y
00:09:01con eso estarás listo.
00:09:02También podrías usar la versión cuantizada de 4 bits de este modelo, creada por el usuario Caelan Humphries,
00:09:08que reduce significativamente el consumo de memoria GPU manteniendo una calidad visual
00:09:13comparable para la inferencia.
00:09:15Así que, técnicamente, podrías intentar ejecutar eso en una sola RTX 1590.
00:09:19Y si lo haces, cuéntame qué tal te va.
00:09:21En cuanto a mí, ejecuté la demo básica en un contenedor H200 y, bueno, básicamente obtuve el
00:09:28mismo resultado que en su página de demostración.
00:09:30Luego generé una imagen por IA de este vikingo luchando contra Loki y pasé esta imagen por
00:09:36el mismo comando.
00:09:37Y este es el resultado que obtuve.
00:09:39Supongo que pueden ver cómo el modelo mantiene la integridad del entorno y del castillo
00:09:44durante todo el video, pero todavía genera algunos artefactos extraños.
00:09:48Sinceramente, no sé qué pensar al respecto, para ser franco.
00:09:52Estoy seguro de que podría generar un mejor video de gameplay usando un flujo estándar de Comfy UI, el cual,
00:09:59por cierto, si les interesa aprender a hacer su propio generador de video como Sora
00:10:04sin el alto costo computacional, miren el video que hice hace poco sobre ese tema.
00:10:09Así que ahí lo tienen, amigos, esa es mi opinión sobre Genie 3, todo el bombo publicitario y el futuro
00:10:15de los videojuegos.
00:10:16Realmente agradezco al equipo detrás de Lingbot por liberar sus modelos como código abierto para que podamos
00:10:20entender mejor cómo funciona un modelo tipo Genie.
00:10:25Pero esa es solo mi humilde opinión sobre el tema.
00:10:27Más importante aún, ¿qué piensan ustedes sobre estos modelos de mundos infinitos?
00:10:30Tengo curiosidad por saber qué opinan, así que dejen sus comentarios aquí
00:10:35abajo.
00:10:36Y amigos, si este video les resultó útil, háganmelo saber dándole al botón de me gusta que está debajo
00:10:40del video.
00:10:41Y tampoco olviden suscribirse a nuestro canal para más videos como este.
00:10:45Soy Andris de Better Stack y los veré en los próximos videos.
00:11:00(música animada)