00:00:00На прошлой неделе Google представила Genie 3 — свою флагманскую модель «бесконечного мира», которая позволяет
00:00:05симулировать окружение и взаимодействовать с ним, как в настоящей видеоигре.
00:00:10И внезапно акции игровых компаний резко обвалились из-за опасений, что это может стать
00:00:16началом конца всей индустрии видеоигр.
00:00:20А затем произошло нечто еще более интересное.
00:00:22Китайская технологическая компания Robiant выпустила собственного конкурента Genie с открытым исходным кодом,
00:00:28графика которого, судя по всему, даже лучше, чем у аналога от Google.
00:00:32И вот внезапно плотину прорвало: началась гонка за право стать первой компанией,
00:00:37которая заменит традиционные видеоигры этой новой игровой технологией.
00:00:43Но пока все раздувают хайп вокруг моделей бесконечного мира, я здесь, чтобы сказать вам:
00:00:49это может оказаться лишь громким обещанием без реального содержания.
00:00:54Почему я так в этом уверен?
00:00:55Что ж, именно об этом мы и поговорим в сегодняшнем видео.
00:01:02Как только вышла Genie 3, я сразу побежал на сайт, чтобы опробовать ее самому.
00:01:07Но стоило мне нажать кнопку «Explore», как я увидел разочаровывающую ошибку 404.
00:01:14А все потому, что я живу в Канаде.
00:01:16И на данный момент Google разрешила тестировать это технологическое чудо
00:01:20только жителям Соединенных Штатов.
00:01:23Разумеется, я включил VPN и попробовал снова через американский сервер.
00:01:27Но в этот раз меня ждал очередной отказ: мне сообщили, что для доступа к этому
00:01:33революционному софту нужно быть участником программы UltraPlan.
00:01:37И если вам интересно, сколько стоит UltraPlan... скажем так, это многовато,
00:01:41учитывая, что я просто хотел потыкать этот распиаренный ИИ-инструмент.
00:01:46Но возникает вопрос: почему вообще так сложно получить доступ к Genie 3?
00:01:51Ответ на этот вопрос очень важен для нашей истории, но к нему
00:01:56я вернусь чуть позже.
00:01:57Итак, пока у меня не было ни удачи, ни лишних денег на Genie 3, тем временем
00:02:04на другом конце земного шара китайская компания Robiont — судя по всему,
00:02:09дочка Ant Group, которая, в свою очередь, аффилирована с Alibaba Group,
00:02:15владеющей Qwen — представила свою модель бесконечного мира
00:02:20под названием Lingbot World, которая, на удивление, оказалась с открытым кодом.
00:02:25А значит, мы можем ее протестировать и посмотреть, на что она способна.
00:02:29Судя по их примерам, выглядело все просто потрясающе.
00:02:32Но когда я начал изучать страницу проекта, меня ждало еще одно огромное разочарование.
00:02:38Хотя страница полна демонстрационных роликов, где можно свободно перемещаться
00:02:43с помощью стрелок на клавиатуре, на деле версия модели с полным управлением
00:02:48персонажем все еще находится в разработке.
00:02:51Они планируют выпустить Lingbot Fast — полноценный эквивалент Genie 3,
00:02:56но когда это случится — неизвестно.
00:02:57На данный момент нам доступна базовая модель на 14 миллиардов параметров, которая обещает
00:03:03цитирую: «высококачественные, управляемые и логически последовательные симуляции».
00:03:08Но по факту единственное, что эта модель умеет делать сейчас — это генерировать видео.
00:03:14Да, просто видео.
00:03:16Я был немного в замешательстве: а в чем тогда заключается фактор управления?
00:03:20Ну, у них есть возможность задавать собственные значения положения камеры,
00:03:25так что вы в каком-то смысле управляете ее движением — альтернатива навигации
00:03:31стрелками, — но это нужно прописывать заранее.
00:03:35Чем же это отличается от любого другого ИИ-генератора видео, который тоже умеет
00:03:40контролировать движение камеры?
00:03:41В этом и заключается ключевое различие.
00:03:44В обычном ИИ-генераторе модель просто пытается предсказать следующий кадр,
00:03:50и мы видели во многих мемах, как ужасно это выглядит, если видео
00:03:55длится слишком долго. Модель просто не удерживает информацию
00:04:00о том, что происходит за пределами кадра.
00:04:04Если камера отворачивается от объекта, а затем возвращается, объекта может там уже не быть,
00:04:09потому что вся сцена генерируется «на лету».
00:04:13И вот здесь в игру вступает 14-миллиардный «геометрический мозг»
00:04:18модели Lingbot World.
00:04:19В отличие от стандартного генератора видео, который просто угадывает пиксели, Lingbot World
00:04:24использует данные о параметрах камеры и 6 степеней свободы, чтобы привязать каждый пиксель
00:04:31к конкретной точке в 3D-пространстве.
00:04:33Она создает то, что исследователи называют «постоянством объекта», потому что понимает
00:04:39математическую связь между линзой камеры и окружением.
00:04:42Грубо говоря, она помнит, что конкретный объект находится по конкретным координатам.
00:04:47И именно эта структурная целостность делает модель такой массивной и требовательной к ресурсам.
00:04:52Насколько требовательной?
00:04:53О, сейчас расскажу.
00:04:55Я попытался развернуть модель Lingbot World на инстансе с одной видеокартой RTX 1590,
00:05:02запустил базовое демо, и всё тут же упало.
00:05:07Наивно было полагать, что одна 1590 справится с такой нагрузкой.
00:05:13Тогда я попробовал запустить на двух 1590 — нет, всё равно вылет.
00:05:18Попробовал на четырех — и снова неудача.
00:05:23Наконец, я поднял контейнер с восемью RTX 1590 и запустил пример —
00:05:31и он снова выдал ошибку.
00:05:32Причина в том, что при длительной работе этой модели бесконечного мира
00:05:38объем памяти, необходимый для хранения данных о сцене, постоянно растет,
00:05:44пока не происходит критическая ошибка,
00:05:49потому что оперативная память просто заканчивается.
00:05:50Но мне все же удалось запустить демо на системе с 8 GPU, снизив количество
00:05:55сэмплов со стандартных 70 до 20.
00:05:59Честно говоря, разница между 70 и 20 сэмплами была почти не заметна.
00:06:03Но это наглядно показывает, насколько чудовищно дорогим в плане вычислений
00:06:09становится запуск такой модели.
00:06:10Возвращаясь к Genie 3: именно поэтому доступ к ней открыт только для членов Ultra,
00:06:16так как Google нужно хоть как-то окупать затраты на видеокарты.
00:06:21И по этой же причине демо ограничено лишь несколькими секундами — в какой-то
00:06:27момент память раздувается так сильно, что вся система просто рушится.
00:06:32Чтобы вы понимали, насколько дорого запускать такую модель на пользовательском
00:06:37железе: одна RTX 1590 стоит до 5000 долларов.
00:06:43А теперь возьмите 8 таких карт — это минимум, чтобы хоть что-то заработало.
00:06:48Господи, даже произносить это вслух смешно.
00:06:51В общем, 8 видеокарт обойдутся вам в 40 000 долларов, не считая остальных комплектующих
00:06:57и оперативной памяти, цены на которую сейчас тоже взлетели.
00:07:01Учитывая всё это — цену, 60-секундный лимит времени работы Genie
00:07:06и проблему с утечкой памяти, — становится ясно,
00:07:12что вся эта затея с бесконечными мирами пока лишь хайп. Она нереализуема
00:07:18на домашнем ПК при текущей архитектуре.
00:07:24И даже создатели обоих инструментов признают наличие этих проблем.
00:07:28Высокая стоимость инференса требует видеокарт корпоративного уровня,
00:07:34что делает технологию недоступной на обычном железе.
00:07:37Симуляции не хватает долгосрочной стабильности.
00:07:39Это часто приводит к «дрейфу окружения», когда сцена постепенно теряет
00:07:44свою структурную целостность при длительной работе.
00:07:46Именно так.
00:07:48И хотя бы команда Lingbot говорит об этом открыто.
00:07:51Посмотрим, что говорит Google.
00:07:53«Модель поддерживает несколько минут непрерывного взаимодействия, а не долгие часы».
00:07:59Они не признают это прямо, но мы-то уже понимаем, в чем причина.
00:08:04Так что, друзья, традиционные видеоигры никуда не исчезнут в ближайшее время.
00:08:09Сейчас это кажется несбыточной мечтой. Возможно, когда-нибудь в будущем,
00:08:15если они решат эти вычислительные проблемы, мы к этому вернемся.
00:08:20Но сейчас... ну серьезно, ребята.
00:08:23Мне тоже очень интересно пощупать Lingbot Fast, когда она наконец выйдет.
00:08:27Но до тех пор я не думаю, что эта технология станет массовой.
00:08:32Если же вам не терпится самим попробовать Lingbot World, вот мой совет.
00:08:37Не повторяйте моих ошибок.
00:08:38Не собирайте ферму из восьми RTX 1590, потому что такая конфигурация на платформах типа RunPod
00:08:45будет сжирать по 7 долларов за каждый час работы.
00:08:48Вместо этого арендуйте контейнер с одной H200, это стоит всего 3,5 доллара в час,
00:08:55установите флаг «nproc/node» на 1, снизьте количество сэмплов до 50 или 20 —
00:09:01и всё заведется.
00:09:02Также можно использовать 4-битную квантованную версию этой модели от пользователя Caelan Humphries,
00:09:08которая значительно снижает потребление видеопамяти при сопоставимом качестве.
00:09:13Ее технически можно запустить даже на одной RTX 1590.
00:09:15Если попробуете — напишите, как всё прошло.
00:09:19Что касается меня, я запустил базовое демо на H200 и, в общем-то,
00:09:21получил тот же результат, что и на странице проекта.
00:09:28Затем я сгенерировал ИИ-картинку с викингом, сражающимся против Локи, и скормил ее модели.
00:09:30И вот что у меня получилось.
00:09:36Думаю, вы видите, как модель сохраняет целостность окружения и замка
00:09:37на протяжении видео, но все равно лезут странные артефакты.
00:09:39Если честно, даже не знаю, как к этому относиться.
00:09:44Я уверен, что мог бы сделать геймплейное видео лучше через обычный ComfyUI,
00:09:48кстати, если хотите научиться делать свой генератор видео вроде Sora
00:09:52без огромных затрат на вычисления, посмотрите мое видео на эту тему.
00:09:59Вот такие дела, народ. Это был мой взгляд на Genie 3, весь этот хайп
00:10:04и будущее видеоигр.
00:10:09Я очень благодарен команде Lingbot за то, что они выложили модели в открытый доступ,
00:10:15и мы смогли понять, как работают системы вроде Genie.
00:10:16Но это лишь мое скромное мнение.
00:10:20Гораздо важнее, что вы думаете об этих моделях бесконечного мира?
00:10:25Мне очень интересно узнать ваши мысли, так что пишите в комментариях
00:10:27внизу.
00:10:30И если видео было полезным, поддержите меня лайком.
00:10:35А также не забудьте подписаться на канал, чтобы не пропустить новые выпуски.
00:10:36С вами был Андрис из Better Stack, увидимся в следующих видео.
00:10:40(ритмичная музыка)
00:10:41And also don't forget to subscribe to our channel for more videos like this one.
00:10:45This has been Andris from Better Stack and I will see you in the next videos.
00:11:00(upbeat music)