Стоит ли верить хайпу вокруг Google Genie 3? Разбираемся в деталях

BBetter Stack
컴퓨터/소프트웨어게임/e스포츠주식 투자가전제품/카메라

Transcript

00:00:00На прошлой неделе Google представила Genie 3 — свою флагманскую модель «бесконечного мира», которая позволяет
00:00:05симулировать окружение и взаимодействовать с ним, как в настоящей видеоигре.
00:00:10И внезапно акции игровых компаний резко обвалились из-за опасений, что это может стать
00:00:16началом конца всей индустрии видеоигр.
00:00:20А затем произошло нечто еще более интересное.
00:00:22Китайская технологическая компания Robiant выпустила собственного конкурента Genie с открытым исходным кодом,
00:00:28графика которого, судя по всему, даже лучше, чем у аналога от Google.
00:00:32И вот внезапно плотину прорвало: началась гонка за право стать первой компанией,
00:00:37которая заменит традиционные видеоигры этой новой игровой технологией.
00:00:43Но пока все раздувают хайп вокруг моделей бесконечного мира, я здесь, чтобы сказать вам:
00:00:49это может оказаться лишь громким обещанием без реального содержания.
00:00:54Почему я так в этом уверен?
00:00:55Что ж, именно об этом мы и поговорим в сегодняшнем видео.
00:01:02Как только вышла Genie 3, я сразу побежал на сайт, чтобы опробовать ее самому.
00:01:07Но стоило мне нажать кнопку «Explore», как я увидел разочаровывающую ошибку 404.
00:01:14А все потому, что я живу в Канаде.
00:01:16И на данный момент Google разрешила тестировать это технологическое чудо
00:01:20только жителям Соединенных Штатов.
00:01:23Разумеется, я включил VPN и попробовал снова через американский сервер.
00:01:27Но в этот раз меня ждал очередной отказ: мне сообщили, что для доступа к этому
00:01:33революционному софту нужно быть участником программы UltraPlan.
00:01:37И если вам интересно, сколько стоит UltraPlan... скажем так, это многовато,
00:01:41учитывая, что я просто хотел потыкать этот распиаренный ИИ-инструмент.
00:01:46Но возникает вопрос: почему вообще так сложно получить доступ к Genie 3?
00:01:51Ответ на этот вопрос очень важен для нашей истории, но к нему
00:01:56я вернусь чуть позже.
00:01:57Итак, пока у меня не было ни удачи, ни лишних денег на Genie 3, тем временем
00:02:04на другом конце земного шара китайская компания Robiont — судя по всему,
00:02:09дочка Ant Group, которая, в свою очередь, аффилирована с Alibaba Group,
00:02:15владеющей Qwen — представила свою модель бесконечного мира
00:02:20под названием Lingbot World, которая, на удивление, оказалась с открытым кодом.
00:02:25А значит, мы можем ее протестировать и посмотреть, на что она способна.
00:02:29Судя по их примерам, выглядело все просто потрясающе.
00:02:32Но когда я начал изучать страницу проекта, меня ждало еще одно огромное разочарование.
00:02:38Хотя страница полна демонстрационных роликов, где можно свободно перемещаться
00:02:43с помощью стрелок на клавиатуре, на деле версия модели с полным управлением
00:02:48персонажем все еще находится в разработке.
00:02:51Они планируют выпустить Lingbot Fast — полноценный эквивалент Genie 3,
00:02:56но когда это случится — неизвестно.
00:02:57На данный момент нам доступна базовая модель на 14 миллиардов параметров, которая обещает
00:03:03цитирую: «высококачественные, управляемые и логически последовательные симуляции».
00:03:08Но по факту единственное, что эта модель умеет делать сейчас — это генерировать видео.
00:03:14Да, просто видео.
00:03:16Я был немного в замешательстве: а в чем тогда заключается фактор управления?
00:03:20Ну, у них есть возможность задавать собственные значения положения камеры,
00:03:25так что вы в каком-то смысле управляете ее движением — альтернатива навигации
00:03:31стрелками, — но это нужно прописывать заранее.
00:03:35Чем же это отличается от любого другого ИИ-генератора видео, который тоже умеет
00:03:40контролировать движение камеры?
00:03:41В этом и заключается ключевое различие.
00:03:44В обычном ИИ-генераторе модель просто пытается предсказать следующий кадр,
00:03:50и мы видели во многих мемах, как ужасно это выглядит, если видео
00:03:55длится слишком долго. Модель просто не удерживает информацию
00:04:00о том, что происходит за пределами кадра.
00:04:04Если камера отворачивается от объекта, а затем возвращается, объекта может там уже не быть,
00:04:09потому что вся сцена генерируется «на лету».
00:04:13И вот здесь в игру вступает 14-миллиардный «геометрический мозг»
00:04:18модели Lingbot World.
00:04:19В отличие от стандартного генератора видео, который просто угадывает пиксели, Lingbot World
00:04:24использует данные о параметрах камеры и 6 степеней свободы, чтобы привязать каждый пиксель
00:04:31к конкретной точке в 3D-пространстве.
00:04:33Она создает то, что исследователи называют «постоянством объекта», потому что понимает
00:04:39математическую связь между линзой камеры и окружением.
00:04:42Грубо говоря, она помнит, что конкретный объект находится по конкретным координатам.
00:04:47И именно эта структурная целостность делает модель такой массивной и требовательной к ресурсам.
00:04:52Насколько требовательной?
00:04:53О, сейчас расскажу.
00:04:55Я попытался развернуть модель Lingbot World на инстансе с одной видеокартой RTX 1590,
00:05:02запустил базовое демо, и всё тут же упало.
00:05:07Наивно было полагать, что одна 1590 справится с такой нагрузкой.
00:05:13Тогда я попробовал запустить на двух 1590 — нет, всё равно вылет.
00:05:18Попробовал на четырех — и снова неудача.
00:05:23Наконец, я поднял контейнер с восемью RTX 1590 и запустил пример —
00:05:31и он снова выдал ошибку.
00:05:32Причина в том, что при длительной работе этой модели бесконечного мира
00:05:38объем памяти, необходимый для хранения данных о сцене, постоянно растет,
00:05:44пока не происходит критическая ошибка,
00:05:49потому что оперативная память просто заканчивается.
00:05:50Но мне все же удалось запустить демо на системе с 8 GPU, снизив количество
00:05:55сэмплов со стандартных 70 до 20.
00:05:59Честно говоря, разница между 70 и 20 сэмплами была почти не заметна.
00:06:03Но это наглядно показывает, насколько чудовищно дорогим в плане вычислений
00:06:09становится запуск такой модели.
00:06:10Возвращаясь к Genie 3: именно поэтому доступ к ней открыт только для членов Ultra,
00:06:16так как Google нужно хоть как-то окупать затраты на видеокарты.
00:06:21И по этой же причине демо ограничено лишь несколькими секундами — в какой-то
00:06:27момент память раздувается так сильно, что вся система просто рушится.
00:06:32Чтобы вы понимали, насколько дорого запускать такую модель на пользовательском
00:06:37железе: одна RTX 1590 стоит до 5000 долларов.
00:06:43А теперь возьмите 8 таких карт — это минимум, чтобы хоть что-то заработало.
00:06:48Господи, даже произносить это вслух смешно.
00:06:51В общем, 8 видеокарт обойдутся вам в 40 000 долларов, не считая остальных комплектующих
00:06:57и оперативной памяти, цены на которую сейчас тоже взлетели.
00:07:01Учитывая всё это — цену, 60-секундный лимит времени работы Genie
00:07:06и проблему с утечкой памяти, — становится ясно,
00:07:12что вся эта затея с бесконечными мирами пока лишь хайп. Она нереализуема
00:07:18на домашнем ПК при текущей архитектуре.
00:07:24И даже создатели обоих инструментов признают наличие этих проблем.
00:07:28Высокая стоимость инференса требует видеокарт корпоративного уровня,
00:07:34что делает технологию недоступной на обычном железе.
00:07:37Симуляции не хватает долгосрочной стабильности.
00:07:39Это часто приводит к «дрейфу окружения», когда сцена постепенно теряет
00:07:44свою структурную целостность при длительной работе.
00:07:46Именно так.
00:07:48И хотя бы команда Lingbot говорит об этом открыто.
00:07:51Посмотрим, что говорит Google.
00:07:53«Модель поддерживает несколько минут непрерывного взаимодействия, а не долгие часы».
00:07:59Они не признают это прямо, но мы-то уже понимаем, в чем причина.
00:08:04Так что, друзья, традиционные видеоигры никуда не исчезнут в ближайшее время.
00:08:09Сейчас это кажется несбыточной мечтой. Возможно, когда-нибудь в будущем,
00:08:15если они решат эти вычислительные проблемы, мы к этому вернемся.
00:08:20Но сейчас... ну серьезно, ребята.
00:08:23Мне тоже очень интересно пощупать Lingbot Fast, когда она наконец выйдет.
00:08:27Но до тех пор я не думаю, что эта технология станет массовой.
00:08:32Если же вам не терпится самим попробовать Lingbot World, вот мой совет.
00:08:37Не повторяйте моих ошибок.
00:08:38Не собирайте ферму из восьми RTX 1590, потому что такая конфигурация на платформах типа RunPod
00:08:45будет сжирать по 7 долларов за каждый час работы.
00:08:48Вместо этого арендуйте контейнер с одной H200, это стоит всего 3,5 доллара в час,
00:08:55установите флаг «nproc/node» на 1, снизьте количество сэмплов до 50 или 20 —
00:09:01и всё заведется.
00:09:02Также можно использовать 4-битную квантованную версию этой модели от пользователя Caelan Humphries,
00:09:08которая значительно снижает потребление видеопамяти при сопоставимом качестве.
00:09:13Ее технически можно запустить даже на одной RTX 1590.
00:09:15Если попробуете — напишите, как всё прошло.
00:09:19Что касается меня, я запустил базовое демо на H200 и, в общем-то,
00:09:21получил тот же результат, что и на странице проекта.
00:09:28Затем я сгенерировал ИИ-картинку с викингом, сражающимся против Локи, и скормил ее модели.
00:09:30И вот что у меня получилось.
00:09:36Думаю, вы видите, как модель сохраняет целостность окружения и замка
00:09:37на протяжении видео, но все равно лезут странные артефакты.
00:09:39Если честно, даже не знаю, как к этому относиться.
00:09:44Я уверен, что мог бы сделать геймплейное видео лучше через обычный ComfyUI,
00:09:48кстати, если хотите научиться делать свой генератор видео вроде Sora
00:09:52без огромных затрат на вычисления, посмотрите мое видео на эту тему.
00:09:59Вот такие дела, народ. Это был мой взгляд на Genie 3, весь этот хайп
00:10:04и будущее видеоигр.
00:10:09Я очень благодарен команде Lingbot за то, что они выложили модели в открытый доступ,
00:10:15и мы смогли понять, как работают системы вроде Genie.
00:10:16Но это лишь мое скромное мнение.
00:10:20Гораздо важнее, что вы думаете об этих моделях бесконечного мира?
00:10:25Мне очень интересно узнать ваши мысли, так что пишите в комментариях
00:10:27внизу.
00:10:30И если видео было полезным, поддержите меня лайком.
00:10:35А также не забудьте подписаться на канал, чтобы не пропустить новые выпуски.
00:10:36С вами был Андрис из Better Stack, увидимся в следующих видео.
00:10:40(ритмичная музыка)
00:10:41And also don't forget to subscribe to our channel for more videos like this one.
00:10:45This has been Andris from Better Stack and I will see you in the next videos.
00:11:00(upbeat music)

Key Takeaway

Несмотря на громкий хайп, модели «бесконечного мира» вроде Genie 3 и Lingbot World на данный момент остаются нежизнеспособными для массового гейминга из-за колоссальных затрат на вычисления, проблем с памятью и нестабильности симуляции.

Highlights

Google представила Genie 3 — модель «бесконечного мира» для симуляции игровых окружений, что вызвало падение акций игровых компаний.

Китайская компания Robiant (дочка Ant Group) выпустила открытого конкурента под названием Lingbot World.

Главное отличие Lingbot World — использование «геометрического мозга» и 6 степеней свободы для обеспечения постоянства объектов в 3D-пространстве.

Технология крайне требовательна к ресурсам: для стабильного запуска требуется минимум 8 видеокарт RTX 1590 (около 40 000 долларов) или серверные решения уровня H200.

Существуют критические технические барьеры: утечки памяти при длительной работе и «дрейф окружения», нарушающий структурную целостность сцены.

Автор предлагает использовать 4-битную квантованную версию модели для запуска на более скромном оборудовании.

Timeline

Анонс Genie 3 и реакция рынка

Видео начинается с обсуждения недавнего релиза Google Genie 3, который позиционируется как революционная модель для создания интерактивных симуляций. Этот анонс вызвал серьезное беспокойство в индустрии, приведя к резкому снижению котировок акций традиционных игровых студий. Автор отмечает, что на фоне этого хайпа китайская компания Robiant представила свой аналог с открытым исходным кодом, спровоцировав новую технологическую гонку. Основной вопрос раздела заключается в том, действительно ли эти модели способны заменить видеоигры или это лишь маркетинговый пузырь. Спикер выражает скептицизм относительно реальности обещаний разработчиков на текущем этапе.

Трудности доступа и китайский конкурент Lingbot World

Автор делится своим опытом попыток протестировать Genie 3, сталкиваясь с региональными ограничениями для Канады и высокой стоимостью подписки UltraPlan. Из-за этих барьеров внимание переключается на Lingbot World от компании Robiant, которая аффилирована с Alibaba Group. Хотя китайская модель доступна в open-source, выясняется, что полноценная управляемая версия Lingbot Fast еще находится в разработке. В текущем виде проект представляет собой базу на 14 миллиардов параметров, обещающую высококачественные симуляции. Раздел подчеркивает закрытость решений Google и внезапное появление мощных альтернатив из Китая.

Технические основы: Геометрический мозг и постоянство объектов

В этой части объясняется фундаментальное различие между обычными видеогенераторами и моделями бесконечного мира. Обычные ИИ часто теряют объекты при повороте камеры, в то время как Lingbot World использует данные о параметрах камеры и 6 степеней свободы. Это позволяет модели привязывать пиксели к координатам в 3D-пространстве, создавая эффект «постоянства объекта». Автор подчеркивает, что именно математическая связь между линзой и окружением делает симуляцию логически последовательной. Однако такая структурная целостность требует огромных вычислительных мощностей, что становится главной темой дальнейшего анализа.

Экстремальные системные требования и проблемы с памятью

Спикер описывает провальные попытки запустить Lingbot World на различных конфигурациях оборудования, начиная с одной RTX 1590 и заканчивая системой с восемью такими картами. Даже на мощном сетапе стоимостью более 40 000 долларов модель выдавала ошибки из-за критического переполнения оперативной памяти. Оказывается, что при генерации бесконечного мира объем данных о сцене растет экспоненциально, пока не происходит сбой системы. Эти данные проливают свет на то, почему Google ограничивает доступ к Genie 3 и почему ее использование обходится так дорого. Автор делает вывод, что на текущей архитектуре технология не может работать на домашних ПК.

Проблемы стабильности и дрейф окружения

В этом разделе обсуждается долгосрочная стабильность симуляций и феномен «дрейфа окружения». Даже создатели моделей признают, что сцена теряет свою целостность при длительном взаимодействии, поэтому сессии ограничены минутами, а не часами. Высокая стоимость инференса требует видеокарт корпоративного уровня, делая мечту о бесконечных мирах несбыточной на текущем этапе. Google также косвенно подтверждает эти недостатки, заявляя о поддержке лишь нескольких минут взаимодействия. Автор заключает, что традиционным видеоиграм в ближайшее время ничего не угрожает.

Практические советы по запуску Lingbot World

Спикер дает ценные рекомендации тем, кто все же хочет протестировать Lingbot World самостоятельно. Вместо покупки дорогостоящих видеокарт предлагается арендовать контейнер с одной H200 на платформе RunPod, что обойдется значительно дешевле. Рекомендуется использовать специальный флаг «nproc/node» и снизить количество сэмплов для предотвращения вылетов. Особое внимание уделено 4-битной квантованной версии модели от Caelan Humphries, которая позволяет запустить инструмент даже на одной RTX 1590. Эти практические шаги делают анализ более прикладным для энтузиастов ИИ.

Демонстрация работы и итоги

Финальная часть видео посвящена наглядному примеру работы Lingbot World на основе сгенерированного изображения викинга и Локи. Хотя модель успешно сохраняет целостность замка при движении камеры, автор указывает на наличие странных артефактов в итоговом видео. По его мнению, качественные игровые ролики пока проще создавать через классические инструменты вроде ComfyUI. В завершение Андрис из Better Stack благодарит команду Lingbot за открытый код, который позволил заглянуть «под капот» подобных систем. Видео заканчивается призывом к подписке и приглашением к дискуссии о будущем технологий в комментариях.

Community Posts

View all posts