Log in to leave a comment
No posts yet
В 2026 году игровая индустрия находится в точке великого технологического перелома. Genie 3 от Google DeepMind и Lingbot World от Lobiant разожгли споры о «конце игровых движков», создавая исследуемые 3D-миры на основе одних лишь текстовых промптов. Акции крупнейших игровых компаний даже заметно пошатнулись на этом фоне.
Однако за ослепительными демо-роликами скрывается суровая реальность: ошибки 404, изматывающие разработчиков, и астрономические счета за облачные вычисления. С точки зрения архитектора высокопроизводительной ИИ-инфраструктуры, я разберу технические причины, по которым позиции Unreal Engine 5 (UE5) всё еще остаются незыблемыми.
Решающее различие между простым ИИ для генерации видео и «моделью мира» (World Model) заключается в постоянстве объектов. Это принцип, согласно которому дерево или камень должны оставаться на том же месте, когда пользователь отводит взгляд и снова поворачивается к ним.
Для решения этой задачи Lingbot World использует технологию эмблединга Плюккера (Plücker embedding). Это метод представления прямых линий в трехмерном пространстве в виде 6-мерных векторов.
Благодаря этому модель изучает геометрические правила смещения пикселей при вращении камеры. Однако это базируется на вероятностях, а не на математически фиксированных координатах. При многократных перемещениях по сложной местности возникает эффект Identity Drift — постепенное изменение мелких текстур. В отличие от UE5, поддерживающего побитово точное сохранение состояния, модели мира пересоздают мир каждый миг, что ведет к потере долгосрочной стабильности.
Главное препятствие для моделей мира — память. Lingbot World с 28 миллиардами параметров (архитектура MoE) требует экспоненциального увеличения количества обрабатываемых токенов и KV-кеша по мере увеличения времени симуляции.
| Модель GPU | VRAM | Пропускная способность памяти | Возможность работы в реальном времени |
|---|---|---|---|
| RTX 5090 | 32 ГБ | 1.8 ТБ/с | Требуется 4-битное квантование |
| NVIDIA H100 | 80 ГБ | 3.35 ТБ/с | Комфортно для корпоративного уровня |
| NVIDIA H200 | 141 ГБ | 4.8 ТБ/с | Лучший выбор для длинных последовательностей |
На практике без инфраструктуры уровня H200 крайне сложно поддерживать высококачественное взаимодействие. На потребительских картах из-за узкого места пропускной способности PCIe наблюдается резкое падение частоты кадров (FPS).
Причина, по которой Google Genie 3 ограничила начальные сессии примерно 60 секундами, кроется в накоплении ошибок. Модели мира используют авторегрессионный метод, где результат предыдущего кадра становится входными данными для следующего, из-за чего микроскопические ошибки со временем усиливаются.
Примерно через минуту усиливается дрейф окружения (Environment Drifting): количество окон в здании может измениться, а рельеф — исказиться. Lingbot World заявляет, что их иерархическая стратегия субтитрования, разделяющая макет и движение, позволила увеличить это время до 10 минут, но этого всё равно недостаточно для замены игр с открытым миром, в которые играют десятки часов.
Традиционные движки обрабатывают гравитацию и столкновения с помощью точных математических формул. ИИ-модель мира же просто предсказывает, что раз зажжена спичка, то в следующем кадре с высокой вероятностью должно появиться пламя.
Такой подход вызывает визуальные галлюцинации в ситуациях, требующих сложных логических цепочек в пазлах или физических столкновений между множеством объектов. Даже если в демо всё выглядит идеально, логическая структура мира мгновенно рушится, когда пользователь начинает испытывать систему на прочность в экстремальных сценариях. Вероятность — это не законы физики.
Многие ожидают, что ИИ снизит стоимость разработки игр, но стоимость инференса (вывода) на этапе эксплуатации — это совсем другая история.
Согласно рыночным данным 2026 года, затраты на API для моделей мира в тысячи раз превышают расходы на обслуживание серверов традиционных игр. Экономический порог для внедрения в массовые коммерческие игры еще не преодолен.
Несмотря на технические ограничения, ценность этих моделей как инструментов прототипирования колоссальна. Если вы хотите изучить их без дорогостоящего оборудования, рекомендую два подхода:
Для запуска Lingbot World (28B) с точностью BF16 требуется более 56 ГБ VRAM. Однако применение 4-битного квантования позволяет снизить требования к видеопамяти до уровня 14–16 ГБ. Хотя размытие текстур составит 5–10%, этого вполне достаточно для локального тестирования.
Вместо локального «железа» эффективнее использовать облачные инстансы. Выбирайте NVIDIA H200 SXM через сервисы вроде RunPod и устанавливайте максимальное значение выгрузки слоев на GPU (offloading), чтобы минимизировать вмешательство CPU. Использование бессерверных эндпоинтов (serverless endpoints) позволит платить только во время тестов, снижая финансовую нагрузку.
Google Genie 3 и Lingbot World показали инновационный переход от «создания» виртуальных миров к их «воображению». Однако из-за проблем с физической достоверностью и стоимостью, в ближайшее время доминировать будет гибридный стек. Самое реалистичное будущее — это когда Unreal Engine отвечает за скелет мира и законы физики, а ИИ-модели мира накладывают поверх него динамическую, меняющуюся в реальном времени среду. Рекомендую сначала выстроить собственный пайплайн через квантованные модели и облачную инфраструктуру, не пытаясь во что бы то ни стало запустить всё локально.