Хайп или прорыв? | Подробный разбор

MMaximilian Schwarzmüller
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Пару часов назад произошло довольно крупное событие. Или поднялся знатный хайп. Мы
00:00:06пока не знаем, и я бы точно не стал исключать этот самый хайп. Бессмысленный хайп. Но если
00:00:13это правда, то анонс действительно важный. Потому что Александр Ведин (которого я не знал,
00:00:20да и вы, скорее всего, тоже) анонсировал sub-q (sub-quadratic) — крупный прорыв в сфере
00:00:28интеллекта LLM. И анонсировал он совершенно новый тип больших языковых моделей, которые
00:00:36превосходно справляются с длинным контекстом, не теряя при этом — по крайней мере, так заявляется —
00:00:45не теряя «интеллекта» (в кавычках, ведь модели просто генерируют токены, но в итоге это дает им ум) —
00:00:52в общем, без потери интеллекта, к которому вы привыкли в передовых моделях вроде Opus 4.7,
00:00:59GPT 5.5 и так далее. И вот о чем он пишет в своем анонсе в X — а
00:01:04также есть отдельный пост в блоге с техническими подробностями, который мы тоже разберем,
00:01:08поскольку в этом выпуске и видео мы погрузимся в тему глубоко — так вот, он анонсирует модель,
00:01:16которая работает намного быстрее при инференсе на задачах с контекстом в 1 миллион токенов и стоит гораздо дешевле.
00:01:26Всего 5% от стоимости Opus. Он также обещает, что их первая модель будет иметь окно контекста
00:01:35в 12 миллионов токенов. Чтобы вы понимали масштаб: в такое окно
00:01:42можно уместить целые кодовые базы, огромные проекты. Туда можно загрузить несколько увесистых
00:01:49юридических документов, и именно поэтому подобные модели, если они существуют и работают, могут стать
00:01:57суперполезными и полностью изменить правила игры. Иначе и не скажешь. Если они работают — деталей
00:02:02пока мало, я к этому еще вернусь — но если они работают, то все эти обходные пути,
00:02:08которые мы используем сейчас (субагенты, RAG и так далее), представляющие собой костыли вокруг проблемы,
00:02:15когда модель видит лишь малую часть того, что должна видеть. То есть, если вы работаете с кодом,
00:02:22существующие передовые модели, в зависимости от размера вашей базы, не могут видеть ее целиком.
00:02:28Они не могут загрузить проект полностью. И если вы просите модель что-то изменить, вам остается надеяться,
00:02:33что она найдет нужные части в вашем коде, чтобы внести правки, о которых вы просили.
00:02:40И это, конечно, становится все большей проблемой по мере роста кодовой базы или объема
00:02:45документов, с которыми вы хотите заставить модель работать. Так что модель, которая способна стабильно
00:02:52работать с окном контекста в 12 миллионов токенов без потери качества, действительно перевернет индустрию.
00:02:59Говоря о революционных вещах: мы глубоко разберем это в видео, а также во всех моих курсах.
00:03:06Если вам интересно научиться на практике использовать такие инструменты, как Claude Code, Codex, выполнять другие задачи ИИ
00:03:13или программировать, или совмещать все это, то на мои курсы определенно стоит взглянуть. Они практические,
00:03:19прикладные, глубокие, и вы можете приобрести как отдельные курсы, так и подписку,
00:03:24которая дает доступ ко всем материалам за единую ежемесячную или ежегодную плату. Ссылки в описании.
00:03:31А теперь давайте заглянем немного глубже. Как я уже говорил, есть пост с анонсом
00:03:36и некоторыми техническими деталями, но, честно говоря, их там негусто. Многое осталось за кадром,
00:03:43да и бенчмарков нам показали совсем немного. А точнее, они опубликовали всего три
00:03:49теста. Бенчмарк Ruler, который проверяет поведение извлечения и рассуждения за рамками простого
00:03:56поиска «иглы в стоге сена», включая многошаговый поиск, агрегацию, отслеживание переменных и выборочную
00:04:01фильтрацию. То есть этот тест в конечном счете проверяет способность модели находить несколько элементов
00:04:06нужной информации в относительно большом окне контекста. 128 000 токенов. Не сказать чтобы супермного,
00:04:15далеко до обещанных 12 миллионов, но и не жалкие 5 тысяч. В общем,
00:04:22этот тест проверяет, насколько хорошо модель находит и связывает воедино разные части из
00:04:28более-менее крупного окна контекста или базы документов. И здесь их модель находится на том же уровне,
00:04:36что и OPUS 4.6. В том посте они также упомянули другой бенчмарк, MRCRv2, который тоже посвящен
00:04:45задачам извлечения из длинного контекста. Там их модель, по их словам, находится в диапазоне OPUS 4.6. Хотя,
00:04:53если посмотреть на остальные результаты в таблице, она все же уступает.
00:05:00Что, конечно, любопытно, ведь вся их фишка как раз в работе с длинным контекстом.
00:05:07Но с другой стороны, можно возразить, что для сверхдлинных окон контекста
00:05:15другие модели вообще неприменимы, тогда как их модель все же может дать неплохие результаты,
00:05:22а это лучше, чем ничего. И, разумеется, их модели со временем могут стать намного лучше.
00:05:29Так что я бы не стал считать это плохим знаком для первой версии. Просто факт, который стоит отметить.
00:05:35И еще стоит заметить, что она показывает себя гораздо лучше, чем Gemini 3.1 Pro или OPUS 4.7 в этой таблице.
00:05:43Также они опубликовали один бенчмарк, который показался мне интересным: он связан с задачами
00:05:49программирования. Сразу скажу, что я не большой фанат всех этих бенчмарков. Мы все знаем,
00:05:56что их можно обходить или подстраиваться под них; модели могут намеренно или ненамеренно
00:06:05дообучаться под хорошие результаты в тестах. В прошлом мы видели немало таких случаев,
00:06:12но тем не менее, они дают нам хоть какую-то пищу для размышлений. И этот бенчмарк для разработчиков
00:06:20кажется мне интересным, потому что здесь мы видим, что их модель находится практически в том же диапазоне,
00:06:27что и модели OPUS. А это показывает, что она способна не просто находить информацию в длинных
00:06:36окнах контекста, во множестве документов или больших кодовых базах, но и делать с ней что-то полезное.
00:06:42Она способна генерировать осмысленный и качественный код благодаря своему интеллекту и тем данным,
00:06:50которые она извлекает из этих длинных окон контекста. То есть речь идет не только о поиске,
00:06:54но и о полезной работе. И здесь дела, похоже, идут хорошо. Но, как я уже говорил, на этом
00:07:00все. Никаких глубоких разборов или технических деталей. Карточки модели пока нет.
00:07:09Поэтому все, что у нас есть, — это описание того, как их модель использует разреженное внимание
00:07:16вместо плотного внимания для работы с длинным контекстом, чтобы функционировать эффективно
00:07:22в сценариях с огромными объемами данных, и за счет чего модель ускоряется и снижает затраты,
00:07:29ведь она работает быстрее и стоит дешевле, верно? Именно это они и заявили. Давайте же
00:07:37сравним плотное и разреженное внимание, чтобы понять, что здесь происходит. Плотное внимание (dense attention) —
00:07:45это то, что используется в текущих передовых моделях. В вашей GPT 5.5, Opus 4.7 и остальных.
00:07:52Все они — плотные модели. Это означает, что для генерации каждого нового токена, скажем, токена D,
00:07:58необходимо оценить все остальные токены и связи между
00:08:08ними. Ведь вся суть больших языковых моделей сводится к тому,
00:08:13что вы выводите последующий токен (который может быть целым словом или его частью) на основе того, что было
00:08:20до него. К примеру, если у вас есть предложение вроде: «Договор может быть расторгнут в любой...»,
00:08:28то вы хотите предсказать следующее за ним слово. Возможно, вы спросили модель: «Эй,
00:08:35когда я могу расторгнуть договор?» И прикрепили сам договор в виде PDF-файла или обычного
00:08:42текста к своему запросу. То есть перед этим предложением, которое модель
00:08:48генерирует на выходе, идет ваш вопрос и, возможно, другой контекст. Например, сам
00:08:57договор, верно? Именно так мы сейчас и пользуемся моделями. И чтобы выдать этот токен,
00:09:03а также все предшествующие ему токены, модель должна проанализировать
00:09:10весь диалог, все содержащиеся в нем токены. То есть ваш вопрос и любой дополнительный
00:09:16контекст. Она разбивает все это на токены, а затем объединяет их или
00:09:23вычисляет веса на основе всех возможных комбинаций предыдущих токенов. К примеру,
00:09:30если бы это был весь наш диалог (намеренно короткий для наглядности), то именно
00:09:38так он был бы разбит на токены для моделей вроде GPT-5. Некоторые токены —
00:09:46это просто слово или слово с пробелом перед ним. Некоторые — просто специальные символы.
00:09:51И чтобы сгенерировать следующий токен, все предыдущие токены в итоге связываются друг
00:09:58с другом для понимания общего смысла. Ведь знак вопроса имеет совершенно
00:10:05разное значение и влияние на будущий токен в зависимости от того, что стояло перед этим
00:10:11знаком вопроса. Так что знак вопроса сопоставляется со всеми предыдущими токенами. И именно совокупность
00:10:17всех этих комбинаций в конечном счете используется для вывода финального токена. Вот так на
00:10:22высоком уровне можно представить себе работу плотного внимания. Естественно,
00:10:29это крайне неэффективно, но это лучшее, что у нас есть на данный момент, по крайней мере, в плане
00:10:36интеллекта и качества работы моделей. Но сложность здесь квадратичная, то есть N на N,
00:10:44что означает: для вывода нового токена нужно связать все предыдущие токены. Существуют
00:10:49механизмы оптимизации вроде KV-кэширования, которое сохраняет результаты ранее
00:10:56рассчитанных весов. Чтобы для нового токена вам не приходилось пересчитывать
00:11:01все предыдущие комбинации, но вам все равно нужно рассчитать новый токен, сопоставив его со всеми
00:11:08предыдущими кэшированными весами. То есть вы все равно остаетесь в рамках квадратичной сложности.
00:11:16И это, конечно, медленно и неэффективно, из-за чего современные передовые модели требуют огромных вычислительных ресурсов,
00:11:24работают небыстро, особенно когда вы переходите к большим окнам контекста, и именно поэтому существуют
00:11:31довольно жесткие лимиты на размер контекста. Из-за квадратичной сложности контекст в 12 миллионов
00:11:38токенов практически невозможно обработать. Это заняло бы вечность, а время вычислений — лишь одно
00:11:46измерение, ведь есть еще и память, которую нужно зарезервировать. Вот так вкратце работают плотные модели и в этом их ограничения.
00:11:54Противоположный или альтернативный подход, который используется в этой
00:12:00новой модели sub-q, анонсированной вчера, заключается в использовании разреженного внимания (sparse attention). И
00:12:06как же работает разреженное внимание? Идея в том, что для расчета нового
00:12:14токена модель смотрит не на все предыдущие токены и учитывает комбинации не всех
00:12:20токенов, а лишь нескольких выбранных. К примеру, если нужно вывести токен D,
00:12:28модель может смотреть только на B и C, игнорируя A. Но тут, конечно, встает главный вопрос:
00:12:33как решить, на какие именно предыдущие токены смотреть или какие из них важны для
00:12:40генерации нового токена. В прошлом использовались разные подходы,
00:12:46ведь эта новая модель — далеко не первая с разреженным вниманием. Но причина, почему они до сих пор
00:12:52не взлетели, кроется в их серьезных ограничениях. Например, один из способов —
00:12:59использование локального окна (local window). Что это значит? Это значит, что для генерации нового токена,
00:13:06скажем, пятого по счету в последовательности, модель смотрит,
00:13:13например, только на два токена перед ним. То есть на третий и четвертый. Получается скользящее окно,
00:13:22и модель всегда анализирует только те токены, которые находятся непосредственно перед генерируемым. Как
00:13:27вы понимаете, у этого подхода есть серьезные минусы. Ведь если я смотрю только на последние
00:13:33несколько токенов, а меня интересует, когда может быть расторгнут договор, то эта информация
00:13:39может находиться где-то в начале контекста запроса, но она не попадет в это локальное окно,
00:13:45если оно ограничено лишь парой последних токенов. И следующий токен, который нужно
00:13:50предсказать, вообще понятия не имеет, что было в контексте раньше. Так что это бесполезно. При таком подходе у вас
00:13:55может быть хоть бесконечный контекст, но он просто не будет иметь значения. Очевидный минус. Другой
00:14:01подход — так называемый глобальный токен (global token). Здесь идея в том, что
00:14:09у вас есть некий глобальный суммирующий токен. На высоком уровне это можно представить как специальный токен,
00:14:16который помещается в начало последовательности. Модель вставляет его
00:14:20в самое начало, и он как бы обобщает все последующие токены. Примерно так.
00:14:27И затем при предсказании следующего токена этот глобальный токен принимается во внимание. Это может
00:14:34работать отлично, если вернуться к нашему примеру с юридическим текстом, который вы передали
00:14:40в запросе. Если это саммари, сгенерированное для вашего диалога, включает в себя
00:14:46условия расторжения договора, то следующий токен будет предсказан очень точно
00:14:53на основе этого краткого содержания. Но если вам не повезло и в саммари эти детали не попали,
00:15:00что ж, тогда вы возвращаетесь к ситуации, когда нужная информация полностью отсутствует.
00:15:04Так что подход с глобальным токеном жизнеспособен, но, разумеется, чем длиннее окно контекста,
00:15:12тем более обобщенным становится это саммари. Это легко представить. Если у вас
00:15:16есть PDF-документ на сто страниц и вы решите сжать его до пары предложений, они будут очень
00:15:22размытыми, верно? Так что предсказать следующий токен на основе такого обобщения вряд ли получится.
00:15:29Еще один подход — использование роутера (маршрутизатора). Это когда у вас есть дополнительная нейросеть.
00:15:37То есть работают две модели: ваша основная большая языковая модель и вспомогательная
00:15:43модель маршрутизации. И этот роутер оценивает запрос пользователя или контекст
00:15:51следующего генерируемого токена, а затем направляет его к тем токенам, которые считает
00:15:59релевантными. Но это означает, что теперь у вас есть модель маршрутизации, которой как-то
00:16:04нужно отслеживать все остальные токены после нее. А это, скорее всего, возвращает нас к квадратичной
00:16:10сложности внимания, либо делает процесс неточным и вы начинаете от этого зависеть. То есть вы либо снова
00:16:17приходите к квадратичной сложности и мало что выигрываете по сравнению с плотной моделью, либо
00:16:23теряете в качестве, потому что роутер работает не лучшим образом. Как и в случае
00:16:30с саммари, вам остается лишь надеяться, что роутер хорошо справится со своей задачей и активирует нужные токены для
00:16:37предсказания следующего. Вот почему разреженное внимание — штука интересная, но до сих пор
00:16:46не получившая широкого распространения: все эти подходы имеют серьезные компромиссы, и на данный момент,
00:16:54насколько мне известно, не существовало модели с разреженным вниманием, которая выдавала бы
00:17:00качество, сопоставимое с современными плотными моделями, и при этом работала бы на огромном
00:17:07окне контекста. И создатели новой модели обещают это исправить. В своем посте с анонсом
00:17:14они упоминают, что их модель выполняет выбор на основе контента (content-dependent selection). Для каждого запроса модель выбирает,
00:17:22какие части последовательности заслуживают внимания, и рассчитывает внимание именно для этих позиций. То есть
00:17:28в итоге мы возвращаемся к подходу с маршрутизацией, но они обещают и заявляют,
00:17:35что их механизм крайне эффективен для активации нужных токенов при предсказании
00:17:43следующего. Они отмечают, что плотное внимание исходит из того, что любая пара токенов может быть важна, поэтому оценивает
00:17:49их все. На практике же почти ни одна пара не важна. SSA (sub-quadratic selective attention),
00:17:55то есть их подход, убирает это допущение. Он не аппроксимирует внимание, а ограничивает
00:18:01его только теми позициями, которые действительно несут сигнал, и пропускает все остальные. В этом их суть.
00:18:08Они используют маршрутизацию на основе контента для активации нужных токенов при
00:18:14предсказании следующего, и именно это дает им огромный прирост эффективности. Нам еще предстоит
00:18:21увидеть, насколько хорошо это работает на самом деле, потому что, как я уже говорил, выборка бенчмарков пока очень скромная.
00:18:30Других тестов нет. Карточки модели нет. Деталей о том, как именно работает
00:18:36их выбор на основе контента, тоже нет, поэтому вопросов пока остается очень много.
00:18:42Но если чему-то мы точно научились за последние месяцы и годы,
00:18:49так это тому, что ИИ — это, безусловно, полезный инструмент, и я пользуюсь им каждый день. Вы, скорее всего, тоже,
00:18:57и инструменты вроде Codec или Claude Code действительно полезны. В этом у меня нет сомнений,
00:19:04исходя из моего опыта работы с ними, но мы также поняли, что находимся в индустрии с огромным количеством хайпа. Мы в
00:19:10транзитном периоде. Все меняется или очень многое меняется прямо сейчас, и поэтому, конечно,
00:19:16кругом звучит масса обещаний, но далеко не все они сбываются и превращаются
00:19:26во что-то действительно полезное. Взять хотя бы модели от Meta, которые были плотными. У Llama 4
00:19:35были потрясающие показатели в бенчмарках, но на деле они оказались не так хороши. Так что примеров раздутого хайпа
00:19:42хватает, и это лишь один из них. Их полно. Определенно стоит
00:19:49сохранять осторожность, но если они выпустят эти модели (а подать заявку на ранний доступ можно уже сейчас,
00:19:56я подал, но пока его не получил) — так вот, если эти модели оправдают обещания, если они будут
00:20:05эффективны и умны на больших окнах контекста, это действительно многое изменит. Это поможет решить
00:20:13проблему нехватки вычислительных мощностей, ведь сейчас мощностей в мире катастрофически не хватает.
00:20:19Нам нужно гораздо больше дата-центров, чипов, электричества и всего остального. Так что появление модели,
00:20:25которая в разы эффективнее, очень помогло бы. Хотя, возможно, мы станем использовать ее во столько же раз активнее, и
00:20:33проблема останется прежней, но все же это определенно расширило бы возможности уже сегодня. И, конечно,
00:20:40открыло бы совершенно новые сценарии использования. Появилась бы возможность просто забросить туда
00:20:45целую кодовую базу и работать с ней напрямую. Тогда все эти костыли, что мы используем сейчас, уйдут в прошлое.
00:20:52Нам не понадобятся субагенты. Нам не понадобятся системы RAG, если все это заработает. Но это пока лишь
00:21:00«если», и нам еще предстоит увидеть, оправдают ли они свои громкие обещания. Если да,
00:21:07то они определенно основали компанию на миллиарды, а то и триллионы долларов.

Key Takeaway

Переход от плотного внимания к выборочному разреженному вниманию в архитектуре sub-q обещает революцию в обработке длинного контекста (до 12 миллионов токенов) при значительном снижении затрат и вычислительной сложности.

Highlights

  • Анонсирована архитектура sub-quadratic (sub-q), позволяющая работать с окном контекста в 12 миллионов токенов.

  • Стоимость инференса новой модели составляет 5% от стоимости модели Opus 4.7.

  • Архитектура sub-q использует разреженное внимание (sparse attention) вместо квадратичной сложности (N на N) плотных моделей.

  • Тесты на бенчмарках Ruler и MRCRv2 показывают уровень эффективности, сопоставимый с Opus 4.6.

  • Модель способна генерировать качественный программный код на основе больших объемов данных, загруженных в контекстное окно.

Timeline

Анонс технологии sub-q и ее потенциал

  • Анонсирован новый тип моделей с окном контекста в 12 миллионов токенов.
  • Стоимость инференса для задач с контекстом 1 млн токенов составляет 5% от стоимости Opus.
  • Технология может устранить необходимость в текущих вспомогательных методах, таких как RAG и субагенты.

Анонс затрагивает работу с огромными объемами данных, включая кодовые базы и юридические документы. Увеличение контекстного окна до 12 миллионов токенов позволяет загружать целые проекты целиком, решая проблему ограниченного видения модели в текущих решениях. Если заявленные характеристики подтвердятся, это полностью изменит способы взаимодействия с ИИ-агентами.

Анализ бенчмарков и ограничений

  • Модель протестирована на бенчмарках Ruler, MRCRv2 и специализированном тесте по программированию.
  • Результаты на текущих бенчмарках находятся в диапазоне Opus 4.6.
  • Отсутствует полная техническая документация и официальная карточка модели.

Представленные данные ограничены тремя тестами, что оставляет вопросы о реальной производительности. Несмотря на отставание в некоторых показателях от передовых моделей, способность модели эффективно генерировать код на больших массивах данных подтверждается результатами теста для разработчиков.

Техническое различие: плотное и разреженное внимание

  • Плотное внимание (dense attention) требует анализа всех связей между токенами с квадратичной сложностью.
  • Разреженное внимание (sparse attention) минимизирует количество связей для каждого нового токена.
  • Предыдущие попытки разреженного внимания (локальные окна, глобальные токены, роутеры) имели критические недостатки в качестве.

Текущие модели тратят огромные ресурсы, сопоставляя каждый новый токен со всеми предыдущими. Альтернативные методы вроде скользящего окна или глобального обобщающего токена часто теряют важную информацию, что снижает интеллект модели. Разреженное внимание направлено на выбор только релевантных позиций для генерации.

Механизм SSA и перспективы развития

  • Механизм SSA (sub-quadratic selective attention) использует маршрутизацию на основе контента.
  • Система активирует только те части последовательности, которые несут значимый сигнал.
  • Технология потенциально решает проблему дефицита вычислительных мощностей и чипов.

Разработчики утверждают, что их подход не является аппроксимацией внимания, а представляет собой интеллектуальный пропуск нерелевантных данных. Если этот метод окажется работоспособным, он позволит отказаться от существующих костылей в виде RAG-систем. Успех проекта напрямую зависит от того, насколько эффективно механизм маршрутизации будет выявлять нужные токены в реальных сценариях.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video