Хайп или прорыв? | Подробный разбор
MMaximilian Schwarzmüller
Computing/SoftwareBusiness NewsInternet Technology
Transcript
00:00:00Пару часов назад произошло довольно крупное событие. Или поднялся знатный хайп. Мы
00:00:06пока не знаем, и я бы точно не стал исключать этот самый хайп. Бессмысленный хайп. Но если
00:00:13это правда, то анонс действительно важный. Потому что Александр Ведин (которого я не знал,
00:00:20да и вы, скорее всего, тоже) анонсировал sub-q (sub-quadratic) — крупный прорыв в сфере
00:00:28интеллекта LLM. И анонсировал он совершенно новый тип больших языковых моделей, которые
00:00:36превосходно справляются с длинным контекстом, не теряя при этом — по крайней мере, так заявляется —
00:00:45не теряя «интеллекта» (в кавычках, ведь модели просто генерируют токены, но в итоге это дает им ум) —
00:00:52в общем, без потери интеллекта, к которому вы привыкли в передовых моделях вроде Opus 4.7,
00:00:59GPT 5.5 и так далее. И вот о чем он пишет в своем анонсе в X — а
00:01:04также есть отдельный пост в блоге с техническими подробностями, который мы тоже разберем,
00:01:08поскольку в этом выпуске и видео мы погрузимся в тему глубоко — так вот, он анонсирует модель,
00:01:16которая работает намного быстрее при инференсе на задачах с контекстом в 1 миллион токенов и стоит гораздо дешевле.
00:01:26Всего 5% от стоимости Opus. Он также обещает, что их первая модель будет иметь окно контекста
00:01:35в 12 миллионов токенов. Чтобы вы понимали масштаб: в такое окно
00:01:42можно уместить целые кодовые базы, огромные проекты. Туда можно загрузить несколько увесистых
00:01:49юридических документов, и именно поэтому подобные модели, если они существуют и работают, могут стать
00:01:57суперполезными и полностью изменить правила игры. Иначе и не скажешь. Если они работают — деталей
00:02:02пока мало, я к этому еще вернусь — но если они работают, то все эти обходные пути,
00:02:08которые мы используем сейчас (субагенты, RAG и так далее), представляющие собой костыли вокруг проблемы,
00:02:15когда модель видит лишь малую часть того, что должна видеть. То есть, если вы работаете с кодом,
00:02:22существующие передовые модели, в зависимости от размера вашей базы, не могут видеть ее целиком.
00:02:28Они не могут загрузить проект полностью. И если вы просите модель что-то изменить, вам остается надеяться,
00:02:33что она найдет нужные части в вашем коде, чтобы внести правки, о которых вы просили.
00:02:40И это, конечно, становится все большей проблемой по мере роста кодовой базы или объема
00:02:45документов, с которыми вы хотите заставить модель работать. Так что модель, которая способна стабильно
00:02:52работать с окном контекста в 12 миллионов токенов без потери качества, действительно перевернет индустрию.
00:02:59Говоря о революционных вещах: мы глубоко разберем это в видео, а также во всех моих курсах.
00:03:06Если вам интересно научиться на практике использовать такие инструменты, как Claude Code, Codex, выполнять другие задачи ИИ
00:03:13или программировать, или совмещать все это, то на мои курсы определенно стоит взглянуть. Они практические,
00:03:19прикладные, глубокие, и вы можете приобрести как отдельные курсы, так и подписку,
00:03:24которая дает доступ ко всем материалам за единую ежемесячную или ежегодную плату. Ссылки в описании.
00:03:31А теперь давайте заглянем немного глубже. Как я уже говорил, есть пост с анонсом
00:03:36и некоторыми техническими деталями, но, честно говоря, их там негусто. Многое осталось за кадром,
00:03:43да и бенчмарков нам показали совсем немного. А точнее, они опубликовали всего три
00:03:49теста. Бенчмарк Ruler, который проверяет поведение извлечения и рассуждения за рамками простого
00:03:56поиска «иглы в стоге сена», включая многошаговый поиск, агрегацию, отслеживание переменных и выборочную
00:04:01фильтрацию. То есть этот тест в конечном счете проверяет способность модели находить несколько элементов
00:04:06нужной информации в относительно большом окне контекста. 128 000 токенов. Не сказать чтобы супермного,
00:04:15далеко до обещанных 12 миллионов, но и не жалкие 5 тысяч. В общем,
00:04:22этот тест проверяет, насколько хорошо модель находит и связывает воедино разные части из
00:04:28более-менее крупного окна контекста или базы документов. И здесь их модель находится на том же уровне,
00:04:36что и OPUS 4.6. В том посте они также упомянули другой бенчмарк, MRCRv2, который тоже посвящен
00:04:45задачам извлечения из длинного контекста. Там их модель, по их словам, находится в диапазоне OPUS 4.6. Хотя,
00:04:53если посмотреть на остальные результаты в таблице, она все же уступает.
00:05:00Что, конечно, любопытно, ведь вся их фишка как раз в работе с длинным контекстом.
00:05:07Но с другой стороны, можно возразить, что для сверхдлинных окон контекста
00:05:15другие модели вообще неприменимы, тогда как их модель все же может дать неплохие результаты,
00:05:22а это лучше, чем ничего. И, разумеется, их модели со временем могут стать намного лучше.
00:05:29Так что я бы не стал считать это плохим знаком для первой версии. Просто факт, который стоит отметить.
00:05:35И еще стоит заметить, что она показывает себя гораздо лучше, чем Gemini 3.1 Pro или OPUS 4.7 в этой таблице.
00:05:43Также они опубликовали один бенчмарк, который показался мне интересным: он связан с задачами
00:05:49программирования. Сразу скажу, что я не большой фанат всех этих бенчмарков. Мы все знаем,
00:05:56что их можно обходить или подстраиваться под них; модели могут намеренно или ненамеренно
00:06:05дообучаться под хорошие результаты в тестах. В прошлом мы видели немало таких случаев,
00:06:12но тем не менее, они дают нам хоть какую-то пищу для размышлений. И этот бенчмарк для разработчиков
00:06:20кажется мне интересным, потому что здесь мы видим, что их модель находится практически в том же диапазоне,
00:06:27что и модели OPUS. А это показывает, что она способна не просто находить информацию в длинных
00:06:36окнах контекста, во множестве документов или больших кодовых базах, но и делать с ней что-то полезное.
00:06:42Она способна генерировать осмысленный и качественный код благодаря своему интеллекту и тем данным,
00:06:50которые она извлекает из этих длинных окон контекста. То есть речь идет не только о поиске,
00:06:54но и о полезной работе. И здесь дела, похоже, идут хорошо. Но, как я уже говорил, на этом
00:07:00все. Никаких глубоких разборов или технических деталей. Карточки модели пока нет.
00:07:09Поэтому все, что у нас есть, — это описание того, как их модель использует разреженное внимание
00:07:16вместо плотного внимания для работы с длинным контекстом, чтобы функционировать эффективно
00:07:22в сценариях с огромными объемами данных, и за счет чего модель ускоряется и снижает затраты,
00:07:29ведь она работает быстрее и стоит дешевле, верно? Именно это они и заявили. Давайте же
00:07:37сравним плотное и разреженное внимание, чтобы понять, что здесь происходит. Плотное внимание (dense attention) —
00:07:45это то, что используется в текущих передовых моделях. В вашей GPT 5.5, Opus 4.7 и остальных.
00:07:52Все они — плотные модели. Это означает, что для генерации каждого нового токена, скажем, токена D,
00:07:58необходимо оценить все остальные токены и связи между
00:08:08ними. Ведь вся суть больших языковых моделей сводится к тому,
00:08:13что вы выводите последующий токен (который может быть целым словом или его частью) на основе того, что было
00:08:20до него. К примеру, если у вас есть предложение вроде: «Договор может быть расторгнут в любой...»,
00:08:28то вы хотите предсказать следующее за ним слово. Возможно, вы спросили модель: «Эй,
00:08:35когда я могу расторгнуть договор?» И прикрепили сам договор в виде PDF-файла или обычного
00:08:42текста к своему запросу. То есть перед этим предложением, которое модель
00:08:48генерирует на выходе, идет ваш вопрос и, возможно, другой контекст. Например, сам
00:08:57договор, верно? Именно так мы сейчас и пользуемся моделями. И чтобы выдать этот токен,
00:09:03а также все предшествующие ему токены, модель должна проанализировать
00:09:10весь диалог, все содержащиеся в нем токены. То есть ваш вопрос и любой дополнительный
00:09:16контекст. Она разбивает все это на токены, а затем объединяет их или
00:09:23вычисляет веса на основе всех возможных комбинаций предыдущих токенов. К примеру,
00:09:30если бы это был весь наш диалог (намеренно короткий для наглядности), то именно
00:09:38так он был бы разбит на токены для моделей вроде GPT-5. Некоторые токены —
00:09:46это просто слово или слово с пробелом перед ним. Некоторые — просто специальные символы.
00:09:51И чтобы сгенерировать следующий токен, все предыдущие токены в итоге связываются друг
00:09:58с другом для понимания общего смысла. Ведь знак вопроса имеет совершенно
00:10:05разное значение и влияние на будущий токен в зависимости от того, что стояло перед этим
00:10:11знаком вопроса. Так что знак вопроса сопоставляется со всеми предыдущими токенами. И именно совокупность
00:10:17всех этих комбинаций в конечном счете используется для вывода финального токена. Вот так на
00:10:22высоком уровне можно представить себе работу плотного внимания. Естественно,
00:10:29это крайне неэффективно, но это лучшее, что у нас есть на данный момент, по крайней мере, в плане
00:10:36интеллекта и качества работы моделей. Но сложность здесь квадратичная, то есть N на N,
00:10:44что означает: для вывода нового токена нужно связать все предыдущие токены. Существуют
00:10:49механизмы оптимизации вроде KV-кэширования, которое сохраняет результаты ранее
00:10:56рассчитанных весов. Чтобы для нового токена вам не приходилось пересчитывать
00:11:01все предыдущие комбинации, но вам все равно нужно рассчитать новый токен, сопоставив его со всеми
00:11:08предыдущими кэшированными весами. То есть вы все равно остаетесь в рамках квадратичной сложности.
00:11:16И это, конечно, медленно и неэффективно, из-за чего современные передовые модели требуют огромных вычислительных ресурсов,
00:11:24работают небыстро, особенно когда вы переходите к большим окнам контекста, и именно поэтому существуют
00:11:31довольно жесткие лимиты на размер контекста. Из-за квадратичной сложности контекст в 12 миллионов
00:11:38токенов практически невозможно обработать. Это заняло бы вечность, а время вычислений — лишь одно
00:11:46измерение, ведь есть еще и память, которую нужно зарезервировать. Вот так вкратце работают плотные модели и в этом их ограничения.
00:11:54Противоположный или альтернативный подход, который используется в этой
00:12:00новой модели sub-q, анонсированной вчера, заключается в использовании разреженного внимания (sparse attention). И
00:12:06как же работает разреженное внимание? Идея в том, что для расчета нового
00:12:14токена модель смотрит не на все предыдущие токены и учитывает комбинации не всех
00:12:20токенов, а лишь нескольких выбранных. К примеру, если нужно вывести токен D,
00:12:28модель может смотреть только на B и C, игнорируя A. Но тут, конечно, встает главный вопрос:
00:12:33как решить, на какие именно предыдущие токены смотреть или какие из них важны для
00:12:40генерации нового токена. В прошлом использовались разные подходы,
00:12:46ведь эта новая модель — далеко не первая с разреженным вниманием. Но причина, почему они до сих пор
00:12:52не взлетели, кроется в их серьезных ограничениях. Например, один из способов —
00:12:59использование локального окна (local window). Что это значит? Это значит, что для генерации нового токена,
00:13:06скажем, пятого по счету в последовательности, модель смотрит,
00:13:13например, только на два токена перед ним. То есть на третий и четвертый. Получается скользящее окно,
00:13:22и модель всегда анализирует только те токены, которые находятся непосредственно перед генерируемым. Как
00:13:27вы понимаете, у этого подхода есть серьезные минусы. Ведь если я смотрю только на последние
00:13:33несколько токенов, а меня интересует, когда может быть расторгнут договор, то эта информация
00:13:39может находиться где-то в начале контекста запроса, но она не попадет в это локальное окно,
00:13:45если оно ограничено лишь парой последних токенов. И следующий токен, который нужно
00:13:50предсказать, вообще понятия не имеет, что было в контексте раньше. Так что это бесполезно. При таком подходе у вас
00:13:55может быть хоть бесконечный контекст, но он просто не будет иметь значения. Очевидный минус. Другой
00:14:01подход — так называемый глобальный токен (global token). Здесь идея в том, что
00:14:09у вас есть некий глобальный суммирующий токен. На высоком уровне это можно представить как специальный токен,
00:14:16который помещается в начало последовательности. Модель вставляет его
00:14:20в самое начало, и он как бы обобщает все последующие токены. Примерно так.
00:14:27И затем при предсказании следующего токена этот глобальный токен принимается во внимание. Это может
00:14:34работать отлично, если вернуться к нашему примеру с юридическим текстом, который вы передали
00:14:40в запросе. Если это саммари, сгенерированное для вашего диалога, включает в себя
00:14:46условия расторжения договора, то следующий токен будет предсказан очень точно
00:14:53на основе этого краткого содержания. Но если вам не повезло и в саммари эти детали не попали,
00:15:00что ж, тогда вы возвращаетесь к ситуации, когда нужная информация полностью отсутствует.
00:15:04Так что подход с глобальным токеном жизнеспособен, но, разумеется, чем длиннее окно контекста,
00:15:12тем более обобщенным становится это саммари. Это легко представить. Если у вас
00:15:16есть PDF-документ на сто страниц и вы решите сжать его до пары предложений, они будут очень
00:15:22размытыми, верно? Так что предсказать следующий токен на основе такого обобщения вряд ли получится.
00:15:29Еще один подход — использование роутера (маршрутизатора). Это когда у вас есть дополнительная нейросеть.
00:15:37То есть работают две модели: ваша основная большая языковая модель и вспомогательная
00:15:43модель маршрутизации. И этот роутер оценивает запрос пользователя или контекст
00:15:51следующего генерируемого токена, а затем направляет его к тем токенам, которые считает
00:15:59релевантными. Но это означает, что теперь у вас есть модель маршрутизации, которой как-то
00:16:04нужно отслеживать все остальные токены после нее. А это, скорее всего, возвращает нас к квадратичной
00:16:10сложности внимания, либо делает процесс неточным и вы начинаете от этого зависеть. То есть вы либо снова
00:16:17приходите к квадратичной сложности и мало что выигрываете по сравнению с плотной моделью, либо
00:16:23теряете в качестве, потому что роутер работает не лучшим образом. Как и в случае
00:16:30с саммари, вам остается лишь надеяться, что роутер хорошо справится со своей задачей и активирует нужные токены для
00:16:37предсказания следующего. Вот почему разреженное внимание — штука интересная, но до сих пор
00:16:46не получившая широкого распространения: все эти подходы имеют серьезные компромиссы, и на данный момент,
00:16:54насколько мне известно, не существовало модели с разреженным вниманием, которая выдавала бы
00:17:00качество, сопоставимое с современными плотными моделями, и при этом работала бы на огромном
00:17:07окне контекста. И создатели новой модели обещают это исправить. В своем посте с анонсом
00:17:14они упоминают, что их модель выполняет выбор на основе контента (content-dependent selection). Для каждого запроса модель выбирает,
00:17:22какие части последовательности заслуживают внимания, и рассчитывает внимание именно для этих позиций. То есть
00:17:28в итоге мы возвращаемся к подходу с маршрутизацией, но они обещают и заявляют,
00:17:35что их механизм крайне эффективен для активации нужных токенов при предсказании
00:17:43следующего. Они отмечают, что плотное внимание исходит из того, что любая пара токенов может быть важна, поэтому оценивает
00:17:49их все. На практике же почти ни одна пара не важна. SSA (sub-quadratic selective attention),
00:17:55то есть их подход, убирает это допущение. Он не аппроксимирует внимание, а ограничивает
00:18:01его только теми позициями, которые действительно несут сигнал, и пропускает все остальные. В этом их суть.
00:18:08Они используют маршрутизацию на основе контента для активации нужных токенов при
00:18:14предсказании следующего, и именно это дает им огромный прирост эффективности. Нам еще предстоит
00:18:21увидеть, насколько хорошо это работает на самом деле, потому что, как я уже говорил, выборка бенчмарков пока очень скромная.
00:18:30Других тестов нет. Карточки модели нет. Деталей о том, как именно работает
00:18:36их выбор на основе контента, тоже нет, поэтому вопросов пока остается очень много.
00:18:42Но если чему-то мы точно научились за последние месяцы и годы,
00:18:49так это тому, что ИИ — это, безусловно, полезный инструмент, и я пользуюсь им каждый день. Вы, скорее всего, тоже,
00:18:57и инструменты вроде Codec или Claude Code действительно полезны. В этом у меня нет сомнений,
00:19:04исходя из моего опыта работы с ними, но мы также поняли, что находимся в индустрии с огромным количеством хайпа. Мы в
00:19:10транзитном периоде. Все меняется или очень многое меняется прямо сейчас, и поэтому, конечно,
00:19:16кругом звучит масса обещаний, но далеко не все они сбываются и превращаются
00:19:26во что-то действительно полезное. Взять хотя бы модели от Meta, которые были плотными. У Llama 4
00:19:35были потрясающие показатели в бенчмарках, но на деле они оказались не так хороши. Так что примеров раздутого хайпа
00:19:42хватает, и это лишь один из них. Их полно. Определенно стоит
00:19:49сохранять осторожность, но если они выпустят эти модели (а подать заявку на ранний доступ можно уже сейчас,
00:19:56я подал, но пока его не получил) — так вот, если эти модели оправдают обещания, если они будут
00:20:05эффективны и умны на больших окнах контекста, это действительно многое изменит. Это поможет решить
00:20:13проблему нехватки вычислительных мощностей, ведь сейчас мощностей в мире катастрофически не хватает.
00:20:19Нам нужно гораздо больше дата-центров, чипов, электричества и всего остального. Так что появление модели,
00:20:25которая в разы эффективнее, очень помогло бы. Хотя, возможно, мы станем использовать ее во столько же раз активнее, и
00:20:33проблема останется прежней, но все же это определенно расширило бы возможности уже сегодня. И, конечно,
00:20:40открыло бы совершенно новые сценарии использования. Появилась бы возможность просто забросить туда
00:20:45целую кодовую базу и работать с ней напрямую. Тогда все эти костыли, что мы используем сейчас, уйдут в прошлое.
00:20:52Нам не понадобятся субагенты. Нам не понадобятся системы RAG, если все это заработает. Но это пока лишь
00:21:00«если», и нам еще предстоит увидеть, оправдают ли они свои громкие обещания. Если да,
00:21:07то они определенно основали компанию на миллиарды, а то и триллионы долларов.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video