00:00:00Итак, только что вышла Opus 4.7, и, судя по цифрам,
00:00:04это масштабное обновление. Давайте погрузимся в детали. Прежде всего,
00:00:08бенчмарки. Здесь справа они показывают Mythos,
00:00:12просто чтобы подразнить нас тем, что действительно существует.
00:00:15Но на что я действительно хочу обратить внимание, так это на 4.7 против 4.6, потому что кто знает,
00:00:20когда Mythos станет доступен. И судя по показателям,
00:00:23это очень солидный скачок вперед, особенно в программировании.
00:00:28Если мы взглянем на агентское кодирование, мы увидим скачок с 53 до 64,
00:00:32с 80 до 87,
00:00:34и с 65 до 69 в трех больших тестах: SWE-bench
00:00:39Pro, SWE-bench Verified и Terminal Bench 2.0.
00:00:42Единственные места, где бенчмарки Opus 4.7
00:00:46не на вершине среди всех остальных моделей,
00:00:49не считая Mythos, — это агентский поиск, где мы видим GPT 5.4.
00:00:54Там 89.3 против Opus 4.7,
00:00:57у которой, как ни странно, показатель упал по сравнению с 4.6. Знаете,
00:01:01когда видишь подобные вещи,
00:01:02где показывают бенчмарки с результатом ниже, чем у Opus 4.6,
00:01:06невольно думаешь, не вставили ли они их специально. Мол: «О нет,
00:01:08ребята, эти бенчмарки настоящие. Мы бы не стали врать. Видите?»
00:01:11Видите это... Эм,
00:01:12но 5.4 впереди в агентском поиске, а также в рассуждениях на уровне выпускников.
00:01:17Еще одна область с огромным улучшением — визуальное мышление.
00:01:21Тут мы прыгаем с 69 до 82,
00:01:25и это может быть связано с тем, что у этой модели гораздо лучше
00:01:29зрение.
00:01:29Нам говорят, что изображения, которые вы загружаете в Opus 4.7, теперь имеют
00:01:34в 3 раза большее разрешение, и это огромный плюс.
00:01:36Если вы работаете с чем-то вроде диаграмм или мелкого текста,
00:01:38и мы видим те же цифры, отраженные здесь на этих графиках.
00:01:42Улучшения в интеллектуальной работе, зрении, огромный скачок в анализе документов —
00:01:46с 57.1 до 80.6, что является огромным преимуществом.
00:01:50Если вы используете что-то вроде Cowork,
00:01:52применяете это в офисе и целыми днями скармливаете модели
00:01:55документы. Рассуждения в длинном контексте — тоже важный момент.
00:01:57На этом канале мы постоянно твердим о «гниении контекста» и о том, что нам нужно
00:02:02быть очень сфокусированными на управлении сессиями. Не думаю, что это изменится. То есть,
00:02:07рост с 71 до 75 — это здорово.
00:02:09Но не стоит менять подход к агрессивной очистке: как только заполнили 20%
00:02:13или 25% окна контекста, нужно чистить, но это все равно шаг вперед.
00:02:17Нам приятно это видеть. И вот еще кое-что интересное.
00:02:19Этот бенчмарк кодирования связан с мультимодальностью. Они пишут код,
00:02:22но это также включает задачи, где в контекст подбрасываются такие вещи,
00:02:25как изображения. И я думаю, тут нет сюрпризов.
00:02:28Большая часть этого успеха связана с разрешением.
00:02:30Помимо самой модели, было еще несколько обновлений.
00:02:32Самое важное — больше контроля над уровнем усилий. Теперь есть уровень X-high,
00:02:37вероятно, позаимствованный у OpenAI, между High и Max.
00:02:40Вдобавок к этому, Cloud Code теперь по умолчанию использует Extra High.
00:02:44Думаю, это реакция на заявления многих людей о том, что Opus 4.6
00:02:48был «порезан». Борис Черный, создатель Opus... ну, не создатель Opus,
00:02:52а создатель Cloud Code, выступил и сказал:
00:02:54«Вообще-то мы переместили дефолтный уровень рассуждений, уровень усилий,
00:02:58на Medium». Так что выпуск уровня X-high,
00:03:01на мой взгляд, — это ответ на ту ситуацию, попытка сделать модель в кавычках «лучше»
00:03:05и заставить её стараться больше, но не переводя всех на Max, иначе маятник качнется
00:03:10в другую сторону, и все будут жаловаться на быстрый расход лимитов. И помните,
00:03:12если вы хотите это изменить,
00:03:13вам просто нужно ввести команду /effort и установить свой уровень.
00:03:16Более высокое разрешение также доступно в API.
00:03:19И еще они выпустили новую команду /ultra-review.
00:03:24Так что теперь есть выделенная сессия для ревью. Кроме того,
00:03:28они расширили автоматический режим. И если вы не знаете об Auto Mode,
00:03:31это по сути просто альтернатива «опасному пропуску разрешений». Итак,
00:03:34одна вещь, которую они здесь отмечают: Opus 4.7 будет потреблять больше токенов,
00:03:39чем 4.6.
00:03:40Они прямо заявляют, что Opus 4.7 использует обновленный токенизатор и лучше
00:03:45обрабатывает текст, но это увеличивает количество токенов на входе
00:03:50примерно в 1–1.35 раза, в зависимости от типа контента.
00:03:54И второе: Opus 4.7 больше «думает» на высоких уровнях усилий.
00:03:58Помните об этом, потому что они ставят дефолтное усилие на Extra High,
00:04:03хотя раньше было Medium, а Opus 4.7 и так тратит больше токенов.
00:04:07Так что, если вы все это время были на Medium,
00:04:09ничего не меняли и уже упирались в лимиты использования на
00:04:13версии 4.6, будьте осторожны. Имейте в виду, что вы точно можете столкнуться с проблемами.
00:04:18Если вы один из таких пользователей,
00:04:19учтите, что теперь будет расходоваться еще больше токенов.
00:04:21Что также интересно, они убрали режим Extended Thinking.
00:04:25И если вы хотите узнать больше и глубоко погрузиться в процесс миграции,
00:04:28они опубликовали целый раздел в документации.
00:04:30В общем и целом, это выглядит как очень солидное обновление.
00:04:32И я с нетерпением жду возможности зайти и протестировать его лично.