Claude выпустила Opus 4.7, и конкуренты даже рядом не стоят

CChase AI
Computing/SoftwareBusiness NewsConsumer ElectronicsInternet Technology

Transcript

00:00:00Итак, только что вышла Opus 4.7, и, судя по цифрам,
00:00:04это масштабное обновление. Давайте погрузимся в детали. Прежде всего,
00:00:08бенчмарки. Здесь справа они показывают Mythos,
00:00:12просто чтобы подразнить нас тем, что действительно существует.
00:00:15Но на что я действительно хочу обратить внимание, так это на 4.7 против 4.6, потому что кто знает,
00:00:20когда Mythos станет доступен. И судя по показателям,
00:00:23это очень солидный скачок вперед, особенно в программировании.
00:00:28Если мы взглянем на агентское кодирование, мы увидим скачок с 53 до 64,
00:00:32с 80 до 87,
00:00:34и с 65 до 69 в трех больших тестах: SWE-bench
00:00:39Pro, SWE-bench Verified и Terminal Bench 2.0.
00:00:42Единственные места, где бенчмарки Opus 4.7
00:00:46не на вершине среди всех остальных моделей,
00:00:49не считая Mythos, — это агентский поиск, где мы видим GPT 5.4.
00:00:54Там 89.3 против Opus 4.7,
00:00:57у которой, как ни странно, показатель упал по сравнению с 4.6. Знаете,
00:01:01когда видишь подобные вещи,
00:01:02где показывают бенчмарки с результатом ниже, чем у Opus 4.6,
00:01:06невольно думаешь, не вставили ли они их специально. Мол: «О нет,
00:01:08ребята, эти бенчмарки настоящие. Мы бы не стали врать. Видите?»
00:01:11Видите это... Эм,
00:01:12но 5.4 впереди в агентском поиске, а также в рассуждениях на уровне выпускников.
00:01:17Еще одна область с огромным улучшением — визуальное мышление.
00:01:21Тут мы прыгаем с 69 до 82,
00:01:25и это может быть связано с тем, что у этой модели гораздо лучше
00:01:29зрение.
00:01:29Нам говорят, что изображения, которые вы загружаете в Opus 4.7, теперь имеют
00:01:34в 3 раза большее разрешение, и это огромный плюс.
00:01:36Если вы работаете с чем-то вроде диаграмм или мелкого текста,
00:01:38и мы видим те же цифры, отраженные здесь на этих графиках.
00:01:42Улучшения в интеллектуальной работе, зрении, огромный скачок в анализе документов —
00:01:46с 57.1 до 80.6, что является огромным преимуществом.
00:01:50Если вы используете что-то вроде Cowork,
00:01:52применяете это в офисе и целыми днями скармливаете модели
00:01:55документы. Рассуждения в длинном контексте — тоже важный момент.
00:01:57На этом канале мы постоянно твердим о «гниении контекста» и о том, что нам нужно
00:02:02быть очень сфокусированными на управлении сессиями. Не думаю, что это изменится. То есть,
00:02:07рост с 71 до 75 — это здорово.
00:02:09Но не стоит менять подход к агрессивной очистке: как только заполнили 20%
00:02:13или 25% окна контекста, нужно чистить, но это все равно шаг вперед.
00:02:17Нам приятно это видеть. И вот еще кое-что интересное.
00:02:19Этот бенчмарк кодирования связан с мультимодальностью. Они пишут код,
00:02:22но это также включает задачи, где в контекст подбрасываются такие вещи,
00:02:25как изображения. И я думаю, тут нет сюрпризов.
00:02:28Большая часть этого успеха связана с разрешением.
00:02:30Помимо самой модели, было еще несколько обновлений.
00:02:32Самое важное — больше контроля над уровнем усилий. Теперь есть уровень X-high,
00:02:37вероятно, позаимствованный у OpenAI, между High и Max.
00:02:40Вдобавок к этому, Cloud Code теперь по умолчанию использует Extra High.
00:02:44Думаю, это реакция на заявления многих людей о том, что Opus 4.6
00:02:48был «порезан». Борис Черный, создатель Opus... ну, не создатель Opus,
00:02:52а создатель Cloud Code, выступил и сказал:
00:02:54«Вообще-то мы переместили дефолтный уровень рассуждений, уровень усилий,
00:02:58на Medium». Так что выпуск уровня X-high,
00:03:01на мой взгляд, — это ответ на ту ситуацию, попытка сделать модель в кавычках «лучше»
00:03:05и заставить её стараться больше, но не переводя всех на Max, иначе маятник качнется
00:03:10в другую сторону, и все будут жаловаться на быстрый расход лимитов. И помните,
00:03:12если вы хотите это изменить,
00:03:13вам просто нужно ввести команду /effort и установить свой уровень.
00:03:16Более высокое разрешение также доступно в API.
00:03:19И еще они выпустили новую команду /ultra-review.
00:03:24Так что теперь есть выделенная сессия для ревью. Кроме того,
00:03:28они расширили автоматический режим. И если вы не знаете об Auto Mode,
00:03:31это по сути просто альтернатива «опасному пропуску разрешений». Итак,
00:03:34одна вещь, которую они здесь отмечают: Opus 4.7 будет потреблять больше токенов,
00:03:39чем 4.6.
00:03:40Они прямо заявляют, что Opus 4.7 использует обновленный токенизатор и лучше
00:03:45обрабатывает текст, но это увеличивает количество токенов на входе
00:03:50примерно в 1–1.35 раза, в зависимости от типа контента.
00:03:54И второе: Opus 4.7 больше «думает» на высоких уровнях усилий.
00:03:58Помните об этом, потому что они ставят дефолтное усилие на Extra High,
00:04:03хотя раньше было Medium, а Opus 4.7 и так тратит больше токенов.
00:04:07Так что, если вы все это время были на Medium,
00:04:09ничего не меняли и уже упирались в лимиты использования на
00:04:13версии 4.6, будьте осторожны. Имейте в виду, что вы точно можете столкнуться с проблемами.
00:04:18Если вы один из таких пользователей,
00:04:19учтите, что теперь будет расходоваться еще больше токенов.
00:04:21Что также интересно, они убрали режим Extended Thinking.
00:04:25И если вы хотите узнать больше и глубоко погрузиться в процесс миграции,
00:04:28они опубликовали целый раздел в документации.
00:04:30В общем и целом, это выглядит как очень солидное обновление.
00:04:32И я с нетерпением жду возможности зайти и протестировать его лично.

Key Takeaway

Обновление Opus 4.7 значительно превосходит версию 4.6 в программировании и визуальном анализе за счет трехкратного увеличения разрешения изображений, но требует на 35% больше токенов для работы.

Highlights

Opus 4.7 повышает показатели агентского кодирования с 53 до 64 в тесте SWE-bench Pro и с 80 до 87 в SWE-bench Verified.

Разрешение загружаемых изображений увеличилось в 3 раза, что подняло точность визуального мышления с 69 до 82 пунктов.

Производительность при анализе документов выросла на 41% — с 57.1 до 80.6 баллов по внутренним тестам.

Новый уровень рассуждений Extra High стал стандартом по умолчанию в Cloud Code для предотвращения поверхностных ответов.

Обновленный токенизатор и глубокое мышление увеличивают расход токенов на входе в 1–1.35 раза по сравнению с версией 4.6.

Разработчики полностью удалили режим Extended Thinking, заменив его расширенным управлением уровнем усилий /effort.

Timeline

Сравнение бенчмарков и лидерство в программировании

  • Opus 4.7 демонстрирует существенный отрыв от версии 4.6 в трех ключевых тестах программирования.
  • Показатель SWE-bench Pro вырос на 11 пунктов, достигнув отметки 64.
  • Модель уступает GPT 5.4 только в категориях агентского поиска и рассуждений уровня выпускников вузов.

Данные бенчмарков подтверждают доминирование модели в написании кода и выполнении агентских задач. В SWE-bench Verified результат улучшился с 80 до 87, а в Terminal Bench 2.0 — с 65 до 69. Незначительное падение показателей в агентском поиске по сравнению с 4.6 указывает на честность представленных разработчиками данных.

Улучшение зрения и анализа документов

  • Трехкратное увеличение разрешения входных изображений напрямую улучшило визуальное мышление до 82 баллов.
  • Эффективность обработки офисных документов выросла с 57.1 до 80.6.
  • Рассуждения в длинном контексте прибавили 4 пункта, достигнув показателя 75.

Повышенная четкость обработки визуальных данных позволяет модели точнее распознавать мелкий текст и сложные диаграммы. Этот прогресс также положительно сказывается на мультимодальном кодировании, где изображения подаются в контекст вместе с кодом. Несмотря на рост качества работы с длинным контекстом, сохраняется необходимость очистки сессии после заполнения 25% окна для предотвращения ошибок.

Новые инструменты контроля и лимиты использования

  • Команда /effort получила новый уровень интенсивности Extra High для более глубокой проработки задач.
  • Потребление токенов выросло минимум на 30% из-за смены токенизатора и настроек рассуждения.
  • Специализированная команда /ultra-review вводит выделенные сессии для проверки кода.

Переход Cloud Code на уровень Extra High по умолчанию исправляет проблему упрощенных ответов, характерную для предыдущих версий. Пользователям API теперь доступно высокое разрешение изображений, а автоматический режим расширен для удобства работы без ручных подтверждений. Повышенный расход ресурсов делает критически важным мониторинг лимитов, особенно при использовании настроек высокой интенсивности мыслительного процесса.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video