Opus 4.7 ВЕЛИКОЛЕПЕН (но не расход токенов)

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Вышла новая лучшая модель — Opus 4.7. Судя по всему, это довольно серьезное обновление.
00:00:05Она определенно лучше пишет код, а также улучшила зрение, самопроверку и,
00:00:09как утверждается, лучше справляется с интерфейсами, делая их более стильными и креативными.
00:00:12Минус в том, что хотя цена не изменилась, обновился токенизатор, поэтому
00:00:17тот же самый промпт теперь может расходовать на 35% больше токенов, к тому же она больше «думает».
00:00:22А это значит еще больше сожженных токенов. В этом релизе есть действительно интересные детали
00:00:26и, вероятно, изменения, которые вы захотите внести в Claude Code прямо сейчас. Давайте же приступим,
00:00:30посмотрим, что нового, и протестируем её.
00:00:31Начну я, пожалуй, с бенчмарков, потому что чуть раньше я немного слукавил, сказав,
00:00:40что это новая лучшая модель. Она лучшая из общедоступных, но эти бенчмарки также включают
00:00:44Mythos — модель настолько мощную, что нам её пока не дают.
00:00:47По словам Anthropic, в Opus 4.7 сейчас тестируются новые киберзащитные механизмы для блокировки запросов,
00:00:52указывающих на запрещенные или высокорискованные способы использования в сфере кибербезопасности.
00:00:56Полученный опыт поможет им подготовить широкий релиз моделей класса Mythos, так что, надеюсь,
00:01:00в будущем я смогу сделать видео о релизе Mythos и о том, как это положит конец разработке ПО
00:01:03в привычном нам виде. Подписывайтесь, чтобы не пропустить.
00:01:06А пока я проигнорирую Mythos и сосредоточусь на той, которой мы реально можем пользоваться,
00:01:10это Opus 4.7, и она действительно показала отличные результаты в бенчмарках.
00:01:13Не буду вдаваться в подробности, вы можете поставить видео на паузу, если хотите изучить
00:01:16каждый показатель. Видно, что в тестах вроде SWE Bench Pro она сделала 10-процентный рывок
00:01:21по сравнению с Opus 4.6, а в Verified — на 7%, и эта тенденция сохраняется
00:01:26почти во всех тестах, кроме кибербезопасности, где показатели немного снизились.
00:01:30Видимо, это связано с теми самыми защитными механизмами: похоже, они искусственно занижают
00:01:34этот балл, пытаясь спасти мир или что-то в этом роде.
00:01:37Также я нашел очень интересный бенчмарк в системной карте, где видно,
00:01:40что производительность при длинном контексте, похоже, резко упала по сравнению с Opus 4.6
00:01:45в тесте «иголка в стоге сена». Мне любопытно, как это скажется на реальном использовании.
00:01:50Помимо бенчмарков, есть еще несколько заметных улучшений, которые могут
00:01:54даже изменить ваш стиль работы с Claude. Первое — это лучшее следование инструкциям,
00:01:58что на деле может привести к неожиданным результатам с промптами, которые вы использовали раньше.
00:02:01Старые модели интерпретировали инструкции вольно или пропускали части, в то время как Opus 4.7
00:02:07сфокусирована на буквальном выполнении, так что вам, возможно, придется подправить свои промпты.
00:02:11Далее — улучшенная мультимодальность: теперь она принимает изображения в три раза
00:02:16более высокого разрешения, чем старые модели. Это должно помочь в задачах
00:02:20по управлению компьютером и извлечению данных. Также улучшена работа с памятью:
00:02:25Opus 4.7 должна лучше использовать память на основе файловой системы, запоминая важные заметки
00:02:30в ходе долгих сессий и используя их для новых задач, требуя меньше контекста на старте.
00:02:34Возможно, это сэкономит мне немного токенов, что очень важно, так как следующее изменение
00:02:39касается токенизатора и процесса мышления. Opus 4.7 использует обновленный токенизатор,
00:02:45который лучше обрабатывает текст, но при этом тот же промпт может стоить на 35% больше.
00:02:49Если добавить к этому то, что Opus 4.7 больше «думает» на высоких уровнях усилий,
00:02:54эта модель будет действительно быстро сжигать токены. Что еще хуже — появился новый,
00:02:58«экстра-высокий» уровень усилий, и он установлен по умолчанию в Claude Code.
00:03:02Поэтому я настоятельно рекомендую протестировать разные уровни и найти подходящий,
00:03:05чтобы понять, можно ли понизить его без потери качества. Для сравнения:
00:03:09новый уровень «Extra High» потребляет примерно столько же токенов, сколько максимальный у Opus 4.6,
00:03:14при этом уровень «High» в Opus 4.7 обходит по баллам максимальный уровень 4.6,
00:03:19используя меньше токенов. Если вас устраивало прежнее качество, используйте эту таблицу
00:03:24для сравнения, так как я для себя, вероятно, выберу уровень «High» в большинстве случаев.
00:03:27Закончив с кратким обзором новинок, я собираюсь потратить свои лимиты и протестировать модель.
00:03:31Первым делом я проверю, стала ли она лучше в дизайне интерфейсов.
00:03:35Я дал ей простой промпт: создать сайт кофейни, используя только файл index.html.
00:03:40Я использую максимальный уровень усилий на всех тестируемых моделях.
00:03:43Сравнивать будем Opus 4.7, 4.6, Gemini 3.1 и GPT 5.4. Вот результат от Opus 4.7,
00:03:51и, по-моему, выглядит довольно мило. Чувствуется атмосфера кафе, использован
00:03:55хороший шрифт, подтянуты изображения с Unsplash. В целом, жаловаться не на что,
00:03:59сайт простой, с симпатичным разделом меню, адаптивной версткой, и в целом
00:04:04выглядит достойно. Если сравнить с тем, что выдала Opus 4.6, вы увидите,
00:04:09что стиль немного другой, хотя шрифт и раздел меню похожи. В целом она чуть
00:04:12хуже, просто потому что не использован приятный фон, а этот градиентный переход
00:04:16совсем не радует глаз, но всё же неплохо. Я бы сказал, Opus 4.7 лишь на ступень выше.
00:04:20Gemini 3.1 же, с другой стороны, выдала, пожалуй, лучший результат.
00:04:25По крайней мере, этот вариант мой любимый — напишите в комментариях,
00:04:29какой больше нравится вам. Мне очень нравится этот фон, который остается неподвижным
00:04:33при скролле. Отлично сделан блок с изображениями в разделе «Наша история»,
00:04:36меню похоже на остальные, но, опять же, на мой взгляд, всё скомпоновано удачнее,
00:04:40включая футер. Так что в этом раунде для меня побеждает 3.1.
00:04:45А вот последнее место однозначно за GPT 5.4. У неё такой типичный «вид и вкус» GPT.
00:04:50Она обожает эти карточки с размытием, но для сайта кофейни это,
00:04:55на мой взгляд, не подходит. Выглядит как любое другое приложение от GPT, что я видел.
00:04:59Так что Opus 4.7 определенно хороша в UI и, вероятно, справится еще лучше,
00:05:04если дать ей больше указаний. Сейчас в Design Arena лидирует Opus 4.6 для сайтов,
00:05:09но я ожидаю, что 4.7 займет её место. Очевидно, что этот тест был довольно простым,
00:05:13поэтому дальше я дам им более сложную задачу. Прямо здесь, в Claude Code,
00:05:17я прошу Opus 4.6 создать панель управления личными финансами, дающую детальный
00:05:21обзор финансового здоровья пользователя, с целым списком функций, указанных в промпте.
00:05:25При этом я не указываю стек технологий — модель должна выбрать его сама и начать с нуля.
00:05:30Первым идет результат от Opus 4.7. Она сделала всё за один промпт
00:05:34примерно за 20 минут, и моя первая реакция — просто «вау».
00:05:39Выглядит очень круто: интерфейс чистый, отличные графики, всё
00:05:44расположено грамотно, подобрана хорошая цветовая схема. Честно говоря,
00:05:48я бы сам мало что здесь улучшил. С точки зрения UI проделана фантастическая работа.
00:05:53Также здесь есть все страницы, о которых я просил: мы видим все счета,
00:05:57транзакции и бюджеты. Мы не можем добавлять новые бюджеты прямо сейчас,
00:06:02похоже, такая функция не предусмотрена, как и в случае с целями. Но мы можем
00:06:05вносить данные в существующие цели, цифры растут, и это обновляет бэкенд API,
00:06:10который она создала. То же самое касается и отправки денег другим людям.
00:06:14Если я протестирую оплату подписки Claude Code, транзакция должна пройти успешно,
00:06:17и я вижу, что она отправлена, а на главной панели мой капитал обновился.
00:06:22Всё работает, на бэкенде используется база данных, и транзакция
00:06:26отображается в списке последних. Глядя на сгенерированный код, скажу, что
00:06:30всё выглядит отлично. Для фронтенда использованы React и Vite — как раз то,
00:06:34что выбрал бы я. Еще использован React Router, я бы, возможно, взял TanStack, но
00:06:38это не критично — оба варианта хороши. Вы видите, что структура аккуратная,
00:06:42все UI-компоненты на месте. В целом, фронтенд сделан очень качественно.
00:06:46За что я снижу оценку, так это за бэкенд, потому что там сервер на Express.
00:06:51В этом нет ничего плохого, но для такого простого приложения я бы выбрал
00:06:54что-то вроде Bun или Hono. Кроме того, способ хранения данных —
00:06:59всё в оперативной памяти. Если я сейчас перезапущу бэкенд-сервис,
00:07:04он загрузит данные из скрипта инициализации, и это просто локальные
00:07:08массивы. Реальной базы данных для сохранения изменений не было. Переходим к Opus 4.6.
00:07:13Сразу скажу: Opus 4.7 определенно справилась лучше в плане дизайна интерфейса.
00:07:18В этом UI мне что-то не нравится. Не знаю, то ли отступов слишком много,
00:07:21то ли дело в светлой теме, в то время как у другой модели была темная.
00:07:24В общем, я определенно предпочитаю вариант Opus 4.7. Хотя компоненты схожи:
00:07:29есть карточки с капиталом, график динамики состояния, последние транзакции
00:07:33и финансовые цели. Также есть отдельные страницы для их отслеживания.
00:07:38Помимо UI, мы можем протестировать функции. Добавлю новую транзакцию:
00:07:42пусть будет 150 долларов на продукты. Кажется, данные обновились,
00:07:46и на главной панели сумма капитала тоже изменилась. Так что здесь всё работает.
00:07:50В одном моменте Opus 4.6, возможно, обошла Opus 4.7 при работе с одним промптом —
00:07:54здесь я могу добавлять счета. Вот я только что добавил аккаунт.
00:07:58То же самое касается целей и бюджетов — я добавил бюджет на образование.
00:08:03Похоже, Opus 4.6 добавила чуть больше функций сразу, но, честно говоря,
00:08:07я просто попросил Opus 4.7 добавить их позже. Обычно ведь не ограничиваешься одним промптом.
00:08:12Что касается кода, Opus 4.6 пошла по тому же пути с React-приложением на Vite,
00:08:16но я заметил одну интересную вещь: тут используются React 19 и React Router
00:08:20DOM 7, тогда как Opus 4.7 выбрала React 18 и React Router 6, хотя я уверен,
00:08:27что у Opus 4.7 база знаний новее. Кроме того, еще один плюс 4.6 в том,
00:08:32что она использовала базу данных для бэкенда, так что данные сохраняются.
00:08:36Видно, что используется SQLite, база в наличии, и это победа. Но минус в том,
00:08:40что для всего проекта был использован JavaScript, а Opus 4.7 верно выбрала TypeScript.
00:08:45Далее — результат GPT 5.4, и, честно говоря, я без понятия, что это.
00:08:50Это непригодный интерфейс, выглядит очень плохо, на мой взгляд. Всё загромождено,
00:08:55шрифт мне не нравится... в общем, не буду тратить на это много времени.
00:08:59Это выглядит гораздо хуже, чем варианты от Claude. Могу подтвердить,
00:09:03что добавление денег работает, но при этом просто перезагружается вся страница.
00:09:07В коде дела не лучше: похоже, GPT 5.4 просто не захотела разворачивать
00:09:11полноценный проект и пошла по простейшему пути: у нас есть только
00:09:14index.html, JS-файл и стили. Что касается базы данных — это тоже всего лишь
00:09:19один JS-скрипт. Никакой реальной базы, всё в оперативной памяти,
00:09:23как у Opus 4.7, и опять же везде JavaScript вместо TypeScript.
00:09:28Что до Gemini 3.1, честно скажу — у меня было много проблем с запуском,
00:09:32пришлось отправлять несколько уточняющих промптов, просто потому что было любопытно,
00:09:36как это выглядит. А выглядит оно почти один в один как вариант от Opus 4.6.
00:09:41Не знаю, может у них были одни и те же обучающие данные для UI, но они очень похожи.
00:09:45При этом функции не работают, вкладки не кликабельны. Gemini 3.1,
00:09:50наверное, справилась хуже всех (хотя 5.4 тоже рядом) из-за способа создания
00:09:54приложения. Хотя отмечу, что Gemini 3.1 попыталась подойти к делу основательно —
00:09:59выбрала Next.js вместо React Router. Это хорошая идея, так как можно
00:10:02использовать API-роуты сервера, и для такого простого приложения это уместно.
00:10:07Но она использовала Prisma, хотя я бы предпочел Drizzle.
00:10:10Эти тесты меня удивили, потому что до сих пор я плотно сидел на Codex
00:10:15и отошел от Claude Code, но Opus 4.7 может меня вернуть. У неё отличный
00:10:19дизайн интерфейса, и большая часть приложения заработала сразу. Конечно,
00:10:24всё зависит от качества промпта, а мой был довольно расплывчатым насчет стека.
00:10:28Обычно я указываю всё точно, но всё равно результат меня впечатлил.
00:10:32Интересно, что думаете вы? Какую модель выбираете сейчас? Дайте
00:10:36знать в комментариях под видео, подписывайтесь и, как всегда, до встречи
00:10:49в следующем ролике.

Key Takeaway

Opus 4.7 превосходит версию 4.6 в кодинге и дизайне интерфейсов, предлагая на 10% лучшие результаты в бенчмарках, однако требует оптимизации уровней усилий из-за 35-процентного роста потребления токенов.

Highlights

Модель Opus 4.7 демонстрирует рост производительности на 10% в тесте SWE Bench Pro и на 7% в Verified по сравнению с версией 4.6.

Обновленный токенизатор в Opus 4.7 может увеличивать расход токенов на 35% для тех же промптов из-за более сложного процесса мышления.

Мультимодальные возможности улучшены за счет поддержки изображений с разрешением в три раза выше, чем в предыдущих итерациях.

Новый уровень усилий Extra High в Claude Code потребляет объем токенов, сопоставимый с максимальным уровнем Opus 4.6, но выдает более качественные результаты.

Производительность модели при работе с длинным контекстом в тесте «иголка в стоге сена» показала резкое снижение относительно Opus 4.6.

При создании интерфейса финансовой панели Opus 4.7 успешно развернула рабочее React-приложение с TypeScript за один 20-минутный цикл генерации.

Timeline

Сравнение производительности и новые защитные механизмы

  • Opus 4.7 превосходит версию 4.6 в тестах программирования и визуального восприятия.
  • В модель интегрированы новые киберзащитные фильтры для блокировки высокорискованных запросов.
  • Результаты в категории кибербезопасности искусственно снижены из-за строгих ограничений безопасности.

Показатели SWE Bench Pro выросли на 10%, подтверждая превосходство модели в разработке ПО. Опыт тестирования защитных систем на Opus 4.7 станет фундаментом для будущего релиза более мощного класса моделей Mythos. Несмотря на общие успехи, зафиксировано аномальное падение точности извлечения данных в тестах с длинным контекстом.

Архитектурные изменения и экономика токенов

  • Модель перешла на буквальное следование инструкциям, что требует пересмотра старых промптов.
  • Обновленный токенизатор и глубокое 'мышление' повышают стоимость одного запроса на треть.
  • Режим High в Opus 4.7 эффективнее и дешевле, чем максимальный режим в версии 4.6.

Улучшенная работа с файловой памятью позволяет модели сохранять контекст между сессиями, потенциально снижая объем входных данных. Уровень Extra High теперь является настройкой по умолчанию в Claude Code, но для большинства задач достаточно режима High. Это позволяет получать качество выше уровня 4.6 при меньших затратах ресурсов.

Битва интерфейсов: Claude против Gemini и GPT

  • Opus 4.7 создает эстетичные веб-страницы с использованием динамических изображений и адаптивной верстки.
  • Gemini 3.1 лидирует в визуальной композиции и компоновке элементов для простых лендингов.
  • GPT 5.4 демонстрирует однообразный дизайн с избыточным использованием эффектов размытия.

Тест на создание сайта кофейни показал, что Opus 4.7 значительно опережает 4.6 по качеству подбора фонов и шрифтов. Хотя Gemini 3.1 заняла первое место по визуальной привлекательности, Opus 4.7 уверенно закрепилась на второй позиции. Все модели использовали внешние ресурсы, такие как Unsplash, для наполнения интерфейса контентом.

Комплексная разработка приложения и выбор стека

  • Opus 4.7 сгенерировала полноценную финансовую панель с рабочим бэкендом на Express и фронтендом на React.
  • Выбор TypeScript в Opus 4.7 обеспечил более надежную структуру кода по сравнению с JavaScript-решением в 4.6.
  • GPT 5.4 и Gemini 3.1 не смогли создать полностью функциональные приложения за один цикл генерации.

Интерфейс от Opus 4.7 включал графики, управление транзакциями и обновление баланса в реальном времени через локальный API. Главным недостатком стало использование оперативной памяти вместо полноценной базы данных, в то время как Opus 4.6 успешно интегрировала SQLite. Тем не менее, общая чистота кода и современный UI-стек делают 4.7 предпочтительным выбором для быстрой прототипизации.

Community Posts

View all posts