00:00:00Вышла новая лучшая модель — Opus 4.7. Судя по всему, это довольно серьезное обновление.
00:00:05Она определенно лучше пишет код, а также улучшила зрение, самопроверку и,
00:00:09как утверждается, лучше справляется с интерфейсами, делая их более стильными и креативными.
00:00:12Минус в том, что хотя цена не изменилась, обновился токенизатор, поэтому
00:00:17тот же самый промпт теперь может расходовать на 35% больше токенов, к тому же она больше «думает».
00:00:22А это значит еще больше сожженных токенов. В этом релизе есть действительно интересные детали
00:00:26и, вероятно, изменения, которые вы захотите внести в Claude Code прямо сейчас. Давайте же приступим,
00:00:30посмотрим, что нового, и протестируем её.
00:00:31Начну я, пожалуй, с бенчмарков, потому что чуть раньше я немного слукавил, сказав,
00:00:40что это новая лучшая модель. Она лучшая из общедоступных, но эти бенчмарки также включают
00:00:44Mythos — модель настолько мощную, что нам её пока не дают.
00:00:47По словам Anthropic, в Opus 4.7 сейчас тестируются новые киберзащитные механизмы для блокировки запросов,
00:00:52указывающих на запрещенные или высокорискованные способы использования в сфере кибербезопасности.
00:00:56Полученный опыт поможет им подготовить широкий релиз моделей класса Mythos, так что, надеюсь,
00:01:00в будущем я смогу сделать видео о релизе Mythos и о том, как это положит конец разработке ПО
00:01:03в привычном нам виде. Подписывайтесь, чтобы не пропустить.
00:01:06А пока я проигнорирую Mythos и сосредоточусь на той, которой мы реально можем пользоваться,
00:01:10это Opus 4.7, и она действительно показала отличные результаты в бенчмарках.
00:01:13Не буду вдаваться в подробности, вы можете поставить видео на паузу, если хотите изучить
00:01:16каждый показатель. Видно, что в тестах вроде SWE Bench Pro она сделала 10-процентный рывок
00:01:21по сравнению с Opus 4.6, а в Verified — на 7%, и эта тенденция сохраняется
00:01:26почти во всех тестах, кроме кибербезопасности, где показатели немного снизились.
00:01:30Видимо, это связано с теми самыми защитными механизмами: похоже, они искусственно занижают
00:01:34этот балл, пытаясь спасти мир или что-то в этом роде.
00:01:37Также я нашел очень интересный бенчмарк в системной карте, где видно,
00:01:40что производительность при длинном контексте, похоже, резко упала по сравнению с Opus 4.6
00:01:45в тесте «иголка в стоге сена». Мне любопытно, как это скажется на реальном использовании.
00:01:50Помимо бенчмарков, есть еще несколько заметных улучшений, которые могут
00:01:54даже изменить ваш стиль работы с Claude. Первое — это лучшее следование инструкциям,
00:01:58что на деле может привести к неожиданным результатам с промптами, которые вы использовали раньше.
00:02:01Старые модели интерпретировали инструкции вольно или пропускали части, в то время как Opus 4.7
00:02:07сфокусирована на буквальном выполнении, так что вам, возможно, придется подправить свои промпты.
00:02:11Далее — улучшенная мультимодальность: теперь она принимает изображения в три раза
00:02:16более высокого разрешения, чем старые модели. Это должно помочь в задачах
00:02:20по управлению компьютером и извлечению данных. Также улучшена работа с памятью:
00:02:25Opus 4.7 должна лучше использовать память на основе файловой системы, запоминая важные заметки
00:02:30в ходе долгих сессий и используя их для новых задач, требуя меньше контекста на старте.
00:02:34Возможно, это сэкономит мне немного токенов, что очень важно, так как следующее изменение
00:02:39касается токенизатора и процесса мышления. Opus 4.7 использует обновленный токенизатор,
00:02:45который лучше обрабатывает текст, но при этом тот же промпт может стоить на 35% больше.
00:02:49Если добавить к этому то, что Opus 4.7 больше «думает» на высоких уровнях усилий,
00:02:54эта модель будет действительно быстро сжигать токены. Что еще хуже — появился новый,
00:02:58«экстра-высокий» уровень усилий, и он установлен по умолчанию в Claude Code.
00:03:02Поэтому я настоятельно рекомендую протестировать разные уровни и найти подходящий,
00:03:05чтобы понять, можно ли понизить его без потери качества. Для сравнения:
00:03:09новый уровень «Extra High» потребляет примерно столько же токенов, сколько максимальный у Opus 4.6,
00:03:14при этом уровень «High» в Opus 4.7 обходит по баллам максимальный уровень 4.6,
00:03:19используя меньше токенов. Если вас устраивало прежнее качество, используйте эту таблицу
00:03:24для сравнения, так как я для себя, вероятно, выберу уровень «High» в большинстве случаев.
00:03:27Закончив с кратким обзором новинок, я собираюсь потратить свои лимиты и протестировать модель.
00:03:31Первым делом я проверю, стала ли она лучше в дизайне интерфейсов.
00:03:35Я дал ей простой промпт: создать сайт кофейни, используя только файл index.html.
00:03:40Я использую максимальный уровень усилий на всех тестируемых моделях.
00:03:43Сравнивать будем Opus 4.7, 4.6, Gemini 3.1 и GPT 5.4. Вот результат от Opus 4.7,
00:03:51и, по-моему, выглядит довольно мило. Чувствуется атмосфера кафе, использован
00:03:55хороший шрифт, подтянуты изображения с Unsplash. В целом, жаловаться не на что,
00:03:59сайт простой, с симпатичным разделом меню, адаптивной версткой, и в целом
00:04:04выглядит достойно. Если сравнить с тем, что выдала Opus 4.6, вы увидите,
00:04:09что стиль немного другой, хотя шрифт и раздел меню похожи. В целом она чуть
00:04:12хуже, просто потому что не использован приятный фон, а этот градиентный переход
00:04:16совсем не радует глаз, но всё же неплохо. Я бы сказал, Opus 4.7 лишь на ступень выше.
00:04:20Gemini 3.1 же, с другой стороны, выдала, пожалуй, лучший результат.
00:04:25По крайней мере, этот вариант мой любимый — напишите в комментариях,
00:04:29какой больше нравится вам. Мне очень нравится этот фон, который остается неподвижным
00:04:33при скролле. Отлично сделан блок с изображениями в разделе «Наша история»,
00:04:36меню похоже на остальные, но, опять же, на мой взгляд, всё скомпоновано удачнее,
00:04:40включая футер. Так что в этом раунде для меня побеждает 3.1.
00:04:45А вот последнее место однозначно за GPT 5.4. У неё такой типичный «вид и вкус» GPT.
00:04:50Она обожает эти карточки с размытием, но для сайта кофейни это,
00:04:55на мой взгляд, не подходит. Выглядит как любое другое приложение от GPT, что я видел.
00:04:59Так что Opus 4.7 определенно хороша в UI и, вероятно, справится еще лучше,
00:05:04если дать ей больше указаний. Сейчас в Design Arena лидирует Opus 4.6 для сайтов,
00:05:09но я ожидаю, что 4.7 займет её место. Очевидно, что этот тест был довольно простым,
00:05:13поэтому дальше я дам им более сложную задачу. Прямо здесь, в Claude Code,
00:05:17я прошу Opus 4.6 создать панель управления личными финансами, дающую детальный
00:05:21обзор финансового здоровья пользователя, с целым списком функций, указанных в промпте.
00:05:25При этом я не указываю стек технологий — модель должна выбрать его сама и начать с нуля.
00:05:30Первым идет результат от Opus 4.7. Она сделала всё за один промпт
00:05:34примерно за 20 минут, и моя первая реакция — просто «вау».
00:05:39Выглядит очень круто: интерфейс чистый, отличные графики, всё
00:05:44расположено грамотно, подобрана хорошая цветовая схема. Честно говоря,
00:05:48я бы сам мало что здесь улучшил. С точки зрения UI проделана фантастическая работа.
00:05:53Также здесь есть все страницы, о которых я просил: мы видим все счета,
00:05:57транзакции и бюджеты. Мы не можем добавлять новые бюджеты прямо сейчас,
00:06:02похоже, такая функция не предусмотрена, как и в случае с целями. Но мы можем
00:06:05вносить данные в существующие цели, цифры растут, и это обновляет бэкенд API,
00:06:10который она создала. То же самое касается и отправки денег другим людям.
00:06:14Если я протестирую оплату подписки Claude Code, транзакция должна пройти успешно,
00:06:17и я вижу, что она отправлена, а на главной панели мой капитал обновился.
00:06:22Всё работает, на бэкенде используется база данных, и транзакция
00:06:26отображается в списке последних. Глядя на сгенерированный код, скажу, что
00:06:30всё выглядит отлично. Для фронтенда использованы React и Vite — как раз то,
00:06:34что выбрал бы я. Еще использован React Router, я бы, возможно, взял TanStack, но
00:06:38это не критично — оба варианта хороши. Вы видите, что структура аккуратная,
00:06:42все UI-компоненты на месте. В целом, фронтенд сделан очень качественно.
00:06:46За что я снижу оценку, так это за бэкенд, потому что там сервер на Express.
00:06:51В этом нет ничего плохого, но для такого простого приложения я бы выбрал
00:06:54что-то вроде Bun или Hono. Кроме того, способ хранения данных —
00:06:59всё в оперативной памяти. Если я сейчас перезапущу бэкенд-сервис,
00:07:04он загрузит данные из скрипта инициализации, и это просто локальные
00:07:08массивы. Реальной базы данных для сохранения изменений не было. Переходим к Opus 4.6.
00:07:13Сразу скажу: Opus 4.7 определенно справилась лучше в плане дизайна интерфейса.
00:07:18В этом UI мне что-то не нравится. Не знаю, то ли отступов слишком много,
00:07:21то ли дело в светлой теме, в то время как у другой модели была темная.
00:07:24В общем, я определенно предпочитаю вариант Opus 4.7. Хотя компоненты схожи:
00:07:29есть карточки с капиталом, график динамики состояния, последние транзакции
00:07:33и финансовые цели. Также есть отдельные страницы для их отслеживания.
00:07:38Помимо UI, мы можем протестировать функции. Добавлю новую транзакцию:
00:07:42пусть будет 150 долларов на продукты. Кажется, данные обновились,
00:07:46и на главной панели сумма капитала тоже изменилась. Так что здесь всё работает.
00:07:50В одном моменте Opus 4.6, возможно, обошла Opus 4.7 при работе с одним промптом —
00:07:54здесь я могу добавлять счета. Вот я только что добавил аккаунт.
00:07:58То же самое касается целей и бюджетов — я добавил бюджет на образование.
00:08:03Похоже, Opus 4.6 добавила чуть больше функций сразу, но, честно говоря,
00:08:07я просто попросил Opus 4.7 добавить их позже. Обычно ведь не ограничиваешься одним промптом.
00:08:12Что касается кода, Opus 4.6 пошла по тому же пути с React-приложением на Vite,
00:08:16но я заметил одну интересную вещь: тут используются React 19 и React Router
00:08:20DOM 7, тогда как Opus 4.7 выбрала React 18 и React Router 6, хотя я уверен,
00:08:27что у Opus 4.7 база знаний новее. Кроме того, еще один плюс 4.6 в том,
00:08:32что она использовала базу данных для бэкенда, так что данные сохраняются.
00:08:36Видно, что используется SQLite, база в наличии, и это победа. Но минус в том,
00:08:40что для всего проекта был использован JavaScript, а Opus 4.7 верно выбрала TypeScript.
00:08:45Далее — результат GPT 5.4, и, честно говоря, я без понятия, что это.
00:08:50Это непригодный интерфейс, выглядит очень плохо, на мой взгляд. Всё загромождено,
00:08:55шрифт мне не нравится... в общем, не буду тратить на это много времени.
00:08:59Это выглядит гораздо хуже, чем варианты от Claude. Могу подтвердить,
00:09:03что добавление денег работает, но при этом просто перезагружается вся страница.
00:09:07В коде дела не лучше: похоже, GPT 5.4 просто не захотела разворачивать
00:09:11полноценный проект и пошла по простейшему пути: у нас есть только
00:09:14index.html, JS-файл и стили. Что касается базы данных — это тоже всего лишь
00:09:19один JS-скрипт. Никакой реальной базы, всё в оперативной памяти,
00:09:23как у Opus 4.7, и опять же везде JavaScript вместо TypeScript.
00:09:28Что до Gemini 3.1, честно скажу — у меня было много проблем с запуском,
00:09:32пришлось отправлять несколько уточняющих промптов, просто потому что было любопытно,
00:09:36как это выглядит. А выглядит оно почти один в один как вариант от Opus 4.6.
00:09:41Не знаю, может у них были одни и те же обучающие данные для UI, но они очень похожи.
00:09:45При этом функции не работают, вкладки не кликабельны. Gemini 3.1,
00:09:50наверное, справилась хуже всех (хотя 5.4 тоже рядом) из-за способа создания
00:09:54приложения. Хотя отмечу, что Gemini 3.1 попыталась подойти к делу основательно —
00:09:59выбрала Next.js вместо React Router. Это хорошая идея, так как можно
00:10:02использовать API-роуты сервера, и для такого простого приложения это уместно.
00:10:07Но она использовала Prisma, хотя я бы предпочел Drizzle.
00:10:10Эти тесты меня удивили, потому что до сих пор я плотно сидел на Codex
00:10:15и отошел от Claude Code, но Opus 4.7 может меня вернуть. У неё отличный
00:10:19дизайн интерфейса, и большая часть приложения заработала сразу. Конечно,
00:10:24всё зависит от качества промпта, а мой был довольно расплывчатым насчет стека.
00:10:28Обычно я указываю всё точно, но всё равно результат меня впечатлил.
00:10:32Интересно, что думаете вы? Какую модель выбираете сейчас? Дайте
00:10:36знать в комментариях под видео, подписывайтесь и, как всегда, до встречи
00:10:49в следующем ролике.