00:00:00Anthropic только что выпустила Claude Opus 4.6, и она набирает самый высокий балл в Terminal Bench 2.0 среди всех моделей
00:00:06Простите, что прерываю ваше программирование,
00:00:10но, оказывается, только что вышли кодеки GPT 5.3, и они обходят Opus 4.6 в Terminal Bench более чем на 10%.
00:00:16Похоже, господство Anthropic длилось буквально несколько минут. Конкуренция между ними по-настоящему накаляется.
00:00:23Мне очень любопытно посмотреть, что нового в этих моделях, и понять, какая из них лучше в работе, так как в последнее время
00:00:29GPT 5.2 казалась мне более удачной.
00:00:31Так что интересно, сможет ли Claude вернуть преимущество или OpenAI уже во всеоружии с кодеками GPT 5.3.
00:00:37Для начала краткий обзор новинок, ведь мы и так знаем, что в бенчмарках они покажут себя лучше прошлых версий.
00:00:48Результаты тестов я покажу в конце, а пока — изменилось ли в моделях что-то еще?
00:00:52Что касается Opus,
00:00:53разработчики заявляют, что она стала точнее планировать, дольше удерживать агентные задачи и надежнее работать в крупных кодовых базах.
00:01:00Улучшены навыки код-ревью и отладки, чтобы модель сама находила свои ошибки.
00:01:02Это как раз те моменты, в которых Opus проигрывала GPT 5.2. По моему опыту,
00:01:08она обычно быстрее приступала к написанию кода, но при этом чаще ошибалась.
00:01:12GPT 5.2, напротив, дольше «раскачивалась», зато лучше понимала контекст всего репозитория.
00:01:17Надеюсь, эти изменения пойдут Opus на пользу. Плюс ей должно помочь новое окно контекста в 1 миллион токенов.
00:01:23Правда, стоит упомянуть, что функция пока в бета-тесте и, как у других провайдеров,
00:01:24за нее придется доплачивать: промпты длиннее 200 000 токенов обойдутся в $10 за миллион входных
00:01:27и $37.50 за миллион выходных токенов. Теперь перейдем к кодекам GPT 5.3.
00:01:33OpenAI утверждает, что эта модель объединяет в себе передовую производительность в кодинге от GPT 5.2
00:01:38и возможности рассуждения и профессиональные знания обычной GPT 5.2. При этом она на 25% быстрее.
00:01:45Это должно позволить ей справляться с длительными задачами, включающими поиск информации, работу с инструментами и сложное выполнение.
00:01:51Похоже, они сделали модель универсальной, совместив базу знаний GPT 5.2 с улучшенным кодингом.
00:01:57Но все это — лишь маркетинговые лозунги.
00:02:03Давайте проверим модели в реальных условиях. Первым делом я попробовал обновить пакет convex-agent для поддержки AI SDK v6.
00:02:05Мне очень нравится Convex в качестве базы данных, а этот пакет помогает связать AI SDK с БД.
00:02:11Производительность отличная, но проблема была в том, что пакет не обновляли до последней версии.
00:02:19В документации Vercel видно, что миграция с v5 на v6 — задача не из легких.
00:02:23Там много критических изменений и правок в типах.
00:02:28Я создал простое чат-приложение на Convex, которое работало на старой версии пакета,
00:02:32а затем обновил зависимости до v6, что вызвало кучу ошибок сборки и типов.
00:02:36Я просто попросил модели это исправить. Вот какой промпт я использовал для GPT 5.3:
00:02:40«Я делаю чат на Convex, была рабочая версия,
00:02:44но после перехода на v6 нужно исправить ошибки типов и сборки».
00:02:46Я предоставил руководство по миграции для контекста и указал, что мне нужны успешно пройденные тесты
00:02:50без использования TypeScript-костылей вроде «as any», которыми часто грешат нейросети.
00:02:55Я специально сделал на этом акцент, так как в AI SDK сейчас довольно сложные типы.
00:02:59Начнем с результатов GPT 5.3. Она начала с того,
00:03:03что проанализировала репозиторий, увидела структуру монорепозитория, нашла нужные пакеты,
00:03:09выявила коренные причины ошибок и составила четкий план действий. После чего
00:03:15приступила к коду, периодически запуская сборку и исправляя ошибки типов одну за другой.
00:03:22В итоге модель работала около 40 минут совершенно без пауз,
00:03:27что меня очень впечатлило. Она добавила 545 строк кода и удалила 111. Теперь о Claude.
00:03:32Я дал ей тот же проект и тот же промпт. Она тоже трудилась около 40 минут,
00:03:35но при попытке запуска возникло несколько ошибок сборки.
00:03:39Пришлось отправить еще один уточняющий запрос, чтобы Opus выдала рабочую версию.
00:03:44В целом, процесс был похож на то, что мы видели у GPT.
00:03:48Должен заметить, интерфейс GPT мне нравится больше — он удобнее терминала, уж простите.
00:03:53Так или иначе, после одного промпта GPT 5.3 и двух промптов Opus 4.6
00:03:56обе модели справились с обновлением пакета до новой версии AI SDK: ни ошибок типов, ни проблем со сборкой, все тесты пройдены.
00:04:02Однако подходы у них отличались. Давайте сравним.
00:04:06Слева у меня GPT, справа — изменения от Opus.
00:04:11Видно, что Opus внесла больше правок в проект.
00:04:16Они по-разному реализовали некоторые функции.
00:04:19Например, GPT отлично справилась с логикой запроса на одобрение инструмента.
00:04:23Это новая фишка в AI SDK v6. В коде от Opus я такого не нашел —
00:04:25она как будто просто пропустила этот момент и не добавила его.
00:04:30Но был и минус у GPT: в компоненте сообщений интерфейса она написала
00:04:35собственную функцию для конвертации UI-сообщений в сообщения модели.
00:04:40Хотя в AI SDK для этого уже есть встроенная функция, и логичнее использовать именно ее.
00:04:46При сравнении видно, что Opus сделала это правильно,
00:04:50применив функцию «convert to model messages» из официального пакета.
00:04:57Это значит, что при следующем обновлении пакета
00:05:00мне не придется переписывать свой велосипед, так как я использую стандартное решение.
00:05:04Для меня это был небольшой «тревожный звоночек» при проверке кода GPT.
00:05:07Чтобы получить второе мнение,
00:05:13я скормил этот результат самой GPT 5.3 и попросил провести ревью. Она перечислила
00:05:14плюсы и минусы обоих подходов.
00:05:19В итоге модель выдала вердикт: сама GPT 5.3 предпочла версию от Opus из-за более грамотной архитектуры миграции.
00:05:20Если бы пришлось выбирать базу для безопасного релиза,
00:05:26она бы выбрала чат Opus, добавив в него обработку одобрений из версии GPT.
00:05:29То есть ту самую функцию, которую Opus пропустила.
00:05:36Приятно видеть, что GPT 5.3 не предвзята и не стала выгораживать саму себя.
00:05:39В целом, обе модели справились достойно, и любую из них можно было бы направить в нужное русло уточнениями.
00:05:43Но одного теста мало.
00:05:46Для следующего задания (чуть менее серьезного) я попросил их создать клон Club Penguin
00:05:51на Three.js. Пока не скажу, где чья работа, но вот первый вариант.
00:05:55Тут есть меню создания пингвина, и мы видим, как меняется аватар.
00:06:01Можно надеть головные уборы: праздничный колпак, кепку с пропеллером, корону.
00:06:03Выберу кепку и нажму «Играть». Те, кто помнит Club Penguin,
00:06:08согласятся, что центр города воссоздан неплохо. Хотя пиццерии на месте нет,
00:06:13да и в здания войти нельзя —
00:06:17у них пока нет коллизии.
00:06:21Но что сделано хорошо: через карту можно перемещаться по разным зонам.
00:06:26Вот лыжная деревня. Я хожу тут кликами мышки,
00:06:32и мой пингвин выглядит вполне пристойно для Three.js, учитывая, что я не давал модели никаких ассетов.
00:06:35Она все сделала сама на основе знаний из обучения. Можно даже поиграть в гонки на санках —
00:06:37мою любимую мини-игру. Конечно,
00:06:41многих деталей не хватает, но для одного промпта — результат отличный.
00:06:44Кстати, в этой версии есть даже попытка сделать игру «Вагонетка»,
00:06:49но она немного сломана.
00:06:54Можно просто двигаться из стороны в сторону, а потом я, кажется, провалился под карту. И стало очень темно.
00:06:59А вот что выдала вторая модель. Напишите в комментариях,
00:07:04чей вариант вам нравится больше и догадались ли вы, кто автор?
00:07:07Раскрою карты в конце теста. Как видите,
00:07:11здесь те же селекторы цветов, что были в задании.
00:07:15Тоже есть шапка и аксессуар. Выберу корону и нажму «Начать приключение».
00:07:18Пингвин тут более упитанный. Выглядит забавно, но опять же — все написано с нуля на Three.js
00:07:22без сторонних файлов.
00:07:25Та же проблема — сквозь здания можно проходить.
00:07:27Но карта на месте, все зоны доступны.
00:07:31Пойдем в лыжную деревню.
00:07:36Попробуем сыграть в гонки на санках. Честно говоря,
00:07:38реализация очень похожа на предыдущую версию.
00:07:41Видны деревья, появляющиеся вдали,
00:07:44есть три жизни, и счетчик работает корректно.
00:07:46Правда, прыгать в этой версии нельзя.
00:07:50Эта модель тоже попыталась сделать «Вагонетку»,
00:07:53и здесь она чуть более играбельна,
00:07:56по крайней мере, все видно и можно прыгать. Но
00:07:58непонятно, где я еду — рельсов нет. В общем, это не совсем та «Вагонетка»,
00:08:01которую я помню по оригиналу.
00:08:04Но я все равно в восторге от того, что современные ИИ делают за один запрос в Three.js. Если вам интересно:
00:08:06первой была Opus 4.6, второй — GPT 5.3. Лично мне больше понравился первый вариант.
00:08:11Так что в тесте с пингвинами побеждает Opus 4.6. И финальный тест —
00:08:17проверка навыков UI-дизайна. Нейросети стали в этом очень сильны.
00:08:19Я попросил обе модели создать лендинг для соцсети, в которой сидят только нейросети.
00:08:25Что-то вроде «Molt Book». Страница должна быть саркастичной, футуристичной и строго для ИИ. Всё в одном HTML-файле.
00:08:30Вот результаты. И тут я должен признать: GPT меня поразила.
00:08:34Слева GPT 5.3, справа Opus 4.6. Мне очень нравится стиль,
00:08:38который выбрала GPT.
00:08:42Она ушла в нео-брутализм, и это выглядит гораздо интереснее привычных «зализаных» сайтов.
00:08:49Opus 4.6 сделала качественный дизайн, но он выглядит как типичное современное приложение. Все круто,
00:08:55но эти фиолетовые градиенты...
00:09:00Сразу видно, что это сгенерировано нейросетью. А вот версия от GPT 5.3
00:09:01выглядит так, будто человек приложил руку к стилистике,
00:09:06хотя промпт был абсолютно одинаковым.
00:09:13Единственное, в чем Opus 4.6 оказалась чуть лучше — функциональность страницы.
00:09:14Тут есть вкладка «В тренде», правила, лучшие модели недели,
00:09:20популярные подразделы и лента. У GPT 5.3 всё минималистичнее —
00:09:25только вкладка трендов и больше ничего.
00:09:27Интересно будет взглянуть на их баллы в Design Arena, когда они там появятся.
00:09:32Сейчас там лидирует GLM 4.7,
00:09:36и мне любопытно, смогут ли GPT 5.3 или Opus 4.6 ее сместить.
00:09:41Обе модели крайне сильны, и сложно сказать однозначно, какая лучше.
00:09:44Лично я, пожалуй, склоняюсь к GPT 5.3,
00:09:47просто потому что мне нравится само приложение GPT и общий опыт работы с моделями OpenAI. Если же сравнивать
00:09:51бенчмарки, то, как я говорил в начале, у GPT колоссальный отрыв в Terminal Bench 2.0.
00:09:55Это действительно впечатляющий скачок. И это пока единственный общий бенчмарк для сравнения,
00:09:59так как Anthropic, похоже, не ожидали такого быстрого ответа от OpenAI.
00:10:03Обидно, что они используют разные тесты в своих блогах. Я проверил Artificial Analysis:
00:10:09там протестировали Opus 4.6 в кодинге, но пока только версию без продвинутого рассуждения.
00:10:15Хотя впечатляет, что обычная 4.6 работает на уровне 4.5 с рассуждением.
00:10:21По ощущениям, переход с Opus 4.5 на 4.6 менее значителен, чем рывок GPT с 5.2 до 5.3.
00:10:28Но нужно поработать с обеими в реальных проектах, чтобы понять наверняка.
00:10:35В релизах есть еще несколько интересных деталей.
00:10:42Например, обе модели улучшили навыки кибербезопасности. OpenAI заявляет,
00:10:49что GPT 5.3 — первая модель с «высоким уровнем» в задачах ИБ. Ее специально обучали находить
00:10:53уязвимости в ПО. Anthropic пишет о том же в своем огромном посте. Но одна фишка GPT мне особенно по душе:
00:10:55ею можно управлять прямо в процессе работы. Говорят, не нужно ждать окончательного ответа —
00:11:01можно общаться в реальном времени, обсуждать подходы и направлять модель к решению.
00:11:09Это отличный подход. Я вечно мучаюсь вопросом: дать ей дописать до конца или
00:11:16прервать на полпути, чтобы внести правки.
00:11:21Теперь, когда задачи могут выполняться очень долго,
00:11:27возможность «подруливать» в процессе сильно улучшит пользовательский опыт.
00:11:32Напоследок о новых функциях Claude. Первая — Claude Code.
00:11:35Теперь можно использовать команды агентов для совместной работы, так называемые субагенты. Ричард уже выпускал об этом видео.
00:11:40Обязательно посмотрите. Также появились крутые фишки в API: например, функция сжатия (compaction),
00:11:44которая позволяет суммировать контекст для очень длинных задач.
00:11:48И новый режим «адаптивного мышления» (adaptive thinking),
00:11:55когда модель сама решает на основе контекста, насколько глубоко ей нужно «задумываться» над задачей.
00:12:01Как видите, модели для программирования прошли огромный путь.
00:12:06Трудно поверить, но с момента выхода Claude Code не прошло и года.
00:12:08Делитесь мнением об этих моделях в комментариях, подписывайтесь и до встречи в следующем видео!
00:12:13(энергичная музыка)
00:12:16If you didn't know it's actually not even been a year since Claude code was released
00:12:20Let me know what you think of all of these models in the comments while you're there subscribe and as always see you in the next one
00:12:31(upbeat music)