OpenAI побеждает... (Opus 4.6 + Codex 5.3)

BBetter Stack
Computing/SoftwareBusiness NewsVideo & Computer GamesInternet Technology

Transcript

00:00:00Anthropic только что выпустила Claude Opus 4.6, и она набирает самый высокий балл в Terminal Bench 2.0 среди всех моделей
00:00:06Простите, что прерываю ваше программирование,
00:00:10но, оказывается, только что вышли кодеки GPT 5.3, и они обходят Opus 4.6 в Terminal Bench более чем на 10%.
00:00:16Похоже, господство Anthropic длилось буквально несколько минут. Конкуренция между ними по-настоящему накаляется.
00:00:23Мне очень любопытно посмотреть, что нового в этих моделях, и понять, какая из них лучше в работе, так как в последнее время
00:00:29GPT 5.2 казалась мне более удачной.
00:00:31Так что интересно, сможет ли Claude вернуть преимущество или OpenAI уже во всеоружии с кодеками GPT 5.3.
00:00:37Для начала краткий обзор новинок, ведь мы и так знаем, что в бенчмарках они покажут себя лучше прошлых версий.
00:00:48Результаты тестов я покажу в конце, а пока — изменилось ли в моделях что-то еще?
00:00:52Что касается Opus,
00:00:53разработчики заявляют, что она стала точнее планировать, дольше удерживать агентные задачи и надежнее работать в крупных кодовых базах.
00:01:00Улучшены навыки код-ревью и отладки, чтобы модель сама находила свои ошибки.
00:01:02Это как раз те моменты, в которых Opus проигрывала GPT 5.2. По моему опыту,
00:01:08она обычно быстрее приступала к написанию кода, но при этом чаще ошибалась.
00:01:12GPT 5.2, напротив, дольше «раскачивалась», зато лучше понимала контекст всего репозитория.
00:01:17Надеюсь, эти изменения пойдут Opus на пользу. Плюс ей должно помочь новое окно контекста в 1 миллион токенов.
00:01:23Правда, стоит упомянуть, что функция пока в бета-тесте и, как у других провайдеров,
00:01:24за нее придется доплачивать: промпты длиннее 200 000 токенов обойдутся в $10 за миллион входных
00:01:27и $37.50 за миллион выходных токенов. Теперь перейдем к кодекам GPT 5.3.
00:01:33OpenAI утверждает, что эта модель объединяет в себе передовую производительность в кодинге от GPT 5.2
00:01:38и возможности рассуждения и профессиональные знания обычной GPT 5.2. При этом она на 25% быстрее.
00:01:45Это должно позволить ей справляться с длительными задачами, включающими поиск информации, работу с инструментами и сложное выполнение.
00:01:51Похоже, они сделали модель универсальной, совместив базу знаний GPT 5.2 с улучшенным кодингом.
00:01:57Но все это — лишь маркетинговые лозунги.
00:02:03Давайте проверим модели в реальных условиях. Первым делом я попробовал обновить пакет convex-agent для поддержки AI SDK v6.
00:02:05Мне очень нравится Convex в качестве базы данных, а этот пакет помогает связать AI SDK с БД.
00:02:11Производительность отличная, но проблема была в том, что пакет не обновляли до последней версии.
00:02:19В документации Vercel видно, что миграция с v5 на v6 — задача не из легких.
00:02:23Там много критических изменений и правок в типах.
00:02:28Я создал простое чат-приложение на Convex, которое работало на старой версии пакета,
00:02:32а затем обновил зависимости до v6, что вызвало кучу ошибок сборки и типов.
00:02:36Я просто попросил модели это исправить. Вот какой промпт я использовал для GPT 5.3:
00:02:40«Я делаю чат на Convex, была рабочая версия,
00:02:44но после перехода на v6 нужно исправить ошибки типов и сборки».
00:02:46Я предоставил руководство по миграции для контекста и указал, что мне нужны успешно пройденные тесты
00:02:50без использования TypeScript-костылей вроде «as any», которыми часто грешат нейросети.
00:02:55Я специально сделал на этом акцент, так как в AI SDK сейчас довольно сложные типы.
00:02:59Начнем с результатов GPT 5.3. Она начала с того,
00:03:03что проанализировала репозиторий, увидела структуру монорепозитория, нашла нужные пакеты,
00:03:09выявила коренные причины ошибок и составила четкий план действий. После чего
00:03:15приступила к коду, периодически запуская сборку и исправляя ошибки типов одну за другой.
00:03:22В итоге модель работала около 40 минут совершенно без пауз,
00:03:27что меня очень впечатлило. Она добавила 545 строк кода и удалила 111. Теперь о Claude.
00:03:32Я дал ей тот же проект и тот же промпт. Она тоже трудилась около 40 минут,
00:03:35но при попытке запуска возникло несколько ошибок сборки.
00:03:39Пришлось отправить еще один уточняющий запрос, чтобы Opus выдала рабочую версию.
00:03:44В целом, процесс был похож на то, что мы видели у GPT.
00:03:48Должен заметить, интерфейс GPT мне нравится больше — он удобнее терминала, уж простите.
00:03:53Так или иначе, после одного промпта GPT 5.3 и двух промптов Opus 4.6
00:03:56обе модели справились с обновлением пакета до новой версии AI SDK: ни ошибок типов, ни проблем со сборкой, все тесты пройдены.
00:04:02Однако подходы у них отличались. Давайте сравним.
00:04:06Слева у меня GPT, справа — изменения от Opus.
00:04:11Видно, что Opus внесла больше правок в проект.
00:04:16Они по-разному реализовали некоторые функции.
00:04:19Например, GPT отлично справилась с логикой запроса на одобрение инструмента.
00:04:23Это новая фишка в AI SDK v6. В коде от Opus я такого не нашел —
00:04:25она как будто просто пропустила этот момент и не добавила его.
00:04:30Но был и минус у GPT: в компоненте сообщений интерфейса она написала
00:04:35собственную функцию для конвертации UI-сообщений в сообщения модели.
00:04:40Хотя в AI SDK для этого уже есть встроенная функция, и логичнее использовать именно ее.
00:04:46При сравнении видно, что Opus сделала это правильно,
00:04:50применив функцию «convert to model messages» из официального пакета.
00:04:57Это значит, что при следующем обновлении пакета
00:05:00мне не придется переписывать свой велосипед, так как я использую стандартное решение.
00:05:04Для меня это был небольшой «тревожный звоночек» при проверке кода GPT.
00:05:07Чтобы получить второе мнение,
00:05:13я скормил этот результат самой GPT 5.3 и попросил провести ревью. Она перечислила
00:05:14плюсы и минусы обоих подходов.
00:05:19В итоге модель выдала вердикт: сама GPT 5.3 предпочла версию от Opus из-за более грамотной архитектуры миграции.
00:05:20Если бы пришлось выбирать базу для безопасного релиза,
00:05:26она бы выбрала чат Opus, добавив в него обработку одобрений из версии GPT.
00:05:29То есть ту самую функцию, которую Opus пропустила.
00:05:36Приятно видеть, что GPT 5.3 не предвзята и не стала выгораживать саму себя.
00:05:39В целом, обе модели справились достойно, и любую из них можно было бы направить в нужное русло уточнениями.
00:05:43Но одного теста мало.
00:05:46Для следующего задания (чуть менее серьезного) я попросил их создать клон Club Penguin
00:05:51на Three.js. Пока не скажу, где чья работа, но вот первый вариант.
00:05:55Тут есть меню создания пингвина, и мы видим, как меняется аватар.
00:06:01Можно надеть головные уборы: праздничный колпак, кепку с пропеллером, корону.
00:06:03Выберу кепку и нажму «Играть». Те, кто помнит Club Penguin,
00:06:08согласятся, что центр города воссоздан неплохо. Хотя пиццерии на месте нет,
00:06:13да и в здания войти нельзя —
00:06:17у них пока нет коллизии.
00:06:21Но что сделано хорошо: через карту можно перемещаться по разным зонам.
00:06:26Вот лыжная деревня. Я хожу тут кликами мышки,
00:06:32и мой пингвин выглядит вполне пристойно для Three.js, учитывая, что я не давал модели никаких ассетов.
00:06:35Она все сделала сама на основе знаний из обучения. Можно даже поиграть в гонки на санках —
00:06:37мою любимую мини-игру. Конечно,
00:06:41многих деталей не хватает, но для одного промпта — результат отличный.
00:06:44Кстати, в этой версии есть даже попытка сделать игру «Вагонетка»,
00:06:49но она немного сломана.
00:06:54Можно просто двигаться из стороны в сторону, а потом я, кажется, провалился под карту. И стало очень темно.
00:06:59А вот что выдала вторая модель. Напишите в комментариях,
00:07:04чей вариант вам нравится больше и догадались ли вы, кто автор?
00:07:07Раскрою карты в конце теста. Как видите,
00:07:11здесь те же селекторы цветов, что были в задании.
00:07:15Тоже есть шапка и аксессуар. Выберу корону и нажму «Начать приключение».
00:07:18Пингвин тут более упитанный. Выглядит забавно, но опять же — все написано с нуля на Three.js
00:07:22без сторонних файлов.
00:07:25Та же проблема — сквозь здания можно проходить.
00:07:27Но карта на месте, все зоны доступны.
00:07:31Пойдем в лыжную деревню.
00:07:36Попробуем сыграть в гонки на санках. Честно говоря,
00:07:38реализация очень похожа на предыдущую версию.
00:07:41Видны деревья, появляющиеся вдали,
00:07:44есть три жизни, и счетчик работает корректно.
00:07:46Правда, прыгать в этой версии нельзя.
00:07:50Эта модель тоже попыталась сделать «Вагонетку»,
00:07:53и здесь она чуть более играбельна,
00:07:56по крайней мере, все видно и можно прыгать. Но
00:07:58непонятно, где я еду — рельсов нет. В общем, это не совсем та «Вагонетка»,
00:08:01которую я помню по оригиналу.
00:08:04Но я все равно в восторге от того, что современные ИИ делают за один запрос в Three.js. Если вам интересно:
00:08:06первой была Opus 4.6, второй — GPT 5.3. Лично мне больше понравился первый вариант.
00:08:11Так что в тесте с пингвинами побеждает Opus 4.6. И финальный тест —
00:08:17проверка навыков UI-дизайна. Нейросети стали в этом очень сильны.
00:08:19Я попросил обе модели создать лендинг для соцсети, в которой сидят только нейросети.
00:08:25Что-то вроде «Molt Book». Страница должна быть саркастичной, футуристичной и строго для ИИ. Всё в одном HTML-файле.
00:08:30Вот результаты. И тут я должен признать: GPT меня поразила.
00:08:34Слева GPT 5.3, справа Opus 4.6. Мне очень нравится стиль,
00:08:38который выбрала GPT.
00:08:42Она ушла в нео-брутализм, и это выглядит гораздо интереснее привычных «зализаных» сайтов.
00:08:49Opus 4.6 сделала качественный дизайн, но он выглядит как типичное современное приложение. Все круто,
00:08:55но эти фиолетовые градиенты...
00:09:00Сразу видно, что это сгенерировано нейросетью. А вот версия от GPT 5.3
00:09:01выглядит так, будто человек приложил руку к стилистике,
00:09:06хотя промпт был абсолютно одинаковым.
00:09:13Единственное, в чем Opus 4.6 оказалась чуть лучше — функциональность страницы.
00:09:14Тут есть вкладка «В тренде», правила, лучшие модели недели,
00:09:20популярные подразделы и лента. У GPT 5.3 всё минималистичнее —
00:09:25только вкладка трендов и больше ничего.
00:09:27Интересно будет взглянуть на их баллы в Design Arena, когда они там появятся.
00:09:32Сейчас там лидирует GLM 4.7,
00:09:36и мне любопытно, смогут ли GPT 5.3 или Opus 4.6 ее сместить.
00:09:41Обе модели крайне сильны, и сложно сказать однозначно, какая лучше.
00:09:44Лично я, пожалуй, склоняюсь к GPT 5.3,
00:09:47просто потому что мне нравится само приложение GPT и общий опыт работы с моделями OpenAI. Если же сравнивать
00:09:51бенчмарки, то, как я говорил в начале, у GPT колоссальный отрыв в Terminal Bench 2.0.
00:09:55Это действительно впечатляющий скачок. И это пока единственный общий бенчмарк для сравнения,
00:09:59так как Anthropic, похоже, не ожидали такого быстрого ответа от OpenAI.
00:10:03Обидно, что они используют разные тесты в своих блогах. Я проверил Artificial Analysis:
00:10:09там протестировали Opus 4.6 в кодинге, но пока только версию без продвинутого рассуждения.
00:10:15Хотя впечатляет, что обычная 4.6 работает на уровне 4.5 с рассуждением.
00:10:21По ощущениям, переход с Opus 4.5 на 4.6 менее значителен, чем рывок GPT с 5.2 до 5.3.
00:10:28Но нужно поработать с обеими в реальных проектах, чтобы понять наверняка.
00:10:35В релизах есть еще несколько интересных деталей.
00:10:42Например, обе модели улучшили навыки кибербезопасности. OpenAI заявляет,
00:10:49что GPT 5.3 — первая модель с «высоким уровнем» в задачах ИБ. Ее специально обучали находить
00:10:53уязвимости в ПО. Anthropic пишет о том же в своем огромном посте. Но одна фишка GPT мне особенно по душе:
00:10:55ею можно управлять прямо в процессе работы. Говорят, не нужно ждать окончательного ответа —
00:11:01можно общаться в реальном времени, обсуждать подходы и направлять модель к решению.
00:11:09Это отличный подход. Я вечно мучаюсь вопросом: дать ей дописать до конца или
00:11:16прервать на полпути, чтобы внести правки.
00:11:21Теперь, когда задачи могут выполняться очень долго,
00:11:27возможность «подруливать» в процессе сильно улучшит пользовательский опыт.
00:11:32Напоследок о новых функциях Claude. Первая — Claude Code.
00:11:35Теперь можно использовать команды агентов для совместной работы, так называемые субагенты. Ричард уже выпускал об этом видео.
00:11:40Обязательно посмотрите. Также появились крутые фишки в API: например, функция сжатия (compaction),
00:11:44которая позволяет суммировать контекст для очень длинных задач.
00:11:48И новый режим «адаптивного мышления» (adaptive thinking),
00:11:55когда модель сама решает на основе контекста, насколько глубоко ей нужно «задумываться» над задачей.
00:12:01Как видите, модели для программирования прошли огромный путь.
00:12:06Трудно поверить, но с момента выхода Claude Code не прошло и года.
00:12:08Делитесь мнением об этих моделях в комментариях, подписывайтесь и до встречи в следующем видео!
00:12:13(энергичная музыка)
00:12:16If you didn't know it's actually not even been a year since Claude code was released
00:12:20Let me know what you think of all of these models in the comments while you're there subscribe and as always see you in the next one
00:12:31(upbeat music)

Key Takeaway

Несмотря на лидерство GPT 5.3 в синтетических тестах и скорости, Claude Opus 4.6 сохраняет преимущество в качестве архитектурных решений и внимании к стандартным библиотекам при написании кода.

Highlights

Сравнение новейших ИИ-моделей: Claude Opus 4.6 от Anthropic и GPT 5.3 (Codex) от OpenAI в задачах программирования.

GPT 5.3 обходит Opus 4.6 в бенчмарке Terminal Bench 2.0 более чем на 10%, демонстрируя значительный скачок производительности.

Opus 4.6 получила окно контекста в 1 миллион токенов и улучшенные навыки планирования агентных задач.

Реальный тест по миграции кода показал, что Opus 4.6 создает более чистую архитектуру, используя стандартные функции библиотек.

В тестах на создание игр (Three.js) Opus 4.6 показала лучший визуальный результат, а GPT 5.3 отличилась в креативном UI-дизайне.

Новые функции управления: GPT 5.3 позволяет корректировать работу модели в реальном времени, не дожидаясь завершения генерации.

Развитие инструментов: появление Claude Code, субагентов и режима «адаптивного мышления» для оптимизации глубоких рассуждений.

Timeline

Битва титанов: анонс Opus 4.6 и ответ GPT 5.3

Автор сообщает о выходе Claude Opus 4.6, которая кратковременно заняла лидерство в бенчмарке Terminal Bench 2.0. Однако OpenAI практически сразу представила GPT 5.3 (Codex), превзошедшую конкурента на 10%. В этом разделе обсуждаются ключевые улучшения Opus: расширение контекстного окна до 1 миллиона токенов и повышение точности планирования. Также затрагивается стоимость использования больших промптов в бета-версии, составляющая $10 за миллион входных токенов. Это вступление задает тон всему видео, подчеркивая беспрецедентную скорость конкуренции между Anthropic и OpenAI.

Технические характеристики и возможности GPT 5.3

Рассматриваются заявления OpenAI о том, что модель GPT 5.3 объединяет в себе лучшие кодинговые навыки версии 5.2 и продвинутое рассуждение. Модель стала на 25% быстрее, что критично для выполнения длительных автономных задач с использованием внешних инструментов. Автор отмечает, что OpenAI стремится создать универсальную модель, способную одновременно искать информацию и выполнять сложное программирование. Несмотря на амбициозный маркетинг, подчеркивается необходимость проверки этих утверждений в реальных сценариях. Данный блок важен для понимания позиционирования новой линейки моделей Codex как инструментов для профессиональной разработки.

Практический тест: Миграция проекта на AI SDK v6

Автор проводит эксперимент по обновлению пакета convex-agent, требующий исправления множества ошибок типизации TypeScript. GPT 5.3 работала автономно в течение 40 минут, проанализировала структуру монорепозитория и внесла 545 строк кода. Claude Opus 4.6 потребовалось два промпта вместо одного для достижения аналогичного результата с работающими тестами. В ходе теста проверялось умение моделей следовать строгим правилам кодинга без использования небезопасных приемов вроде «as any». Этот раздел наглядно демонстрирует агентные возможности моделей, способных самостоятельно запускать сборку и исправлять возникающие ошибки.

Архитектурный анализ: Почему Opus 4.6 оказалась умнее

После получения рабочих версий кода автор проводит глубокое сравнение подходов обеих нейросетей. Выясняется, что GPT 5.3 написала собственную функцию-велосипед там, где Opus 4.6 использовала стандартную встроенную функцию библиотеки. Интересно, что сама GPT 5.3 в режиме ревью признала версию от Claude более предпочтительной с точки зрения долгосрочной поддержки проекта. Это подчеркивает, что высокая скорость и прохождение бенчмарков не всегда гарантируют лучшее качество кода. Раздел важен для разработчиков, так как показывает важность использования стандартных решений для минимизации технического долга.

Создание игр: Клон Club Penguin на Three.js

Модели получают задание создать 3D-игру с нуля без использования внешних графических ассетов. Opus 4.6 создала более визуально приятного персонажа и лучше проработала механику перемещения по карте. GPT 5.3 также справилась с задачей, создав забавную, но менее эстетичную версию пингвина. Обе модели попытались реализовать мини-игры, такие как гонки на санках и поездки на вагонетках, с переменным успехом. Автор выражает восторг тем, что современные ИИ способны генерировать сложные 3D-сцены и логику за один запрос.

Дизайн интерфейсов и нео-брутализм GPT 5.3

В тесте на UI-дизайн моделям поручили создать лендинг социальной сети исключительно для ИИ в стиле нео-брутализма. GPT 5.3 поразила автора смелым стилистическим выбором, который выглядел «человечно» и оригинально в отличие от типичных шаблонов. Opus 4.6, напротив, выдала качественный, но стандартный дизайн с градиентами, типичный для нейросетей. Несмотря на лучшую функциональность вкладок у Claude, визуальное первенство в этом раунде осталось за OpenAI. Это обсуждение плавно переходит к рейтингам Design Arena, где модели скоро сразятся с текущим лидером GLM 4.7.

Кибербезопасность и новые функции управления

Заключительная часть посвящена специализированным навыкам моделей в области кибербезопасности и поиска уязвимостей. Автор выделяет новую функцию GPT — возможность корректировать процесс выполнения задачи «на лету» через чат. Также упоминаются эксклюзивные фишки Claude, такие как «адаптивное мышление» и Claude Code для управления локальными файлами. Видео завершается выводом о том, что индустрия ИИ для кодинга сделала невероятный рывок за последний год. Автор призывает зрителей делиться своим опытом использования этих мощных инструментов в реальных проектах.

Community Posts

View all posts