Я протестировал DeepSeek V4 vs Claude Code vs Codex

Русскийالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português 中文

컴퓨터/소프트웨어AI/미래기술

Transcript

00:00:00За последние 24 часа произошло огромное обновление

00:00:02двух крупнейших моделей ИИ на планете.

00:00:04Во-первых, вышел GPT 5.5,

00:00:07который демонстрирует результаты тестов,

00:00:10превосходящие Mythos от Claude.

00:00:12Во-вторых, вышел DeepSeek V4,

00:00:15модель с открытым исходным кодом и открытыми весами,

00:00:18показатели которой соперничают с главными игроками индустрии.

00:00:22И что же со всем этим новым выбором моделей

00:00:24делать обычному пользователю?

00:00:27Что ж, сегодня я помогу вам ответить на этот вопрос,

00:00:29сравнив Opus 4.7, GPT 5.5

00:00:33и DeepSeek V4 друг с другом,

00:00:36чтобы вы могли понять, что именно подходит вам.

00:00:39Итак, прежде чем мы начнем это трехстороннее тестирование

00:00:41между GPT 5.5 в среде codecs,

00:00:45DeepSeek V4 в среде open code,

00:00:47и Opus 4.7 в среде Claude code,

00:00:51давайте сначала взглянем на результаты тестов,

00:00:53особенно двух новейших моделей,

00:00:54выпущенных за последние 24 часа.

00:00:56Теперь поговорим о стоимости.

00:00:58DeepSeek V4, как вы знаете,

00:01:00это модель с открытым кодом и открытыми весами,

00:01:01но это не значит, что вы можете запустить её на своем компьютере,

00:01:04потому что она огромна.

00:01:05Я говорю о 1,6 триллиона параметров.

00:01:08Вам понадобится серьезное оборудование для её запуска.

00:01:10Так что нам всё ещё придется платить за неё.

00:01:11Нам всё ещё нужно использовать API,

00:01:13но она бесконечно дешевле конкурентов,

00:01:15примерно в восемь раз дешевле.

00:01:18И из этих трёх моделей

00:01:19совершенно новый GPT 5.5 на самом деле самый дорогой,

00:01:22что довольно удивительно, потому что в целом

00:01:24OpenAI была дешевле конкурентов из Anthropic.

00:01:28Что касается стоимости

00:01:30за 1 миллион токенов вывода:

00:01:32для GPT 5.5 это будет 30 долларов.

00:01:35Для Anthropic это будет 25 долларов.

00:01:38А для DeepSeek это будет 3,48 доллара.

00:01:41Теперь, если говорить о входных токенах,

00:01:44которые составляют меньшую часть целого,

00:01:46то у GPT 5.5 и Opus 5.7 цены одинаковые.

00:01:49Это 5 долларов за 1 миллион входных токенов.

00:01:53А для DeepSeek это около 1,70 доллара.

00:01:57Так что это гораздо дешевле как на входе, так и на выходе.

00:02:01При этом, говоря о версии 5.5,

00:02:03она в два раза дороже, чем 5.4.

00:02:06Однако OpenAI утверждает, что она использует гораздо меньше токенов

00:02:10благодаря своей мощности.

00:02:11Так что, хотя она вдвое дороже 5.4,

00:02:14они говорят, что с точки зрения реальных затрат на токены,

00:02:17за одну и ту же задачу, в итоге она оказывается лишь на 20%

00:02:20дороже.

00:02:21Просто имейте это в виду.

00:02:24Мы обсудили стоимость.

00:02:25Теперь поговорим о результатах тестирования.

00:02:26Насколько хороши эти модели на бумаге?

00:02:27Я знаю, что мы все немного привыкли к тестам.

00:02:31К ним нужно относиться скептически,

00:02:32но всё же стоит взглянуть на них,

00:02:33особенно когда мы смотрим на цифры,

00:02:36представленные каждым игроком в одном и том же тесте.

00:02:39В категории программирования было три теста,

00:02:42для которых все трое опубликовали данные.

00:02:43Это SWE bench verified, SWE bench pro

00:02:46и terminal bench 2.0.

00:02:48В SWE bench verified и SWE bench pro

00:02:50победил Opus.

00:02:52В terminal bench 2.0 победил GPT с результатом 87.2,

00:02:56что, кстати, является более высоким числом,

00:02:59чем то, что Anthropic сообщила для Mythos.

00:03:02Ой, Mythos, простите.

00:03:03Что довольно безумно.

00:03:05Вы знаете, та секретная модель, которую они не могут выпустить,

00:03:07по-видимому, показывает худшие результаты в terminal bench 2, чем GPT 5.5.

00:03:10Terminal bench 2.0 — это самый большой выброс здесь.

00:03:13Opus 4.7 и V4 Pro сильно отстают,

00:03:16но посмотрите на Opus 4.7 против V4 Pro.

00:03:20Разница менее двух баллов при восьмикратной разнице в цене.

00:03:23И вы видите ту же историю здесь

00:03:24с SWE bench verified и SWE bench pro.

00:03:26Да, Opus выигрывает.

00:03:28Но когда мы сравниваем второе место с третьим,

00:03:31а V4 всегда на третьем,

00:03:33нет такого огромного разрыва, которого вы ожидали бы.

00:03:36Я имею в виду, пять очков — это немало,

00:03:38в SWE bench verified, с 85 до 86.

00:03:41Но опять же, в восемь раз дешевле, открытый код.

00:03:45Знаете, здесь есть реальные компромиссы,

00:03:46на которые мы можем пойти, если нам не нужна максимальная мощность.

00:03:49Ещё один интересный момент для обсуждения

00:03:51это длинный контекст, где странно, но Opus 4.7 очень плох

00:03:55судя по цифрам, значительно хуже, чем 4.6,

00:03:58что просто взрывает мой мозг.

00:04:00И когда мы говорим о длинном контексте,

00:04:01где мы пытаемся извлечь вещи

00:04:03между 500 000 и 1 миллионом токенов,

00:04:064.7 на самом деле ужасен.

00:04:08И работает намного хуже, чем DeepSeek и GPT 5.5.

00:04:12Можно вести целую дискуссию о том,

00:04:14зачем вам вообще работать в диапазоне 500 000 – 1 миллион токенов?

00:04:17Сколько людей на самом деле работают там,

00:04:20потому что мы сталкиваемся с деградацией контекста в любом случае,

00:04:22какую бы модель мы ни использовали.

00:04:24Но интересно, что по какой-то причине

00:04:26мы наблюдаем некоторую регрессию

00:04:27в моделях Anthropic.

00:04:29Но в целом, я думаю, главный вывод в том,

00:04:32что 5.5 действительно сильна.

00:04:33Она превосходит Opus 4.7 в некоторых метриках,

00:04:36уступает в некоторых,

00:04:37но это чрезвычайно надежная модель.

00:04:39И кроме того, V4 Pro, знаете ли,

00:04:42в целом отстает.

00:04:45Она на близком расстоянии, будучи бесконечно дешевле,

00:04:48что, опять же, отличный вариант для обычного клиента.

00:04:52Потому что сейчас кажется, что у вас не так много вариантов

00:04:54с открытым исходным кодом, которые действительно могут конкурировать.

00:04:56Теперь давайте перейдем к непосредственному тесту

00:04:59со всеми тремя моделями.

00:05:00И мы используем рабочую среду для каждой из них.

00:05:02Для 5.5 это codecs.

00:05:04Для Opus 4.7 это Claude code.

00:05:07А для DeepSeek V4 Pro я использую open code.

00:05:10И для первого теста мы собираемся

00:05:11попросить их создать симулятор полета

00:05:14на 3JS, который запускается в браузере.

00:05:17Вы можете увидеть промпт прямо здесь.

00:05:18Я говорю: я хочу, чтобы полет ощущался хорошо.

00:05:20Я хочу, чтобы чувствовался вес.

00:05:21Я хочу мощную визуализацию и хочу, чтобы она использовала любые

00:05:25структуры и инструменты, которые считает правильными.

00:05:27Так что задача достаточно ясна, они знают, что делать,

00:05:30но есть достаточно свободы, чтобы мы могли увидеть различия

00:05:33между моделями.

00:05:34И хотя мы собираемся посмотреть, на что они способны

00:05:36за один заход, мы пройдем через несколько итераций

00:05:38и дадим уточняющие промпты.

00:05:40Потому что, как бы круто ни было видеть, насколько хорошо они справляются с первого раза,

00:05:44это не то, как мы работаем в реальной жизни, верно?

00:05:46Я хочу увидеть, как модель справляется с дополнительными промптами

00:05:49и как быстро она доводит результат до того, что мне нравится.

00:05:52И когда мы сравниваем эти три модели,

00:05:54я буду смотреть на четыре вещи.

00:05:55Это время.

00:05:57Сколько времени уходит на создание?

00:05:58Стоимость, сколько токенов мы используем?

00:06:01Качество, насколько это хорошо?

00:06:02И четвёртое — это "вайб".

00:06:04И это отчасти связано с качеством.

00:06:06Это очень субъективно.

00:06:06Что мне на самом деле нравится больше?

00:06:09И, кстати, все три модели, все три среды

00:06:11используют абсолютно одни и те же навыки.

00:06:13Итак, начнем с вопросов DeepSeek.

00:06:16Она спрашивает, какую модель полета мы хотим.

00:06:18Давайте выберем полноценный симулятор.

00:06:20Она рекомендует океаны и острова для ландшафта.

00:06:22Мы согласимся.

00:06:23Посмотрим... и затем она спрашивает предпочтения по камере.

00:06:25Давайте сделаем оба.

00:06:26Посмотрим, сможет ли она дать переключатель

00:06:27между видом от первого и третьего лица.

00:06:29Мы согласимся с её рекомендацией по инструментам.

00:06:32И просто возьмем низкополигональную модель

00:06:33для самолета и визуализации.

00:06:35Теперь переходим к codecs, те же вопросы.

00:06:38Хотя она задает нам только три.

00:06:40Спрашивает, для какого полета оптимизировать планировщик?

00:06:42Давайте выберем жесткую симуляцию.

00:06:44Какой игровой опыт важнее для браузера?

00:06:48Пусть будет петля взлета с острова.

00:06:50Забавно, как у них у всех один и тот же вопрос.

00:06:52И какая камера и представление самолета?

00:06:54Я сделаю переключатель и для этого.

00:06:56А для Claude code мы выберем обучение симуляции

00:06:58для океана и островов.

00:07:02Используем клавиатуру и мышь.

00:07:04Пусть приступает к работе.

00:07:05Итак, режим планирования в целом очень похож у всех трех.

00:07:09Почти одни и те же вопросы типа:

00:07:11какой должна быть физика?

00:07:12Какой должна быть местность?

00:07:13Какой должна быть камера?

00:07:15Так что большой разницы здесь нет.

00:07:17И давайте посмотрим, что они предложат в плане.

00:07:19Хорошо, все три плана готовы.

00:07:20Давайте быстро пройдемся по каждому

00:07:22и увидим некоторые различия.

00:07:24Первый, на который мы смотрим — DeepSeek.

00:07:26План довольно поверхностный.

00:07:29Он дает структуру проекта

00:07:31и очень быстро рассказывает о физике полета,

00:07:33окружении, камере и HUD-оверлее,

00:07:35буквально пара пунктов.

00:07:37С другой стороны, если посмотреть на 5.5 внутри codecs,

00:07:40здесь есть сводка, ключевые изменения,

00:07:43описание реализации, план тестирования

00:07:46а также допущения,

00:07:47которые он четко для нас расписывает.

00:07:49А еще есть план Claude Code, который занял больше всего времени.

00:07:50Это заняло около пяти минут, но он определенно самый детальный,

00:07:53потому что там есть контекст и стек.

00:07:55В макете говорится о модели полета.

00:07:57Там подробно описываются разные моменты,

00:08:00говорится о сваливании, например, о зуммере сваливания.

00:08:02То есть он идет очень, очень детально.

00:08:03Описываются элементы управления, мир, мод,

00:08:06самолет, который мы будем использовать, производительность,

00:08:08и это продолжается снова и снова.

00:08:10Так что очень детально.

00:08:11Теперь мы заставим всех троих реализовать свой план,

00:08:14и посмотрим, как будет выглядеть конечный результат.

00:08:15Первым закончил GPT 5.5 внутри Codec.

00:08:19Давайте посмотрим, как это выглядит.

00:08:20Вот авиасимулятор, который он нам выдал.

00:08:22У нас есть облака в небе.

00:08:26У нас там есть что-то похожее на индикатор угла атаки.

00:08:31У нас есть скорость внизу,

00:08:34и давайте попробуем оторвать

00:08:35эту штуку от земли.

00:08:36Замечу, что здесь нет никакой взлетно-посадочной полосы.

00:08:38Это просто трава.

00:08:39Хотя задумывалось что-то вроде острова.

00:08:42Хотя, когда камера немного сходит с ума,

00:08:45можно на секунду увидеть полосу внизу.

00:08:48Ладно, мы сваливаемся, и мы просто,

00:08:50мы даже не можем оторваться от земли, верно?

00:08:51Так что с этим вариантом все немного,

00:08:54на самом деле довольно сложно.

00:08:55Поэтому я сделаю следующее, я дам ему

00:09:00второй запрос с просьбой сделать его немного проще

00:09:03в управлении, потому что здесь много всего происходит,

00:09:05но это трудно.

00:09:06Итак, я написал: "Очень сложно управлять".

00:09:08Можем ли мы сделать это проще в использовании?

00:09:10То есть, немного в аркадном стиле.

00:09:12А еще графику не помешало бы доработать.

00:09:15Посмотрим, как он справится.

00:09:16Отмечу, что у 5.5 ушло около семи минут,

00:09:21чтобы создать для нас эту первую версию.

00:09:23И на это ушло 63 000 токенов.

00:09:26Хорошо, он сказал, что сделал его немного проще

00:09:28в управлении и обновил графику.

00:09:29Давайте посмотрим, как выглядит вторая версия.

00:09:32Итак, вот что мы получили.

00:09:32Графика определенно выглядит лучше,

00:09:34но посмотрим, сможем ли мы в этот раз

00:09:36оторваться от полосы.

00:09:37Так, ладно, дроссель на сто процентов,

00:09:4150, 60, семьдесят.

00:09:43Какая скорость отрыва у Cessna?

00:09:46Так, 70, 80, 90.

00:09:49Мы точно должны сейчас оторваться от земли.

00:09:51Окей, не в ту сторону.

00:09:53Давай, оторвись от земли, оторвись.

00:09:56Нет, это, наверное, приведет к сваливанию, да?

00:09:58Да, сваливание.

00:09:59Окей, над этим еще нужно поработать.

00:10:02Так что дадим Codec еще один шанс.

00:10:05Дадим 5.5 еще одну возможность

00:10:07сделать это действительно играбельным.

00:10:08Я сказал ему, что не могу даже поднять самолет

00:10:10в воздух и войти в полет.

00:10:11Нам определенно нужно сделать взлет простым,

00:10:12и чтобы им действительно можно было управлять.

00:10:14Окей, он говорит, что исправил проблему со взлетом.

00:10:16Оказывается, раньше тормоза были заблокированы.

00:10:19Не знаю, из-за этого ли мы не могли взлететь.

00:10:21О, он не установил автоматически режим взлета.

00:10:24Закрылки, да, это было,

00:10:25у нас был включен режим суперсимулятора.

00:10:29Но вот третья попытка нашего авиасимулятора.

00:10:32Посмотрим, как у нас получится.

00:10:34Итак, сможем ли мы оторваться от земли?

00:10:36О, мы прыгаем по взлетной полосе

00:10:37в этот раз.

00:10:38Ладно, отлично, мы в воздухе.

00:10:41Мы действительно движемся.

00:10:44Посмотрим, смогу ли я попасть в одно из колец.

00:10:45То есть, графика не так уж плоха, знаете,

00:10:49для того, что было создано менее чем за 10 минут.

00:10:52Кажется, он довольно точен в том плане, что,

00:10:56он показывает мне мою вертикальную скорость,

00:10:59футов в минуту внизу,

00:11:00мою реальную высоту, узлы, курс, высоту над уровнем земли.

00:11:04Так что он довольно сложный

00:11:06в плане отслеживания всего.

00:11:08То есть этот маленький индикатор спереди,

00:11:10похоже на индикатор угла атаки, что круто.

00:11:13Так что у него есть хорошие функции.

00:11:14Само управление немного дерганое.

00:11:18Как видите, я совершенно не могу это контролировать,

00:11:21но, в целом, не так уж плохо.

00:11:23Знаете, мы можем устроить камикадзе

00:11:25и посмотреть, что произойдет на скорости,

00:11:27скажем, 18 000 футов в минуту.

00:11:31Но да, знаете, за 66 000 токенов,

00:11:36около 10-15 минут, плюс-минус,

00:11:40со всеми доработками,

00:11:41не думаю, что это плохо.

00:11:42А теперь давайте посмотрим на DeepSeek.

00:11:44У него ушло около 10 минут.

00:11:46И в плане токенов, 63 000 и 44 цента.

00:11:51Так что 44 цента, 10 минут.

00:11:53И вот что DeepSeek выдал нам.

00:11:56Я понятия не имею,

00:12:00на что я смотрю.

00:12:03Это должно быть от третьего лица.

00:12:06Это должно быть кабина.

00:12:07И очевидно, что наша первая попытка с DeepSeek

00:12:11была еще одной катастрофой.

00:12:13Так что я говорю DeepSeek, что симулятор — полный беспорядок.

00:12:16Графика полностью глючная,

00:12:17и я не могу ничем управлять.

00:12:20Пожалуйста, исправь.

00:12:21И вот как выглядит наш второй вариант.

00:12:24Я все еще понятия не имею.

00:12:26Абсолютно никакого представления.

00:12:28Что, черт возьми, такое DeepSeek.

00:12:30О, эй, там самолет.

00:12:32О, там что-то есть.

00:12:33Да, это, это жесть.

00:12:38И честно говоря, я чувствую, что даже если дам ему новый запрос,

00:12:42мне нужно будет стать очень, очень конкретным

00:12:44в том, что мы пытаемся сделать, что опять же,

00:12:47сильно проигрывает тому, что мы сделали с Codec.

00:12:49Там были очень, ну, довольно простые промпты.

00:12:51И я смог получить что-то хотя бы похожее

00:12:53даже с первой попытки.

00:12:54Здесь же он явно полностью борется

00:12:57с графикой.

00:12:58Мы просто, я даже не знаю, как это описать,

00:13:01но эй, это было очень дешево.

00:13:03Так что теперь давайте посмотрим, что Claude Code

00:13:07смог дать нам для сравнения.

00:13:09Ему потребовалось 13 минут, чтобы выполнить план.

00:13:12Сам план занял пять минут.

00:13:13Так что назовем это 20 минут на первую версию.

00:13:17А что касается общего количества токенов,

00:13:19этот запуск занял около 15%, плюс 5% перед планом.

00:13:22То есть мы смотрим, ну, извините,

00:13:24мы смотрим на 11% контекста плюс 5% до этого.

00:13:28Так что считайте 20 минут, 150 000 токенов для Claude Code,

00:13:33что определенно самый дорогой

00:13:34и самый медленный из всех.

00:13:36И вот попытка Claude Code.

00:13:39Почему-то мы мгновенно оказываемся в воздухе.

00:13:43Мы сваливаемся.

00:13:44Мы по приборам.

00:13:45Я не знаю, что происходит.

00:13:48Мы вот-вот во что-то врежемся.

00:13:50Можем ли мы это спасти?

00:13:51Можем ли мы вывести его из пике?

00:13:53Нет, мы сваливаемся, нет, мы разбились.

00:13:54Хорошо, это интересно.

00:13:56Снова он мгновенно выбрасывает нас в небо.

00:14:00Мы в облаках.

00:14:02Мы сваливаемся.

00:14:03Я не знаю, что происходит.

00:14:05Нам нужно, нам нужно еще раз попробовать.

00:14:08Так что я написал: "При загрузке меня мгновенно выбрасывает в воздух".

00:14:11Трудно управлять.

00:14:12Я хочу начать на взлетной полосе, и хочу, чтобы им было легче управлять.

00:14:15О, и кстати, улучшите графику тоже.

00:14:17Ушло около четырех минут, но он внес некоторые изменения.

00:14:20Мы появимся на взлетной полосе.

00:14:22Он поменял шасси.

00:14:23Теперь это трехопорное шасси и кое-что еще.

00:14:24Так что давайте посмотрим, как это выглядит.

00:14:26Итак, вот он.

00:14:27Опять же, мы мгновенно попадаем в полосу тумана.

00:14:29Я пытаюсь управлять этой штукой.

00:14:31И я просто, да, здесь вообще нет управления.

00:14:33Ладно, мы дадим,

00:14:34мы дадим Claude Code еще один шанс.

00:14:37Я сказал ему, что он все еще мгновенно выбрасывает меня

00:14:39в небо.

00:14:40Я сказал, давайте попробуем более аркадный стиль

00:14:42управления.

00:14:43Думаю, нам следовало сделать это

00:14:44в начальных промптах для всех троих.

00:14:46Думаю, пытаясь сделать что-то вроде реалистичного симулятора,

00:14:50он действительно с трудом справляется,

00:14:53чтобы сделать это так, чтобы оно оставалось удобным для пользователя.

00:14:57Думаю, внутри он справляется хорошо,

00:14:59в плане того, что, ладно, угол атаки.

00:15:01Хорошо, ты сваливаешься при этом,

00:15:02угле относительно скорости и все такое.

00:15:04Но на самом деле управлять этим с компьютера

00:15:07практически невозможно.

00:15:09Хотя думаю, что туман — это очень странно.

00:15:12Так что давайте посмотрим, сможет ли он после второго раунда промптов

00:15:15справиться немного лучше,

00:15:16потому что прямо сейчас GPT 5.5 справился намного, намного лучше.

00:15:20Итак, Claude Code внес еще несколько изменений,

00:15:22сделал его более удобным для пользователя.

00:15:23И посмотрим, не собираюсь ли я снова

00:15:24на этот раз получаю допуск по приборам.

00:15:26Итак, да, мы все еще в процессе.

00:15:28Мы все еще идем на допуск по приборам.

00:15:30Мы сейчас здесь, но, знаете, я вроде как вижу это.

00:15:33Знаете, я могу проверить свою приборную панель.

00:15:35Ладно, мы сходим с полосы.

00:15:37Да, окей.

00:15:42Могу я… почему на полосе дерево?

00:15:44Я пытаюсь взлететь.

00:15:46Могу я подняться?

00:15:47Могу я взять тангаж?

00:15:49Нажмите на холст, чтобы зафиксировать мышь, что?

00:15:53О, мы в воздухе.

00:15:54Нет, нет, мы разбились.

00:15:57Так что да, я думаю, здесь все довольно ясно.

00:16:02GPT 5.5, безусловно, победитель, я думаю.

00:16:06Claude Code занял второе место.

00:16:08Я бы отдал ему второе место.

00:16:10Знаете, он определенно боролся,

00:16:13даже с подсказками, которые мы ему дали.

00:16:14Мы дали ему не лучшие подсказки, будем честны.

00:16:16Думаю, если дать ему больше времени, лучшие подсказки,

00:16:19еще пару итераций,

00:16:20мы могли бы получить то, что хотели.

00:16:21По крайней мере, у него был самолет, была полоса.

00:16:25Пусть и с деревьями на полосе,

00:16:26но у него были необходимые вещи

00:16:29в отличие от DeepSeek с OpenCODE.

00:16:32Я понятия не имел, что там происходит.

00:16:34Это был полный бардак.

00:16:35Мне кажется, мне пришлось бы начать сначала,

00:16:36с самого начала, дать ему очень конкретную подсказку.

00:16:38Это даже не было близко к рабочему состоянию,

00:16:39но GPT 5.5 с самого начала, знаете,

00:16:42с довольно расплывчатыми подсказками,

00:16:44я думаю, справился очень хорошо.

00:16:455.5 также использовал в общей сложности 66 тысяч токенов.

00:16:48Мы смотрим здесь, с Opus в целом,

00:16:52около 200 000 токенов.

00:16:53Так что четверть токенов, по сути, четверть стоимости.

00:16:56И он был немного быстрее.

00:16:58Я имею в виду, на данный момент меня даже не волнует,

00:16:59почему OpenCODE занял больше времени, чем GPT 5.5.

00:17:03И он просто отстой, давайте будем честны, он просто отстой.

00:17:07Теперь перейдем к тесту номер два.

00:17:10В этот раз мы попросим их

00:17:12создать целевую страницу, демонстрирующую работу с шейдерами WebGPU

00:17:16с использованием 3JS.

00:17:18Работа с шейдерами WebGPU — это то, что вы видите

00:17:21на сайтах с наградами.

00:17:23Я говорю о таких сайтах, как Igloo, что-то вроде этого,

00:17:26очень высококлассная графика.

00:17:28Это выглядит как видеоигра.

00:17:29По сути, используется видеокарта вашего компьютера,

00:17:32чтобы отрендерить все это.

00:17:34Я не ожидаю, что кто-то из них получит что-то хоть близкое

00:17:37к тому, что мы здесь видим, но я хочу посмотреть, что они могут сделать

00:17:40используя, по сути, технологию шейдеров.

00:17:42Это определенно на ступень выше вашей базовой

00:17:45целевой страницы на шаблоне SaaS.

00:17:46Я хочу посмотреть, на что они способны, и подтолкнуть их

00:17:48к пределам в мире веб-дизайна.

00:17:50Я дал им всем навык, который на самом деле объясняет,

00:17:53как делать подобные вещи.

00:17:55Так что это не так, что они полностью в неведении,

00:17:57и никто не имеет преимущества перед другими.

00:18:00Единственное, что я им сказал, это то, что хочу, чтобы это выглядело современно

00:18:02и визуально эффектно, как на сайтах с наградами,

00:18:05и разумно использовать вычисления GPU.

00:18:08Они могут выбрать любой стек и структуру проекта,

00:18:10какие им нравятся, и проявить здравый смысл в концепции первого экрана,

00:18:13UI и взаимодействиях.

00:18:15И, как и в первом тесте, они все в режиме планирования.

00:18:17Так что давайте начнем.

00:18:18Окей, они все закончили планирование, и забавно,

00:18:21никто из них не задал мне никаких вопросов,

00:18:22хотя мы перевели их в режим планирования.

00:18:24Давайте сначала взглянем на GPT 5.5.

00:18:28Итак, он говорит нам, что сделает интерактивный

00:18:30герой-секцию на полный экран с GPU-рендерингом.

00:18:32Концепцией будет живое поле сигналов

00:18:34с какой-то плотной частичной структурой.

00:18:36Посмотрим, как это будет выглядеть.

00:18:38В целом, это минималистичный лендинг в стиле наград.

00:18:41Полностью интерактивная сцена WebGPU

00:18:43с компьютерной симуляцией реакции на курсор.

00:18:46Хорошо, у DeepSeek довольно короткий и милый план,

00:18:50как мы видели с авиасимулятором.

00:18:53Надеюсь, в этот раз мы получим лучший результат,

00:18:54но герой-секция с 75 000 частиц, вычисляемых GPU.

00:18:58Я догадываюсь, что все они собираются выбрать

00:19:01какую-то тематику частиц для героя.

00:19:04Будет интерактивность мыши, интеграция.

00:19:08Будет однократная инициализация.

00:19:10И потом мы должны увидеть такие вещи, как свечение,

00:19:13хроматическая аберрация, кастомная виньетка и зернистость пленки.

00:19:16Посмотрим, как это будет выглядеть на самом деле.

00:19:19А потом у нас есть план Opus 4.7 снова,

00:19:21выбирает эту штуку с частицами и свечением,

00:19:23и она будет интерактивной с мышью.

00:19:25Посмотрим, будут ли они вообще выглядеть по-разному,

00:19:27потому что внешне все их планы звучат очень похоже.

00:19:29Итак, первым закончил 5.5.

00:19:32Это заняло около шести минут.

00:19:34И в плане токенов мы использовали 107 тысяч.

00:19:37Давайте посмотрим, что он нам построил.

00:19:40И вот что он создал для нас.

00:19:42Это очень ярко.

00:19:45Так что трудно даже увидеть реальные частицы,

00:19:47но, знаете, когда мы прокручиваем вверх и вниз,

00:19:50в фоне идет анимация,

00:19:52а также, знаете, некоторые тонкие цветовые изменения.

00:19:56Похоже, прямо сейчас наша мышь должна

00:20:00притягивать частицы.

00:20:01И у нас есть, я передвину это сюда.

00:20:03Он дал несколько опций, например, отталкивание или дрейф.

00:20:08Но опять же, это трудно увидеть,

00:20:11из-за того, насколько это ярко.

00:20:12Так что я сказал ему, что трудно на самом деле увидеть частицы

00:20:14из-за яркости.

00:20:14Это также захватывает большую часть технологий героя.

00:20:16Можем ли мы немного уменьшить яркость

00:20:18и также немного сместить это вправо?

00:20:20Потому что сейчас это своего рода подавляющее.

00:20:23Вы даже не можете по-настоящему прочитать текст здесь слева,

00:20:25из-за того, насколько чертовски яркие эти частицы.

00:20:27А вот обновление после второго прогона.

00:20:30Немного лучше.

00:20:31Оно не такое подавляющее и оставляет немного места для текста.

00:20:35Хотя я бы сказал, что это почти размыто,

00:20:39но, знаете, это не так уж плохо.

00:20:41Как будто он взялся сделать то, что мы ему сказали,

00:20:44учитывая несколько расплывчатую задачу.

00:20:46Так что я не поражен дизайном, который он придумал,

00:20:49но я не расстроен этим.

00:20:51Теперь давайте посмотрим на Claude Code,

00:20:52потому что пока мы все это делали,

00:20:55DeepSeek все еще здесь, в окопах,

00:20:57пытаясь разобраться.

00:20:58А вот что нам дал Claude Code.

00:21:01В общем-то, ничего.

00:21:06Я не уверен, говорит ли он, что фон,

00:21:10я полагаю, весь фон должен быть

00:21:14WebGL, я предполагаю.

00:21:19Это очень сдержанно,

00:21:21что, я полагаю, вы вполне можете сделать.

00:21:24Я имею в виду, на экране это не выглядит,

00:21:25ну, выглядит довольно круто, но буду честен,

00:21:28я искал что-то более яркое.

00:21:31Так что во втором проходе,

00:21:31когда я сказал ему сделать это немного более ярким,

00:21:34большой разницы не было.

00:21:35Хотя это очень тонко.

00:21:38Там есть что-то вроде зернистости пленки,

00:21:40почти размытие, которое идет снизу вверх.

00:21:43Так что это довольно тонкая вещь.

00:21:45И вы можете видеть здесь внизу,

00:21:47он отслеживает частоту кадров.

00:21:49Он использует 250 000 частиц.

00:21:51Так что, честно говоря, выглядит круто.

00:21:54Просто не очень ярко.

00:21:56Так что это определенно вопрос вкуса.

00:21:58Общее количество токенов со стороны Claude Code было около 175 000,

00:22:01и это заняло чуть больше времени, чем у 5.5 внутри Codex.

00:22:05Теперь давайте взглянем на DeepSeek,

00:22:07который на данный момент использовал 116 000 токенов.

00:22:10Он также занял больше всего времени,

00:22:12но общая стоимость снова, говорим, меньше доллара.

00:22:15И вот что он нам дал.

00:22:17Так что это своего рода поле частиц,

00:22:21которое слегка следует за моей мышью.

00:22:25Интересно.

00:22:27Я думаю, это может вызвать у вас эпилептический припадок.

00:22:29Честно говоря, помимо этого, это довольно скучно.

00:22:35Флюкс, знаете, X-ray здесь меняет цвета,

00:22:39но да, в основном просто создал эту штуку.

00:22:43После того, как я сказал DeepSeek сделать еще один проход,

00:22:45он вернулся с этим,

00:22:46где теперь у него как бы какой-то странный параллакс.

00:22:49В фоне происходит что-то синее.

00:22:53И теперь эта штука, похожая на НЛО,

00:22:55которая как бы реагирует на вашу мышь,

00:22:58но да, это что-то.

00:23:02И в целом количество токенов от DeepSeek составило 130 тысяч,

00:23:05обойдясь в 1,43 доллара.

00:23:08Так что после всех этих тестов, к чему это нас привело?

00:23:13А теперь давайте поговорим об окончательных результатах.

00:23:15Что касается теста номер один,

00:23:16которым был авиасимулятор, явный победитель.

00:23:18Это был GPT 5.5 внутри Codex.

00:23:21Он был быстрее, чем Opus 4.7 внутри Claude Code.

00:23:25Он был также быстрее, и конечный результат был намного лучше.

00:23:29DeepSeek ужасно справился с авиасимулятором.

00:23:32Это даже не было близко к тому, что мы пытались сделать.

00:23:34Мне пришлось бы продолжать подсказывать ему,

00:23:35подсказывать, подсказывать, чтобы хотя бы приблизить его

00:23:38к первому проходу от 5.5, а Opus 4.7 и Claude Code

00:23:43были, ну, не ужасно.

00:23:46Оно правда не сработало в начале,

00:23:48но после пары подсказок можно было сказать,

00:23:50мы могли бы довести её до состояния, эквивалентного

00:23:52тому, что делала GPT 5.5.

00:23:54Это заняло бы больше промптов.

00:23:55Это заняло бы больше времени,

00:23:57и в конечном итоге это было бы дороже.

00:23:59Так что 5.5 — явный победитель.

00:24:01Что касается целевой страницы WebGPU,

00:24:03здесь DeepSeek снова сдал позиции.

00:24:04Мне это совсем не понравилось.

00:24:06Я даже не понимаю, что это должно было быть.

00:24:08Конечно, я не дал супер-хороший промпт,

00:24:10но, неужели это то, что мы будем получать

00:24:13в качестве базового среднего результата?

00:24:16Если я не возьму DeepSeek в ежовые рукавицы

00:24:19и не заставлю его что-то делать, то, видимо, да.

00:24:22Теперь, сравнивая Opus и 5.5,

00:24:24я бы выбрал Opus 4.7 и Claude Code

00:24:27за то, как он справился с WebGPU.

00:24:29Думаю, дело тут скорее в вопросе вкуса.

00:24:31Да, можно поспорить, что 5.5 был эффектнее,

00:24:35но я посчитал его довольно уродливым.

00:24:37Опять же, во всех этих тестах мы держали промпты довольно расплывчатыми,

00:24:41чтобы посмотреть, по какому пути пойдет модель.

00:24:43Так что я определенно отдал бы первенство Opus,

00:24:46хотя он был дороже

00:24:48и занял немного больше времени.

00:24:50Так что, если бы им дали более конкретный промпт,

00:24:55в котором было бы четко указано, что вы хотите сделать,

00:24:57ведь 5.5 сделал то, что мы от него хотели.

00:24:59Он действительно создал целевую страницу WebGPU.

00:25:02Просто я посчитал её уродливой.

00:25:04Так что задачу он всё же выполнил.

00:25:06Просто не так хорошо, как Opus, на мой взгляд.

00:25:08Теперь, в целом, что это означает,

00:25:09если собрать всё это вместе?

00:25:11Думаю, это отличные новости

00:25:13для всех, кто использует агентские декодеры.

00:25:16У нас есть выбор, верно?

00:25:18Вы можете использовать Opus и Claude Code,

00:25:20или вы можете использовать GPT 5.5 и Codec.

00:25:23Вы не ошибетесь ни с тем, ни с другим.

00:25:25Думаю, на данный момент это полностью дело личных предпочтений.

00:25:28И самое приятное то, что если вы пойдете по пути Claude Code,

00:25:31это почти всё применимо и к Codec.

00:25:33Если вы пойдете по пути Codec,

00:25:34это почти всё применимо и к Claude Code.

00:25:37Так что я не думаю, что есть привязка к вендору в том смысле,

00:25:40типа: "О, я выучил только Claude Code".

00:25:42Я не могу перейти на Codec или наоборот.

00:25:44Это совсем не так.

00:25:45Если вы делаете это правильно,

00:25:46то, что вы на самом деле изучаете, — это основы ИИ

00:25:48и как создавать вещи.

00:25:49И это применимо к обоим вариантам.

00:25:51И чем больше конкуренции,

00:25:53тем лучше для нас, потребителей.

00:25:54Что касается DeepSeek, хм, не знаю.

00:25:59Я не был особо впечатлен.

00:26:00Возможно, это ситуация, когда, ладно,

00:26:02DeepSeek имеет смысл, если мы выполняем простые задачи,

00:26:04где нам просто не нужна мощь чего-то вроде Opus,

00:26:06или нам просто не нужна мощь чего-то вроде GPT 5.5.

00:26:10Потому что помните, мы говорим о чем-то,

00:26:11что в восемь раз дешевле.

00:26:13Конечно, мне не понравились целевые страницы WebGPU,

00:26:16которые он выдал, но были ли они в восемь раз хуже?

00:26:19Может быть, а может и нет.

00:26:21Довольно сложно это как-то

00:26:23сформулировать и количественно оценить.

00:26:24Но, очевидно, это то, что нам нужно учитывать.

00:26:27Так что, я не думаю, что это настоящая конкуренция

00:26:30для 4.7 или 5.5, если честно.

00:26:33Хотя я думаю, что если вы выполняете простые задачи

00:26:35и вы очень внимательны к токенам и деньгам,

00:26:38то, эй, может быть, DeepSeek вам подходит.

00:26:41Это всё, что у меня есть для вас на сегодня.

00:26:42Надеюсь, это пролило свет на эти три модели

00:26:45и на то, как они соотносятся друг с другом.

00:26:47Думаю, сейчас отличное время для этой сферы.

00:26:49Больше конкуренции — лучше для всех.

00:26:51Так что, как всегда, если вы хотите получить доступ

00:26:53к мастер-классу по Claude Code,

00:26:55обязательно загляните в Chase AI Plus.

00:26:56Ссылка на это есть в описании.

00:26:58И увидимся.

Key Takeaway

GPT 5.5 обеспечивает оптимальный баланс производительности и стоимости для задач программирования, в то время как Claude Opus 4.7 лучше справляется со сложными визуальными задачами, а DeepSeek V4 остается бюджетным, но менее эффективным решением.

Highlights

DeepSeek V4 стоит 3,48 доллара за 1 миллион выходных токенов, что примерно в восемь раз дешевле, чем Claude Opus 4.7 или GPT 5.5.
GPT 5.5 лидирует в тестах Terminal Bench 2.0 с результатом 87,2 балла, превосходя показатели моделей Anthropic.
GPT 5.5 внутри среды Codec показал лучшие результаты в создании рабочего авиасимулятора, потратив 66 000 токенов против 200 000 токенов у Opus.
Claude Opus 4.7 продемонстрировал лучшие результаты в создании визуально сложной лендинг-страницы на WebGPU, несмотря на более высокую стоимость.
DeepSeek V4 значительно уступает конкурентам в задачах генерации кода для авиасимуляторов и интерактивных WebGPU-страниц, требуя большего количества итераций.

Timeline

Сравнение характеристик и стоимости моделей

Стоимость вывода GPT 5.5 составляет 30 долларов за миллион токенов, что делает его самой дорогой моделью из представленных.
DeepSeek V4 предлагает самую низкую цену: 3,48 доллара за миллион токенов вывода и 1,70 доллара за входные токены.
Opus 4.7 показывает сильные результаты в тестах SWE bench, но проигрывает GPT 5.5 в Terminal Bench 2.0.

Модели GPT 5.5, DeepSeek V4 и Opus 4.7 различаются по архитектуре и ценовой политике. DeepSeek V4 выделяется как модель с открытыми весами, доступная через API по цене в восемь раз ниже конкурентов. Тесты программирования показывают минимальный разрыв в эффективности между вторым и третьим местом, несмотря на значительную разницу в стоимости API.

Тестирование авиасимулятора в рабочей среде

GPT 5.5 в среде Codec создал работающий симулятор за 10–15 минут, используя 66 000 токенов.
Claude Code создал функциональный, но более сложный в управлении авиасимулятор, потратив 150 000 токенов.
DeepSeek V4 в среде open code не смог сгенерировать работоспособную графику или систему управления с первой итерации.

Модели получили одинаковые задачи по созданию симулятора полета на 3JS. GPT 5.5 оказался наиболее эффективным, предоставив результат с минимальными доработками. Claude Code продемонстрировал высокую детализацию планирования, но потребовал больше токенов и времени, а DeepSeek V4 оказался неспособен обеспечить рабочий функционал без существенного уточнения промптов.

Разработка WebGPU лендинга и итоговые выводы

Opus 4.7 лучше справился с задачей визуализации WebGPU, предложив более тонкую и эстетичную реализацию.
GPT 5.5 успешно выполнил задачу, но визуальная составляющая оказалась перегруженной и избыточно яркой.
Конкуренция между Claude Code и Codec позволяет пользователям эффективно работать с любым из этих инструментов, так как принципы управления ИИ идентичны.

В задаче по созданию визуально сложной лендинг-страницы Opus 4.7 показал превосходство в качестве графического дизайна. DeepSeek V4 снова отстал, не предложив качественного взаимодействия с пользователем. Итоговая рекомендация сводится к выбору между связками GPT 5.5/Codec или Opus 4.7/Claude Code в зависимости от конкретных задач и эстетических предпочтений.

Community Posts

Write about this video