Я протестировал DeepSeek V4 vs Claude Code vs Codex

CChase AI
컴퓨터/소프트웨어AI/미래기술

Transcript

00:00:00За последние 24 часа произошло огромное обновление
00:00:02двух крупнейших моделей ИИ на планете.
00:00:04Во-первых, вышел GPT 5.5,
00:00:07который демонстрирует результаты тестов,
00:00:10превосходящие Mythos от Claude.
00:00:12Во-вторых, вышел DeepSeek V4,
00:00:15модель с открытым исходным кодом и открытыми весами,
00:00:18показатели которой соперничают с главными игроками индустрии.
00:00:22И что же со всем этим новым выбором моделей
00:00:24делать обычному пользователю?
00:00:27Что ж, сегодня я помогу вам ответить на этот вопрос,
00:00:29сравнив Opus 4.7, GPT 5.5
00:00:33и DeepSeek V4 друг с другом,
00:00:36чтобы вы могли понять, что именно подходит вам.
00:00:39Итак, прежде чем мы начнем это трехстороннее тестирование
00:00:41между GPT 5.5 в среде codecs,
00:00:45DeepSeek V4 в среде open code,
00:00:47и Opus 4.7 в среде Claude code,
00:00:51давайте сначала взглянем на результаты тестов,
00:00:53особенно двух новейших моделей,
00:00:54выпущенных за последние 24 часа.
00:00:56Теперь поговорим о стоимости.
00:00:58DeepSeek V4, как вы знаете,
00:01:00это модель с открытым кодом и открытыми весами,
00:01:01но это не значит, что вы можете запустить её на своем компьютере,
00:01:04потому что она огромна.
00:01:05Я говорю о 1,6 триллиона параметров.
00:01:08Вам понадобится серьезное оборудование для её запуска.
00:01:10Так что нам всё ещё придется платить за неё.
00:01:11Нам всё ещё нужно использовать API,
00:01:13но она бесконечно дешевле конкурентов,
00:01:15примерно в восемь раз дешевле.
00:01:18И из этих трёх моделей
00:01:19совершенно новый GPT 5.5 на самом деле самый дорогой,
00:01:22что довольно удивительно, потому что в целом
00:01:24OpenAI была дешевле конкурентов из Anthropic.
00:01:28Что касается стоимости
00:01:30за 1 миллион токенов вывода:
00:01:32для GPT 5.5 это будет 30 долларов.
00:01:35Для Anthropic это будет 25 долларов.
00:01:38А для DeepSeek это будет 3,48 доллара.
00:01:41Теперь, если говорить о входных токенах,
00:01:44которые составляют меньшую часть целого,
00:01:46то у GPT 5.5 и Opus 5.7 цены одинаковые.
00:01:49Это 5 долларов за 1 миллион входных токенов.
00:01:53А для DeepSeek это около 1,70 доллара.
00:01:57Так что это гораздо дешевле как на входе, так и на выходе.
00:02:01При этом, говоря о версии 5.5,
00:02:03она в два раза дороже, чем 5.4.
00:02:06Однако OpenAI утверждает, что она использует гораздо меньше токенов
00:02:10благодаря своей мощности.
00:02:11Так что, хотя она вдвое дороже 5.4,
00:02:14они говорят, что с точки зрения реальных затрат на токены,
00:02:17за одну и ту же задачу, в итоге она оказывается лишь на 20%
00:02:20дороже.
00:02:21Просто имейте это в виду.
00:02:24Мы обсудили стоимость.
00:02:25Теперь поговорим о результатах тестирования.
00:02:26Насколько хороши эти модели на бумаге?
00:02:27Я знаю, что мы все немного привыкли к тестам.
00:02:31К ним нужно относиться скептически,
00:02:32но всё же стоит взглянуть на них,
00:02:33особенно когда мы смотрим на цифры,
00:02:36представленные каждым игроком в одном и том же тесте.
00:02:39В категории программирования было три теста,
00:02:42для которых все трое опубликовали данные.
00:02:43Это SWE bench verified, SWE bench pro
00:02:46и terminal bench 2.0.
00:02:48В SWE bench verified и SWE bench pro
00:02:50победил Opus.
00:02:52В terminal bench 2.0 победил GPT с результатом 87.2,
00:02:56что, кстати, является более высоким числом,
00:02:59чем то, что Anthropic сообщила для Mythos.
00:03:02Ой, Mythos, простите.
00:03:03Что довольно безумно.
00:03:05Вы знаете, та секретная модель, которую они не могут выпустить,
00:03:07по-видимому, показывает худшие результаты в terminal bench 2, чем GPT 5.5.
00:03:10Terminal bench 2.0 — это самый большой выброс здесь.
00:03:13Opus 4.7 и V4 Pro сильно отстают,
00:03:16но посмотрите на Opus 4.7 против V4 Pro.
00:03:20Разница менее двух баллов при восьмикратной разнице в цене.
00:03:23И вы видите ту же историю здесь
00:03:24с SWE bench verified и SWE bench pro.
00:03:26Да, Opus выигрывает.
00:03:28Но когда мы сравниваем второе место с третьим,
00:03:31а V4 всегда на третьем,
00:03:33нет такого огромного разрыва, которого вы ожидали бы.
00:03:36Я имею в виду, пять очков — это немало,
00:03:38в SWE bench verified, с 85 до 86.
00:03:41Но опять же, в восемь раз дешевле, открытый код.
00:03:45Знаете, здесь есть реальные компромиссы,
00:03:46на которые мы можем пойти, если нам не нужна максимальная мощность.
00:03:49Ещё один интересный момент для обсуждения
00:03:51это длинный контекст, где странно, но Opus 4.7 очень плох
00:03:55судя по цифрам, значительно хуже, чем 4.6,
00:03:58что просто взрывает мой мозг.
00:04:00И когда мы говорим о длинном контексте,
00:04:01где мы пытаемся извлечь вещи
00:04:03между 500 000 и 1 миллионом токенов,
00:04:064.7 на самом деле ужасен.
00:04:08И работает намного хуже, чем DeepSeek и GPT 5.5.
00:04:12Можно вести целую дискуссию о том,
00:04:14зачем вам вообще работать в диапазоне 500 000 – 1 миллион токенов?
00:04:17Сколько людей на самом деле работают там,
00:04:20потому что мы сталкиваемся с деградацией контекста в любом случае,
00:04:22какую бы модель мы ни использовали.
00:04:24Но интересно, что по какой-то причине
00:04:26мы наблюдаем некоторую регрессию
00:04:27в моделях Anthropic.
00:04:29Но в целом, я думаю, главный вывод в том,
00:04:32что 5.5 действительно сильна.
00:04:33Она превосходит Opus 4.7 в некоторых метриках,
00:04:36уступает в некоторых,
00:04:37но это чрезвычайно надежная модель.
00:04:39И кроме того, V4 Pro, знаете ли,
00:04:42в целом отстает.
00:04:45Она на близком расстоянии, будучи бесконечно дешевле,
00:04:48что, опять же, отличный вариант для обычного клиента.
00:04:52Потому что сейчас кажется, что у вас не так много вариантов
00:04:54с открытым исходным кодом, которые действительно могут конкурировать.
00:04:56Теперь давайте перейдем к непосредственному тесту
00:04:59со всеми тремя моделями.
00:05:00И мы используем рабочую среду для каждой из них.
00:05:02Для 5.5 это codecs.
00:05:04Для Opus 4.7 это Claude code.
00:05:07А для DeepSeek V4 Pro я использую open code.
00:05:10И для первого теста мы собираемся
00:05:11попросить их создать симулятор полета
00:05:14на 3JS, который запускается в браузере.
00:05:17Вы можете увидеть промпт прямо здесь.
00:05:18Я говорю: я хочу, чтобы полет ощущался хорошо.
00:05:20Я хочу, чтобы чувствовался вес.
00:05:21Я хочу мощную визуализацию и хочу, чтобы она использовала любые
00:05:25структуры и инструменты, которые считает правильными.
00:05:27Так что задача достаточно ясна, они знают, что делать,
00:05:30но есть достаточно свободы, чтобы мы могли увидеть различия
00:05:33между моделями.
00:05:34И хотя мы собираемся посмотреть, на что они способны
00:05:36за один заход, мы пройдем через несколько итераций
00:05:38и дадим уточняющие промпты.
00:05:40Потому что, как бы круто ни было видеть, насколько хорошо они справляются с первого раза,
00:05:44это не то, как мы работаем в реальной жизни, верно?
00:05:46Я хочу увидеть, как модель справляется с дополнительными промптами
00:05:49и как быстро она доводит результат до того, что мне нравится.
00:05:52И когда мы сравниваем эти три модели,
00:05:54я буду смотреть на четыре вещи.
00:05:55Это время.
00:05:57Сколько времени уходит на создание?
00:05:58Стоимость, сколько токенов мы используем?
00:06:01Качество, насколько это хорошо?
00:06:02И четвёртое — это "вайб".
00:06:04И это отчасти связано с качеством.
00:06:06Это очень субъективно.
00:06:06Что мне на самом деле нравится больше?
00:06:09И, кстати, все три модели, все три среды
00:06:11используют абсолютно одни и те же навыки.
00:06:13Итак, начнем с вопросов DeepSeek.
00:06:16Она спрашивает, какую модель полета мы хотим.
00:06:18Давайте выберем полноценный симулятор.
00:06:20Она рекомендует океаны и острова для ландшафта.
00:06:22Мы согласимся.
00:06:23Посмотрим... и затем она спрашивает предпочтения по камере.
00:06:25Давайте сделаем оба.
00:06:26Посмотрим, сможет ли она дать переключатель
00:06:27между видом от первого и третьего лица.
00:06:29Мы согласимся с её рекомендацией по инструментам.
00:06:32И просто возьмем низкополигональную модель
00:06:33для самолета и визуализации.
00:06:35Теперь переходим к codecs, те же вопросы.
00:06:38Хотя она задает нам только три.
00:06:40Спрашивает, для какого полета оптимизировать планировщик?
00:06:42Давайте выберем жесткую симуляцию.
00:06:44Какой игровой опыт важнее для браузера?
00:06:48Пусть будет петля взлета с острова.
00:06:50Забавно, как у них у всех один и тот же вопрос.
00:06:52И какая камера и представление самолета?
00:06:54Я сделаю переключатель и для этого.
00:06:56А для Claude code мы выберем обучение симуляции
00:06:58для океана и островов.
00:07:02Используем клавиатуру и мышь.
00:07:04Пусть приступает к работе.
00:07:05Итак, режим планирования в целом очень похож у всех трех.
00:07:09Почти одни и те же вопросы типа:
00:07:11какой должна быть физика?
00:07:12Какой должна быть местность?
00:07:13Какой должна быть камера?
00:07:15Так что большой разницы здесь нет.
00:07:17И давайте посмотрим, что они предложат в плане.
00:07:19Хорошо, все три плана готовы.
00:07:20Давайте быстро пройдемся по каждому
00:07:22и увидим некоторые различия.
00:07:24Первый, на который мы смотрим — DeepSeek.
00:07:26План довольно поверхностный.
00:07:29Он дает структуру проекта
00:07:31и очень быстро рассказывает о физике полета,
00:07:33окружении, камере и HUD-оверлее,
00:07:35буквально пара пунктов.
00:07:37С другой стороны, если посмотреть на 5.5 внутри codecs,
00:07:40здесь есть сводка, ключевые изменения,
00:07:43описание реализации, план тестирования
00:07:46а также допущения,
00:07:47которые он четко для нас расписывает.
00:07:49А еще есть план Claude Code, который занял больше всего времени.
00:07:50Это заняло около пяти минут, но он определенно самый детальный,
00:07:53потому что там есть контекст и стек.
00:07:55В макете говорится о модели полета.
00:07:57Там подробно описываются разные моменты,
00:08:00говорится о сваливании, например, о зуммере сваливания.
00:08:02То есть он идет очень, очень детально.
00:08:03Описываются элементы управления, мир, мод,
00:08:06самолет, который мы будем использовать, производительность,
00:08:08и это продолжается снова и снова.
00:08:10Так что очень детально.
00:08:11Теперь мы заставим всех троих реализовать свой план,
00:08:14и посмотрим, как будет выглядеть конечный результат.
00:08:15Первым закончил GPT 5.5 внутри Codec.
00:08:19Давайте посмотрим, как это выглядит.
00:08:20Вот авиасимулятор, который он нам выдал.
00:08:22У нас есть облака в небе.
00:08:26У нас там есть что-то похожее на индикатор угла атаки.
00:08:31У нас есть скорость внизу,
00:08:34и давайте попробуем оторвать
00:08:35эту штуку от земли.
00:08:36Замечу, что здесь нет никакой взлетно-посадочной полосы.
00:08:38Это просто трава.
00:08:39Хотя задумывалось что-то вроде острова.
00:08:42Хотя, когда камера немного сходит с ума,
00:08:45можно на секунду увидеть полосу внизу.
00:08:48Ладно, мы сваливаемся, и мы просто,
00:08:50мы даже не можем оторваться от земли, верно?
00:08:51Так что с этим вариантом все немного,
00:08:54на самом деле довольно сложно.
00:08:55Поэтому я сделаю следующее, я дам ему
00:09:00второй запрос с просьбой сделать его немного проще
00:09:03в управлении, потому что здесь много всего происходит,
00:09:05но это трудно.
00:09:06Итак, я написал: "Очень сложно управлять".
00:09:08Можем ли мы сделать это проще в использовании?
00:09:10То есть, немного в аркадном стиле.
00:09:12А еще графику не помешало бы доработать.
00:09:15Посмотрим, как он справится.
00:09:16Отмечу, что у 5.5 ушло около семи минут,
00:09:21чтобы создать для нас эту первую версию.
00:09:23И на это ушло 63 000 токенов.
00:09:26Хорошо, он сказал, что сделал его немного проще
00:09:28в управлении и обновил графику.
00:09:29Давайте посмотрим, как выглядит вторая версия.
00:09:32Итак, вот что мы получили.
00:09:32Графика определенно выглядит лучше,
00:09:34но посмотрим, сможем ли мы в этот раз
00:09:36оторваться от полосы.
00:09:37Так, ладно, дроссель на сто процентов,
00:09:4150, 60, семьдесят.
00:09:43Какая скорость отрыва у Cessna?
00:09:46Так, 70, 80, 90.
00:09:49Мы точно должны сейчас оторваться от земли.
00:09:51Окей, не в ту сторону.
00:09:53Давай, оторвись от земли, оторвись.
00:09:56Нет, это, наверное, приведет к сваливанию, да?
00:09:58Да, сваливание.
00:09:59Окей, над этим еще нужно поработать.
00:10:02Так что дадим Codec еще один шанс.
00:10:05Дадим 5.5 еще одну возможность
00:10:07сделать это действительно играбельным.
00:10:08Я сказал ему, что не могу даже поднять самолет
00:10:10в воздух и войти в полет.
00:10:11Нам определенно нужно сделать взлет простым,
00:10:12и чтобы им действительно можно было управлять.
00:10:14Окей, он говорит, что исправил проблему со взлетом.
00:10:16Оказывается, раньше тормоза были заблокированы.
00:10:19Не знаю, из-за этого ли мы не могли взлететь.
00:10:21О, он не установил автоматически режим взлета.
00:10:24Закрылки, да, это было,
00:10:25у нас был включен режим суперсимулятора.
00:10:29Но вот третья попытка нашего авиасимулятора.
00:10:32Посмотрим, как у нас получится.
00:10:34Итак, сможем ли мы оторваться от земли?
00:10:36О, мы прыгаем по взлетной полосе
00:10:37в этот раз.
00:10:38Ладно, отлично, мы в воздухе.
00:10:41Мы действительно движемся.
00:10:44Посмотрим, смогу ли я попасть в одно из колец.
00:10:45То есть, графика не так уж плоха, знаете,
00:10:49для того, что было создано менее чем за 10 минут.
00:10:52Кажется, он довольно точен в том плане, что,
00:10:56он показывает мне мою вертикальную скорость,
00:10:59футов в минуту внизу,
00:11:00мою реальную высоту, узлы, курс, высоту над уровнем земли.
00:11:04Так что он довольно сложный
00:11:06в плане отслеживания всего.
00:11:08То есть этот маленький индикатор спереди,
00:11:10похоже на индикатор угла атаки, что круто.
00:11:13Так что у него есть хорошие функции.
00:11:14Само управление немного дерганое.
00:11:18Как видите, я совершенно не могу это контролировать,
00:11:21но, в целом, не так уж плохо.
00:11:23Знаете, мы можем устроить камикадзе
00:11:25и посмотреть, что произойдет на скорости,
00:11:27скажем, 18 000 футов в минуту.
00:11:31Но да, знаете, за 66 000 токенов,
00:11:36около 10-15 минут, плюс-минус,
00:11:40со всеми доработками,
00:11:41не думаю, что это плохо.
00:11:42А теперь давайте посмотрим на DeepSeek.
00:11:44У него ушло около 10 минут.
00:11:46И в плане токенов, 63 000 и 44 цента.
00:11:51Так что 44 цента, 10 минут.
00:11:53И вот что DeepSeek выдал нам.
00:11:56Я понятия не имею,
00:12:00на что я смотрю.
00:12:03Это должно быть от третьего лица.
00:12:06Это должно быть кабина.
00:12:07И очевидно, что наша первая попытка с DeepSeek
00:12:11была еще одной катастрофой.
00:12:13Так что я говорю DeepSeek, что симулятор — полный беспорядок.
00:12:16Графика полностью глючная,
00:12:17и я не могу ничем управлять.
00:12:20Пожалуйста, исправь.
00:12:21И вот как выглядит наш второй вариант.
00:12:24Я все еще понятия не имею.
00:12:26Абсолютно никакого представления.
00:12:28Что, черт возьми, такое DeepSeek.
00:12:30О, эй, там самолет.
00:12:32О, там что-то есть.
00:12:33Да, это, это жесть.
00:12:38И честно говоря, я чувствую, что даже если дам ему новый запрос,
00:12:42мне нужно будет стать очень, очень конкретным
00:12:44в том, что мы пытаемся сделать, что опять же,
00:12:47сильно проигрывает тому, что мы сделали с Codec.
00:12:49Там были очень, ну, довольно простые промпты.
00:12:51И я смог получить что-то хотя бы похожее
00:12:53даже с первой попытки.
00:12:54Здесь же он явно полностью борется
00:12:57с графикой.
00:12:58Мы просто, я даже не знаю, как это описать,
00:13:01но эй, это было очень дешево.
00:13:03Так что теперь давайте посмотрим, что Claude Code
00:13:07смог дать нам для сравнения.
00:13:09Ему потребовалось 13 минут, чтобы выполнить план.
00:13:12Сам план занял пять минут.
00:13:13Так что назовем это 20 минут на первую версию.
00:13:17А что касается общего количества токенов,
00:13:19этот запуск занял около 15%, плюс 5% перед планом.
00:13:22То есть мы смотрим, ну, извините,
00:13:24мы смотрим на 11% контекста плюс 5% до этого.
00:13:28Так что считайте 20 минут, 150 000 токенов для Claude Code,
00:13:33что определенно самый дорогой
00:13:34и самый медленный из всех.
00:13:36И вот попытка Claude Code.
00:13:39Почему-то мы мгновенно оказываемся в воздухе.
00:13:43Мы сваливаемся.
00:13:44Мы по приборам.
00:13:45Я не знаю, что происходит.
00:13:48Мы вот-вот во что-то врежемся.
00:13:50Можем ли мы это спасти?
00:13:51Можем ли мы вывести его из пике?
00:13:53Нет, мы сваливаемся, нет, мы разбились.
00:13:54Хорошо, это интересно.
00:13:56Снова он мгновенно выбрасывает нас в небо.
00:14:00Мы в облаках.
00:14:02Мы сваливаемся.
00:14:03Я не знаю, что происходит.
00:14:05Нам нужно, нам нужно еще раз попробовать.
00:14:08Так что я написал: "При загрузке меня мгновенно выбрасывает в воздух".
00:14:11Трудно управлять.
00:14:12Я хочу начать на взлетной полосе, и хочу, чтобы им было легче управлять.
00:14:15О, и кстати, улучшите графику тоже.
00:14:17Ушло около четырех минут, но он внес некоторые изменения.
00:14:20Мы появимся на взлетной полосе.
00:14:22Он поменял шасси.
00:14:23Теперь это трехопорное шасси и кое-что еще.
00:14:24Так что давайте посмотрим, как это выглядит.
00:14:26Итак, вот он.
00:14:27Опять же, мы мгновенно попадаем в полосу тумана.
00:14:29Я пытаюсь управлять этой штукой.
00:14:31И я просто, да, здесь вообще нет управления.
00:14:33Ладно, мы дадим,
00:14:34мы дадим Claude Code еще один шанс.
00:14:37Я сказал ему, что он все еще мгновенно выбрасывает меня
00:14:39в небо.
00:14:40Я сказал, давайте попробуем более аркадный стиль
00:14:42управления.
00:14:43Думаю, нам следовало сделать это
00:14:44в начальных промптах для всех троих.
00:14:46Думаю, пытаясь сделать что-то вроде реалистичного симулятора,
00:14:50он действительно с трудом справляется,
00:14:53чтобы сделать это так, чтобы оно оставалось удобным для пользователя.
00:14:57Думаю, внутри он справляется хорошо,
00:14:59в плане того, что, ладно, угол атаки.
00:15:01Хорошо, ты сваливаешься при этом,
00:15:02угле относительно скорости и все такое.
00:15:04Но на самом деле управлять этим с компьютера
00:15:07практически невозможно.
00:15:09Хотя думаю, что туман — это очень странно.
00:15:12Так что давайте посмотрим, сможет ли он после второго раунда промптов
00:15:15справиться немного лучше,
00:15:16потому что прямо сейчас GPT 5.5 справился намного, намного лучше.
00:15:20Итак, Claude Code внес еще несколько изменений,
00:15:22сделал его более удобным для пользователя.
00:15:23И посмотрим, не собираюсь ли я снова
00:15:24на этот раз получаю допуск по приборам.
00:15:26Итак, да, мы все еще в процессе.
00:15:28Мы все еще идем на допуск по приборам.
00:15:30Мы сейчас здесь, но, знаете, я вроде как вижу это.
00:15:33Знаете, я могу проверить свою приборную панель.
00:15:35Ладно, мы сходим с полосы.
00:15:37Да, окей.
00:15:42Могу я… почему на полосе дерево?
00:15:44Я пытаюсь взлететь.
00:15:46Могу я подняться?
00:15:47Могу я взять тангаж?
00:15:49Нажмите на холст, чтобы зафиксировать мышь, что?
00:15:53О, мы в воздухе.
00:15:54Нет, нет, мы разбились.
00:15:57Так что да, я думаю, здесь все довольно ясно.
00:16:02GPT 5.5, безусловно, победитель, я думаю.
00:16:06Claude Code занял второе место.
00:16:08Я бы отдал ему второе место.
00:16:10Знаете, он определенно боролся,
00:16:13даже с подсказками, которые мы ему дали.
00:16:14Мы дали ему не лучшие подсказки, будем честны.
00:16:16Думаю, если дать ему больше времени, лучшие подсказки,
00:16:19еще пару итераций,
00:16:20мы могли бы получить то, что хотели.
00:16:21По крайней мере, у него был самолет, была полоса.
00:16:25Пусть и с деревьями на полосе,
00:16:26но у него были необходимые вещи
00:16:29в отличие от DeepSeek с OpenCODE.
00:16:32Я понятия не имел, что там происходит.
00:16:34Это был полный бардак.
00:16:35Мне кажется, мне пришлось бы начать сначала,
00:16:36с самого начала, дать ему очень конкретную подсказку.
00:16:38Это даже не было близко к рабочему состоянию,
00:16:39но GPT 5.5 с самого начала, знаете,
00:16:42с довольно расплывчатыми подсказками,
00:16:44я думаю, справился очень хорошо.
00:16:455.5 также использовал в общей сложности 66 тысяч токенов.
00:16:48Мы смотрим здесь, с Opus в целом,
00:16:52около 200 000 токенов.
00:16:53Так что четверть токенов, по сути, четверть стоимости.
00:16:56И он был немного быстрее.
00:16:58Я имею в виду, на данный момент меня даже не волнует,
00:16:59почему OpenCODE занял больше времени, чем GPT 5.5.
00:17:03И он просто отстой, давайте будем честны, он просто отстой.
00:17:07Теперь перейдем к тесту номер два.
00:17:10В этот раз мы попросим их
00:17:12создать целевую страницу, демонстрирующую работу с шейдерами WebGPU
00:17:16с использованием 3JS.
00:17:18Работа с шейдерами WebGPU — это то, что вы видите
00:17:21на сайтах с наградами.
00:17:23Я говорю о таких сайтах, как Igloo, что-то вроде этого,
00:17:26очень высококлассная графика.
00:17:28Это выглядит как видеоигра.
00:17:29По сути, используется видеокарта вашего компьютера,
00:17:32чтобы отрендерить все это.
00:17:34Я не ожидаю, что кто-то из них получит что-то хоть близкое
00:17:37к тому, что мы здесь видим, но я хочу посмотреть, что они могут сделать
00:17:40используя, по сути, технологию шейдеров.
00:17:42Это определенно на ступень выше вашей базовой
00:17:45целевой страницы на шаблоне SaaS.
00:17:46Я хочу посмотреть, на что они способны, и подтолкнуть их
00:17:48к пределам в мире веб-дизайна.
00:17:50Я дал им всем навык, который на самом деле объясняет,
00:17:53как делать подобные вещи.
00:17:55Так что это не так, что они полностью в неведении,
00:17:57и никто не имеет преимущества перед другими.
00:18:00Единственное, что я им сказал, это то, что хочу, чтобы это выглядело современно
00:18:02и визуально эффектно, как на сайтах с наградами,
00:18:05и разумно использовать вычисления GPU.
00:18:08Они могут выбрать любой стек и структуру проекта,
00:18:10какие им нравятся, и проявить здравый смысл в концепции первого экрана,
00:18:13UI и взаимодействиях.
00:18:15И, как и в первом тесте, они все в режиме планирования.
00:18:17Так что давайте начнем.
00:18:18Окей, они все закончили планирование, и забавно,
00:18:21никто из них не задал мне никаких вопросов,
00:18:22хотя мы перевели их в режим планирования.
00:18:24Давайте сначала взглянем на GPT 5.5.
00:18:28Итак, он говорит нам, что сделает интерактивный
00:18:30герой-секцию на полный экран с GPU-рендерингом.
00:18:32Концепцией будет живое поле сигналов
00:18:34с какой-то плотной частичной структурой.
00:18:36Посмотрим, как это будет выглядеть.
00:18:38В целом, это минималистичный лендинг в стиле наград.
00:18:41Полностью интерактивная сцена WebGPU
00:18:43с компьютерной симуляцией реакции на курсор.
00:18:46Хорошо, у DeepSeek довольно короткий и милый план,
00:18:50как мы видели с авиасимулятором.
00:18:53Надеюсь, в этот раз мы получим лучший результат,
00:18:54но герой-секция с 75 000 частиц, вычисляемых GPU.
00:18:58Я догадываюсь, что все они собираются выбрать
00:19:01какую-то тематику частиц для героя.
00:19:04Будет интерактивность мыши, интеграция.
00:19:08Будет однократная инициализация.
00:19:10И потом мы должны увидеть такие вещи, как свечение,
00:19:13хроматическая аберрация, кастомная виньетка и зернистость пленки.
00:19:16Посмотрим, как это будет выглядеть на самом деле.
00:19:19А потом у нас есть план Opus 4.7 снова,
00:19:21выбирает эту штуку с частицами и свечением,
00:19:23и она будет интерактивной с мышью.
00:19:25Посмотрим, будут ли они вообще выглядеть по-разному,
00:19:27потому что внешне все их планы звучат очень похоже.
00:19:29Итак, первым закончил 5.5.
00:19:32Это заняло около шести минут.
00:19:34И в плане токенов мы использовали 107 тысяч.
00:19:37Давайте посмотрим, что он нам построил.
00:19:40И вот что он создал для нас.
00:19:42Это очень ярко.
00:19:45Так что трудно даже увидеть реальные частицы,
00:19:47но, знаете, когда мы прокручиваем вверх и вниз,
00:19:50в фоне идет анимация,
00:19:52а также, знаете, некоторые тонкие цветовые изменения.
00:19:56Похоже, прямо сейчас наша мышь должна
00:20:00притягивать частицы.
00:20:01И у нас есть, я передвину это сюда.
00:20:03Он дал несколько опций, например, отталкивание или дрейф.
00:20:08Но опять же, это трудно увидеть,
00:20:11из-за того, насколько это ярко.
00:20:12Так что я сказал ему, что трудно на самом деле увидеть частицы
00:20:14из-за яркости.
00:20:14Это также захватывает большую часть технологий героя.
00:20:16Можем ли мы немного уменьшить яркость
00:20:18и также немного сместить это вправо?
00:20:20Потому что сейчас это своего рода подавляющее.
00:20:23Вы даже не можете по-настоящему прочитать текст здесь слева,
00:20:25из-за того, насколько чертовски яркие эти частицы.
00:20:27А вот обновление после второго прогона.
00:20:30Немного лучше.
00:20:31Оно не такое подавляющее и оставляет немного места для текста.
00:20:35Хотя я бы сказал, что это почти размыто,
00:20:39но, знаете, это не так уж плохо.
00:20:41Как будто он взялся сделать то, что мы ему сказали,
00:20:44учитывая несколько расплывчатую задачу.
00:20:46Так что я не поражен дизайном, который он придумал,
00:20:49но я не расстроен этим.
00:20:51Теперь давайте посмотрим на Claude Code,
00:20:52потому что пока мы все это делали,
00:20:55DeepSeek все еще здесь, в окопах,
00:20:57пытаясь разобраться.
00:20:58А вот что нам дал Claude Code.
00:21:01В общем-то, ничего.
00:21:06Я не уверен, говорит ли он, что фон,
00:21:10я полагаю, весь фон должен быть
00:21:14WebGL, я предполагаю.
00:21:19Это очень сдержанно,
00:21:21что, я полагаю, вы вполне можете сделать.
00:21:24Я имею в виду, на экране это не выглядит,
00:21:25ну, выглядит довольно круто, но буду честен,
00:21:28я искал что-то более яркое.
00:21:31Так что во втором проходе,
00:21:31когда я сказал ему сделать это немного более ярким,
00:21:34большой разницы не было.
00:21:35Хотя это очень тонко.
00:21:38Там есть что-то вроде зернистости пленки,
00:21:40почти размытие, которое идет снизу вверх.
00:21:43Так что это довольно тонкая вещь.
00:21:45И вы можете видеть здесь внизу,
00:21:47он отслеживает частоту кадров.
00:21:49Он использует 250 000 частиц.
00:21:51Так что, честно говоря, выглядит круто.
00:21:54Просто не очень ярко.
00:21:56Так что это определенно вопрос вкуса.
00:21:58Общее количество токенов со стороны Claude Code было около 175 000,
00:22:01и это заняло чуть больше времени, чем у 5.5 внутри Codex.
00:22:05Теперь давайте взглянем на DeepSeek,
00:22:07который на данный момент использовал 116 000 токенов.
00:22:10Он также занял больше всего времени,
00:22:12но общая стоимость снова, говорим, меньше доллара.
00:22:15И вот что он нам дал.
00:22:17Так что это своего рода поле частиц,
00:22:21которое слегка следует за моей мышью.
00:22:25Интересно.
00:22:27Я думаю, это может вызвать у вас эпилептический припадок.
00:22:29Честно говоря, помимо этого, это довольно скучно.
00:22:35Флюкс, знаете, X-ray здесь меняет цвета,
00:22:39но да, в основном просто создал эту штуку.
00:22:43После того, как я сказал DeepSeek сделать еще один проход,
00:22:45он вернулся с этим,
00:22:46где теперь у него как бы какой-то странный параллакс.
00:22:49В фоне происходит что-то синее.
00:22:53И теперь эта штука, похожая на НЛО,
00:22:55которая как бы реагирует на вашу мышь,
00:22:58но да, это что-то.
00:23:02И в целом количество токенов от DeepSeek составило 130 тысяч,
00:23:05обойдясь в 1,43 доллара.
00:23:08Так что после всех этих тестов, к чему это нас привело?
00:23:13А теперь давайте поговорим об окончательных результатах.
00:23:15Что касается теста номер один,
00:23:16которым был авиасимулятор, явный победитель.
00:23:18Это был GPT 5.5 внутри Codex.
00:23:21Он был быстрее, чем Opus 4.7 внутри Claude Code.
00:23:25Он был также быстрее, и конечный результат был намного лучше.
00:23:29DeepSeek ужасно справился с авиасимулятором.
00:23:32Это даже не было близко к тому, что мы пытались сделать.
00:23:34Мне пришлось бы продолжать подсказывать ему,
00:23:35подсказывать, подсказывать, чтобы хотя бы приблизить его
00:23:38к первому проходу от 5.5, а Opus 4.7 и Claude Code
00:23:43были, ну, не ужасно.
00:23:46Оно правда не сработало в начале,
00:23:48но после пары подсказок можно было сказать,
00:23:50мы могли бы довести её до состояния, эквивалентного
00:23:52тому, что делала GPT 5.5.
00:23:54Это заняло бы больше промптов.
00:23:55Это заняло бы больше времени,
00:23:57и в конечном итоге это было бы дороже.
00:23:59Так что 5.5 — явный победитель.
00:24:01Что касается целевой страницы WebGPU,
00:24:03здесь DeepSeek снова сдал позиции.
00:24:04Мне это совсем не понравилось.
00:24:06Я даже не понимаю, что это должно было быть.
00:24:08Конечно, я не дал супер-хороший промпт,
00:24:10но, неужели это то, что мы будем получать
00:24:13в качестве базового среднего результата?
00:24:16Если я не возьму DeepSeek в ежовые рукавицы
00:24:19и не заставлю его что-то делать, то, видимо, да.
00:24:22Теперь, сравнивая Opus и 5.5,
00:24:24я бы выбрал Opus 4.7 и Claude Code
00:24:27за то, как он справился с WebGPU.
00:24:29Думаю, дело тут скорее в вопросе вкуса.
00:24:31Да, можно поспорить, что 5.5 был эффектнее,
00:24:35но я посчитал его довольно уродливым.
00:24:37Опять же, во всех этих тестах мы держали промпты довольно расплывчатыми,
00:24:41чтобы посмотреть, по какому пути пойдет модель.
00:24:43Так что я определенно отдал бы первенство Opus,
00:24:46хотя он был дороже
00:24:48и занял немного больше времени.
00:24:50Так что, если бы им дали более конкретный промпт,
00:24:55в котором было бы четко указано, что вы хотите сделать,
00:24:57ведь 5.5 сделал то, что мы от него хотели.
00:24:59Он действительно создал целевую страницу WebGPU.
00:25:02Просто я посчитал её уродливой.
00:25:04Так что задачу он всё же выполнил.
00:25:06Просто не так хорошо, как Opus, на мой взгляд.
00:25:08Теперь, в целом, что это означает,
00:25:09если собрать всё это вместе?
00:25:11Думаю, это отличные новости
00:25:13для всех, кто использует агентские декодеры.
00:25:16У нас есть выбор, верно?
00:25:18Вы можете использовать Opus и Claude Code,
00:25:20или вы можете использовать GPT 5.5 и Codec.
00:25:23Вы не ошибетесь ни с тем, ни с другим.
00:25:25Думаю, на данный момент это полностью дело личных предпочтений.
00:25:28И самое приятное то, что если вы пойдете по пути Claude Code,
00:25:31это почти всё применимо и к Codec.
00:25:33Если вы пойдете по пути Codec,
00:25:34это почти всё применимо и к Claude Code.
00:25:37Так что я не думаю, что есть привязка к вендору в том смысле,
00:25:40типа: "О, я выучил только Claude Code".
00:25:42Я не могу перейти на Codec или наоборот.
00:25:44Это совсем не так.
00:25:45Если вы делаете это правильно,
00:25:46то, что вы на самом деле изучаете, — это основы ИИ
00:25:48и как создавать вещи.
00:25:49И это применимо к обоим вариантам.
00:25:51И чем больше конкуренции,
00:25:53тем лучше для нас, потребителей.
00:25:54Что касается DeepSeek, хм, не знаю.
00:25:59Я не был особо впечатлен.
00:26:00Возможно, это ситуация, когда, ладно,
00:26:02DeepSeek имеет смысл, если мы выполняем простые задачи,
00:26:04где нам просто не нужна мощь чего-то вроде Opus,
00:26:06или нам просто не нужна мощь чего-то вроде GPT 5.5.
00:26:10Потому что помните, мы говорим о чем-то,
00:26:11что в восемь раз дешевле.
00:26:13Конечно, мне не понравились целевые страницы WebGPU,
00:26:16которые он выдал, но были ли они в восемь раз хуже?
00:26:19Может быть, а может и нет.
00:26:21Довольно сложно это как-то
00:26:23сформулировать и количественно оценить.
00:26:24Но, очевидно, это то, что нам нужно учитывать.
00:26:27Так что, я не думаю, что это настоящая конкуренция
00:26:30для 4.7 или 5.5, если честно.
00:26:33Хотя я думаю, что если вы выполняете простые задачи
00:26:35и вы очень внимательны к токенам и деньгам,
00:26:38то, эй, может быть, DeepSeek вам подходит.
00:26:41Это всё, что у меня есть для вас на сегодня.
00:26:42Надеюсь, это пролило свет на эти три модели
00:26:45и на то, как они соотносятся друг с другом.
00:26:47Думаю, сейчас отличное время для этой сферы.
00:26:49Больше конкуренции — лучше для всех.
00:26:51Так что, как всегда, если вы хотите получить доступ
00:26:53к мастер-классу по Claude Code,
00:26:55обязательно загляните в Chase AI Plus.
00:26:56Ссылка на это есть в описании.
00:26:58И увидимся.

Key Takeaway

GPT 5.5 обеспечивает оптимальный баланс производительности и стоимости для задач программирования, в то время как Claude Opus 4.7 лучше справляется со сложными визуальными задачами, а DeepSeek V4 остается бюджетным, но менее эффективным решением.

Highlights

  • DeepSeek V4 стоит 3,48 доллара за 1 миллион выходных токенов, что примерно в восемь раз дешевле, чем Claude Opus 4.7 или GPT 5.5.

  • GPT 5.5 лидирует в тестах Terminal Bench 2.0 с результатом 87,2 балла, превосходя показатели моделей Anthropic.

  • GPT 5.5 внутри среды Codec показал лучшие результаты в создании рабочего авиасимулятора, потратив 66 000 токенов против 200 000 токенов у Opus.

  • Claude Opus 4.7 продемонстрировал лучшие результаты в создании визуально сложной лендинг-страницы на WebGPU, несмотря на более высокую стоимость.

  • DeepSeek V4 значительно уступает конкурентам в задачах генерации кода для авиасимуляторов и интерактивных WebGPU-страниц, требуя большего количества итераций.

Timeline

Сравнение характеристик и стоимости моделей

  • Стоимость вывода GPT 5.5 составляет 30 долларов за миллион токенов, что делает его самой дорогой моделью из представленных.
  • DeepSeek V4 предлагает самую низкую цену: 3,48 доллара за миллион токенов вывода и 1,70 доллара за входные токены.
  • Opus 4.7 показывает сильные результаты в тестах SWE bench, но проигрывает GPT 5.5 в Terminal Bench 2.0.

Модели GPT 5.5, DeepSeek V4 и Opus 4.7 различаются по архитектуре и ценовой политике. DeepSeek V4 выделяется как модель с открытыми весами, доступная через API по цене в восемь раз ниже конкурентов. Тесты программирования показывают минимальный разрыв в эффективности между вторым и третьим местом, несмотря на значительную разницу в стоимости API.

Тестирование авиасимулятора в рабочей среде

  • GPT 5.5 в среде Codec создал работающий симулятор за 10–15 минут, используя 66 000 токенов.
  • Claude Code создал функциональный, но более сложный в управлении авиасимулятор, потратив 150 000 токенов.
  • DeepSeek V4 в среде open code не смог сгенерировать работоспособную графику или систему управления с первой итерации.

Модели получили одинаковые задачи по созданию симулятора полета на 3JS. GPT 5.5 оказался наиболее эффективным, предоставив результат с минимальными доработками. Claude Code продемонстрировал высокую детализацию планирования, но потребовал больше токенов и времени, а DeepSeek V4 оказался неспособен обеспечить рабочий функционал без существенного уточнения промптов.

Разработка WebGPU лендинга и итоговые выводы

  • Opus 4.7 лучше справился с задачей визуализации WebGPU, предложив более тонкую и эстетичную реализацию.
  • GPT 5.5 успешно выполнил задачу, но визуальная составляющая оказалась перегруженной и избыточно яркой.
  • Конкуренция между Claude Code и Codec позволяет пользователям эффективно работать с любым из этих инструментов, так как принципы управления ИИ идентичны.

В задаче по созданию визуально сложной лендинг-страницы Opus 4.7 показал превосходство в качестве графического дизайна. DeepSeek V4 снова отстал, не предложив качественного взаимодействия с пользователем. Итоговая рекомендация сводится к выбору между связками GPT 5.5/Codec или Opus 4.7/Claude Code в зависимости от конкретных задач и эстетических предпочтений.

Community Posts

View all posts