Я протестировал GLM 5.2, Opus 4.8 и GPT 5.5

Русскийالعربية Deutsch English Español Français हिन्दी 한국어 Português 中文

컴퓨터/소프트웨어게임/e스포츠AI/미래기술

Transcript

00:00:00GLM 5.2 вышел на этой неделе, и это самая мощная модель с открытым исходным кодом, которую мы когда-либо

00:00:04видели. И в некоторых тестах, как вы можете видеть здесь, эта модель даже превосходит таких гигантов,

00:00:10как Opus 4.8 от Anthropic и 5.5 от OpenAI. Но насколько эти тесты достоверны? Как эта модель

00:00:18сравнивается напрямую с Opus 4.8 и GPT 5.5? Что ж, именно на это мы и собираемся ответить

00:00:25в сегодняшнем видео, проведя ряд тестов с этими тремя крупными моделями и посмотрев,

00:00:31как они работают в реальных условиях. Кроме того, мы подробно разберем один

00:00:35конкретный тест, который я считаю довольно важным, а также разберемся, что мы на самом деле

00:00:40подразумеваем под тем, что GLM 5.2 в некоторых случаях лучше, чем Opus и GPT 5.5. Мы говорим о том,

00:00:47что она эффективнее, дешевле, или она действительно справляется со всем этим одновременно?

00:00:51Итак, без лишних слов, давайте перейдем к делу. Но перед тем, как мы приступим к прямому

00:00:56сравнению, давайте сначала взглянем на существующие тесты, сравнивающие эти

00:00:59три модели. Тот, на который я хочу обратить особое внимание — это DeepSuite. DeepSuite —

00:01:04это относительно новый бенчмарк, призванный улучшить такие тесты, как Terminal

00:01:08Bench и Terminal Bench Pro. Я не буду слишком углубляться в детали этого теста, вы

00:01:12можете ознакомиться с их сайтом или репозиторием на GitHub, где все объясняется подробнее. Он фокусируется

00:01:17на длительных агентных задачах, а именно на 113 задачах на TypeScript, Go, Python, JavaScript

00:01:23и Rust в изолированных средах с использованием программных верификаторов. И здесь, на графике, мы видим

00:01:29процент правильных ответов слева, а также среднюю стоимость

00:01:34выполнения задачи. Мы стремимся вверх и вправо. Самая эффективная зона находится в верхнем

00:01:39правом углу. Там мы получаем наивысший результат при минимальных затратах. И мы видим здесь, что GLM 5.2

00:01:44Max выдает 44% при цене $3.92 за задачу. Если мы сравним это с Opus 4.8 и GPT 5.5, то увидим,

00:01:55что они справляются гораздо лучше. Max Opus 4.8 показывает 59%, а 5.5 достигает 67% в режиме Extra High. Очевидно,

00:02:04что при настройках Extra High и Max у нас довольно высокая стоимость. Для GPT 5.5 это $7.23, $13 для Opus,

00:02:12а у GLM — $3.92. Так что намного дешевле. Однако, если мы посмотрим на разные уровни усилий

00:02:19для 5.5 и Opus, то, например, в режиме Medium, Opus 4.8

00:02:25покажет результат выше, чем GLM 5.2, и при этом будет менее дорогим: 49% при $3.44 против 44% при $3.92. И это

00:02:36значительно: 5.5 показывает 54% при $2.75 против 44% у GLM за $3.92. Так что, с первого взгляда, в этом тесте,

00:02:47если принимать данные за чистую монету, 4.8 и 5.5 на голову выше GLM 5.2. И это неудивительно. Это

00:02:55лучшие из лучших, граничные модели. Они не являются открытыми. И если мы по-настоящему

00:03:01надавим на газ, они просто оставят GLM 5.2 далеко позади в задачах с длинным горизонтом,

00:03:07что, в общем-то, ожидаемо. Чего вы могли не ожидать, так это того, что она может работать лучше и дешевле,

00:03:11что само по себе проблема. Я просто хочу это прояснить, потому что знаю, что сейчас много

00:03:16разговоров и хайпа вокруг GLM 5.2 и того факта, что она с открытым исходным кодом. И, знаете,

00:03:21это сразу подразумевает: о, она супердешевая, и мы можем делать отличные вещи.

00:03:25Что ж, по цифрам она хороша, но не дотягивает до 4.8 и 5.5 согласно этому тесту. И помните,

00:03:33эти показатели 4.8 и 5.5 основаны на стоимости API. Если у меня план Max, это в 10 раз дешевле,

00:03:40чем здесь. То же самое, если я на плане OpenAI за 100 или 200 долларов в месяц. Так что

00:03:46это еще один фактор, который стоит учитывать. Поэтому я хочу немного притормозить разговоры о том,

00:03:50что GLM намного дешевле, потому что это не совсем так. И хотя она с открытым кодом,

00:03:56GLM 5.2, та модель с открытым кодом, которая показывает эти цифры, — она не с открытым кодом в том смысле, что

00:04:01вы можете просто скачать ее на свой компьютер. Она с открытым кодом в плане того, что вы видите код,

00:04:05вы видите веса. Это не значит, что я могу просто взять ее через Ollama.

00:04:09Я не могу запустить ее на своем личном ПК. Нет, не можете. Она содержит почти

00:04:14триллион параметров. Для этого требуется огромное количество оборудования. Так что не путайтесь, ведь я знаю,

00:04:20есть часть аудитории, которая путается, но это просто чтобы прояснить ситуацию. И опять же,

00:04:24это результаты тестов DeepSuite. Это очень интенсивные задачи. А

00:04:30сегодня мы проведем несколько других тестов, которые немного попроще, и которые,

00:04:35вероятно, больше отражают то, что запускает средний пользователь. Так что имейте это в

00:04:39виду. И чтобы мы были на одной волне, вот что мы имеем в плане расходов

00:04:44на токены. Помните, что причина, по которой Opus 4.8 и 5.5 вышли дешевле, в том, что они использовали гораздо меньше

00:04:50токенов для выполнения задачи. Они оказались просто эффективнее, хотя, если брать цену за токен,

00:04:55то для входных и выходных данных, за миллион токенов: GLM 5.2 — $1.40 за вход,

00:05:01$4.40 за выход. Opus 4.8 в 5.7 раза дороже, а 5.5 от GPT в 6.8 раза

00:05:10дороже. Так что за токен она гораздо дешевле. Но помните, нас интересует результат выполнения задачи,

00:05:16а не сравнение один к одному по токенам. И теперь, прежде чем мы перейдем к самим тестам,

00:05:21небольшое слово от спонсора сегодняшнего видео — меня. Я только что выпустил мастер-класс по Cloud Code в

00:05:26Chase AI Plus, и это лучший способ пройти путь с нуля до AI-разработчика, особенно если у вас нет

00:05:30технического бэкграунда. Я обновляю его каждую неделю, и он также включает мастер-классы по кодекам

00:05:35и созданию собственной агентной ОС. Так что, если вы хотите узнать об этом больше и не знаете,

00:05:40с чего начать, Chase AI Plus — то, что нужно. Ссылка в закрепленных комментариях.

00:05:46Итак, вот как мы проведем тест. Мы дадим каждой модели одинаковую

00:05:49промпт и режим планирования. Она выдаст нам план. Мы можем внести некоторые коррективы,

00:05:53в зависимости от того, что мы думаем о предложенном плане. А после этого позволим ей выполнить его.

00:05:58После выполнения я применю свои крайне субъективные критерии оценки к результату и сообщу вам,

00:06:03какой из них мне нравится больше всего. Если вам не нравятся мои критерии или мои выводы,

00:06:08обязательно оставьте комментарий. Я также обязательно удалю ваш комментарий. Итак, слева у нас

00:06:14GPT 5.5 внутри Codex в режиме Extra High. Посередине — OpenCode, работающий на GLM 5.2 в режиме Extra High,

00:06:21маршрутизируемый через OpenRouter. А справа — Cloud Code, работающий на Opus 4.8

00:06:26в режиме High. Почему я выбрал именно эти настройки усилий? Потому что так большинство людей

00:06:32использует их в реальной жизни. Скорее всего, вы либо на плане Max, либо используете какой-то

00:06:37план OpenAI, и вряд ли вы запускаете их в режиме Medium. Давайте будем честны. Так что я думаю,

00:06:42это лучше отражает то, как средний пользователь использует эти модели изо дня в день.

00:06:47Итак, в нашем первом промпте мы попросим модель создать играбельную 3D-гоночную игру, которая работает в

00:06:51браузере. И важно, что мы сохраняем промпт довольно расплывчатым. Я говорю, что вы имеете полную свободу

00:06:56выбрать любой стек и библиотеку, которые считаете лучшими для реализации этого. Итак,

00:07:02давайте запустим это и посмотрим, что произойдет. Все три модели работают в режиме планирования.

00:07:08И опять же, задумка сделать промпт расплывчатым в том, что мы хотим увидеть как можно больше

00:07:12различий в работе моделей. Если бы я дал точный план, как сделать все до единого шага,

00:07:18то мы бы не увидели, как модели думают и как они подходят к более

00:07:23сложным, запутанным задачам. Итак, через 13 минут Opus 4.8 первой закончила создание гоночной

00:07:29игры. Давайте посмотрим, что она сделала. Вот здесь у нас низкополигональная графика. Есть

00:07:37звук. Двигается довольно плавно. Похоже, у нас есть возможность дрифтовать.

00:07:44Окей, трава на самом деле немного мешает физике. В целом, довольно плавно, но

00:07:54довольно скучно, верно? Это довольно базовая гоночная трасса. Ничего особенного, не добавила

00:07:59никакого ИИ или чего-то подобного. Так что мне интересно посмотреть, как другие модели справятся в плане

00:08:04сложности. И, вероятно, после этого теста, если они все выдадут что-то похожее и пресное,

00:08:09мы попробуем задать другой промпт, чтобы поднять планку. Следующая

00:08:13на очереди — GLM 5.2. Она справилась на пять минут дольше, чем Claude Code. Для справки: GPT 5.5 все еще

00:08:20работает, что меня не слишком удивляет. Она обычно работает немного медленнее. В плане использования токенов,

00:08:26Claude Code использовал около 100,000 токенов, чтобы создать игру. А GLM 5.2 потребовалось более миллиона. Мы можем посмотреть

00:08:33в OpenRouter для этого запуска: общие расходы составили $1.21, а объем токенов — 1.35

00:08:41миллиона для создания этой игры. Итак, сразу интересный трек у нас получился.

00:08:48Управление очень дерганое по сравнению с тем, что мы получили в Claude Code. Я движусь

00:08:53очень быстро относительно самой трассы. Очень быстро. Я просто пролетаю через нее. И мы

00:09:00по сути не видим реальной разницы между самой трассой и полем вокруг. И в

00:09:09некоторых случаях я мог, как вы видели, буквально проехать сквозь трассу.

00:09:15К тому же, сама машина менее детализирована, чем то, что мы видели в Claude Code. То есть,

00:09:23трасса есть, есть таймер. В плане геймплея — немного глючно, не

00:09:30так плавно. И опять же, как и в ситуации с низкополигональной графикой, как мы видели у

00:09:36Opus. Мне бы хотелось увидеть, что будет, если попросить ее создать что-то, что выглядит

00:09:40лучше. К тому же, эта трасса не имеет особого смысла. Теперь посмотрим,

00:09:44что создала GPT 5.5. Она называет это Foundry Circuit, ночная гонка на время, три круга

00:09:50через сталелитейный завод. Что-то другое, полагаю, по сравнению с обычными трассами, которые мы видели в

00:09:54последних двух случаях. Давайте запустим. Поехали. Ну, я на самом деле не знаю, куда я

00:10:04должен ехать. О, полагаю, это трасса. Колеса выглядят как-то интересно. Они

00:10:10крутятся не в ту сторону. Это что-то. Окей, тут какие-то очень раздражающие звуки.

00:10:21И я не могу смириться с колесами, которые расположены горизонтально, или как там это описать.

00:10:28Трасса сама по себе нормальная, можно двигаться. Да, можно выехать за пределы, и это замедляет тебя. Но не

00:10:35ясно, что это мощеная трасса, как у Opus. А все остальное — это,

00:10:41скажем, поле. Так что графика довольно странная, честно говоря. А если учесть,

00:10:48что она делала это в два раза дольше, чем Opus, это странно. Честно говоря, очень странно. Опять,

00:10:55почему, почему она сделала это с колесами? Понятия не имею. Снова выбрала низкополигональный стиль.

00:11:00И тут просто очень темно, без какой-либо причины. Так что я чувствую, что

00:11:06это функциональнее, чем то, что мы получили от GLM 5.2, но не намного лучше. И вы также

00:11:12учитывайте, что это было на настройках Extra High у 5.5. Теперь, что касается использования токенов для 5.5,

00:11:17это вышло примерно так же, как у Claude Code. Использовала 7% своего пятичасового окна. Так что почти

00:11:22ничего. В целом, я бы поставил Opus 4.8 явно впереди GLM 5.2 и 5.5. Я думал,

00:11:28что последние две модели были глючными, но мы дадим им еще один шанс, потому что

00:11:32попросим их еще раз взглянуть на код, сделать еще один проход. И мы также хотим, чтобы

00:11:36они постарались лучше с графикой. Я не хочу низкополигональность. Я хочу, чтобы это выглядело

00:11:40как AAA-игра или максимально близко к этому. Давайте посмотрим, что будет во

00:11:46второй попытке. Итак, Opus и GLM закончили второй проход, а 5.5 заканчивает. Давайте

00:11:50сначала посмотрим на Opus 4.8. Сразу видим машину, которая стала намного лучше. Это огромное

00:11:58улучшение в отношении машины по сравнению с тем, что мы видели раньше. Мы также видим другое освещение.

00:12:04Видно отражение солнца на земле, все выглядит намного плавнее. То есть,

00:12:10сами деревья — это низкополигональные объекты, но освещение и особенно машина

00:12:15— это большой шаг вперед. И она сохраняет ту же плавность геймплея. То есть, не считая того,

00:12:20что у нас деревья на дороге, но они хотя бы отбрасывают тени. И за один дополнительный

00:12:26проход, который занял 10 минут и около 50,000 токенов, неплохо. Теперь посмотрим на GLM. На этот раз

00:12:32она потратила еще около 1.2 миллиона токенов на обновление, доведя наши общие расходы до $1.83.

00:12:38Давайте запустим. Похоже, она попыталась добавить какое-то другое освещение. Машина выглядит

00:12:46немного лучше, но само освещение странное. Слишком сильные блики. Трасса

00:12:52сама по себе не сильно изменилась. Знаете, все еще просто трава повсюду. И управление

00:12:57все еще очень дерганое, верно? Я еду очень быстро относительно трассы. Та же самая проблема,

00:13:04что была раньше, где сквозь часть трассы я могу проехать, а сквозь часть — нет. Значит,

00:13:10графика машины выглядит лучше, но я бы сказал, что освещение и блики настолько отвлекают,

00:13:15что это, вероятно, ухудшение по сравнению с тем, что было раньше. А вот второй проход с 5.5. Сейчас

00:13:21машина выглядит немного лучше, но глядя на все остальное — это примерно то же самое. Что ж,

00:13:29колеса стали лучше. Мы исправили проблему с колесами. Они теперь крутятся как положено,

00:13:34но звуки все еще раздражающие. И снова нет реальной разницы между дорожкой

00:13:42и травой. Так что по ощущениям это примерно то же самое, что и в первый раз, с

00:13:49чуть более качественной машинкой. Но когда мы попросили сделать AAA-эстетику, я бы не сказал, что

00:13:55она справилась. И опять же, в целом, глядя на эти три, GLM и 5.5 определенно на шаг

00:14:02ниже Opus. Теперь для следующего теста мы попросим создать веб-сайт. Промпт,

00:14:07который мы будем использовать: построить фейковый лендинг для продукта — AI-умных очков.

00:14:12Думайте о чем-то вроде Meta Ray-Bans. Опять же, мы даем этим моделям полную свободу

00:14:16в плане стека и дизайна. Мы говорим им выбрать то, что они считают лучшим, установить все, что

00:14:20нужно, и изучить лучшие практики создания лендингов. Мы говорим: «Эй, вперед, ищите

00:14:25картинки и изображения продуктов». И не полагайтесь только на создание собственного HTML. Важно:

00:14:31сделайте так, чтобы это выглядело как наградный сайт. Мы не хотим, чтобы это выглядело как ИИ-мусор. Нам нужна реальная

00:14:35визуальная иерархия, продуманная типографика и движение там, где это уместно. Итак, лендинг для умных очков,

00:14:42нам нужно наградное качество. Посмотрим, что они предложат. Все три

00:14:46модели закончили. Для справки: GLM использовала около миллиона токенов, а Opus и 5.5

00:14:53использовали около ста тысяч, плюс-минус. Сначала посмотрим, что построил Opus: очень темный фон.

00:14:58Есть какие-то очки, которые она создала, и текст немного обрезан здесь, что

00:15:04досадно. Когда мы прокручиваем вниз, это тоже выглядит странно, потому что текст прокрутки

00:15:12как бы накладывается сверху. Но при наведении мыши можно увидеть, как это все перемещается и меняет

00:15:18цвет, что довольно круто. При прокрутке вниз у нас есть анимации загрузки

00:15:24для всего. В целом, выглядит неплохо для очков, которые используют HTML.

00:15:31То есть, что вы вообще от этого получаете? Она даже не нашла нормальные

00:15:35очки для использования. И здесь есть: эй, как забронировать и как купить. Так что

00:15:41это нормально. Опять же, мы не дали много указаний, но попросили сделать в наградном

00:15:45стиле. Я бы не сказал, что это на таком уровне. Теперь посмотрим, что построил GLM.

00:15:51Я вообще не понимаю, что тут происходит. На самом деле, это едва загрузилось.

00:15:59Показывает какие-то очки, но сайт — катастрофа. Такое чувство, что она даже

00:16:04не закончила. Просто все свалила в кучу. Да, да, промпт не был

00:16:13супердетальным, но она должна была справиться лучше. Это на самом деле

00:16:19ужасно. Понятия не имею, чего она пыталась этим добиться. И, наконец, GPT 5.5. Это

00:16:25немного интересно. Мне кажется, выглядит круто, хотя очки

00:16:30немного перекрывают текст здесь. У нас много пустого пространства, что, впрочем, можно назвать

00:16:34дизайнерским решением. И есть баннер, который движется. Вспомните, что в версии Opus

00:16:39баннер был, но не двигался. И по мере прокрутки вниз вы заметите, что

00:16:44курсор разноцветный. При прокрутке вниз видно, что она создала какие-то HTML-типа

00:16:50активы. Странно, верно? Мы сказали: «Эй, вы можете найти в интернете то, что нужно,

00:16:55если хотите». В целом, вероятно, лучшая из трех. Но я не могу сказать, что я

00:17:04в восторге от чего-либо. Это показывает, насколько твердая рука нужна при выполнении

00:17:09любого визуального дизайна или UI, даже самые продвинутые модели с этим борются.

00:17:14Я понятия не имею, что, черт возьми, происходит. Это — беспорядок. Итак, Opus была

00:17:21нормальной, 5.5 — лучшей из всех, а GLM — полным провалом. Как и в случае

00:17:26с игровой версией, мы дадим им второй шанс, посмотрим, смогут ли они исправить то,

00:17:30что пошло не так. И вдобавок, мы попросим их интегрировать что-то вроде, опять же,

00:17:36трехмерных элементов, мы действительно хотим посмотреть, как они справятся с

00:17:42движением, графикой и подобными вещами. И новый промпт выглядит так: возьмите лендинг для

00:17:46умных очков, который вы построили, и перестройте его как иммерсивный 3D-опыт, используя

00:17:51Three.js. Нам нужна реальная интерактивная 3D-сцена. И опять же, даем полную свободу

00:17:56для реализации. И вот что мы получили от Opus 4.8. Видно, что она добавила

00:18:02немного Three.js, очки двигаются. Но помимо этого, остались те же проблемы,

00:18:08текст обрезан, накладывается здесь. И все остальное выглядит довольно

00:18:13очевидно, что ИИ создал это. Кстати, затраты токенов были примерно одинаковыми во втором

00:18:21запуске для всех. Далее у нас GLM 5.2.

00:18:27В этот раз она создала сайт, который имеет смысл. У нас есть очки,

00:18:32хотя очки, которые она сделала, выглядят странно, ни одни реальные очки

00:18:36так не выглядят, и текст тоже обрезан. Но у нас есть баннер,

00:18:42который прокручивается, при наведении останавливается. Я бы сказал, что в целом, по тому,

00:18:48как она сверстала сайт, я бы отдал предпочтение перед Opus. Теперь, не думаю,

00:18:55что кто-то из них делает это особенно хорошо. Мы дали им свободу делать что угодно. Но

00:18:59я бы поставил это выше того варианта. Хотя, в плане главного экрана,

00:19:05мне Opus 4.8 нравится больше. Теперь, GPT 5.5 — я думаю, это победитель.

00:19:10Мне кажется, выглядит лучше в целом с точки зрения дизайна. И я думаю, Three.js-графика,

00:19:18которую она добавила, довольно крутая. Думаю, это имеет смысл в контексте созданного. У нас есть

00:19:22много белого пространства наверху, и очки могут там жить. Что касается

00:19:27остальной части сайта, выглядит нормально. Опять же, выглядит очень, «в кавычках»,

00:19:32ИИ-мусор в том смысле, что ИИ определенно это создал, но не плохо. Сверху

00:19:37донизу я предпочитаю то, что 5.5 нам выдала, больше других. Итак, если мы посмотрим на это

00:19:42в целом, привлекая более сложные тесты, такие как DeepSuite, вместе с

00:19:48тем, что мы делали сегодня, я думаю, это ожидаемо. Не думаю, что GLM сработала ужасно

00:19:56в каком-либо смысле, но она определенно чувствовалась на шаг ниже GPT 5.5 или 4.8. Или в

00:20:03сценариях, где Opus была лучше всех остальных. И в

00:20:07сценариях, где GPT была лучше всех, GLM была в самом низу. Не

00:20:12была катастрофически хуже, но определенно не лучше. И использовала бесконечно больше токенов.

00:20:17И так, взглянув на это, на балл DeepSuite, где GLM внизу

00:20:21и менее эффективна, чем 5.5 и 4.8, как в плане стоимости, так и качества работы. Это

00:20:27имеет смысл. Думаю, это то, что мы и видим. Так что

00:20:35в целом, является ли GLM отличной моделью с открытым кодом? Определенно. Но сталкивается ли она с проблемами,

00:20:41которые есть у open source моделей в целом, а именно: они не такие мощные? Да.

00:20:47Более того, если вы — сторонник open source, поймите, что вы не запустите это на своем ПК. Это требует

00:20:52тонну оборудования. И я думаю, из разговора выпадает то, о чем мы говорили в

00:20:57самом начале: расходы уже проблема для GLM 5.2. А это еще не учитывает

00:21:05огромные субсидии, которые вы получаете на планах Anthropic Max или OpenAI

00:21:12Max. Так что если принять это во внимание, то спора-то и нет.

00:21:16Действительно, не о чем спорить. Так что стал бы я рекомендовать GLM 5.2 среднему пользователю? Нет,

00:21:24не особо. Я думаю, возможно, если вы делаете задачи попроще, и вы тот, кто сравнивает

00:21:29это только по ценам API, возможно. Но трудно спорить, что

00:21:38это так, потому что что мы будем делать, когда выйдет Sonnet 5 на следующей неделе? Типа,

00:21:42вы просто будете перепрыгивать? Есть что сказать в пользу того, чтобы просто

00:21:46придерживаться одной модели, особенно когда речь идет об уровне корпоративных команд,

00:21:50где расходы на API действительно начинают расти. Потому что, опять же, для среднего одиночного пользователя, который будет

00:21:55использовать один из субсидируемых планов и не платит полную стоимость API, я не вижу аргументов за

00:22:01GLM 5.2. На этом я вас оставлю. Надеюсь, я пролил свет на этот

00:22:05весь спор вокруг GLM и хайп вокруг нее. Как всегда, дайте мне знать,

00:22:09что вы думаете в комментариях. Обязательно загляните в Chase AI Plus, если хотите получить доступ к

00:22:13мастер-классу по Cloud Code. Увидимся.

Key Takeaway

Хотя GLM 5.2 является мощной моделью с открытыми весами и более низкой ценой за токен, в реальных агентных задачах и визуальном дизайне она уступает Opus 4.8 и GPT 5.5 по качеству исполнения и эффективности потребления ресурсов.

Highlights

В бенчмарке DeepSuite модель GPT 5.5 достигает 67% правильных ответов, Opus 4.8 — 59%, а GLM 5.2 — 44%.
Стоимость выполнения задачи в DeepSuite для GLM 5.2 составляет $3.92, в то время как GPT 5.5 требует $7.23, а Opus 4.8 — $13 в максимальных режимах.
При выполнении задачи по созданию 3D-гоночной игры модель Opus 4.8 справилась за 13 минут, затратив около 100 000 токенов.
GLM 5.2 израсходовала 1,35 миллиона токенов для создания аналогичной игры, что в 13,5 раз больше потребления Opus 4.8.
Модели Opus 4.8 и GPT 5.5 превосходят GLM 5.2 в задачах с длинным горизонтом планирования и визуальной верстке интерфейсов.
GLM 5.2 требует значительных вычислительных мощностей, так как содержит почти триллион параметров и не может быть запущена на обычном ПК через локальные инструменты вроде Ollama.

Timeline

Сравнение производительности и стоимости в DeepSuite

Тест DeepSuite фокусируется на 113 агентных задачах в языках TypeScript, Go, Python, JavaScript и Rust.
GPT 5.5 и Opus 4.8 демонстрируют более высокий процент успешных решений по сравнению с GLM 5.2.
Эффективность моделей оценивается по соотношению качества ответа к стоимости выполнения задачи.

DeepSuite показывает, что при максимальных настройках крупные проприетарные модели стабильно превосходят GLM 5.2. Несмотря на более низкую стоимость за один токен ($1.40 против $4.40 за входные данные у GLM), общая стоимость задачи для GLM выше из-за большего потребления токенов для достижения результата. Модель GLM 5.2 не является полностью локальной и требует мощного оборудования, несмотря на статус открытых весов.

Практическое тестирование: создание 3D-гоночной игры

Opus 4.8 первой завершила создание игры с приемлемым качеством графики и физики.
GLM 5.2 показала дерганое управление и проблемы с коллизией объектов на трассе.
GPT 5.5 продемонстрировала странные дизайнерские решения, такие как горизонтально расположенные колеса у автомобиля.

В первом раунде тестирования Opus 4.8 показала наиболее стабильный результат с плавной физикой. GLM 5.2 потратила более миллиона токенов, но выдала результат с ошибками управления. Повторный проход для улучшения эстетики подтвердил преимущество Opus 4.8 в качестве освещения и проработке 3D-объектов.

Разработка веб-интерфейса для умных очков

GPT 5.5 лучше других моделей справилась с визуальной иерархией и использованием пустого пространства.
GLM 5.2 не смогла адекватно отрисовать лендинг-пейдж, выдав неструктурированный набор элементов.
Opus 4.8 добавила анимации, но не справилась с корректным отображением текста на странице.

При запросе на создание наградного лендинга все три модели показали ограничения в веб-дизайне. GPT 5.5 оказалась наиболее удачной в интеграции 3D-графики через Three.js. Итоговый вывод заключается в том, что для среднего пользователя с доступом к корпоративным субсидируемым планам использование GLM 5.2 менее целесообразно, чем работа с лидирующими моделями GPT и Opus.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video