Transcript
00:00:00GLM 5.2 вышел на этой неделе, и это самая мощная модель с открытым исходным кодом, которую мы когда-либо
00:00:04видели. И в некоторых тестах, как вы можете видеть здесь, эта модель даже превосходит таких гигантов,
00:00:10как Opus 4.8 от Anthropic и 5.5 от OpenAI. Но насколько эти тесты достоверны? Как эта модель
00:00:18сравнивается напрямую с Opus 4.8 и GPT 5.5? Что ж, именно на это мы и собираемся ответить
00:00:25в сегодняшнем видео, проведя ряд тестов с этими тремя крупными моделями и посмотрев,
00:00:31как они работают в реальных условиях. Кроме того, мы подробно разберем один
00:00:35конкретный тест, который я считаю довольно важным, а также разберемся, что мы на самом деле
00:00:40подразумеваем под тем, что GLM 5.2 в некоторых случаях лучше, чем Opus и GPT 5.5. Мы говорим о том,
00:00:47что она эффективнее, дешевле, или она действительно справляется со всем этим одновременно?
00:00:51Итак, без лишних слов, давайте перейдем к делу. Но перед тем, как мы приступим к прямому
00:00:56сравнению, давайте сначала взглянем на существующие тесты, сравнивающие эти
00:00:59три модели. Тот, на который я хочу обратить особое внимание — это DeepSuite. DeepSuite —
00:01:04это относительно новый бенчмарк, призванный улучшить такие тесты, как Terminal
00:01:08Bench и Terminal Bench Pro. Я не буду слишком углубляться в детали этого теста, вы
00:01:12можете ознакомиться с их сайтом или репозиторием на GitHub, где все объясняется подробнее. Он фокусируется
00:01:17на длительных агентных задачах, а именно на 113 задачах на TypeScript, Go, Python, JavaScript
00:01:23и Rust в изолированных средах с использованием программных верификаторов. И здесь, на графике, мы видим
00:01:29процент правильных ответов слева, а также среднюю стоимость
00:01:34выполнения задачи. Мы стремимся вверх и вправо. Самая эффективная зона находится в верхнем
00:01:39правом углу. Там мы получаем наивысший результат при минимальных затратах. И мы видим здесь, что GLM 5.2
00:01:44Max выдает 44% при цене $3.92 за задачу. Если мы сравним это с Opus 4.8 и GPT 5.5, то увидим,
00:01:55что они справляются гораздо лучше. Max Opus 4.8 показывает 59%, а 5.5 достигает 67% в режиме Extra High. Очевидно,
00:02:04что при настройках Extra High и Max у нас довольно высокая стоимость. Для GPT 5.5 это $7.23, $13 для Opus,
00:02:12а у GLM — $3.92. Так что намного дешевле. Однако, если мы посмотрим на разные уровни усилий
00:02:19для 5.5 и Opus, то, например, в режиме Medium, Opus 4.8
00:02:25покажет результат выше, чем GLM 5.2, и при этом будет менее дорогим: 49% при $3.44 против 44% при $3.92. И это
00:02:36значительно: 5.5 показывает 54% при $2.75 против 44% у GLM за $3.92. Так что, с первого взгляда, в этом тесте,
00:02:47если принимать данные за чистую монету, 4.8 и 5.5 на голову выше GLM 5.2. И это неудивительно. Это
00:02:55лучшие из лучших, граничные модели. Они не являются открытыми. И если мы по-настоящему
00:03:01надавим на газ, они просто оставят GLM 5.2 далеко позади в задачах с длинным горизонтом,
00:03:07что, в общем-то, ожидаемо. Чего вы могли не ожидать, так это того, что она может работать лучше и дешевле,
00:03:11что само по себе проблема. Я просто хочу это прояснить, потому что знаю, что сейчас много
00:03:16разговоров и хайпа вокруг GLM 5.2 и того факта, что она с открытым исходным кодом. И, знаете,
00:03:21это сразу подразумевает: о, она супердешевая, и мы можем делать отличные вещи.
00:03:25Что ж, по цифрам она хороша, но не дотягивает до 4.8 и 5.5 согласно этому тесту. И помните,
00:03:33эти показатели 4.8 и 5.5 основаны на стоимости API. Если у меня план Max, это в 10 раз дешевле,
00:03:40чем здесь. То же самое, если я на плане OpenAI за 100 или 200 долларов в месяц. Так что
00:03:46это еще один фактор, который стоит учитывать. Поэтому я хочу немного притормозить разговоры о том,
00:03:50что GLM намного дешевле, потому что это не совсем так. И хотя она с открытым кодом,
00:03:56GLM 5.2, та модель с открытым кодом, которая показывает эти цифры, — она не с открытым кодом в том смысле, что
00:04:01вы можете просто скачать ее на свой компьютер. Она с открытым кодом в плане того, что вы видите код,
00:04:05вы видите веса. Это не значит, что я могу просто взять ее через Ollama.
00:04:09Я не могу запустить ее на своем личном ПК. Нет, не можете. Она содержит почти
00:04:14триллион параметров. Для этого требуется огромное количество оборудования. Так что не путайтесь, ведь я знаю,
00:04:20есть часть аудитории, которая путается, но это просто чтобы прояснить ситуацию. И опять же,
00:04:24это результаты тестов DeepSuite. Это очень интенсивные задачи. А
00:04:30сегодня мы проведем несколько других тестов, которые немного попроще, и которые,
00:04:35вероятно, больше отражают то, что запускает средний пользователь. Так что имейте это в
00:04:39виду. И чтобы мы были на одной волне, вот что мы имеем в плане расходов
00:04:44на токены. Помните, что причина, по которой Opus 4.8 и 5.5 вышли дешевле, в том, что они использовали гораздо меньше
00:04:50токенов для выполнения задачи. Они оказались просто эффективнее, хотя, если брать цену за токен,
00:04:55то для входных и выходных данных, за миллион токенов: GLM 5.2 — $1.40 за вход,
00:05:01$4.40 за выход. Opus 4.8 в 5.7 раза дороже, а 5.5 от GPT в 6.8 раза
00:05:10дороже. Так что за токен она гораздо дешевле. Но помните, нас интересует результат выполнения задачи,
00:05:16а не сравнение один к одному по токенам. И теперь, прежде чем мы перейдем к самим тестам,
00:05:21небольшое слово от спонсора сегодняшнего видео — меня. Я только что выпустил мастер-класс по Cloud Code в
00:05:26Chase AI Plus, и это лучший способ пройти путь с нуля до AI-разработчика, особенно если у вас нет
00:05:30технического бэкграунда. Я обновляю его каждую неделю, и он также включает мастер-классы по кодекам
00:05:35и созданию собственной агентной ОС. Так что, если вы хотите узнать об этом больше и не знаете,
00:05:40с чего начать, Chase AI Plus — то, что нужно. Ссылка в закрепленных комментариях.
00:05:46Итак, вот как мы проведем тест. Мы дадим каждой модели одинаковую
00:05:49промпт и режим планирования. Она выдаст нам план. Мы можем внести некоторые коррективы,
00:05:53в зависимости от того, что мы думаем о предложенном плане. А после этого позволим ей выполнить его.
00:05:58После выполнения я применю свои крайне субъективные критерии оценки к результату и сообщу вам,
00:06:03какой из них мне нравится больше всего. Если вам не нравятся мои критерии или мои выводы,
00:06:08обязательно оставьте комментарий. Я также обязательно удалю ваш комментарий. Итак, слева у нас
00:06:14GPT 5.5 внутри Codex в режиме Extra High. Посередине — OpenCode, работающий на GLM 5.2 в режиме Extra High,
00:06:21маршрутизируемый через OpenRouter. А справа — Cloud Code, работающий на Opus 4.8
00:06:26в режиме High. Почему я выбрал именно эти настройки усилий? Потому что так большинство людей
00:06:32использует их в реальной жизни. Скорее всего, вы либо на плане Max, либо используете какой-то
00:06:37план OpenAI, и вряд ли вы запускаете их в режиме Medium. Давайте будем честны. Так что я думаю,
00:06:42это лучше отражает то, как средний пользователь использует эти модели изо дня в день.
00:06:47Итак, в нашем первом промпте мы попросим модель создать играбельную 3D-гоночную игру, которая работает в
00:06:51браузере. И важно, что мы сохраняем промпт довольно расплывчатым. Я говорю, что вы имеете полную свободу
00:06:56выбрать любой стек и библиотеку, которые считаете лучшими для реализации этого. Итак,
00:07:02давайте запустим это и посмотрим, что произойдет. Все три модели работают в режиме планирования.
00:07:08И опять же, задумка сделать промпт расплывчатым в том, что мы хотим увидеть как можно больше
00:07:12различий в работе моделей. Если бы я дал точный план, как сделать все до единого шага,
00:07:18то мы бы не увидели, как модели думают и как они подходят к более
00:07:23сложным, запутанным задачам. Итак, через 13 минут Opus 4.8 первой закончила создание гоночной
00:07:29игры. Давайте посмотрим, что она сделала. Вот здесь у нас низкополигональная графика. Есть
00:07:37звук. Двигается довольно плавно. Похоже, у нас есть возможность дрифтовать.
00:07:44Окей, трава на самом деле немного мешает физике. В целом, довольно плавно, но
00:07:54довольно скучно, верно? Это довольно базовая гоночная трасса. Ничего особенного, не добавила
00:07:59никакого ИИ или чего-то подобного. Так что мне интересно посмотреть, как другие модели справятся в плане
00:08:04сложности. И, вероятно, после этого теста, если они все выдадут что-то похожее и пресное,
00:08:09мы попробуем задать другой промпт, чтобы поднять планку. Следующая
00:08:13на очереди — GLM 5.2. Она справилась на пять минут дольше, чем Claude Code. Для справки: GPT 5.5 все еще
00:08:20работает, что меня не слишком удивляет. Она обычно работает немного медленнее. В плане использования токенов,
00:08:26Claude Code использовал около 100,000 токенов, чтобы создать игру. А GLM 5.2 потребовалось более миллиона. Мы можем посмотреть
00:08:33в OpenRouter для этого запуска: общие расходы составили $1.21, а объем токенов — 1.35
00:08:41миллиона для создания этой игры. Итак, сразу интересный трек у нас получился.
00:08:48Управление очень дерганое по сравнению с тем, что мы получили в Claude Code. Я движусь
00:08:53очень быстро относительно самой трассы. Очень быстро. Я просто пролетаю через нее. И мы
00:09:00по сути не видим реальной разницы между самой трассой и полем вокруг. И в
00:09:09некоторых случаях я мог, как вы видели, буквально проехать сквозь трассу.
00:09:15К тому же, сама машина менее детализирована, чем то, что мы видели в Claude Code. То есть,
00:09:23трасса есть, есть таймер. В плане геймплея — немного глючно, не
00:09:30так плавно. И опять же, как и в ситуации с низкополигональной графикой, как мы видели у
00:09:36Opus. Мне бы хотелось увидеть, что будет, если попросить ее создать что-то, что выглядит
00:09:40лучше. К тому же, эта трасса не имеет особого смысла. Теперь посмотрим,
00:09:44что создала GPT 5.5. Она называет это Foundry Circuit, ночная гонка на время, три круга
00:09:50через сталелитейный завод. Что-то другое, полагаю, по сравнению с обычными трассами, которые мы видели в
00:09:54последних двух случаях. Давайте запустим. Поехали. Ну, я на самом деле не знаю, куда я
00:10:04должен ехать. О, полагаю, это трасса. Колеса выглядят как-то интересно. Они
00:10:10крутятся не в ту сторону. Это что-то. Окей, тут какие-то очень раздражающие звуки.
00:10:21И я не могу смириться с колесами, которые расположены горизонтально, или как там это описать.
00:10:28Трасса сама по себе нормальная, можно двигаться. Да, можно выехать за пределы, и это замедляет тебя. Но не
00:10:35ясно, что это мощеная трасса, как у Opus. А все остальное — это,
00:10:41скажем, поле. Так что графика довольно странная, честно говоря. А если учесть,
00:10:48что она делала это в два раза дольше, чем Opus, это странно. Честно говоря, очень странно. Опять,
00:10:55почему, почему она сделала это с колесами? Понятия не имею. Снова выбрала низкополигональный стиль.
00:11:00И тут просто очень темно, без какой-либо причины. Так что я чувствую, что
00:11:06это функциональнее, чем то, что мы получили от GLM 5.2, но не намного лучше. И вы также
00:11:12учитывайте, что это было на настройках Extra High у 5.5. Теперь, что касается использования токенов для 5.5,
00:11:17это вышло примерно так же, как у Claude Code. Использовала 7% своего пятичасового окна. Так что почти
00:11:22ничего. В целом, я бы поставил Opus 4.8 явно впереди GLM 5.2 и 5.5. Я думал,
00:11:28что последние две модели были глючными, но мы дадим им еще один шанс, потому что
00:11:32попросим их еще раз взглянуть на код, сделать еще один проход. И мы также хотим, чтобы
00:11:36они постарались лучше с графикой. Я не хочу низкополигональность. Я хочу, чтобы это выглядело
00:11:40как AAA-игра или максимально близко к этому. Давайте посмотрим, что будет во
00:11:46второй попытке. Итак, Opus и GLM закончили второй проход, а 5.5 заканчивает. Давайте
00:11:50сначала посмотрим на Opus 4.8. Сразу видим машину, которая стала намного лучше. Это огромное
00:11:58улучшение в отношении машины по сравнению с тем, что мы видели раньше. Мы также видим другое освещение.
00:12:04Видно отражение солнца на земле, все выглядит намного плавнее. То есть,
00:12:10сами деревья — это низкополигональные объекты, но освещение и особенно машина
00:12:15— это большой шаг вперед. И она сохраняет ту же плавность геймплея. То есть, не считая того,
00:12:20что у нас деревья на дороге, но они хотя бы отбрасывают тени. И за один дополнительный
00:12:26проход, который занял 10 минут и около 50,000 токенов, неплохо. Теперь посмотрим на GLM. На этот раз
00:12:32она потратила еще около 1.2 миллиона токенов на обновление, доведя наши общие расходы до $1.83.
00:12:38Давайте запустим. Похоже, она попыталась добавить какое-то другое освещение. Машина выглядит
00:12:46немного лучше, но само освещение странное. Слишком сильные блики. Трасса
00:12:52сама по себе не сильно изменилась. Знаете, все еще просто трава повсюду. И управление
00:12:57все еще очень дерганое, верно? Я еду очень быстро относительно трассы. Та же самая проблема,
00:13:04что была раньше, где сквозь часть трассы я могу проехать, а сквозь часть — нет. Значит,
00:13:10графика машины выглядит лучше, но я бы сказал, что освещение и блики настолько отвлекают,
00:13:15что это, вероятно, ухудшение по сравнению с тем, что было раньше. А вот второй проход с 5.5. Сейчас
00:13:21машина выглядит немного лучше, но глядя на все остальное — это примерно то же самое. Что ж,
00:13:29колеса стали лучше. Мы исправили проблему с колесами. Они теперь крутятся как положено,
00:13:34но звуки все еще раздражающие. И снова нет реальной разницы между дорожкой
00:13:42и травой. Так что по ощущениям это примерно то же самое, что и в первый раз, с
00:13:49чуть более качественной машинкой. Но когда мы попросили сделать AAA-эстетику, я бы не сказал, что
00:13:55она справилась. И опять же, в целом, глядя на эти три, GLM и 5.5 определенно на шаг
00:14:02ниже Opus. Теперь для следующего теста мы попросим создать веб-сайт. Промпт,
00:14:07который мы будем использовать: построить фейковый лендинг для продукта — AI-умных очков.
00:14:12Думайте о чем-то вроде Meta Ray-Bans. Опять же, мы даем этим моделям полную свободу
00:14:16в плане стека и дизайна. Мы говорим им выбрать то, что они считают лучшим, установить все, что
00:14:20нужно, и изучить лучшие практики создания лендингов. Мы говорим: «Эй, вперед, ищите
00:14:25картинки и изображения продуктов». И не полагайтесь только на создание собственного HTML. Важно:
00:14:31сделайте так, чтобы это выглядело как наградный сайт. Мы не хотим, чтобы это выглядело как ИИ-мусор. Нам нужна реальная
00:14:35визуальная иерархия, продуманная типографика и движение там, где это уместно. Итак, лендинг для умных очков,
00:14:42нам нужно наградное качество. Посмотрим, что они предложат. Все три
00:14:46модели закончили. Для справки: GLM использовала около миллиона токенов, а Opus и 5.5
00:14:53использовали около ста тысяч, плюс-минус. Сначала посмотрим, что построил Opus: очень темный фон.
00:14:58Есть какие-то очки, которые она создала, и текст немного обрезан здесь, что
00:15:04досадно. Когда мы прокручиваем вниз, это тоже выглядит странно, потому что текст прокрутки
00:15:12как бы накладывается сверху. Но при наведении мыши можно увидеть, как это все перемещается и меняет
00:15:18цвет, что довольно круто. При прокрутке вниз у нас есть анимации загрузки
00:15:24для всего. В целом, выглядит неплохо для очков, которые используют HTML.
00:15:31То есть, что вы вообще от этого получаете? Она даже не нашла нормальные
00:15:35очки для использования. И здесь есть: эй, как забронировать и как купить. Так что
00:15:41это нормально. Опять же, мы не дали много указаний, но попросили сделать в наградном
00:15:45стиле. Я бы не сказал, что это на таком уровне. Теперь посмотрим, что построил GLM.
00:15:51Я вообще не понимаю, что тут происходит. На самом деле, это едва загрузилось.
00:15:59Показывает какие-то очки, но сайт — катастрофа. Такое чувство, что она даже
00:16:04не закончила. Просто все свалила в кучу. Да, да, промпт не был
00:16:13супердетальным, но она должна была справиться лучше. Это на самом деле
00:16:19ужасно. Понятия не имею, чего она пыталась этим добиться. И, наконец, GPT 5.5. Это
00:16:25немного интересно. Мне кажется, выглядит круто, хотя очки
00:16:30немного перекрывают текст здесь. У нас много пустого пространства, что, впрочем, можно назвать
00:16:34дизайнерским решением. И есть баннер, который движется. Вспомните, что в версии Opus
00:16:39баннер был, но не двигался. И по мере прокрутки вниз вы заметите, что
00:16:44курсор разноцветный. При прокрутке вниз видно, что она создала какие-то HTML-типа
00:16:50активы. Странно, верно? Мы сказали: «Эй, вы можете найти в интернете то, что нужно,
00:16:55если хотите». В целом, вероятно, лучшая из трех. Но я не могу сказать, что я
00:17:04в восторге от чего-либо. Это показывает, насколько твердая рука нужна при выполнении
00:17:09любого визуального дизайна или UI, даже самые продвинутые модели с этим борются.
00:17:14Я понятия не имею, что, черт возьми, происходит. Это — беспорядок. Итак, Opus была
00:17:21нормальной, 5.5 — лучшей из всех, а GLM — полным провалом. Как и в случае
00:17:26с игровой версией, мы дадим им второй шанс, посмотрим, смогут ли они исправить то,
00:17:30что пошло не так. И вдобавок, мы попросим их интегрировать что-то вроде, опять же,
00:17:36трехмерных элементов, мы действительно хотим посмотреть, как они справятся с
00:17:42движением, графикой и подобными вещами. И новый промпт выглядит так: возьмите лендинг для
00:17:46умных очков, который вы построили, и перестройте его как иммерсивный 3D-опыт, используя
00:17:51Three.js. Нам нужна реальная интерактивная 3D-сцена. И опять же, даем полную свободу
00:17:56для реализации. И вот что мы получили от Opus 4.8. Видно, что она добавила
00:18:02немного Three.js, очки двигаются. Но помимо этого, остались те же проблемы,
00:18:08текст обрезан, накладывается здесь. И все остальное выглядит довольно
00:18:13очевидно, что ИИ создал это. Кстати, затраты токенов были примерно одинаковыми во втором
00:18:21запуске для всех. Далее у нас GLM 5.2.
00:18:27В этот раз она создала сайт, который имеет смысл. У нас есть очки,
00:18:32хотя очки, которые она сделала, выглядят странно, ни одни реальные очки
00:18:36так не выглядят, и текст тоже обрезан. Но у нас есть баннер,
00:18:42который прокручивается, при наведении останавливается. Я бы сказал, что в целом, по тому,
00:18:48как она сверстала сайт, я бы отдал предпочтение перед Opus. Теперь, не думаю,
00:18:55что кто-то из них делает это особенно хорошо. Мы дали им свободу делать что угодно. Но
00:18:59я бы поставил это выше того варианта. Хотя, в плане главного экрана,
00:19:05мне Opus 4.8 нравится больше. Теперь, GPT 5.5 — я думаю, это победитель.
00:19:10Мне кажется, выглядит лучше в целом с точки зрения дизайна. И я думаю, Three.js-графика,
00:19:18которую она добавила, довольно крутая. Думаю, это имеет смысл в контексте созданного. У нас есть
00:19:22много белого пространства наверху, и очки могут там жить. Что касается
00:19:27остальной части сайта, выглядит нормально. Опять же, выглядит очень, «в кавычках»,
00:19:32ИИ-мусор в том смысле, что ИИ определенно это создал, но не плохо. Сверху
00:19:37донизу я предпочитаю то, что 5.5 нам выдала, больше других. Итак, если мы посмотрим на это
00:19:42в целом, привлекая более сложные тесты, такие как DeepSuite, вместе с
00:19:48тем, что мы делали сегодня, я думаю, это ожидаемо. Не думаю, что GLM сработала ужасно
00:19:56в каком-либо смысле, но она определенно чувствовалась на шаг ниже GPT 5.5 или 4.8. Или в
00:20:03сценариях, где Opus была лучше всех остальных. И в
00:20:07сценариях, где GPT была лучше всех, GLM была в самом низу. Не
00:20:12была катастрофически хуже, но определенно не лучше. И использовала бесконечно больше токенов.
00:20:17И так, взглянув на это, на балл DeepSuite, где GLM внизу
00:20:21и менее эффективна, чем 5.5 и 4.8, как в плане стоимости, так и качества работы. Это
00:20:27имеет смысл. Думаю, это то, что мы и видим. Так что
00:20:35в целом, является ли GLM отличной моделью с открытым кодом? Определенно. Но сталкивается ли она с проблемами,
00:20:41которые есть у open source моделей в целом, а именно: они не такие мощные? Да.
00:20:47Более того, если вы — сторонник open source, поймите, что вы не запустите это на своем ПК. Это требует
00:20:52тонну оборудования. И я думаю, из разговора выпадает то, о чем мы говорили в
00:20:57самом начале: расходы уже проблема для GLM 5.2. А это еще не учитывает
00:21:05огромные субсидии, которые вы получаете на планах Anthropic Max или OpenAI
00:21:12Max. Так что если принять это во внимание, то спора-то и нет.
00:21:16Действительно, не о чем спорить. Так что стал бы я рекомендовать GLM 5.2 среднему пользователю? Нет,
00:21:24не особо. Я думаю, возможно, если вы делаете задачи попроще, и вы тот, кто сравнивает
00:21:29это только по ценам API, возможно. Но трудно спорить, что
00:21:38это так, потому что что мы будем делать, когда выйдет Sonnet 5 на следующей неделе? Типа,
00:21:42вы просто будете перепрыгивать? Есть что сказать в пользу того, чтобы просто
00:21:46придерживаться одной модели, особенно когда речь идет об уровне корпоративных команд,
00:21:50где расходы на API действительно начинают расти. Потому что, опять же, для среднего одиночного пользователя, который будет
00:21:55использовать один из субсидируемых планов и не платит полную стоимость API, я не вижу аргументов за
00:22:01GLM 5.2. На этом я вас оставлю. Надеюсь, я пролил свет на этот
00:22:05весь спор вокруг GLM и хайп вокруг нее. Как всегда, дайте мне знать,
00:22:09что вы думаете в комментариях. Обязательно загляните в Chase AI Plus, если хотите получить доступ к
00:22:13мастер-классу по Cloud Code. Увидимся.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video