GLM 5.2 — моя новая любимая модель...

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Лучшая открытая модель в мире прямо сейчас не от компании под названием OpenAI, она, конечно,
00:00:04из китайской лаборатории, и это GLM 5.2 от ZAI. Эта модель впечатляет, она соответствует GPT 5.5 по
00:00:10некоторым бенчмаркам, и есть даже категория, где она, похоже, обходит Fable, будучи
00:00:15полностью открытой по лицензии MIT. Давайте взглянем. Итак, GLM 5.2 — это модель с 744 миллиардами параметров,
00:00:26из которых 40 миллиардов активны, и на самом деле она такого же размера, как её предшественница GLM 5.1,
00:00:31поэтому очень впечатляет, что они совершили такой скачок в индексе интеллекта
00:00:35от Artificial Analysis. Это совокупный балл по множеству бенчмарков: рассуждение, кодинг,
00:00:40наука и всё остальное. GLM 5.2 получила здесь 51 балл, что на 11 выше предыдущей итерации,
00:00:45и это лучшая открытая модель с довольно большим отрывом. Вы видите, что Qwen 3.7 на следующем месте, затем Minimax M3,
00:00:51за ним Kimi K 2.6. Это ставит её в один ряд с Gemini 3.5 Flash и GPT 5.4 по
00:00:57максимальным усилиям, что просто безумие, а по нескольким бенчмаркам в этом индексе, таким как GPT Eval,
00:01:03она даже превосходит GPT 5.5. Если сосредоточиться конкретно на кодинге, она всё ещё великолепна в индексе кодинга,
00:01:09получая столько же баллов, сколько Gemini 3.1 Pro, и даже обходя Sonic 4.6, и она не так уж далека от
00:01:14ведущих фронтирных моделей. Она также значительно опережает Kimi K 2.7 Code, нашу новейшую модель, которую, как я знаю,
00:01:19многие люди, включая меня, очень любят. Я всегда считал, что модели Kimi имеют действительно
00:01:23приятное ощущение при работе. Помимо индекса кодинга, еще один бенчмарк, который сейчас очень нравится людям,
00:01:27это DeepSWE. Если мы взглянем туда, она превосходит Opus 4.7 по средним усилиям,
00:01:33что действительно очень впечатляет. Однако стоит отметить, что не каждая модель
00:01:38была протестирована на этом, и для тестов использовали Claude Code, просто немного схитрив с API,
00:01:42чтобы перенаправить его на ZAI вместо Anthropic. Последний набор бенчмарков, который мне нравится — это Design Arenas,
00:01:47и здесь всё становится интереснее. GLM 5.2 только что заняла первое место в общем зачете на лидерборде
00:01:53Design Arena по одноходовому HTML-дизайну веб-сайтов, став первой моделью, которая обошла линейку Claude,
00:01:58включая Fable 5. Похоже, это могло быть приоритетной областью для модели, поскольку дальнейшее расследование
00:02:02со стороны Design Arena показывает, что у GLM 5.2 есть сильный набор экспертных шаблонов, избегающих обычных
00:02:08AI-антипаттернов, так что вы получите меньше фиолетовых градиентов, и она также, кажется, отлично работает
00:02:12с популярными библиотеками, такими как Chart.js, Three.js и Tailwind. У неё есть небольшой недостаток —
00:02:18она немного медленнее, но к этому я вернусь позже. Она также не везде номер один на Design Arena:
00:02:22она занимает второе место в разработке игр, визуализации данных и 3D, и четвертое — когда речь заходит о UI-компонентах, но это
00:02:28всё равно супервпечатляюще. Я решил попробовать это на нескольких демо-приложениях, и первое было, собственно,
00:02:32воссоздание Linear, но одна из раздражающих вещей в GLM 5.2, что является некоторым недостатком,
00:02:37это то, что она принимает только текстовые модальности, так что нельзя загрузить скриншот и сказать: воссоздай это.
00:02:42Поэтому я отправил скриншот в Claude и сказал: дай мне промпт, чтобы воссоздать это,
00:02:46и именно этот промпт я дал GLM 5.2. Несмотря на это, результаты, которые я получил, были супер
00:02:51впечатляющими. Слева здесь у меня настоящий веб-сайт Linear, а справа —
00:02:55воссоздание от GLM. Вы видите, что она правильно передала общие элементы, а для скриншота здесь фактически
00:02:59просто воссоздала UI, что, я думаю, было очень круто. Когда мы прокручиваем вниз, вы видите, что она передала в целом
00:03:04атмосферу веб-сайта Linear, и я действительно думаю, что это выглядит очень хорошо. Так что у неё есть сильные навыки
00:03:09дизайна UI. Очевидно, это не идеально, так как она не могла принять скриншот, поэтому она делает это как
00:03:14воссоздание того текстового промпта, который я вам показал, но этот веб-сайт выглядит очень хорошо. Для сравнения
00:03:19слева у меня то, что выдал Claude Opus 4.8 с тем же самым промптом, а это —
00:03:23Kimi K 2.7 Code, и опять же, все они отлично справились с воссозданием веб-сайта просто по этому
00:03:29промпту, и мне на самом деле кажется, что версия Kimi K 2.7 мне нравится больше всего, у нее просто в целом
00:03:34лучшее ощущение, и на мой взгляд, она выглядит наиболее завершенной. Затем я подумал, было бы хорошо
00:03:38дать этим моделям новый веб-сайт, который они, вероятно, раньше не видели, так как Linear, вероятно, есть в
00:03:42обучающих данных многих моделей, поэтому я просто сказал: создай и построй красивый одностраничный сайт
00:03:46для вымышленного продукта под названием North Star, это ИИ-планировщик для личных дел. Вы можете видеть,
00:03:50что здесь также есть некоторое направление дизайна, например, мы хотим геройскую секцию, социальные доказательства, раздел с ценами,
00:03:56все обычные вещи. И внизу направление дизайна: чистая премиальная эстетика SaaS,
00:04:00мягкий градиент, сильная типографика, закругленные карточки и так далее. Это результат, который я получил от двух
00:04:06моделей, и я скажу вам, какая есть какая, в конце, но вы видите, когда мы прокручиваем вниз, я думаю, это
00:04:10выглядит очень хорошо, и я думаю, модель проделала довольно хорошую работу. Это довольно простой стартап-сайт с вашим
00:04:15нормальным разделом цен и так далее, то же самое справа. Мне, может быть, этот стиль нравится немного
00:04:20больше, но вы видите, что он пошел по пути этого фиолетового градиента в стиле ИИ, но я думаю, что есть
00:04:25что-то в этом веб-сайте, что выглядит немного чище и законченнее для меня, но это
00:04:29полностью мое мнение. Если у вас есть фаворит, дайте мне знать в комментариях ниже, а также подпишитесь,
00:04:33пока вы там. Тот, что слева, был на самом деле GLM 5.2, а этот — Claude Opus 4.8.
00:04:39Для завершенности, вот что дала мне Kimi K 2.7 Code, и я действительно думаю, что эта версия попадает в ту самую
00:04:43ИИ-эстетику с этими фиолетовыми градиентами. Она немного похожа на Claude, просто с меньшим количеством
00:04:48анимаций и меньшим лоском. Я также хотел быстро посмотреть, что GLM 5.2 сделает, если я дам ей
00:04:53никакого направления по дизайну, так что я просто дал ей начальную часть промпта, и я не думаю,
00:04:56что вывод выглядит плохо, но я не уверен, что могу согласиться с Design Arena, что здесь нет
00:05:01обычного ИИ-вида, она действительно использует эти фиолетовые градиенты по максимуму. Для следующего теста я затем
00:05:05подумал, что попробую протестировать их на создании 3JS-приложений с одного промпта, и я просто сказал: создай 3JS-игру,
00:05:10где я могу гонять на болиде F1 по Сильверстоуну. Вы можете видеть, что эта модель принялась за работу, и на это ушло
00:05:15всего около 10 минут. Если мы прокрутим в самый низ, использовано 40 000 токенов и стоило 32
00:05:20цента. Это результат, который дала нам GLM 5.2. Вы можете видеть, здесь написано “Сильверстоун F1” и “Запустите
00:05:25двигатель”. Кстати, Льюис Хэмилтон только что выиграл за Ferrari, это просто потрясающе, я рад видеть, что у нас есть
00:05:30здесь красная машина Ferrari, хотя мы определенно едем немного медленнее, чем мне хотелось бы,
00:05:35и одна вещь, которую я замечаю здесь, это если я нажимаю A, я, кажется, еду направо, а D — налево, так что управление
00:05:40инвертировано, но не на стрелочках. Кажется, это определенно не та скорость, с которой мне хотелось бы,
00:05:45чтобы Ferrari ехала по Сильверстоуну, но, в общем, это не так уж плохо для первой попытки, на самом деле
00:05:51кажется, я еду быстрее, если еду задним ходом, так что, может быть, если я просто поеду задним ходом по трассе, будет лучше. Я попробовал
00:05:55тот же тест с Kimi K 2.7 Code, но на самом деле не получил рабочую модель с одного
00:05:59промпта. Где-то внизу у меня было несколько ошибок в консоли, которые постоянно зацикливались, так что мне
00:06:04пришлось сказать ей, что у меня было несколько ошибок, но потом она исправила их во втором промпте, и вы можете видеть,
00:06:08что эта версия на самом деле использовала больше токенов — 110 000 — и стоила 81 цент. Результат, который я получил, был также
00:06:14немного менее играбельным. Кажется, у нас немного больше скорости, но радиус поворота ужасный. Я
00:06:19не думаю, что когда-либо видел, чтобы пилот F1 так поворачивал, и мы также можем проезжать сквозь некоторые здания
00:06:23здесь. Круто, что они добавили названия поворотов в Сильверстоуне, но здесь также нет трассы, это,
00:06:27по-видимому, просто столбики. Последний вариант — Claude Opus 4.8, и он немного более играбелен
00:06:33помимо того факта, что, мне кажется, не должно быть деревьев посреди трассы Сильверстоун. В смысле,
00:06:37последний раз, когда я проверял, их там не было, и да, в целом это довольно хорошая игра, у нас есть управление
00:06:42камерой, хотя моим колесам, вероятно, это не понравилось бы, если бы я был пилотом F1, но, кажется, она
00:06:47справляется нормально, хотя сама трасса — это одна из самых запутанных трасс, которые я когда-либо
00:06:52видел, чтобы кто-то по ней гонял. Здесь много пересечений, и я вообще не знаю, в какую сторону
00:06:57ехать, но я бы сказал, что Opus 4.8 дала нам самую играбельную демо-версию за один промпт. Последний тест, который я сделал,
00:07:02более сложный: это фронтенд и бэкенд с нуля для панели управления личными финансами
00:07:07с несколькими функциями, которые вы видите в списке здесь, и общая идея здесь —
00:07:11посмотреть, какой стек она выберет, когда начинает с чистого листа, а также сможет ли она связать фронтенд и бэкенд
00:07:16всё в одном промпте без ошибок. Вот попытка GLM 5.2, и я должен сказать, да, это
00:07:22довольно простая на вид панель управления, здесь нет ничего особенного, но и не так много особенных вещей, которые можно
00:07:26сделать с помощью того промпта, который я дал. Всё, кажется, работает, я добавил вещи в базу данных,
00:07:32я оплатил свою подписку Fable 5 здесь, все эти страницы кликабельны, и всё действительно переносится
00:07:37между ними, когда я нажимаю на них. Я протестировал это, так что она проделала очень хорошую работу с
00:07:41этого единственного промпта. Мне всегда любопытно, какой стек она выберет, и этот вариант пошел с Next.js
00:07:46приложением, использовала Prisma для базы данных, и мы можем видеть это здесь, у нас также есть база данных для
00:07:50разработки. Я, наверное, предпочел бы, чтобы она использовала Drizzle и, может быть, TanStack, но я не могу особо
00:07:55жаловаться, я не давал ей никаких направлений. Это на самом деле то, что дала мне Kimi K 2.7 Code, и вы видите, что это
00:07:59почти такое же приложение, просто я бы сказал, не такое изящное. У них определенно есть некоторые из
00:08:04тех же шаблонов в их обучающих данных где-то, что выглядит точно так же, и опять же, да, я не могу
00:08:09слишком жаловаться на это, но здесь не хватает всех дополнительных функций с кнопками, чтобы можно было
00:08:13переводить. У меня есть функции добавления аккаунта и добавления транзакций, они работают, но я просто скажу, что
00:08:18общий UI и пользовательский опыт этого варианта немного хуже, так как нет этой
00:08:23информации, кликабельной наверху. Стек по умолчанию, который она выбрала, я бы также сказал, немного хуже, она использовала React здесь с
00:08:28просто обычной настройкой Vite и React Router, с чем я не спорю, но бэкенд она выбрала
00:08:33Express, и если мы взглянем на фактический файл базы данных, он просто использует Node SQLite для записи в него и
00:08:39прописывает схемы прямо в тексте здесь, что, я думаю, будет немного менее масштабируемо. Если бы я
00:08:43полностью занимался “вайб-кодингом” и ничего не знал о стеке, я бы, наверное, хотел GLM 5.2, но если бы я
00:08:48использовал Kimi K 2.7 Code, я бы, вероятно, дал ей указания использовать Drizzle, Next.js и
00:08:53другие вещи, так что всё зависит от того, что вам нравится. Говоря о том, что это субъективно, вот
00:08:58то, что на самом деле дала мне Claude Opus 4.8. Она определенно выбрала совершенно другой стиль,
00:09:03чем те, что мы видели раньше, но это своего рода тот стиль текста, который Claude, кажется, любит
00:09:07в данный момент. Это определенно то, что они вложили в обучающие данные или подталкивают к этому, и всё
00:09:11это работает очень хорошо, и да, я думаю, это выглядит очень хорошо. Я бы, наверное, попросил это использовать
00:09:16другие шрифты и другую цветовую схему, но, в общем, база очень хороша. Она не
00:09:20делала отдельные страницы для этого, она просто сделала отдельные секции, так что, может быть, это хуже, но опять же,
00:09:25это зависит от промпта. Все функции и всё подобное работают. Взглянув
00:09:29на фактический код, который дала мне Opus, я на самом деле думаю, что GLM 5.2, возможно, выиграла здесь. Что Opus
00:09:34сделала — она просто использовала обычное React-приложение, она даже не заморачивалась с React Router, так как всё было
00:09:38на одной странице, и она также выбрала Express для своего бэкенда, но затем она не
00:09:43делала никакого подключения к базе данных, всё это на самом деле просто хранилище в памяти, что мы можем видеть
00:09:48здесь, где она инициализирует данные, и просто запускает всё это с объекта JavaScript, что, опять же, вероятно,
00:09:53не то, что я хочу, если собираюсь масштабировать это в будущем, но это сводится к промпту. Я думаю,
00:09:58это своего рода мой ключевой вывод при тестировании этой модели в течение последних нескольких дней. Я думаю, что для многих
00:10:02задач вы могли бы тайно поменять GLM 5.2 на место Sonnet или даже Opus для более простых задач, и я
00:10:07вероятно, не заметил бы. Это действительно способная модель, и если вы правильно её направите, вы получите
00:10:12очень хорошие результаты. Это одна из первых открытых моделей, с которой я не чувствовал, что борюсь,
00:10:16чтобы её использовать, и также одна из первых открытых моделей, при использовании которой у меня не возникало чувства: “Я знаю, Claude
00:10:21сделал бы это лучше или быстрее”. Последнее, что стоит упомянуть, чтобы завершить, это токены, стоимость и
00:10:25скорость. Один из недостатков GLM 5.2 может заключаться в том, что она немного более “прожорлива” по токенам по сравнению с
00:10:31другими моделями в своем классе. Она использовала в среднем 43 000 токенов на задачу, что больше, чем Kimi K 2.6,
00:10:37Minimax и DeepSeek, но хорошая новость в том, что это не так уж дорого стоит, в зависимости от
00:10:41провайдера. Это около 1 доллара 40 центов за миллион входных токенов и 4 доллара 40 центов за миллион выходных токенов, а по
00:10:47бенчмаркам Artificial Analysis это стоило около 50 центов за задачу, и вы можете видеть, что это
00:10:52довольно хорошая позиция, когда мы сравниваем стоимость против интеллекта. Игнорируйте метку Gemini здесь, на самом деле это синяя
00:10:57точка, и вы видите, что это довольно переполненная диаграмма, но то, что она на самом деле показывает, это то, что на своем уровне
00:11:02интеллекта GLM 5.2 — самая дешевая модель, хотя я скажу здесь, что если вы можете позволить себе потерю в интеллекте,
00:11:07я думаю, Minimax и особенно DeepSeek V4 очень хороши за эту цену. Когда дело доходит до скорости,
00:11:12GLM 5.2 на самом деле неплоха, она превзошла большинство открытых моделей рядом с её уровнем интеллекта,
00:11:17так что DeepSeek V4, Kimi 2.7 Code и Minimax, и она немного отстает от фронтирной модели, такой как Gemini 3.1 Pro,
00:11:24у которой такой же уровень интеллекта, но это фронтирная модель, и я также хотел бы увидеть, чтобы Gemini
00:11:283.5 Pro была добавлена в этот список. Google, пожалуйста, выпустите её! Когда дело доходит до скорости, Design Arena
00:11:33на самом деле, по-видимому, получила немного другой результат, где они говорят, что GLM 5.2 получила самый высокий балл по
00:11:38пользовательскому предпочтению дизайна, но она также была самой медленной из топовых моделей, хотя также
00:11:42стоит отметить, что все эти топовые модели являются фронтирными, а не открытыми. В целом, действительно
00:11:47чувствуется, что мы находимся в точке, где эти открытые модели отстают на, скажем, четыре-шесть месяцев, так что
00:11:51возможно, слишком оптимистично, мы могли бы увидеть модель Fable к следующему году, и я имею в виду, что они сами
00:11:56на самом деле обещают это к первому кварталу, и я ненавижу соглашаться с этим следующим человеком в чем-либо, но он действительно делает
00:12:01хорошее замечание, что, возможно, по бенчмаркам они могли бы догнать Fable, но фактическая полезность ощущается
00:12:06немного иначе, и это то, в чем Anthropic очень хороша. Очень редко можно увидеть, чтобы он на самом деле
00:12:10делал им комплимент, но я должен согласиться с тем мнением, что фактическое использование
00:12:14этих моделей ощущается немного по-другому, но я думаю, что GLM 5.2 — одна из первых, которая разорвала
00:12:19этот цикл для меня. Я думаю, если бы вы сказали мне год назад, что эти открытые модели будут хоть сколько-нибудь близки
00:12:23к такому уровню, я был бы абсолютно шокирован и, вероятно, не поверил бы вам. И я на самом деле
00:12:27не “выживальщик”, но мне кажется, что с недавним баном Fable, я просто хочу скачать GLM 5.2 и сохранить
00:12:31её на SSD на всякий случай, если она понадобится позже. Дайте мне знать, что вы думаете об этой модели в комментариях
00:12:36внизу, а также скажите мне, какая ваша любимая открытая модель для использования, пока вы там. Подпишитесь
00:12:40и, как всегда, увидимся в следующем выпуске.

Key Takeaway

Модель GLM 5.2 от ZAI является наиболее производительной открытой моделью на текущий момент, демонстрируя уровень интеллекта, сопоставимый с проприетарными системами уровня GPT 5.4 при значительно более низкой стоимости эксплуатации.

Highlights

  • Модель GLM 5.2 обладает 744 миллиардами параметров, из которых 40 миллиардов являются активными.

  • В индексе интеллекта Artificial Analysis модель набрала 51 балл, опережая предыдущую итерацию на 11 пунктов.

  • GLM 5.2 занимает первое место в лидерборде Design Arena по одноходовому HTML-дизайну веб-сайтов.

  • Стоимость использования модели составляет 1,40 доллара за миллион входных токенов и 4,40 доллара за миллион выходных токенов.

  • Для задач по созданию 3D-приложений на базе Three.js модель GLM 5.2 выполнила работу за 32 цента, затратив 40 000 токенов.

Timeline

Технические характеристики и показатели производительности

  • Модель GLM 5.2 полностью открыта по лицензии MIT.
  • Совокупный балл модели в бенчмарках составляет 51, что является лучшим результатом среди открытых решений.
  • Показатели кодинга GLM 5.2 соответствуют уровню Gemini 3.1 Pro.

Модель сохраняет размер своей предшественницы GLM 5.1, но демонстрирует существенный прирост в индексе интеллекта. Она превосходит такие модели, как Qwen 3.7 и Minimax M3 в общих тестах, а по некоторым показателям GPT Eval обходит GPT 5.5. В области кодинга она опережает Kimi K 2.7 Code и приближается к ведущим проприетарным моделям.

Тестирование UI-дизайна и веб-разработки

  • Модель возглавила лидерборд Design Arena по одноходовому дизайну на HTML.
  • Отсутствие поддержки изображений требует использования текстовых промптов для воссоздания UI.
  • GLM 5.2 эффективно работает с библиотеками Chart.js, Three.js и Tailwind.

При тестировании воссоздания веб-сайта Linear модель успешно передала структуру и эстетику интерфейса через текстовое описание. Несмотря на отсутствие возможности загрузки скриншотов, качество сгенерированного кода сопоставимо с Claude Opus 4.8. Модель демонстрирует склонность к использованию современных дизайн-паттернов, избегая избыточных визуальных эффектов, характерных для ранних ИИ-генераций.

Создание игровых приложений и сложных систем

  • Генерация 3D-игры с использованием Three.js заняла 10 минут при затратах 32 цента.
  • Панель управления личными финансами была успешно создана с использованием Next.js и Prisma.
  • Модель предпочла Next.js и Prisma в качестве стека технологий по умолчанию.

При запросе на создание игры для гонок модель обеспечила работоспособный прототип за один промпт, что оказалось сложнее для Kimi K 2.7 Code, потребовавшей исправлений. В задаче создания финансового приложения модель эффективно связала фронтенд и бэкенд, выбрав масштабируемый стек технологий без явных указаний со стороны пользователя.

Экономическая эффективность и перспективы открытых моделей

  • Средняя стоимость решения задачи составила около 50 центов.
  • GLM 5.2 является самой доступной моделью в своем классе интеллекта.
  • Открытые модели сокращают разрыв с фронтирными решениями до 4-6 месяцев.

Несмотря на высокую интенсивность использования токенов, общая стоимость эксплуатации остается низкой относительно получаемого качества. Модель демонстрирует достаточный уровень автономности для замены проприетарных систем в большинстве повседневных задач разработки. Разрыв между открытыми и закрытыми моделями стремительно уменьшается, что позволяет рассматривать GLM 5.2 как надежную альтернативу для локального развертывания.

Community Posts

View all posts