00:00:00Ребята из ZAI только что выпустили GLM 4.7,
00:00:03и за $29 в год — это смехотворно дешево для модели,
00:00:06которая,
00:00:07по их словам,
00:00:08набирает 73% на SWE bench,
00:00:10наравне с Sonnet 4.5.
00:00:11Это не случайность.
00:00:12Они выходят на биржу и должны показать успехи на западном рынке..
00:00:15Они даже провели прямую Q&A на Reddit,
00:00:17чего я никогда не видел от китайской лаборатории ИИ.
00:00:19Но у 4.6 были серьезные проблемы.
00:00:21Действительно ли 4.7 их решила?.
00:00:23Привет всем,
00:00:23если вы здесь впервые — это AI Labs,
00:00:25и добро пожаловать в новый выпуск Debunked,
00:00:27серии,
00:00:28где мы берём инструменты и модели ИИ,
00:00:30избавляемся от маркетингового шума и показываем,
00:00:32что они действительно могут делать при честном тестировании.
00:00:35Новая модель улучшена в основном за счет post-training,
00:00:38а не изменения архитектуры.
00:00:40Она оптимизирована под Claude code,
00:00:42и команда ZAI явно назвала это своим приоритетным фреймворком.
00:00:46На данный момент она опережает много топовых моделей,
00:00:49включая GPT-5,
00:00:50особенно на бенчмарках кодирования.
00:00:52Во всех их кодовых планах они добавили новые MCP инструменты,
00:00:56которые не интегрированы напрямую.
00:00:58Это отдельные MCP серверы.
00:01:00На данный момент они перечислили три..
00:01:02И чтобы все они работали, вам нужен только API ключ.
00:01:04Вот почему они включены в план, но отдельно от модели..
00:01:07Что касается лимитов использования,
00:01:09они практически не отличаются от версии 4.6.
00:01:11Но если вы не помните,
00:01:12какие они были раньше,
00:01:13я составил подробный отчет.
00:01:15Забавно,
00:01:15что я сначала пытался создать его с помощью Gemini 3,
00:01:18и по какой-то причине он не смог дать мне нормальное сравнение планов.
00:01:22Я вернулся к Claude, и он хорошо провел исследование.
00:01:24Короче говоря,
00:01:25в базовом плане вы получаете 10-40 запросов в Claude code,
00:01:29а в GLM coding — 120 запросов всего за $3,
00:01:33это огромная разница.
00:01:34Разница еще больше на старших уровнях: план за $200 дает 800 запросов в 5-часовом окне в Claude,
00:01:42а за $30 вы получаете 2400.
00:01:44Все эти тарифы со скидкой в первый месяц, затем удваиваются.
00:01:48Но если вы выберете годовой план, это намного экономичнее.
00:01:50Еще один значимый бенчмарк — последний экзамен человечества.
00:01:53Для тех,
00:01:54кто не знает,
00:01:54это один из ненасыщенных бенчмарков,
00:01:56и большинство новых моделей все еще набирают на нем низкие баллы,
00:01:59потому что это действительно сложно.
00:02:00Чтобы протестировать интерфейс,
00:02:02у нас есть вот такой промпт,
00:02:03который не сосредоточен на архитектуре.
00:02:05Он в основном сосредоточен на логике дизайна,
00:02:08которую должна реализовать модель,
00:02:10и предлагает несколько вариантов.
00:02:11Затем мы можем посмотреть,
00:02:12основываясь на компании,
00:02:13которую я предлагаю — в этом случае это платформа проверки кода на основе ИИ — что она создает.
00:02:18Мы также подписались на план MAX,
00:02:20и есть два способа подключить его к Claude code.
00:02:22В обоих случаях вы изменяете settings.json,
00:02:25но один находится в корне вашего проекта и изменяет глобальные настройки.
00:02:29Если вы сделаете это внутри проекта,
00:02:31то это изменит настройки только для этого проекта.
00:02:33Мы сделали это, чтобы сравнить с Sonnet 4.5.
00:02:36Вот что получилось у Sonnet 4.5.
00:02:38Промпт довольно хороший,
00:02:39и мы используем его,
00:02:40чтобы определить,
00:02:41какие из этих моделей строят UI и как творчески они это делают.
00:02:45Это простой ванильный JS,
00:02:46поэтому мы не смотрим на архитектуру,
00:02:48только на дизайн.
00:02:49Вот что создала GLM 4.7.
00:02:52С точки зрения дизайна хорошо,
00:02:53но здесь она допустила ошибку — не учла длину,
00:02:56из-за чего артефакты немного разваливаются.
00:02:59Помимо этого,
00:03:00дизайн хороший,
00:03:00но мне совсем не нравятся эти эмодзи.
00:03:02Sonnet не использовала эмодзи вообще,
00:03:04что хорошо и соответствует языку дизайна.
00:03:06Чтобы протестировать обе модели,
00:03:08у меня есть готовый Next.js проект с инициализированным контекстом,
00:03:12который должен создать масштабируемый и production-ready UI.
00:03:15Это важно,
00:03:16потому что когда я буду анализировать,
00:03:18почему GLM неожиданно работала лучше,
00:03:20мы вернемся к этому моменту.
00:03:22Framer Motion и компоненты ShadCN уже предустановлены для создания UI.
00:03:27Их попросили создать главную страницу браузера для платформы потокового вещания,
00:03:31похожей на Netflix.
00:03:32Им указано,
00:03:32что именно создавать и что должно быть на странице.
00:03:35Если говорить об удобстве использования GLM с Claude code,
00:03:39одна проблема GLM 4.6 была в том,
00:03:40что она работала крайне медленно при генерации кода.
00:03:43Здесь, по моему опыту, эта проблема не решена.
00:03:46Она все еще работает крайне медленно..
00:03:48Но есть одно изменение.
00:03:49В GLM 4.6 модель по сути не думала,
00:03:51то есть не генерировала процесс мышления в Claude code..
00:03:54Подробная запись,
00:03:55которую вы видите,
00:03:56явно показывает мышление,
00:03:58но в 4.6 этого не было.
00:03:59Вы ясно видите,
00:04:00что модель 4.7 думает,
00:04:02так что это было исправлено.
00:04:04Кроме того,
00:04:04есть некоторые особенности,
00:04:06о которых нужно знать.
00:04:07GLM 4.7 не очень автономна..
00:04:09Я обнаружил это при тестировании.
00:04:10Как вы видите,
00:04:11в этой папке GLM уже есть папка с UI бенчмарком,
00:04:14в который нужно интегрировать приложение,
00:04:16но она её проигнорировала..
00:04:18Хотя это было ясно написано в контексте,
00:04:20она просто создала новое Next.js приложение на свой лад.
00:04:22Она его даже не инициализировала, просто начала писать код.
00:04:25Иногда она действительно глупит..
00:04:27Но после того,
00:04:27как я её поправил и направил в нужное русло,
00:04:30вот что создала Claude с точки зрения реализации.
00:04:32Как и подобает более продвинутой модели,
00:04:34она отлично работает с UI.
00:04:35Вот что создала GLM 4.7.
00:04:37Claude явно создала лучший UI,
00:04:38потому что,
00:04:39на мой взгляд,
00:04:40она все еще лучше в дизайне..
00:04:42За эту цену это приемлемо.
00:04:43Но когда я посмотрел на код и углубился в него,
00:04:46учитывая,
00:04:46что им сказали,
00:04:47что это должна быть готовая к production версия и что им нужно использовать mock данные,
00:04:51GLM фактически реализовала более логичную архитектуру,
00:04:54разместив все mock данные в одном файле..
00:04:56Затем,
00:04:56когда нам нужно будет это заменить,
00:04:58нам нужно только изменить этот файл,
00:05:00потому что импорты там подключены,
00:05:01в отличие от того,
00:05:02что сделала Claude,
00:05:03где в каждом компоненте свой импорт.
00:05:05Когда мы будем внедрять backend,
00:05:07нам придется менять все эти файлы один за другим.
00:05:09С точки зрения базовой архитектуры и качества кода GLM работала неплохо,
00:05:13и это меня удивило,
00:05:14потому что 4.6 в моих тестах была не так хороша.
00:05:17Предыдущий результат не был оправдан тем,
00:05:19насколько много мне пришлось её направлять и сколько ошибок она делала,
00:05:22но этот — определенно огромный скачок.
00:05:24Эти бенчмарки определенно оправданы моим тестированием.
00:05:27Я также посмотрел на несколько мелких деталей в коде,
00:05:30и GLM 4.7 — на самом деле хорошая модель.
00:05:32Учитывая эти неожиданные результаты,
00:05:35мы честно рекомендуем всем брать план за $29 в год.
00:05:38Если у вас уже есть план Claude за $20,
00:05:41это просто ничто в сравнении.
00:05:42При этом это всё еще не модель,
00:05:44которую вы бы использовали для полностью автономного кодирования.
00:05:46Хотя Claude здесь реально напортачила с архитектурой,
00:05:49она достаточно хороша,
00:05:50чтобы позже это исправить и улучшить.
00:05:52Но из-за небольших особенностей,
00:05:53которые есть у GLM,
00:05:54мы не думаем,
00:05:54что стоит полагаться на неё как на единственный инструмент.
00:05:57На этом мы приходим к концу видео.
00:05:58Если вы хотите поддержать канал и помочь нам продолжать делать такие видео,
00:06:02вы можете сделать это,
00:06:03нажав кнопку Super Thanks ниже.
00:06:05Как всегда,
00:06:05спасибо за просмотр,
00:06:06и до встречи в следующем видео.