GLM 4.7 - БЕЗУМНАЯ модель для разработки ПО...

AAI LABS
컴퓨터/소프트웨어창업/스타트업재택/원격 근무AI/미래기술

Transcript

00:00:00Ребята из ZAI только что выпустили GLM 4.7,
00:00:03и за $29 в год — это смехотворно дешево для модели,
00:00:06которая,
00:00:07по их словам,
00:00:08набирает 73% на SWE bench,
00:00:10наравне с Sonnet 4.5.
00:00:11Это не случайность.
00:00:12Они выходят на биржу и должны показать успехи на западном рынке..
00:00:15Они даже провели прямую Q&A на Reddit,
00:00:17чего я никогда не видел от китайской лаборатории ИИ.
00:00:19Но у 4.6 были серьезные проблемы.
00:00:21Действительно ли 4.7 их решила?.
00:00:23Привет всем,
00:00:23если вы здесь впервые — это AI Labs,
00:00:25и добро пожаловать в новый выпуск Debunked,
00:00:27серии,
00:00:28где мы берём инструменты и модели ИИ,
00:00:30избавляемся от маркетингового шума и показываем,
00:00:32что они действительно могут делать при честном тестировании.
00:00:35Новая модель улучшена в основном за счет post-training,
00:00:38а не изменения архитектуры.
00:00:40Она оптимизирована под Claude code,
00:00:42и команда ZAI явно назвала это своим приоритетным фреймворком.
00:00:46На данный момент она опережает много топовых моделей,
00:00:49включая GPT-5,
00:00:50особенно на бенчмарках кодирования.
00:00:52Во всех их кодовых планах они добавили новые MCP инструменты,
00:00:56которые не интегрированы напрямую.
00:00:58Это отдельные MCP серверы.
00:01:00На данный момент они перечислили три..
00:01:02И чтобы все они работали, вам нужен только API ключ.
00:01:04Вот почему они включены в план, но отдельно от модели..
00:01:07Что касается лимитов использования,
00:01:09они практически не отличаются от версии 4.6.
00:01:11Но если вы не помните,
00:01:12какие они были раньше,
00:01:13я составил подробный отчет.
00:01:15Забавно,
00:01:15что я сначала пытался создать его с помощью Gemini 3,
00:01:18и по какой-то причине он не смог дать мне нормальное сравнение планов.
00:01:22Я вернулся к Claude, и он хорошо провел исследование.
00:01:24Короче говоря,
00:01:25в базовом плане вы получаете 10-40 запросов в Claude code,
00:01:29а в GLM coding — 120 запросов всего за $3,
00:01:33это огромная разница.
00:01:34Разница еще больше на старших уровнях: план за $200 дает 800 запросов в 5-часовом окне в Claude,
00:01:42а за $30 вы получаете 2400.
00:01:44Все эти тарифы со скидкой в первый месяц, затем удваиваются.
00:01:48Но если вы выберете годовой план, это намного экономичнее.
00:01:50Еще один значимый бенчмарк — последний экзамен человечества.
00:01:53Для тех,
00:01:54кто не знает,
00:01:54это один из ненасыщенных бенчмарков,
00:01:56и большинство новых моделей все еще набирают на нем низкие баллы,
00:01:59потому что это действительно сложно.
00:02:00Чтобы протестировать интерфейс,
00:02:02у нас есть вот такой промпт,
00:02:03который не сосредоточен на архитектуре.
00:02:05Он в основном сосредоточен на логике дизайна,
00:02:08которую должна реализовать модель,
00:02:10и предлагает несколько вариантов.
00:02:11Затем мы можем посмотреть,
00:02:12основываясь на компании,
00:02:13которую я предлагаю — в этом случае это платформа проверки кода на основе ИИ — что она создает.
00:02:18Мы также подписались на план MAX,
00:02:20и есть два способа подключить его к Claude code.
00:02:22В обоих случаях вы изменяете settings.json,
00:02:25но один находится в корне вашего проекта и изменяет глобальные настройки.
00:02:29Если вы сделаете это внутри проекта,
00:02:31то это изменит настройки только для этого проекта.
00:02:33Мы сделали это, чтобы сравнить с Sonnet 4.5.
00:02:36Вот что получилось у Sonnet 4.5.
00:02:38Промпт довольно хороший,
00:02:39и мы используем его,
00:02:40чтобы определить,
00:02:41какие из этих моделей строят UI и как творчески они это делают.
00:02:45Это простой ванильный JS,
00:02:46поэтому мы не смотрим на архитектуру,
00:02:48только на дизайн.
00:02:49Вот что создала GLM 4.7.
00:02:52С точки зрения дизайна хорошо,
00:02:53но здесь она допустила ошибку — не учла длину,
00:02:56из-за чего артефакты немного разваливаются.
00:02:59Помимо этого,
00:03:00дизайн хороший,
00:03:00но мне совсем не нравятся эти эмодзи.
00:03:02Sonnet не использовала эмодзи вообще,
00:03:04что хорошо и соответствует языку дизайна.
00:03:06Чтобы протестировать обе модели,
00:03:08у меня есть готовый Next.js проект с инициализированным контекстом,
00:03:12который должен создать масштабируемый и production-ready UI.
00:03:15Это важно,
00:03:16потому что когда я буду анализировать,
00:03:18почему GLM неожиданно работала лучше,
00:03:20мы вернемся к этому моменту.
00:03:22Framer Motion и компоненты ShadCN уже предустановлены для создания UI.
00:03:27Их попросили создать главную страницу браузера для платформы потокового вещания,
00:03:31похожей на Netflix.
00:03:32Им указано,
00:03:32что именно создавать и что должно быть на странице.
00:03:35Если говорить об удобстве использования GLM с Claude code,
00:03:39одна проблема GLM 4.6 была в том,
00:03:40что она работала крайне медленно при генерации кода.
00:03:43Здесь, по моему опыту, эта проблема не решена.
00:03:46Она все еще работает крайне медленно..
00:03:48Но есть одно изменение.
00:03:49В GLM 4.6 модель по сути не думала,
00:03:51то есть не генерировала процесс мышления в Claude code..
00:03:54Подробная запись,
00:03:55которую вы видите,
00:03:56явно показывает мышление,
00:03:58но в 4.6 этого не было.
00:03:59Вы ясно видите,
00:04:00что модель 4.7 думает,
00:04:02так что это было исправлено.
00:04:04Кроме того,
00:04:04есть некоторые особенности,
00:04:06о которых нужно знать.
00:04:07GLM 4.7 не очень автономна..
00:04:09Я обнаружил это при тестировании.
00:04:10Как вы видите,
00:04:11в этой папке GLM уже есть папка с UI бенчмарком,
00:04:14в который нужно интегрировать приложение,
00:04:16но она её проигнорировала..
00:04:18Хотя это было ясно написано в контексте,
00:04:20она просто создала новое Next.js приложение на свой лад.
00:04:22Она его даже не инициализировала, просто начала писать код.
00:04:25Иногда она действительно глупит..
00:04:27Но после того,
00:04:27как я её поправил и направил в нужное русло,
00:04:30вот что создала Claude с точки зрения реализации.
00:04:32Как и подобает более продвинутой модели,
00:04:34она отлично работает с UI.
00:04:35Вот что создала GLM 4.7.
00:04:37Claude явно создала лучший UI,
00:04:38потому что,
00:04:39на мой взгляд,
00:04:40она все еще лучше в дизайне..
00:04:42За эту цену это приемлемо.
00:04:43Но когда я посмотрел на код и углубился в него,
00:04:46учитывая,
00:04:46что им сказали,
00:04:47что это должна быть готовая к production версия и что им нужно использовать mock данные,
00:04:51GLM фактически реализовала более логичную архитектуру,
00:04:54разместив все mock данные в одном файле..
00:04:56Затем,
00:04:56когда нам нужно будет это заменить,
00:04:58нам нужно только изменить этот файл,
00:05:00потому что импорты там подключены,
00:05:01в отличие от того,
00:05:02что сделала Claude,
00:05:03где в каждом компоненте свой импорт.
00:05:05Когда мы будем внедрять backend,
00:05:07нам придется менять все эти файлы один за другим.
00:05:09С точки зрения базовой архитектуры и качества кода GLM работала неплохо,
00:05:13и это меня удивило,
00:05:14потому что 4.6 в моих тестах была не так хороша.
00:05:17Предыдущий результат не был оправдан тем,
00:05:19насколько много мне пришлось её направлять и сколько ошибок она делала,
00:05:22но этот — определенно огромный скачок.
00:05:24Эти бенчмарки определенно оправданы моим тестированием.
00:05:27Я также посмотрел на несколько мелких деталей в коде,
00:05:30и GLM 4.7 — на самом деле хорошая модель.
00:05:32Учитывая эти неожиданные результаты,
00:05:35мы честно рекомендуем всем брать план за $29 в год.
00:05:38Если у вас уже есть план Claude за $20,
00:05:41это просто ничто в сравнении.
00:05:42При этом это всё еще не модель,
00:05:44которую вы бы использовали для полностью автономного кодирования.
00:05:46Хотя Claude здесь реально напортачила с архитектурой,
00:05:49она достаточно хороша,
00:05:50чтобы позже это исправить и улучшить.
00:05:52Но из-за небольших особенностей,
00:05:53которые есть у GLM,
00:05:54мы не думаем,
00:05:54что стоит полагаться на неё как на единственный инструмент.
00:05:57На этом мы приходим к концу видео.
00:05:58Если вы хотите поддержать канал и помочь нам продолжать делать такие видео,
00:06:02вы можете сделать это,
00:06:03нажав кнопку Super Thanks ниже.
00:06:05Как всегда,
00:06:05спасибо за просмотр,
00:06:06и до встречи в следующем видео.

Key Takeaway

GLM 4.7 — это потрясающе дешёвая ($29/год) и способная модель для разработки ПО, которая конкурирует с лучшими моделями на рынке, но остаётся не полностью автономной и требует некоторого контроля при использовании.

Highlights

GLM 4.7 стоит всего $29 в год и показывает результаты на уровне Sonnet 4.5 с 73% на SWE bench — это беспрецедентная цена для такого качества

Модель улучшена через post-training, оптимизирована под Claude Code и превосходит GPT-5 на бенчмарках кодирования

В GLM 4.7 добавлены новые MCP серверы инструменты, которые работают с одним API ключом

GLM 4.7 значительно дешевле Claude: за $30 вы получаете 2400 запросов в 5-часовом окне против 800 у Claude за $200

Модель теперь генерирует процесс мышления в Claude Code (в отличие от 4.6), что улучшает качество решений

GLM 4.7 реализовала более логичную архитектуру с mock данными в едином файле, облегчив будущую интеграцию с backend

При отличном соотношении цены и качества GLM всё ещё не полностью автономна и требует направления при некоторых задачах

Timeline

Введение и контекст выпуска GLM 4.7

Авторы обсуждают выпуск GLM 4.7 компанией ZAI по цене $29 в год, отмечая её достижение 73% на бенчмарке SWE bench наравне с Sonnet 4.5. Указывается, что компания провела прямую Q&A на Reddit — необычный шаг для китайской лаборатории ИИ, вероятно, в связи с выходом на западный рынок. Авторы представляют свой канал 'AI Labs' и серию 'Debunked', которая тестирует ИИ инструменты без маркетингового шума. Они обещают честный анализ того, что GLM 4.7 действительно может делать на практике.

Технические улучшения и оптимизация модели

GLM 4.7 улучшена за счёт post-training без изменения архитектуры и оптимизирована под Claude Code, который является приоритетным фреймворком разработчиков. Модель опережает множество топовых моделей, включая GPT-5, особенно на бенчмарках кодирования. В код-планы добавлены новые MCP серверные инструменты, которые работают как отдельные MCP серверы и требуют только API ключ для интеграции. Авторы отмечают, что лимиты использования 4.7 практически не отличаются от версии 4.6, но указывают на существенные разницы в ценах: за $3 на GLM вы получаете 120 запросов, тогда как базовый план Claude Code дает только 10-40 запросов.

Анализ ценообразования и сравнение с конкурентами

Детальное сравнение цен показывает огромное преимущество GLM 4.7: на плане за $200 Claude предоставляет 800 запросов за 5 часов, тогда как за $30 GLM дает 2400 запросов. Годовой план делает GLM ещё выгоднее экономически. Авторы обсуждают бенчмарк 'последний экзамен человечества' как один из ненасыщенных и сложных тестов, на которых новые модели часто получают низкие баллы. Представлен промпт для тестирования интерфейса на основе логики дизайна, а не архитектуры, что позволит оценить творческие способности модели при создании UI различных компаний.

Тестирование UI дизайна: Sonnet 4.5 против GLM 4.7

Авторы подписались на план MAX и интегрировали его с Claude Code через settings.json, позволяя менять глобальные или локальные настройки проекта. Sonnet 4.5 создала приличный UI с ванильным JavaScript, сосредоточив внимание на дизайне без излишней архитектуры. GLM 4.7 создала аналогичный UI, но допустила ошибку с неправильной длиной элементов, из-за чего артефакты немного разваливались; кроме того, модель использовала эмодзи, которые нарушили язык дизайна, в отличие от Sonnet. Авторы отмечают, что подготовили Next.js проект с инициализированным контекстом и компонентами ShadCN с Framer Motion, что важно для анализа результатов качества UI.

Скорость генерации кода и процесс мышления в 4.7

Основная проблема GLM 4.6 была в крайне медленной генерации кода, и этот недостаток не решен в 4.7 — модель по-прежнему работает медленно. Однако есть существенное улучшение: в 4.6 модель практически не думала и не генерировала процесс мышления в Claude Code, тогда как 4.7 явно показывает процесс размышления через подробную запись. Это улучшение указывает на то, что разработчики серьёзно отнеслись к развитию когнитивных способностей модели. Авторы отмечают, что GLM 4.7 не очень автономна: например, при наличии папки с UI бенчмарком, которую нужно было интегрировать, модель её проигнорировала и создала новое приложение на свой лад, не инициализировав даже проект правильно.

Сравнение архитектуры кода: Claude против GLM 4.7

После направления GLM в нужное русло авторы сравнили реализацию UI между Claude и GLM 4.7. Claude создала лучший визуальный дизайн благодаря своим навыкам в дизайне, однако при углублённом анализе кода GLM 4.7 реализовала более логичную и готовую к production архитектуру. Специально, GLM поместила все mock данные в один файл, что позволяет легко заменить их при интеграции с backend, тогда как Claude разместила импорты в каждом компоненте отдельно, что потребует редактирования множества файлов при переходе на реальный backend. Авторы заключают, что архитектура GLM была неожиданно хорошей, что сильно контрастирует с версией 4.6, где модель допускала много ошибок и требовала постоянного направления.

Итоговые выводы и рекомендации

Авторы честно рекомендуют всем купить годовой план GLM за $29, так как это ничто в сравнении с планом Claude за $20 при значительно лучшем соотношении цены и качества. Однако они подчеркивают, что GLM 4.7 всё ещё не является моделью для полностью автономного кодирования — хотя она может исправить и улучшить ошибки, допущенные более продвинутыми моделями, небольшие особенности в её поведении говорят о том, что полагаться на неё как на единственный инструмент не стоит. Завершая видео, авторы благодарят зрителей за просмотр и предлагают поддержать канал через кнопку Super Thanks для продолжения создания подобного высокого контента.

Community Posts

View all posts