GLM 4.7 - БЕЗУМНАЯ модель для разработки ПО...

Русскийالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português 中文

컴퓨터/소프트웨어창업/스타트업재택/원격 근무AI/미래기술

Transcript

00:00:00Ребята из ZAI только что выпустили GLM 4.7,

00:00:03и за $29 в год — это смехотворно дешево для модели,

00:00:06которая,

00:00:07по их словам,

00:00:08набирает 73% на SWE bench,

00:00:10наравне с Sonnet 4.5.

00:00:11Это не случайность.

00:00:12Они выходят на биржу и должны показать успехи на западном рынке..

00:00:15Они даже провели прямую Q&A на Reddit,

00:00:17чего я никогда не видел от китайской лаборатории ИИ.

00:00:19Но у 4.6 были серьезные проблемы.

00:00:21Действительно ли 4.7 их решила?.

00:00:23Привет всем,

00:00:23если вы здесь впервые — это AI Labs,

00:00:25и добро пожаловать в новый выпуск Debunked,

00:00:27серии,

00:00:28где мы берём инструменты и модели ИИ,

00:00:30избавляемся от маркетингового шума и показываем,

00:00:32что они действительно могут делать при честном тестировании.

00:00:35Новая модель улучшена в основном за счет post-training,

00:00:38а не изменения архитектуры.

00:00:40Она оптимизирована под Claude code,

00:00:42и команда ZAI явно назвала это своим приоритетным фреймворком.

00:00:46На данный момент она опережает много топовых моделей,

00:00:49включая GPT-5,

00:00:50особенно на бенчмарках кодирования.

00:00:52Во всех их кодовых планах они добавили новые MCP инструменты,

00:00:56которые не интегрированы напрямую.

00:00:58Это отдельные MCP серверы.

00:01:00На данный момент они перечислили три..

00:01:02И чтобы все они работали, вам нужен только API ключ.

00:01:04Вот почему они включены в план, но отдельно от модели..

00:01:07Что касается лимитов использования,

00:01:09они практически не отличаются от версии 4.6.

00:01:11Но если вы не помните,

00:01:12какие они были раньше,

00:01:13я составил подробный отчет.

00:01:15Забавно,

00:01:15что я сначала пытался создать его с помощью Gemini 3,

00:01:18и по какой-то причине он не смог дать мне нормальное сравнение планов.

00:01:22Я вернулся к Claude, и он хорошо провел исследование.

00:01:24Короче говоря,

00:01:25в базовом плане вы получаете 10-40 запросов в Claude code,

00:01:29а в GLM coding — 120 запросов всего за $3,

00:01:33это огромная разница.

00:01:34Разница еще больше на старших уровнях: план за $200 дает 800 запросов в 5-часовом окне в Claude,

00:01:42а за $30 вы получаете 2400.

00:01:44Все эти тарифы со скидкой в первый месяц, затем удваиваются.

00:01:48Но если вы выберете годовой план, это намного экономичнее.

00:01:50Еще один значимый бенчмарк — последний экзамен человечества.

00:01:53Для тех,

00:01:54кто не знает,

00:01:54это один из ненасыщенных бенчмарков,

00:01:56и большинство новых моделей все еще набирают на нем низкие баллы,

00:01:59потому что это действительно сложно.

00:02:00Чтобы протестировать интерфейс,

00:02:02у нас есть вот такой промпт,

00:02:03который не сосредоточен на архитектуре.

00:02:05Он в основном сосредоточен на логике дизайна,

00:02:08которую должна реализовать модель,

00:02:10и предлагает несколько вариантов.

00:02:11Затем мы можем посмотреть,

00:02:12основываясь на компании,

00:02:13которую я предлагаю — в этом случае это платформа проверки кода на основе ИИ — что она создает.

00:02:18Мы также подписались на план MAX,

00:02:20и есть два способа подключить его к Claude code.

00:02:22В обоих случаях вы изменяете settings.json,

00:02:25но один находится в корне вашего проекта и изменяет глобальные настройки.

00:02:29Если вы сделаете это внутри проекта,

00:02:31то это изменит настройки только для этого проекта.

00:02:33Мы сделали это, чтобы сравнить с Sonnet 4.5.

00:02:36Вот что получилось у Sonnet 4.5.

00:02:38Промпт довольно хороший,

00:02:39и мы используем его,

00:02:40чтобы определить,

00:02:41какие из этих моделей строят UI и как творчески они это делают.

00:02:45Это простой ванильный JS,

00:02:46поэтому мы не смотрим на архитектуру,

00:02:48только на дизайн.

00:02:49Вот что создала GLM 4.7.

00:02:52С точки зрения дизайна хорошо,

00:02:53но здесь она допустила ошибку — не учла длину,

00:02:56из-за чего артефакты немного разваливаются.

00:02:59Помимо этого,

00:03:00дизайн хороший,

00:03:00но мне совсем не нравятся эти эмодзи.

00:03:02Sonnet не использовала эмодзи вообще,

00:03:04что хорошо и соответствует языку дизайна.

00:03:06Чтобы протестировать обе модели,

00:03:08у меня есть готовый Next.js проект с инициализированным контекстом,

00:03:12который должен создать масштабируемый и production-ready UI.

00:03:15Это важно,

00:03:16потому что когда я буду анализировать,

00:03:18почему GLM неожиданно работала лучше,

00:03:20мы вернемся к этому моменту.

00:03:22Framer Motion и компоненты ShadCN уже предустановлены для создания UI.

00:03:27Их попросили создать главную страницу браузера для платформы потокового вещания,

00:03:31похожей на Netflix.

00:03:32Им указано,

00:03:32что именно создавать и что должно быть на странице.

00:03:35Если говорить об удобстве использования GLM с Claude code,

00:03:39одна проблема GLM 4.6 была в том,

00:03:40что она работала крайне медленно при генерации кода.

00:03:43Здесь, по моему опыту, эта проблема не решена.

00:03:46Она все еще работает крайне медленно..

00:03:48Но есть одно изменение.

00:03:49В GLM 4.6 модель по сути не думала,

00:03:51то есть не генерировала процесс мышления в Claude code..

00:03:54Подробная запись,

00:03:55которую вы видите,

00:03:56явно показывает мышление,

00:03:58но в 4.6 этого не было.

00:03:59Вы ясно видите,

00:04:00что модель 4.7 думает,

00:04:02так что это было исправлено.

00:04:04Кроме того,

00:04:04есть некоторые особенности,

00:04:06о которых нужно знать.

00:04:07GLM 4.7 не очень автономна..

00:04:09Я обнаружил это при тестировании.

00:04:10Как вы видите,

00:04:11в этой папке GLM уже есть папка с UI бенчмарком,

00:04:14в который нужно интегрировать приложение,

00:04:16но она её проигнорировала..

00:04:18Хотя это было ясно написано в контексте,

00:04:20она просто создала новое Next.js приложение на свой лад.

00:04:22Она его даже не инициализировала, просто начала писать код.

00:04:25Иногда она действительно глупит..

00:04:27Но после того,

00:04:27как я её поправил и направил в нужное русло,

00:04:30вот что создала Claude с точки зрения реализации.

00:04:32Как и подобает более продвинутой модели,

00:04:34она отлично работает с UI.

00:04:35Вот что создала GLM 4.7.

00:04:37Claude явно создала лучший UI,

00:04:38потому что,

00:04:39на мой взгляд,

00:04:40она все еще лучше в дизайне..

00:04:42За эту цену это приемлемо.

00:04:43Но когда я посмотрел на код и углубился в него,

00:04:46учитывая,

00:04:46что им сказали,

00:04:47что это должна быть готовая к production версия и что им нужно использовать mock данные,

00:04:51GLM фактически реализовала более логичную архитектуру,

00:04:54разместив все mock данные в одном файле..

00:04:56Затем,

00:04:56когда нам нужно будет это заменить,

00:04:58нам нужно только изменить этот файл,

00:05:00потому что импорты там подключены,

00:05:01в отличие от того,

00:05:02что сделала Claude,

00:05:03где в каждом компоненте свой импорт.

00:05:05Когда мы будем внедрять backend,

00:05:07нам придется менять все эти файлы один за другим.

00:05:09С точки зрения базовой архитектуры и качества кода GLM работала неплохо,

00:05:13и это меня удивило,

00:05:14потому что 4.6 в моих тестах была не так хороша.

00:05:17Предыдущий результат не был оправдан тем,

00:05:19насколько много мне пришлось её направлять и сколько ошибок она делала,

00:05:22но этот — определенно огромный скачок.

00:05:24Эти бенчмарки определенно оправданы моим тестированием.

00:05:27Я также посмотрел на несколько мелких деталей в коде,

00:05:30и GLM 4.7 — на самом деле хорошая модель.

00:05:32Учитывая эти неожиданные результаты,

00:05:35мы честно рекомендуем всем брать план за $29 в год.

00:05:38Если у вас уже есть план Claude за $20,

00:05:41это просто ничто в сравнении.

00:05:42При этом это всё еще не модель,

00:05:44которую вы бы использовали для полностью автономного кодирования.

00:05:46Хотя Claude здесь реально напортачила с архитектурой,

00:05:49она достаточно хороша,

00:05:50чтобы позже это исправить и улучшить.

00:05:52Но из-за небольших особенностей,

00:05:53которые есть у GLM,

00:05:54мы не думаем,

00:05:54что стоит полагаться на неё как на единственный инструмент.

00:05:57На этом мы приходим к концу видео.

00:05:58Если вы хотите поддержать канал и помочь нам продолжать делать такие видео,

00:06:02вы можете сделать это,

00:06:03нажав кнопку Super Thanks ниже.

00:06:05Как всегда,

00:06:05спасибо за просмотр,

00:06:06и до встречи в следующем видео.

Key Takeaway

GLM 4.7 — это потрясающе дешёвая ($29/год) и способная модель для разработки ПО, которая конкурирует с лучшими моделями на рынке, но остаётся не полностью автономной и требует некоторого контроля при использовании.

Highlights

GLM 4.7 стоит всего $29 в год и показывает результаты на уровне Sonnet 4.5 с 73% на SWE bench — это беспрецедентная цена для такого качества

Модель улучшена через post-training, оптимизирована под Claude Code и превосходит GPT-5 на бенчмарках кодирования

В GLM 4.7 добавлены новые MCP серверы инструменты, которые работают с одним API ключом

GLM 4.7 значительно дешевле Claude: за $30 вы получаете 2400 запросов в 5-часовом окне против 800 у Claude за $200

Модель теперь генерирует процесс мышления в Claude Code (в отличие от 4.6), что улучшает качество решений

GLM 4.7 реализовала более логичную архитектуру с mock данными в едином файле, облегчив будущую интеграцию с backend

При отличном соотношении цены и качества GLM всё ещё не полностью автономна и требует направления при некоторых задачах

Timeline

Введение и контекст выпуска GLM 4.7

Авторы обсуждают выпуск GLM 4.7 компанией ZAI по цене $29 в год, отмечая её достижение 73% на бенчмарке SWE bench наравне с Sonnet 4.5. Указывается, что компания провела прямую Q&A на Reddit — необычный шаг для китайской лаборатории ИИ, вероятно, в связи с выходом на западный рынок. Авторы представляют свой канал 'AI Labs' и серию 'Debunked', которая тестирует ИИ инструменты без маркетингового шума. Они обещают честный анализ того, что GLM 4.7 действительно может делать на практике.

Технические улучшения и оптимизация модели

GLM 4.7 улучшена за счёт post-training без изменения архитектуры и оптимизирована под Claude Code, который является приоритетным фреймворком разработчиков. Модель опережает множество топовых моделей, включая GPT-5, особенно на бенчмарках кодирования. В код-планы добавлены новые MCP серверные инструменты, которые работают как отдельные MCP серверы и требуют только API ключ для интеграции. Авторы отмечают, что лимиты использования 4.7 практически не отличаются от версии 4.6, но указывают на существенные разницы в ценах: за $3 на GLM вы получаете 120 запросов, тогда как базовый план Claude Code дает только 10-40 запросов.

Анализ ценообразования и сравнение с конкурентами

Детальное сравнение цен показывает огромное преимущество GLM 4.7: на плане за $200 Claude предоставляет 800 запросов за 5 часов, тогда как за $30 GLM дает 2400 запросов. Годовой план делает GLM ещё выгоднее экономически. Авторы обсуждают бенчмарк 'последний экзамен человечества' как один из ненасыщенных и сложных тестов, на которых новые модели часто получают низкие баллы. Представлен промпт для тестирования интерфейса на основе логики дизайна, а не архитектуры, что позволит оценить творческие способности модели при создании UI различных компаний.

Тестирование UI дизайна: Sonnet 4.5 против GLM 4.7

Авторы подписались на план MAX и интегрировали его с Claude Code через settings.json, позволяя менять глобальные или локальные настройки проекта. Sonnet 4.5 создала приличный UI с ванильным JavaScript, сосредоточив внимание на дизайне без излишней архитектуры. GLM 4.7 создала аналогичный UI, но допустила ошибку с неправильной длиной элементов, из-за чего артефакты немного разваливались; кроме того, модель использовала эмодзи, которые нарушили язык дизайна, в отличие от Sonnet. Авторы отмечают, что подготовили Next.js проект с инициализированным контекстом и компонентами ShadCN с Framer Motion, что важно для анализа результатов качества UI.

Скорость генерации кода и процесс мышления в 4.7

Основная проблема GLM 4.6 была в крайне медленной генерации кода, и этот недостаток не решен в 4.7 — модель по-прежнему работает медленно. Однако есть существенное улучшение: в 4.6 модель практически не думала и не генерировала процесс мышления в Claude Code, тогда как 4.7 явно показывает процесс размышления через подробную запись. Это улучшение указывает на то, что разработчики серьёзно отнеслись к развитию когнитивных способностей модели. Авторы отмечают, что GLM 4.7 не очень автономна: например, при наличии папки с UI бенчмарком, которую нужно было интегрировать, модель её проигнорировала и создала новое приложение на свой лад, не инициализировав даже проект правильно.

Сравнение архитектуры кода: Claude против GLM 4.7

После направления GLM в нужное русло авторы сравнили реализацию UI между Claude и GLM 4.7. Claude создала лучший визуальный дизайн благодаря своим навыкам в дизайне, однако при углублённом анализе кода GLM 4.7 реализовала более логичную и готовую к production архитектуру. Специально, GLM поместила все mock данные в один файл, что позволяет легко заменить их при интеграции с backend, тогда как Claude разместила импорты в каждом компоненте отдельно, что потребует редактирования множества файлов при переходе на реальный backend. Авторы заключают, что архитектура GLM была неожиданно хорошей, что сильно контрастирует с версией 4.6, где модель допускала много ошибок и требовала постоянного направления.

Итоговые выводы и рекомендации

Авторы честно рекомендуют всем купить годовой план GLM за $29, так как это ничто в сравнении с планом Claude за $20 при значительно лучшем соотношении цены и качества. Однако они подчеркивают, что GLM 4.7 всё ещё не является моделью для полностью автономного кодирования — хотя она может исправить и улучшить ошибки, допущенные более продвинутыми моделями, небольшие особенности в её поведении говорят о том, что полагаться на неё как на единственный инструмент не стоит. Завершая видео, авторы благодарят зрителей за просмотр и предлагают поддержать канал через кнопку Super Thanks для продолжения создания подобного высокого контента.

Community Posts

Анализ теста кодинга GLM 4.7: Как получить производительность уровня Sonnet 4.5 за 29 долларов в год

makedream2026년 2월 9일6420

Write about this video