Caveman Claude Code — это новая мета (научное обоснование)

CChase AI
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00Заставить облачный код общаться как пещерный человек может не только сэкономить токены.
00:00:04Это также может реально повысить производительность. На первый взгляд,
00:00:07это звучит как полный абсурд. У нас есть GitHub-репозиторий под названием caveman.
00:00:12Он набрал 5000 звезд за 72 часа.
00:00:15И все, что он делает — это заставляет Cloud Code говорить как неандерталец.
00:00:19Он вырезает всю «воду». Идея в том, что делая ответы более лаконичными,
00:00:24мы экономим кучу токенов в процессе,
00:00:27но внутри этого репозитория спрятана ссылка на научную работу, вышедшую всего
00:00:31несколько недель назад,
00:00:31которая говорит нам: если мы заставим большие языковые модели быть более краткими,
00:00:36мы не только сэкономим токены, но и сможем значительно улучшить их работу.
00:00:40Так что сегодня я разберу весь этот навык «пещерного человека».
00:00:42Я объясню, что это дает на самом деле, потому что цифры в репозитории
00:00:46немного вводят в заблуждение, и мы обсудим ту статью, чтобы вы
00:00:50понимали, что это значит лично для вас. Итак, это caveman,
00:00:54наш репозиторий в стиле «зачем много слов, когда мало слов справляться».
00:00:58Итак, что же он делает? Все довольно просто:
00:01:02вырезает лишние слова из Cloud Code. Теперь он говорит как дикарь.
00:01:07Там приведены примеры «до» и «после», показана разница в токенах и даже
00:01:11есть полный список бенчмарков с задачами, которые давали Cloud Code:
00:01:15объясни баг ререндера в React, обычные токены,
00:01:19токены «пещерного человека» и объем экономии.
00:01:21Цифры, представленные в этом репозитории, просто безумные.
00:01:23Они утверждают, что с помощью этого навыка
00:01:26мы сократим количество выходных токенов на 75%, сохраняя при этом полную
00:01:30техническую точность.
00:01:31Этот режим не меняет то, как Cloud Code рассуждает «под капотом».
00:01:35Он не меняет сам процесс генерации кода. Ничего из этого не затрагивается.
00:01:38Меняется только вывод. То, что вы видите в качестве ответа.
00:01:41Также в комплекте идет инструмент, который сжимает ваши файлы памяти.
00:01:45Представьте перевод claud.md на язык пещерного человека.
00:01:47И это должно сокращать наши входные токены на 45% в каждой сессии.
00:01:52Давайте проясним: вы не сокращаете 75% всех выходных токенов в целом
00:01:57и 45% всех входных токенов. Это абсолютная неправда.
00:02:01Даже если мы видим надписи вроде: «Эй,
00:02:03это экономит 87% токенов на объяснении бага ререндера в React».
00:02:07Текст, который вы получаете от Cloud Code, сам ответ,
00:02:11составляет лишь малую часть от общего объема выходных токенов,
00:02:15точно так же, как файлы памяти,
00:02:17вроде claud.md — это лишь малая часть общего ввода.
00:02:21Так что давайте четко понимать, что это дает нам в масштабе токенов.
00:02:25Вы не экономите 80% от общего числа токенов. Чтобы было понятнее,
00:02:28давайте разберем среднюю сессию Cloud Code на 100 000 токенов.
00:02:32Я понимаю, что каждая сессия индивидуальна, но просто проследите за мыслью.
00:02:36У нас есть сессия на 100 000 токенов, и она делится на две части.
00:02:40Ввод, который составляет львиную долю.
00:02:42Это 75 000 токенов. И вывод — 25%.
00:02:46Caveman утверждает, что сократит вывод на 75%.
00:02:51Это не так. Если мы посмотрим на вывод, он состоит из трех частей, верно?
00:02:56Часть занимают вызовы инструментов (tool calls), часть — блоки кода,
00:02:59то есть сама генерация кода.
00:03:02И затем обычные текстовые ответы. Вот этот ответ,
00:03:06внутренний текстовый ответ — это то, что корректирует Caveman.
00:03:10Именно его он сокращает. Он может урезать 75% от этой части. Знаете,
00:03:13если мы глянем сюда, то увидим: окей,
00:03:16обычно текст занимает 6000 токенов. С «пещерным человеком»
00:03:20мы экономим 4000 токенов. Итого получаем снижение на 4%. Это все равно очень круто.
00:03:25Если мы экономим 4% от общего числа токенов в течение недели,
00:03:29это определенно накапливается,
00:03:30особенно сейчас, когда мы все так внимательно следим за лимитами.
00:03:33Но поймите: это не 87%. Это 70% или
00:03:3860% от одной части, одной доли всей сессии.
00:03:43Более того,
00:03:44если взглянуть на ввод и заявления о 45% экономии на сжатии,
00:03:49опять же — не совсем так.
00:03:50Речь идет о системном промпте и только об определенных его частях.
00:03:54В сумме мы экономим, что... может, тысячу токенов,
00:03:58может, две тысячи. И это на протяжении всей сессии.
00:04:03Если я сэкономлю 5000 токенов, 5% сессии — это отлично, полезная штука,
00:04:07но это не те заоблачные цифры. Так что учитывайте это:
00:04:13это игра на малых приростах. Это не изменит всё в корне.
00:04:15Вы не сможете перейти с плана «5x max» на «20x max»
00:04:19просто потому, что мы якобы экономим 75%. Нет, нет, нет.
00:04:22Но здесь все равно много пользы, и ее можно извлечь еще больше.
00:04:25Если мы взглянем на исследование, оно тут немного спрятано.
00:04:29Ему посвящен всего один небольшой раздел,
00:04:31но это работа под названием «Ограничения краткости,
00:04:34обратные иерархии производительности в языковых моделях».
00:04:36Она вышла в начале марта этого года.
00:04:38Я оставлю ссылку на исследование в описании, если захотите изучить,
00:04:41но давайте вкратце обсудим его, потому что это очень интересно.
00:04:45Ведь есть идея и ожидание: чем больше модель,
00:04:49тем она всегда лучше маленькой. Что ж,
00:04:53не совсем так, согласно этому исследованию.
00:04:56В этой работе оценили 31 модель на примере 1500
00:05:01задач,
00:05:02и выявили механизм «спонтанного многословия, зависящего от масштаба»,
00:05:07которое вносит ошибки через излишнюю детализацию. Что это значит?
00:05:11Это значит, что почти в 8% случаев из этих 1500 задач и
00:05:1631 модели, более крупные языковые модели,
00:05:19те, у которых больше параметров, уступали маленьким на 28
00:05:24процентных пунктов, несмотря на то, что параметров у них иногда было в 100 раз больше.
00:05:28Были сценарии — опять же, это все на моделях с открытыми весами —
00:05:32где модель на 2 миллиарда параметров обходила модель
00:05:37на 400 миллиардов. Это случалось неоднократно. Это безумие.
00:05:41Почему так? Ну,
00:05:43они полагают, что причина в том, что эти большие
00:05:49языковые модели слишком много болтают.
00:05:51Они настолько многословны, что буквально загоняют себя
00:05:55в тупик и из-за этого дают неверный ответ. И в исследовании
00:05:58выяснили: если заставить большие модели давать краткие,
00:06:02«пещерные» ответы, точность повышается на 26 процентных пунктов,
00:06:07а разрыв в производительности сокращается на две трети.
00:06:09Во многих случаях, принуждая большие языковые модели быть лаконичнее,
00:06:14по-спартански, это полностью меняло динамику: если раньше
00:06:18они проигрывали маленьким моделям, то теперь начинали их побеждать.
00:06:21Это довольно дико, особенно в контексте этого репозитория. Конечно,
00:06:26речь об открытых моделях. Это не Opus 4.6
00:06:29и не Codex 5.4.
00:06:30Ведут ли себя топовые закрытые модели точно так же?
00:06:34Мы не знаем наверняка,
00:06:36но если вы следите за подобными статьями, то понимаете: обычно то,
00:06:40что находят здесь, в той или иной степени повторяется и у флагманов.
00:06:44Может, не так экстремально, но зерно истины там точно есть.
00:06:47В остальной части статьи подробно описано, как проводились тесты,
00:06:51как отделяли корреляцию от причинности и почему это считают проблемой. Как я уже говорил,
00:06:55они предполагают, что большие модели генерируют излишне подробные ответы,
00:06:57которые скрывают верные рассуждения. Этот феномен
00:07:02они назвали «передумыванием» (overthinking).
00:07:06Модель просто пытается выдать слишком много всего.
00:07:07Вместо того чтобы просто дать ответ и не мешать самой себе,
00:07:10она буквально «заговаривает» себя до ошибки.
00:07:13Они прямо заявляют: выученная склонность к обстоятельности становится
00:07:17контрпродуктивной, вызывая накопление ошибок.
00:07:21Ограничения краткости сильно помогают большим моделям, при этом
00:07:25почти не влияя на маленькие. И очевидный вопрос: почему?
00:07:28Почему у больших моделей вообще возникает такая проблема?
00:07:31Они указывают на обучение с подкреплением (Reinforcement Learning).
00:07:34Когда обучают новую модель —
00:07:36представьте, что сейчас тренируют Opus 5.0.
00:07:40Часть процесса — это обучение с подкреплением.
00:07:42Я не знаю, делает ли это конкретно Anthropic,
00:07:44но так обучается большинство моделей.
00:07:45По сути, берут новую модель и приглашают человека оценивать её
00:07:50ответы. Ему показывают несколько вариантов, и он говорит:
00:07:52«Этот мне нравится больше». И в исследовании сказано,
00:07:55что люди склонны выбирать более многословные и детальные ответы.
00:08:00И из-за этого
00:08:01большие модели фактически приучаются быть болтливыми,
00:08:05а не лаконичными или даже правильными в некоторых случаях.
00:08:08Главный вывод здесь такой: ограничения краткости полностью перевернули
00:08:12иерархию производительности. Там, где они раньше проигрывали,
00:08:14теперь они побеждали — просто по команде «будь короче».
00:08:18Они не меняли логику мышления, не меняли ничего внутри.
00:08:20Они просто сказали: «будь пещерным человеком». Они не использовали этот GitHub,
00:08:25но суть та же.
00:08:28Вот почему я считаю это интересным,
00:08:31а не просто очередным мемом. Знаете,
00:08:32помимо того, что здесь есть плюсы в плане токенов,
00:08:37экономия 5% — это не шутки,
00:08:39особенно если у вас не безлимитный план.
00:08:41Но если есть вероятность, что мы получаем лучшие ответы
00:08:44благодаря этому, особенно на прямые вопросы...
00:08:47Потому что если углубиться в исследование,
00:08:49там разбирается, с какими именно вопросами возникали проблемы
00:08:53в этой динамике. Это любопытно, очень любопытно,
00:08:56поэтому я и решил, что на это стоит взглянуть.
00:08:58И пользоваться этим супер просто. Это просто набор навыков.
00:09:02Установка занимает буквально одну строку, а потом просто запуск.
00:09:06Мы либо вызываем его через /caveman, либо просто говорим:
00:09:09«говори как дикарь», «режим пещерного человека» или «поменьше токенов». Там даже есть уровни.
00:09:13Можно выбрать «ультра-пещерный», типа: «я только что вышел из океана»,
00:09:17«едва стою на ногах». И есть облегченные варианты.
00:09:21Так что можно настраивать разную степень краткости.
00:09:24И это не работает под копирку.
00:09:25Например, сообщения об ошибках цитируются точно. И снова:
00:09:29все, что касается кода, генерации,
00:09:31все внутренние процессы остаются прежними. Мы не меняем само «мышление».
00:09:35В общем, я думаю, это стоит попробовать. Это всего один скилл.
00:09:37Он экономит токены, и у него нет реальных минусов. А судя по статье,
00:09:42есть даже потенциальный плюс в качестве ответов.
00:09:45И если вам не нравится вся эта тема с «пещерными людьми»,
00:09:48то это как минимум повод добавить строчку
00:09:52в свой файл конфигурации: «будь краток, без воды»,
00:09:56«сразу к делу», «используй меньше слов».
00:09:59Потому что в этом явно есть преимущество — не только в токенах,
00:10:03но, как мы видели, возможно, и в самих ответах.
00:10:06На этом я сегодня и закончу.
00:10:07То, что на первый взгляд казалось просто шуточным проектом,
00:10:11«пещерный Клод» на самом деле имеет под собой вес и определенную
00:10:15научную базу, обосновывающую «почему»,
00:10:17что делает его внедрение вполне оправданным.
00:10:21Как всегда, делитесь своим мнением в комментариях,
00:10:25и обязательно загляните в Chase AI.
00:10:26Подписывайтесь на Plus, если хотите пройти мой мастер-класс по Claude Code,
00:10:29в ближайшие пару дней там выйдет еще больше обновлений.
00:10:33Ну а на сегодня всё, до встречи!

Key Takeaway

Режим Caveman сокращает объем текстовых ответов на 75% и повышает производительность больших моделей на 26% за счет устранения логических ошибок, вызванных избыточным многословием и 'передумыванием'.

Highlights

Репозиторий Caveman Claude Code набрал 5000 звезд за 72 часа, предлагая режим общения ИИ в стиле неандертальца для экономии токенов.

Принудительное ограничение краткости (brevity constraints) повышает точность ответов больших языковых моделей на 26 процентных пунктов.

Феномен «overthinking» в моделях с большим количеством параметров приводит к накоплению ошибок из-за излишней детализации и многословия.

В 8% протестированных задач модели на 2 миллиарда параметров превосходят модели на 400 миллиардов параметров из-за отсутствия спонтанного многословия.

Реальная экономия токенов в средней сессии на 100 000 единиц составляет около 5% за счет сокращения только текстовой части вывода и системных файлов памяти.

Обучение с подкреплением (RLHF) приучает модели к болтливости, так как люди-оценщики подсознательно предпочитают более длинные и детальные ответы.

Timeline

Механика и реальные цифры экономии Caveman

  • Инструмент Caveman вырезает лишние слова из ответов Claude Code без изменения логики рассуждений или процесса генерации кода.
  • Заявленное сокращение выходных токенов на 75% и входных на 45% относится только к конкретным текстовым блокам, а не ко всей сессии.
  • Техническая точность сохраняется полностью, так как изменения касаются только стиля подачи информации.

Идея лаконичности реализована через специальный навык, который заставляет ИИ говорить как дикарь. В репозитории представлены бенчмарки, например, объяснение бага в React, где количество токенов снижается на 87%. Важно понимать, что это не меняет 'мышление' модели под капотом, а лишь фильтрует финальный вывод. Сжатие файлов памяти, таких как claud.md, дополнительно оптимизирует контекстное окно.

Расчет эффективности в масштабе сессии

  • В сессии на 100 000 токенов реальная экономия составляет около 4-5% от общего объема.
  • Основная часть вывода состоит из вызовов инструментов и блоков кода, которые Caveman не сокращает.
  • Экономия в 5000 токенов за сессию помогает эффективнее использовать лимиты при интенсивной работе.

Математический разбор типичной сессии показывает, что 75% объема — это ввод, а 25% — вывод. Внутри вывода текст занимает лишь малую долю по сравнению с кодом и системными вызовами. Несмотря на отсутствие 'космических' цифр в 80%, накопленная за неделю экономия остается значимым преимуществом для пользователей с ограниченными планами. Это игра на малых приростах, которая не меняет лимиты в разы, но делает работу чище.

Научное обоснование превосходства краткости

  • Исследование 31 модели на 1500 задачах подтверждает наличие обратной иерархии производительности из-за многословия.
  • Большие модели часто 'заговаривают' себя до ошибок, в то время как маленькие модели избегают этого за счет краткости.
  • Ограничение длины ответа сокращает разрыв в производительности между гигантскими и компактными моделями на две трети.

Научная работа от марта 2026 года доказывает, что спонтанное многословие вносит ошибки через излишнюю детализацию. Зафиксированы случаи, когда модель на 2B параметров обходила модель на 400B именно потому, что последняя уходила в дебри рассуждений. Принудительный 'режим пещерного человека' возвращает большим моделям лидерство, убирая феномен передумывания (overthinking). Это доказывает, что краткость — не просто способ экономии, а инструмент повышения качества работы ИИ.

Причины болтливости ИИ и практическое применение

  • Склонность к многословию является побочным эффектом обучения с подкреплением на основе человеческих оценок.
  • Caveman поддерживает разные уровни краткости от облегченного до 'ультра-пещерного'.
  • Простая инструкция 'будь краток и без воды' в конфигурации способна улучшить логику ответов.

Проблема кроется в процессе обучения: люди склонны оценивать длинные и детальные ответы как более качественные, даже если они содержат логические изъяны. Это заставляет модели стремиться к объему в ущерб истине. Внедрение навыка Caveman происходит одной строкой кода и позволяет гибко настраивать стиль общения. Даже без использования конкретного репозитория, добавление требований к лаконичности в системный промпт оправдано научно доказанным улучшением точности.

Community Posts

View all posts