00:00:00Заставить облачный код общаться как пещерный человек может не только сэкономить токены.
00:00:04Это также может реально повысить производительность. На первый взгляд,
00:00:07это звучит как полный абсурд. У нас есть GitHub-репозиторий под названием caveman.
00:00:12Он набрал 5000 звезд за 72 часа.
00:00:15И все, что он делает — это заставляет Cloud Code говорить как неандерталец.
00:00:19Он вырезает всю «воду». Идея в том, что делая ответы более лаконичными,
00:00:24мы экономим кучу токенов в процессе,
00:00:27но внутри этого репозитория спрятана ссылка на научную работу, вышедшую всего
00:00:31несколько недель назад,
00:00:31которая говорит нам: если мы заставим большие языковые модели быть более краткими,
00:00:36мы не только сэкономим токены, но и сможем значительно улучшить их работу.
00:00:40Так что сегодня я разберу весь этот навык «пещерного человека».
00:00:42Я объясню, что это дает на самом деле, потому что цифры в репозитории
00:00:46немного вводят в заблуждение, и мы обсудим ту статью, чтобы вы
00:00:50понимали, что это значит лично для вас. Итак, это caveman,
00:00:54наш репозиторий в стиле «зачем много слов, когда мало слов справляться».
00:00:58Итак, что же он делает? Все довольно просто:
00:01:02вырезает лишние слова из Cloud Code. Теперь он говорит как дикарь.
00:01:07Там приведены примеры «до» и «после», показана разница в токенах и даже
00:01:11есть полный список бенчмарков с задачами, которые давали Cloud Code:
00:01:15объясни баг ререндера в React, обычные токены,
00:01:19токены «пещерного человека» и объем экономии.
00:01:21Цифры, представленные в этом репозитории, просто безумные.
00:01:23Они утверждают, что с помощью этого навыка
00:01:26мы сократим количество выходных токенов на 75%, сохраняя при этом полную
00:01:30техническую точность.
00:01:31Этот режим не меняет то, как Cloud Code рассуждает «под капотом».
00:01:35Он не меняет сам процесс генерации кода. Ничего из этого не затрагивается.
00:01:38Меняется только вывод. То, что вы видите в качестве ответа.
00:01:41Также в комплекте идет инструмент, который сжимает ваши файлы памяти.
00:01:45Представьте перевод claud.md на язык пещерного человека.
00:01:47И это должно сокращать наши входные токены на 45% в каждой сессии.
00:01:52Давайте проясним: вы не сокращаете 75% всех выходных токенов в целом
00:01:57и 45% всех входных токенов. Это абсолютная неправда.
00:02:01Даже если мы видим надписи вроде: «Эй,
00:02:03это экономит 87% токенов на объяснении бага ререндера в React».
00:02:07Текст, который вы получаете от Cloud Code, сам ответ,
00:02:11составляет лишь малую часть от общего объема выходных токенов,
00:02:15точно так же, как файлы памяти,
00:02:17вроде claud.md — это лишь малая часть общего ввода.
00:02:21Так что давайте четко понимать, что это дает нам в масштабе токенов.
00:02:25Вы не экономите 80% от общего числа токенов. Чтобы было понятнее,
00:02:28давайте разберем среднюю сессию Cloud Code на 100 000 токенов.
00:02:32Я понимаю, что каждая сессия индивидуальна, но просто проследите за мыслью.
00:02:36У нас есть сессия на 100 000 токенов, и она делится на две части.
00:02:40Ввод, который составляет львиную долю.
00:02:42Это 75 000 токенов. И вывод — 25%.
00:02:46Caveman утверждает, что сократит вывод на 75%.
00:02:51Это не так. Если мы посмотрим на вывод, он состоит из трех частей, верно?
00:02:56Часть занимают вызовы инструментов (tool calls), часть — блоки кода,
00:02:59то есть сама генерация кода.
00:03:02И затем обычные текстовые ответы. Вот этот ответ,
00:03:06внутренний текстовый ответ — это то, что корректирует Caveman.
00:03:10Именно его он сокращает. Он может урезать 75% от этой части. Знаете,
00:03:13если мы глянем сюда, то увидим: окей,
00:03:16обычно текст занимает 6000 токенов. С «пещерным человеком»
00:03:20мы экономим 4000 токенов. Итого получаем снижение на 4%. Это все равно очень круто.
00:03:25Если мы экономим 4% от общего числа токенов в течение недели,
00:03:29это определенно накапливается,
00:03:30особенно сейчас, когда мы все так внимательно следим за лимитами.
00:03:33Но поймите: это не 87%. Это 70% или
00:03:3860% от одной части, одной доли всей сессии.
00:03:43Более того,
00:03:44если взглянуть на ввод и заявления о 45% экономии на сжатии,
00:03:49опять же — не совсем так.
00:03:50Речь идет о системном промпте и только об определенных его частях.
00:03:54В сумме мы экономим, что... может, тысячу токенов,
00:03:58может, две тысячи. И это на протяжении всей сессии.
00:04:03Если я сэкономлю 5000 токенов, 5% сессии — это отлично, полезная штука,
00:04:07но это не те заоблачные цифры. Так что учитывайте это:
00:04:13это игра на малых приростах. Это не изменит всё в корне.
00:04:15Вы не сможете перейти с плана «5x max» на «20x max»
00:04:19просто потому, что мы якобы экономим 75%. Нет, нет, нет.
00:04:22Но здесь все равно много пользы, и ее можно извлечь еще больше.
00:04:25Если мы взглянем на исследование, оно тут немного спрятано.
00:04:29Ему посвящен всего один небольшой раздел,
00:04:31но это работа под названием «Ограничения краткости,
00:04:34обратные иерархии производительности в языковых моделях».
00:04:36Она вышла в начале марта этого года.
00:04:38Я оставлю ссылку на исследование в описании, если захотите изучить,
00:04:41но давайте вкратце обсудим его, потому что это очень интересно.
00:04:45Ведь есть идея и ожидание: чем больше модель,
00:04:49тем она всегда лучше маленькой. Что ж,
00:04:53не совсем так, согласно этому исследованию.
00:04:56В этой работе оценили 31 модель на примере 1500
00:05:01задач,
00:05:02и выявили механизм «спонтанного многословия, зависящего от масштаба»,
00:05:07которое вносит ошибки через излишнюю детализацию. Что это значит?
00:05:11Это значит, что почти в 8% случаев из этих 1500 задач и
00:05:1631 модели, более крупные языковые модели,
00:05:19те, у которых больше параметров, уступали маленьким на 28
00:05:24процентных пунктов, несмотря на то, что параметров у них иногда было в 100 раз больше.
00:05:28Были сценарии — опять же, это все на моделях с открытыми весами —
00:05:32где модель на 2 миллиарда параметров обходила модель
00:05:37на 400 миллиардов. Это случалось неоднократно. Это безумие.
00:05:41Почему так? Ну,
00:05:43они полагают, что причина в том, что эти большие
00:05:49языковые модели слишком много болтают.
00:05:51Они настолько многословны, что буквально загоняют себя
00:05:55в тупик и из-за этого дают неверный ответ. И в исследовании
00:05:58выяснили: если заставить большие модели давать краткие,
00:06:02«пещерные» ответы, точность повышается на 26 процентных пунктов,
00:06:07а разрыв в производительности сокращается на две трети.
00:06:09Во многих случаях, принуждая большие языковые модели быть лаконичнее,
00:06:14по-спартански, это полностью меняло динамику: если раньше
00:06:18они проигрывали маленьким моделям, то теперь начинали их побеждать.
00:06:21Это довольно дико, особенно в контексте этого репозитория. Конечно,
00:06:26речь об открытых моделях. Это не Opus 4.6
00:06:29и не Codex 5.4.
00:06:30Ведут ли себя топовые закрытые модели точно так же?
00:06:34Мы не знаем наверняка,
00:06:36но если вы следите за подобными статьями, то понимаете: обычно то,
00:06:40что находят здесь, в той или иной степени повторяется и у флагманов.
00:06:44Может, не так экстремально, но зерно истины там точно есть.
00:06:47В остальной части статьи подробно описано, как проводились тесты,
00:06:51как отделяли корреляцию от причинности и почему это считают проблемой. Как я уже говорил,
00:06:55они предполагают, что большие модели генерируют излишне подробные ответы,
00:06:57которые скрывают верные рассуждения. Этот феномен
00:07:02они назвали «передумыванием» (overthinking).
00:07:06Модель просто пытается выдать слишком много всего.
00:07:07Вместо того чтобы просто дать ответ и не мешать самой себе,
00:07:10она буквально «заговаривает» себя до ошибки.
00:07:13Они прямо заявляют: выученная склонность к обстоятельности становится
00:07:17контрпродуктивной, вызывая накопление ошибок.
00:07:21Ограничения краткости сильно помогают большим моделям, при этом
00:07:25почти не влияя на маленькие. И очевидный вопрос: почему?
00:07:28Почему у больших моделей вообще возникает такая проблема?
00:07:31Они указывают на обучение с подкреплением (Reinforcement Learning).
00:07:34Когда обучают новую модель —
00:07:36представьте, что сейчас тренируют Opus 5.0.
00:07:40Часть процесса — это обучение с подкреплением.
00:07:42Я не знаю, делает ли это конкретно Anthropic,
00:07:44но так обучается большинство моделей.
00:07:45По сути, берут новую модель и приглашают человека оценивать её
00:07:50ответы. Ему показывают несколько вариантов, и он говорит:
00:07:52«Этот мне нравится больше». И в исследовании сказано,
00:07:55что люди склонны выбирать более многословные и детальные ответы.
00:08:00И из-за этого
00:08:01большие модели фактически приучаются быть болтливыми,
00:08:05а не лаконичными или даже правильными в некоторых случаях.
00:08:08Главный вывод здесь такой: ограничения краткости полностью перевернули
00:08:12иерархию производительности. Там, где они раньше проигрывали,
00:08:14теперь они побеждали — просто по команде «будь короче».
00:08:18Они не меняли логику мышления, не меняли ничего внутри.
00:08:20Они просто сказали: «будь пещерным человеком». Они не использовали этот GitHub,
00:08:25но суть та же.
00:08:28Вот почему я считаю это интересным,
00:08:31а не просто очередным мемом. Знаете,
00:08:32помимо того, что здесь есть плюсы в плане токенов,
00:08:37экономия 5% — это не шутки,
00:08:39особенно если у вас не безлимитный план.
00:08:41Но если есть вероятность, что мы получаем лучшие ответы
00:08:44благодаря этому, особенно на прямые вопросы...
00:08:47Потому что если углубиться в исследование,
00:08:49там разбирается, с какими именно вопросами возникали проблемы
00:08:53в этой динамике. Это любопытно, очень любопытно,
00:08:56поэтому я и решил, что на это стоит взглянуть.
00:08:58И пользоваться этим супер просто. Это просто набор навыков.
00:09:02Установка занимает буквально одну строку, а потом просто запуск.
00:09:06Мы либо вызываем его через /caveman, либо просто говорим:
00:09:09«говори как дикарь», «режим пещерного человека» или «поменьше токенов». Там даже есть уровни.
00:09:13Можно выбрать «ультра-пещерный», типа: «я только что вышел из океана»,
00:09:17«едва стою на ногах». И есть облегченные варианты.
00:09:21Так что можно настраивать разную степень краткости.
00:09:24И это не работает под копирку.
00:09:25Например, сообщения об ошибках цитируются точно. И снова:
00:09:29все, что касается кода, генерации,
00:09:31все внутренние процессы остаются прежними. Мы не меняем само «мышление».
00:09:35В общем, я думаю, это стоит попробовать. Это всего один скилл.
00:09:37Он экономит токены, и у него нет реальных минусов. А судя по статье,
00:09:42есть даже потенциальный плюс в качестве ответов.
00:09:45И если вам не нравится вся эта тема с «пещерными людьми»,
00:09:48то это как минимум повод добавить строчку
00:09:52в свой файл конфигурации: «будь краток, без воды»,
00:09:56«сразу к делу», «используй меньше слов».
00:09:59Потому что в этом явно есть преимущество — не только в токенах,
00:10:03но, как мы видели, возможно, и в самих ответах.
00:10:06На этом я сегодня и закончу.
00:10:07То, что на первый взгляд казалось просто шуточным проектом,
00:10:11«пещерный Клод» на самом деле имеет под собой вес и определенную
00:10:15научную базу, обосновывающую «почему»,
00:10:17что делает его внедрение вполне оправданным.
00:10:21Как всегда, делитесь своим мнением в комментариях,
00:10:25и обязательно загляните в Chase AI.
00:10:26Подписывайтесь на Plus, если хотите пройти мой мастер-класс по Claude Code,
00:10:29в ближайшие пару дней там выйдет еще больше обновлений.
00:10:33Ну а на сегодня всё, до встречи!