Этот навык Claude сократит ваши расходы на токены ВДВОЕ

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Если вы любите экономить деньги или просто ненавидите манеру общения LLM, это видео для вас.
00:00:03Это новый трендовый навык под названием «Пещерный человек» (Caveman), и он обещает сократить до 75% токенов
00:00:07в ответе, сохраняя при этом полную техническую точность.
00:00:10И всё благодаря мудрым словам Кевина.
00:00:12Зачем тратить время?
00:00:13Говорить много слов, когда мало слов справляться.
00:00:16Это работает в Claude, Codex и везде, превращая ваши ответы из наполненных «водой»
00:00:20и слишком длинных текстов в отличные краткие выжимки с той же точностью, и это даже
00:00:24настраивается, имея такие дополнения, как режим вэньянь, краткие коммиты, однострочные ревью и
00:00:29инструмент сжатия входных данных.
00:00:30Сначала это может показаться безумием, но за этим стоит даже некоторая наука, так что давайте
00:00:34начнем и всё изучим.
00:00:40Ранее я тестировал это в Claude Code на демо-приложении Next.js, в котором
00:00:44есть имитация системы аутентификации, и я просто спросил: «Можешь объяснить, как реализована аутентификация
00:00:48в этом приложении?»
00:00:49Вот обычный Claude Code без установленного навыка, и вы сразу видите
00:00:53лишние слова, вроде: «Это симулированная система аутентификации».
00:00:56Затем идет тире и пояснение: «Нет бэкенда, нет паролей, нет реальной безопасности, существует для демонстрации
00:01:00отслеживания пользователей Better Stack RUM».
00:01:03После этого он переходит к объяснению основных файлов и принципа работы, и всё это
00:01:06на обычном разговорном английском.
00:01:08Если мы зададим тот же вопрос, но на этот раз с навыком Caveman, вы увидите, что он переходит
00:01:11сразу к делу и пишет гораздо лаконичнее.
00:01:13Первое предложение: «Только демо, клиентская аутентификация, без реальной защиты, создано для демо
00:01:17отслеживания Better Stack RUM».
00:01:18Здесь нет лишних слов, этих тире или чего-то подобного.
00:01:21Ему не нужно строить правильное предложение, он может просто выдать техническую информацию
00:01:25сразу же.
00:01:26То же самое касается разделов о том, как это работает, потоков данных и точек интеграции.
00:01:29Вы видите, что вместо объяснения принципа работы обычными предложениями,
00:01:33он просто пишет «загрузка приложения» и стрелку для проверки локального хранилища на наличие пользователя.
00:01:36Это гораздо лаконичнее, и, честно говоря, именно это мне и нужно.
00:01:39Мне не особо важно, чтобы это был литературный язык, я просто хотел получить
00:01:43техническую информацию.
00:01:44Эта лаконичность — главная причина, почему мне нравится этот навык, но есть и другой плюс:
00:01:47это означает сокращение выходных токенов, а значит, теоретически вы можете
00:01:51получить больше от подписки Claude Code или даже сэкономить на токенах API.
00:01:55Но я думаю, что здесь есть небольшой подвох.
00:01:57Это результат сравнительного теста, который я проводил ранее, где я сравнивал базовый
00:02:00ответ Claude Code против лаконичного, где я буквально прошу Claude Code быть
00:02:04кратким, и против использования нашего навыка Caveman.
00:02:07Это было на 10 промтах, включая простые вопросы вроде «чем git rebase отличается от git merge».
00:02:11Как видите, результаты очень позитивные.
00:02:14При использовании Caveman по сравнению с базовым вариантом мы получили 45% сокращение выходных
00:02:18токенов и 39% по сравнению с простой просьбой быть кратким в Claude Code.
00:02:22Это, очевидно, отразится и на стоимости: экономия составит 45%
00:02:26на выходных токенах — базовый вариант стоил около 8 центов, а Caveman — около
00:02:314 центов.
00:02:32Так что поначалу всё выглядит довольно неплохо.
00:02:34Однако ситуация становится интереснее, когда мы учитываем стоимость входных
00:02:37токенов.
00:02:38Очевидно, что теперь, используя навык Caveman, мы загружаем Markdown-файл, в котором
00:02:41гораздо больше текста, чем в наших коротких промтах. Для базового варианта, где мы
00:02:45отправляем одно предложение, это доли цента, но с нашим навыком, как видите,
00:02:49уже около 4 центов.
00:02:50Если объединить стоимость входных и выходных токенов, то в среднем Caveman
00:02:54фактически на 10% дороже базового варианта, потому что экономия на выходных
00:02:58токенах была поглощена стоимостью входных токенов.
00:03:01Но это не значит, что Caveman проигрывает, потому что это верно только в очень
00:03:04конкретных сценариях.
00:03:05Это верно только если мы отправляем один небольшой промт и не задаем уточняющих вопросов.
00:03:10Если вы начинаете задавать вопросы, в дело вступает кэширование промтов, и когда
00:03:14мы это делаем, чаша весов снова склоняется в пользу Caveman, и мы получаем 39%
00:03:19экономии средств.
00:03:20Мы немного углубились в детали, но это доказывает логичность использования
00:03:23Caveman, и это еще до учета другого возможного преимущества:
00:03:27исследование этого года показало, что ограничение больших моделей краткими ответами повысило
00:03:31точность на 26% в определенных бенчмарках.
00:03:34Так что, возможно, Кевин был самым умным, и вы поступите мудро, если подпишетесь.
00:03:38Вы можете опробовать этот навык сами, используя пакет навыков vacel и запустив
00:03:41команду вроде этой, и здесь мы также можем увидеть, что именно требуется от агента.
00:03:45У нас есть правила: отбрасывать артикли типа a, an и the, отбрасывать лишние слова, вежливость,
00:03:49уклончивые выражения.
00:03:50Также используйте короткие синонимы: «big» вместо «extensive» и «fix»
00:03:54вместо «implement a solution for». Также указано, что нужно сохранить: технические термины,
00:03:58блоки кода и ошибки.
00:04:00После этого у нас идет структура ответа: должен быть
00:04:03объект, действие, причина и следующий шаг.
00:04:05Так что всё очень лаконично.
00:04:07Здесь даже есть режимы интенсивности, чтобы изменить степень «пещерности».
00:04:10Вы видите диапазон от «light» до «ultra».
00:04:12Я использовал «full», так как это значение по умолчанию, но в «ultra» он сокращает всё,
00:04:17убирает союзы, использует стрелки для причинно-следственных связей и одно слово,
00:04:21когда одного слова достаточно.
00:04:22Есть также режим «wenyan», использующий классические китайские иероглифы, потому что они
00:04:26наиболее эффективны по токенам.
00:04:27К сожалению, я не умею их читать, так что мне от этого мало толку.
00:04:30Но это еще не всё, что предлагает Caveman; есть еще несколько навыков для
00:04:33конкретных сценариев.
00:04:34Есть «caveman commit» для написания кратких и точных сообщений в формате conventional commits.
00:04:38Есть «caveman review» для написания комментариев к коду: по одной краткой строке на замечание.
00:04:42И также есть навык «compress», чтобы взять ваши файлы на естественном языке и «пещеризировать» их,
00:04:46чтобы вы могли повторно использовать их с меньшим количеством входных токенов.
00:04:49Пишите в комментариях, если вам что-то из этого приглянулось, и пока вы там,
00:04:52подписывайтесь и, как всегда, до встречи в следующем видео.

Key Takeaway

Внедрение навыка Caveman в работу с Claude Code сокращает объем выходных данных на 45% и повышает точность ответов на 26% за счет устранения разговорного шума и лингвистической избыточности.

Highlights

Навык Caveman сокращает объем выходных токенов в ответах LLM на 45% при сохранении полной технической точности.

Принудительное сокращение ответов повышает точность работы больших языковых моделей на 26% в определенных бенчмарках.

Использование Caveman снижает стоимость выходных токенов вдвое: с 8 центов до 4 центов в тестовых сценариях.

Кэширование промтов при повторных вопросах позволяет достичь реальной экономии средств в размере 39%, несмотря на объемные начальные инструкции.

Режим Ultra в навыке Caveman полностью удаляет союзы и использует стрелки для обозначения причинно-следственных связей.

Инструмент Compress адаптирует файлы на естественном языке под формат Caveman для снижения затрат на входные токены в будущем.

Timeline

Механика и концепция сокращения токенов

  • Навык Caveman удаляет до 75% избыточных слов в ответах нейросети.
  • Техническая точность информации полностью сохраняется при переходе на лаконичный стиль.
  • Система поддерживает специализированные режимы для написания коммитов и код-ревью.

Основная идея заключается в отказе от грамматически полных предложений в пользу передачи чистых фактов. Лишние слова заменяются краткими выжимками, что актуально для экономии ресурсов в Claude и Codex. Это избавляет пользователя от необходимости читать вежливые вступления и пояснительную «воду».

Сравнение стандартных ответов и стиля Caveman

  • Стандартный Claude тратит токены на вежливые обороты и описание очевидных контекстов.
  • Caveman сразу переходит к технической сути через списки и прямые утверждения.
  • Визуализация логических связей происходит с помощью стрелок вместо длинных текстовых описаний.

В тесте на объяснение системы аутентификации стандартная модель генерирует предложения о симуляции безопасности и отсутствии бэкенда. Версия с навыком Caveman заменяет это на короткую фразу «Только демо, без реальной защиты». Такой подход удобен для разработчиков, которым важна информация, а не литературный стиль изложения.

Экономическая эффективность и кэширование

  • Caveman снижает стоимость выходных токенов на 45% по сравнению с базовым Claude.
  • Входные инструкции навыка увеличивают стоимость первого запроса, делая его на 10% дороже стандартного.
  • Итоговая экономия в 39% достигается в длительных сессиях благодаря механизму кэширования промтов.

Экономия на коротких одиночных запросах нивелируется объемом Markdown-файла с правилами навыка. Однако при ведении диалога, когда системная инструкция кэшируется, затраты на ввод резко падают. Исследования также подтверждают, что лаконичность заставляет модель работать точнее, минимизируя риск галлюцинаций в длинных рассуждениях.

Настройка интенсивности и дополнительные инструменты

  • Правила навыка включают обязательное удаление артиклей, вежливых фраз и уклончивых выражений.
  • Режим Ultra радикально минимизирует текст до одного слова там, где это возможно.
  • Функция Wenyan использует китайские иероглифы как наиболее эффективный способ кодирования смысла в токены.

Пользователи могут регулировать уровень сжатия от Light до Ultra. В системных промтах прописаны замены длинных слов на короткие синонимы, например, «fix» вместо «implement a solution for». Дополнительные модули автоматизируют создание кратких сообщений коммитов и рецензирование кода в одну строку.

Community Posts

View all posts