Этот навык Claude сократит ваши расходы на токены ВДВОЕ

Русскийالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português 中文

컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Если вы любите экономить деньги или просто ненавидите манеру общения LLM, это видео для вас.

00:00:03Это новый трендовый навык под названием «Пещерный человек» (Caveman), и он обещает сократить до 75% токенов

00:00:07в ответе, сохраняя при этом полную техническую точность.

00:00:10И всё благодаря мудрым словам Кевина.

00:00:12Зачем тратить время?

00:00:13Говорить много слов, когда мало слов справляться.

00:00:16Это работает в Claude, Codex и везде, превращая ваши ответы из наполненных «водой»

00:00:20и слишком длинных текстов в отличные краткие выжимки с той же точностью, и это даже

00:00:24настраивается, имея такие дополнения, как режим вэньянь, краткие коммиты, однострочные ревью и

00:00:29инструмент сжатия входных данных.

00:00:30Сначала это может показаться безумием, но за этим стоит даже некоторая наука, так что давайте

00:00:34начнем и всё изучим.

00:00:40Ранее я тестировал это в Claude Code на демо-приложении Next.js, в котором

00:00:44есть имитация системы аутентификации, и я просто спросил: «Можешь объяснить, как реализована аутентификация

00:00:48в этом приложении?»

00:00:49Вот обычный Claude Code без установленного навыка, и вы сразу видите

00:00:53лишние слова, вроде: «Это симулированная система аутентификации».

00:00:56Затем идет тире и пояснение: «Нет бэкенда, нет паролей, нет реальной безопасности, существует для демонстрации

00:01:00отслеживания пользователей Better Stack RUM».

00:01:03После этого он переходит к объяснению основных файлов и принципа работы, и всё это

00:01:06на обычном разговорном английском.

00:01:08Если мы зададим тот же вопрос, но на этот раз с навыком Caveman, вы увидите, что он переходит

00:01:11сразу к делу и пишет гораздо лаконичнее.

00:01:13Первое предложение: «Только демо, клиентская аутентификация, без реальной защиты, создано для демо

00:01:17отслеживания Better Stack RUM».

00:01:18Здесь нет лишних слов, этих тире или чего-то подобного.

00:01:21Ему не нужно строить правильное предложение, он может просто выдать техническую информацию

00:01:25сразу же.

00:01:26То же самое касается разделов о том, как это работает, потоков данных и точек интеграции.

00:01:29Вы видите, что вместо объяснения принципа работы обычными предложениями,

00:01:33он просто пишет «загрузка приложения» и стрелку для проверки локального хранилища на наличие пользователя.

00:01:36Это гораздо лаконичнее, и, честно говоря, именно это мне и нужно.

00:01:39Мне не особо важно, чтобы это был литературный язык, я просто хотел получить

00:01:43техническую информацию.

00:01:44Эта лаконичность — главная причина, почему мне нравится этот навык, но есть и другой плюс:

00:01:47это означает сокращение выходных токенов, а значит, теоретически вы можете

00:01:51получить больше от подписки Claude Code или даже сэкономить на токенах API.

00:01:55Но я думаю, что здесь есть небольшой подвох.

00:01:57Это результат сравнительного теста, который я проводил ранее, где я сравнивал базовый

00:02:00ответ Claude Code против лаконичного, где я буквально прошу Claude Code быть

00:02:04кратким, и против использования нашего навыка Caveman.

00:02:07Это было на 10 промтах, включая простые вопросы вроде «чем git rebase отличается от git merge».

00:02:11Как видите, результаты очень позитивные.

00:02:14При использовании Caveman по сравнению с базовым вариантом мы получили 45% сокращение выходных

00:02:18токенов и 39% по сравнению с простой просьбой быть кратким в Claude Code.

00:02:22Это, очевидно, отразится и на стоимости: экономия составит 45%

00:02:26на выходных токенах — базовый вариант стоил около 8 центов, а Caveman — около

00:02:314 центов.

00:02:32Так что поначалу всё выглядит довольно неплохо.

00:02:34Однако ситуация становится интереснее, когда мы учитываем стоимость входных

00:02:37токенов.

00:02:38Очевидно, что теперь, используя навык Caveman, мы загружаем Markdown-файл, в котором

00:02:41гораздо больше текста, чем в наших коротких промтах. Для базового варианта, где мы

00:02:45отправляем одно предложение, это доли цента, но с нашим навыком, как видите,

00:02:49уже около 4 центов.

00:02:50Если объединить стоимость входных и выходных токенов, то в среднем Caveman

00:02:54фактически на 10% дороже базового варианта, потому что экономия на выходных

00:02:58токенах была поглощена стоимостью входных токенов.

00:03:01Но это не значит, что Caveman проигрывает, потому что это верно только в очень

00:03:04конкретных сценариях.

00:03:05Это верно только если мы отправляем один небольшой промт и не задаем уточняющих вопросов.

00:03:10Если вы начинаете задавать вопросы, в дело вступает кэширование промтов, и когда

00:03:14мы это делаем, чаша весов снова склоняется в пользу Caveman, и мы получаем 39%

00:03:19экономии средств.

00:03:20Мы немного углубились в детали, но это доказывает логичность использования

00:03:23Caveman, и это еще до учета другого возможного преимущества:

00:03:27исследование этого года показало, что ограничение больших моделей краткими ответами повысило

00:03:31точность на 26% в определенных бенчмарках.

00:03:34Так что, возможно, Кевин был самым умным, и вы поступите мудро, если подпишетесь.

00:03:38Вы можете опробовать этот навык сами, используя пакет навыков vacel и запустив

00:03:41команду вроде этой, и здесь мы также можем увидеть, что именно требуется от агента.

00:03:45У нас есть правила: отбрасывать артикли типа a, an и the, отбрасывать лишние слова, вежливость,

00:03:49уклончивые выражения.

00:03:50Также используйте короткие синонимы: «big» вместо «extensive» и «fix»

00:03:54вместо «implement a solution for». Также указано, что нужно сохранить: технические термины,

00:03:58блоки кода и ошибки.

00:04:00После этого у нас идет структура ответа: должен быть

00:04:03объект, действие, причина и следующий шаг.

00:04:05Так что всё очень лаконично.

00:04:07Здесь даже есть режимы интенсивности, чтобы изменить степень «пещерности».

00:04:10Вы видите диапазон от «light» до «ultra».

00:04:12Я использовал «full», так как это значение по умолчанию, но в «ultra» он сокращает всё,

00:04:17убирает союзы, использует стрелки для причинно-следственных связей и одно слово,

00:04:21когда одного слова достаточно.

00:04:22Есть также режим «wenyan», использующий классические китайские иероглифы, потому что они

00:04:26наиболее эффективны по токенам.

00:04:27К сожалению, я не умею их читать, так что мне от этого мало толку.

00:04:30Но это еще не всё, что предлагает Caveman; есть еще несколько навыков для

00:04:33конкретных сценариев.

00:04:34Есть «caveman commit» для написания кратких и точных сообщений в формате conventional commits.

00:04:38Есть «caveman review» для написания комментариев к коду: по одной краткой строке на замечание.

00:04:42И также есть навык «compress», чтобы взять ваши файлы на естественном языке и «пещеризировать» их,

00:04:46чтобы вы могли повторно использовать их с меньшим количеством входных токенов.

00:04:49Пишите в комментариях, если вам что-то из этого приглянулось, и пока вы там,

00:04:52подписывайтесь и, как всегда, до встречи в следующем видео.

Key Takeaway

Внедрение навыка Caveman в работу с Claude Code сокращает объем выходных данных на 45% и повышает точность ответов на 26% за счет устранения разговорного шума и лингвистической избыточности.

Highlights

Навык Caveman сокращает объем выходных токенов в ответах LLM на 45% при сохранении полной технической точности.

Принудительное сокращение ответов повышает точность работы больших языковых моделей на 26% в определенных бенчмарках.

Использование Caveman снижает стоимость выходных токенов вдвое: с 8 центов до 4 центов в тестовых сценариях.

Кэширование промтов при повторных вопросах позволяет достичь реальной экономии средств в размере 39%, несмотря на объемные начальные инструкции.

Режим Ultra в навыке Caveman полностью удаляет союзы и использует стрелки для обозначения причинно-следственных связей.

Инструмент Compress адаптирует файлы на естественном языке под формат Caveman для снижения затрат на входные токены в будущем.

Timeline

Механика и концепция сокращения токенов

Навык Caveman удаляет до 75% избыточных слов в ответах нейросети.
Техническая точность информации полностью сохраняется при переходе на лаконичный стиль.
Система поддерживает специализированные режимы для написания коммитов и код-ревью.

Основная идея заключается в отказе от грамматически полных предложений в пользу передачи чистых фактов. Лишние слова заменяются краткими выжимками, что актуально для экономии ресурсов в Claude и Codex. Это избавляет пользователя от необходимости читать вежливые вступления и пояснительную «воду».

Сравнение стандартных ответов и стиля Caveman

Стандартный Claude тратит токены на вежливые обороты и описание очевидных контекстов.
Caveman сразу переходит к технической сути через списки и прямые утверждения.
Визуализация логических связей происходит с помощью стрелок вместо длинных текстовых описаний.

В тесте на объяснение системы аутентификации стандартная модель генерирует предложения о симуляции безопасности и отсутствии бэкенда. Версия с навыком Caveman заменяет это на короткую фразу «Только демо, без реальной защиты». Такой подход удобен для разработчиков, которым важна информация, а не литературный стиль изложения.

Экономическая эффективность и кэширование

Caveman снижает стоимость выходных токенов на 45% по сравнению с базовым Claude.
Входные инструкции навыка увеличивают стоимость первого запроса, делая его на 10% дороже стандартного.
Итоговая экономия в 39% достигается в длительных сессиях благодаря механизму кэширования промтов.

Экономия на коротких одиночных запросах нивелируется объемом Markdown-файла с правилами навыка. Однако при ведении диалога, когда системная инструкция кэшируется, затраты на ввод резко падают. Исследования также подтверждают, что лаконичность заставляет модель работать точнее, минимизируя риск галлюцинаций в длинных рассуждениях.

Настройка интенсивности и дополнительные инструменты

Правила навыка включают обязательное удаление артиклей, вежливых фраз и уклончивых выражений.
Режим Ultra радикально минимизирует текст до одного слова там, где это возможно.
Функция Wenyan использует китайские иероглифы как наиболее эффективный способ кодирования смысла в токены.

Пользователи могут регулировать уровень сжатия от Light до Ultra. В системных промтах прописаны замены длинных слов на короткие синонимы, например, «fix» вместо «implement a solution for». Дополнительные модули автоматизируют создание кратких сообщений коммитов и рецензирование кода в одну строку.

Community Posts

Методы пакетной оптимизации промптов для снижения затрат на Claude 3.5 Sonnet API на 40%

makedream10일 전4640

Write about this video