Проблема лимитов Claude Code наконец решена

Русскийالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português 中文

컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00В последнее время Claude Code работает не лучшим образом.

00:00:02Наша команда использует его каждый день, и последние несколько недель лимиты заканчиваются

00:00:06гораздо быстрее, чем должны бы.

00:00:07Ожидалось, что контекстное окно в 1 миллион токенов улучшит ситуацию, но на самом деле

00:00:12оно сделало только хуже.

00:00:13Поэтому мы изучили способы оптимизации, чтобы Claude Code хватало на дольше.

00:00:18Прежде чем перейти к тому, как выжать максимум из лимитов, давайте сначала

00:00:22обсудим, как на самом деле устроена система тарифных планов и ограничений Claude.

00:00:26Этот раздел предназначен для тех, кто не знаком с тем, как работают

00:00:30эти лимиты.

00:00:31У Claude есть два платных тарифа: Pro и Max.

00:00:34Max — самый дорогой, а Pro — более доступный, всего за 20 долларов в месяц.

00:00:38Оба плана открывают доступ к функциям, которых нет в бесплатной версии, включая

00:00:43Claude Code, совместную работу и другие.

00:00:45Но все они подчиняются одному и тому же правилу.

00:00:46Независимо от тарифа, вам дается ограниченное количество сообщений, которые можно отправить

00:00:51в течение 5-часового окна, и как только это окно закрывается, счетчик обнуляется.

00:00:55Количество доступных сообщений зависит от выбранного плана.

00:00:575-часовое окно открывается с первым отправленным сообщением, будь то в десктопном приложении,

00:01:01веб-версии или любом другом интерфейсе Claude.

00:01:03После запуска окна каждое ваше сообщение вычитается из установленного лимита тарифа.

00:01:08Вы могли бы ожидать, что время в окне засчитывается только при активном использовании.

00:01:11Но даже если вы бездействуете, а затем интенсивно используете сервис на 5-м часу, окно

00:01:15все равно продолжает идти, и вам придется ждать истечения полных 5 часов, прежде чем лимит

00:01:20будет сброшен.

00:01:21Это 5-часовое окно также не зависит от вашего устройства.

00:01:23Если вы используете один аккаунт на нескольких устройствах, вся активность будет учитываться

00:01:27в рамках одного общего лимита.

00:01:28На тарифе Pro вы получаете около 45 сообщений за 5-часовой период.

00:01:32Тариф Max дает 225 сообщений, а план Max 20x, который стоит дороже

00:01:37100-долларового плана, предоставляет 900 сообщений в том же окне.

00:01:41Эти цифры могут меняться в зависимости от используемой модели: вы получаете больше сообщений с Sonnet

00:01:46и меньше с Opus.

00:01:47Вам может показаться, что такого количества сообщений более чем достаточно для ваших задач.

00:01:51Но это лишь примерные цифры, и есть другие факторы, влияющие на расход.

00:01:54Первый фактор — это сама модель.

00:01:56Модели Opus потребляют примерно в 3 раза больше токенов на тот же запрос, чем Sonnet, потому что они

00:02:01гораздо мощнее и ресурсозатратнее.

00:02:03Так что если вы постоянно используете Opus, вы не получите 45 сообщений за 5 часов,

00:02:08и ваш лимит исчерпается гораздо быстрее.

00:02:10У тарифа Pro в целом более низкий потолок.

00:02:12Что касается плана Max, то хотя одному человеку его может хватить, его обычно покупают

00:02:16организации и распределяют между сотрудниками, так что на команду его может не хватить.

00:02:20Мы в AI Labs делаем так же: купили план Max и распределили его между членами команды.

00:02:21Несмотря на это, мы часто упираемся в лимит, что и заставило нас искать способы

00:02:26растянуть его использование.

00:02:30Второй фактор — это тип выполняемой задачи.

00:02:31Ресурсоемкие задачи или те, что требуют использования нескольких инструментов, тратят много токенов.

00:02:34В итоге окно закроется гораздо быстрее обычного, и вы можете не дотянуть даже до 45

00:02:38сообщений на плане Pro.

00:02:43Вдобавок к этому, Anthropic недавно начала сокращать лимиты сессий быстрее в часы пик,

00:02:44когда сервисом одновременно пользуется огромное количество людей.

00:02:48Так что ваш план Claude может закончиться еще до того, как вы успеете сделать что-то существенное.

00:02:52Вот почему сейчас самое время научиться максимально эффективно использовать свое окно

00:02:56и продуктивно работать с Claude весь день.

00:03:00Но прежде чем мы продолжим, пара слов от нашего спонсора — Twin.

00:03:02Если вы пробовали автоматизацию с такими инструментами, как Zapier или N8N, вы знаете, как это бывает.

00:03:05Жесткие рабочие процессы, постоянные сбои и часы, потраченные на соединение приложений.

00:03:09А локальные агенты вроде Claudebot — это кошмар для безопасности и слишком дорого.

00:03:13Twin все меняет.

00:03:17Это ИИ-агент без кода, который действительно выполняет работу за вас, пока вы спите.

00:03:18Он подключается к инструментам через API, а если их нет — создает интеграции

00:03:21на лету, предоставляя вам бесконечную библиотеку возможностей.

00:03:26Если API отсутствует, Twin может просто пользоваться браузером и взаимодействовать как человек.

00:03:29Кроме того, вы получаете встроенный доступ к таким инструментам, как Perplexity, Gamma, VO3 и Nanobanana.

00:03:33Они только что запустили Twin API.

00:03:38Так что вы можете запускать агентов откуда угодно и встраивать их в свои текущие процессы.

00:03:40И самое лучшее?

00:03:44Эти агенты обучаются.

00:03:45Они сами чинят себя при сбоях, со временем работают лучше и функционируют круглосуточно.

00:03:46Хватит нянчиться с поломанной автоматизацией.

00:03:50Переходите по ссылке в закрепленном комментарии и попробуйте Twin.

00:03:52Возможно, вы уже знаете, что исходный код Claude Code утек в сеть.

00:03:55И многие обнаружили в нем ряд проблем, из-за которых лимиты

00:03:58расходуются быстрее, чем задумывалось.

00:04:02Одна из них — усеченные ответы, остающиеся в контексте.

00:04:04Так, если вы получаете сообщение об ошибке, например о достижении лимита запросов, может создаться частичный

00:04:07ответ.

00:04:12И при этом система делает повторную попытку, сохраняя предыдущий контекст вместе с этим частичным

00:04:13сообщением, полным ошибок.

00:04:17Это раздувает контекст ненужной информацией и впустую тратит токены.

00:04:18Списки навыков также внедряются в основном для быстрого доступа, хотя они не приносят

00:04:22особой пользы, так как быстрая обработка через инструменты навыков уже существует.

00:04:27Есть и другие подобные проблемы.

00:04:31Из-за всего этого многие жалуются на то, что лимиты Claude достигаются быстрее ожидаемого.

00:04:33Чтобы противостоять как официальным лимитам, так и этим скрытым утечкам токенов, нужно принять

00:04:38определенные меры, чтобы Claude Code хватало на дольше при разработке продуктов.

00:04:43На этом канале мы делимся всем, что находим о создании продуктов с помощью ИИ.

00:04:47Так что если хотите больше таких видео, подписывайтесь и следите за обновлениями.

00:04:51Начнем с советов, которые вы, возможно, уже слышали от нас, если смотрели предыдущие

00:04:55ролики.

00:04:59Первый — это команда clear.

00:05:00Используйте ее всякий раз, когда закончили задачу и предыдущий контекст вам больше не нужен.

00:05:01Например, когда вы закончили внедрение приложения и хотите перейти к фазе тестирования,

00:05:05вам не нужен ранний контекст.

00:05:09Поэтому лучше сбросить его и начать следующую задачу с чистого листа.

00:05:11Но иногда вы все же хотите сохранить часть этого контекста.

00:05:15В таком случае можно запустить команду compact.

00:05:18Она резюмирует все взаимодействие и освобождает место, оставляя в контексте только краткую выжимку.

00:05:21Мы советуем это делать, потому что каждый раз, когда Claude отправляет сообщение, он включает в него

00:05:25весь текущий разговор, а также системные подсказки, ваши инструменты и всю историю

00:05:29переписки.

00:05:34С каждым новым сообщением этот объем растет, что приводит к раздуванию контекстного окна и увеличению

00:05:35расхода токенов на каждое сообщение.

00:05:40Даже с уплотнением (compact), если вы задаете побочные вопросы в основном окне, вы все равно забиваете его

00:05:41не относящимся к делу контентом.

00:05:46Поэтому можно использовать команду "by the way", чтобы задать быстрый уточняющий вопрос.

00:05:47Она отвечает в отдельном контекстном окне сессии.

00:05:50Этот побочный вопрос не пойдет в следующее сообщение, что приведет к меньшему количеству токенов на

00:05:53запрос.

00:05:57Хотя планирование может показаться ресурсозатратной задачей, проекты нужно начинать именно с него.

00:05:58Дело в том, что если вы не потратите время на план, вам придется корректировать работу Claude позже,

00:06:02когда его реализация не совпадет с тем, что вам нужно.

00:06:03Затраты токенов на планирование в начале уберегут вас от гораздо больших трат на исправления

00:06:07в дальнейшем.

00:06:10Иногда Claude не следует вашим инструкциям так, как хотелось бы.

00:06:14В такие моменты мы часто пишем новый промпт с правильным способом реализации.

00:06:15Но вместо этого можно запустить команду rewind, чтобы вернуть диалог

00:06:18и код к предыдущей точке — до того момента, где Claude сбился — и внести правки

00:06:22прямо в промпт.

00:06:26Также для этого можно дважды нажать клавишу Escape.

00:06:31Это удаляет неверную реализацию из контекстного окна, и ошибочные ответы не

00:06:32отправляются модели.

00:06:35Все эти команды помогают экономить токены внутри сессии.

00:06:39Но гораздо большее влияние оказывает то, как ваш проект структурирован изначально.

00:06:41Возможно, вы уже структурируете свои проекты с помощью различных фреймворков, таких как Beemad, SpecKit

00:06:44или других.

00:06:47Но большинство этих фреймворков на самом деле очень требовательны к токенам.

00:06:52Так что если вы используете их в своем приложении, будьте готовы, что лимит токенов будет достигнут быстрее.

00:06:53Хотя эти фреймворки допустимы на планах Max, на Pro они точно не вытянут.

00:06:56Даже если вы не используете готовые фреймворки, вы могли создать свою структуру.

00:07:00Для создания файла Claude.md вы наверняка использовали команду init, которая сканирует вашу кодовую базу

00:07:04и создает этот файл за вас.

00:07:07Она его создает, но в нем полно проблем.

00:07:12Этот файл должен давать указания ИИ-агенту, но часто он перечисляет вещи, которые

00:07:14ИИ и так знает сам по себе.

00:07:17Например, команды для запуска серверов разработки — Claude уже

00:07:20прекрасно знает, как это делать.

00:07:22Если только у вас нет какого-то специфического флага для запуска сервера, нет смысла добавлять

00:07:27это в файл.

00:07:28Что касается архитектуры, Claude может читать названия файлов и понимать, за что отвечает каждый файл,

00:07:31потому что он разбирается в файловых системах и использует это для навигации.

00:07:32Так что в подобных инструкциях нет реальной нужды, за исключением особых случаев,

00:07:37где действительно требуются дополнительные пояснения.

00:07:41Если вы собираетесь писать свой Claude.md, в идеале он должен быть короче 300 строк.

00:07:45Чем короче файл, тем лучше он будет работать и тем больше Claude будет сосредоточен на том,

00:07:47что действительно важно.

00:07:52Он должен служить ориентиром, а не подробным руководством по эксплуатации всего на свете.

00:07:56То, что вы туда включаете, должно быть применимо ко всему проекту в целом, а не быть набором

00:07:57специфических деталей для каждой части, сваленных в одну кучу.

00:08:01Включайте только то, что Claude не должен делать, ваши практики разработки и подобные инструкции,

00:08:05которых Claude не знает по умолчанию, — и только в Claude.md.

00:08:08Вам нужно правильно настроить этот файл, потому что он загружается в контекст один раз

00:08:13в начале каждой сессии и остается там.

00:08:16Следовательно, лишняя информация в контекстном окне означает, что вы тратите токены на каждом шаге,

00:08:20хотя они изначально не были нужны.

00:08:22Для специфических аспектов проекта, таких как база данных, схема или другие области со своими правилами,

00:08:27разделите их на отдельные документы и сошлитесь на них в файле Claude.md.

00:08:28Это позволит Claude постепенно подгружать только те документы, которые ему действительно нужны в данный момент.

00:08:33Мы также упоминали об этом в прошлом видео: создание правил проекта, привязанных к

00:08:37определенным путям, помогает Claude сохранять фокус.

00:08:41Таким образом, у Claude в контексте будет только актуальная информация, что позволит избежать лишних трат токенов.

00:08:45Так что вам стоит разделять файлы правил для логики конкретных областей, чтобы Claude мог подгружать

00:08:48только необходимое.

00:08:53Также нужно использовать навыки (skills) для повторяющихся рабочих процессов и добавлять скрипты и ссылки,

00:08:57чтобы он мог выполнять задачи точнее.

00:08:58Навыки помогают за счет прогрессивной загрузки только нужной части, и это заставляет Claude

00:09:03сосредоточиться на актуальном аспекте задачи.

00:09:05Связки со скриптами помогают не тратить токены на детерминированные задачи, которые

00:09:10можно решить программно.

00:09:12Причина разделения файлов проста.

00:09:16Если Claude работает над одной частью, ему не нужна информация о не связанных с ней областях.

00:09:17Но если все поместить в один файл Claude.md, он будет загружаться целиком каждый раз,

00:09:19что приведет к ненужному расходу токенов.

00:09:24Вы также можете использовать флаг append system prompt, чтобы добавить конкретные инструкции

00:09:29напрямую в системный промпт.

00:09:30Сессия начнется с этих инструкций вместо того, чтобы записывать все в файл

00:09:35Claude.md.

00:09:36Эти инструкции временные и будут удалены по завершении сессии.

00:09:40Это может показаться лишней нагрузкой на контекст, но на самом деле это эффективнее,

00:09:41чем вносить разовую инструкцию в Claude.md.

00:09:44Если добавить ее туда, Claude будет хранить ее в контексте постоянно, впустую тратя токены.

00:09:48С помощью добавления (appending) вы даете инструкции именно тогда, когда они нужны.

00:09:51Кроме того, если вам нравится наш контент, не забудьте нажать кнопку hype — это помогает нам

00:09:56создавать больше таких материалов и охватывать больше людей.

00:09:59Вам также нужно настроить уровень усилий (effort level) используемой модели.

00:10:03Если вы работаете над задачей, не требующей глубоких раздумий, ставьте значение low,

00:10:06так как низкий уровень усилий экономит токены.

00:10:10По умолчанию стоит значение effort auto, что означает — модель сама решает, сколько усилий

00:10:14приложить, но вы можете изменить это вручную.

00:10:15Если задача не слишком сложная, нет нужды использовать высокий уровень усилий.

00:10:20Как мы уже упоминали, Opus — самая прожорливая модель.

00:10:21Так что для простых задач переключайтесь на Haiku.

00:10:25Если задача требует разумного уровня мышления, используйте Sonnet.

00:10:28Она может быть не такой мощной, как Opus, но она эффективна и лучше экономит токены.

00:10:31Если вы настроили несколько MCP для проекта и какой-то из них вам не нужен, просто отключите

00:10:34его, чтобы он не тратил токены, вбрасывая лишнюю информацию в контекстное окно.

00:10:39Еще один важный шаг — создание хуков (hooks), которые отфильтровывают контент, не предназначенный

00:10:43для контекстного окна Claude.

00:10:48Например, у меня настроены тест-кейсы для проекта.

00:10:52Когда мы их запускаем, они выдают отчеты и по пройденным, и по проваленным тестам, и все это загружается

00:10:54в контекст.

00:10:57Но главная забота Claude — это проваленные тесты, так как именно их нужно исправлять.

00:11:01Так что можно создать хук, который с помощью скрипта не дает пройденным тестам попасть

00:11:02в контекстное окно, и включаются только те, что выдали ошибку.

00:11:05Это экономит значительное количество токенов по сравнению с загрузкой всех отчетов.

00:11:10Подобным образом можно настроить хуки для множества других задач, чтобы оптимизировать расход токенов.

00:11:13Помимо всего этого, есть определенные настройки, которые нужно внести в вашу папку .claude

00:11:17для повышения производительности.

00:11:21Первая — установка значения false для параметра disable prompt caching.

00:11:25Это заставит Claude кэшировать ваши наиболее часто используемые префиксы, что снизит расход токенов.

00:11:27Anthropic не берет плату за части, которые отправляются повторно — вы платите только за

00:11:30новый контент.

00:11:34Также можно отключить автопамять (auto memory), чтобы она не добавляла данные в контекст и

00:11:38не увеличивала потребление токенов.

00:11:39Автопамять — это фоновый процесс, который анализирует ваши диалоги и сохраняет полезную

00:11:43информацию в файлы памяти для вашего конкретного проекта.

00:11:44Ее отключение означает, что система не будет отслеживать ваши привычки, но сэкономит токены, не работая

00:11:49в фоновом режиме.

00:11:52Есть еще один флаг — disable background task, который останавливает фоновые процессы от

00:11:56постоянного потребления токенов.

00:11:57Сюда входят "сон" (dream), рефакторинг и очистка памяти, а также фоновая индексация.

00:12:00Отключение этого помогает сберечь токены, потому что даже если вы не в чате,

00:12:02эти процессы все равно продолжали бы работать над вашим диалогом.

00:12:06Также стоит отключать функцию мышления (thinking), когда она не нужна, потому что мышление занимает много

00:12:10места в контексте и сильно тратит токены на задачах, где оно излишне.

00:12:13Это отличается от настройки уровня усилий (effort level), которую мы обсуждали ранее.

00:12:16Настройка усилий контролирует глубину рассуждений Claude внутри ответа: меньше усилий —

00:12:20меньше раздумий, но они все равно есть.

00:12:23Полное отключение мышления убирает внутренний этап рассуждений, и Claude просто

00:12:28генерирует ответ напрямую.

00:12:30Так что если задача не требует глубокого анализа, отключайте мышление совсем.

00:12:34Если же анализ нужен, но не глубокий, просто понизьте уровень усилий.

00:12:35Наконец, задайте конкретное число для параметра max output tokens.

00:12:39Значения по умолчанию нет, но это ограничение контролирует объем генерации модели.

00:12:43Установите его пониже, если хотите агрессивно экономить токены, или повысьте, если задача требует

00:12:46длинных ответов.

00:12:50Шаблон Claude.md и другие ресурсы доступны в AI Labs Pro для этого видео

00:12:55и для всех наших предыдущих роликов — оттуда вы можете скачать их и использовать в своих проектах.

00:12:56Если вы цените то, что мы делаем, и хотите поддержать канал, это лучший способ

00:13:00сделать это.

00:13:05Ссылка в описании.

00:13:09На этом мы подошли к концу видео.

00:13:10Если вы хотите поддержать канал и помочь нам продолжать выпускать подобные ролики,

00:13:11вы можете сделать это с помощью кнопки Super Thanks ниже.

00:13:13Как всегда, спасибо за просмотр, и увидимся в следующем выпуске!

00:13:17сделав это с помощью кнопки Super Thanks ниже.

00:13:19Как всегда, спасибо за просмотр, и увидимся в следующем выпуске!

Key Takeaway

Оптимизация лимитов Claude Code достигается через агрессивное сокращение контекста с помощью команд clear, compact и rewind, а также через разделение правил проекта на модульные файлы объемом менее 300 строк.

Highlights

Тариф Pro за 20 долларов дает около 45 сообщений за 5-часовое окно, в то время как план Max предоставляет 225 сообщений.

Модель Claude Opus потребляет в 3 раза больше токенов на один и тот же запрос по сравнению с моделью Sonnet.

Команда rewind или двойное нажатие клавиши Escape удаляют ошибочные реализации кода из контекстного окна, предотвращая их повторную отправку модели.

Эффективный файл Claude.md должен содержать менее 300 строк и включать только уникальные инструкции, которых нет в базе знаний модели по умолчанию.

Отключение параметра disable prompt caching в настройках .claude позволяет кэшировать повторяющиеся префиксы и платить только за новый сгенерированный контент.

Команда 'by the way' открывает отдельное окно сессии для уточняющих вопросов, что исключает побочный контент из основного контекста диалога.

Timeline

Механика лимитов и тарифных планов Claude

Лимиты сообщений рассчитываются строго внутри 5-часового окна, которое активируется первым отправленным запросом.
Интенсивность использования в последний час окна не сбрасывает таймер, требуя полного истечения 5 часов для обновления счетчика.
Общий лимит аккаунта распределяется между всеми устройствами и интерфейсами, включая десктопное приложение и веб-версию.
Anthropic сокращает доступное количество сообщений в периоды пиковой нагрузки на серверы.

Расход лимита напрямую зависит от выбранной модели и сложности задачи. Использование Opus значительно сокращает количество доступных сообщений из-за высокой ресурсоемкости. План Max 20x за 100 долларов расширяет возможности до 900 сообщений, однако даже этот объем быстро исчерпывается при выполнении задач с использованием множества инструментов.

Инструменты управления контекстом внутри сессии

Команда clear полностью обнуляет историю сообщений при переходе к новому этапу работы, например от разработки к тестированию.
Функция compact заменяет подробную историю диалога краткой выжимкой для экономии места в контекстном окне.
Команда rewind возвращает состояние кода и диалога к точке до совершения ошибки, предотвращая раздувание контекста неверными данными.
Предварительное планирование сокращает итоговый расход токенов за счет исключения последующих исправлений реализации.

Каждое новое сообщение в Claude Code по умолчанию включает в себя всю предыдущую переписку, системные промпты и описание инструментов. Без регулярной очистки или уплотнения объем передаваемых данных растет экспоненциально. Использование горячих клавиш, таких как двойной Escape, позволяет мгновенно прервать некорректную генерацию и очистить контекст.

Архитектура проекта и оптимизация файлов правил

Файл Claude.md не должен содержать стандартные команды вроде запуска серверов, так как модель обладает этими знаниями по умолчанию.
Разделение правил на специфические документы по путям (database, schema) позволяет Claude подгружать информацию только при необходимости.
Флаг append system prompt эффективнее разовых правок в Claude.md для временных инструкций внутри одной сессии.
Навыки (skills) обеспечивают прогрессивную загрузку только нужных частей логики для конкретного аспекта задачи.

Избыточные инструкции в файле конфигурации Claude.md приводят к лишним тратам на каждом шаге взаимодействия, так как этот файл загружается в начале каждой сессии. Оптимальная структура предполагает наличие компактного основного файла и ссылок на второстепенные документы. Это заставляет агента фокусироваться на актуальных деталях, не перегружая рабочую память всей архитектурой проекта сразу.

Техническая настройка параметров .claude

Установка effort level на значение low экономит токены на простых задачах, не требующих глубоких рассуждений.
Отключение функций auto memory и background task останавливает фоновое потребление ресурсов на индексацию и рефакторинг.
Полное отключение функции thinking убирает этап внутренних рассуждений, переводя модель в режим прямой генерации ответов.
Параметр max output tokens позволяет жестко ограничить длину ответов модели для агрессивной экономии.

Кэширование промптов является ключевым фактором снижения стоимости, так как повторно отправляемые префиксы обрабатываются бесплатно. Использование скриптов-хуков (hooks) позволяет фильтровать данные перед их попаданием в контекст, например, передавая только проваленные тесты вместо полных отчетов. Переключение между моделями Sonnet и Haiku в зависимости от сложности текущего шага дополнительно растягивает доступный лимит сообщений.

Community Posts

Практическое управление контекстом: как сократить расход токенов Claude Code на 40%

makedream15일 전7880

Write about this video