Проблема лимитов Claude Code наконец решена

AAI LABS
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00В последнее время Claude Code работает не лучшим образом.
00:00:02Наша команда использует его каждый день, и последние несколько недель лимиты заканчиваются
00:00:06гораздо быстрее, чем должны бы.
00:00:07Ожидалось, что контекстное окно в 1 миллион токенов улучшит ситуацию, но на самом деле
00:00:12оно сделало только хуже.
00:00:13Поэтому мы изучили способы оптимизации, чтобы Claude Code хватало на дольше.
00:00:18Прежде чем перейти к тому, как выжать максимум из лимитов, давайте сначала
00:00:22обсудим, как на самом деле устроена система тарифных планов и ограничений Claude.
00:00:26Этот раздел предназначен для тех, кто не знаком с тем, как работают
00:00:30эти лимиты.
00:00:31У Claude есть два платных тарифа: Pro и Max.
00:00:34Max — самый дорогой, а Pro — более доступный, всего за 20 долларов в месяц.
00:00:38Оба плана открывают доступ к функциям, которых нет в бесплатной версии, включая
00:00:43Claude Code, совместную работу и другие.
00:00:45Но все они подчиняются одному и тому же правилу.
00:00:46Независимо от тарифа, вам дается ограниченное количество сообщений, которые можно отправить
00:00:51в течение 5-часового окна, и как только это окно закрывается, счетчик обнуляется.
00:00:55Количество доступных сообщений зависит от выбранного плана.
00:00:575-часовое окно открывается с первым отправленным сообщением, будь то в десктопном приложении,
00:01:01веб-версии или любом другом интерфейсе Claude.
00:01:03После запуска окна каждое ваше сообщение вычитается из установленного лимита тарифа.
00:01:08Вы могли бы ожидать, что время в окне засчитывается только при активном использовании.
00:01:11Но даже если вы бездействуете, а затем интенсивно используете сервис на 5-м часу, окно
00:01:15все равно продолжает идти, и вам придется ждать истечения полных 5 часов, прежде чем лимит
00:01:20будет сброшен.
00:01:21Это 5-часовое окно также не зависит от вашего устройства.
00:01:23Если вы используете один аккаунт на нескольких устройствах, вся активность будет учитываться
00:01:27в рамках одного общего лимита.
00:01:28На тарифе Pro вы получаете около 45 сообщений за 5-часовой период.
00:01:32Тариф Max дает 225 сообщений, а план Max 20x, который стоит дороже
00:01:37100-долларового плана, предоставляет 900 сообщений в том же окне.
00:01:41Эти цифры могут меняться в зависимости от используемой модели: вы получаете больше сообщений с Sonnet
00:01:46и меньше с Opus.
00:01:47Вам может показаться, что такого количества сообщений более чем достаточно для ваших задач.
00:01:51Но это лишь примерные цифры, и есть другие факторы, влияющие на расход.
00:01:54Первый фактор — это сама модель.
00:01:56Модели Opus потребляют примерно в 3 раза больше токенов на тот же запрос, чем Sonnet, потому что они
00:02:01гораздо мощнее и ресурсозатратнее.
00:02:03Так что если вы постоянно используете Opus, вы не получите 45 сообщений за 5 часов,
00:02:08и ваш лимит исчерпается гораздо быстрее.
00:02:10У тарифа Pro в целом более низкий потолок.
00:02:12Что касается плана Max, то хотя одному человеку его может хватить, его обычно покупают
00:02:16организации и распределяют между сотрудниками, так что на команду его может не хватить.
00:02:20Мы в AI Labs делаем так же: купили план Max и распределили его между членами команды.
00:02:21Несмотря на это, мы часто упираемся в лимит, что и заставило нас искать способы
00:02:26растянуть его использование.
00:02:30Второй фактор — это тип выполняемой задачи.
00:02:31Ресурсоемкие задачи или те, что требуют использования нескольких инструментов, тратят много токенов.
00:02:34В итоге окно закроется гораздо быстрее обычного, и вы можете не дотянуть даже до 45
00:02:38сообщений на плане Pro.
00:02:43Вдобавок к этому, Anthropic недавно начала сокращать лимиты сессий быстрее в часы пик,
00:02:44когда сервисом одновременно пользуется огромное количество людей.
00:02:48Так что ваш план Claude может закончиться еще до того, как вы успеете сделать что-то существенное.
00:02:52Вот почему сейчас самое время научиться максимально эффективно использовать свое окно
00:02:56и продуктивно работать с Claude весь день.
00:03:00Но прежде чем мы продолжим, пара слов от нашего спонсора — Twin.
00:03:02Если вы пробовали автоматизацию с такими инструментами, как Zapier или N8N, вы знаете, как это бывает.
00:03:05Жесткие рабочие процессы, постоянные сбои и часы, потраченные на соединение приложений.
00:03:09А локальные агенты вроде Claudebot — это кошмар для безопасности и слишком дорого.
00:03:13Twin все меняет.
00:03:17Это ИИ-агент без кода, который действительно выполняет работу за вас, пока вы спите.
00:03:18Он подключается к инструментам через API, а если их нет — создает интеграции
00:03:21на лету, предоставляя вам бесконечную библиотеку возможностей.
00:03:26Если API отсутствует, Twin может просто пользоваться браузером и взаимодействовать как человек.
00:03:29Кроме того, вы получаете встроенный доступ к таким инструментам, как Perplexity, Gamma, VO3 и Nanobanana.
00:03:33Они только что запустили Twin API.
00:03:38Так что вы можете запускать агентов откуда угодно и встраивать их в свои текущие процессы.
00:03:40И самое лучшее?
00:03:44Эти агенты обучаются.
00:03:45Они сами чинят себя при сбоях, со временем работают лучше и функционируют круглосуточно.
00:03:46Хватит нянчиться с поломанной автоматизацией.
00:03:50Переходите по ссылке в закрепленном комментарии и попробуйте Twin.
00:03:52Возможно, вы уже знаете, что исходный код Claude Code утек в сеть.
00:03:55И многие обнаружили в нем ряд проблем, из-за которых лимиты
00:03:58расходуются быстрее, чем задумывалось.
00:04:02Одна из них — усеченные ответы, остающиеся в контексте.
00:04:04Так, если вы получаете сообщение об ошибке, например о достижении лимита запросов, может создаться частичный
00:04:07ответ.
00:04:12И при этом система делает повторную попытку, сохраняя предыдущий контекст вместе с этим частичным
00:04:13сообщением, полным ошибок.
00:04:17Это раздувает контекст ненужной информацией и впустую тратит токены.
00:04:18Списки навыков также внедряются в основном для быстрого доступа, хотя они не приносят
00:04:22особой пользы, так как быстрая обработка через инструменты навыков уже существует.
00:04:27Есть и другие подобные проблемы.
00:04:31Из-за всего этого многие жалуются на то, что лимиты Claude достигаются быстрее ожидаемого.
00:04:33Чтобы противостоять как официальным лимитам, так и этим скрытым утечкам токенов, нужно принять
00:04:38определенные меры, чтобы Claude Code хватало на дольше при разработке продуктов.
00:04:43На этом канале мы делимся всем, что находим о создании продуктов с помощью ИИ.
00:04:47Так что если хотите больше таких видео, подписывайтесь и следите за обновлениями.
00:04:51Начнем с советов, которые вы, возможно, уже слышали от нас, если смотрели предыдущие
00:04:55ролики.
00:04:59Первый — это команда clear.
00:05:00Используйте ее всякий раз, когда закончили задачу и предыдущий контекст вам больше не нужен.
00:05:01Например, когда вы закончили внедрение приложения и хотите перейти к фазе тестирования,
00:05:05вам не нужен ранний контекст.
00:05:09Поэтому лучше сбросить его и начать следующую задачу с чистого листа.
00:05:11Но иногда вы все же хотите сохранить часть этого контекста.
00:05:15В таком случае можно запустить команду compact.
00:05:18Она резюмирует все взаимодействие и освобождает место, оставляя в контексте только краткую выжимку.
00:05:21Мы советуем это делать, потому что каждый раз, когда Claude отправляет сообщение, он включает в него
00:05:25весь текущий разговор, а также системные подсказки, ваши инструменты и всю историю
00:05:29переписки.
00:05:34С каждым новым сообщением этот объем растет, что приводит к раздуванию контекстного окна и увеличению
00:05:35расхода токенов на каждое сообщение.
00:05:40Даже с уплотнением (compact), если вы задаете побочные вопросы в основном окне, вы все равно забиваете его
00:05:41не относящимся к делу контентом.
00:05:46Поэтому можно использовать команду "by the way", чтобы задать быстрый уточняющий вопрос.
00:05:47Она отвечает в отдельном контекстном окне сессии.
00:05:50Этот побочный вопрос не пойдет в следующее сообщение, что приведет к меньшему количеству токенов на
00:05:53запрос.
00:05:57Хотя планирование может показаться ресурсозатратной задачей, проекты нужно начинать именно с него.
00:05:58Дело в том, что если вы не потратите время на план, вам придется корректировать работу Claude позже,
00:06:02когда его реализация не совпадет с тем, что вам нужно.
00:06:03Затраты токенов на планирование в начале уберегут вас от гораздо больших трат на исправления
00:06:07в дальнейшем.
00:06:10Иногда Claude не следует вашим инструкциям так, как хотелось бы.
00:06:14В такие моменты мы часто пишем новый промпт с правильным способом реализации.
00:06:15Но вместо этого можно запустить команду rewind, чтобы вернуть диалог
00:06:18и код к предыдущей точке — до того момента, где Claude сбился — и внести правки
00:06:22прямо в промпт.
00:06:26Также для этого можно дважды нажать клавишу Escape.
00:06:31Это удаляет неверную реализацию из контекстного окна, и ошибочные ответы не
00:06:32отправляются модели.
00:06:35Все эти команды помогают экономить токены внутри сессии.
00:06:39Но гораздо большее влияние оказывает то, как ваш проект структурирован изначально.
00:06:41Возможно, вы уже структурируете свои проекты с помощью различных фреймворков, таких как Beemad, SpecKit
00:06:44или других.
00:06:47Но большинство этих фреймворков на самом деле очень требовательны к токенам.
00:06:52Так что если вы используете их в своем приложении, будьте готовы, что лимит токенов будет достигнут быстрее.
00:06:53Хотя эти фреймворки допустимы на планах Max, на Pro они точно не вытянут.
00:06:56Даже если вы не используете готовые фреймворки, вы могли создать свою структуру.
00:07:00Для создания файла Claude.md вы наверняка использовали команду init, которая сканирует вашу кодовую базу
00:07:04и создает этот файл за вас.
00:07:07Она его создает, но в нем полно проблем.
00:07:12Этот файл должен давать указания ИИ-агенту, но часто он перечисляет вещи, которые
00:07:14ИИ и так знает сам по себе.
00:07:17Например, команды для запуска серверов разработки — Claude уже
00:07:20прекрасно знает, как это делать.
00:07:22Если только у вас нет какого-то специфического флага для запуска сервера, нет смысла добавлять
00:07:27это в файл.
00:07:28Что касается архитектуры, Claude может читать названия файлов и понимать, за что отвечает каждый файл,
00:07:31потому что он разбирается в файловых системах и использует это для навигации.
00:07:32Так что в подобных инструкциях нет реальной нужды, за исключением особых случаев,
00:07:37где действительно требуются дополнительные пояснения.
00:07:41Если вы собираетесь писать свой Claude.md, в идеале он должен быть короче 300 строк.
00:07:45Чем короче файл, тем лучше он будет работать и тем больше Claude будет сосредоточен на том,
00:07:47что действительно важно.
00:07:52Он должен служить ориентиром, а не подробным руководством по эксплуатации всего на свете.
00:07:56То, что вы туда включаете, должно быть применимо ко всему проекту в целом, а не быть набором
00:07:57специфических деталей для каждой части, сваленных в одну кучу.
00:08:01Включайте только то, что Claude не должен делать, ваши практики разработки и подобные инструкции,
00:08:05которых Claude не знает по умолчанию, — и только в Claude.md.
00:08:08Вам нужно правильно настроить этот файл, потому что он загружается в контекст один раз
00:08:13в начале каждой сессии и остается там.
00:08:16Следовательно, лишняя информация в контекстном окне означает, что вы тратите токены на каждом шаге,
00:08:20хотя они изначально не были нужны.
00:08:22Для специфических аспектов проекта, таких как база данных, схема или другие области со своими правилами,
00:08:27разделите их на отдельные документы и сошлитесь на них в файле Claude.md.
00:08:28Это позволит Claude постепенно подгружать только те документы, которые ему действительно нужны в данный момент.
00:08:33Мы также упоминали об этом в прошлом видео: создание правил проекта, привязанных к
00:08:37определенным путям, помогает Claude сохранять фокус.
00:08:41Таким образом, у Claude в контексте будет только актуальная информация, что позволит избежать лишних трат токенов.
00:08:45Так что вам стоит разделять файлы правил для логики конкретных областей, чтобы Claude мог подгружать
00:08:48только необходимое.
00:08:53Также нужно использовать навыки (skills) для повторяющихся рабочих процессов и добавлять скрипты и ссылки,
00:08:57чтобы он мог выполнять задачи точнее.
00:08:58Навыки помогают за счет прогрессивной загрузки только нужной части, и это заставляет Claude
00:09:03сосредоточиться на актуальном аспекте задачи.
00:09:05Связки со скриптами помогают не тратить токены на детерминированные задачи, которые
00:09:10можно решить программно.
00:09:12Причина разделения файлов проста.
00:09:16Если Claude работает над одной частью, ему не нужна информация о не связанных с ней областях.
00:09:17Но если все поместить в один файл Claude.md, он будет загружаться целиком каждый раз,
00:09:19что приведет к ненужному расходу токенов.
00:09:24Вы также можете использовать флаг append system prompt, чтобы добавить конкретные инструкции
00:09:29напрямую в системный промпт.
00:09:30Сессия начнется с этих инструкций вместо того, чтобы записывать все в файл
00:09:35Claude.md.
00:09:36Эти инструкции временные и будут удалены по завершении сессии.
00:09:40Это может показаться лишней нагрузкой на контекст, но на самом деле это эффективнее,
00:09:41чем вносить разовую инструкцию в Claude.md.
00:09:44Если добавить ее туда, Claude будет хранить ее в контексте постоянно, впустую тратя токены.
00:09:48С помощью добавления (appending) вы даете инструкции именно тогда, когда они нужны.
00:09:51Кроме того, если вам нравится наш контент, не забудьте нажать кнопку hype — это помогает нам
00:09:56создавать больше таких материалов и охватывать больше людей.
00:09:59Вам также нужно настроить уровень усилий (effort level) используемой модели.
00:10:03Если вы работаете над задачей, не требующей глубоких раздумий, ставьте значение low,
00:10:06так как низкий уровень усилий экономит токены.
00:10:10По умолчанию стоит значение effort auto, что означает — модель сама решает, сколько усилий
00:10:14приложить, но вы можете изменить это вручную.
00:10:15Если задача не слишком сложная, нет нужды использовать высокий уровень усилий.
00:10:20Как мы уже упоминали, Opus — самая прожорливая модель.
00:10:21Так что для простых задач переключайтесь на Haiku.
00:10:25Если задача требует разумного уровня мышления, используйте Sonnet.
00:10:28Она может быть не такой мощной, как Opus, но она эффективна и лучше экономит токены.
00:10:31Если вы настроили несколько MCP для проекта и какой-то из них вам не нужен, просто отключите
00:10:34его, чтобы он не тратил токены, вбрасывая лишнюю информацию в контекстное окно.
00:10:39Еще один важный шаг — создание хуков (hooks), которые отфильтровывают контент, не предназначенный
00:10:43для контекстного окна Claude.
00:10:48Например, у меня настроены тест-кейсы для проекта.
00:10:52Когда мы их запускаем, они выдают отчеты и по пройденным, и по проваленным тестам, и все это загружается
00:10:54в контекст.
00:10:57Но главная забота Claude — это проваленные тесты, так как именно их нужно исправлять.
00:11:01Так что можно создать хук, который с помощью скрипта не дает пройденным тестам попасть
00:11:02в контекстное окно, и включаются только те, что выдали ошибку.
00:11:05Это экономит значительное количество токенов по сравнению с загрузкой всех отчетов.
00:11:10Подобным образом можно настроить хуки для множества других задач, чтобы оптимизировать расход токенов.
00:11:13Помимо всего этого, есть определенные настройки, которые нужно внести в вашу папку .claude
00:11:17для повышения производительности.
00:11:21Первая — установка значения false для параметра disable prompt caching.
00:11:25Это заставит Claude кэшировать ваши наиболее часто используемые префиксы, что снизит расход токенов.
00:11:27Anthropic не берет плату за части, которые отправляются повторно — вы платите только за
00:11:30новый контент.
00:11:34Также можно отключить автопамять (auto memory), чтобы она не добавляла данные в контекст и
00:11:38не увеличивала потребление токенов.
00:11:39Автопамять — это фоновый процесс, который анализирует ваши диалоги и сохраняет полезную
00:11:43информацию в файлы памяти для вашего конкретного проекта.
00:11:44Ее отключение означает, что система не будет отслеживать ваши привычки, но сэкономит токены, не работая
00:11:49в фоновом режиме.
00:11:52Есть еще один флаг — disable background task, который останавливает фоновые процессы от
00:11:56постоянного потребления токенов.
00:11:57Сюда входят "сон" (dream), рефакторинг и очистка памяти, а также фоновая индексация.
00:12:00Отключение этого помогает сберечь токены, потому что даже если вы не в чате,
00:12:02эти процессы все равно продолжали бы работать над вашим диалогом.
00:12:06Также стоит отключать функцию мышления (thinking), когда она не нужна, потому что мышление занимает много
00:12:10места в контексте и сильно тратит токены на задачах, где оно излишне.
00:12:13Это отличается от настройки уровня усилий (effort level), которую мы обсуждали ранее.
00:12:16Настройка усилий контролирует глубину рассуждений Claude внутри ответа: меньше усилий —
00:12:20меньше раздумий, но они все равно есть.
00:12:23Полное отключение мышления убирает внутренний этап рассуждений, и Claude просто
00:12:28генерирует ответ напрямую.
00:12:30Так что если задача не требует глубокого анализа, отключайте мышление совсем.
00:12:34Если же анализ нужен, но не глубокий, просто понизьте уровень усилий.
00:12:35Наконец, задайте конкретное число для параметра max output tokens.
00:12:39Значения по умолчанию нет, но это ограничение контролирует объем генерации модели.
00:12:43Установите его пониже, если хотите агрессивно экономить токены, или повысьте, если задача требует
00:12:46длинных ответов.
00:12:50Шаблон Claude.md и другие ресурсы доступны в AI Labs Pro для этого видео
00:12:55и для всех наших предыдущих роликов — оттуда вы можете скачать их и использовать в своих проектах.
00:12:56Если вы цените то, что мы делаем, и хотите поддержать канал, это лучший способ
00:13:00сделать это.
00:13:05Ссылка в описании.
00:13:09На этом мы подошли к концу видео.
00:13:10Если вы хотите поддержать канал и помочь нам продолжать выпускать подобные ролики,
00:13:11вы можете сделать это с помощью кнопки Super Thanks ниже.
00:13:13Как всегда, спасибо за просмотр, и увидимся в следующем выпуске!
00:13:17сделав это с помощью кнопки Super Thanks ниже.
00:13:19Как всегда, спасибо за просмотр, и увидимся в следующем выпуске!

Key Takeaway

Оптимизация лимитов Claude Code достигается через агрессивное сокращение контекста с помощью команд clear, compact и rewind, а также через разделение правил проекта на модульные файлы объемом менее 300 строк.

Highlights

Тариф Pro за 20 долларов дает около 45 сообщений за 5-часовое окно, в то время как план Max предоставляет 225 сообщений.

Модель Claude Opus потребляет в 3 раза больше токенов на один и тот же запрос по сравнению с моделью Sonnet.

Команда rewind или двойное нажатие клавиши Escape удаляют ошибочные реализации кода из контекстного окна, предотвращая их повторную отправку модели.

Эффективный файл Claude.md должен содержать менее 300 строк и включать только уникальные инструкции, которых нет в базе знаний модели по умолчанию.

Отключение параметра disable prompt caching в настройках .claude позволяет кэшировать повторяющиеся префиксы и платить только за новый сгенерированный контент.

Команда 'by the way' открывает отдельное окно сессии для уточняющих вопросов, что исключает побочный контент из основного контекста диалога.

Timeline

Механика лимитов и тарифных планов Claude

  • Лимиты сообщений рассчитываются строго внутри 5-часового окна, которое активируется первым отправленным запросом.
  • Интенсивность использования в последний час окна не сбрасывает таймер, требуя полного истечения 5 часов для обновления счетчика.
  • Общий лимит аккаунта распределяется между всеми устройствами и интерфейсами, включая десктопное приложение и веб-версию.
  • Anthropic сокращает доступное количество сообщений в периоды пиковой нагрузки на серверы.

Расход лимита напрямую зависит от выбранной модели и сложности задачи. Использование Opus значительно сокращает количество доступных сообщений из-за высокой ресурсоемкости. План Max 20x за 100 долларов расширяет возможности до 900 сообщений, однако даже этот объем быстро исчерпывается при выполнении задач с использованием множества инструментов.

Инструменты управления контекстом внутри сессии

  • Команда clear полностью обнуляет историю сообщений при переходе к новому этапу работы, например от разработки к тестированию.
  • Функция compact заменяет подробную историю диалога краткой выжимкой для экономии места в контекстном окне.
  • Команда rewind возвращает состояние кода и диалога к точке до совершения ошибки, предотвращая раздувание контекста неверными данными.
  • Предварительное планирование сокращает итоговый расход токенов за счет исключения последующих исправлений реализации.

Каждое новое сообщение в Claude Code по умолчанию включает в себя всю предыдущую переписку, системные промпты и описание инструментов. Без регулярной очистки или уплотнения объем передаваемых данных растет экспоненциально. Использование горячих клавиш, таких как двойной Escape, позволяет мгновенно прервать некорректную генерацию и очистить контекст.

Архитектура проекта и оптимизация файлов правил

  • Файл Claude.md не должен содержать стандартные команды вроде запуска серверов, так как модель обладает этими знаниями по умолчанию.
  • Разделение правил на специфические документы по путям (database, schema) позволяет Claude подгружать информацию только при необходимости.
  • Флаг append system prompt эффективнее разовых правок в Claude.md для временных инструкций внутри одной сессии.
  • Навыки (skills) обеспечивают прогрессивную загрузку только нужных частей логики для конкретного аспекта задачи.

Избыточные инструкции в файле конфигурации Claude.md приводят к лишним тратам на каждом шаге взаимодействия, так как этот файл загружается в начале каждой сессии. Оптимальная структура предполагает наличие компактного основного файла и ссылок на второстепенные документы. Это заставляет агента фокусироваться на актуальных деталях, не перегружая рабочую память всей архитектурой проекта сразу.

Техническая настройка параметров .claude

  • Установка effort level на значение low экономит токены на простых задачах, не требующих глубоких рассуждений.
  • Отключение функций auto memory и background task останавливает фоновое потребление ресурсов на индексацию и рефакторинг.
  • Полное отключение функции thinking убирает этап внутренних рассуждений, переводя модель в режим прямой генерации ответов.
  • Параметр max output tokens позволяет жестко ограничить длину ответов модели для агрессивной экономии.

Кэширование промптов является ключевым фактором снижения стоимости, так как повторно отправляемые префиксы обрабатываются бесплатно. Использование скриптов-хуков (hooks) позволяет фильтровать данные перед их попаданием в контекст, например, передавая только проваленные тесты вместо полных отчетов. Переключение между моделями Sonnet и Haiku в зависимости от сложности текущего шага дополнительно растягивает доступный лимит сообщений.

Community Posts

View all posts