클로드 코드(Claude Code) 한계 문제 드디어 해결

AAI LABS
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00최근 클로드 코드(Claude code) 상태가 그리 좋지 않습니다.
00:00:02저희 팀은 매일 사용하는데, 지난 몇 주 동안 제한 수치를
00:00:06예상보다 훨씬 빠르게 다 써버리고 있습니다.
00:00:07100만 토큰 컨텍스트 창이 상황을 개선해 줄 줄 알았는데, 실제로는
00:00:12더 악화시켰습니다.
00:00:13이것이 저희가 클로드 코드를 더 오래 사용할 수 있는 최적화 방법을 연구한 이유입니다.
00:00:18제한 수치를 최대한 활용하는 방법으로 넘어가기 전에, 먼저
00:00:22클로드의 요금제와 제한 시스템이 실제로 어떻게 작동하는지 논의해 보겠습니다.
00:00:26이 섹션은 제한이 실제로 어떻게 작동하는지 익숙하지 않은 분들을 위해
00:00:30설명하는 부분입니다.
00:00:31클로드에는 유료 요금제인 프로(Pro)와 맥스(Max) 플랜이 있습니다.
00:00:34맥스는 가장 비싼 요금제이고, 프로는 월 20달러의 저렴한 요금제입니다.
00:00:38두 요금제 모두 무료 요금제에서는 사용할 수 없었던 다양한 기능에 접근할 수 있는데,
00:00:43클로드 코드, 코워크(co-work) 등이 포함됩니다.
00:00:45하지만 모두 동일한 규칙을 따릅니다.
00:00:46어떤 요금제든 5시간 단위의 창 내에서 보낼 수 있는
00:00:51메시지 수가 제한되어 있으며, 그 시간이 지나면 메시지 수가 초기화됩니다.
00:00:55제공되는 메시지 수는 요금제마다 다릅니다.
00:00:575시간의 창은 클로드 데스크톱, 웹 또는 기타 인터페이스에서
00:01:01첫 메시지를 보낼 때 시작됩니다.
00:01:03창이 시작된 후 보내는 각 메시지는 요금제에 설정된 제한 수치에 포함됩니다.
00:01:08사용자가 활발하게 사용 중일 때만 시간이 카운트될 것이라 예상하시겠지만,
00:01:11중간에 사용하지 않다가 5시간째에 집중적으로 사용하더라도,
00:01:15창은 계속 돌아가고 있으며 제한이 초기화될 때까지
00:01:20전체 5시간이 지날 때까지 기다려야 합니다.
00:01:215시간의 창은 기기에 구애받지 않습니다.
00:01:23따라서 같은 계정으로 여러 기기를 사용한다면, 모든 사용량이
00:01:27동일한 제한 수치 내에서 계산됩니다.
00:01:28프로 플랜의 경우, 5시간당 약 45개의 메시지를 보낼 수 있습니다.
00:01:32맥스 플랜은 225개를 주며, 100달러 요금제보다 비싼
00:01:37맥스 20배 플랜은 동일 시간 내에 900개의 메시지를 제공합니다.
00:01:41이 수치는 사용하는 모델에 따라 달라질 수 있는데, 소네트(Sonnet)는 더 많은 메시지를,
00:01:46오퍼스(Opus)는 더 적은 메시지를 제공하기 때문입니다.
00:01:47이 정도 메시지 수면 충분하다고 생각하실 수도 있습니다.
00:01:51하지만 이는 대략적인 수치일 뿐이며, 영향을 미치는 다른 요인들이 있습니다.
00:01:54첫 번째는 사용 중인 모델입니다.
00:01:56오퍼스 모델은 훨씬 강력하고 컴퓨팅 집약적이기 때문에 동일한 요청에 대해
00:02:01소네트보다 약 3배 더 많은 토큰을 소비합니다.
00:02:03따라서 오퍼스만 계속 사용한다면 5시간 동안 45개의 메시지를
00:02:08다 채우지 못하고 제한 수치가 훨씬 빨리 바닥날 것입니다.
00:02:10프로 플랜은 전반적인 제한 수치가 낮습니다.
00:02:12맥스 플랜의 경우, 한 개인은 충분히 사용할 수 있겠지만 보통
00:02:16조직 단위로 구매하여 팀원들에게 배분하기 때문에, 여러 명이
00:02:20함께 사용하면 한계가 금방 옵니다.
00:02:21저희 AI 랩스(AI labs)도 맥스 플랜을 구매해 팀원들에게 배분했습니다.
00:02:26그럼에도 제한이 자주 걸려, 이를 더 오래 유지할 수 있는
00:02:30방법을 연구하게 되었습니다.
00:02:31두 번째 요인은 수행 중인 작업의 유형입니다.
00:02:34컴퓨팅 집약적인 작업이나 여러 도구가 필요한 작업은 토큰을 많이 소비합니다.
00:02:38따라서 창이 평소보다 훨씬 빨리 소진되며 프로 플랜에서
00:02:43메시지 45개를 다 쓰지 못할 수도 있습니다.
00:02:44게다가 앤스로픽(Anthropic)은 최근 많은 사람이 몰리는 피크 시간대에
00:02:48세션 제한을 더 빠르게 줄이고 있습니다.
00:02:52그래서 실제 작업을 다 마치기도 전에 클로드 요금제 제한이 끝날 수 있습니다.
00:02:56그렇기 때문에 지금이야말로 주어진 창을 최대한 활용하고
00:03:00하루 종일 클로드를 효율적으로 사용하는 법을 배워야 할 때입니다.
00:03:02하지만 그전에, 저희 스폰서인 트윈(Twin)의 말씀을 잠시 들어보겠습니다.
00:03:05Zapier나 N8N 같은 도구로 자동화를 시도해 보셨다면 잘 아실 겁니다.
00:03:09경직된 워크플로우, 잦은 오류, 그리고 앱 연결에 낭비되는 시간들 말이죠.
00:03:13그리고 Claudebot 같은 로컬 에이전트는 보안 문제와 높은 비용이 따릅니다.
00:03:17트윈은 이를 바꿔놓습니다.
00:03:18자고 있는 동안에도 여러분 대신 일을 처리해 주는 노코드 AI 에이전트입니다.
00:03:21API가 있으면 API를 통해 연결하고, 없을 때는 즉석에서
00:03:26통합 기능을 구축하여 무한한 통합 라이브러리를 제공합니다.
00:03:29API가 아예 없더라도 트윈은 사람처럼 브라우징하고 상호작용할 수 있습니다.
00:03:33게다가 Perplexity, Gamma, VO3, Nanobanana 같은 도구들을 기본적으로 제공합니다.
00:03:38최근에는 트윈 API도 출시했습니다.
00:03:40따라서 어디서든 에이전트를 실행하고 기존 워크플로우에 연결할 수 있습니다.
00:03:44가장 좋은 점이요?
00:03:45이 에이전트들은 학습한다는 것입니다.
00:03:46문제가 생기면 스스로 고치고, 시간이 지날수록 개선되며 24시간 내내 작동합니다.
00:03:50더 이상 망가진 자동화 도구를 뒤치다꺼리하지 마세요.
00:03:52고정 댓글의 링크를 클릭해 트윈을 확인해 보세요.
00:03:55이제 클로드 코드의 소스 코드가 유출되었다는 사실을 이미 아실 수도 있습니다.
00:03:58많은 사람들이 분석을 통해 제한 수치를 의도보다
00:04:02더 빨리 소진하게 만드는 내부 문제들을 발견했습니다.
00:04:04그중 하나는 잘린 응답(truncated responses)이 컨텍스트에 그대로 남는 문제입니다.
00:04:07레이트 리밋(rate limit) 도달 같은 오류 메시지가 발생하면 부분적인
00:04:12응답이 생성될 수 있습니다.
00:04:13이때 클로드는 이전 컨텍스트와 함께 오류가 포함된 부분 응답을
00:04:17유지한 채 재시도합니다.
00:04:18이는 불필요한 정보로 컨텍스트를 비대하게 만들어 토큰을 낭비합니다.
00:04:22기술 목록(skill listings)도 빠른 접근을 위해 주로 주입되지만,
00:04:27이미 기술 도구를 통한 빠른 처리가 존재하기 때문에 큰 가치를 주지 못합니다.
00:04:31이와 유사한 다른 문제들도 몇 가지 더 있습니다.
00:04:33이런 이유들로 많은 사용자가 클로드 제한이 예상보다 빨리 끝난다고 불평합니다.
00:04:38공식적인 제한과 이런 숨겨진 토큰 낭비에 대응하려면, 제품을 빌드할 때
00:04:43클로드 코드를 더 오래 쓰기 위한 특정 조치를 취해야 합니다.
00:04:47저희 채널에서는 AI로 제품을 만드는 모든 노하우를 공유하고 있습니다.
00:04:51관련 영상을 더 보고 싶으시다면 구독하고 향후 영상들을 지켜봐 주세요.
00:04:55이전 영상을 보셨다면 이미 들어보셨을 팁부터 시작하겠습니다.
00:04:59첫 번째는 클리어(clear) 명령입니다.
00:05:00작업을 완료했고 이전 컨텍스트가 더 이상 필요하지 않을 때 사용하세요.
00:05:01예를 들어, 앱 구현을 마치고 테스트 단계로 넘어가려 할 때,
00:05:05이전의 구현 과정 컨텍스트는 필요 없습니다.
00:05:09따라서 리셋을 하고 깨끗한 컨텍스트 창에서 다음 작업을 시작하는 것이 좋습니다.
00:05:11하지만 때로는 컨텍스트 중 일부를 유지하고 싶을 때가 있죠.
00:05:15그럴 때는 대신 컴팩트(compact) 명령을 실행하면 됩니다.
00:05:18이는 전체 대화를 요약하여 컨텍스트 내 요약본만 남기고 공간을 확보합니다.
00:05:21이것들을 사용하라는 이유는 클로드가 메시지를 보낼 때마다
00:05:25시스템 프롬프트, 도구, 그리고 이전의 모든 대화 기록을 포함한
00:05:29지금까지의 전체 대화를 함께 보내기 때문입니다.
00:05:34메시지가 새로 추가될 때마다 이 크기는 계속 커지며,
00:05:35결과적으로 컨텍스트 창이 비대해지고 메시지당 토큰 사용량이 늘어납니다.
00:05:40압축(compacting)을 하더라도 메인 창에서 사이드 질문을 던진다면,
00:05:41여전히 무관한 내용으로 창을 비대하게 만드는 꼴입니다.
00:05:46따라서 간단한 사이드 질문은 '바이드웨이(by the way)' 명령을 사용하세요.
00:05:47그러면 별도의 세션 컨텍스트 창에서 응답합니다.
00:05:50이 사이드 질문은 다음에 보낼 메시지에 포함되지 않으므로,
00:05:53요청당 토큰 사용량을 줄일 수 있습니다.
00:05:57기획(planning)이 토큰을 많이 쓰는 작업처럼 들릴 수 있지만,
00:05:58프로젝트를 시작할 때는 반드시 이것부터 해야 합니다.
00:06:02기획에 시간을 쓰지 않으면, 나중에 클로드의 구현 방식이
00:06:03원하는 바와 맞지 않을 때 계속해서 수정해야 하기 때문입니다.
00:06:07기획에 토큰을 미리 투자하면 나중에 수정하는 데 드는
00:06:10훨씬 더 많은 토큰 낭비를 막을 수 있습니다.
00:06:14가끔 클로드가 지시사항을 제대로 따르지 않을 때가 있습니다.
00:06:15그럴 때 보통 올바른 구현 방식을 다시 프롬프트로 입력하곤 하죠.
00:06:18하지만 재입력 대신 리와인드(rewind) 명령을 실행하여
00:06:22클로드가 엇나간 메시지 이전의 대화 및 코드 시점으로 되돌리고
00:06:26프롬프트를 직접 수정할 수 있습니다.
00:06:31ESC 키를 두 번 눌러서 같은 동작을 수행할 수도 있습니다.
00:06:32이렇게 하면 잘못된 구현 내용이 컨텍스트 창에서 제거되어
00:06:35잘못된 출력값이 모델로 전송되지 않습니다.
00:06:39이 모든 명령은 세션 중에 토큰을 아끼는 데 도움이 됩니다.
00:06:41하지만 더 큰 영향은 애초에 프로젝트가 어떻게 구성되어 있느냐에서 옵니다.
00:06:44이미 Beemad나 SpecKit 같은 다양한 프레임워크를 사용해
00:06:47프로젝트를 구조화하셨을 수도 있습니다.
00:06:52하지만 이런 프레임워크 대다수는 사실 토큰을 많이 소모합니다.
00:06:53따라서 본인의 앱에 이를 적용한다면 토큰 제한에 더 빨리 도달할 것을 각오해야 합니다.
00:06:56맥스 플랜에서는 버틸 수 있을지 몰라도 프로 플랜에서는 확실히 무리입니다.
00:07:00프레임워크를 쓰지 않더라도 본인만의 설정을 했을 수 있습니다.
00:07:04Claude.md 파일을 만들기 위해 init 명령을 사용하셨을 텐데, 이는
00:07:07코드베이스를 훑어보고 Claude.md 파일을 자동으로 생성해 줍니다.
00:07:12생성은 해주지만, 여기에는 많은 문제점이 포함되어 있습니다.
00:07:14이 파일은 AI 에이전트에게 지침을 주기 위한 것이지만,
00:07:17AI가 이미 스스로 알고 있는 내용들을 나열하곤 합니다.
00:07:20예를 들어, 모든 개발 서버 실행에 사용되는 명령들을 보여주는데,
00:07:22클로드는 이미 그 방법을 알고 있습니다.
00:07:27서버 실행에 특별한 플래그를 쓰는 게 아니라면,
00:07:28그런 내용을 굳이 추가할 필요가 없습니다.
00:07:31아키텍처의 경우, 클로드는 파일 이름을 읽고 파일 시스템을 이해하며
00:07:32탐색에 활용하기 때문에 이름만 보고도 각 파일의 용도를 유추할 수 있습니다.
00:07:37따라서 추가적인 안내가 필요한 특수한 경우가 아니라면
00:07:41이런 종류의 지침은 정말로 필요하지 않습니다.
00:07:45Claude.md를 직접 작성한다면 이상적으로는 300줄 미만이어야 합니다.
00:07:47파일이 짧을수록 성능이 좋아지고 클로드가
00:07:52정말로 중요한 것에 더 집중할 수 있게 됩니다.
00:07:56이 파일은 모든 것을 설명하는 상세 매뉴얼이 아니라 가이드 파일 역할을 해야 합니다.
00:07:57포함되는 내용은 각 부분의 세부 사항을 한 파일에 다 몰아넣는 것이 아니라,
00:08:01프로젝트 전체에 범용적으로 적용되는 내용이어야 합니다.
00:08:05클로드가 하지 말아야 할 것, 본인의 개발 관행 등 클로드가
00:08:08기본적으로는 모를 법한 지침들만 Claude.md에 넣으세요.
00:08:13이 파일을 제대로 구성해야 하는 이유는 세션마다 한 번씩
00:08:16컨텍스트에 로드되어 계속 남아있기 때문입니다.
00:08:20즉, 불필요한 정보가 컨텍스트 창에 있으면 매 턴마다
00:08:22필요하지도 않은 토큰을 낭비하게 되는 셈입니다.
00:08:27데이터베이스, 스키마 등 다른 규칙이 필요한 특정 영역의 경우,
00:08:28문서를 별도로 분리하고 Claude.md 파일에서 링크를 거세요.
00:08:33이렇게 하면 클로드가 실제로 필요한 문서만 순차적으로 가져올 수 있습니다.
00:08:37이전 영상에서도 언급했듯이, 특정 경로에 특화된
00:08:41프로젝트 규칙을 만들면 클로드가 집중하는 데 도움이 됩니다.
00:08:45이렇게 하면 클로드는 컨텍스트에 관련 정보만 유지하고 불필요한 토큰 낭비를 피합니다.
00:08:48따라서 영역별 로직을 위한 규칙 파일을 별도로 분리하여
00:08:53클로드가 필요한 것만 로드할 수 있게 해야 합니다.
00:08:57또한 반복적인 워크플로우에는 기술(skills)을 활용하고, 스크립트와 참조를 추가해
00:08:58작업을 더 정확하게 수행할 수 있게 해야 합니다.
00:09:03기술을 사용하면 필요한 부분만 순차적으로 로드되므로
00:09:05클로드가 작업의 관련 측면에만 집중할 수 있게 해줍니다.
00:09:10스크립트로 묶어두면 프로그램적으로 처리할 수 있는 확정적 작업에
00:09:12토큰을 낭비하지 않아도 됩니다.
00:09:16파일을 분리하는 이유는 간단합니다.
00:09:17클로드가 한 부분을 작업할 때 상관없는 영역의 정보까지 알 필요는 없습니다.
00:09:19하지만 모든 것을 하나의 Claude.md 파일에 넣으면 매번 전체가 로드되어
00:09:24불필요한 토큰 사용으로 이어집니다.
00:09:29또한 '시스템 프롬프트 추가(append system prompt)' 플래그를 사용하여
00:09:30특정 지침을 시스템 프롬프트에 직접 추가할 수도 있습니다.
00:09:35모든 것을 Claude.md에 넣는 대신 해당 지침과 함께
00:09:36세션을 시작하는 방식입니다.
00:09:40이 지침들은 일시적이며 세션이 끝나면 사라집니다.
00:09:41컨텍스트를 늘리는 것처럼 들릴 수 있지만, 일회성 지침을
00:09:44Claude.md에 넣는 것보다 훨씬 효율적입니다.
00:09:48거기에 넣으면 클로드가 컨텍스트에 영구적으로 보관하여 토큰을 낭비하게 되니까요.
00:09:51추가(appending) 방식을 쓰면 딱 필요할 때만 지침을 제공할 수 있습니다.
00:09:56또한 저희 콘텐츠가 마음에 드신다면 하이프(hype) 버튼을 눌러주세요.
00:09:59더 많은 콘텐츠를 만들고 더 많은 분께 다가가는 데 큰 힘이 됩니다.
00:10:03사용 중인 모델의 노력(effort) 수준도 설정해야 합니다.
00:10:06많은 생각이 필요하지 않은 작업을 할 때는 '낮음(low)'으로 설정하세요.
00:10:10낮은 설정은 토큰을 절약해 줍니다.
00:10:14기본값은 '자동(effort auto)'으로 되어 있어 모델이 스스로 결정하지만
00:10:15수동으로 변경할 수 있습니다.
00:10:20작업이 복잡하지 않다면 높은 설정값을 쓸 필요가 없습니다.
00:10:21앞서 말씀드린 대로 오퍼스는 토큰 소모가 가장 심한 모델입니다.
00:10:25따라서 간단한 작업을 할 때는 하이쿠(Haiku)로 전환하세요.
00:10:28적당한 수준의 사고가 필요한 작업이라면 소네트를 사용하세요.
00:10:31오퍼스만큼 강력하진 않아도 여전히 효율적이며 토큰을 더 많이 아껴줍니다.
00:10:34프로젝트에 여러 MCP를 구성했는데 특정 기능이 필요 없다면,
00:10:39비활성화하여 컨텍스트 창에 불필요한 정보가 주입되는 것을 막으세요.
00:10:43또 다른 중요한 단계는 클로드의 컨텍스트 창에 포함되지 말아야 할
00:10:48내용을 걸러내는 훅(hooks)을 만드는 것입니다.
00:10:52예를 들어, 저는 프로젝트에 테스트 케이스를 설정해 두었습니다.
00:10:54실행하면 통과한 테스트와 실패한 테스트가 모두 보고되고
00:10:57그 모든 내용이 컨텍스트에 로드됩니다.
00:11:01하지만 클로드에게 중요한 것은 수정이 필요한 실패한 테스트뿐입니다.
00:11:02따라서 스크립트를 사용해 통과한 테스트는 컨텍스트에 들어오지 못하게 하고
00:11:05실패한 것만 포함되도록 훅을 만들 수 있습니다.
00:11:10이는 모든 테스트 보고서를 주입하는 것보다 훨씬 많은 토큰을 아껴줍니다.
00:11:13다른 작업들도 같은 방식으로 훅을 구성해 토큰 사용량을 최적화할 수 있습니다.
00:11:17그 외에도 성능 향상을 위해 .claud 폴더에서
00:11:21몇 가지 설정을 조정해야 합니다.
00:11:25첫 번째는 프롬프트 캐싱 비활성화를 '거짓(false)'으로 설정하는 것입니다.
00:11:27이렇게 하면 클로드가 자주 쓰이는 접두사를 캐시하여 토큰 사용량을 줄입니다.
00:11:30앤스로픽은 반복적으로 전송되는 부분에 대해서는 비용을 청구하지 않고,
00:11:34새로운 내용에 대해서만 비용을 받습니다.
00:11:38또한 자동 메모리(auto memory)를 비활성화하여 컨텍스트에 내용이 추가되어
00:11:39토큰 사용량이 늘어나는 것을 방지할 수 있습니다.
00:11:43자동 메모리는 대화를 분석하고 유용한 정보를 특정 프로젝트용
00:11:44메모리 파일로 통합하는 백그라운드 프로세스입니다.
00:11:49이를 끄면 습관을 추적하지는 않지만, 백그라운드 실행을 막아
00:11:52토큰을 절약할 수 있습니다.
00:11:56백그라운드 작업 비활성화(disable background task)라는 플래그도 있는데,
00:11:57백그라운드 프로세스가 토큰을 계속 소비하는 것을 막아줍니다.
00:12:00여기에는 드림(dream), 메모리 리팩토링 및 정리, 백그라운드 인덱싱이 포함됩니다.
00:12:02채팅을 하고 있지 않을 때도 이런 프로세스들이 대화 내용을 바탕으로
00:12:06작동할 수 있기 때문에 이를 끄는 것이 토큰 절약에 도움이 됩니다.
00:12:10또한 필요 없을 때는 생각(thinking) 기능을 꺼야 합니다. 생각 기능은
00:12:13컨텍스트를 많이 차지하며 필요 없는 작업에서도 토큰을 과도하게 낭비하기 때문입니다.
00:12:16이는 앞서 논의한 노력(effort) 설정과는 다릅니다.
00:12:20노력 설정은 클로드가 응답 내에서 추론하는 양을 조절하는 것이라,
00:12:23노력이 낮아도 여전히 생각은 합니다.
00:12:28생각을 완전히 비활성화하면 내부 추론 단계를 끄고
00:12:30클로드가 바로 응답을 생성하게 됩니다.
00:12:34따라서 깊은 추론이 필요 없는 작업이라면 생각 기능을 아예 끄세요.
00:12:35추론이 조금 필요하지만 많이는 아닐 때 노력 수준을 낮추면 됩니다.
00:12:39마지막으로 최대 출력 토큰 수를 특정 숫자로 설정하세요.
00:12:43기본값은 없지만, 이를 제한하면 모델이 생성하는 양을 조절할 수 있습니다.
00:12:46토큰을 공격적으로 아끼고 싶다면 낮게 설정하고,
00:12:50긴 출력이 필요하다면 값을 높이세요.
00:12:55Claude.md 템플릿과 기타 리소스는 AI 랩스 프로(AI Labs Pro)에서
00:12:56제공되며, 이전의 모든 영상 자료와 함께 다운로드하여 활용하실 수 있습니다.
00:13:00저희 활동이 도움이 되었고 채널을 후원하고 싶으시다면
00:13:05이 방법이 가장 좋습니다.
00:13:09링크는 설명란에 있습니다.
00:13:10이것으로 이번 영상의 끝에 도달했네요.
00:13:11채널을 후원하고 이런 영상을 계속 만드는 데 도움을 주고 싶으시다면
00:13:13아래의 슈퍼 땡스(Super Thanks) 버튼을 이용해 주세요.
00:13:17언제나 시청해 주셔서 감사드리며, 다음 영상에서 뵙겠습니다.
00:13:19언제나 시청해 주셔서 감사드리며, 다음 영상에서 뵙겠습니다.

Key Takeaway

클로드 코드의 메시지 제한을 최적화하려면 불필요한 컨텍스트를 제거하는 clear·compact 명령을 활용하고, Claude.md 파일을 300줄 이내로 경량화하며, 백그라운드 작업 및 생각 기능을 전략적으로 비활성화해야 한다.

Highlights

클로드 프로 플랜은 5시간당 약 45개, 맥스 플랜은 225개, 맥스 20배 플랜은 900개의 메시지 제한을 적용한다.

오퍼스(Opus) 모델은 소네트(Sonnet)보다 약 3배 많은 토큰을 소비하여 메시지 제한 수치를 더 빠르게 소모한다.

Claude.md 파일은 프로젝트 전체에 적용되는 범용 지침만 포함하여 300줄 미만으로 유지하는 것이 토큰 효율에 유리하다.

리와인드(rewind) 명령이나 ESC 키를 두 번 누르는 동작으로 잘못된 구현 시점을 삭제하여 컨텍스트 비대화를 방지한다.

프롬프트 캐싱 비활성화를 거짓(false)으로 설정하면 반복되는 시스템 프롬프트나 대화 접두사에 대한 토큰 비용을 절감한다.

생각(thinking) 기능을 완전히 비활성화하면 모델의 내부 추론 단계를 생략하고 즉시 응답을 생성하여 컨텍스트 공간을 확보한다.

Timeline

클로드 요금제별 메시지 제한 및 작동 원리

  • 유료 요금제는 5시간 단위의 시간 창 내에서 보낼 수 있는 메시지 수가 정해져 있다.
  • 프로 플랜은 5시간당 45개, 맥스 플랜은 225개의 메시지를 제공하며 기기 구분 없이 합산된다.
  • 작업의 복잡도가 높거나 오퍼스 모델을 사용하면 실제 제공 메시지 수보다 훨씬 빨리 제한에 도달한다.

5시간의 창은 첫 메시지를 보내는 시점부터 시작하며 사용하지 않는 시간에도 계속 흐른다. 오퍼스 모델은 소네트 대비 3배의 컴퓨팅 자원을 사용하여 토큰 소모가 극심하다. 앤스로픽은 사용자가 몰리는 피크 시간대에 세션 제한을 더 공격적으로 적용하여 가용성을 조절한다.

내부 오류 및 컨텍스트 비대화 문제

  • 레이트 리밋 발생 시 생성된 부분 응답이 컨텍스트에 남아 토큰을 무의미하게 점유한다.
  • 불필요하게 주입되는 기술 목록(skill listings)은 실제 작업 효율 대비 컨텍스트 공간만 낭비한다.

클로드 코드의 내부 구조 분석 결과, 잘린 응답이나 오류 메시지가 포함된 기록이 재시도 시 함께 전송되는 문제가 발견되었다. 이는 대화가 길어질수록 요청당 토큰 사용량을 기하급수적으로 늘리는 원인이 된다. 공식적인 제한 외에도 이러한 내부적인 토큰 낭비 요소가 산재한다.

세션 내 토큰 절약을 위한 핵심 명령과 전략

  • 작업 단계가 바뀔 때는 clear 명령으로 이전 컨텍스트를 완전히 삭제한다.
  • 기존 맥락 유지가 필요하다면 compact 명령을 통해 전체 대화를 요약본으로 압축한다.
  • 사이드 질문은 by the way 명령을 사용하여 메인 세션 컨텍스트에 영향을 주지 않고 해결한다.

클로드는 매 메시지마다 시스템 프롬프트와 이전 대화 전체를 다시 보내기 때문에 세션 관리가 필수적이다. 리와인드(rewind) 명령은 잘못된 코드 생성 시점을 삭제하여 모델이 오류가 포함된 과거 데이터를 참조하지 않게 차단한다. 초기에 기획(planning)에 토큰을 투자하면 나중에 발생할 대규모 코드 수정과 그에 따른 토큰 낭비를 방지한다.

프로젝트 구조화 및 Claude.md 최적화

  • Claude.md 파일은 300줄 미만으로 작성하여 모델의 집중도와 토큰 효율을 높인다.
  • AI가 이미 알고 있는 일반적인 프레임워크 실행 명령어나 파일 아키텍처 설명은 삭제한다.
  • 영역별 규칙 파일(Rules)을 분리하여 클로드가 현재 작업 중인 경로의 정보만 로드하게 설계한다.

자동 생성된 Claude.md 파일은 종종 중복되고 불필요한 정보를 포함하므로 수동 편집이 권장된다. 데이터베이스 스키마와 같은 상세 문서는 별도 파일로 분리하고 Claude.md에서 링크만 걸어 필요할 때만 호출하게 한다. 특정 세션에서만 필요한 지침은 '시스템 프롬프트 추가' 플래그를 사용하여 영구적인 컨텍스트 비대화를 막는다.

모델 설정 및 백그라운드 프로세스 제어

  • 단순 작업은 하이쿠(Haiku) 모델을 사용하고 노력(effort) 수준을 낮게 설정한다.
  • 프롬프트 캐싱을 활성화하여 반복 구간에 대한 비용 발생을 억제한다.
  • 자동 메모리와 백그라운드 인덱싱 작업을 비활성화하여 유휴 시간의 토큰 소모를 차단한다.

생각(thinking) 기능을 끄면 추론 과정에 드는 토큰을 아끼고 즉각적인 답변을 얻을 수 있다. .claud 폴더의 설정값 조정을 통해 드림(dream)이나 메모리 리팩토링 같은 백그라운드 작업을 중단시킬 수 있다. 최대 출력 토큰 수를 수동으로 제한함으로써 모델이 지나치게 긴 응답을 생성하여 제한 수치를 깎아먹는 상황을 통제한다.

Community Posts

View all posts