클로드 코드(Claude Code)의 새로운 메타 'Caveman' (과학적 근거 포함)

CChase AI
컴퓨터/소프트웨어경영/리더십AI/미래기술

Transcript

00:00:00클라우드 코드를 원시인처럼 말하게 만드는 것이 단지 토큰을 아끼는 일만은 아닐 겁니다.
00:00:04실제로 성능을 향상시킬 수도 있죠. 사실 겉으로 보기에는
00:00:07완전히 장난처럼 들릴 수 있습니다. 'caveman'이라는 깃허브 저장소가 있는데
00:00:1272시간 만에 별 5,000개를 받았습니다.
00:00:15이 도구가 하는 일은 클라우드 코드가 네안데르탈인처럼 말하게 강제하는 것뿐입니다.
00:00:19모든 미사여구를 제거하죠. 아이디어는 답변을 더 간결하게 만들어서
00:00:24그 과정에서 엄청난 양의 토큰을 절약하자는 것입니다.
00:00:27하지만 이 저장소 안에는 몇 주 전에 발표된
00:00:31연구 논문 링크가 숨겨져 있습니다.
00:00:31그 논문은 대규모 언어 모델이 더 간결하게 말하도록 강제하면
00:00:36토큰을 아낄 뿐만 아니라 성능을 극적으로 향상시킬 수 있다고 말합니다.
00:00:40그래서 오늘은 이 '원시인 기술'에 대해 파헤쳐 보려고 합니다.
00:00:42이 기술이 실제로 어떤 이득을 주는지 설명해 드릴게요. 저장소에 적힌 수치들은
00:00:46약간 오해의 소지가 있거든요. 그리고 이 연구 논문을 함께 살펴보면서
00:00:50이것이 여러분에게 실제로 무엇을 의미하는지 알아보겠습니다. 이것이 바로 'caveman'입니다.
00:00:54우리 식으로는 "긴 말 필요 없다, 짧은 말이 최고다" 저장소라고 할 수 있죠.
00:00:58자, 당장 무엇을 하는 도구일까요? 아주 간단합니다.
00:01:02클라우드 코드의 미사여구를 잘라내는 겁니다. 이제 원시인처럼 말하게 되죠.
00:01:07전후 예시를 보여주고 토큰 차이를 알려주며
00:01:11작업 목록을 보여주는 전체 벤치마크 리스트도 있습니다. 클라우드 코드에게
00:01:15리액트 리렌더링 버그를 설명하라고 시켰을 때, 일반적인 토큰 사용량과
00:01:19원시인 모드의 토큰 사용량, 그리고 절약된 양을 보여줍니다.
00:01:21이 저장소에서 제시하는 수치들은 꽤나 놀랍습니다.
00:01:23그들의 주장에 따르면 이 기술을 통해
00:01:26기술적인 정확도는 그대로 유지하면서 출력 토큰의 75%를
00:01:30줄일 수 있다고 합니다.
00:01:31이 원시인 모드는 클라우드 코드가 내부적으로 추론하는 방식을 바꾸지는 않습니다.
00:01:35실제로 코드를 생성하는 방식도 바꾸지 않죠. 그런 건 전혀 변하지 않습니다.
00:01:38단지 출력물, 즉 여러분이 보는 답변만 바뀝니다.
00:01:41또한 메모리 파일을 압축해 주는 동반 도구도 포함되어 있습니다.
00:01:45claud.md 같은 파일을 원시인 말투로 바꾸는 것이죠.
00:01:47그렇게 하면 매 세션마다 입력 토큰을 45% 줄일 수 있다고 합니다.
00:01:52하지만 분명히 짚고 넘어갑시다. 전체 출력 토큰의 75%를 줄이거나
00:01:57전체 입력 토큰의 45%를 줄이는 것은 아닙니다. 그건 사실이 아니에요.
00:02:01비록 여기 자료에 "리액트 리렌더링 버그 설명에서
00:02:03토큰을 87% 절약했다"고 나와 있더라도 말이죠.
00:02:07클라우드 코드에서 받는 프롬프트, 즉 응답 그 자체와
00:02:11텍스트는 전체 출력 토큰의 아주 작은 부분일 뿐입니다.
00:02:15메모리 파일도 마찬가지입니다.
00:02:17claud.md 파일은 전체 입력 토큰에서 아주 일부분에 불과하니까요.
00:02:21그러니 이 기술이 토큰 관점에서 실제로 주는 이득이 무엇인지 명확히 합시다.
00:02:25전체 토큰의 80%를 아끼는 게 아닙니다. 더 이해하기 쉽게
00:02:28평균적인 10만 토큰 규모의 클라우드 코드 세션을 분석해 보죠.
00:02:32세션마다 다르겠지만, 일단 제 설명을 따라와 보세요.
00:02:3610만 토큰 세션이 있고, 이는 두 부분으로 나뉩니다.
00:02:40가장 큰 비중을 차지하는 입력 토큰과
00:02:4225%를 차지하는 출력 토큰입니다. 입력은 7만 5천 토큰 정도겠죠.
00:02:46원시인 모드는 출력을 75% 줄여준다고 주장합니다.
00:02:51하지만 그건 사실이 아닙니다. 출력을 살펴보면 세 부분으로 나뉩니다.
00:02:56도구 호출(tool calls)이 한 부분을 차지하고, 실제 코드 생성인
00:02:59코드 블록이 또 한 부분을 차지합니다.
00:03:02그리고 실제 텍스트 응답, 즉 설명 문구 부분이 있는데
00:03:06내부적인 텍스트 응답, 바로 이것이 원시인 모드가 조정하는 부분입니다.
00:03:10이 부분을 줄이는 것이죠. 이 부분의 75%는 줄일 수 있습니다.
00:03:13아래를 보면 알 수 있듯이,
00:03:16일반적으로 설명 문구가 6,000토큰을 차지한다면 원시인 모드를 통해
00:03:204,000토큰을 아낍니다. 결과적으로 전체의 4%를 줄이는 셈이죠. 이것도 훌륭합니다.
00:03:25일주일 동안 전체 토큰의 4%를 아낄 수 있다면
00:03:29그 양은 분명히 쌓이게 될 것이고,
00:03:30특히 우리 모두가 사용량에 민감한 요즘 같은 환경에서는 더 그렇죠.
00:03:33하지만 이게 87%는 아니라는 점을 이해해야 합니다. 70%나
00:03:3860%라고 해도, 그건 전체 세션 중 극히 일부의 일부일 뿐입니다.
00:03:43게다가,
00:03:44입력 쪽에서 원시인 압축 방식이 45%를 아껴준다는 것도
00:03:49사실은 그렇지 않습니다.
00:03:50시스템 프롬프트 영역, 그것도 시스템 프롬프트의 특정 부분만 해당됩니다.
00:03:54그러니까 총합으로 따지면 아마 1,000토큰,
00:03:58많아야 2,000토큰 정도 아끼는 겁니다. 다시 말씀드리지만, 전체 세션 기준으로요.
00:04:03세션당 5,000토큰, 즉 5%를 아낀다면 아주 좋고 유용한 일이지만
00:04:07광고하는 것처럼 엄청난 수치는 아닙니다. 그러니 시작하기 전에 이 점을 이해하세요.
00:04:13이것은 효율을 조금 높이는 수단이지, 판을 완전히 바꾸는 건 아닙니다.
00:04:1575%를 아낀다고 해서 사용 한도가 5배인 플랜을 20배처럼
00:04:19쓸 수 있게 되는 건 아닙니다. 절대 아니죠.
00:04:22하지만 여전히 추가할 가치가 충분하고, 끌어낼 수 있는 가치는 더 많습니다.
00:04:25저장소 안에 숨겨진 연구 논문을 살펴보면 말이죠.
00:04:29그것에 할애된 작은 섹션이 하나 있는데,
00:04:31이 연구의 제목은 '간결성 제약,
00:04:34언어 모델의 성능 계층 구조 반전'입니다.
00:04:36이 논문은 올해 3월 초에 발표되었습니다.
00:04:38설명란에 연구 링크를 걸어둘 테니 직접 확인해 보셔도 좋지만,
00:04:41정말 흥미로운 내용이라 간단히 이야기해 보겠습니다.
00:04:45보통의 생각과 기대는 모델이 클수록
00:04:49작은 모델보다 항상 더 낫다는 것입니다. 글쎄요,
00:04:53이 연구에 따르면 꼭 그렇지만은 않습니다.
00:04:56이 연구에서 31개의 모델을 대상으로 1,500개의
00:05:01문제를 평가했는데,
00:05:02과도한 상세 설명으로 인해 오류를 유발하는 '자발적 규모 의존적 다변'이라는
00:05:07메커니즘을 발견했습니다. 이게 대체 무슨 뜻일까요?
00:05:111,500개의 문제와 31개의 모델 전체에서 거의 8%의 문제에 대해,
00:05:16더 큰 언어 모델, 즉
00:05:19매개변수가 더 많은 모델이 작은 모델보다 성능이 28% 포인트나
00:05:24낮게 나왔다는 뜻입니다. 일부 사례에서는 매개변수가 100배나 더 많은데도 말이죠.
00:05:28어떤 시나리오가 있었냐면, 이건 모두 공개 가중치 모델 기준입니다만,
00:05:3220억 개의 매개변수를 가진 모델이 4,000억 개의 매개변수를 가진
00:05:37모델보다 더 나은 성능을 보였습니다. 이런 일이 여러 번 발생했어요. 정말 미친 일이죠.
00:05:41왜 그럴까요?
00:05:43연구진이 가정한 이유는 이러한 대규모
00:05:49언어 모델들이 말을 너무나도 많이 하기 때문입니다.
00:05:51지나치게 장황해서 스스로 논리가 꼬여버리고
00:05:55결국 잘못된 답을 내놓게 된다는 것이죠. 연구에서
00:05:58대규모 모델에게 짧게 답변하도록 제약을 가하자,
00:06:02즉 원시인처럼 답변하게 하자 정확도가 26% 포인트 향상되었고
00:06:07성능 격차를 최대 3분의 2까지 줄였습니다.
00:06:09많은 경우, 대규모 언어 모델이 더 간결해지고
00:06:14원시인처럼 행동하도록 강제함으로써 역학 관계가 완전히 바뀌었습니다. 이전에는
00:06:18작은 모델에게 지고 있었지만, 이제는 압승을 거두게 된 것이죠.
00:06:21이 깃허브 저장소 맥락에서 보면 정말 놀라운 사실입니다. 물론
00:06:26이것들은 공개 가중치 모델들이고, Opus 4.6 같은 건 아닙니다.
00:06:29Codex 5.4 같은 모델도 아니죠.
00:06:30최첨단 프론티어 모델들도 이와 똑같은 행동을 보일까요?
00:06:34우리가 확실히 알 수는 없습니다만,
00:06:36이런 연구들을 보셨다면 아시겠지만 여기서 발견된 현상들은 보통
00:06:40프론티어 모델에서도 어느 정도 반복되는 경향이 있습니다.
00:06:44이만큼 극단적이지는 않더라도 분명히 일리가 있을 겁니다.
00:06:47연구의 나머지 부분은 테스트를 어떻게 진행했는지,
00:06:51상관관계와 인과관계를 어떻게 구별하려 했는지, 그리고 왜 이것이
00:06:55문제라고 생각하는지에 대해 상세히 다룹니다. 앞서 말씀드린 것처럼,
00:06:57대규모 모델이 과도하게 장황한 답변을 생성하여
00:07:02올바른 추론을 가려버리는데, 이를 '과잉 생각(overthinking)'이라고 명명했습니다.
00:07:06필요 이상으로 너무 많은 것을 내놓으려 하는 것이죠.
00:07:07그냥 답만 주고 빠지면 될 것을,
00:07:10말을 너무 많이 하다가 스스로 오답의 함정에 빠지는 겁니다.
00:07:13연구진은 철저함에 대한 학습된 경향이
00:07:17오히려 역효과를 내어 오류 축적을 유발한다고 구체적으로 언급합니다.
00:07:21간결성 제약은 대규모 모델에는 극적인 도움을 주지만
00:07:25작은 모델에는 거의 영향을 미치지 않았습니다. 당연히 이런 의문이 드실 겁니다. 도대체 왜,
00:07:28왜 유독 큰 모델들이 이런 문제를 겪는 걸까요?
00:07:31그들은 강화 학습(RL)을 그 원인으로 지목합니다.
00:07:34새로운 모델을 훈련시킬 때,
00:07:36예를 들어 Opus 5.0이 훈련 과정에 있다고 가정해 봅시다.
00:07:40그 과정의 일부로 강화 학습을 진행하게 됩니다.
00:07:42앤스로픽(Anthropic)이 구체적으로 그렇게 하는지는 모르겠지만,
00:07:44많은 모델들이 이 방식을 사용합니다.
00:07:45기본적으로 새로운 모델을 만들고 사람이 와서 그 답변에 점수를 매깁니다.
00:07:50여러 답변을 보여주면 사람이
00:07:52"이 답변이 저것보다 더 마음에 들어"라고 말하죠. 연구에 따르면
00:07:55사람들은 더 장황하고 철저해 보이는 답변을 선호하는 경향이 있습니다.
00:08:00그리고 그 때문에,
00:08:01이 대규모 모델들은 간결함이나 심지어 정확함보다는
00:08:05더 장황하게 말하도록 훈련되는 셈입니다.
00:08:08하지만 여기서 핵심은 간결성 제약이 성능 계층 구조를 완전히 뒤집었다는 점입니다.
00:08:12이전에는 지고 있었지만, 단순히 "더 간결하게 말해"라고
00:08:14주문하는 것만으로 이기기 시작했습니다.
00:08:18생각하는 방식을 바꾼 것도 아니고 내부의 무엇을 바꾼 것도 아닙니다.
00:08:20그저 원시인이 되라고 했을 뿐이죠. 그들이 이 깃허브 도구를 직접 쓴 건 아니지만
00:08:25원리는 똑같습니다.
00:08:28그래서 제가 이 프로젝트가 단순히 장난이 아니라 꽤나 흥미롭다고 생각하는 겁니다.
00:08:31단순히 재미있는 밈을 넘어서,
00:08:32토큰 절약이라는 확실한 장점도 있고,
00:08:375%의 토큰을 아끼는 건 결코 우스운 일이 아닙니다.
00:08:39특히 무제한 플랜을 쓰고 있지 않다면 더더욱 그렇죠.
00:08:41하지만 이 방식 덕분에 실제로 더 나은 결과물을 얻을 가능성이 있다면,
00:08:44특히 더 직관적인 질문들에서 말이죠.
00:08:47해당 연구를 깊이 파고들어 보면
00:08:49어떤 질문들에서 이런 문제와 역학 관계가 나타나는지 분류해 두었습니다.
00:08:53매우, 매우 흥미롭습니다.
00:08:56그래서 한 번쯤 살펴볼 가치가 있다고 생각합니다.
00:08:58사용법도 아주 간단합니다. 그냥 기술(skill) 세트일 뿐이니까요.
00:09:02한 줄의 명령어로 설치하고 실행하기만 하면 됩니다.
00:09:06슬래시 caveman(/caveman)으로 호출하거나, 그냥
00:09:09"원시인처럼 말해줘"나 "토큰 좀 아껴줘"라고 말하면 됩니다. 단계별 설정도 있어요.
00:09:13방금 바다에서 기어 나온 듯한 '울트라 원시인' 모드도 가능합니다.
00:09:17똑바로 서 있기도 힘든 수준이죠. 그리고 가벼운 모드도 있습니다.
00:09:21취향에 따라 다양한 수준의 원시인 모드를 즐길 수 있습니다.
00:09:24그리고 모든 것에 무차별적으로 적용되는 것도 아닙니다.
00:09:25에러 메시지 같은 것은 정확하게 인용합니다. 다시 말하지만,
00:09:29코드와 관련된 것, 생성과 관련된 것,
00:09:31내부적인 모든 로직은 그대로 유지됩니다. 생각하는 방식 자체를 바꾸는 게 아니니까요.
00:09:35결론적으로 저는 이것이 시도해 볼 가치가 있다고 봅니다. 설치도 간단하고
00:09:37토큰도 아껴주며 딱히 단점도 없습니다. 게다가 연구 결과에 따르면
00:09:42출력 품질 면에서도 잠재적인 이득이 있습니다.
00:09:45만약 원시인 말투 자체가 마음에 들지 않더라도,
00:09:48적어도 여러분의 설정 파일에
00:09:52"간결하게, 미사여구 없이, 핵심만, 짧게 말해라"라는
00:09:56문구 한 줄 정도는 넣는 것이 좋다는 걸 시사합니다.
00:09:59토큰뿐만 아니라 앞서 본 것처럼
00:10:03실제 답변의 질에도 분명히 이점이 있기 때문입니다.
00:10:06오늘 준비한 내용은 여기까지입니다.
00:10:07겉으로 보기에는 그냥 재미로 만든 프로젝트 같았던
00:10:11'caveman Claude'는 사실 꽤나 묵직한 내용과
00:10:15과학적인 근거를 배경에 깔고 있습니다.
00:10:17그래서 실제로 적용해 볼 만한 충분한 가치가 있다고 생각합니다.
00:10:21언제나 그렇듯 댓글로 여러분의 생각을 알려주세요.
00:10:25Chase AI를 꼭 확인해 보시기 바랍니다.
00:10:26저의 클라우드 코드 마스터 클래스를 듣고 싶다면 말이죠.
00:10:29앞으로 며칠 내로 더 많은 업데이트가 올라올 예정입니다.
00:10:33그럼 다음에 다시 뵙겠습니다.

Key Takeaway

클로드 코드를 원시인처럼 간결하게 말하도록 강제하는 'Caveman' 기술은 토큰 사용량을 5% 내외로 절약할 뿐만 아니라, LLM의 장황함으로 인한 추론 오류를 방지하여 답변의 정확도를 극적으로 높입니다.

Highlights

Caveman 모드는 클로드 코드의 출력 토큰 중 설명 문구 부분을 75%까지 절약하여 전체 세션 토큰의 약 4%를 줄입니다.

2026년 3월 연구에 따르면 대규모 언어 모델(LLM)에 간결성 제약을 가했을 때 정확도가 최대 26% 포인트 향상되었습니다.

매개변수가 100배 더 많은 대형 모델이 과도한 장황함으로 인해 20억 개 매개변수의 소형 모델보다 성능이 28% 포인트 낮게 측정되는 사례가 발견되었습니다.

강화 학습(RL) 과정에서 사람들이 더 상세하고 긴 답변을 선호하도록 점수를 매기는 경향이 모델의 '과잉 생각'과 오답 유발의 원인으로 지목되었습니다.

메모리 파일인 claud.md를 원시인 말투로 압축하면 매 세션 시작 시 입력 토큰을 최대 45%까지 절약할 수 있습니다.

Timeline

Caveman 프로젝트의 개요와 토큰 절약 수치

  • Caveman은 클로드 코드의 미사여구를 제거하고 원시인처럼 짧게 말하도록 강제하는 깃허브 저장소입니다.
  • 기술적인 정확도와 코드 생성 로직은 그대로 유지하면서 출력 텍스트의 부피만 줄입니다.
  • claud.md 메모리 파일을 압축하여 입력 토큰을 절약하는 동반 도구를 포함합니다.

이 도구는 출시 72시간 만에 별 5,000개를 받으며 주목받았습니다. 개발자가 보는 답변의 미사여구만 제거할 뿐 내부 추론 방식이나 실제 코드 작성 방식에는 영향을 주지 않습니다. 리액트 리렌더링 버그 설명 예시에서 텍스트 응답의 상당 부분을 절약하는 성과를 보여줍니다.

실질적인 토큰 절약 효과 분석

  • 전체 세션 토큰 중 설명 문구가 차지하는 비중이 낮아 실제 절약률은 약 4~5% 수준입니다.
  • 출력 토큰은 도구 호출, 코드 블록, 설명 문구로 나뉘며 이 중 설명 문구만 축소 대상입니다.
  • 시스템 프롬프트의 특정 부분만 압축하므로 입력 토큰 절약량은 세션당 1,000~2,000토큰 정도입니다.

10만 토큰 규모의 세션을 기준으로 분석했을 때, 광고되는 75~87%의 절약 수치는 전체가 아닌 특정 영역에 한정된 결과입니다. 하지만 사용량 제한이 엄격한 환경에서 세션당 5,000토큰을 꾸준히 아끼는 것은 실질적인 비용 및 한도 관리에 도움이 됩니다. 이는 판도를 바꾸는 수준은 아니지만 효율적인 최적화 수단입니다.

간결성 제약이 성능을 높이는 과학적 근거

  • 대형 모델이 말을 너무 많이 하다가 스스로 논리가 꼬여 오류를 범하는 '과잉 생각' 현상이 확인되었습니다.
  • 간결하게 답변하도록 제약하면 대규모 모델의 정확도가 26% 포인트 향상되어 성능 계층 구조가 역전됩니다.
  • 철저함에 대한 학습된 경향이 오히려 역효과를 내어 오류 축적을 유발하는 메커니즘이 존재합니다.

31개 모델과 1,500개 문제를 대상으로 한 연구 결과, 대형 모델이 소형 모델보다 성능이 뒤처지는 사례의 원인이 장황함으로 밝혀졌습니다. 원시인처럼 짧게 답하게 만들었을 때 모델 간의 성능 격차가 최대 3분의 2까지 줄어들었습니다. 이는 모델이 답만 내놓지 않고 불필요한 설명을 덧붙이다가 오답의 함정에 빠지기 때문입니다.

장황함의 원인과 실전 적용 가이드

  • 인간이 더 길고 상세한 답변에 높은 점수를 주는 강화 학습(RL) 과정이 모델을 장황하게 만들었습니다.
  • Caveman 도구는 에러 메시지와 같은 핵심 정보 인용 시에는 정확성을 유지합니다.
  • 설정 파일에 '핵심만 짧게 말하라'는 지시문을 추가하는 것만으로도 출력 품질 향상을 기대할 수 있습니다.

훈련 과정에서 사람들의 선호도가 반영되어 모델은 정확성보다 장황함을 우선시하게 되었습니다. Caveman은 이를 교정하는 실무적인 해결책이며, 명령어 한 줄로 설치하여 다양한 강도의 원시인 모드를 선택할 수 있습니다. 말투가 취향에 맞지 않더라도 간결함을 강조하는 프롬프트를 사용하는 것이 토큰 절약과 답변 질 향상에 모두 유리합니다.

Community Posts

View all posts