클로드 코드(Claude Code)의 새로운 메타 'Caveman' (과학적 근거 포함)

한국어العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 Português Русский 中文

컴퓨터/소프트웨어경영/리더십AI/미래기술

Transcript

00:00:00클라우드 코드를 원시인처럼 말하게 만드는 것이 단지 토큰을 아끼는 일만은 아닐 겁니다.

00:00:04실제로 성능을 향상시킬 수도 있죠. 사실 겉으로 보기에는

00:00:07완전히 장난처럼 들릴 수 있습니다. 'caveman'이라는 깃허브 저장소가 있는데

00:00:1272시간 만에 별 5,000개를 받았습니다.

00:00:15이 도구가 하는 일은 클라우드 코드가 네안데르탈인처럼 말하게 강제하는 것뿐입니다.

00:00:19모든 미사여구를 제거하죠. 아이디어는 답변을 더 간결하게 만들어서

00:00:24그 과정에서 엄청난 양의 토큰을 절약하자는 것입니다.

00:00:27하지만 이 저장소 안에는 몇 주 전에 발표된

00:00:31연구 논문 링크가 숨겨져 있습니다.

00:00:31그 논문은 대규모 언어 모델이 더 간결하게 말하도록 강제하면

00:00:36토큰을 아낄 뿐만 아니라 성능을 극적으로 향상시킬 수 있다고 말합니다.

00:00:40그래서 오늘은 이 '원시인 기술'에 대해 파헤쳐 보려고 합니다.

00:00:42이 기술이 실제로 어떤 이득을 주는지 설명해 드릴게요. 저장소에 적힌 수치들은

00:00:46약간 오해의 소지가 있거든요. 그리고 이 연구 논문을 함께 살펴보면서

00:00:50이것이 여러분에게 실제로 무엇을 의미하는지 알아보겠습니다. 이것이 바로 'caveman'입니다.

00:00:54우리 식으로는 "긴 말 필요 없다, 짧은 말이 최고다" 저장소라고 할 수 있죠.

00:00:58자, 당장 무엇을 하는 도구일까요? 아주 간단합니다.

00:01:02클라우드 코드의 미사여구를 잘라내는 겁니다. 이제 원시인처럼 말하게 되죠.

00:01:07전후 예시를 보여주고 토큰 차이를 알려주며

00:01:11작업 목록을 보여주는 전체 벤치마크 리스트도 있습니다. 클라우드 코드에게

00:01:15리액트 리렌더링 버그를 설명하라고 시켰을 때, 일반적인 토큰 사용량과

00:01:19원시인 모드의 토큰 사용량, 그리고 절약된 양을 보여줍니다.

00:01:21이 저장소에서 제시하는 수치들은 꽤나 놀랍습니다.

00:01:23그들의 주장에 따르면 이 기술을 통해

00:01:26기술적인 정확도는 그대로 유지하면서 출력 토큰의 75%를

00:01:30줄일 수 있다고 합니다.

00:01:31이 원시인 모드는 클라우드 코드가 내부적으로 추론하는 방식을 바꾸지는 않습니다.

00:01:35실제로 코드를 생성하는 방식도 바꾸지 않죠. 그런 건 전혀 변하지 않습니다.

00:01:38단지 출력물, 즉 여러분이 보는 답변만 바뀝니다.

00:01:41또한 메모리 파일을 압축해 주는 동반 도구도 포함되어 있습니다.

00:01:45claud.md 같은 파일을 원시인 말투로 바꾸는 것이죠.

00:01:47그렇게 하면 매 세션마다 입력 토큰을 45% 줄일 수 있다고 합니다.

00:01:52하지만 분명히 짚고 넘어갑시다. 전체 출력 토큰의 75%를 줄이거나

00:01:57전체 입력 토큰의 45%를 줄이는 것은 아닙니다. 그건 사실이 아니에요.

00:02:01비록 여기 자료에 "리액트 리렌더링 버그 설명에서

00:02:03토큰을 87% 절약했다"고 나와 있더라도 말이죠.

00:02:07클라우드 코드에서 받는 프롬프트, 즉 응답 그 자체와

00:02:11텍스트는 전체 출력 토큰의 아주 작은 부분일 뿐입니다.

00:02:15메모리 파일도 마찬가지입니다.

00:02:17claud.md 파일은 전체 입력 토큰에서 아주 일부분에 불과하니까요.

00:02:21그러니 이 기술이 토큰 관점에서 실제로 주는 이득이 무엇인지 명확히 합시다.

00:02:25전체 토큰의 80%를 아끼는 게 아닙니다. 더 이해하기 쉽게

00:02:28평균적인 10만 토큰 규모의 클라우드 코드 세션을 분석해 보죠.

00:02:32세션마다 다르겠지만, 일단 제 설명을 따라와 보세요.

00:02:3610만 토큰 세션이 있고, 이는 두 부분으로 나뉩니다.

00:02:40가장 큰 비중을 차지하는 입력 토큰과

00:02:4225%를 차지하는 출력 토큰입니다. 입력은 7만 5천 토큰 정도겠죠.

00:02:46원시인 모드는 출력을 75% 줄여준다고 주장합니다.

00:02:51하지만 그건 사실이 아닙니다. 출력을 살펴보면 세 부분으로 나뉩니다.

00:02:56도구 호출(tool calls)이 한 부분을 차지하고, 실제 코드 생성인

00:02:59코드 블록이 또 한 부분을 차지합니다.

00:03:02그리고 실제 텍스트 응답, 즉 설명 문구 부분이 있는데

00:03:06내부적인 텍스트 응답, 바로 이것이 원시인 모드가 조정하는 부분입니다.

00:03:10이 부분을 줄이는 것이죠. 이 부분의 75%는 줄일 수 있습니다.

00:03:13아래를 보면 알 수 있듯이,

00:03:16일반적으로 설명 문구가 6,000토큰을 차지한다면 원시인 모드를 통해

00:03:204,000토큰을 아낍니다. 결과적으로 전체의 4%를 줄이는 셈이죠. 이것도 훌륭합니다.

00:03:25일주일 동안 전체 토큰의 4%를 아낄 수 있다면

00:03:29그 양은 분명히 쌓이게 될 것이고,

00:03:30특히 우리 모두가 사용량에 민감한 요즘 같은 환경에서는 더 그렇죠.

00:03:33하지만 이게 87%는 아니라는 점을 이해해야 합니다. 70%나

00:03:3860%라고 해도, 그건 전체 세션 중 극히 일부의 일부일 뿐입니다.

00:03:43게다가,

00:03:44입력 쪽에서 원시인 압축 방식이 45%를 아껴준다는 것도

00:03:49사실은 그렇지 않습니다.

00:03:50시스템 프롬프트 영역, 그것도 시스템 프롬프트의 특정 부분만 해당됩니다.

00:03:54그러니까 총합으로 따지면 아마 1,000토큰,

00:03:58많아야 2,000토큰 정도 아끼는 겁니다. 다시 말씀드리지만, 전체 세션 기준으로요.

00:04:03세션당 5,000토큰, 즉 5%를 아낀다면 아주 좋고 유용한 일이지만

00:04:07광고하는 것처럼 엄청난 수치는 아닙니다. 그러니 시작하기 전에 이 점을 이해하세요.

00:04:13이것은 효율을 조금 높이는 수단이지, 판을 완전히 바꾸는 건 아닙니다.

00:04:1575%를 아낀다고 해서 사용 한도가 5배인 플랜을 20배처럼

00:04:19쓸 수 있게 되는 건 아닙니다. 절대 아니죠.

00:04:22하지만 여전히 추가할 가치가 충분하고, 끌어낼 수 있는 가치는 더 많습니다.

00:04:25저장소 안에 숨겨진 연구 논문을 살펴보면 말이죠.

00:04:29그것에 할애된 작은 섹션이 하나 있는데,

00:04:31이 연구의 제목은 '간결성 제약,

00:04:34언어 모델의 성능 계층 구조 반전'입니다.

00:04:36이 논문은 올해 3월 초에 발표되었습니다.

00:04:38설명란에 연구 링크를 걸어둘 테니 직접 확인해 보셔도 좋지만,

00:04:41정말 흥미로운 내용이라 간단히 이야기해 보겠습니다.

00:04:45보통의 생각과 기대는 모델이 클수록

00:04:49작은 모델보다 항상 더 낫다는 것입니다. 글쎄요,

00:04:53이 연구에 따르면 꼭 그렇지만은 않습니다.

00:04:56이 연구에서 31개의 모델을 대상으로 1,500개의

00:05:01문제를 평가했는데,

00:05:02과도한 상세 설명으로 인해 오류를 유발하는 '자발적 규모 의존적 다변'이라는

00:05:07메커니즘을 발견했습니다. 이게 대체 무슨 뜻일까요?

00:05:111,500개의 문제와 31개의 모델 전체에서 거의 8%의 문제에 대해,

00:05:16더 큰 언어 모델, 즉

00:05:19매개변수가 더 많은 모델이 작은 모델보다 성능이 28% 포인트나

00:05:24낮게 나왔다는 뜻입니다. 일부 사례에서는 매개변수가 100배나 더 많은데도 말이죠.

00:05:28어떤 시나리오가 있었냐면, 이건 모두 공개 가중치 모델 기준입니다만,

00:05:3220억 개의 매개변수를 가진 모델이 4,000억 개의 매개변수를 가진

00:05:37모델보다 더 나은 성능을 보였습니다. 이런 일이 여러 번 발생했어요. 정말 미친 일이죠.

00:05:41왜 그럴까요?

00:05:43연구진이 가정한 이유는 이러한 대규모

00:05:49언어 모델들이 말을 너무나도 많이 하기 때문입니다.

00:05:51지나치게 장황해서 스스로 논리가 꼬여버리고

00:05:55결국 잘못된 답을 내놓게 된다는 것이죠. 연구에서

00:05:58대규모 모델에게 짧게 답변하도록 제약을 가하자,

00:06:02즉 원시인처럼 답변하게 하자 정확도가 26% 포인트 향상되었고

00:06:07성능 격차를 최대 3분의 2까지 줄였습니다.

00:06:09많은 경우, 대규모 언어 모델이 더 간결해지고

00:06:14원시인처럼 행동하도록 강제함으로써 역학 관계가 완전히 바뀌었습니다. 이전에는

00:06:18작은 모델에게 지고 있었지만, 이제는 압승을 거두게 된 것이죠.

00:06:21이 깃허브 저장소 맥락에서 보면 정말 놀라운 사실입니다. 물론

00:06:26이것들은 공개 가중치 모델들이고, Opus 4.6 같은 건 아닙니다.

00:06:29Codex 5.4 같은 모델도 아니죠.

00:06:30최첨단 프론티어 모델들도 이와 똑같은 행동을 보일까요?

00:06:34우리가 확실히 알 수는 없습니다만,

00:06:36이런 연구들을 보셨다면 아시겠지만 여기서 발견된 현상들은 보통

00:06:40프론티어 모델에서도 어느 정도 반복되는 경향이 있습니다.

00:06:44이만큼 극단적이지는 않더라도 분명히 일리가 있을 겁니다.

00:06:47연구의 나머지 부분은 테스트를 어떻게 진행했는지,

00:06:51상관관계와 인과관계를 어떻게 구별하려 했는지, 그리고 왜 이것이

00:06:55문제라고 생각하는지에 대해 상세히 다룹니다. 앞서 말씀드린 것처럼,

00:06:57대규모 모델이 과도하게 장황한 답변을 생성하여

00:07:02올바른 추론을 가려버리는데, 이를 '과잉 생각(overthinking)'이라고 명명했습니다.

00:07:06필요 이상으로 너무 많은 것을 내놓으려 하는 것이죠.

00:07:07그냥 답만 주고 빠지면 될 것을,

00:07:10말을 너무 많이 하다가 스스로 오답의 함정에 빠지는 겁니다.

00:07:13연구진은 철저함에 대한 학습된 경향이

00:07:17오히려 역효과를 내어 오류 축적을 유발한다고 구체적으로 언급합니다.

00:07:21간결성 제약은 대규모 모델에는 극적인 도움을 주지만

00:07:25작은 모델에는 거의 영향을 미치지 않았습니다. 당연히 이런 의문이 드실 겁니다. 도대체 왜,

00:07:28왜 유독 큰 모델들이 이런 문제를 겪는 걸까요?

00:07:31그들은 강화 학습(RL)을 그 원인으로 지목합니다.

00:07:34새로운 모델을 훈련시킬 때,

00:07:36예를 들어 Opus 5.0이 훈련 과정에 있다고 가정해 봅시다.

00:07:40그 과정의 일부로 강화 학습을 진행하게 됩니다.

00:07:42앤스로픽(Anthropic)이 구체적으로 그렇게 하는지는 모르겠지만,

00:07:44많은 모델들이 이 방식을 사용합니다.

00:07:45기본적으로 새로운 모델을 만들고 사람이 와서 그 답변에 점수를 매깁니다.

00:07:50여러 답변을 보여주면 사람이

00:07:52"이 답변이 저것보다 더 마음에 들어"라고 말하죠. 연구에 따르면

00:07:55사람들은 더 장황하고 철저해 보이는 답변을 선호하는 경향이 있습니다.

00:08:00그리고 그 때문에,

00:08:01이 대규모 모델들은 간결함이나 심지어 정확함보다는

00:08:05더 장황하게 말하도록 훈련되는 셈입니다.

00:08:08하지만 여기서 핵심은 간결성 제약이 성능 계층 구조를 완전히 뒤집었다는 점입니다.

00:08:12이전에는 지고 있었지만, 단순히 "더 간결하게 말해"라고

00:08:14주문하는 것만으로 이기기 시작했습니다.

00:08:18생각하는 방식을 바꾼 것도 아니고 내부의 무엇을 바꾼 것도 아닙니다.

00:08:20그저 원시인이 되라고 했을 뿐이죠. 그들이 이 깃허브 도구를 직접 쓴 건 아니지만

00:08:25원리는 똑같습니다.

00:08:28그래서 제가 이 프로젝트가 단순히 장난이 아니라 꽤나 흥미롭다고 생각하는 겁니다.

00:08:31단순히 재미있는 밈을 넘어서,

00:08:32토큰 절약이라는 확실한 장점도 있고,

00:08:375%의 토큰을 아끼는 건 결코 우스운 일이 아닙니다.

00:08:39특히 무제한 플랜을 쓰고 있지 않다면 더더욱 그렇죠.

00:08:41하지만 이 방식 덕분에 실제로 더 나은 결과물을 얻을 가능성이 있다면,

00:08:44특히 더 직관적인 질문들에서 말이죠.

00:08:47해당 연구를 깊이 파고들어 보면

00:08:49어떤 질문들에서 이런 문제와 역학 관계가 나타나는지 분류해 두었습니다.

00:08:53매우, 매우 흥미롭습니다.

00:08:56그래서 한 번쯤 살펴볼 가치가 있다고 생각합니다.

00:08:58사용법도 아주 간단합니다. 그냥 기술(skill) 세트일 뿐이니까요.

00:09:02한 줄의 명령어로 설치하고 실행하기만 하면 됩니다.

00:09:06슬래시 caveman(/caveman)으로 호출하거나, 그냥

00:09:09"원시인처럼 말해줘"나 "토큰 좀 아껴줘"라고 말하면 됩니다. 단계별 설정도 있어요.

00:09:13방금 바다에서 기어 나온 듯한 '울트라 원시인' 모드도 가능합니다.

00:09:17똑바로 서 있기도 힘든 수준이죠. 그리고 가벼운 모드도 있습니다.

00:09:21취향에 따라 다양한 수준의 원시인 모드를 즐길 수 있습니다.

00:09:24그리고 모든 것에 무차별적으로 적용되는 것도 아닙니다.

00:09:25에러 메시지 같은 것은 정확하게 인용합니다. 다시 말하지만,

00:09:29코드와 관련된 것, 생성과 관련된 것,

00:09:31내부적인 모든 로직은 그대로 유지됩니다. 생각하는 방식 자체를 바꾸는 게 아니니까요.

00:09:35결론적으로 저는 이것이 시도해 볼 가치가 있다고 봅니다. 설치도 간단하고

00:09:37토큰도 아껴주며 딱히 단점도 없습니다. 게다가 연구 결과에 따르면

00:09:42출력 품질 면에서도 잠재적인 이득이 있습니다.

00:09:45만약 원시인 말투 자체가 마음에 들지 않더라도,

00:09:48적어도 여러분의 설정 파일에

00:09:52"간결하게, 미사여구 없이, 핵심만, 짧게 말해라"라는

00:09:56문구 한 줄 정도는 넣는 것이 좋다는 걸 시사합니다.

00:09:59토큰뿐만 아니라 앞서 본 것처럼

00:10:03실제 답변의 질에도 분명히 이점이 있기 때문입니다.

00:10:06오늘 준비한 내용은 여기까지입니다.

00:10:07겉으로 보기에는 그냥 재미로 만든 프로젝트 같았던

00:10:11'caveman Claude'는 사실 꽤나 묵직한 내용과

00:10:15과학적인 근거를 배경에 깔고 있습니다.

00:10:17그래서 실제로 적용해 볼 만한 충분한 가치가 있다고 생각합니다.

00:10:21언제나 그렇듯 댓글로 여러분의 생각을 알려주세요.

00:10:25Chase AI를 꼭 확인해 보시기 바랍니다.

00:10:26저의 클라우드 코드 마스터 클래스를 듣고 싶다면 말이죠.

00:10:29앞으로 며칠 내로 더 많은 업데이트가 올라올 예정입니다.

00:10:33그럼 다음에 다시 뵙겠습니다.

Key Takeaway

클로드 코드를 원시인처럼 간결하게 말하도록 강제하는 'Caveman' 기술은 토큰 사용량을 5% 내외로 절약할 뿐만 아니라, LLM의 장황함으로 인한 추론 오류를 방지하여 답변의 정확도를 극적으로 높입니다.

Highlights

Caveman 모드는 클로드 코드의 출력 토큰 중 설명 문구 부분을 75%까지 절약하여 전체 세션 토큰의 약 4%를 줄입니다.

2026년 3월 연구에 따르면 대규모 언어 모델(LLM)에 간결성 제약을 가했을 때 정확도가 최대 26% 포인트 향상되었습니다.

매개변수가 100배 더 많은 대형 모델이 과도한 장황함으로 인해 20억 개 매개변수의 소형 모델보다 성능이 28% 포인트 낮게 측정되는 사례가 발견되었습니다.

강화 학습(RL) 과정에서 사람들이 더 상세하고 긴 답변을 선호하도록 점수를 매기는 경향이 모델의 '과잉 생각'과 오답 유발의 원인으로 지목되었습니다.

메모리 파일인 claud.md를 원시인 말투로 압축하면 매 세션 시작 시 입력 토큰을 최대 45%까지 절약할 수 있습니다.

Timeline

Caveman 프로젝트의 개요와 토큰 절약 수치

Caveman은 클로드 코드의 미사여구를 제거하고 원시인처럼 짧게 말하도록 강제하는 깃허브 저장소입니다.
기술적인 정확도와 코드 생성 로직은 그대로 유지하면서 출력 텍스트의 부피만 줄입니다.
claud.md 메모리 파일을 압축하여 입력 토큰을 절약하는 동반 도구를 포함합니다.

이 도구는 출시 72시간 만에 별 5,000개를 받으며 주목받았습니다. 개발자가 보는 답변의 미사여구만 제거할 뿐 내부 추론 방식이나 실제 코드 작성 방식에는 영향을 주지 않습니다. 리액트 리렌더링 버그 설명 예시에서 텍스트 응답의 상당 부분을 절약하는 성과를 보여줍니다.

실질적인 토큰 절약 효과 분석

전체 세션 토큰 중 설명 문구가 차지하는 비중이 낮아 실제 절약률은 약 4~5% 수준입니다.
출력 토큰은 도구 호출, 코드 블록, 설명 문구로 나뉘며 이 중 설명 문구만 축소 대상입니다.
시스템 프롬프트의 특정 부분만 압축하므로 입력 토큰 절약량은 세션당 1,000~2,000토큰 정도입니다.

10만 토큰 규모의 세션을 기준으로 분석했을 때, 광고되는 75~87%의 절약 수치는 전체가 아닌 특정 영역에 한정된 결과입니다. 하지만 사용량 제한이 엄격한 환경에서 세션당 5,000토큰을 꾸준히 아끼는 것은 실질적인 비용 및 한도 관리에 도움이 됩니다. 이는 판도를 바꾸는 수준은 아니지만 효율적인 최적화 수단입니다.

간결성 제약이 성능을 높이는 과학적 근거

대형 모델이 말을 너무 많이 하다가 스스로 논리가 꼬여 오류를 범하는 '과잉 생각' 현상이 확인되었습니다.
간결하게 답변하도록 제약하면 대규모 모델의 정확도가 26% 포인트 향상되어 성능 계층 구조가 역전됩니다.
철저함에 대한 학습된 경향이 오히려 역효과를 내어 오류 축적을 유발하는 메커니즘이 존재합니다.

31개 모델과 1,500개 문제를 대상으로 한 연구 결과, 대형 모델이 소형 모델보다 성능이 뒤처지는 사례의 원인이 장황함으로 밝혀졌습니다. 원시인처럼 짧게 답하게 만들었을 때 모델 간의 성능 격차가 최대 3분의 2까지 줄어들었습니다. 이는 모델이 답만 내놓지 않고 불필요한 설명을 덧붙이다가 오답의 함정에 빠지기 때문입니다.

장황함의 원인과 실전 적용 가이드

인간이 더 길고 상세한 답변에 높은 점수를 주는 강화 학습(RL) 과정이 모델을 장황하게 만들었습니다.
Caveman 도구는 에러 메시지와 같은 핵심 정보 인용 시에는 정확성을 유지합니다.
설정 파일에 '핵심만 짧게 말하라'는 지시문을 추가하는 것만으로도 출력 품질 향상을 기대할 수 있습니다.

훈련 과정에서 사람들의 선호도가 반영되어 모델은 정확성보다 장황함을 우선시하게 되었습니다. Caveman은 이를 교정하는 실무적인 해결책이며, 명령어 한 줄로 설치하여 다양한 강도의 원시인 모드를 선택할 수 있습니다. 말투가 취향에 맞지 않더라도 간결함을 강조하는 프롬프트를 사용하는 것이 토큰 절약과 답변 질 향상에 모두 유리합니다.

Community Posts

Claude 출력 토큰을 30% 줄이는 원시인 프롬프트 배치법

makedream15일 전6680

Write about this video