클로드(Claude) 토큰 비용을 절반으로 줄여주는 기술

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00비용을 아끼고 싶거나 LLM의 말투가 마음에 들지 않는다면, 이 영상이 도움이 될 것입니다.
00:00:03최근 유행하는 'Caveman(원시인)'이라는 새로운 기술인데요, 출력 토큰을
00:00:07최대 75%까지 줄이면서도 기술적 정확도는 그대로 유지해 줍니다.
00:00:10이 모든 것은 케빈의 명언 덕분이죠.
00:00:12왜 시간을 낭비합니까?
00:00:13긴 말 필요 없다, 짧은 말로 충분하다.
00:00:16이 기술은 Claude나 Code에서 작동하며, 불필요한 수식어로 가득한
00:00:20너무 길어서 읽기 싫은 답변을 기술적 정확도는 유지한 채 깔끔한 요약본으로 바꿔줍니다.
00:00:24사용자 맞춤 설정도 가능하며 문언(Wenyan) 모드, 간결한 커밋 메시지, 한 줄 코드 리뷰 및
00:00:29입력 압축 도구 같은 추가 기능도 있습니다.
00:00:30처음에는 조금 이상해 보일 수 있지만, 여기에는 과학적 근거도 있습니다.
00:00:34그럼 바로 자세히 살펴보겠습니다.
00:00:40아까 Claude Code에서 제가 만든 가짜 인증 시스템이 포함된
00:00:44데모 Next.js 앱으로 테스트를 해봤는데요, 단순히 이 앱의 인증 방식이
00:00:48어떻게 구현되어 있는지 설명해달라고 요청했습니다.
00:00:49자, 보시는 화면은 스킬을 설치하지 않은 일반적인 Claude Code의 답변입니다.
00:00:53"이것은 시뮬레이션된 인증 시스템입니다"라며 바로 수식어가 붙습니다.
00:00:56대시 기호를 써가며 백엔드도 없고, 비밀번호도 없고, 실제 보안 기능도 없으며,
00:01:00Better Stack RUM 사용자 추적 데모용으로 존재한다고 설명하죠.
00:01:03그다음 핵심 파일과 작동 방식 등을 설명하는데,
00:01:06모든 것이 평이하고 읽기 쉬운 영어 문장으로 되어 있습니다.
00:01:08이제 같은 질문을 하되 이번에는 Caveman 스킬을 사용해 보면,
00:01:11보시는 것처럼 핵심만 짚어 훨씬 더 간결해집니다.
00:01:13첫 문장은 "데모 전용, 클라이언트 측 인증, 실제 보안 없음, Better Stack
00:01:17RUM 추적 데모용으로 구축됨"입니다.
00:01:18불필요한 수식어나 대시 기호 같은 것들이 전혀 없습니다.
00:01:21완전한 문장을 만들 필요 없이 기술적인 정보를
00:01:25즉시 전달해 줍니다.
00:01:26작동 방식 섹션, 흐름, 통합 지점도 마찬가지입니다.
00:01:29작동 방식을 일반적인 영어 문장으로 길게 설명하는 대신,
00:01:33"앱 로드"라고 한 뒤 화살표로 로컬 스토리지의 저장된 사용자를 확인한다고 표시합니다.
00:01:36훨씬 더 간결하죠. 솔직히 전 이게 더 마음에 듭니다.
00:01:39완전한 문장인지는 중요하지 않습니다. 저는 그저 기술적인
00:01:43정보만 얻으면 되니까요.
00:01:44이런 간결함이 제가 이 스킬을 좋아하는 주된 이유지만, 또 다른 장점은
00:01:47출력 토큰을 줄여준다는 것입니다. 이론적으로는
00:01:51Claude Code 구독을 더 효율적으로 쓰거나 API 비용을 아낄 수 있죠.
00:01:55하지만 여기에는 약간의 함정이 있다고 생각합니다.
00:01:57이것은 제가 이전에 진행한 비교 테스트 결과인데요,
00:02:00기본 Claude Code 답변과, 단순히 간결하게 답하라고 지시한 경우,
00:02:04그리고 Caveman 스킬을 사용한 경우를 비교했습니다.
00:02:0710개의 프롬프트를 사용했고, "git rebase와 git merge의 차이점" 같은 간단한 질문들이었습니다.
00:02:11결과는 매우 긍정적입니다.
00:02:14기본 설정 대비 Caveman 스킬을 사용했을 때 출력 토큰이 45% 감소했고,
00:02:18단순히 간결하게 답하라고 했을 때보다도 39%가 줄었습니다.
00:02:22이는 당연히 비용 절감으로 이어집니다. 출력 토큰에서 45%의
00:02:26비용이 절감되어, 기본은 약 8센트인 반면 Caveman은 약
00:02:314센트가 들었습니다.
00:02:32처음에는 모든 것이 아주 좋아 보입니다.
00:02:34하지만 입력 토큰 비용을 고려하기 시작하면 상황이 흥미로워집니다.
00:02:37당연하게도요.
00:02:38Caveman 스킬을 사용하면 단일 문장 프롬프트보다 훨씬 더
00:02:41많은 텍스트가 포함된 마크다운 파일을 로드하게 됩니다. 그래서 단순히
00:02:45한 문장을 보내는 기본 방식의 비용은 1센트도 안 되지만, 스킬을 사용하면
00:02:49약 4센트 정도가 듭니다.
00:02:50입력 및 출력 토큰 비용을 합산해 보면, 평균적으로 Caveman이
00:02:54기본 방식보다 10% 더 비쌉니다. 출력 토큰에서 아낀 비용이
00:02:58입력 토큰 비용으로 다 나갔기 때문이죠.
00:03:01그렇다고 Caveman이 손해라는 뜻은 아닙니다. 왜냐하면 이것은 매우
00:03:04특정한 시나리오에서만 해당하기 때문입니다.
00:03:05작고 짧은 단일 프롬프트를 보내고 후속 질문을 하지 않을 때만 그렇습니다.
00:03:10후속 질문을 하기 시작하면 프롬프트 캐싱 가격이 적용됩니다. 그럴 경우
00:03:14다시 Caveman이 유리해지며, 실제로 39%의
00:03:19비용 절감 효과를 볼 수 있습니다.
00:03:20너무 깊게 파고든 것 같지만, Caveman을 사용할 논리적 근거는 충분합니다.
00:03:23그리고 아직 언급하지 않은 또 다른 잠재적 장점이 있는데,
00:03:27올해 발표된 한 연구에 따르면 대규모 모델의 답변을 짧게 제한했을 때
00:03:31특정 벤치마크에서 정확도가 26% 향상되었다고 합니다.
00:03:34어쩌면 케빈이 정말 똑똑했던 것일지도 모르니, 여러분도 구독하는 게 똑똑한 선택이겠죠.
00:03:38Vercel 스킬 패키지를 사용해 이 명령어를 실행하면 이 스킬을 직접 써볼 수 있습니다.
00:03:41여기서 에이전트에게 어떤 요청을 하는지도 확인할 수 있는데요.
00:03:45관사(a, an, the) 제거, 불필요한 수식어 제거, 인사말 제거,
00:03:49모호한 표현 제거 같은 규칙들이 있습니다.
00:03:50또한 짧은 유의어를 사용합니다. extensive 대신 big을 쓰고, implement a solution for
00:03:54대신 fix를 쓰라고 하죠. 반면 유지해야 할 것도 있는데
00:03:58기술 용어, 코드 블록, 에러 메시지 등입니다.
00:04:00그다음 문장 구조 패턴이 나옵니다. 대상, 행동, 이유,
00:04:03그리고 다음 단계 순으로 구성해야 하죠.
00:04:05정말 간결합니다.
00:04:07심지어 얼마나 원시인처럼 말할지 정하는 강도 조절 모드도 있습니다.
00:04:10Light 모드부터 Ultra 모드까지 다양하죠.
00:04:12저는 기본값인 Full을 썼지만, Ultra 모드는 모든 것을 축약하고
00:04:17접속사를 제거하며 인과관계에 화살표를 쓰고 한 단어로
00:04:21충분하면 한 단어만 씁니다.
00:04:22또한 고전 한문을 사용하는 '문언(Wenyan)' 모드도 있는데, 한문이 사실
00:04:26토큰 효율이 가장 좋기 때문입니다.
00:04:27안타깝게도 제가 읽을 줄 몰라서 저에겐 별 소용이 없네요.
00:04:30이게 Caveman의 전부는 아닙니다. 특정 상황을 위한
00:04:33스킬들이 몇 가지 더 있습니다.
00:04:34Conventional Commits 형식으로 간결하고 정확하게 메시지를 써주는 'caveman commit',
00:04:38발견 사항당 한 줄씩 간결하게 코드 리뷰를 해주는 'caveman review',
00:04:42그리고 자연어 파일을 원시인 스타일로 압축해 입력 토큰을
00:04:46조금이나마 아껴주는 'compress' 스킬도 있습니다.
00:04:49마음에 드는 기능이 있다면 댓글로 알려주시고,
00:04:52구독도 부탁드립니다. 그럼 다음 영상에서 뵙겠습니다.

Key Takeaway

Caveman 스킬은 수식어와 관사를 제거하고 기호를 활용하는 방식으로 출력 토큰을 45% 절감하며, 프롬프트 캐싱 환경에서 최대 39%의 전체 비용 감소와 26%의 정확도 향상을 동시에 제공한다.

Highlights

Caveman 기술은 출력 토큰을 최대 75%까지 줄이면서도 기술적 정보의 정확도를 유지한다.

기본 설정 대비 Caveman 스킬 사용 시 출력 토큰은 45% 감소하며, 단순히 간결함을 요구했을 때보다 39% 더 적은 토큰을 사용한다.

대규모 언어 모델의 답변 길이를 제한할 경우 특정 벤치마크에서 정확도가 26% 향상된다는 연구 결과가 존재한다.

단일 프롬프트 질문 시에는 입력 토큰 비용 때문에 전체 비용이 10% 상승할 수 있으나, 프롬프트 캐싱이 적용되는 후속 질문 단계에서는 39%의 비용 절감 효과가 발생한다.

Ultra 모드는 모든 접속사를 제거하고 인과관계에 화살표를 사용하며, 문언(Wenyan) 모드는 한문의 특성을 이용해 토큰 효율을 극대화한다.

Timeline

Caveman 기술의 정의와 주요 기능

  • Caveman은 출력 토큰을 최대 75%까지 압축하면서 기술적 정확도를 보존하는 기술이다.
  • 불필요한 수식어로 가득한 긴 답변을 깔끔한 요약본 형태로 변환한다.
  • 한 줄 코드 리뷰, 간결한 커밋 메시지 작성, 입력 데이터 압축 등 다양한 모드를 지원한다.

LLM이 생성하는 불필요한 문장 성분을 제거하여 읽기 효율과 비용 효율을 동시에 잡는 것을 목표로 한다. 단순한 요약을 넘어 원시인처럼 핵심 단어 위주로 소통하는 방식을 취하며, 이는 과학적 근거를 바탕으로 설계되었다.

실제 구동 화면 및 답변 스타일 비교

  • 일반 Claude Code는 완성된 문장과 상세한 수식어를 사용하여 시스템을 설명한다.
  • Caveman 모드는 '실제 보안 없음', '데모 전용'과 같은 핵심 키워드 위주로 답변을 구성한다.
  • 작동 흐름 설명 시 문장 대신 화살표 기호를 사용하여 가독성을 높인다.

Next.js 인증 시스템 앱을 대상으로 테스트한 결과, 일반 모드는 시뮬레이션 시스템임을 장황하게 설명하지만 Caveman은 즉각적인 기술 정보 전달에 집중한다. 사용자는 완전한 문장 구조보다 정보의 실질적인 내용에 더 빠르게 접근할 수 있다.

토큰 사용량 분석 및 비용 효율성

  • Caveman 사용 시 기본 설정 대비 출력 토큰 비용이 약 45% 절감된다.
  • 단발성 프롬프트에서는 마크다운 로드 비용으로 인해 전체 비용이 10% 상승할 수 있다.
  • 프롬프트 캐싱이 적용되는 연속 대화 시나리오에서는 39%의 실질적인 비용 절감이 나타난다.

10개의 프롬프트를 이용한 테스트에서 기본 응답은 8센트가 소요된 반면 Caveman은 4센트 수준을 유지했다. 입력 토큰이 늘어나는 단점은 대화가 길어질수록 캐싱 기술을 통해 상쇄되며, 결과적으로 장기적인 사용에서 경제적 이점이 크다.

설정 규칙과 세부 모드 활용법

  • 관사, 인사말, 모호한 표현을 제거하고 fix와 같은 짧은 유의어를 우선적으로 선택한다.
  • Light부터 Ultra까지 강도 조절이 가능하며, Ultra 모드는 접속사를 완전히 배제한다.
  • 코드 리뷰 전용 'caveman review'와 커밋 메시지 전용 'caveman commit' 스킬이 존재한다.

Vercel 스킬 패키지를 통해 설치 가능하며 기술 용어나 코드 블록, 에러 메시지는 손실 없이 유지하도록 설정되어 있다. 한문 모드인 Wenyan은 토큰 효율이 가장 높으며, 자연어 파일을 압축하는 compress 기능을 통해 입력 토큰 관리까지 지원한다.

Community Posts

View all posts