5:05Better Stack
Log in to leave a comment
No posts yet
인공지능에게 정중하게 부탁하는 습관은 지갑을 얇게 만듭니다. '부탁드립니다'나 '해주시기 바랍니다' 같은 표현은 모델에게는 의미 없는 노이즈일 뿐이며, 이는 고스란히 연산 비용으로 치환됩니다. KERNEL 프레임워크 연구에 따르면, 이런 수식어를 제거하고 단호한 명령형 구조를 썼을 때 첫 시도 성공률은 72%에서 94%로 뜁니다. 입력 토큰은 약 70%가 줄어듭니다. 모델과 감정적인 교감을 나눌 필요는 없습니다. 500자짜리 배경 설명보다 명확한 지시 한 줄이 응답 속도를 3배 앞당깁니다.
이렇게 바꾸면 1,000회 호출 기준 비용이 0.267달러에서 0.081달러로 떨어집니다. 돈도 아끼고 모델이 헛소리할 확률도 낮아지니 안 할 이유가 없습니다.
비정형 텍스트에서 데이터를 뽑아낼 때 모델에게 자유를 주면 안 됩니다. 모델이 설명을 덧붙이는 순간 출력 토큰 비용이 치솟습니다. 출력 토큰은 입력보다 5배 비싸다는 점을 기억하십시오. ProjectDiscovery는 분류 체계를 단순화해 출력량을 80% 이상 줄였습니다. 굳이 '긍정적'이라는 단어를 다 들을 필요 없이 'P' 한 글자면 충분합니다.
이 방식을 쓰면 호출당 출력 토큰이 1~2개로 고정됩니다. 파싱 에러는 사라지고 비용은 40% 이상 가볍게 줄어듭니다.
Claude API의 프롬프트 캐싱은 잘 쓰면 입력 비용을 90%까지 깎아줍니다. 하지만 캐싱은 앞부분부터 대조하는 방식이라, 단 1바이트라도 앞에서 변하면 캐시가 깨집니다. 동적 데이터를 프롬프트 맨 뒤로 옮기는 것만으로 캐시 적중률을 7%에서 84%까지 올린 사례가 있습니다. 위치 하나 바꿨을 뿐인데 고지서 숫자가 바뀝니다.
cache_control: {"type": "ephemeral"} 마커를 박아 캐싱 지점을 선언하십시오.20k 토큰 기준 0.06달러였던 비용이 캐시를 타면 0.006달러로 10분의 1이 됩니다. 대용량 문서를 다루는 서비스라면 수익 구조 자체가 달라지는 지점입니다.
복잡한 문제를 풀 때 "단계별로 생각하라(CoT)"고 시키면 모델은 일기장 쓰듯 장황한 과정을 쏟아냅니다. 그게 다 비용입니다. 대안은 CoD(Chain of Draft)입니다. 모델에게 핵심 단어만 메모하듯 5단어 이내로 짧게 추론하라고 지시하십시오. 산술 추론 테스트에서 CoT가 172.5개 토큰을 쓸 때, CoD는 단 31.3개 토큰으로 같은 정답을 맞혔습니다.
정확도는 챙기면서 출력 토큰은 최대 92%까지 덜어낼 수 있습니다. 응답 지연 시간 역시 절반 이하로 짧아집니다.
이 모든 최적화는 눈에 보여야 의미가 있습니다. 월 30만 회 호출하는 쇼핑몰 서비스가 프롬프트 캐싱과 CoD를 결합하면 비용이 4,500달러에서 660달러로 주저앉습니다. 한 달에 약 500만 원의 영업 이익이 프롬프트 수정 몇 줄로 생겨나는 셈입니다.
.claudeignore 파일을 만들어 불필요한 파일이 컨텍스트에 포함되지 않게 막아야 합니다.$Cost = N \times (T_{in} \times P_{in} + T_{out} \times P_{out})$ 공식을 시트에 걸어두고 매주 성과를 체크하십시오.오늘 당장 시스템 프롬프트에서 '감사합니다'를 지우고 데이터 순서를 바꾸십시오. 그 작은 귀찮음이 월간 청구서를 수익으로 바꿉니다.