단 한 가지 변경으로 AI 에이전트 비용 70% 절감하기 (Manifest)
BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00이것은 Manifest입니다. 주말 동안 이것으로 바꿨더니 토큰 비용이 70% 감소했습니다.
00:00:05같은 에이전트, 같은 작업인데 라우팅만 더 좋아졌죠. AI 에이전트를 구축하고 계신다면,
00:00:11아마도 생각보다 훨씬 많은 비용을 지불하고 있을 가능성이 높습니다. 대부분의 요청은 GPT-4o나
00:00:17Claude Opus까지는 필요 없는데, 정작 그런 모델들만 사용하고 있습니다. 그래서 에이전트가
00:00:22분류, 라우팅, 요약 같은 기본적인 작업에도 비싼 모델을 사용하게 되고, 그 결과
00:00:27청구서 금액이 예상보다 3~5배까지 불어나는 것입니다. Manifest는 어떻게 작동할까요? 확인해 봅시다.
00:00:37여기서 문제가 발생합니다. 에이전트는 단순히 몇 번 호출하는 게 아니라, 수천 번씩 호출을 만들어냅니다.
00:00:44그중 대부분의 호출은 아주 단순합니다. 도구를 선택하거나, 내용을 요약하거나, 입력을 분류하는 정도죠. 그런데
00:00:50모든 요청을 최고 성능의 모델에 보내면, 아주 기본적인 작업에도 비싼 비용을 치르게 됩니다. 그래서
00:00:57라우팅 로직을 직접 짜서 해결해보려 하겠지만, 코드는 온갖 if-else
00:01:02문으로 가득 차게 되고, 프롬프트가 조금만 바뀌어도 금방 망가지죠. 네, 물론 OpenRouter를 쓸 수도
00:01:08있지만, 수수료가 발생합니다. 그리고 프롬프트가 시스템 외부로 나가게 되죠. LiteLLM이라는
00:01:13좋은 대안도 있지만, 여전히 라우팅을 수동으로 관리해야 합니다. 즉, 진짜 문제는 모델에 접근하는
00:01:18것이 아니라, 매번 적절한 모델을 선택하는 것입니다.
00:01:25그리고 여러분, 바로 그것을 Manifest가 해줍니다. 에이전트와 모델 사이에 위치하는 거죠.
00:01:31요청 하나를 보내면 23가지 차원으로 점수를 매겨, 처리 가능한 가장 저렴한 모델로
00:01:36라우팅합니다. 재작성 없이 단일 엔드포인트만 사용하면 됩니다. 이런 코딩 도구나 팁을 즐기신다면,
00:01:41구독해주세요. 영상이 계속 올라옵니다. 자, 이제 한번 보여드릴게요.
00:01:47같은 에이전트, 같은 작업입니다. Docker로 Manifest를 띄우고, 간단한 curl 명령어로 Docker Compose up을 합니다.
00:01:55이제 제 OpenAI 엔드포인트를 이쪽으로 연결합니다. 이게 유일한 변경점입니다. 이제 다른 모델들을
00:02:01보시는 것처럼 Anthropic, OpenAI, Ollama 등으로 연결할 수 있습니다. 저는 OpenAI를 선택하고 키를 넣은 뒤
00:02:08Ollama를 연결해서 두 모델 사이를 오가게 했습니다. 이제 이 Python 스크립트를 실행해 보겠습니다. Manifest
00:02:12API 키를 사용하고 있는 게 보이시죠? 다른 키들은 Manifest가 가지고 있기 때문에 이것만 있으면 됩니다.
00:02:18스크립트를 실행하면 에이전트가 작업을 시작합니다. 모든 것을 비싼 모델로
00:02:24보내는 대신, Manifest가 결정을 내립니다. '이건 간단하네, 더 저렴한 경로로 보내자.' 다시 돌아와서 대시보드를 보면
00:02:31토큰 사용량, 에이전트별 비용, 예산 추적이 실시간으로 업데이트됩니다. 핵심 수치는
00:02:38변할 수 있지만, 최대 70%까지 더 저렴해질 수 있습니다. 동일한 결과, 낮은 비용, 그리고
00:02:44로컬에서 실행되기 때문에 프롬프트가 라우팅을 위해 시스템 밖으로 나가지 않습니다. 시간이나 자원이
00:02:50많이 들지 않으니, AI를 구축하고 사용하는 분들이라면 통합해 볼 가치가 있습니다.
00:02:55그럼 구체적으로 무슨 일이 일어나는 걸까요? Manifest를 컨트롤러라고 생각하면 됩니다. 에이전트가
00:03:00하나의 요청을 보내면, Manifest가 실제로 어디로 가야 할지 결정합니다.
00:03:07API 모델이 될 수도 있고, 구독형 모델, 로컬 모델, Ollama나 llama.cpp가 될 수도 있죠.
00:03:14수많은 제공업체의 수백 가지 모델을 지원합니다. 그런데 여기서 중요한 점은,
00:03:19결정을 내리기 위해 다른 LLM을 호출하지 않는다는 것입니다. 그랬다면 오히려 직관적이지 못하고,
00:03:25느리고 비쌌을 겁니다. 대신 결정론적 점수 방식을 사용하여 2밀리초 이내에 라우팅이 일어납니다.
00:03:32추가적인 지연 시간은 전혀 없습니다. Manifest는 그저 중간에 위치해 더 나은 결정을 내리며,
00:03:38분명 에이전트를 위해 만들어졌습니다. 오픈 콜 플러그인, 멀티 에이전트 추적 기능도 있고 관찰 가능성(observability)도 내장되어 있죠.
00:03:44가장 큰 비용 절감은 어려운 프롬프트가 아니라, 에이전트가 매번 수행하는 작은 호출들에서 옵니다.
00:03:50자, 그럼 기존에 알던 도구들과 어떻게 다를까요? 빠르게 비교해 보겠습니다. 아까 OpenRouter를
00:03:56언급했었죠. OpenRouter는 하나의 클라우드 엔드포인트를 제공하지만, 트래픽이 시스템 밖으로 나갑니다.
00:04:01Manifest는 완전히 자체 호스팅(self-hosted)할 수 있습니다. LiteLLM도 언급했었죠.
00:04:06이것은 통합 인터페이스를 제공하지만, 라우팅은 여전히 직접 제어해야 합니다. Manifest는 라우팅을 자동으로 처리합니다.
00:04:13라우팅 지능도 있습니다. Manifest가 요청을 23가지 차원으로 평가하는 것이
00:04:19그들만의 라우팅 지능 버전입니다. 다른 도구들은 페일오버(failover)나 규칙에 의존하죠.
00:04:25그다음은 구독 모델입니다. 네, Manifest 자체에 비용을 지불하지는 않지만,
00:04:31OpenAI나 Claude API 키 같은 것들은 당연히 필요하죠. 에이전트 중심이라는 점이
00:04:38Manifest가 돋보이는 부분입니다. 멀티 에이전트 워크플로우를 위해 구축되었거든요. 차이는 간단합니다.
00:04:46접근성이 필요하면 OpenRouter를, 제어가 필요하면 LiteLLM을 쓰세요. 하지만 에이전트 때문에
00:04:51비용 문제가 발생한다면, Manifest가 바로 그 해결책입니다. 비용을 줄여주는 도구는 무수히 많습니다.
00:04:57찾기 나름이고, 이것이 그 방법 중 하나입니다. 솔직히 말하자면 아주 훌륭한 도구지만,
00:05:03AI 도구인 만큼 때때로 의아한 부분도 있을 수 있습니다. 우선 좋은 점부터 보죠.
00:05:08첫 번째는 비용 절감입니다. 특히 구독형 라우팅을 사용하면 토큰당 요금을 지불하는 대신
00:05:14이미 지불 중인 요금제를 최대한 활용할 수 있습니다. 그다음은 폴백(fallback)입니다. 무언가 실패해도
00:05:19에이전트가 계속 작동한다는 점은 큰 이점입니다. 대시보드도 훌륭합니다. 모델별, 에이전트별, 작업별로
00:05:26돈이 어디로 나가는지 실시간으로 확인할 수 있으니까요. 별도의 큰 재작성 없이 기존 클라이언트와도 잘 작동합니다.
00:05:33하지만 말씀드렸듯이 이런 도구에 기대하는 부분도 있죠. 가끔 점수 매기는 방식이 주관적일 때가 있습니다.
00:05:38때로는 예상보다 더 저렴한 경로로 라우팅하기도 합니다. 재정의할 수 있지만 배경에서 일어나는 일을 인지해야 합니다.
00:05:45설정 과정도 제로 수준은 아닙니다. 키를 관리하고 제공업체를 연결해야 하니까요. 하지만 아주 간단했습니다.
00:05:50개발자들은 여전히 더 많은 SDK, 저장 옵션, 기능을 원할 겁니다. 아주 멋진 도구지만 여전히 인프라 성격이 강합니다.
00:05:56완벽하지는 않고 조정이 좀 필요합니다. 하지만 매일 에이전트를 돌리거나 작은 호출을 많이
00:06:02하는 경우엔 충분히 가치가 있습니다. 프롬프트를 로컬에 유지하고 싶다면 더욱 그렇고요. 하지만 설정이 전혀
00:06:07없는 것을 원한다면 OpenRouter가 더 간단할 수 있습니다. 그러나 에이전트를 구축하는 대부분의 개발자에게,
00:06:13이것은 비용을 줄이는 가장 빠른 방법 중 하나입니다. 에이전트를 바꿀 필요 없이 그대로 유지하면서,
00:06:19라우팅 방식만 바꾸면 되니까요. 동일한 입력과 출력에 비용만 낮아집니다. 이것이 핵심입니다.
00:06:25이런 코딩 도구와 팁이 도움이 되셨다면 BetterStack 채널을 구독해주세요.
00:06:32그럴 땐 OpenRouter 같은 서비스가 더 간단하죠. 하지만 대부분의 개발자에게는
00:06:38에이전트를 만들 때 이 방법이 비용을 줄이는 가장 빠른 길 중 하나입니다. 에이전트를
00:06:44수정할 필요가 없거든요. 그냥 라우팅 방식만 바꾸면 됩니다. 입력과 출력은 그대로인데 청구 금액은 줄어들죠. 이게
00:06:50핵심입니다. 이런 코딩 팁과 도구 정보가 유익하셨다면 BetterStack 채널 구독 부탁드립니다.
00:06:54다음 영상에서 뵙겠습니다.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video