단 한 가지 변경으로 AI 에이전트 비용 70% 절감하기 (Manifest)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00이것은 Manifest입니다. 주말 동안 이것으로 바꿨더니 토큰 비용이 70% 감소했습니다.
00:00:05같은 에이전트, 같은 작업인데 라우팅만 더 좋아졌죠. AI 에이전트를 구축하고 계신다면,
00:00:11아마도 생각보다 훨씬 많은 비용을 지불하고 있을 가능성이 높습니다. 대부분의 요청은 GPT-4o나
00:00:17Claude Opus까지는 필요 없는데, 정작 그런 모델들만 사용하고 있습니다. 그래서 에이전트가
00:00:22분류, 라우팅, 요약 같은 기본적인 작업에도 비싼 모델을 사용하게 되고, 그 결과
00:00:27청구서 금액이 예상보다 3~5배까지 불어나는 것입니다. Manifest는 어떻게 작동할까요? 확인해 봅시다.
00:00:37여기서 문제가 발생합니다. 에이전트는 단순히 몇 번 호출하는 게 아니라, 수천 번씩 호출을 만들어냅니다.
00:00:44그중 대부분의 호출은 아주 단순합니다. 도구를 선택하거나, 내용을 요약하거나, 입력을 분류하는 정도죠. 그런데
00:00:50모든 요청을 최고 성능의 모델에 보내면, 아주 기본적인 작업에도 비싼 비용을 치르게 됩니다. 그래서
00:00:57라우팅 로직을 직접 짜서 해결해보려 하겠지만, 코드는 온갖 if-else
00:01:02문으로 가득 차게 되고, 프롬프트가 조금만 바뀌어도 금방 망가지죠. 네, 물론 OpenRouter를 쓸 수도
00:01:08있지만, 수수료가 발생합니다. 그리고 프롬프트가 시스템 외부로 나가게 되죠. LiteLLM이라는
00:01:13좋은 대안도 있지만, 여전히 라우팅을 수동으로 관리해야 합니다. 즉, 진짜 문제는 모델에 접근하는
00:01:18것이 아니라, 매번 적절한 모델을 선택하는 것입니다.
00:01:25그리고 여러분, 바로 그것을 Manifest가 해줍니다. 에이전트와 모델 사이에 위치하는 거죠.
00:01:31요청 하나를 보내면 23가지 차원으로 점수를 매겨, 처리 가능한 가장 저렴한 모델로
00:01:36라우팅합니다. 재작성 없이 단일 엔드포인트만 사용하면 됩니다. 이런 코딩 도구나 팁을 즐기신다면,
00:01:41구독해주세요. 영상이 계속 올라옵니다. 자, 이제 한번 보여드릴게요.
00:01:47같은 에이전트, 같은 작업입니다. Docker로 Manifest를 띄우고, 간단한 curl 명령어로 Docker Compose up을 합니다.
00:01:55이제 제 OpenAI 엔드포인트를 이쪽으로 연결합니다. 이게 유일한 변경점입니다. 이제 다른 모델들을
00:02:01보시는 것처럼 Anthropic, OpenAI, Ollama 등으로 연결할 수 있습니다. 저는 OpenAI를 선택하고 키를 넣은 뒤
00:02:08Ollama를 연결해서 두 모델 사이를 오가게 했습니다. 이제 이 Python 스크립트를 실행해 보겠습니다. Manifest
00:02:12API 키를 사용하고 있는 게 보이시죠? 다른 키들은 Manifest가 가지고 있기 때문에 이것만 있으면 됩니다.
00:02:18스크립트를 실행하면 에이전트가 작업을 시작합니다. 모든 것을 비싼 모델로
00:02:24보내는 대신, Manifest가 결정을 내립니다. '이건 간단하네, 더 저렴한 경로로 보내자.' 다시 돌아와서 대시보드를 보면
00:02:31토큰 사용량, 에이전트별 비용, 예산 추적이 실시간으로 업데이트됩니다. 핵심 수치는
00:02:38변할 수 있지만, 최대 70%까지 더 저렴해질 수 있습니다. 동일한 결과, 낮은 비용, 그리고
00:02:44로컬에서 실행되기 때문에 프롬프트가 라우팅을 위해 시스템 밖으로 나가지 않습니다. 시간이나 자원이
00:02:50많이 들지 않으니, AI를 구축하고 사용하는 분들이라면 통합해 볼 가치가 있습니다.
00:02:55그럼 구체적으로 무슨 일이 일어나는 걸까요? Manifest를 컨트롤러라고 생각하면 됩니다. 에이전트가
00:03:00하나의 요청을 보내면, Manifest가 실제로 어디로 가야 할지 결정합니다.
00:03:07API 모델이 될 수도 있고, 구독형 모델, 로컬 모델, Ollama나 llama.cpp가 될 수도 있죠.
00:03:14수많은 제공업체의 수백 가지 모델을 지원합니다. 그런데 여기서 중요한 점은,
00:03:19결정을 내리기 위해 다른 LLM을 호출하지 않는다는 것입니다. 그랬다면 오히려 직관적이지 못하고,
00:03:25느리고 비쌌을 겁니다. 대신 결정론적 점수 방식을 사용하여 2밀리초 이내에 라우팅이 일어납니다.
00:03:32추가적인 지연 시간은 전혀 없습니다. Manifest는 그저 중간에 위치해 더 나은 결정을 내리며,
00:03:38분명 에이전트를 위해 만들어졌습니다. 오픈 콜 플러그인, 멀티 에이전트 추적 기능도 있고 관찰 가능성(observability)도 내장되어 있죠.
00:03:44가장 큰 비용 절감은 어려운 프롬프트가 아니라, 에이전트가 매번 수행하는 작은 호출들에서 옵니다.
00:03:50자, 그럼 기존에 알던 도구들과 어떻게 다를까요? 빠르게 비교해 보겠습니다. 아까 OpenRouter를
00:03:56언급했었죠. OpenRouter는 하나의 클라우드 엔드포인트를 제공하지만, 트래픽이 시스템 밖으로 나갑니다.
00:04:01Manifest는 완전히 자체 호스팅(self-hosted)할 수 있습니다. LiteLLM도 언급했었죠.
00:04:06이것은 통합 인터페이스를 제공하지만, 라우팅은 여전히 직접 제어해야 합니다. Manifest는 라우팅을 자동으로 처리합니다.
00:04:13라우팅 지능도 있습니다. Manifest가 요청을 23가지 차원으로 평가하는 것이
00:04:19그들만의 라우팅 지능 버전입니다. 다른 도구들은 페일오버(failover)나 규칙에 의존하죠.
00:04:25그다음은 구독 모델입니다. 네, Manifest 자체에 비용을 지불하지는 않지만,
00:04:31OpenAI나 Claude API 키 같은 것들은 당연히 필요하죠. 에이전트 중심이라는 점이
00:04:38Manifest가 돋보이는 부분입니다. 멀티 에이전트 워크플로우를 위해 구축되었거든요. 차이는 간단합니다.
00:04:46접근성이 필요하면 OpenRouter를, 제어가 필요하면 LiteLLM을 쓰세요. 하지만 에이전트 때문에
00:04:51비용 문제가 발생한다면, Manifest가 바로 그 해결책입니다. 비용을 줄여주는 도구는 무수히 많습니다.
00:04:57찾기 나름이고, 이것이 그 방법 중 하나입니다. 솔직히 말하자면 아주 훌륭한 도구지만,
00:05:03AI 도구인 만큼 때때로 의아한 부분도 있을 수 있습니다. 우선 좋은 점부터 보죠.
00:05:08첫 번째는 비용 절감입니다. 특히 구독형 라우팅을 사용하면 토큰당 요금을 지불하는 대신
00:05:14이미 지불 중인 요금제를 최대한 활용할 수 있습니다. 그다음은 폴백(fallback)입니다. 무언가 실패해도
00:05:19에이전트가 계속 작동한다는 점은 큰 이점입니다. 대시보드도 훌륭합니다. 모델별, 에이전트별, 작업별로
00:05:26돈이 어디로 나가는지 실시간으로 확인할 수 있으니까요. 별도의 큰 재작성 없이 기존 클라이언트와도 잘 작동합니다.
00:05:33하지만 말씀드렸듯이 이런 도구에 기대하는 부분도 있죠. 가끔 점수 매기는 방식이 주관적일 때가 있습니다.
00:05:38때로는 예상보다 더 저렴한 경로로 라우팅하기도 합니다. 재정의할 수 있지만 배경에서 일어나는 일을 인지해야 합니다.
00:05:45설정 과정도 제로 수준은 아닙니다. 키를 관리하고 제공업체를 연결해야 하니까요. 하지만 아주 간단했습니다.
00:05:50개발자들은 여전히 더 많은 SDK, 저장 옵션, 기능을 원할 겁니다. 아주 멋진 도구지만 여전히 인프라 성격이 강합니다.
00:05:56완벽하지는 않고 조정이 좀 필요합니다. 하지만 매일 에이전트를 돌리거나 작은 호출을 많이
00:06:02하는 경우엔 충분히 가치가 있습니다. 프롬프트를 로컬에 유지하고 싶다면 더욱 그렇고요. 하지만 설정이 전혀
00:06:07없는 것을 원한다면 OpenRouter가 더 간단할 수 있습니다. 그러나 에이전트를 구축하는 대부분의 개발자에게,
00:06:13이것은 비용을 줄이는 가장 빠른 방법 중 하나입니다. 에이전트를 바꿀 필요 없이 그대로 유지하면서,
00:06:19라우팅 방식만 바꾸면 되니까요. 동일한 입력과 출력에 비용만 낮아집니다. 이것이 핵심입니다.
00:06:25이런 코딩 도구와 팁이 도움이 되셨다면 BetterStack 채널을 구독해주세요.
00:06:32그럴 땐 OpenRouter 같은 서비스가 더 간단하죠. 하지만 대부분의 개발자에게는
00:06:38에이전트를 만들 때 이 방법이 비용을 줄이는 가장 빠른 길 중 하나입니다. 에이전트를
00:06:44수정할 필요가 없거든요. 그냥 라우팅 방식만 바꾸면 됩니다. 입력과 출력은 그대로인데 청구 금액은 줄어들죠. 이게
00:06:50핵심입니다. 이런 코딩 팁과 도구 정보가 유익하셨다면 BetterStack 채널 구독 부탁드립니다.
00:06:54다음 영상에서 뵙겠습니다.

Key Takeaway

AI 에이전트와 모델 사이에 Manifest를 배치해 작업을 23가지 차원으로 분석하고 가장 저렴한 모델로 자동 라우팅함으로써, 에이전트 수정 없이 토큰 비용을 최대 70% 절감할 수 있다.

Highlights

  • Manifest는 AI 에이전트의 API 라우팅을 최적화하여 토큰 비용을 최대 70%까지 절감한다.

  • 대부분의 AI 에이전트 작업인 분류, 요약, 도구 선택 등은 최고 성능 모델이 아닌 저렴한 모델로도 충분히 처리 가능하다.

  • Manifest는 결정론적 점수 방식을 사용하여 2밀리초 이내에 가장 적합한 모델로 요청을 라우팅한다.

  • 모든 처리가 로컬에서 이루어지므로 프롬프트와 데이터가 외부 시스템으로 유출되지 않는다.

  • 기존 에이전트 코드의 재작성 없이 단일 엔드포인트 변경만으로 Manifest를 즉시 통합할 수 있다.

Timeline

AI 에이전트의 비효율적인 비용 구조

  • 에이전트가 수행하는 대다수의 반복 작업은 최고 성능 모델이 필요하지 않다.
  • 수많은 단순 요청을 고성능 모델로 처리하면 비용이 예상보다 3~5배 증가한다.
  • 직접 라우팅 로직을 구현하는 것은 코드 복잡성을 높이고 유지보수를 어렵게 만든다.

대부분의 에이전트는 분류나 요약 같은 간단한 작업에도 GPT-4o나 Claude Opus와 같은 비싼 모델을 사용한다. 개발자가 직접 if-else 문으로 라우팅을 구현하려 해도 프롬프트 변경 시 코드가 쉽게 망가진다. LiteLLM이나 OpenRouter 같은 대안도 있으나, 수동 라우팅이 필요하거나 시스템 외부로 데이터가 유출되는 문제가 있다.

Manifest를 통한 비용 절감 메커니즘

  • Manifest는 에이전트와 모델 사이에서 컨트롤러 역할을 수행하며 요청을 분석한다.
  • 23가지 차원의 결정론적 평가를 통해 2밀리초 이내에 최적의 저가 모델을 선택한다.
  • Docker 기반의 자체 호스팅으로 보안을 유지하며 실시간 비용 추적 대시보드를 제공한다.

Manifest를 도입하면 기존 클라이언트 코드의 재작성 없이 API 엔드포인트만 연결하면 된다. 다른 LLM을 호출해 결정을 내리는 방식이 아니기 때문에 지연 시간이 발생하지 않는다. 대시보드를 통해 실시간 토큰 사용량과 에이전트별 비용을 추적하여 투명한 예산 관리가 가능하다.

기존 도구 비교 및 도입 시 고려사항

  • OpenRouter는 접근성은 높지만 트래픽이 외부로 나가며, LiteLLM은 수동 라우팅 제어가 필요하다.
  • Manifest는 멀티 에이전트 워크플로우에 최적화되어 있으며 자동 라우팅 기능을 제공한다.
  • 설정 시 초기 API 키 관리와 서비스 연결 과정이 필요하며, 특정 작업에서는 조정이 요구될 수 있다.

단순 접근성에는 OpenRouter가 유리할 수 있으나, 비용 절감과 에이전트 중심 제어가 목적이라면 Manifest가 우위에 있다. 설정 과정이 제로 수준은 아니지만, 매일 에이전트를 가동하는 환경에서는 충분한 가치를 제공한다. 동일한 결과값을 유지하면서 청구 금액만 줄이는 것이 이 도구의 핵심 목적이다.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video