Claude Code의 숨겨진 에이전트 스웜 기능 (Kimi K2.5보다 좋을까?)

BBetter Stack
컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00사람들이 Kimi 2.5에 열광하고 있습니다. 벤치마크 점수가 일부 항목에서 Opus보다
00:00:05더 뛰어난 오픈 소스 모델이죠. 특히 복잡한 작업 하나를 위해 오케스트레이터가 최대 100개의
00:00:11특화 에이전트를 생성하는 '에이전트 스웜(Agent Swarm)' 모드는 정말 기가 막힙니다. 그런데 이 기능이
00:00:17클로드(Claude)의 코드 뒤에도 숨겨진 플래그로 존재하며, 한 트위터 사용자가 이를 발견했다는 사실을 아셨나요? 어떻게 찾아냈을까요?
00:00:23앤스로픽이 Kimi의 아이디어를 훔친 걸까요? 구독 버튼을 누르고 바로 시작해 보죠. 앤스로픽은
00:00:30작년 7월에 커스텀 하위 에이전트를 발표했고, 그 이후 사람들은 이를 온갖 종류의
00:00:35전문화된 작업에 활용해 왔습니다. 저희도 당시 그에 관한 영상을 만들었었죠. 하지만 하위 에이전트들은
00:00:41특정 작업에만 최적화되어 있어 전체 컨텍스트 중 일부만 파악합니다. 그래서 작업을 수행하고
00:00:48데이터를 반환하면 메모리가 초기화되죠. 그래서 사람들은 하위 에이전트가 그 결과물을
00:00:54마크다운 파일로 출력하게 하고 메인 컨텍스트 파일도 업데이트하게 하는 방식으로 메모리 기능을 구현했습니다.
00:01:01그렇게 하면 동일하거나 다른 에이전트가 업데이트를 요청받았을 때, 해당 파일들을 읽고 이전에 어디서 멈췄는지 알 수 있으니까요.
00:01:06하지만 여전히 역할, 특정 기술, 도구, 권한 등을 부여해 하위 에이전트를 수동으로 생성해야 합니다.
00:01:12이것이 바로 Kimi의 새로운 에이전트 스웜이 한 차원 높은 기술인 이유입니다. 오케스트레이터가
00:01:19특정 작업을 위한 전문 하위 에이전트를 동적으로 생성하기 때문에 사용자가 할 일이 전혀 없거든요.
00:01:25이 하위 에이전트들은 병렬로 작동하며 전체 과업을 완수합니다. 각자의 몫을 다하면
00:01:31그 결과물을 오케스트레이터에게 전달하고, 오케스트레이터는 복잡한 작업을 끝내기 위해
00:01:36해당 데이터를 가지고 새로운 하위 에이전트를 추가로 투입할지 결정합니다.
00:01:42Kimi의 에이전트 스웜은 아직 연구 프로젝트 단계지만, 이미 단일 에이전트 작업 방식보다 월등한 개선 효과를 보여주고 있습니다.
00:01:48이 그래프를 보세요. 에이전트들이 병렬로 협업하기 때문에 작업이 아무리 복잡해져도
00:01:53일관된 퍼포먼스를 유지합니다. 솔직히 말씀드리면, 클로드 코드에서도 이미
00:01:58이런 기능을 어느 정도 구현할 수 있습니다. 최근 추가된 '태스크(Task)' 기능을 이용해 작업 목록을 만들고
00:02:04개별 하위 에이전트들에게 뿌려줄 수 있죠. 문제는 이 하위 에이전트들이 범용 모델일 뿐,
00:02:10특정 작업에 특화되어 있지는 않다는 점입니다. 또한 클로드가 자동으로 적절한 커스텀 에이전트에게
00:02:15작업을 할당할 수 있는지도 확실치 않습니다. 이미 써보신 분이 있다면 댓글로 알려주세요. 하지만
00:02:21클로드 팀도 오케스트레이터가 작업 내용에 따라 즉석에서 하위 에이전트를 자동 생성하는 기능을 준비해 온 것으로 보입니다.
00:02:25이 기능은 숨겨진 플래그 뒤에 감춰져 있었는데, 마이크 켈리(Mike Kelly)가 이를 발견해
00:02:31트위터에서 작동 방식을 공개했습니다. 그는 같은 트윗에 'Claude Sneak Peek'이라는 이름의
00:02:37CC Mirror 포크 리포지토리 링크도 공유했죠. 한 번 테스트해 봅시다. 터미널에서 X(트위터) 영상을 다운로드할 수 있게 해주는
00:02:42XDL이라는 도구의 웹 프런트엔드를 만들기 위해 AI가 작성한 계획서가 여기 있습니다.
00:02:48전 이미 Claude Sneak Peek을 설치해 실행 중인데요, 보시는 것처럼
00:02:55클로드 코드의 미니멀 버전 같은 모습입니다. plan.md 파일을 읽고 에이전트 스웜이
00:03:00수행할 수 있는 작업들을 생성해달라고 요청해 보겠습니다. 이제 작업 생성이 완료되었으니
00:03:05하위 에이전트를 사용해 작업을 실행하라고 시켜보죠. 그전에 먼저
00:03:11기존에 설정된 커스텀 하위 에이전트가 없다는 걸 확인하기 위해 agent 슬래시 명령어를 입력해 보겠습니다.
00:03:16보시는 것처럼 현재 등록된 전문 에이전트나 커스텀 에이전트는 전혀 없습니다.
00:03:21자, 이제 작업을 실행합니다. 그러자 프런트엔드 작업을 위해 '프런트엔드 빌더' 에이전트가 자동으로 추가되었습니다.
00:03:26그리고 여기 팀이 구성된 게 보이죠. 아래로 내려서 팀 구성을 확인해 보면, 팀 리더, QA 테스터,
00:03:32백엔드 빌더, 컴포넌트 빌더, 프런트엔드 빌더까지 총 5개의 에이전트가 동시에 작업 중입니다.
00:03:37팀의 각 에이전트가 무엇을 하고 있는지도 실시간으로 확인할 수 있습니다.
00:03:42QA 테스터와 백엔드 빌더가 패턴을 검색하고 파일을 읽고 있으며, 컴포넌트 빌더와
00:03:48프런트엔드 빌더도 마찬가지입니다. 에이전트가 정확히 무엇을 하는지 보고 싶다면 엔터를 쳐보세요.
00:03:53그러면 에이전트 뷰로 들어가서 시스템 프롬프트를 확인할 수 있습니다. 다시 돌아가 보니 에이전트가 8개로 늘었네요.
00:03:57컴포넌트 크리에이터, API 서버 담당자, Vite 설정을 맡은 사람, API 통합 담당자,
00:04:02이제 CSS 담당자까지 추가되어 팀 규모가 계속 커지고 있습니다. 팀 리더 항목에서 엔터를 누르면
00:04:07메인 클로드 코드 뷰로 돌아오는데, 즉 팀 리더가 메인 클로드 코드 오케스트레이터인 셈입니다.
00:04:13메인 뷰에서는 각 하위 에이전트가 현재 상태를 보고해주는 것을 볼 수 있습니다.
00:04:18화면을 조금 축소해서 위로 올려보면, 여러 에이전트가 이전에 보낸 메시지들을 확인할 수 있죠.
00:04:24모든 작업이 완료되면 '스웜 프로젝트 완료' 파일이 생성되어 수행된 내용을 모두 알려줍니다.
00:04:29동시에 '스웜 실행 리포트'도 제공되는데, 여기에는 사용된 전문 에이전트의 수와 각 역할,
00:04:34그리고 작업 완료 여부가 표시됩니다. 더 아래로 내려가면 각 에이전트가 구체적으로 무엇을 했는지 상세히 볼 수 있죠.
00:04:41클로드 팀이 이미 이 기능에 쏟은 노력을 봤을 때, Kimi를 베꼈다고 생각하진 않습니다.
00:04:47오히려 온라인상의 에이전트 구현 사례들을 보고 클로드 코드에 내장하고 싶었던 것 같네요.
00:04:52하지만 왜 아직 정식 출시를 하지 않았는지는 충분히 이해가 갑니다. 우선 이 기능이
00:04:59Kimi 2.5 오케스트레이터만큼 수많은 시간의 학습을 거치지는 않았을 것이고, 또한 이미
00:05:04하위 에이전트를 여럿 보유한 사용자의 경우 상황이 매우 복잡해집니다. 예를 들어,
00:05:10사용자가 복잡한 작업을 시켰을 때 오케스트레이터는 새로운 프런트엔드 에이전트를 만들지,
00:05:16아니면 기존 에이전트를 사용할지 어떻게 판단할까요? 어떤 데이터나 지표를 기준으로 결정할까요?
00:05:22'기술(Skills)' 기능까지 더해지면 더 꼬입니다. 사용자가 이미 다운로드해 둔 기술들이 있다면,
00:05:28오케스트레이터가 그걸 활용할지, 아니면 해당 작업에 더 적합한 새 기술을 직접 내려받을지 어떻게 알겠어요?
00:05:35앤스로픽이 이 기능을 출시한다면, 오케스트레이터는 에이전트 생성을 결정하기 전에 먼저
00:05:42기존 에이전트, 도구, 기술 등 방대한 사용자 데이터를 훑어보고 무엇을 추가할지 판단해야 할 겁니다.
00:05:49클로드 팀이 지금 이 기능을 계속 개발 중인지, 아니면 너무 복잡해서 포기했는지는 저도 잘 모르겠습니다.
00:05:56기능 추가 이야기가 나와서 말인데, AI나 사람을 통해 프로젝트에 기능을 빠르게 추가하면서도
00:06:02시스템이 망가지지 않게 관리하고 싶다면 Betastack을 꼭 확인해 보세요. 서버 로그를 모니터링하고
00:06:10이상 징후 탐지를 통해 문제가 터지기 전에 미리 알려줍니다. 또한 AI 기반 에러 트래킹 기능으로
00:06:16프런트엔드에서 발생하는 문제까지 잡아내죠. 지금 바로 Betastack을 이용해 보세요.
00:06:22Speaking of features if you're using an AI or a human to rapidly add features to a project and you
00:06:28want to make sure things don't break then you really need to check out Betastack because it's able to
00:06:33monitor logs on your servers and use anomaly detection to tell you if anything goes wrong
00:06:38before it does. And it also has AI native error tracking to let you know if anything goes wrong
00:06:44on your front end. So go and check out Betastack today.

Key Takeaway

클로드 코드는 Kimi 2.5와 유사하게 오케스트레이터가 다수의 전문 하위 에이전트를 동적으로 생성해 복잡한 작업을 병렬로 해결하는 '에이전트 스웜' 기능을 내부적으로 준비 중입니다.

Highlights

Kimi 2.5의 혁신적인 에이전트 스웜(Agent Swarm) 모드 소개 및 성능 분석

클로드 코드(Claude Code) 내에 숨겨진 에이전트 스웜 기능의 발견 배경

기존 클로드 하위 에이전트의 메모리 한계와 이를 극복하기 위한 사용자들의 노력

마이크 켈리가 공개한 'Claude Sneak Peek' 리포지토리를 통한 실제 작동 시연

오케스트레이터가 동적으로 전문 에이전트(QA, 빌더 등)를 생성하고 협업하는 과정

앤스로픽이 해당 기능을 공식 출시하지 않은 이유에 대한 기술적 추측

복잡한 작업 수행 시 일관된 퍼포먼스를 유지하는 병렬 처리 시스템의 장점

Timeline

Kimi 2.5의 부상과 에이전트 스웜 개념

최근 AI 커뮤니티에서 큰 주목을 받고 있는 Kimi 2.5 모델과 그 핵심 기능인 '에이전트 스웜' 모드를 소개합니다. Kimi 2.5는 일부 벤치마크에서 클로드 오퍼스(Opus)를 능가하는 성능을 보이며, 특히 오케스트레이터가 최대 100개의 특화 에이전트를 생성하는 기능이 핵심입니다. 이 영상은 클로드 코드 뒤에도 이와 유사한 숨겨진 기능이 있다는 사실을 트위터 사용자가 발견했음을 알리며 시작됩니다. 앤스로픽이 Kimi의 아이디어를 참고했는지에 대한 의문을 제기하며 시청자의 흥미를 유발합니다. 전반적으로 에이전트 협업 시스템이 AI 개발의 새로운 패러다임으로 자리 잡고 있음을 강조합니다.

클로드 하위 에이전트의 진화와 한계

앤스로픽이 과거에 발표했던 커스텀 하위 에이전트 기능의 역사와 그동안 사용자들이 겪었던 기술적 한계를 설명합니다. 기존 하위 에이전트들은 특정 작업에만 집중하기 때문에 전체 컨텍스트를 파악하지 못하고 작업 종료 시 메모리가 초기화되는 단점이 있었습니다. 이를 해결하기 위해 사용자들은 마크다운 파일을 활용해 수동으로 메모리 기능을 구현하는 등 번거로운 과정을 거쳐야 했습니다. 또한 역할이나 도구, 권한 등을 사용자가 직접 부여해야 하는 수동적인 구조였습니다. 이러한 배경 지식은 왜 자동으로 생성되는 에이전트 스웜 기능이 혁신적인지를 잘 보여줍니다.

에이전트 스웜의 작동 원리와 장점

Kimi의 에이전트 스웜이 기존 방식보다 뛰어난 이유는 오케스트레이터가 전문 하위 에이전트를 동적으로 생성하기 때문입니다. 하위 에이전트들은 병렬로 작동하며 각자의 결과물을 오케스트레이터에게 전달하고, 오케스트레이터는 이를 종합해 추가 투입 여부를 결정합니다. 연구 프로젝트 단계임에도 불구하고 단일 에이전트 방식보다 복잡한 작업에서 훨씬 일관된 퍼포먼스를 보여주는 그래프가 제시됩니다. 클로드 코드의 '태스크' 기능과 비교했을 때, 스웜 방식은 특정 작업에 특화된 모델을 즉석에서 만든다는 차별점이 있습니다. 이는 개발자가 일일이 지시하지 않아도 AI가 스스로 팀을 구성해 문제를 해결함을 의미합니다.

클로드 스닉 픽(Sneak Peek) 실전 테스트

마이크 켈리가 발견한 숨겨진 플래그를 이용해 'Claude Sneak Peek' 버전을 실제로 실행하며 작동 과정을 시연합니다. X(트위터) 영상 다운로드 도구인 XDL의 프런트엔드를 만드는 작업을 요청하자, 시스템이 자동으로 '팀'을 구성하기 시작합니다. 처음에는 에이전트가 없었지만 순식간에 QA 테스터, 백엔드 빌더, 컴포넌트 크리에이터 등 8개 이상의 전문 에이전트가 추가됩니다. 각 에이전트가 수행하는 작업을 실시간으로 모니터링할 수 있으며, 팀 리더인 오케스트레이터가 전체 과정을 조율하는 모습이 인상적입니다. 최종적으로는 수행 내용과 사용된 에이전트 정보가 담긴 '스웜 실행 리포트'가 생성되어 작업의 투명성을 보장합니다.

미출시 이유 분석 및 향후 전망

앤스로픽이 이 강력한 기능을 아직 정식으로 출시하지 않은 이유에 대해 심도 있는 분석을 내놓습니다. 가장 큰 이유는 오케스트레이터가 기존의 커스텀 에이전트나 기술(Skills) 데이터와 충돌하지 않도록 판단하는 기준이 복잡하기 때문으로 보입니다. 새로운 에이전트를 생성할지 아니면 이미 사용자가 가진 도구를 쓸지에 대한 의사결정 알고리즘이 아직 완벽하지 않을 수 있다는 지적입니다. 또한 대규모 시스템을 관리할 때 발생할 수 있는 오류를 방지하기 위해 'Betastack'과 같은 모니터링 도구의 필요성을 언급하며 영상을 마무리합니다. 결론적으로 이 기능은 매우 유망하지만 사용자 환경과의 통합 문제로 인해 추가적인 정교화 작업이 필요한 상태입니다.

Community Posts

View all posts