00:00:00실제로 AI 모델을 더 뛰어난 관리자가 되도록 훈련시킬 수 있을까요?
00:00:02최근 문샷(Moonshot)은 Kimi 2.5를 출시하며 현존하는 가장 강력한 오픈 소스 모델이라고 발표했습니다.
00:00:08하지만 그 주장은 시작부터 틀렸습니다. 오픈 소스가 아니라 '오픈 웨이트(공개 가중치)' 모델이기 때문이죠.
00:00:11엄연히 차이가 있지만, 지금 그게 중요한 건 아닙니다.
00:00:13Kimi 2.5는 실제로 테스트해 볼 만한 가치가 있는 두 가지 핵심 주장을 내세우고 있습니다.
00:00:17첫째, 에이전트 스웜(Swarm)을 지휘하도록 처음부터 설계되었다는 점입니다.
00:00:21최대 100개의 하위 에이전트를 병렬로 실행할 수 있다고 하죠.
00:00:23강화 학습 설정이 단순히 정답을 맞히는 것에만 보상을 주는 게 아니라,
00:00:27모델이 에이전트들에게 얼마나 효율적으로 업무를 배분하는지도 평가합니다.
00:00:30둘째, 시각적 에이전트 지능을 갖추고 있다고 주장합니다.
00:00:33단 한 번의 프롬프트만으로 매우 높은 수준의 애니메이션을 생성했다고 발표했죠.
00:00:37이제는 사용자가 한 번에 만들었다고 주장하는 게 아니라, 제작사 스스로 그렇게 주장하고 있는 겁니다.
00:00:42그래서 저희 팀원 중 한 명이 이 두 가지 기능을 직접 테스트해 봤습니다.
00:00:44어떤 부분은 광고한 대로 뛰어났지만, 기대에 못 미치는 부분도 있었습니다.
00:00:48앞서 말씀드린 대로, Kimi 2.5는 스스로를 오픈 소스 모델이라고 부릅니다.
00:00:51하지만 엄밀히 말해 Kimi 2.5는 오픈 소스 모델이 아닙니다.
00:00:54오픈 소스 이니셔티브(OSI)의 정의에 따르면,
00:00:57오픈 소스 모델은 코드, 학습 데이터, 방법론이 모두 공개되어야 합니다.
00:01:02그래야 누구나 검토하고 수정하며 배포할 수 있기 때문이죠.
00:01:05하지만 이 모델은 그냥 오픈 웨이트 모델일 뿐입니다.
00:01:07오픈 웨이트 모델은 최종 가중치(Weights)만 공개하는 방식입니다.
00:01:10즉, 학습 코드나 학습 데이터셋은 공개되지 않는다는 뜻입니다.
00:01:14가중치만 제공되므로, 다른 사람들이 자신의 프로젝트에 맞게 모델을 미세 조정하거나 배포할 수만 있습니다.
00:01:20이 모델의 아키텍처는 딥시크(DeepSeek)의 MoE(Mixture of Experts) 구조와 매우 유사합니다.
00:01:25전체 매개변수는 1조 개에 달하지만, 실제로 활성화되는 것은 320억 개뿐입니다.
00:01:30그럼 모델의 성능을 온전히 다 쓰지 못하는 걸까요?
00:01:33성능은 1조 개의 매개변수 모델과 동일한 정확도를 내면서도,
00:01:36처리 전력과 비용은 훨씬 적게 듭니다.
00:01:39이처럼 전체 매개변수와 활성 매개변수의 차이가 크다는 점이,
00:01:43이 모델이 현존하는 가장 빠른 오픈 웨이트 모델 중 하나로 꼽히는 핵심 이유입니다.
00:01:47질의당 일부 매개변수만 사용하기 때문에,
00:01:52모델 속도가 비약적으로 빨라지는 것이죠.
00:01:54다른 모델들에 비해 비용이 저렴한 근본적인 이유이기도 합니다.
00:01:57제작사는 이것이 네이티브 멀티모달 모델이며, 코딩과 비전 분야에서 최고 수준의 성능을 보여준다고 말합니다.
00:02:03하지만 이건 모든 모델이 내세우는 뻔한 홍보 문구일 뿐이죠.
00:02:08그래서 저희 팀이 직접 검증해 봤습니다. 그 결과를 지금부터 보여드릴게요.
00:02:12본격적인 기능을 살펴보기 전에, 잠시 광고 말씀 드리겠습니다.
00:02:16오페라 네온(Opera Neon). 미래를 경험할 준비가 된 파워 유저들을 위해 설계된,
00:02:19오페라 최초의 에이전트 기반 브라우저입니다.
00:02:23네온은 혼란스러운 탭 대신 '태스크(Tasks)'라는 집중형 워크스페이스를 사용합니다.
00:02:27여기서 AI는 동일한 맥락 안에서 여러 탭을 넘나들며 분석하고 작업을 수행합니다.
00:02:32업무에 필요한 간단한 도구가 급히 필요하다고 가정해 봅시다.
00:02:34따로 개발 환경(IDE)을 켤 필요 없이, '네온 메이크(Neon Make)'를 쓰면 됩니다.
00:02:37프롬프트에 “사이버펑크 스타일의 뽀모도로 타이머 만들어 줘”라고 입력하면,
00:02:40브라우저가 가상 머신을 띄워 기획안을 만들고,
00:02:43코드를 작성한 뒤 즉시 앱으로 배포까지 완료합니다.
00:02:45매일 반복되는 업무 흐름에서 시간을 엄청나게 아껴주죠. '네온 두(Neon Do)'를 통해 흐름을 끊지 않고도
00:02:50아이디어를 프로토타입으로 만들거나 조사를 자동화할 수 있습니다.
00:02:53인터페이스 안에 주니어 개발자가 한 명 상주하는 것과 같습니다.
00:02:56저도 프롬프트 자동화를 위해 이 네온 카드들을 꼭 써볼 생각입니다.
00:02:59지금 바로 오페라 네온을 구독해 보세요. 에이전트 중심의 변화를 지켜보지만 말고,
00:03:03그 흐름의 주인공이 되십시오. 링크는 설명란에 있습니다.
00:03:05Kimi 모델은 여러 에이전트 무리를 지휘하며 업무를 조율할 수 있습니다.
00:03:10클로드(Claude)도 필요한 작업에 따라 여러 하위 에이전트를 생성하니 비슷하다고 생각하실 수 있습니다.
00:03:15하지만 이 모델은 다른 점이 있습니다.
00:03:17Kimi 2.5는 모델 자체가 최대 100개의 하위 에이전트 스웜을 스스로 지휘하도록 학습되었습니다.
00:03:23병렬 에이전트 강화 학습을 통해 1,500개의 조율된 단계에 걸쳐 병렬 워크플로우를 실행하죠.
00:03:29모르는 분들을 위해 설명하자면, 강화 학습은 모델이 잘하면 보상을 주고
00:03:33목표에서 벗어나면 벌점을 주는 과정입니다.
00:03:36대부분의 모델은 결과물의 성능에 대해서만 보상을 받습니다.
00:03:39하지만 이 모델은 단계를 얼마나 잘 병렬화하고
00:03:43조율자(Orchestrator)로서 역할을 잘 수행했는지에 따라서도 보상을 받습니다.
00:03:44쉽게 말해, Kimi 모델은 '오케스트레이터'가 되도록 훈련받은 것입니다.
00:03:48성공 기준은 하위 에이전트를 생성하고 작업을 할당하는 능력에 달려 있습니다.
00:03:53이 오케스트레이터는 에이전트 생성, 업무 할당 등 관련 기능을 위한 도구를 내장하고 있습니다.
00:03:58다양한 작업을 위해 에이전트를 만들고 업무를 맡긴 뒤,
00:04:02결과를 받아 하나로 취합해 최종 결과물을 만들어냅니다.
00:04:06제작사에 따르면, 복잡한 작업의 성능을 높이기 위해 이 스웜 방식을 사용했다고 합니다.
00:04:11자체 평가 결과, 전체 실행 시간이 80%나 단축되었다고 하죠.
00:04:16즉, 훨씬 더 복잡하고 긴 호흡의 작업을 수행할 수 있게 된 것입니다.
00:04:20장기 작업에 강한 최고의 모델들과 비교했을 때,
00:04:23Opus 4.5나 스웜 기능이 없는 Kimi 2.5보다도,
00:04:26Kimi 2.5 에이전트 스웜이 모든 벤치마크에서 우위를 점했다고 합니다.
00:04:32단일 에이전트를 쓸 때보다 시간을 상당히 절약할 수 있었던 것이죠.
00:04:36여기까지가 제작사의 주장이었습니다.
00:04:39이 주장들을 검증하기 위해, 저희는 새로 출시된 코딩 에이전트인
00:04:42KimiCode CLI를 설치해 보았습니다.
00:04:45마침 이미 만들어둔 UI를 다른 컴포넌트 구조로 옮기고 싶던 참이었습니다.
00:04:49ShadCN으로 구축된 UI를 Material UI로 다시 만들기로 했죠.
00:04:53프로젝트에 페이지가 여러 개 있었기 때문에,
00:04:55전체 프로젝트 UI를 ShadCN에서 Material UI로 바꿔달라고 Kimi에게 요청했습니다.
00:05:00이전 작업이 병렬로 더 빨리 진행될 수 있도록
00:05:02페이지당 하나씩 에이전트를 할당해달라고 주문했죠.
00:05:05Claude Code와 비슷하게 디렉토리를 탐색하기 시작하더군요.
00:05:08Material UI로 변환해야 할 모든 페이지를 포함한 할 일 목록을 만들었습니다.
00:05:13더 효율적인 처리를 위해 성격이 비슷한 페이지들,
00:05:15예를 들어 가입, 로그인, 비밀번호 찾기 같은 인증 페이지들을 그룹화했습니다.
00:05:20그런데 생각보다 많은 에이전트가 생성되었는데,
00:05:23나중에 알고 보니 CLI의 버그였습니다.
00:05:26결국 실제 작업에는 5개의 에이전트가 쓰였는데,
00:05:28신제품이라는 점을 감안하면 예상 가능한 범위였습니다.
00:05:30완료까지 약 15분이 걸렸습니다. 병렬 에이전트를 썼으니
00:05:32시간이 단축될 거라고 생각했던 부분이었죠.
00:05:35마지막으로 검증과 정리 작업을 하며 마무리되었습니다.
00:05:38마이그레이션 후 더 이상 사용되지 않는 컴포넌트들도
00:05:41깔끔하게 정리해 주더군요.
00:05:43테스트 파일을 포함해 모든 종속성이 설치 및 업데이트되었는지 확인하고,
00:05:45나머지 부분도 검증했습니다.
00:05:48그 과정에서 ShadCN 관련 의존성이 모두 제거되었는지도 확실히 체크했습니다.
00:05:53안 쓰는 의존성을 그대로 둬서 프로젝트를 무겁게 만드는 실수를 하지 않더군요.
00:05:55대부분의 에이전트가 놓치는 부분인데 인상적이었습니다.
00:05:59UI도 약간씩 다듬었습니다.
00:06:01예를 들어, 원래는 텍스트와 이미지가 나란히 있던 히어로 섹션을
00:06:05세로로 쌓인 구조로 변경했더군요.
00:06:07그 점을 제외하면 컴포넌트만 교체되었을 뿐,
00:06:10모든 게 원래와 거의 똑같아 보였습니다.
00:06:12큰 작업이었음에도 컨텍스트 창의 25%만 사용했기 때문에,
00:06:16오래 걸리는 작업도 효율적으로 수행할 수 있음을 보여주었습니다.
00:06:19결론적으로 에이전트 스웜은 잘 작동하지만, 항상 더 빠른 것은 아니며
00:06:22규모가 큰 코드베이스에서는 시간이 더 걸릴 수도 있습니다.
00:06:24영상에서 저희가 이것저것 참 많이 만든다는 걸 느끼셨을 겁니다.
00:06:27사용된 모든 프롬프트, 코드, 템플릿 등,
00:06:29영상을 멈추고 일일이 받아 적어야 했던 그 자료들 말이죠.
00:06:32이번 영상뿐 아니라 이전 영상의 모든 자료가 저희 커뮤니티에 있습니다.
00:06:35링크는 설명란을 확인해 주세요.
00:06:37Kimi 2.5의 핵심 판매 포인트는 시각적 에이전트 지능입니다.
00:06:41특히 프런트엔드 역량이 매우 뛰어나다고 하는데요.
00:06:44인터랙티브한 레이아웃이나 텍스트 스크롤 애니메이션 같은
00:06:48화려한 효과들을 직접 구현하고 상호작용할 수 있습니다.
00:06:50제작사가 제공한 여러 애니메이션 예시들은 모두 훌륭하게 제작되었습니다.
00:06:53하지만 진짜 돋보이는 부분은 따로 있습니다.
00:06:55단순한 텍스트나 이미지 프롬프트를 넘어 비전 기반 코딩에 강점이 있다는 점이죠.
00:07:00심지어 영상을 입력으로 받아 코드를 생성할 수도 있는데,
00:07:03이는 이런 능력을 갖춘 초기 모델 중 하나입니다.
00:07:06덕분에 코드의 흐름을 설명하기가 훨씬 수월해졌습니다.
00:07:08이 멀티모달 기능은 학습 후에 따로 추가된 것이 아닙니다.
00:07:12모델 학습 단계부터 통합되어 있었습니다.
00:07:14대부분의 모델은 텍스트 능력이 충분히 확보된 후에야
00:07:16추가 기능을 넣기 때문에,
00:07:19비전과 텍스트 능력 사이에 트레이드오프(상충 관계)가 발생하곤 합니다.
00:07:23하지만 Kimi 2.5의 학습 방법론 덕분에
00:07:25그런 상충 관계없이 두 능력이 함께 향상되었습니다.
00:07:29자, 직접 테스트해 볼 시간입니다.
00:07:30노션(Notion)의 새 페이지 인터페이스와 슬래시(/) 명령어를 사용하는 모습을 화면 녹화했습니다.
00:07:35문서에 영상 용량 제한이 40MB라고 되어 있어 녹화본은 짧게 준비했습니다.
00:07:40노션 녹화 파일 경로를 알려주고 영상에 보이는 웹사이트를 복제해달라고 요청했습니다.
00:07:45프롬프트에 이게 어떤 영상인지는 따로 말해주지 않았지만,
00:07:48모델은 미디어 파일 읽기 도구를 사용해 영상을 분석했습니다.
00:07:52영상이 노션 스타일의 인터페이스임을 파악하고 모든 특징을 찾아낸 뒤,
00:07:56macOS 스타일 창이 있는 노션 클론이라고 결론지었습니다.
00:07:59파일 내용을 다 파악하자마자 바로 구현에 들어갔습니다.
00:08:02혹시 직접 프로젝트에 영상 처리를 활용하실 분들은 이 점을 기억하세요.
00:08:06영상과 이미지는 컨텍스트 창을 매우 빠르게 소모하므로,
00:08:09파일 크기에 주의하고 컨텍스트가 꽉 차지 않도록 관리해야 합니다.
00:08:12복제된 인터페이스는 매우 정확했습니다.
00:08:15페이지 아이콘을 포함해 노션의 기능들이 포함된 UI가 수정 가능한 상태로 만들어졌죠.
00:08:18처음에는 일부 기능이 완벽히 작동하지는 않았습니다.
00:08:21슬래시 명령어는 아직 안 됐지만, 전반적인 UI는 아주 정확했습니다.
00:08:25슬래시 명령어는 핵심 워크플로우라 구현되었다면 더 좋았을 텐데 말이죠.
00:08:29하지만 이건 반복 수정을 통해 충분히 해결할 수 있는 사소한 문제였습니다.
00:08:32그래서 구현된 결과물의 문제점들을 고쳐달라는 프롬프트를 줬습니다.
00:08:37그때부터 스스로 반복하며 수정을 진행하고 결과를 확인하며,
00:08:41추가 프롬프트 없이도 기능이 제대로 작동하는지 체크하더군요.
00:08:46결국 이 반복 과정을 통해 슬래시 명령어 문제도 해결되었고,
00:08:49인터페이스 전체가 실제 노션 클론처럼 기능하게 되었습니다.
00:08:52제작사의 주장이 사실로 증명된 셈이죠.
00:08:54몇 가지 문제를 겪어본 결과, 비용이 비싼 것으로 알려진 클로드(Claude)의 대안으로
00:08:58저렴한 Kimi가 좋은 선택지가 될 수 있을 것 같습니다.
00:09:03오늘 준비한 영상은 여기까지입니다.
00:09:05저희 채널을 응원하고 이런 영상을 계속 제작하는 데 힘을 보태고 싶으시다면,
00:09:08AI Labs Pro에 가입해 주시면 큰 도움이 됩니다.
00:09:10시청해 주셔서 감사드리고, 다음 영상에서 뵙겠습니다.