이런 건 정말 처음 봅니다

AAI LABS
컴퓨터/소프트웨어창업/스타트업경영/리더십AI/미래기술

Transcript

00:00:00실제로 AI 모델을 더 뛰어난 관리자가 되도록 훈련시킬 수 있을까요?
00:00:02최근 문샷(Moonshot)은 Kimi 2.5를 출시하며 현존하는 가장 강력한 오픈 소스 모델이라고 발표했습니다.
00:00:08하지만 그 주장은 시작부터 틀렸습니다. 오픈 소스가 아니라 '오픈 웨이트(공개 가중치)' 모델이기 때문이죠.
00:00:11엄연히 차이가 있지만, 지금 그게 중요한 건 아닙니다.
00:00:13Kimi 2.5는 실제로 테스트해 볼 만한 가치가 있는 두 가지 핵심 주장을 내세우고 있습니다.
00:00:17첫째, 에이전트 스웜(Swarm)을 지휘하도록 처음부터 설계되었다는 점입니다.
00:00:21최대 100개의 하위 에이전트를 병렬로 실행할 수 있다고 하죠.
00:00:23강화 학습 설정이 단순히 정답을 맞히는 것에만 보상을 주는 게 아니라,
00:00:27모델이 에이전트들에게 얼마나 효율적으로 업무를 배분하는지도 평가합니다.
00:00:30둘째, 시각적 에이전트 지능을 갖추고 있다고 주장합니다.
00:00:33단 한 번의 프롬프트만으로 매우 높은 수준의 애니메이션을 생성했다고 발표했죠.
00:00:37이제는 사용자가 한 번에 만들었다고 주장하는 게 아니라, 제작사 스스로 그렇게 주장하고 있는 겁니다.
00:00:42그래서 저희 팀원 중 한 명이 이 두 가지 기능을 직접 테스트해 봤습니다.
00:00:44어떤 부분은 광고한 대로 뛰어났지만, 기대에 못 미치는 부분도 있었습니다.
00:00:48앞서 말씀드린 대로, Kimi 2.5는 스스로를 오픈 소스 모델이라고 부릅니다.
00:00:51하지만 엄밀히 말해 Kimi 2.5는 오픈 소스 모델이 아닙니다.
00:00:54오픈 소스 이니셔티브(OSI)의 정의에 따르면,
00:00:57오픈 소스 모델은 코드, 학습 데이터, 방법론이 모두 공개되어야 합니다.
00:01:02그래야 누구나 검토하고 수정하며 배포할 수 있기 때문이죠.
00:01:05하지만 이 모델은 그냥 오픈 웨이트 모델일 뿐입니다.
00:01:07오픈 웨이트 모델은 최종 가중치(Weights)만 공개하는 방식입니다.
00:01:10즉, 학습 코드나 학습 데이터셋은 공개되지 않는다는 뜻입니다.
00:01:14가중치만 제공되므로, 다른 사람들이 자신의 프로젝트에 맞게 모델을 미세 조정하거나 배포할 수만 있습니다.
00:01:20이 모델의 아키텍처는 딥시크(DeepSeek)의 MoE(Mixture of Experts) 구조와 매우 유사합니다.
00:01:25전체 매개변수는 1조 개에 달하지만, 실제로 활성화되는 것은 320억 개뿐입니다.
00:01:30그럼 모델의 성능을 온전히 다 쓰지 못하는 걸까요?
00:01:33성능은 1조 개의 매개변수 모델과 동일한 정확도를 내면서도,
00:01:36처리 전력과 비용은 훨씬 적게 듭니다.
00:01:39이처럼 전체 매개변수와 활성 매개변수의 차이가 크다는 점이,
00:01:43이 모델이 현존하는 가장 빠른 오픈 웨이트 모델 중 하나로 꼽히는 핵심 이유입니다.
00:01:47질의당 일부 매개변수만 사용하기 때문에,
00:01:52모델 속도가 비약적으로 빨라지는 것이죠.
00:01:54다른 모델들에 비해 비용이 저렴한 근본적인 이유이기도 합니다.
00:01:57제작사는 이것이 네이티브 멀티모달 모델이며, 코딩과 비전 분야에서 최고 수준의 성능을 보여준다고 말합니다.
00:02:03하지만 이건 모든 모델이 내세우는 뻔한 홍보 문구일 뿐이죠.
00:02:08그래서 저희 팀이 직접 검증해 봤습니다. 그 결과를 지금부터 보여드릴게요.
00:02:12본격적인 기능을 살펴보기 전에, 잠시 광고 말씀 드리겠습니다.
00:02:16오페라 네온(Opera Neon). 미래를 경험할 준비가 된 파워 유저들을 위해 설계된,
00:02:19오페라 최초의 에이전트 기반 브라우저입니다.
00:02:23네온은 혼란스러운 탭 대신 '태스크(Tasks)'라는 집중형 워크스페이스를 사용합니다.
00:02:27여기서 AI는 동일한 맥락 안에서 여러 탭을 넘나들며 분석하고 작업을 수행합니다.
00:02:32업무에 필요한 간단한 도구가 급히 필요하다고 가정해 봅시다.
00:02:34따로 개발 환경(IDE)을 켤 필요 없이, '네온 메이크(Neon Make)'를 쓰면 됩니다.
00:02:37프롬프트에 “사이버펑크 스타일의 뽀모도로 타이머 만들어 줘”라고 입력하면,
00:02:40브라우저가 가상 머신을 띄워 기획안을 만들고,
00:02:43코드를 작성한 뒤 즉시 앱으로 배포까지 완료합니다.
00:02:45매일 반복되는 업무 흐름에서 시간을 엄청나게 아껴주죠. '네온 두(Neon Do)'를 통해 흐름을 끊지 않고도
00:02:50아이디어를 프로토타입으로 만들거나 조사를 자동화할 수 있습니다.
00:02:53인터페이스 안에 주니어 개발자가 한 명 상주하는 것과 같습니다.
00:02:56저도 프롬프트 자동화를 위해 이 네온 카드들을 꼭 써볼 생각입니다.
00:02:59지금 바로 오페라 네온을 구독해 보세요. 에이전트 중심의 변화를 지켜보지만 말고,
00:03:03그 흐름의 주인공이 되십시오. 링크는 설명란에 있습니다.
00:03:05Kimi 모델은 여러 에이전트 무리를 지휘하며 업무를 조율할 수 있습니다.
00:03:10클로드(Claude)도 필요한 작업에 따라 여러 하위 에이전트를 생성하니 비슷하다고 생각하실 수 있습니다.
00:03:15하지만 이 모델은 다른 점이 있습니다.
00:03:17Kimi 2.5는 모델 자체가 최대 100개의 하위 에이전트 스웜을 스스로 지휘하도록 학습되었습니다.
00:03:23병렬 에이전트 강화 학습을 통해 1,500개의 조율된 단계에 걸쳐 병렬 워크플로우를 실행하죠.
00:03:29모르는 분들을 위해 설명하자면, 강화 학습은 모델이 잘하면 보상을 주고
00:03:33목표에서 벗어나면 벌점을 주는 과정입니다.
00:03:36대부분의 모델은 결과물의 성능에 대해서만 보상을 받습니다.
00:03:39하지만 이 모델은 단계를 얼마나 잘 병렬화하고
00:03:43조율자(Orchestrator)로서 역할을 잘 수행했는지에 따라서도 보상을 받습니다.
00:03:44쉽게 말해, Kimi 모델은 '오케스트레이터'가 되도록 훈련받은 것입니다.
00:03:48성공 기준은 하위 에이전트를 생성하고 작업을 할당하는 능력에 달려 있습니다.
00:03:53이 오케스트레이터는 에이전트 생성, 업무 할당 등 관련 기능을 위한 도구를 내장하고 있습니다.
00:03:58다양한 작업을 위해 에이전트를 만들고 업무를 맡긴 뒤,
00:04:02결과를 받아 하나로 취합해 최종 결과물을 만들어냅니다.
00:04:06제작사에 따르면, 복잡한 작업의 성능을 높이기 위해 이 스웜 방식을 사용했다고 합니다.
00:04:11자체 평가 결과, 전체 실행 시간이 80%나 단축되었다고 하죠.
00:04:16즉, 훨씬 더 복잡하고 긴 호흡의 작업을 수행할 수 있게 된 것입니다.
00:04:20장기 작업에 강한 최고의 모델들과 비교했을 때,
00:04:23Opus 4.5나 스웜 기능이 없는 Kimi 2.5보다도,
00:04:26Kimi 2.5 에이전트 스웜이 모든 벤치마크에서 우위를 점했다고 합니다.
00:04:32단일 에이전트를 쓸 때보다 시간을 상당히 절약할 수 있었던 것이죠.
00:04:36여기까지가 제작사의 주장이었습니다.
00:04:39이 주장들을 검증하기 위해, 저희는 새로 출시된 코딩 에이전트인
00:04:42KimiCode CLI를 설치해 보았습니다.
00:04:45마침 이미 만들어둔 UI를 다른 컴포넌트 구조로 옮기고 싶던 참이었습니다.
00:04:49ShadCN으로 구축된 UI를 Material UI로 다시 만들기로 했죠.
00:04:53프로젝트에 페이지가 여러 개 있었기 때문에,
00:04:55전체 프로젝트 UI를 ShadCN에서 Material UI로 바꿔달라고 Kimi에게 요청했습니다.
00:05:00이전 작업이 병렬로 더 빨리 진행될 수 있도록
00:05:02페이지당 하나씩 에이전트를 할당해달라고 주문했죠.
00:05:05Claude Code와 비슷하게 디렉토리를 탐색하기 시작하더군요.
00:05:08Material UI로 변환해야 할 모든 페이지를 포함한 할 일 목록을 만들었습니다.
00:05:13더 효율적인 처리를 위해 성격이 비슷한 페이지들,
00:05:15예를 들어 가입, 로그인, 비밀번호 찾기 같은 인증 페이지들을 그룹화했습니다.
00:05:20그런데 생각보다 많은 에이전트가 생성되었는데,
00:05:23나중에 알고 보니 CLI의 버그였습니다.
00:05:26결국 실제 작업에는 5개의 에이전트가 쓰였는데,
00:05:28신제품이라는 점을 감안하면 예상 가능한 범위였습니다.
00:05:30완료까지 약 15분이 걸렸습니다. 병렬 에이전트를 썼으니
00:05:32시간이 단축될 거라고 생각했던 부분이었죠.
00:05:35마지막으로 검증과 정리 작업을 하며 마무리되었습니다.
00:05:38마이그레이션 후 더 이상 사용되지 않는 컴포넌트들도
00:05:41깔끔하게 정리해 주더군요.
00:05:43테스트 파일을 포함해 모든 종속성이 설치 및 업데이트되었는지 확인하고,
00:05:45나머지 부분도 검증했습니다.
00:05:48그 과정에서 ShadCN 관련 의존성이 모두 제거되었는지도 확실히 체크했습니다.
00:05:53안 쓰는 의존성을 그대로 둬서 프로젝트를 무겁게 만드는 실수를 하지 않더군요.
00:05:55대부분의 에이전트가 놓치는 부분인데 인상적이었습니다.
00:05:59UI도 약간씩 다듬었습니다.
00:06:01예를 들어, 원래는 텍스트와 이미지가 나란히 있던 히어로 섹션을
00:06:05세로로 쌓인 구조로 변경했더군요.
00:06:07그 점을 제외하면 컴포넌트만 교체되었을 뿐,
00:06:10모든 게 원래와 거의 똑같아 보였습니다.
00:06:12큰 작업이었음에도 컨텍스트 창의 25%만 사용했기 때문에,
00:06:16오래 걸리는 작업도 효율적으로 수행할 수 있음을 보여주었습니다.
00:06:19결론적으로 에이전트 스웜은 잘 작동하지만, 항상 더 빠른 것은 아니며
00:06:22규모가 큰 코드베이스에서는 시간이 더 걸릴 수도 있습니다.
00:06:24영상에서 저희가 이것저것 참 많이 만든다는 걸 느끼셨을 겁니다.
00:06:27사용된 모든 프롬프트, 코드, 템플릿 등,
00:06:29영상을 멈추고 일일이 받아 적어야 했던 그 자료들 말이죠.
00:06:32이번 영상뿐 아니라 이전 영상의 모든 자료가 저희 커뮤니티에 있습니다.
00:06:35링크는 설명란을 확인해 주세요.
00:06:37Kimi 2.5의 핵심 판매 포인트는 시각적 에이전트 지능입니다.
00:06:41특히 프런트엔드 역량이 매우 뛰어나다고 하는데요.
00:06:44인터랙티브한 레이아웃이나 텍스트 스크롤 애니메이션 같은
00:06:48화려한 효과들을 직접 구현하고 상호작용할 수 있습니다.
00:06:50제작사가 제공한 여러 애니메이션 예시들은 모두 훌륭하게 제작되었습니다.
00:06:53하지만 진짜 돋보이는 부분은 따로 있습니다.
00:06:55단순한 텍스트나 이미지 프롬프트를 넘어 비전 기반 코딩에 강점이 있다는 점이죠.
00:07:00심지어 영상을 입력으로 받아 코드를 생성할 수도 있는데,
00:07:03이는 이런 능력을 갖춘 초기 모델 중 하나입니다.
00:07:06덕분에 코드의 흐름을 설명하기가 훨씬 수월해졌습니다.
00:07:08이 멀티모달 기능은 학습 후에 따로 추가된 것이 아닙니다.
00:07:12모델 학습 단계부터 통합되어 있었습니다.
00:07:14대부분의 모델은 텍스트 능력이 충분히 확보된 후에야
00:07:16추가 기능을 넣기 때문에,
00:07:19비전과 텍스트 능력 사이에 트레이드오프(상충 관계)가 발생하곤 합니다.
00:07:23하지만 Kimi 2.5의 학습 방법론 덕분에
00:07:25그런 상충 관계없이 두 능력이 함께 향상되었습니다.
00:07:29자, 직접 테스트해 볼 시간입니다.
00:07:30노션(Notion)의 새 페이지 인터페이스와 슬래시(/) 명령어를 사용하는 모습을 화면 녹화했습니다.
00:07:35문서에 영상 용량 제한이 40MB라고 되어 있어 녹화본은 짧게 준비했습니다.
00:07:40노션 녹화 파일 경로를 알려주고 영상에 보이는 웹사이트를 복제해달라고 요청했습니다.
00:07:45프롬프트에 이게 어떤 영상인지는 따로 말해주지 않았지만,
00:07:48모델은 미디어 파일 읽기 도구를 사용해 영상을 분석했습니다.
00:07:52영상이 노션 스타일의 인터페이스임을 파악하고 모든 특징을 찾아낸 뒤,
00:07:56macOS 스타일 창이 있는 노션 클론이라고 결론지었습니다.
00:07:59파일 내용을 다 파악하자마자 바로 구현에 들어갔습니다.
00:08:02혹시 직접 프로젝트에 영상 처리를 활용하실 분들은 이 점을 기억하세요.
00:08:06영상과 이미지는 컨텍스트 창을 매우 빠르게 소모하므로,
00:08:09파일 크기에 주의하고 컨텍스트가 꽉 차지 않도록 관리해야 합니다.
00:08:12복제된 인터페이스는 매우 정확했습니다.
00:08:15페이지 아이콘을 포함해 노션의 기능들이 포함된 UI가 수정 가능한 상태로 만들어졌죠.
00:08:18처음에는 일부 기능이 완벽히 작동하지는 않았습니다.
00:08:21슬래시 명령어는 아직 안 됐지만, 전반적인 UI는 아주 정확했습니다.
00:08:25슬래시 명령어는 핵심 워크플로우라 구현되었다면 더 좋았을 텐데 말이죠.
00:08:29하지만 이건 반복 수정을 통해 충분히 해결할 수 있는 사소한 문제였습니다.
00:08:32그래서 구현된 결과물의 문제점들을 고쳐달라는 프롬프트를 줬습니다.
00:08:37그때부터 스스로 반복하며 수정을 진행하고 결과를 확인하며,
00:08:41추가 프롬프트 없이도 기능이 제대로 작동하는지 체크하더군요.
00:08:46결국 이 반복 과정을 통해 슬래시 명령어 문제도 해결되었고,
00:08:49인터페이스 전체가 실제 노션 클론처럼 기능하게 되었습니다.
00:08:52제작사의 주장이 사실로 증명된 셈이죠.
00:08:54몇 가지 문제를 겪어본 결과, 비용이 비싼 것으로 알려진 클로드(Claude)의 대안으로
00:08:58저렴한 Kimi가 좋은 선택지가 될 수 있을 것 같습니다.
00:09:03오늘 준비한 영상은 여기까지입니다.
00:09:05저희 채널을 응원하고 이런 영상을 계속 제작하는 데 힘을 보태고 싶으시다면,
00:09:08AI Labs Pro에 가입해 주시면 큰 도움이 됩니다.
00:09:10시청해 주셔서 감사드리고, 다음 영상에서 뵙겠습니다.

Key Takeaway

Kimi 2.5는 대규모 에이전트 스웜 관리와 뛰어난 비전 지능을 결합하여 복잡한 코딩 및 자동화 작업을 효율적으로 수행하는 차세대 오픈 웨이트 모델입니다.

Highlights

Moonshot의 Kimi 2.5 출시 및 '오픈 웨이트' 모델로서의 특성 분석

최대 100개의 에이전트 스웜을 지휘하는 '오케스트레이터' 기반 강화 학습

DeepSeek MoE 구조를 채택하여 1조 개의 매개변수 중 320억 개만 활성화하는 고효율성

ShadCN에서 Material UI로의 프로젝트 전체 마이그레이션 실전 테스트 결과

학습 단계부터 통합된 네이티브 멀티모달 능력을 통한 영상 기반 코드 생성

기존 고비용 모델인 Claude의 강력하고 경제적인 대안으로서의 가능성

Timeline

Kimi 2.5 소개 및 오픈 웨이트 모델의 정의

Moonshot이 새롭게 공개한 Kimi 2.5 모델의 핵심 주장과 기술적 배경을 설명합니다. 발표자는 이 모델이 엄밀히 말해 '오픈 소스'가 아닌 최종 가중치만 공개하는 '오픈 웨이트' 모델임을 지적하며 용어의 차이를 명확히 합니다. Kimi 2.5는 에이전트 스웜 지휘와 시각적 지능이라는 두 가지 혁신적인 기능을 전면에 내세우고 있습니다. 사용자는 학습 코드나 데이터셋에 접근할 수는 없지만, 공개된 가중치를 활용해 자신의 프로젝트에 맞게 모델을 미세 조정할 수 있습니다. 이러한 구조적 특징은 모델의 투명성과 활용 가능성 사이의 균형을 보여주는 중요한 지점입니다.

MoE 아키텍처를 통한 효율성과 속도 달성

Kimi 2.5의 기술적 구조인 DeepSeek 기반의 MoE(Mixture of Experts) 아키텍처를 심층 분석합니다. 전체 매개변수는 무려 1조 개에 달하지만 실제 작업 시에는 320억 개의 매개변수만 활성화하여 처리 전력과 비용을 획기적으로 낮췄습니다. 이를 통해 현존하는 가장 빠른 오픈 웨이트 모델 중 하나로 평가받으며 대규모 모델의 정확도와 소형 모델의 속도를 동시에 확보했습니다. 제작사는 특히 코딩과 비전 분야에서 최고 수준의 성능을 발휘한다고 강조하며 차별화를 꾀하고 있습니다. 이러한 효율적인 구조는 대규모 언어 모델 운영의 고질적인 문제인 비용 부담을 해결하는 열쇠가 됩니다.

에이전트 기반 브라우저 '오페라 네온' 소개

미래형 파워 유저를 위해 설계된 에이전트 중심 브라우저인 오페라 네온(Opera Neon)의 주요 기능을 소개합니다. 이 브라우저는 기존의 탭 방식 대신 '태스크'라는 집중형 워크스페이스를 제공하여 AI가 여러 탭을 넘나들며 분석 작업을 수행하도록 돕습니다. 특히 '네온 메이크' 기능을 사용하면 별도의 개발 환경 없이도 프롬프트만으로 실제 작동하는 앱을 즉시 생성하고 배포할 수 있습니다. 반복적인 업무 흐름을 자동화하는 '네온 두' 기능은 마치 주니어 개발자가 상주하는 듯한 사용자 경험을 선사합니다. 이는 AI 에이전트가 단순한 챗봇을 넘어 실제 작업 환경에 어떻게 통합되는지를 보여주는 구체적인 사례입니다.

에이전트 스웜 오케스트레이션과 강화 학습

Kimi 2.5의 독보적인 특징인 최대 100개의 에이전트 스웜을 지휘하는 메커니즘을 상세히 다룹니다. 이 모델은 단순히 정답을 맞히는 것을 넘어 하위 에이전트들에게 업무를 얼마나 효율적으로 배분하고 조율하는지에 대해 보상을 받는 강화 학습을 거쳤습니다. 이를 통해 모델 스스로가 숙련된 '관리자' 혹은 '오케스트레이터' 역할을 수행하며 병렬 워크플로우를 실행합니다. 제작사 테스트 결과에 따르면 스웜 방식을 적용했을 때 전체 실행 시간이 단일 에이전트 대비 80% 이상 단축되는 성과를 거두었습니다. 복잡한 다단계 작업을 수행할 때 기존의 강력한 모델들보다 뛰어난 벤치마크 결과를 보여준다는 점이 핵심입니다.

실전 코딩 테스트: UI 마이그레이션 검증

KimiCode CLI를 사용하여 실제 프로젝트의 UI 프레임워크를 ShadCN에서 Material UI로 변환하는 실전 테스트를 진행합니다. 모델은 프로젝트 디렉토리를 스스로 탐색하고 페이지별로 에이전트를 할당하여 작업을 병렬로 처리하는 지능적인 모습을 보여주었습니다. 특히 인상적인 부분은 마이그레이션 후 불필요해진 이전 의존성들을 스스로 파악하여 깔끔하게 제거함으로써 프로젝트의 경량화를 유지한 점입니다. 비록 초기 설정 과정에서 에이전트 생성 관련 버그가 발견되기도 했지만 최종 결과물은 매우 높은 수준의 정확도를 보여주었습니다. 이는 대규모 코드베이스의 구조 변경과 같은 고난도 작업에서 에이전트 스웜의 실용성을 증명한 사례입니다.

비전 지능을 활용한 영상 기반 코드 생성

Kimi 2.5의 또 다른 핵심 역량인 시각적 에이전트 지능과 멀티모달 학습 방식의 우수성을 조명합니다. 이 모델은 텍스트와 비전 능력을 별도로 학습시킨 것이 아니라 초기 단계부터 통합 학습하여 두 기능 간의 상충 관계 없이 시너지를 냅니다. 실제 테스트에서 노션(Notion)의 작동 영상을 입력값으로 주었을 때 모델은 별도의 설명 없이도 인터페이스의 특징을 분석하여 거의 완벽한 클론 코드를 생성했습니다. 초기 구현에서 미흡했던 '슬래시 명령어' 기능 역시 모델 스스로의 반복적인 수정 과정을 통해 최종적으로 해결되는 집요함을 보여주었습니다. 결론적으로 Kimi 2.5는 클로드와 같은 고비용 모델의 강력하고 경제적인 대안이 될 수 있음을 시사하며 분석을 마무리합니다.

Community Posts

View all posts