00:00:00잠시만요, 방금 확인했는데.
00:00:01이 보고서는 2025년 1월 기준의 공개된 정보를 바탕으로 작성되었네요.
00:00:06아니, 안 돼요. 2025년이라니, 제가 요청한 건 이게 아니거든요.
00:00:15Moonshot AI에서 최신 AI 모델인 Kimi K 2.5를 출시했는데, 이번 주 내내
00:00:22인터넷에서 정말 화제가 되고 있습니다.
00:00:24어떤 사람들은 이 모델이 지금까지 나온 것 중 최고라고 말하기도 하죠.
00:00:29그래서 도대체 왜 이렇게 난리인지, 정말로 획기적인 모델인지
00:00:34아니면 그저 화려한 마케팅으로 부풀려진 모델인지 직접 테스트해 보기로 했습니다.
00:00:39오늘 영상에서 그 답을 함께 찾아보시죠.
00:00:42꽤 재미있을 것 같으니, 바로 시작하겠습니다.
00:00:49Kimi K 2.5는 중국 기업인 Moonshot AI가 개발한
00:00:55최신 오픈 소스 모델입니다.
00:00:56불과 6개월 전에 리처드가 K2 모델을 자세히 다뤘었는데, 오늘은
00:01:01K2.5에서 무엇이 달라졌는지 살펴보려 합니다.
00:01:05이 모델이 왜 그렇게 화제일까요?
00:01:06거의 매일 쏟아져 나오는 수천 개의 새로운 모델들과 무엇이 다를까요?
00:01:12크게 두 가지 특징이 있습니다.
00:01:13첫째, 비전(시각 지능)과 코딩 능력이 매우 뛰어나다고 주장합니다.
00:01:17심지어 스스로를 오픈 소스 진영의 “SOTA”라고 부를 정도죠.
00:01:21SOTA라니요.
00:01:22그게 무슨 뜻인지 아시나요?
00:01:24사실 저도 잘 몰라서 따로 찾아봤습니다.
00:01:27아, “State Of The Art(최첨단)”라는 뜻이더군요.
00:01:30네, 오늘 하나 배웠네요.
00:01:32아무튼 에이전트 벤치마크와 비전, 코딩 분야에서 최고의 성능을 보여준다는 겁니다.
00:01:37두 번째 주목할 점은 “에이전트 스웜(Agent Swarm)”이라는
00:01:42새로운 기능입니다.
00:01:44최대 100개의 하위 에이전트와 1,500개의 도구 호출을 생성해
00:01:51동시에 실행할 수 있으며, 결과적으로 4.5배 빠른 성능을 구현합니다.
00:01:55이 모델에는 “병렬 에이전트 강화 학습(PARL)”이라는
00:02:00새로운 훈련 방식이 사용되었습니다.
00:02:01이는 모델이 훈련 가능한 오케스트레이터 에이전트를 만들어 전체 스웜을 스스로 지휘함을 뜻합니다.
00:02:06이 에이전트가 작업을 병렬 처리가 가능한 하위 작업으로 분해하고
00:02:12각 에이전트를 모니터링하여, 멀티 에이전트 워크플로우에서 흔히 발생하는
00:02:18직렬 붕괴(Serial Collapse) 문제를 방지하며 전체 운영을 조율합니다.
00:02:23각 하위 에이전트의 주요 단계마다 개별 보상을 주는 방식으로 이 문제를 해결했는데,
00:02:28덕분에 K2.5는 눈에 띄는 성능 향상을 이뤄냈습니다.
00:02:34그럼 이제 직접 확인해 봐야겠죠.
00:02:35각종 벤치마크 점수에 대해서는 길게 설명하지 않겠습니다.
00:02:40요즘 영상마다 이런 수치들을 칭송하곤 하는데, 사실 전 이제
00:02:44이 숫자들을 곧이곧대로 믿기 어렵더라고요.
00:02:47벤치마크 그래프 선조차 제대로 못 맞추는데 말이죠.
00:02:51그래서 대신 이 모델이 강점으로 내세우는
00:02:55두 가지 기능에 집중해 보겠습니다.
00:02:56바로 비전 및 코딩 능력, 그리고 새로운 에이전트 스웜 기능입니다.
00:03:00자, 테스트를 시작해 보죠.
00:03:02Kimi CLI라는 자체 명령줄 도구도 제공하고 있어서
00:03:06오늘 테스트에는 이걸 활용해 보겠습니다.
00:03:09이 모델의 가장 인상적인 기능 중 하나는 특정 웹사이트의 UX를 촬영한
00:03:13영상만 보고 그대로 코드로 복제해내는 능력입니다.
00:03:19정말 놀라운 일이죠.
00:03:20테스트를 위해 애플 아이패드 에어 제품 페이지의 화려한 애니메이션과
00:03:25화면 전환 효과를 영상으로 직접 찍어봤습니다.
00:03:28그리고 이 영상 파일 하나만 들어있는 폴더를 만들었죠.
00:03:32이제 K2.5에게 이 영상을 참고해서 아이패드 에어 홍보용
00:03:38웹사이트를 만들어달라고 요청하겠습니다.
00:03:39셸 명령을 실행하기 전에 허용 여부를 묻는데, 저는 이번 세션에서
00:03:44모두 허용하도록 하겠습니다.
00:03:46작업이 시작됐습니다.
00:03:48흥미로운 점이 있네요.
00:03:49파일 용량이 너무 크다는 것을 스스로 감지하더니
00:03:51FFmpeg를 사용해 알아서 압축을 진행합니다.
00:03:56이 모델이 영상 파일을 어떻게 처리하고 이해하는지 정말 궁금했는데요.
00:04:01알고 보니 다시 한번 FFmpeg를 이용해 영상에서
00:04:06주요 프레임을 추출해 웹사이트 제작을 위한 시각적 보조 자료로 쓰더군요.
00:04:11작업을 마치는 데 약 5분 30초 정도 걸렸습니다.
00:04:15확실히 가장 빠른 모델이라고 하긴 어렵겠네요.
00:04:18참고로 저는 로컬 버전이 아니라 자체 API를 호출해 사용 중입니다.
00:04:23어쨌든 완료 후 결과물을 보면
00:04:28작업 내용에 대한 상세한 요약이 나옵니다.
00:04:29그럼 이제 웹사이트를 직접 확인해 볼까요?
00:04:30오, 세상에.
00:04:31이것 좀 보세요.
00:04:32애플 특유의 디자인 감성을 그대로 살려냈고, 중앙에는
00:04:383D로 떠 있는 아이패드까지 구현했습니다.
00:04:39마우스 움직임에도 반응하는 것 같네요.
00:04:42정말 멋집니다.
00:04:43여러 창이 넘어가는 깔끔한 캐러셀 섹션도 있는데, 아쉽게도
00:04:48점 표시를 클릭해도 반응은 없지만 디자인은 아주 우아합니다.
00:04:52애니메이션이 포함된 다른 섹션도 있네요.
00:04:55오, 여기서는 여러 디자인을 직접 넘겨볼 수 있는 캐러셀이 작동합니다.
00:05:00멋진데요.
00:05:01그 외 몇 가지 섹션이 더 있는데, 모두 애플의 미학이 잘 느껴집니다.
00:05:06솔직히 말씀드리면 꽤 훌륭합니다.
00:05:07참조 영상 하나와 짧은 요청만으로 이런 애니메이션이 포함된
00:05:12근사한 사이트를 만들었다는 게 정말 대단하네요.
00:05:16좋습니다.
00:05:17하지만 애플은 워낙 유명한 브랜드죠.
00:05:18이 디자인 감성은 분명 모델의 학습 데이터에도 포함되어 있을 겁니다.
00:05:23모델에게는 비교적 쉬운 과제였을 수도 있겠죠.
00:05:26이제 좀 더 재미있고 엉뚱한 걸 시도해 봅시다.
00:05:29심슨 가족의 '번즈 씨' 이미지 딱 한 장이 들어있는 폴더를 준비했습니다.
00:05:34Kimi K 2.5가 얼마나 창의적일 수 있는지 보죠.
00:05:37이런 요청을 넣었습니다. “번즈 씨가 대통령 선거에 출마합니다.”
00:05:40캐릭터의 성격과 동기를 바탕으로 그의 정책과 정치적 의제가 담긴
00:05:45대선 캠페인 웹사이트를 만들어 달라고 했습니다.
00:05:49어떻게 나올까요?
00:05:51추론 과정이 시작되면 디자인에 대한 구상을 엿볼 수 있습니다.
00:05:55핵심 요소가 명확하네요.
00:05:56상징적인 짙은 녹색 수트와 분홍색 넥타이를 맨 몽고메리 번즈.
00:06:01이게 캠페인 디자인의 핵심 시각적 참조가 됩니다.
00:06:05좋네요.
00:06:06이번 작업은 훨씬 더 오래 걸렸습니다.
00:06:08총 6분 정도 소요됐네요.
00:06:11작업이 끝나자 역시 상세한 결과 요약이 나오는데,
00:06:16비전 섹션, 정책 섹션, 홍보 자료 등이 추가된 것을 볼 수 있습니다.
00:06:22그리고 이것 좀 보세요.
00:06:23재미로 숨겨진 이스터 에그까지 넣었네요.
00:06:26진짜 센스 만점입니다.
00:06:27사이트가 어떻게 생겼는지 볼까요?
00:06:29와.
00:06:30세상에.
00:06:31“탁월한 통치.”
00:06:33“오직 나만을 위해 나라를 다시 위대하게 만들겠습니다.”
00:06:36오, 저기 작은 핵 버튼도 있네요.
00:06:40누르면 어떻게 될까요?
00:06:41“스미더스, 내 커피 가져와.”
00:06:43멋지네요.
00:06:44아주 상세한 소개 페이지도 있고요.
00:06:46번영에 관한 내용도 있습니다.
00:06:49애니메이션이 정말 매끄럽네요.
00:06:50와.
00:06:51Kimi K 2.5가 인상적인 그래픽을 만드는 법을 제대로 아는 것 같네요.
00:06:55다른 모델들이 뽑아내는 뻔하고 촌스러운 디자인들보다
00:07:01확실히 훨씬 수준이 높습니다.
00:07:02이것 좀 보세요.
00:07:04“엘리트들을 위한 정책.”
00:07:05세상에.
00:07:06재치 있는 농담이 가득하네요.
00:07:08정말 대단합니다.
00:07:10“번즈 의료 센터에서만 사용 가능한 의료 바우처.”
00:07:14“순자산 순서로 정렬된 장기 이식 대기 명단.”
00:07:18“황금으로 만든 국경 장벽.”
00:07:21다른 사람들의 평가는 어떨까요?
00:07:22네, 심슨 캐릭터들의 인용구와 연락처 서식, 그리고 후원
00:07:29페이지까지 있네요.
00:07:30굿즈 샵도 추가되어 있어요.
00:07:31물론 이 부분은 '준비 중'으로 나오네요.
00:07:33정적 HTML 페이지니까 당연하겠죠.
00:07:35알겠습니다.
00:07:36이제 이스터 에그를 실행해보고 싶네요.
00:07:38어떻게 하는 걸까요?
00:07:39코나미 커맨드를 입력해야 한다고 써 있네요.
00:07:43코나미 커맨드가 뭐죠?
00:07:45아, 알겠습니다.
00:07:46비디오 게임에서 아주 유명한 치트키 코드로군요.
00:07:49세상에.
00:07:50전혀 몰랐습니다.
00:07:51오늘 또 하나 배우네요.
00:07:52상, 상, 하, 하, 좌, 우, 좌, 우, A, B... 오, 됐습니다.
00:07:58이제 보시죠.
00:07:59페이지 전체에 커다란 “HA HA HA” 텍스트가 뜨고 슬로건이 “Excellent”로 바뀝니다.
00:08:06참 귀엽네요.
00:08:07솔직히 재미있는 요소가 너무 많아서 이 홈페이지 링크를 영상 설명란에
00:08:10남겨둘 테니 나중에 직접 확인해 보세요.
00:08:14심슨 팬들이라면 정말 좋아하실 겁니다.
00:08:17진심으로 인상적이네요.
00:08:19이미지 한 장과 짧은 텍스트만으로 이렇게 재미있는 사이트를 만들 줄은 몰랐습니다.
00:08:24좋습니다.
00:08:25이제 모두가 극찬하는 에이전트 스웜 기능을 써보겠습니다.
00:08:29공개된 예시들을 보면 스웜 기능은 특정 주제에 대한 조사를 수행하거나
00:08:33멀티 스레드 방식이 필요한 어떤 작업에도 아주 탁월하다고 합니다.
00:08:39이 기능을 제대로 테스트하려면 공식 Kimi 페이지의
00:08:40챗봇을 이용하는 게 가장 좋습니다. 스웜 프로세스를 시각적으로
00:08:46보여주는 멋진 요소와 애니메이션들을 추가해 놨거든요.
00:08:50잠시 후에 보게 되실 겁니다.
00:08:54이번 테스트에서는 에이전트 스웜에게 다양한 AI 모델에 대한 정보를 최대한 수집하고
00:08:56어떤 모델이 가장 많이 쓰이는지 알아보라고 시킬 겁니다.
00:09:00그리고 K2.5에게 이 모든 정보를 취합해서 깔끔한 형식의
00:09:06PDF 문서로 정리해달라고 요청하겠습니다.
00:09:10스웜 기능을 쓰게 하려면 직접 명시해 주는 게 좋습니다.
00:09:16이전 테스트에서 그냥 맡겼더니 K2.5가 스스로 스웜이 필요 없다고 판단해서
00:09:23토큰 크레딧을 일부 돌려주고 그냥 처리해버린 적이 있거든요.
00:09:27그러니 스웜을 꼭 쓰고 싶다면 꼭 말해주세요.
00:09:31자, 시작해 봅시다.
00:09:32시작하자마자 Kimi 챗봇 인터페이스의 멋진 애니메이션이 나타납니다.
00:09:33이런 게 바로 Moonshot AI가 참 잘하는 부분인 것 같아요.
00:09:39아주 유쾌하고 게임 같은 사용자 경험을 제공해서
00:09:43툴을 사용하는 과정 자체를 훨씬 즐겁게 만들어줍니다.
00:09:49에이전트를 배정하는 과정도 아주 익살스럽게 보여주네요.
00:09:52심지어 에이전트마다 ID 카드까지 부여합니다.
00:09:57각 작업의 완료 상태도 실시간으로 추적할 수 있고요.
00:09:58에이전트들이 작업을 마칠 때마다 메인 창에서 진행 상황을
00:10:01계속 확인할 수 있습니다.
00:10:05어떤 웹페이지를 방문했는지, 어떤 코드를 생성 중인지 다 보이죠.
00:10:10어떤 에이전트가 가장 빨리 작업을 끝낼지 내기를 걸어봐도 재미있겠네요.
00:10:11작업이 끝나면 아바타 위에 작은 거품 표시가 뜹니다.
00:10:15약 10분 30초 후, 스웜이 작업을 모두 마쳤고
00:10:20결과물로 이 PDF 문서를 받았습니다.
00:10:21여기 텍스트가 있는 것 같은데 잘 안 보이네요.
00:10:26내용을 파악하기 위해 다른 곳에 복사해서 붙여넣어 보겠습니다.
00:10:31아, “코딩 모델: 비교 분석”이라고 되어 있네요.
00:10:33네, 알겠습니다.
00:10:39디자인 선택은 시작부터 별로네요.
00:10:43하지만 성급하게 판단하지 말고 보고서의 나머지 내용도 보죠.
00:10:46여기 요약본이 있네요.
00:10:47주요 조사 결과입니다.
00:10:50개발자의 81%가 AI를 사용 중이거나 사용할 계획이다.
00:10:53개발자의 59%가 3개의 AI 도구를 병렬로 사용한다.
00:10:55오, 흥미로운 수치네요.
00:10:58그리고 Claude Code Opus 4.5가 차트를 점령하고 있다고 나옵니다.
00:10:59시장 동향도 있네요.
00:11:03개발자의 46%가 AI 출력물을 신뢰하지 않는다.
00:11:06와, 이건 놀랍네요.
00:11:08GitHub Copilot이 42%의 점유율로 시장 리더라고 합니다.
00:11:13오호.
00:11:16Llama 4 Scout는 1,000만 토큰으로 가장 큰 컨텍스트 창을 가진 것 같네요.
00:11:20상당히 인상적입니다.
00:11:22자, 이제 중요한 내용이 나옵니다.
00:11:26핵심 요점들을 보죠.
00:11:27단독 승자는 없다.
00:11:31아, 이런... 너무 맥 빠지는 소리네요.
00:11:32AI가 생성한 코드의 45%에 취약점이 있다.
00:11:33네, 그건 확실히 우려되는 부분이네요.
00:11:34잠시만요, 방금 확인했는데 이 보고서는 2025년 1월 기준의
00:11:35공개된 정보를 바탕으로 하고 있습니다.
00:11:36아니, 이럴 수가.
00:11:37이럴 수는 없어요.
00:11:392025년이라니, 이건 제가 요청한 게 아니잖아요.
00:11:41저는 분명히 “현재” 가장 많이 사용되는 모델에 대한 정보를 요청했습니다.
00:11:43왜 2026년 1월 데이터는 사용하지 않은 거죠?
00:11:46네, 당신 말이 맞아요. 2025년과 2026년 1월 데이터를 조사했어야 했네요.
00:11:52전형적인 LLM의 행태네요.
00:11:54Kimi, 정말 실망이야.
00:11:56구닥다리 정보를 얻으려고 내 소중한 토큰과 10분의 시간을 날렸네요.
00:11:57뭐, 어쩌겠어요.
00:11:59자, 보신 것처럼 이게 Kimi K2.5입니다.
00:12:02마지막 테스트에서 명령을 따르는 능력이 형편없어 실망하긴 했지만
00:12:09여전히 꽤 괜찮은 모델이라고 생각합니다.
00:12:14혁신적이거나 현존 최고라고까진 못하겠지만, 장점은 분명히 있죠.
00:12:15정말로 아름다운 웹사이트를 만들고 싶을 때, 그러니까
00:12:21awwwards.com 같은 곳에 올릴 만한 퀄리티를 원하신다면
00:12:23Claude Code 모델들보다는 K2.5를 추천하겠습니다.
00:12:25그리고 솔직히 스웜 기능은 시각적으로도 정말 멋지고
00:12:30사용하는 재미가 확실히 있습니다.
00:12:31하지만 Claude Code에서도 똑같은 기능을 쓸 수 있다는 거 아시나요?
00:12:32리처드가 그 주제를 다룬 아주 좋은 영상을 올렸으니 그것도 꼭 확인해 보세요.
00:12:35여러분, 오늘 영상이 유익했거나 재미있었다면 영상 아래의
00:12:40좋아요 버튼을 꾹 눌러주세요.
00:12:42그리고 저희 채널을 구독하시면 앞으로 올라올 다양한
00:12:47기술 분석 영상들을 놓치지 않고 보실 수 있습니다.
00:12:51지금까지 Better Stack의 Andris였고요, 다음 영상에서 뵙겠습니다.
00:12:55Then I would definitely go with K2.5 opposed to one of the Claude Code models, for instance.
00:13:01And I got to be honest, the swarm feature looks very cool and it's definitely fun to
00:13:06use.
00:13:07But did you know that you can get the same feature using Claude Code?
00:13:10Richard just did a great video exploring that topic, so be sure to check that video out as
00:13:14well.
00:13:15And folks, if you found this video useful or at least entertaining, then let me know by
00:13:19smashing that like button underneath the video.
00:13:22And also be sure to subscribe to our channel so you don't miss out on any of our future
00:13:26technical breakdown videos.
00:13:28This has been Andris from Better Stack and I will see you in the next videos.