이게 세상에서 가장 빠른 AI 모델이라고?!! (샤오미 MiMo V2.5 프로 울트라스피드)

BBetter Stack
Computing/SoftwareVideo & Computer GamesConsumer Electronics

Transcript

00:00:00세상에, 샤오미(ShowMe) 아시죠? 휴대폰 만드는 중국 기업 말이에요,
00:00:05세계에서 가장 빠른 AI 모델을 만들었을지도 모릅니다. 이름은 '샤오미 미모 V2.5 울트라 스피드'인데,
00:00:13정말 놀랍습니다. 오늘 영상에서는 이 모델을 살펴보고 어떻게 작동하는지 알아볼 겁니다.
00:00:18운 좋게도 이 모델을 미리 사용해 볼 기회를 얻었으니, 몇 가지 흥미로운 예제로
00:00:24실제로 얼마나 빠른지 테스트해 보겠습니다. 정말 재밌을 것 같네요. 바로 시작해 보죠.
00:00:30이 모델의 내부를 들여다보기 전에, 우리가 지금 얼마나 엄청난 차이를 경험하고 있는지 살펴봅시다.
00:00:39GPT 5.5나 클로드 4 오푸스 같은 프론티어 모델들은 종종 상당한 추론 지연 시간을 겪으며,
00:00:46초당 약 50~60토큰 정도를 처리합니다. 나쁘진 않지만, 다소 느린 편이죠.
00:00:54하지만 ShowMe의 새로운 Mimo Ultra Speed 모델은 초당 1000 토큰이 넘는 속도를 기록하고 있으며
00:01:00더 놀라운 점은 이 모델의 규모가 엄청나다는 것입니다. 1조 개의 파라미터를 가진
00:01:07Mixture of Experts(전문가 혼합) 모델이죠. 그래서 여러분은 '아, 아마 특별하고
00:01:13고급스러운 맞춤형 하드웨어 설정을 사용했겠구나'라고 생각하실지도 모릅니다. 하지만 꼭 그렇지는 않습니다.
00:01:19ShowMe는 시스템 파트너인 Tile RT와 협력하여, 단일 표준 서버와 8개의
00:01:25범용 GPU만을 사용하여 이를 달성했습니다. 하지만 그게 정답이 아니라면, 어떻게 1조 개의
00:01:31파라미터를 가진 모델을 표준 하드웨어에서 마이크로초 단위의 속도로 텍스트를 출력하게 만들었을까요? 그들은
00:01:39'익스트림 모델 시스템 공동 설계'라고 부르는 방식을 고안해냈습니다. 그들은 지연 시간 병목 현상을
00:01:44세 가지 측면에서 동시에 해결했습니다. 첫째, 메모리 대역폭을 최적화했습니다. 1조 개의
00:01:50파라미터를 텍스트 생성 단계에서 GPU 메모리로 옮기면 엄청난 데이터 정체가 발생합니다. 이를 해결하기 위해
00:01:57ShowMe는 MXFP4 양자화 기술을 사용했습니다. 하지만 4비트 압축은 일반적으로 AI를
00:02:04덜 정확하게 만들 수 있기 때문에, 양자화 인식 학습(QAT)을 활용했고 핵심 라우팅 레이어는
00:02:12더 높은 정밀도로 유지했습니다. 덕분에 모델의 지능을 압축하지 않은 버전과 거의 동일하게 유지하면서
00:02:18메모리 압박을 완화할 수 있었습니다. 둘째, 모델이 단어를 예측하는 방식을 근본적으로 바꿨습니다. 표준
00:02:25추측 디코딩(speculative decoding)은 작은 초안 모델이 몇 단어를 미리 추측하면 거대한 메인
00:02:32모델이 계산 결과를 확인하는 방식입니다. 하지만 ShowMe는 'D-Flash'라고 부르는 다른 방식을 택했습니다.
00:02:39토큰 하나를 추측하는 대신, 숨겨진 토큰 블록 전체를 병렬 포워드 패스로 한꺼번에 예측합니다.
00:02:46테스트 결과, 코딩 작업에서 메인 모델이 D-Flash가 예측한
00:02:52토큰 8개 중 평균 6.3개를 유지한다는 것을 발견했습니다. 즉, 작은 걸음 대신
00:02:58토큰 8개씩 거대한 도약을 하는 셈이죠. 마지막으로, 매우 귀찮은 하드웨어 병목을 해결하는 특별한
00:03:04엔진을 사용했습니다. 초당 1000토큰을 쏟아내면, 표준 GPU는 명령 로직을 따라가지 못합니다.
00:03:11보통 GPU는 수학 연산을 시작하고, 완료하고, 메모리를 비운 다음
00:03:17다음 연산을 기다립니다. 이 지연 시간은 마이크로초 단위지만, 처리 효율을 완전히 떨어뜨립니다.
00:03:23이를 해결하기 위해 Tile RT는 GPU 안에 상주하는 지속적인
00:03:30엔진 커널을 만들었습니다. '워프 특수화(warp specialization)'라는 기법을 사용하여
00:03:37하드웨어 각 부분에 영구적인 역할을 할당했습니다. 한 섹션이 데이터를 옮기는 동안,
00:03:42다른 쪽은 수학 연산을 수행하고, 또 다른 쪽은 통신을 처리합니다. 파이프라인이
00:03:48멈추지 않고 계속 움직이는 거죠. 최근 제가 diffusion 젬마(gemma) 영상을 만들었는데, 그 모델도
00:03:55매우 빠르지만 접근 방식은 완전히 달랐습니다. 관심 있으시면 그 영상도 확인해 보세요.
00:04:00아무튼, 샤오미가 초당 1000토큰의 속도를 낸다는 방법은 이렇습니다. 자, 이제
00:04:07실제로 테스트해서 이 약속이 지켜지는지 확인해 보죠. 첫 번째 테스트로,
00:04:14리트코드(LeetCode)의 어려운 문제를 하나 가져와서 돌려봤는데, 엄청나게 빨랐습니다.
00:04:20대단하지 않나요? 여기 보시다시피 초당 3451토큰까지 치솟았는데, 이건 정말 미친 수준입니다.
00:04:29물론 이 리트코드 문제가 모델의 학습 데이터에 포함되어 있었을 가능성도 있습니다.
00:04:34그래서 인상적이긴 하지만 공정한 비교는 아닐 수 있습니다. 더 복잡한 걸 시도해 보죠.
00:04:41다음으로는 외부 라이브러리 없이 HTML 파일 하나로 간단한 개인 금융 대시보드 UI를
00:04:48만들어달라고 했습니다. 이 테스트에서는 이 모델이 얼마나 엄청난 성능을
00:04:54보여주는지 알 수 있었습니다. 추론 단계에서 초당 약 700토큰, 출력 연산에서 초당 1000토큰을
00:05:02기록했고, 65초 만에 작업을 완료했습니다.
00:05:09결과물은 꽤 괜찮았습니다. 버튼 몇 개가 작동하지 않고 기능 일부가 깨졌지만,
00:05:14전체적인 디자인은 아주 좋네요. 1분 만에 한 작업치고는 나쁘지 않습니다.
00:05:21그래서 더 복잡한 도전을 해보기로 했습니다. 칸 아카데미 스타일의 수학 설명 웹페이지를
00:05:26만들어달라고 요청했죠. 얼마나 복잡한 웹사이트가 나올지 궁금했거든요. 그런데 여기서 좀 난관에 부딪혔습니다.
00:05:34두 번 시도했는데, 모두 2~3분 뒤에 모델이 생성을 중단하고 완전히 멈춰버렸습니다.
00:05:40아마 컨텍스트 제한에 걸렸거나 샤오미 측에서 레이트 리미트를 걸어둔 것 같았습니다.
00:05:45그래서 작업 규모를 줄여서 수학 개념 5개만 다루는 웹페이지를 설계해달라고 했습니다.
00:05:51이번에는 성공했습니다. 75초 만에 작업을 끝냈고 결과물도 꽤 훌륭했습니다.
00:05:58첫 3개의 수학 개념 위젯은 작동했지만, 그 이후는 깨지거나 비어 있었습니다.
00:06:04정확히 무슨 일이 일어났는지는 모르겠습니다. 추론 과정 중에 컨텍스트를 일부 놓쳤을 수도 있겠지만,
00:06:10추론 단계에서 초당 500토큰을 처리했다는 점을 고려하면 상당히 괜찮은 결과라고 생각합니다.
00:06:17마지막 테스트는 좀 더 재미있는 걸 해보려 합니다.
00:06:23Three.js를 사용하여 서브웨이 서퍼(Subway Surfer) 클론 게임을 만들어달라고 했습니다.
00:06:29놀랍게도 단 50초 만에 완벽하게 작동하는 게임을 만들었습니다.
00:06:34정말 대단합니다. 하지만 장애물이나 코인 같은 요소가 없어서 다소 심심하긴 했습니다.
00:06:41그래서 수정해달라고 후속 요청을 보냈고, 두 번의 시도 만에 코인과 장애물을 추가했습니다.
00:06:49솔직히 테스트해보니 이번 데모는 완벽했습니다. 모든 기능이 정상이었고
00:06:55심지어 점수 저장까지 제대로 작동했습니다. 이 결과는 정말 긍정적인 놀라움이었습니다.
00:07:01요즘 다른 모델들로도 만들 수 있겠지만, 단 50초 만에 이런 결과물을 얻었다는 건
00:07:07매우 인상적입니다. 우리가 테스트에서 본 것처럼, 이 모델은 초당 3000토큰이 넘는
00:07:14기록적인 속도를 달성했습니다. 확실히 제가 본 중 가장 빠른 모델입니다.
00:07:20물론 일부 결과물은 미흡하지만, 샤오미 모델은 계속 발전할 테니
00:07:26앞으로의 행보가 매우 기대됩니다.
00:07:32자, 여기까지가 샤오미 미모 V2.5 울트라 스피드에 대한 요약입니다.
00:07:39이 모델에 대해 어떻게 생각하시나요? 인상적인가요? 실망스럽나요?
00:07:45아래 댓글로 의견 남겨주세요.
00:07:52이런 기술적인 리뷰가 도움이 되셨다면 아래 좋아요 버튼을 눌러주시고,
00:07:58구독도 잊지 마세요.
00:08:06BetterStack의 안드루스였습니다. 다음 영상에서 뵙겠습니다.
00:08:12모두 즐거운 하루 되세요.
00:08:18영상을 끝까지 봐주셔서 감사합니다.
00:08:24좋아요와 구독은 큰 힘이 됩니다.
00:08:29다음에 더 흥미로운 주제로 찾아오겠습니다.
00:08:33그럼 안녕히 계세요!

Key Takeaway

샤오미 미모 V2.5 울트라 스피드는 MXFP4 양자화, D-Flash 병렬 예측, 워프 특수화 엔진을 결합하여 1조 파라미터 규모 모델임에도 일반 하드웨어에서 초당 1000토큰 이상의 기록적인 추론 속도를 구현했다.

Highlights

  • 샤오미 미모(MiMo) V2.5 울트라 스피드 모델은 초당 1000토큰 이상의 생성 속도를 기록하며 일부 작업에서는 초당 3451토큰까지 도달한다.

  • 1조 개의 파라미터를 가진 전문가 혼합(MoE) 모델임에도 단일 표준 서버와 8개의 범용 GPU만을 사용하여 구동된다.

  • 메모리 대역폭 문제 해결을 위해 MXFP4 양자화 기술과 양자화 인식 학습(QAT)을 결합하여 지능 손실을 최소화했다.

  • D-Flash 기술은 토큰을 하나씩 추측하는 대신 토큰 블록 전체를 병렬로 예측하여 추론 성능을 비약적으로 높였다.

  • GPU 연산 효율을 극대화하기 위해 워프 특수화(warp specialization) 기법으로 하드웨어 각 부분에 영구적 역할을 할당하는 엔진 커널을 사용했다.

  • 50초 만에 기본적인 기능과 데이터 저장이 포함된 서브웨이 서퍼 클론 게임을 코딩하는 성능을 보였다.

Timeline

모델 성능 및 하드웨어 환경

  • 미모 V2.5 울트라 스피드는 초당 1000토큰 이상의 속도를 내는 1조 파라미터 규모의 전문가 혼합 모델이다.
  • 프론티어 모델들이 초당 50~60토큰을 처리하는 것과 비교하면 압도적인 성능 차이를 보인다.
  • 특수 하드웨어가 아닌 단일 표준 서버와 8개의 범용 GPU 조합만으로 구동된다.

기존 대규모 언어 모델들이 겪는 추론 지연 문제를 극복하기 위해 설계된 모델이다. 일반적인 하드웨어 설정을 유지하면서도 모델의 거대한 규모를 효율적으로 제어하는 점이 핵심이다.

속도 최적화 핵심 기술

  • MXFP4 양자화와 양자화 인식 학습을 통해 메모리 대역폭 정체를 완화하고 정밀도를 유지했다.
  • D-Flash 방식은 토큰 8개 단위의 블록을 한꺼번에 예측하여 표준 추측 디코딩보다 높은 효율을 낸다.
  • 워프 특수화 기법은 GPU 내 데이터 이동과 수학 연산, 통신을 분리하여 파이프라인 정지 시간을 제거한다.

데이터 정체와 명령 로직의 지연을 해결하기 위해 모델 구조 설계부터 하드웨어 커널 수준까지 최적화했다. 특히 GPU 내부에서 데이터 이동과 연산이 동시에 진행되도록 파이프라인을 구성하여 마이크로초 단위의 효율을 확보했다.

실제 성능 테스트

  • 리트코드 문제 풀이 시 초당 최대 3451토큰을 기록했다.
  • 개인 금융 대시보드 UI를 65초 만에 제작했으며 일부 기능 결함은 있으나 디자인 완성도가 높았다.
  • 서브웨이 서퍼 클론 게임을 50초 만에 완벽하게 구현하여 수정 요청까지 정상적으로 처리했다.

다양한 실전 코딩 테스트를 통해 모델의 속도와 정확도를 검증했다. 복잡한 요구사항이나 긴 문맥 처리 시 일부 중단 현상이 발생했으나, 짧은 시간 내에 복잡한 결과물을 산출하는 능력은 기존 모델 대비 매우 우수하다.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video