Transcript
00:00:00세상에, 샤오미(ShowMe) 아시죠? 휴대폰 만드는 중국 기업 말이에요,
00:00:05세계에서 가장 빠른 AI 모델을 만들었을지도 모릅니다. 이름은 '샤오미 미모 V2.5 울트라 스피드'인데,
00:00:13정말 놀랍습니다. 오늘 영상에서는 이 모델을 살펴보고 어떻게 작동하는지 알아볼 겁니다.
00:00:18운 좋게도 이 모델을 미리 사용해 볼 기회를 얻었으니, 몇 가지 흥미로운 예제로
00:00:24실제로 얼마나 빠른지 테스트해 보겠습니다. 정말 재밌을 것 같네요. 바로 시작해 보죠.
00:00:30이 모델의 내부를 들여다보기 전에, 우리가 지금 얼마나 엄청난 차이를 경험하고 있는지 살펴봅시다.
00:00:39GPT 5.5나 클로드 4 오푸스 같은 프론티어 모델들은 종종 상당한 추론 지연 시간을 겪으며,
00:00:46초당 약 50~60토큰 정도를 처리합니다. 나쁘진 않지만, 다소 느린 편이죠.
00:00:54하지만 ShowMe의 새로운 Mimo Ultra Speed 모델은 초당 1000 토큰이 넘는 속도를 기록하고 있으며
00:01:00더 놀라운 점은 이 모델의 규모가 엄청나다는 것입니다. 1조 개의 파라미터를 가진
00:01:07Mixture of Experts(전문가 혼합) 모델이죠. 그래서 여러분은 '아, 아마 특별하고
00:01:13고급스러운 맞춤형 하드웨어 설정을 사용했겠구나'라고 생각하실지도 모릅니다. 하지만 꼭 그렇지는 않습니다.
00:01:19ShowMe는 시스템 파트너인 Tile RT와 협력하여, 단일 표준 서버와 8개의
00:01:25범용 GPU만을 사용하여 이를 달성했습니다. 하지만 그게 정답이 아니라면, 어떻게 1조 개의
00:01:31파라미터를 가진 모델을 표준 하드웨어에서 마이크로초 단위의 속도로 텍스트를 출력하게 만들었을까요? 그들은
00:01:39'익스트림 모델 시스템 공동 설계'라고 부르는 방식을 고안해냈습니다. 그들은 지연 시간 병목 현상을
00:01:44세 가지 측면에서 동시에 해결했습니다. 첫째, 메모리 대역폭을 최적화했습니다. 1조 개의
00:01:50파라미터를 텍스트 생성 단계에서 GPU 메모리로 옮기면 엄청난 데이터 정체가 발생합니다. 이를 해결하기 위해
00:01:57ShowMe는 MXFP4 양자화 기술을 사용했습니다. 하지만 4비트 압축은 일반적으로 AI를
00:02:04덜 정확하게 만들 수 있기 때문에, 양자화 인식 학습(QAT)을 활용했고 핵심 라우팅 레이어는
00:02:12더 높은 정밀도로 유지했습니다. 덕분에 모델의 지능을 압축하지 않은 버전과 거의 동일하게 유지하면서
00:02:18메모리 압박을 완화할 수 있었습니다. 둘째, 모델이 단어를 예측하는 방식을 근본적으로 바꿨습니다. 표준
00:02:25추측 디코딩(speculative decoding)은 작은 초안 모델이 몇 단어를 미리 추측하면 거대한 메인
00:02:32모델이 계산 결과를 확인하는 방식입니다. 하지만 ShowMe는 'D-Flash'라고 부르는 다른 방식을 택했습니다.
00:02:39토큰 하나를 추측하는 대신, 숨겨진 토큰 블록 전체를 병렬 포워드 패스로 한꺼번에 예측합니다.
00:02:46테스트 결과, 코딩 작업에서 메인 모델이 D-Flash가 예측한
00:02:52토큰 8개 중 평균 6.3개를 유지한다는 것을 발견했습니다. 즉, 작은 걸음 대신
00:02:58토큰 8개씩 거대한 도약을 하는 셈이죠. 마지막으로, 매우 귀찮은 하드웨어 병목을 해결하는 특별한
00:03:04엔진을 사용했습니다. 초당 1000토큰을 쏟아내면, 표준 GPU는 명령 로직을 따라가지 못합니다.
00:03:11보통 GPU는 수학 연산을 시작하고, 완료하고, 메모리를 비운 다음
00:03:17다음 연산을 기다립니다. 이 지연 시간은 마이크로초 단위지만, 처리 효율을 완전히 떨어뜨립니다.
00:03:23이를 해결하기 위해 Tile RT는 GPU 안에 상주하는 지속적인
00:03:30엔진 커널을 만들었습니다. '워프 특수화(warp specialization)'라는 기법을 사용하여
00:03:37하드웨어 각 부분에 영구적인 역할을 할당했습니다. 한 섹션이 데이터를 옮기는 동안,
00:03:42다른 쪽은 수학 연산을 수행하고, 또 다른 쪽은 통신을 처리합니다. 파이프라인이
00:03:48멈추지 않고 계속 움직이는 거죠. 최근 제가 diffusion 젬마(gemma) 영상을 만들었는데, 그 모델도
00:03:55매우 빠르지만 접근 방식은 완전히 달랐습니다. 관심 있으시면 그 영상도 확인해 보세요.
00:04:00아무튼, 샤오미가 초당 1000토큰의 속도를 낸다는 방법은 이렇습니다. 자, 이제
00:04:07실제로 테스트해서 이 약속이 지켜지는지 확인해 보죠. 첫 번째 테스트로,
00:04:14리트코드(LeetCode)의 어려운 문제를 하나 가져와서 돌려봤는데, 엄청나게 빨랐습니다.
00:04:20대단하지 않나요? 여기 보시다시피 초당 3451토큰까지 치솟았는데, 이건 정말 미친 수준입니다.
00:04:29물론 이 리트코드 문제가 모델의 학습 데이터에 포함되어 있었을 가능성도 있습니다.
00:04:34그래서 인상적이긴 하지만 공정한 비교는 아닐 수 있습니다. 더 복잡한 걸 시도해 보죠.
00:04:41다음으로는 외부 라이브러리 없이 HTML 파일 하나로 간단한 개인 금융 대시보드 UI를
00:04:48만들어달라고 했습니다. 이 테스트에서는 이 모델이 얼마나 엄청난 성능을
00:04:54보여주는지 알 수 있었습니다. 추론 단계에서 초당 약 700토큰, 출력 연산에서 초당 1000토큰을
00:05:02기록했고, 65초 만에 작업을 완료했습니다.
00:05:09결과물은 꽤 괜찮았습니다. 버튼 몇 개가 작동하지 않고 기능 일부가 깨졌지만,
00:05:14전체적인 디자인은 아주 좋네요. 1분 만에 한 작업치고는 나쁘지 않습니다.
00:05:21그래서 더 복잡한 도전을 해보기로 했습니다. 칸 아카데미 스타일의 수학 설명 웹페이지를
00:05:26만들어달라고 요청했죠. 얼마나 복잡한 웹사이트가 나올지 궁금했거든요. 그런데 여기서 좀 난관에 부딪혔습니다.
00:05:34두 번 시도했는데, 모두 2~3분 뒤에 모델이 생성을 중단하고 완전히 멈춰버렸습니다.
00:05:40아마 컨텍스트 제한에 걸렸거나 샤오미 측에서 레이트 리미트를 걸어둔 것 같았습니다.
00:05:45그래서 작업 규모를 줄여서 수학 개념 5개만 다루는 웹페이지를 설계해달라고 했습니다.
00:05:51이번에는 성공했습니다. 75초 만에 작업을 끝냈고 결과물도 꽤 훌륭했습니다.
00:05:58첫 3개의 수학 개념 위젯은 작동했지만, 그 이후는 깨지거나 비어 있었습니다.
00:06:04정확히 무슨 일이 일어났는지는 모르겠습니다. 추론 과정 중에 컨텍스트를 일부 놓쳤을 수도 있겠지만,
00:06:10추론 단계에서 초당 500토큰을 처리했다는 점을 고려하면 상당히 괜찮은 결과라고 생각합니다.
00:06:17마지막 테스트는 좀 더 재미있는 걸 해보려 합니다.
00:06:23Three.js를 사용하여 서브웨이 서퍼(Subway Surfer) 클론 게임을 만들어달라고 했습니다.
00:06:29놀랍게도 단 50초 만에 완벽하게 작동하는 게임을 만들었습니다.
00:06:34정말 대단합니다. 하지만 장애물이나 코인 같은 요소가 없어서 다소 심심하긴 했습니다.
00:06:41그래서 수정해달라고 후속 요청을 보냈고, 두 번의 시도 만에 코인과 장애물을 추가했습니다.
00:06:49솔직히 테스트해보니 이번 데모는 완벽했습니다. 모든 기능이 정상이었고
00:06:55심지어 점수 저장까지 제대로 작동했습니다. 이 결과는 정말 긍정적인 놀라움이었습니다.
00:07:01요즘 다른 모델들로도 만들 수 있겠지만, 단 50초 만에 이런 결과물을 얻었다는 건
00:07:07매우 인상적입니다. 우리가 테스트에서 본 것처럼, 이 모델은 초당 3000토큰이 넘는
00:07:14기록적인 속도를 달성했습니다. 확실히 제가 본 중 가장 빠른 모델입니다.
00:07:20물론 일부 결과물은 미흡하지만, 샤오미 모델은 계속 발전할 테니
00:07:26앞으로의 행보가 매우 기대됩니다.
00:07:32자, 여기까지가 샤오미 미모 V2.5 울트라 스피드에 대한 요약입니다.
00:07:39이 모델에 대해 어떻게 생각하시나요? 인상적인가요? 실망스럽나요?
00:07:45아래 댓글로 의견 남겨주세요.
00:07:52이런 기술적인 리뷰가 도움이 되셨다면 아래 좋아요 버튼을 눌러주시고,
00:07:58구독도 잊지 마세요.
00:08:06BetterStack의 안드루스였습니다. 다음 영상에서 뵙겠습니다.
00:08:12모두 즐거운 하루 되세요.
00:08:18영상을 끝까지 봐주셔서 감사합니다.
00:08:24좋아요와 구독은 큰 힘이 됩니다.
00:08:29다음에 더 흥미로운 주제로 찾아오겠습니다.
00:08:33그럼 안녕히 계세요!
Community Posts
No posts yet. Be the first to write about this video!
Write about this video