00:00:00Minimax에서 코딩 모델 M2.5를 출시했습니다. 클로드 오퍼스 4.6에 육박하는 성능이면서 비용은 10분의 1 수준입니다.
00:00:07며칠 전 출시된 이 모델은 오픈 가중치를 제공하며, 2,300억 개의 파라미터를 갖춘 에이전트 워크플로우 최적화 모델입니다.
00:00:14AI 에이전트, 코파일럿 또는 자동화 도구를 개발 중이라면 하룻밤 사이에 비용 구조가 바뀔 것입니다.
00:00:19놀라운 점은 벤치마크 결과뿐만 아니라 가격 그 자체에 있습니다.
00:00:23새로운 영상이 계속 업로드될 예정이니 꼭 구독해 주세요.
00:00:31Minimax M2.5는 총 2,300억 개의 파라미터를 가진 MoE(Mixture of Experts) 모델이지만, 실행 시에는 100억 개의 파라미터만 활성화됩니다.
00:00:39덕분에 매번 전체 모델 비용을 지불하지 않고도 거대 모델의 성능을 누릴 수 있습니다.
00:00:43파이썬, 자바, 러스트, 멀티 파일 리팩토링, 도구 호출 루프, 워드 및 엑셀 자동화 등 실제 개발 워크플로우를 위해 설계되었습니다.
00:00:53버전은 두 가지입니다. 초당 50개 토큰을 생성하는 스탠다드 버전과 100개 토큰의 라이트닝 버전이 있습니다.
00:01:01다국어를 지원하며 허깅페이스(Hugging Face)에 가중치가 완전히 공개되어 있습니다.
00:01:05즉, 직접 미세 조정하거나 로컬 서버에서 실행하여 특정 플랫폼 종속을 피할 수 있다는 뜻인데, 이 점이 에이전트 개발자들에게 매우 흥미로운 부분입니다.
00:01:12성능 비교를 위해 오퍼스와 Minimax 양쪽에 동일한 프롬프트를 입력해 풀스택 칸반 보드를 만들어 보았습니다.
00:01:18복잡한 작업은 아니지만 두 모델의 실력을 비교해 보기에는 충분한 과제입니다.
00:01:23사용한 프롬프트는 설명란에 적어두었으니 참고하시고요. 먼저 실행에 약 4분이 걸린 오퍼스 버전부터 살펴보겠습니다.
00:01:31예상대로 추가 프롬프트 없이도 결과물이 잘 나왔습니다. 이것이 최종 결과입니다.
00:01:37모든 기능이 매끄럽게 작동하고, 초기 버전치고는 UI도 꽤 깔끔합니다.
00:01:44드래그 앤 드롭과 작업 수정 기능도 완벽합니다. 특히 드래그할 때마다 폴더 경로가 올바르게 바뀌는 이 작은 라벨이 참 마음에 드네요.
00:01:55전반적으로 오퍼스는 기대만큼 훌륭한 결과물을 보여주었습니다.
00:02:00이제 Minimax를 보겠습니다. 완료까지 8분 정도 걸렸는데, 웹사이트가 아닌 커서(Cursor)에서 실행해서 그럴 수도 있습니다. 저는 커서 환경을 선호하거든요.
00:02:10시간은 더 걸렸지만 비용이 10분의 1이니까 충분히 납득할 만한 수준입니다.
00:02:14총평하자면 한 번의 프롬프트로 아주 잘 해냈습니다. UI는 오퍼스보다 조금 투박하지만 기능은 동일하게 갖추고 있습니다.
00:02:22작업 생성부터 컬럼 간 드래그 앤 드롭까지 모두 완벽하게 작동합니다.
00:02:27다만 오퍼스에서 보여준 그 세심한 카드 라벨 기능은 빠져 있었습니다.
00:02:33또 하나 아쉬운 점은 박스 설명을 수정하는 기능이 제대로 구현되지 않았다는 점입니다.
00:02:38보시는 것처럼 설명을 수정해도 아무런 변화가 없습니다.
00:02:42이 기능을 제대로 작동시키려면 프롬프트를 한 번 더 입력해야 할 것 같습니다.
00:02:48그래도 괜찮습니다. 다시 말씀드리지만 가격이 10분의 1이니까요.
00:02:51이제 개발자들에게 진짜 중요한 이야기를 해보죠. M2.5는 작업 분해를 위해 강화 학습을 사용합니다.
00:02:58문제를 더 효율적으로 쪼개기 때문에 도구 호출 횟수는 20% 줄이고, 토큰 낭비는 5% 감소시킵니다.
00:03:06에이전트를 만들어 보신 분들은 아시겠지만, 도구 호출이 잦아질수록 비용은 치솟고 로직은 꼬이기 마련입니다.
00:03:13또한 멀티 파일 수정, 실행-디버깅-수정 루프 등 도구 간 전환이 잦은 작업도 오류 없이 매끄럽게 처리합니다.
00:03:21검색 벤치마크에서는 이전 버전인 M2.1보다 검색 횟수를 20%나 줄였습니다.
00:03:27캐싱도 지원하므로 반복되는 쿼리에 대해서는 시간이 지날수록 비용을 더 절감할 수 있습니다.
00:03:32올라마(Ollama), 로컬 클러스터, 깃허브 자동화 또는 CI 파이프라인에 바로 연결할 수 있습니다.
00:03:37그럼 벤치마크 점수를 오퍼스와 비교해 볼까요?
00:03:40SWE 벤치 검증(Verified) 세트에서 M2.5는 80% 이상의 점수를 기록했습니다.
00:03:45클로드 오퍼스 4.6이 80%를 약간 상회하는 수준이니 격차가 거의 없다고 봐도 무방합니다.
00:03:52멀티 SWE 벤치에서는 51%를 넘기며 다른 오픈 소스 모델들을 제치고 1위를 차지했습니다.
00:03:58DROID 벤치마크에서는 오퍼스를 0.2% 차이로 앞서기도 했습니다. 지표에 따라 우열이 갈리는 수준이죠.
00:04:05속도 면에서는 이전 모델보다 37% 빨라졌습니다. 이번 테스트에선 8분이나 걸리긴 했지만요.
00:04:11오퍼스 4.6이 평균적으로는 약간 더 빠르지만, 적절한 형식으로 실행하면 거의 대등한 속도를 보여줍니다.
00:04:18이것이 여러분에게 어떤 의미가 있을까요? 몇 가지 큰 장점이 있습니다.
00:04:20재시도 횟수가 줄고, CI 실행은 깔끔해지며, 토큰 소모는 줄고 머지 리퀘스트(PR) 승인은 더 늘어날 것입니다.
00:04:26에이전트 작업 성능 면에서는 GPT-5나 제미나이 3 프로 급의 영역에 도달했습니다.
00:04:32그러면서도 가중치가 공개되어 있다는 점이 핵심입니다. 이제 판도를 바꿀 가격 이야기를 해보죠.
00:04:37실행 속도가 조금 느리더라도 가격을 보면 생각이 달라지실 겁니다.
00:04:40M2.5 스탠다드는 입력 토큰 100만 개당 0.15달러, 출력 토큰 100만 개당 1.20달러입니다.
00:04:47라이트닝 버전은 그 두 배인 입력 0.30달러, 출력 2.40달러입니다.
00:04:53초당 100개 토큰을 생성하는 라이트닝을 한 시간 동안 풀가동해도 비용은 약 1달러 수준입니다.
00:04:56제가 사용한 스탠다드 버전은 시간당 약 30센트밖에 안 됩니다.
00:05:00클로드 오퍼스 4.6과 비교하면 차이가 어마어마합니다.
00:05:04오퍼스는 입력 토큰 100만 개당 5달러, 출력은 25달러나 합니다.
00:05:09SWE 작업당 비용을 따져보면 효율적인 설계와 적은 도구 호출 덕분에 오퍼스의 약 10% 수준입니다.
00:05:15현재 무료 API 티어도 운영 중입니다. 저는 유료 결제를 해서 썼지만, 무료 버전도 있다는 점이 경제적 측면에서 큰 변화를 가져올 겁니다.
00:05:20그럼 오퍼스 4.6에서 갈아타야 할까요? 성능만 놓고 보면 거의 대등합니다.
00:05:24So should you switch from Opus 4.6? Well, performance wise, they're nearly identical.
00:05:30스탠다드 버전을 써서 시간은 좀 더 걸렸지만, 결과물은 거의 차이가 없습니다.
00:05:34작업 완료 시간이나 추론의 깊이 또한 비견될 만한 수준이었습니다.
00:05:39하지만 비용 측면에서는 압도적으로 저렴합니다. 선택은 여러분의 몫이겠죠.
00:05:43앞서 말씀드린 것처럼 도구 호출과 토큰 낭비도 20%나 적습니다.
00:05:47유연성도 좋습니다. 오픈 가중치 모델이라 로컬 배포가 가능하고 미세 조정도 할 수 있습니다.
00:05:52물론 최상위급 프리미엄 지능 면에서는 아직 오퍼스가 근소한 우위를 점하고 있긴 합니다.
00:05:57여전히 오퍼스가 최고급 모델인 것은 부정할 수 없죠.
00:06:00하지만 이 모델이 중요한 이유는 비용 부담 없이 대규모로 에이전트를 구동할 수 있게 해주기 때문입니다.
00:06:05M2.5는 고난도 에이전트 벤치마크에서 59%의 승률을 기록했습니다. 자율형 레포 봇을 구축하거나,
00:06:12상시 가동되는 코딩 에이전트, 기업형 워크플로우 자동화 등에 최적입니다. 완벽하진 않아도 성능은 이미 검증되었습니다.
00:06:17무엇보다 이 가격대라면 마음껏 실험하고 한계까지 테스트해 볼 수 있습니다. Minimax의 개발 속도도 굉장히 빠릅니다.
00:06:22업데이트 주기가 달 단위에서 주 단위로 당겨지고 있습니다.
00:06:27올라마와 깃허브 통합 작업도 이미 활발하게 진행 중이고요.
00:06:32Minimax M2.5는 오퍼스급 코딩 성능을 저렴한 가격과 오픈 가중치로 제공합니다. 이런 조합은 흔치 않죠.
00:06:382026년에는 또 어떤 모델이 나올지 모르겠지만, 지금 바로 Minimax 웹사이트나 올라마, API를 통해 직접 테스트해 보세요.
00:06:43과연 이 모델이 개발자용 에이전트의 새로운 표준이 될까요? 시장의 반응이 기대됩니다.
00:06:48그럼 다음 영상에서 뵙겠습니다.