이게 어떻게 Opus만큼 좋을 수 있을까요?

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Minimax에서 코딩 모델 M2.5를 출시했습니다. 클로드 오퍼스 4.6에 육박하는 성능이면서 비용은 10분의 1 수준입니다.
00:00:07며칠 전 출시된 이 모델은 오픈 가중치를 제공하며, 2,300억 개의 파라미터를 갖춘 에이전트 워크플로우 최적화 모델입니다.
00:00:14AI 에이전트, 코파일럿 또는 자동화 도구를 개발 중이라면 하룻밤 사이에 비용 구조가 바뀔 것입니다.
00:00:19놀라운 점은 벤치마크 결과뿐만 아니라 가격 그 자체에 있습니다.
00:00:23새로운 영상이 계속 업로드될 예정이니 꼭 구독해 주세요.
00:00:31Minimax M2.5는 총 2,300억 개의 파라미터를 가진 MoE(Mixture of Experts) 모델이지만, 실행 시에는 100억 개의 파라미터만 활성화됩니다.
00:00:39덕분에 매번 전체 모델 비용을 지불하지 않고도 거대 모델의 성능을 누릴 수 있습니다.
00:00:43파이썬, 자바, 러스트, 멀티 파일 리팩토링, 도구 호출 루프, 워드 및 엑셀 자동화 등 실제 개발 워크플로우를 위해 설계되었습니다.
00:00:53버전은 두 가지입니다. 초당 50개 토큰을 생성하는 스탠다드 버전과 100개 토큰의 라이트닝 버전이 있습니다.
00:01:01다국어를 지원하며 허깅페이스(Hugging Face)에 가중치가 완전히 공개되어 있습니다.
00:01:05즉, 직접 미세 조정하거나 로컬 서버에서 실행하여 특정 플랫폼 종속을 피할 수 있다는 뜻인데, 이 점이 에이전트 개발자들에게 매우 흥미로운 부분입니다.
00:01:12성능 비교를 위해 오퍼스와 Minimax 양쪽에 동일한 프롬프트를 입력해 풀스택 칸반 보드를 만들어 보았습니다.
00:01:18복잡한 작업은 아니지만 두 모델의 실력을 비교해 보기에는 충분한 과제입니다.
00:01:23사용한 프롬프트는 설명란에 적어두었으니 참고하시고요. 먼저 실행에 약 4분이 걸린 오퍼스 버전부터 살펴보겠습니다.
00:01:31예상대로 추가 프롬프트 없이도 결과물이 잘 나왔습니다. 이것이 최종 결과입니다.
00:01:37모든 기능이 매끄럽게 작동하고, 초기 버전치고는 UI도 꽤 깔끔합니다.
00:01:44드래그 앤 드롭과 작업 수정 기능도 완벽합니다. 특히 드래그할 때마다 폴더 경로가 올바르게 바뀌는 이 작은 라벨이 참 마음에 드네요.
00:01:55전반적으로 오퍼스는 기대만큼 훌륭한 결과물을 보여주었습니다.
00:02:00이제 Minimax를 보겠습니다. 완료까지 8분 정도 걸렸는데, 웹사이트가 아닌 커서(Cursor)에서 실행해서 그럴 수도 있습니다. 저는 커서 환경을 선호하거든요.
00:02:10시간은 더 걸렸지만 비용이 10분의 1이니까 충분히 납득할 만한 수준입니다.
00:02:14총평하자면 한 번의 프롬프트로 아주 잘 해냈습니다. UI는 오퍼스보다 조금 투박하지만 기능은 동일하게 갖추고 있습니다.
00:02:22작업 생성부터 컬럼 간 드래그 앤 드롭까지 모두 완벽하게 작동합니다.
00:02:27다만 오퍼스에서 보여준 그 세심한 카드 라벨 기능은 빠져 있었습니다.
00:02:33또 하나 아쉬운 점은 박스 설명을 수정하는 기능이 제대로 구현되지 않았다는 점입니다.
00:02:38보시는 것처럼 설명을 수정해도 아무런 변화가 없습니다.
00:02:42이 기능을 제대로 작동시키려면 프롬프트를 한 번 더 입력해야 할 것 같습니다.
00:02:48그래도 괜찮습니다. 다시 말씀드리지만 가격이 10분의 1이니까요.
00:02:51이제 개발자들에게 진짜 중요한 이야기를 해보죠. M2.5는 작업 분해를 위해 강화 학습을 사용합니다.
00:02:58문제를 더 효율적으로 쪼개기 때문에 도구 호출 횟수는 20% 줄이고, 토큰 낭비는 5% 감소시킵니다.
00:03:06에이전트를 만들어 보신 분들은 아시겠지만, 도구 호출이 잦아질수록 비용은 치솟고 로직은 꼬이기 마련입니다.
00:03:13또한 멀티 파일 수정, 실행-디버깅-수정 루프 등 도구 간 전환이 잦은 작업도 오류 없이 매끄럽게 처리합니다.
00:03:21검색 벤치마크에서는 이전 버전인 M2.1보다 검색 횟수를 20%나 줄였습니다.
00:03:27캐싱도 지원하므로 반복되는 쿼리에 대해서는 시간이 지날수록 비용을 더 절감할 수 있습니다.
00:03:32올라마(Ollama), 로컬 클러스터, 깃허브 자동화 또는 CI 파이프라인에 바로 연결할 수 있습니다.
00:03:37그럼 벤치마크 점수를 오퍼스와 비교해 볼까요?
00:03:40SWE 벤치 검증(Verified) 세트에서 M2.5는 80% 이상의 점수를 기록했습니다.
00:03:45클로드 오퍼스 4.6이 80%를 약간 상회하는 수준이니 격차가 거의 없다고 봐도 무방합니다.
00:03:52멀티 SWE 벤치에서는 51%를 넘기며 다른 오픈 소스 모델들을 제치고 1위를 차지했습니다.
00:03:58DROID 벤치마크에서는 오퍼스를 0.2% 차이로 앞서기도 했습니다. 지표에 따라 우열이 갈리는 수준이죠.
00:04:05속도 면에서는 이전 모델보다 37% 빨라졌습니다. 이번 테스트에선 8분이나 걸리긴 했지만요.
00:04:11오퍼스 4.6이 평균적으로는 약간 더 빠르지만, 적절한 형식으로 실행하면 거의 대등한 속도를 보여줍니다.
00:04:18이것이 여러분에게 어떤 의미가 있을까요? 몇 가지 큰 장점이 있습니다.
00:04:20재시도 횟수가 줄고, CI 실행은 깔끔해지며, 토큰 소모는 줄고 머지 리퀘스트(PR) 승인은 더 늘어날 것입니다.
00:04:26에이전트 작업 성능 면에서는 GPT-5나 제미나이 3 프로 급의 영역에 도달했습니다.
00:04:32그러면서도 가중치가 공개되어 있다는 점이 핵심입니다. 이제 판도를 바꿀 가격 이야기를 해보죠.
00:04:37실행 속도가 조금 느리더라도 가격을 보면 생각이 달라지실 겁니다.
00:04:40M2.5 스탠다드는 입력 토큰 100만 개당 0.15달러, 출력 토큰 100만 개당 1.20달러입니다.
00:04:47라이트닝 버전은 그 두 배인 입력 0.30달러, 출력 2.40달러입니다.
00:04:53초당 100개 토큰을 생성하는 라이트닝을 한 시간 동안 풀가동해도 비용은 약 1달러 수준입니다.
00:04:56제가 사용한 스탠다드 버전은 시간당 약 30센트밖에 안 됩니다.
00:05:00클로드 오퍼스 4.6과 비교하면 차이가 어마어마합니다.
00:05:04오퍼스는 입력 토큰 100만 개당 5달러, 출력은 25달러나 합니다.
00:05:09SWE 작업당 비용을 따져보면 효율적인 설계와 적은 도구 호출 덕분에 오퍼스의 약 10% 수준입니다.
00:05:15현재 무료 API 티어도 운영 중입니다. 저는 유료 결제를 해서 썼지만, 무료 버전도 있다는 점이 경제적 측면에서 큰 변화를 가져올 겁니다.
00:05:20그럼 오퍼스 4.6에서 갈아타야 할까요? 성능만 놓고 보면 거의 대등합니다.
00:05:24So should you switch from Opus 4.6? Well, performance wise, they're nearly identical.
00:05:30스탠다드 버전을 써서 시간은 좀 더 걸렸지만, 결과물은 거의 차이가 없습니다.
00:05:34작업 완료 시간이나 추론의 깊이 또한 비견될 만한 수준이었습니다.
00:05:39하지만 비용 측면에서는 압도적으로 저렴합니다. 선택은 여러분의 몫이겠죠.
00:05:43앞서 말씀드린 것처럼 도구 호출과 토큰 낭비도 20%나 적습니다.
00:05:47유연성도 좋습니다. 오픈 가중치 모델이라 로컬 배포가 가능하고 미세 조정도 할 수 있습니다.
00:05:52물론 최상위급 프리미엄 지능 면에서는 아직 오퍼스가 근소한 우위를 점하고 있긴 합니다.
00:05:57여전히 오퍼스가 최고급 모델인 것은 부정할 수 없죠.
00:06:00하지만 이 모델이 중요한 이유는 비용 부담 없이 대규모로 에이전트를 구동할 수 있게 해주기 때문입니다.
00:06:05M2.5는 고난도 에이전트 벤치마크에서 59%의 승률을 기록했습니다. 자율형 레포 봇을 구축하거나,
00:06:12상시 가동되는 코딩 에이전트, 기업형 워크플로우 자동화 등에 최적입니다. 완벽하진 않아도 성능은 이미 검증되었습니다.
00:06:17무엇보다 이 가격대라면 마음껏 실험하고 한계까지 테스트해 볼 수 있습니다. Minimax의 개발 속도도 굉장히 빠릅니다.
00:06:22업데이트 주기가 달 단위에서 주 단위로 당겨지고 있습니다.
00:06:27올라마와 깃허브 통합 작업도 이미 활발하게 진행 중이고요.
00:06:32Minimax M2.5는 오퍼스급 코딩 성능을 저렴한 가격과 오픈 가중치로 제공합니다. 이런 조합은 흔치 않죠.
00:06:382026년에는 또 어떤 모델이 나올지 모르겠지만, 지금 바로 Minimax 웹사이트나 올라마, API를 통해 직접 테스트해 보세요.
00:06:43과연 이 모델이 개발자용 에이전트의 새로운 표준이 될까요? 시장의 반응이 기대됩니다.
00:06:48그럼 다음 영상에서 뵙겠습니다.

Key Takeaway

Minimax M2.5는 클로드 오퍼스 4.6에 필적하는 코딩 성능을 10분의 1 비용과 오픈 가중치 모델로 제공하여 AI 에이전트 개발의 경제성과 유연성을 동시에 혁신하고 있습니다.

Highlights

Minimax M2.5는 클로드 오퍼스 4.6급의 성능을 갖추면서도 비용은 10분의 1에 불과함

2,300억 개의 파라미터를 보유한 MoE 모델로, 실행 시 100억 개의 파라미터만 활성화하여 효율성 극대화

강화 학습을 통한 작업 분해로 도구 호출 횟수 20%, 토큰 낭비 5% 절감

허깅페이스를 통해 가중치가 공개되어 로컬 서버 실행 및 직접 미세 조정 가능

SWE 벤치 검증 세트에서 80% 이상의 점수를 기록하며 최고 수준의 코딩 성능 입증

입력 토큰 100만 개당 0.15달러라는 파격적인 가격 정책으로 에이전트 개발 비용 구조 혁신

실제 풀스택 칸반 보드 제작 테스트 결과, 오퍼스 대비 세부 UI는 미흡하나 기능적 완결성 확인

Timeline

Minimax M2.5 모델 출시 및 주요 특징

Minimax에서 클로드 오퍼스 4.6에 육박하는 성능을 가진 코딩 최적화 모델 M2.5를 출시했습니다. 이 모델은 총 2,300억 개의 파라미터를 가진 MoE(Mixture of Experts) 구조이지만, 실행 시에는 100억 개만 활성화되어 비용 효율이 매우 높습니다. 파이썬, 자바, 러스트 등 다양한 언어와 멀티 파일 리팩토링 및 엑셀 자동화 등 실제 개발 워크플로우에 최적화되어 설계되었습니다. 특히 가중치가 허깅페이스에 완전히 공개되어 있어 개발자들이 특정 플랫폼에 종속되지 않고 로컬에서 실행하거나 미세 조정할 수 있다는 점이 큰 장점입니다. 스탠다드와 라이트닝 두 가지 버전으로 제공되어 사용자의 속도 요구사항에 따라 선택이 가능합니다.

클로드 오퍼스와의 실전 코딩 성능 비교 테스트

성능 검증을 위해 클로드 오퍼스와 Minimax M2.5를 활용하여 동일한 프롬프트로 풀스택 칸반 보드를 제작하는 실험을 진행했습니다. 오퍼스는 약 4분 만에 세련된 UI와 완벽한 기능을 갖춘 결과물을 내놓았으며, 특히 폴더 경로 라벨링 같은 세심한 디테일이 돋보였습니다. 반면 Minimax는 커서 환경에서 실행 시 약 8분이 소요되었고 UI는 다소 투박했지만, 드래그 앤 드롭을 포함한 핵심 기능은 완벽히 구현했습니다. 다만 카드 설명 수정 기능 등 일부 세부 로직에서 보완이 필요한 부분이 발견되었으나, 한 번의 프롬프트로 얻은 결과물로는 충분히 훌륭합니다. 전반적으로 지능 면에서는 오퍼스가 근소하게 앞서지만, 가격 대비 성능비는 Minimax가 압도적입니다.

에이전트 최적화 기술 및 벤치마크 결과

M2.5는 효율적인 작업 분해를 위해 강화 학습을 도입하여 도구 호출 횟수를 20% 줄이고 토큰 낭비를 5% 감소시켰습니다. 이는 에이전트 구동 시 로직 꼬임 현상을 방지하고 운영 비용을 획기적으로 낮추는 핵심 기술적 성과입니다. 벤치마크 지표에서도 SWE 벤치 검증 세트 80% 이상의 점수를 기록하며 오퍼스 4.6과 거의 대등한 수준임을 보여주었습니다. 특히 멀티 SWE 벤치에서는 51% 이상의 성적으로 오픈 소스 모델 중 1위를 차지했으며, DROID 벤치마크에서는 오퍼스를 소폭 앞지르기도 했습니다. 속도 또한 이전 모델인 M2.1 대비 37% 향상되어 고성능 추론이 가능해졌습니다.

파격적인 가격 정책 및 향후 전망

Minimax M2.5의 가장 강력한 경쟁력은 오퍼스 대비 약 10분의 1 수준인 저렴한 가격 정책에 있습니다. 스탠다드 버전 기준 입력 토큰 100만 개당 0.15달러로, 오퍼스의 5달러와 비교하면 수익 모델 설계 시 엄청난 차이를 만듭니다. 이러한 경제성 덕분에 개발자들은 비용 부담 없이 대규모 에이전트 워크플로우를 실험하고 상시 가동되는 자동화 봇을 구축할 수 있습니다. 비록 최상위 지능에서는 오퍼스가 여전히 우위에 있으나, 가중치 공개 모델로서의 유연성과 빠른 업데이트 속도는 강력한 이점입니다. 영상은 이 모델이 2026년 개발자용 에이전트의 새로운 표준이 될 가능성을 시사하며 마무리됩니다.

Community Posts

View all posts