なぜこれがOpusに匹敵するのか?

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00MiniMaxから、Claude Opus 4.6に肉薄するコーディングモデル「M2.5」が登場しました。しかも、コストはわずか10分の1です。
00:00:07先日リリースされたばかりのこのモデルは、オープンウェイトで2300億のパラメータを持ち、エージェントのワークフロー向けに構築されています。
00:00:14AIエージェントやコーパイロット、自動化ツールを開発しているなら、一晩でコスト構造が変わるはずです。
00:00:19驚くべきはベンチマークの結果だけでなく、その価格設定にもあります。
00:00:23今後も動画をどんどん公開していきますので、ぜひチャンネル登録をお願いします。
00:00:31MiniMax M2.5は、総パラメータ数2300億の混合エキスパート(MoE)モデルですが、実行時にアクティブになるのは100億のみです。
00:00:39そのため、巨大なモデルの恩恵を受けつつ、実行のたびに全パラメータ分のコストを支払う必要がありません。
00:00:43Python、Java、Rust、複数ファイルの同時リファクタリング、ツール呼び出しのループ、さらにはWordやExcelの自動化など、実務開発に特化しています。
00:00:53バージョンは2種類あり、秒間50トークンの「Standard」と、秒間100トークンの「Lightning」が用意されています。
00:01:01多言語対応で、Hugging Faceにて完全にオープンウェイトで公開されています。
00:01:05つまり、ファインチューニングやオンプレミスでの運用が可能で、ベンダーロックインを回避できる。ここがエージェント開発において非常に面白い点です。
00:01:12実際に、OpusとMiniMaxの両方に同じプロンプトを入力して、フルスタックのカンバンボードを作成させてみました。
00:01:18複雑すぎず、性能の差を比較するのにちょうど良いレベルの課題です。
00:01:23使用した正確なプロンプトは概要欄に載せておきます。まずは、生成に約4分かかったOpus版から見ていきましょう。
00:01:31期待通りですね。追加の指示なしで、これが最終的な出力結果です。
00:01:37動作は非常にスムーズで、使い勝手も良く、初期段階のUIとしては見栄えもかなり良いです。
00:01:44ドラッグ&ドロップも正常ですし、タスクの編集も問題ありません。フォルダ移動に合わせてラベルが正しく変わる演出も、嬉しいおまけですね。
00:01:55総じて、Opusは期待通りの素晴らしい仕事をしてくれました。
00:02:00次にMiniMaxです。こちらは完成までに約8分かかりましたが、公式サイトではなくCursorにインポートして実行したかったので、その影響かもしれません。
00:02:10時間はかかりましたが、コストは10分の1ですから、文句はありません。
00:02:14たった一度のプロンプトで、十分な成果を出しました。UIはOpusに比べると少し見劣りしますが、機能は同等です。
00:02:22タスクの作成や、指定のカラムへのドラッグ&ドロップも問題なく動作します。
00:02:27唯一、Opusがやってくれた各カードへのラベル追加は行われませんでした。
00:02:33もう一つの課題は、ボックスの説明文を編集できなかった点です。
00:02:38ご覧の通り、説明を編集しても何も反映されません。
00:02:42これを修正するには、もう一度指示を出して実行し直す必要があります。
00:02:48それでも、コストが10分の1であることを考えれば、許容範囲でしょう。
00:02:51では、開発者にとって本当に重要な話をしましょう。M2.5は、タスク分解に強化学習を採用しています。
00:02:58これにより問題をより適切に分解できるため、ツール呼び出しが20%減り、トークンの無駄も5%削減されます。
00:03:06エージェント構築の経験があればわかる通り、ツールの呼び出しはコスト増と混乱の主な原因になります。
00:03:13また、複数ファイルの編集、実行、デバッグ、修正のループなど、破綻することなくツールを使い分けることが可能です。
00:03:21検索ベンチマークでは、前モデルのM2.1と比較して検索回数を20%削減しています。
00:03:27キャッシュにも対応しているため、繰り返しのクエリにかかるコストを継続的に抑えられます。
00:03:32Ollamaやローカルクラスター、GitHubの自動化、CIパイプラインにそのまま組み込めます。
00:03:37さて、肝心のベンチマークですね。Opusと比較してみましょう。
00:03:40SWE-bench Verifiedにおいて、M2.5は80%以上のスコアを記録しました。
00:03:45Claude Opus 4.6はそれをわずかに上回る80%強で、その差はごくわずかです。
00:03:52Multi-SWE-benchでは51%を超え、他のオープンモデルを圧倒しています。
00:03:58DROIDでは、Opusを0.2%上回りました。評価指標によって結果は変わるものの、互角と言えます。
00:04:05速度面では、旧モデルより37%高速化されています。今回のテストでは8分かかりましたが。
00:04:11平均速度はOpus 4.6がやや速いですが、最適な環境で実行すれば、ほぼ同等の速度になります。
00:04:18これがユーザーにとって何を意味するのでしょうか?
00:04:20リトライの減少、CI実行のクリーン化、トークン消費の抑制、そしてプルリクエストの承認率向上に繋がります。
00:04:26エージェント的なタスク性能においては、GPT-5やGemini 3 Proの領域に達しています。
00:04:32しかも、それがオープンウェイトで提供される。ここからが状況を一変させるポイントです。
00:04:37生成に時間がかかったとしても、重要となるのはやはり価格です。
00:04:40M2.5 Standardは100万入力トークンあたり0.15ドル、出力は1.20ドルです。
00:04:47Lightningはその倍の、100万入力あたり0.30ドル、出力2.40ドルとなります。
00:04:53Lightningを秒間100トークンで1時間回し続けても、コストは約1ドルです。
00:04:56今回使用したStandardなら、1時間あたり約30セントで済みます。
00:05:00Claude Opus 4.6と比較すると、その差は歴然です。
00:05:04あちらは100万入力あたり5ドル、出力には25ドルかかります。
00:05:09効率性の向上やツール呼び出しの削減もあり、SWEタスクあたりのコストはOpusの約10%に抑えられます。
00:05:15現在、無料のAPI枠も公開されています。私は有料枠を使いましたが、無料で試せるのは大きいです。
00:05:20ここで経済的な合理性が大きくシフトし始めます。
00:05:24では、Opus 4.6から乗り換えるべきでしょうか? 性能面では、ほぼ互角です。
00:05:30Standard版は少し時間がかかりましたが、本質的な能力は変わりません。
00:05:34タスクの完了時間も、推論の深さも、十分に比較可能なレベルです。
00:05:39ただ、コストは圧倒的に安い。判断はお任せします。
00:05:43前述の通り、ツール呼び出しが20%少なく、トークンの無駄もありません。
00:05:47柔軟性の面でも、オープンウェイトなのでローカル展開やファインチューニングが可能です。
00:05:52もちろん、最高峰のインテリジェンスという点では、まだOpusに一日の長があるかもしれません。
00:05:57プレミアムなモデルとしての地位は依然として健在です。
00:06:00しかし、このモデルが重要なのは、コストの負担なくエージェントを大規模に運用できる点にあります。
00:06:05M2.5は高度なエージェントベンチマークで59%の勝率を誇り、自律型のレポジトリ管理ボットや、
00:06:12常駐型のコーディングエージェント、企業ワークフローの自動化などを実現可能です。完璧ではありませんが、非常に優秀です。
00:06:17この価格設定なら、心置きなく実験し、フル活用することができるでしょう。MiniMaxの開発スピードは凄まじく、
00:06:22月単位ではなく週単位で進化しています。
00:06:27OllamaやGitHubとの連携もすでに進んでいます。
00:06:32MiniMax M2.5は、Opus級のコーディング性能を、オープンウェイトかつ低価格で提供します。
00:06:38この組み合わせは稀有なものですが、2026年にはこれが当たり前になるかもしれません。MiniMaxで無料体験するか、OllamaやAPIで試してみてください。
00:06:43これが開発エージェントの新たな標準モデルになるのか、今後の展開に注目です。
00:06:48それでは、また次の動画でお会いしましょう。

Key Takeaway

MiniMax M2.5は、Claude Opus級の高度なコーディング性能を10分の1のコストかつオープンウェイトで提供し、AIエージェント開発の経済性と柔軟性を劇的に向上させます。

Highlights

MiniMax M2.5は2300億パラメータを持つ混合エキスパート(MoE)モデルであり、推論時には100億パラメータのみをアクティブにする効率的な設計を採用している

コーディング性能においてClaude Opus 4.6に肉薄し、SWE-bench Verifiedでは80%以上の高スコアを記録、DROIDベンチマークではOpusを0.2%上回る結果を出した

コストはOpus 4.6の約10分の1という圧倒的な安さを実現しており、100万入力トークンあたり0.15ドル(Standard版)という価格設定が魅力である

強化学習を用いたタスク分解により、ツール呼び出しを20%削減し、トークンの無駄を5%抑制するなど、エージェント運用の効率を最大化している

オープンウェイトモデルとしてHugging Faceで公開されており、ローカル環境での運用やファインチューニングが可能で、ベンダーロックインを回避できる

Timeline

MiniMax M2.5の概要と基本スペック

MiniMaxから、Claude Opus 4.6に匹敵する性能を持つ新型コーディングモデル「M2.5」が登場しました。このモデルは2300億パラメータのMoE(混合エキスパート)構造ですが、実行時にアクティブになるのは100億のみという非常に効率的な設計が特徴です。エージェントのワークフローや自動化ツール、コーパイロットの開発に特化しており、一晩でコスト構造を変えるほどのインパクトを持っています。最大の特徴はオープンウェイトで提供されている点にあり、Hugging Faceからダウンロードしてオンプレミスでの運用や自由なファインチューニングが可能です。これにより、特定のベンダーに依存することなく、高度なAI機能を自社インフラに組み込むことが容易になります。

Opus 4.6との実務コーディング比較テスト

実際の性能を検証するため、OpusとMiniMaxの両方にフルスタックのカンバンボードを作成させるテストが実施されました。Opusは約4分で生成を完了し、洗練されたUIとドラッグ&ドロップ機能、さらにカードのラベル付けなどの細かな演出まで含めた完璧な成果物を出力しました。対するMiniMaxは約8分を要し、UIの美しさやカードのラベル表示、説明文の編集機能の一部でOpusに劣る結果となりました。しかし、基本的なロジックやドラッグ&ドロップの動作は正確であり、たった一度のプロンプトで実用的なコードを生成できる実力があることを示しました。生成時間の差はあるものの、コストが10分の1であることを考えれば、開発者にとって十分に許容できる範囲のトレードオフと言えます。

強化学習によるタスク分解と効率化の仕組み

M2.5が開発者にとって重要な理由は、タスク分解に強化学習を採用している点にあります。このアプローチにより、複雑な問題をより適切に分解できるため、エージェント運用で最もコストと混乱の原因となる「ツール呼び出し」の回数を20%削減しました。また、トークン消費の無駄も5%削減されており、複数ファイルの同時編集やデバッグ、修正のループを破綻なく実行できる安定性を備えています。検索ベンチマークにおいても前モデルより検索回数を20%削減しており、キャッシュ対応と合わせて継続的なコスト抑制が可能です。Ollamaやローカルクラスター、CIパイプラインなど、既存のツールチェーンにそのまま組み込める柔軟性も高く評価されるポイントです。

主要ベンチマークと速度の比較分析

ベンチマーク結果では、SWE-bench VerifiedにおいてM2.5は80%以上のスコアを記録し、Opus 4.6の80%強という数値に肉薄しています。さらにMulti-SWE-benchでは51%を超えて他のオープンモデルを圧倒し、DROIDベンチマークではOpusを0.2%上回るという快挙を成し遂げました。推論速度は旧モデルより37%高速化されており、最適な環境であればOpusと同等の応答性を発揮します。これらの数値は、リトライの減少やCI実行のクリーン化、そして最終的なプルリクエストの承認率向上に直結するものです。エージェントとしての総合的な性能は、すでにGPT-5やGemini 3 Proといった次世代モデルの領域に達していると分析されています。

圧倒的なコストメリットと将来の展望

経済的な側面では、M2.5 Standardは100万入力トークンあたり0.15ドルという、Opusの5ドルと比較して極めて安価な価格設定になっています。出力トークンもOpusの25ドルに対し1.20ドルと格安で、1時間フル稼働させてもわずか30セントから1ドル程度のコストで済みます。この圧倒的な低価格により、予算を気にせずエージェントを大規模に運用し、心置きなく実験を繰り返すことが可能になります。もちろん、最高峰のインテリジェンスという点では依然としてOpusに一日の長があるかもしれませんが、実用的なワークフローの自動化においてはM2.5が最適解となる場面が多いでしょう。2026年にはこのような高性能かつ低コストなオープンモデルが業界の標準になると予想され、開発エージェントの新たな時代の幕開けを感じさせる内容となっています。

Community Posts

View all posts