00:00:00MiniMaxから、Claude Opus 4.6に肉薄するコーディングモデル「M2.5」が登場しました。しかも、コストはわずか10分の1です。
00:00:07先日リリースされたばかりのこのモデルは、オープンウェイトで2300億のパラメータを持ち、エージェントのワークフロー向けに構築されています。
00:00:14AIエージェントやコーパイロット、自動化ツールを開発しているなら、一晩でコスト構造が変わるはずです。
00:00:19驚くべきはベンチマークの結果だけでなく、その価格設定にもあります。
00:00:23今後も動画をどんどん公開していきますので、ぜひチャンネル登録をお願いします。
00:00:31MiniMax M2.5は、総パラメータ数2300億の混合エキスパート(MoE)モデルですが、実行時にアクティブになるのは100億のみです。
00:00:39そのため、巨大なモデルの恩恵を受けつつ、実行のたびに全パラメータ分のコストを支払う必要がありません。
00:00:43Python、Java、Rust、複数ファイルの同時リファクタリング、ツール呼び出しのループ、さらにはWordやExcelの自動化など、実務開発に特化しています。
00:00:53バージョンは2種類あり、秒間50トークンの「Standard」と、秒間100トークンの「Lightning」が用意されています。
00:01:01多言語対応で、Hugging Faceにて完全にオープンウェイトで公開されています。
00:01:05つまり、ファインチューニングやオンプレミスでの運用が可能で、ベンダーロックインを回避できる。ここがエージェント開発において非常に面白い点です。
00:01:12実際に、OpusとMiniMaxの両方に同じプロンプトを入力して、フルスタックのカンバンボードを作成させてみました。
00:01:18複雑すぎず、性能の差を比較するのにちょうど良いレベルの課題です。
00:01:23使用した正確なプロンプトは概要欄に載せておきます。まずは、生成に約4分かかったOpus版から見ていきましょう。
00:01:31期待通りですね。追加の指示なしで、これが最終的な出力結果です。
00:01:37動作は非常にスムーズで、使い勝手も良く、初期段階のUIとしては見栄えもかなり良いです。
00:01:44ドラッグ&ドロップも正常ですし、タスクの編集も問題ありません。フォルダ移動に合わせてラベルが正しく変わる演出も、嬉しいおまけですね。
00:01:55総じて、Opusは期待通りの素晴らしい仕事をしてくれました。
00:02:00次にMiniMaxです。こちらは完成までに約8分かかりましたが、公式サイトではなくCursorにインポートして実行したかったので、その影響かもしれません。
00:02:10時間はかかりましたが、コストは10分の1ですから、文句はありません。
00:02:14たった一度のプロンプトで、十分な成果を出しました。UIはOpusに比べると少し見劣りしますが、機能は同等です。
00:02:22タスクの作成や、指定のカラムへのドラッグ&ドロップも問題なく動作します。
00:02:27唯一、Opusがやってくれた各カードへのラベル追加は行われませんでした。
00:02:33もう一つの課題は、ボックスの説明文を編集できなかった点です。
00:02:38ご覧の通り、説明を編集しても何も反映されません。
00:02:42これを修正するには、もう一度指示を出して実行し直す必要があります。
00:02:48それでも、コストが10分の1であることを考えれば、許容範囲でしょう。
00:02:51では、開発者にとって本当に重要な話をしましょう。M2.5は、タスク分解に強化学習を採用しています。
00:02:58これにより問題をより適切に分解できるため、ツール呼び出しが20%減り、トークンの無駄も5%削減されます。
00:03:06エージェント構築の経験があればわかる通り、ツールの呼び出しはコスト増と混乱の主な原因になります。
00:03:13また、複数ファイルの編集、実行、デバッグ、修正のループなど、破綻することなくツールを使い分けることが可能です。
00:03:21検索ベンチマークでは、前モデルのM2.1と比較して検索回数を20%削減しています。
00:03:27キャッシュにも対応しているため、繰り返しのクエリにかかるコストを継続的に抑えられます。
00:03:32Ollamaやローカルクラスター、GitHubの自動化、CIパイプラインにそのまま組み込めます。
00:03:37さて、肝心のベンチマークですね。Opusと比較してみましょう。
00:03:40SWE-bench Verifiedにおいて、M2.5は80%以上のスコアを記録しました。
00:03:45Claude Opus 4.6はそれをわずかに上回る80%強で、その差はごくわずかです。
00:03:52Multi-SWE-benchでは51%を超え、他のオープンモデルを圧倒しています。
00:03:58DROIDでは、Opusを0.2%上回りました。評価指標によって結果は変わるものの、互角と言えます。
00:04:05速度面では、旧モデルより37%高速化されています。今回のテストでは8分かかりましたが。
00:04:11平均速度はOpus 4.6がやや速いですが、最適な環境で実行すれば、ほぼ同等の速度になります。
00:04:18これがユーザーにとって何を意味するのでしょうか?
00:04:20リトライの減少、CI実行のクリーン化、トークン消費の抑制、そしてプルリクエストの承認率向上に繋がります。
00:04:26エージェント的なタスク性能においては、GPT-5やGemini 3 Proの領域に達しています。
00:04:32しかも、それがオープンウェイトで提供される。ここからが状況を一変させるポイントです。
00:04:37生成に時間がかかったとしても、重要となるのはやはり価格です。
00:04:40M2.5 Standardは100万入力トークンあたり0.15ドル、出力は1.20ドルです。
00:04:47Lightningはその倍の、100万入力あたり0.30ドル、出力2.40ドルとなります。
00:04:53Lightningを秒間100トークンで1時間回し続けても、コストは約1ドルです。
00:04:56今回使用したStandardなら、1時間あたり約30セントで済みます。
00:05:00Claude Opus 4.6と比較すると、その差は歴然です。
00:05:04あちらは100万入力あたり5ドル、出力には25ドルかかります。
00:05:09効率性の向上やツール呼び出しの削減もあり、SWEタスクあたりのコストはOpusの約10%に抑えられます。
00:05:15現在、無料のAPI枠も公開されています。私は有料枠を使いましたが、無料で試せるのは大きいです。
00:05:20ここで経済的な合理性が大きくシフトし始めます。
00:05:24では、Opus 4.6から乗り換えるべきでしょうか? 性能面では、ほぼ互角です。
00:05:30Standard版は少し時間がかかりましたが、本質的な能力は変わりません。
00:05:34タスクの完了時間も、推論の深さも、十分に比較可能なレベルです。
00:05:39ただ、コストは圧倒的に安い。判断はお任せします。
00:05:43前述の通り、ツール呼び出しが20%少なく、トークンの無駄もありません。
00:05:47柔軟性の面でも、オープンウェイトなのでローカル展開やファインチューニングが可能です。
00:05:52もちろん、最高峰のインテリジェンスという点では、まだOpusに一日の長があるかもしれません。
00:05:57プレミアムなモデルとしての地位は依然として健在です。
00:06:00しかし、このモデルが重要なのは、コストの負担なくエージェントを大規模に運用できる点にあります。
00:06:05M2.5は高度なエージェントベンチマークで59%の勝率を誇り、自律型のレポジトリ管理ボットや、
00:06:12常駐型のコーディングエージェント、企業ワークフローの自動化などを実現可能です。完璧ではありませんが、非常に優秀です。
00:06:17この価格設定なら、心置きなく実験し、フル活用することができるでしょう。MiniMaxの開発スピードは凄まじく、
00:06:22月単位ではなく週単位で進化しています。
00:06:27OllamaやGitHubとの連携もすでに進んでいます。
00:06:32MiniMax M2.5は、Opus級のコーディング性能を、オープンウェイトかつ低価格で提供します。
00:06:38この組み合わせは稀有なものですが、2026年にはこれが当たり前になるかもしれません。MiniMaxで無料体験するか、OllamaやAPIで試してみてください。
00:06:43これが開発エージェントの新たな標準モデルになるのか、今後の展開に注目です。
00:06:48それでは、また次の動画でお会いしましょう。