00:00:00Minimax vient de sortir M2.5, un modèle de code qui rivalise presque avec Claude Opus 4.6, mais pour un dixième du prix.
00:00:07Lancé il y a tout juste quelques jours, il est en "open weights", possède 230 milliards de paramètres et est conçu pour les workflows d'agents.
00:00:14Si vous développez des agents IA, des co-pilotes ou des outils d'automatisation, cela va transformer vos coûts du jour au lendemain.
00:00:19Et ce qui est fou, ce ne sont pas seulement les benchmarks, mais aussi le tarif.
00:00:23Nous publions des vidéos en permanence, alors n'oubliez pas de vous abonner.
00:00:31Minimax M2.5 est un modèle de type "mélange d'experts" (MoE) qui compte 230 milliards de paramètres au total, mais seulement 10 milliards sont actifs lors de l'exécution.
00:00:39Vous profitez donc d'un modèle colossal sans avoir à payer pour l'intégralité de ses capacités à chaque requête.
00:00:43Il est taillé pour les flux de développement réels : Python, Java, Rust, refactorisation multi-fichiers, boucles d'appels d'outils, et même l'automatisation Word et Excel.
00:00:53Il existe deux versions : la "Standard", cadencée à 50 tokens par seconde, et la "Lightning", qui monte à 100 tokens par seconde.
00:01:01Le modèle est multilingue et ses poids sont entièrement disponibles sur Hugging Face.
00:01:05Cela signifie que vous pouvez le fine-tuner, l'héberger localement et éviter la dépendance aux fournisseurs ; c'est là que ça devient intéressant pour les agents.
00:01:12J'ai testé le même prompt sur Opus et Minimax pour créer un tableau Kanban complet.
00:01:18Rien de trop complexe, juste assez pour les pousser à construire quelque chose et comparer les résultats.
00:01:23J'ai mis le prompt exact en description si vous voulez le lire, mais regardons d'abord la version Opus, qui a mis environ 4 minutes à s'exécuter.
00:01:31Le résultat est conforme aux attentes ; je n'ai pas eu besoin de le relancer, voici le rendu final.
00:01:37Tout est fluide, ça fonctionne très bien, et l'interface est plutôt réussie pour un premier jet.
00:01:44Le glisser-déposer marche comme prévu, l'édition des tâches aussi. J'aime bien le petit libellé qui indique le bon dossier et se met à jour en déplaçant les cartes.
00:01:55Dans l'ensemble, Opus a fait du super boulot, ce qui est assez logique.
00:02:00Passons à Minimax. Il a fallu environ 8 minutes, peut-être parce que je l'ai importé dans Cursor au lieu de passer par leur site, mais je préférais l'avoir dans Cursor.
00:02:10Même si c'était plus long, ça a coûté dix fois moins cher, donc je ne vais pas m'en plaindre.
00:02:14Globalement, le travail est très bon avec un seul prompt. L'interface est un peu moins léchée qu'avec Opus, mais les fonctionnalités sont là.
00:02:22Je peux créer des tâches, les faire glisser dans les colonnes, tout fonctionne parfaitement.
00:02:27La seule chose manquante est le petit libellé sur chaque carte qu'Opus avait généré.
00:02:33Autre point faible : l'impossibilité de modifier la description de la boîte.
00:02:38Si j'édite la description, vous voyez, rien ne change.
00:02:42Il faudrait donc une deuxième itération pour que tout soit parfaitement fonctionnel.
00:02:48Mais ça reste acceptable, encore une fois, vu l'économie réalisée.
00:02:51Parlons maintenant de ce qui compte vraiment pour les développeurs. M2.5 utilise l'apprentissage par renforcement pour la décomposition des tâches.
00:02:58Il segmente mieux les problèmes, ce qui réduit de 20 % les appels d'outils et de 5 % le gaspillage de tokens.
00:03:06Si vous avez déjà créé des agents, vous savez que les appels d'outils font grimper la facture et peuvent vite devenir chaotiques.
00:03:13Il gère aussi les modifications multi-fichiers et les cycles de debug/correction sans s'emmêler les pinceaux entre les outils.
00:03:21Sur les benchmarks de recherche, il réduit le nombre d'itérations de 20 % par rapport à la version M2.1.
00:03:27Il supporte également le caching, ce qui réduit le coût des requêtes répétitives sur la durée.
00:03:32Vous pouvez l'intégrer directement à Ollama, à vos clusters locaux, à vos automatisations GitHub ou à vos pipelines CI.
00:03:37Et côté benchmarks par rapport à Opus ?
00:03:40Sur SWE-bench Verified, M2.5 dépasse les 80 %.
00:03:45Claude Opus 4.6 est très légèrement au-dessus, également autour des 80 %. L'écart est vraiment minime.
00:03:52Sur le Multi-SWE-bench, il atteint plus de 51 %, devançant les autres modèles open source.
00:03:58Et sur DROID, il bat même Opus de 0,2 %. Tout dépend de l'angle sous lequel on regarde.
00:04:05Côté vitesse, il est 37 % plus rapide que le modèle précédent. Bon, ça a quand même pris 8 minutes ici.
00:04:11Opus 4.6 est en moyenne un peu plus rapide, mais les vitesses s'égalisent quand on utilise le format optimal.
00:04:18Qu'est-ce que ça change pour vous ? Plusieurs choses.
00:04:20Moins d'essais infructueux, des exécutions CI plus propres, moins de consommation inutile de tokens et plus de Pull Requests fusionnées.
00:04:26En performance d'agent, il joue dans la cour de GPT-5 ou Gemini 3 Pro,
00:04:32mais avec des poids ouverts. Venons-en maintenant au facteur qui change tout,
00:04:37à savoir le prix, même si l'exécution a été plus lente.
00:04:40M2.5 Standard coûte 0,15 en sortie.
00:04:47La version Lightning est au double : 0,30 en sortie.
00:04:53Faire tourner Lightning à 100 tokens/sec pendant une heure revient à environ un dollar.
00:04:56En Standard, comme je l'ai fait ici, on est autour de 30 centimes l'heure.
00:05:00Comparez cela à Claude Opus 4.6 : la différence est abyssale.
00:05:04C'est 5 en sortie.
00:05:09Pour une tâche de génie logiciel, Minimax coûte environ 10 % du prix d'Opus, grâce à son efficacité et ses appels d'outils optimisés.
00:05:15Il existe aussi un niveau d'API gratuit disponible dès maintenant. J'ai payé pour ce test,
00:05:20mais l'option gratuite existe, et c'est là que l'économie du secteur bascule.
00:05:24Faut-il abandonner Opus 4.6 ? Côté performances, ils sont presque identiques.
00:05:30C'était un peu plus long, certes (j'étais en Standard), mais les capacités se valent.
00:05:34Le temps de complétion et la profondeur de raisonnement sont comparables.
00:05:39Mais niveau coût, c'est massivement moins cher. À vous de juger.
00:05:43Il réduit aussi de 20 % les appels d'outils et le gaspillage de tokens, comme je l'ai mentionné.
00:05:47Niveau flexibilité, il est en "open weights". Vous pouvez le déployer localement et le fine-tuner.
00:05:52Opus garde malgré tout un léger avantage sur le très haut de gamme de l'intelligence premium.
00:05:57C'est le modèle de référence avec lequel nous travaillons encore.
00:06:00Mais l'important, c'est que vous pouvez désormais faire tourner des agents à grande échelle sans vous ruiner.
00:06:05Avec un taux de réussite de 59 % sur les benchmarks d'agents avancés, M2.5 permet de créer des bots de repo autonomes,
00:06:12des agents de code persistants ou d'automatiser des flux d'entreprise. Ce n'est pas parfait,
00:06:17mais c'est excellent pour ce qu'on a vu. Ce prix va vous permettre d'expérimenter réellement.
00:06:22Minimax livre très rapidement, avec des cycles de mise à jour de quelques semaines seulement.
00:06:27Les intégrations Ollama et GitHub montent déjà en puissance.
00:06:32Minimax M2.5 offre des performances de code dignes d'Opus à un prix budget et en open source. C'est un combo rare.
00:06:38En 2026, qui sait ce qui nous attend encore. Vous pouvez le tester gratuitement sur Minimax, via Ollama ou en prenant une clé API.
00:06:43Est-ce le nouveau modèle par défaut pour les agents de développement ? L'avenir nous le dira.
00:06:48On se retrouve dans une prochaine vidéo !