Comment est-ce possible ? Presque aussi performant qu'Opus !

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Minimax vient de sortir M2.5, un modèle de code qui rivalise presque avec Claude Opus 4.6, mais pour un dixième du prix.
00:00:07Lancé il y a tout juste quelques jours, il est en "open weights", possède 230 milliards de paramètres et est conçu pour les workflows d'agents.
00:00:14Si vous développez des agents IA, des co-pilotes ou des outils d'automatisation, cela va transformer vos coûts du jour au lendemain.
00:00:19Et ce qui est fou, ce ne sont pas seulement les benchmarks, mais aussi le tarif.
00:00:23Nous publions des vidéos en permanence, alors n'oubliez pas de vous abonner.
00:00:31Minimax M2.5 est un modèle de type "mélange d'experts" (MoE) qui compte 230 milliards de paramètres au total, mais seulement 10 milliards sont actifs lors de l'exécution.
00:00:39Vous profitez donc d'un modèle colossal sans avoir à payer pour l'intégralité de ses capacités à chaque requête.
00:00:43Il est taillé pour les flux de développement réels : Python, Java, Rust, refactorisation multi-fichiers, boucles d'appels d'outils, et même l'automatisation Word et Excel.
00:00:53Il existe deux versions : la "Standard", cadencée à 50 tokens par seconde, et la "Lightning", qui monte à 100 tokens par seconde.
00:01:01Le modèle est multilingue et ses poids sont entièrement disponibles sur Hugging Face.
00:01:05Cela signifie que vous pouvez le fine-tuner, l'héberger localement et éviter la dépendance aux fournisseurs ; c'est là que ça devient intéressant pour les agents.
00:01:12J'ai testé le même prompt sur Opus et Minimax pour créer un tableau Kanban complet.
00:01:18Rien de trop complexe, juste assez pour les pousser à construire quelque chose et comparer les résultats.
00:01:23J'ai mis le prompt exact en description si vous voulez le lire, mais regardons d'abord la version Opus, qui a mis environ 4 minutes à s'exécuter.
00:01:31Le résultat est conforme aux attentes ; je n'ai pas eu besoin de le relancer, voici le rendu final.
00:01:37Tout est fluide, ça fonctionne très bien, et l'interface est plutôt réussie pour un premier jet.
00:01:44Le glisser-déposer marche comme prévu, l'édition des tâches aussi. J'aime bien le petit libellé qui indique le bon dossier et se met à jour en déplaçant les cartes.
00:01:55Dans l'ensemble, Opus a fait du super boulot, ce qui est assez logique.
00:02:00Passons à Minimax. Il a fallu environ 8 minutes, peut-être parce que je l'ai importé dans Cursor au lieu de passer par leur site, mais je préférais l'avoir dans Cursor.
00:02:10Même si c'était plus long, ça a coûté dix fois moins cher, donc je ne vais pas m'en plaindre.
00:02:14Globalement, le travail est très bon avec un seul prompt. L'interface est un peu moins léchée qu'avec Opus, mais les fonctionnalités sont là.
00:02:22Je peux créer des tâches, les faire glisser dans les colonnes, tout fonctionne parfaitement.
00:02:27La seule chose manquante est le petit libellé sur chaque carte qu'Opus avait généré.
00:02:33Autre point faible : l'impossibilité de modifier la description de la boîte.
00:02:38Si j'édite la description, vous voyez, rien ne change.
00:02:42Il faudrait donc une deuxième itération pour que tout soit parfaitement fonctionnel.
00:02:48Mais ça reste acceptable, encore une fois, vu l'économie réalisée.
00:02:51Parlons maintenant de ce qui compte vraiment pour les développeurs. M2.5 utilise l'apprentissage par renforcement pour la décomposition des tâches.
00:02:58Il segmente mieux les problèmes, ce qui réduit de 20 % les appels d'outils et de 5 % le gaspillage de tokens.
00:03:06Si vous avez déjà créé des agents, vous savez que les appels d'outils font grimper la facture et peuvent vite devenir chaotiques.
00:03:13Il gère aussi les modifications multi-fichiers et les cycles de debug/correction sans s'emmêler les pinceaux entre les outils.
00:03:21Sur les benchmarks de recherche, il réduit le nombre d'itérations de 20 % par rapport à la version M2.1.
00:03:27Il supporte également le caching, ce qui réduit le coût des requêtes répétitives sur la durée.
00:03:32Vous pouvez l'intégrer directement à Ollama, à vos clusters locaux, à vos automatisations GitHub ou à vos pipelines CI.
00:03:37Et côté benchmarks par rapport à Opus ?
00:03:40Sur SWE-bench Verified, M2.5 dépasse les 80 %.
00:03:45Claude Opus 4.6 est très légèrement au-dessus, également autour des 80 %. L'écart est vraiment minime.
00:03:52Sur le Multi-SWE-bench, il atteint plus de 51 %, devançant les autres modèles open source.
00:03:58Et sur DROID, il bat même Opus de 0,2 %. Tout dépend de l'angle sous lequel on regarde.
00:04:05Côté vitesse, il est 37 % plus rapide que le modèle précédent. Bon, ça a quand même pris 8 minutes ici.
00:04:11Opus 4.6 est en moyenne un peu plus rapide, mais les vitesses s'égalisent quand on utilise le format optimal.
00:04:18Qu'est-ce que ça change pour vous ? Plusieurs choses.
00:04:20Moins d'essais infructueux, des exécutions CI plus propres, moins de consommation inutile de tokens et plus de Pull Requests fusionnées.
00:04:26En performance d'agent, il joue dans la cour de GPT-5 ou Gemini 3 Pro,
00:04:32mais avec des poids ouverts. Venons-en maintenant au facteur qui change tout,
00:04:37à savoir le prix, même si l'exécution a été plus lente.
00:04:40M2.5 Standard coûte 0,15 en sortie.
00:04:47La version Lightning est au double : 0,30 en sortie.
00:04:53Faire tourner Lightning à 100 tokens/sec pendant une heure revient à environ un dollar.
00:04:56En Standard, comme je l'ai fait ici, on est autour de 30 centimes l'heure.
00:05:00Comparez cela à Claude Opus 4.6 : la différence est abyssale.
00:05:04C'est 5 en sortie.
00:05:09Pour une tâche de génie logiciel, Minimax coûte environ 10 % du prix d'Opus, grâce à son efficacité et ses appels d'outils optimisés.
00:05:15Il existe aussi un niveau d'API gratuit disponible dès maintenant. J'ai payé pour ce test,
00:05:20mais l'option gratuite existe, et c'est là que l'économie du secteur bascule.
00:05:24Faut-il abandonner Opus 4.6 ? Côté performances, ils sont presque identiques.
00:05:30C'était un peu plus long, certes (j'étais en Standard), mais les capacités se valent.
00:05:34Le temps de complétion et la profondeur de raisonnement sont comparables.
00:05:39Mais niveau coût, c'est massivement moins cher. À vous de juger.
00:05:43Il réduit aussi de 20 % les appels d'outils et le gaspillage de tokens, comme je l'ai mentionné.
00:05:47Niveau flexibilité, il est en "open weights". Vous pouvez le déployer localement et le fine-tuner.
00:05:52Opus garde malgré tout un léger avantage sur le très haut de gamme de l'intelligence premium.
00:05:57C'est le modèle de référence avec lequel nous travaillons encore.
00:06:00Mais l'important, c'est que vous pouvez désormais faire tourner des agents à grande échelle sans vous ruiner.
00:06:05Avec un taux de réussite de 59 % sur les benchmarks d'agents avancés, M2.5 permet de créer des bots de repo autonomes,
00:06:12des agents de code persistants ou d'automatiser des flux d'entreprise. Ce n'est pas parfait,
00:06:17mais c'est excellent pour ce qu'on a vu. Ce prix va vous permettre d'expérimenter réellement.
00:06:22Minimax livre très rapidement, avec des cycles de mise à jour de quelques semaines seulement.
00:06:27Les intégrations Ollama et GitHub montent déjà en puissance.
00:06:32Minimax M2.5 offre des performances de code dignes d'Opus à un prix budget et en open source. C'est un combo rare.
00:06:38En 2026, qui sait ce qui nous attend encore. Vous pouvez le tester gratuitement sur Minimax, via Ollama ou en prenant une clé API.
00:06:43Est-ce le nouveau modèle par défaut pour les agents de développement ? L'avenir nous le dira.
00:06:48On se retrouve dans une prochaine vidéo !

Key Takeaway

Le modèle Minimax M2.5 bouleverse le marché des agents IA en offrant une puissance de codage de niveau premium à un coût drastiquement réduit et avec la flexibilité de l'open source.

Highlights

Lancement de Minimax M2.5

Timeline

Introduction et positionnement de Minimax M2.5

L'analyste présente le nouveau modèle de code Minimax M2.5 qui rivalise avec les performances de Claude Opus 4.6. Ce modèle se distingue par son format "open weights" et sa structure massive de 230 milliards de paramètres. Il est spécifiquement conçu pour transformer les flux de travail des développeurs d'agents IA et d'outils d'automatisation. L'argument majeur mis en avant est la réduction drastique des coûts, divisés par dix par rapport aux solutions leaders. Cette introduction pose les bases d'une révolution économique pour le développement logiciel en 2026.

Architecture technique et capacités de développement

Le modèle utilise une architecture de type "Mélange d'experts" (MoE) où seuls 10 milliards de paramètres sont activés par requête. Cette approche permet de bénéficier de la puissance d'un modèle colossal sans en payer le prix énergétique ou financier intégral. Minimax M2.5 supporte nativement des langages comme Python, Java et Rust, tout en gérant l'automatisation de logiciels de bureau comme Excel. Le présentateur souligne l'importance de la disponibilité sur Hugging Face pour l'auto-hébergement et le fine-tuning. Deux versions sont proposées, Standard et Lightning, offrant des vitesses allant jusqu'à 100 tokens par seconde.

Test comparatif : Création d'un tableau Kanban

Une démonstration pratique compare la génération d'une application Kanban entre Claude Opus et Minimax M2.5. Bien que Minimax ait mis 8 minutes contre 4 pour Opus dans cet environnement spécifique, le résultat fonctionnel est jugé très satisfaisant. L'interface générée par Opus est légèrement plus raffinée, incluant des détails cosmétiques comme des libellés de dossiers automatiques. Cependant, Minimax réussit parfaitement les fonctionnalités critiques comme le glisser-déposer et la création de tâches avec un seul prompt. L'analyste conclut que l'écart de qualité est minime face à l'économie financière massive réalisée.

Optimisation des agents et benchmarks de performance

Cette section détaille comment l'apprentissage par renforcement améliore la décomposition des tâches complexes dans M2.5. Le modèle réduit de 20 % les appels d'outils inutiles, ce qui stabilise les workflows d'agents et limite le gaspillage de tokens. Sur le benchmark SWE-bench Verified, le modèle dépasse les 80 %, se plaçant au même niveau que Claude Opus 4.6. Il surpasse même la concurrence open source sur le Multi-SWE-bench et bat Opus de 0,2 % sur le test DROID. Ces statistiques confirment que Minimax joue désormais dans la cour des grands modèles comme GPT-5 ou Gemini 3 Pro.

Analyse des coûts et conclusion stratégique

L'analyse se termine sur l'argument financier imbattable : 0,15 $ en sortie pour la version Standard contre 5 $ pour Opus. Faire fonctionner le modèle Lightning à pleine vitesse pendant une heure ne coûte qu'environ un dollar, rendant l'expérimentation à grande échelle accessible. L'intégration facile avec Ollama et GitHub permet une adoption rapide dans les pipelines d'intégration continue (CI). Bien qu'Opus conserve un léger avantage sur l'intelligence premium, Minimax s'impose comme le nouveau standard pour les agents de développement. Le présentateur encourage les utilisateurs à tester le niveau gratuit de l'API pour constater ces gains de productivité.

Community Posts

View all posts