00:00:00Minimax hat gerade M2.5 veröffentlicht – ein Coding-Modell, das Claude Opus 4.6 fast schlägt, aber nur ein Zehntel kostet.
00:00:07Es kam erst vor wenigen Tagen heraus, bietet Open Weights, hat 230 Milliarden Parameter und ist speziell für Agent-Workflows konzipiert.
00:00:14Wenn Sie KI-Agenten, Co-Pilots oder Automatisierungstools entwickeln, wird dies Ihre Kosten über Nacht massiv senken.
00:00:19Das Verrückte sind dabei nicht nur die Benchmarks, sondern vor allem der Preis.
00:00:23Wir veröffentlichen ständig neue Videos, also abonnieren Sie unbedingt den Kanal.
00:00:31Minimax M2.5 ist ein Mixture-of-Experts-Modell mit insgesamt 230 Milliarden Parametern, wovon im Betrieb jedoch nur 10 Milliarden aktiv sind.
00:00:39Man erhält also ein riesiges Modell, ohne jedes Mal für die gesamte Kapazität bezahlen zu müssen.
00:00:43Es wurde für reale Entwicklungs-Workflows optimiert – von Python, Java und Rust über Multi-File-Refactoring bis hin zu Tool-Calling-Loops und sogar Word- oder Excel-Automatisierung.
00:00:53Es gibt zwei Versionen: Die Standard-Version mit 50 Token pro Sekunde und die Lightning-Version mit 100 Token pro Sekunde.
00:01:01Es ist multilingual und steht mit vollständig offenen Gewichten auf Hugging Face zur Verfügung.
00:01:05Das bedeutet, man kann es feinabstimmen, lokal betreiben und Vendor-Lock-ins vermeiden – und genau hier wird es für Agenten interessant.
00:01:12Ich habe denselben Prompt sowohl bei Opus als auch bei Minimax verwendet, um ein Full-Stack Kanban-Board zu erstellen.
00:01:18Nichts allzu Komplexes, aber genug, um die beiden beim Bauen eines Projekts direkt vergleichen zu können.
00:01:23Den exakten Prompt findet ihr in der Beschreibung. Schauen wir uns zuerst die Opus-Version an, die etwa 4 Minuten für die Erstellung brauchte.
00:01:31Das Ergebnis ist wie erwartet – ich musste nicht nachbessern, das hier war die finale Ausgabe.
00:01:37Alles läuft super flüssig, es funktioniert tadellos und auch das UI sieht für einen ersten Entwurf ziemlich gut aus.
00:01:44Drag-and-Drop funktioniert einwandfrei, ebenso wie das Bearbeiten von Aufgaben. Besonders gefällt mir das Label für den Ordner, das sich beim Verschieben anpasst. Ein schönes Extra.
00:01:55Alles in allem hat Opus hier einen wirklich guten Job gemacht, genau wie ich es erwartet hatte.
00:02:00Kommen wir zu Minimax. Hier hat es etwa 8 Minuten gedauert – vielleicht, weil ich es direkt in Cursor importiert habe, statt es auf deren Website auszuführen.
00:02:10Es hat zwar länger gedauert, kostete aber nur ein Zehntel des Preises. Damit kann ich gut leben.
00:02:14Insgesamt ist das Ergebnis nach nur einem Prompt beeindruckend. Das UI schwächelt im Vergleich zu Opus etwas, aber die Funktionalität ist identisch.
00:02:22Ich kann Aufgaben erstellen und sie per Drag-and-Drop in die richtige Spalte ziehen – das klappt hervorragend.
00:02:27Der einzige Unterschied: Das kleine Label auf den Karten, das mir bei Opus so gefiel, fehlte hier.
00:02:33Ein weiterer Schwachpunkt war die Bearbeitungsfunktion für die Beschreibungen.
00:02:38Wenn ich die Beschreibung ändere, passiert hier nichts – wie man sieht.
00:02:42Ich müsste also einen zweiten Prompt schicken, damit das Modell diesen Fehler korrigiert.
00:02:48Das ist aber völlig akzeptabel, wenn man bedenkt, dass es nur ein Zehntel kostet.
00:02:51Sprechen wir nun über das, was für Entwickler wirklich zählt: M2.5 nutzt Reinforcement Learning für die Aufgaben-Dekomposition.
00:02:58Es zerlegt Probleme präziser, was zu 20 % weniger Tool-Calls und 5 % weniger Token-Verschwendung führt.
00:03:06Wer schon mal Agenten gebaut hat, weiß: Tool-Calls sind der Punkt, an dem es teuer und oft chaotisch wird.
00:03:13Es beherrscht zudem Multi-File-Edits sowie Run-Debug-Fix-Zyklen, ohne dabei den Faden zu verlieren.
00:03:21In Search-Benchmarks reduziert es die Suchrunden im Vergleich zum Vorgänger M2.1 um 20 %.
00:03:27Caching wird ebenfalls unterstützt, wodurch wiederholte Anfragen mit der Zeit immer günstiger werden.
00:03:32Man kann es direkt in Ollama, lokale Cluster, GitHub-Automations oder CI-Pipelines einbinden.
00:03:37Kommen wir zu den Benchmarks im Vergleich zu Opus.
00:03:40Im SWE-bench Verified erreichte M2.5 über 80 %.
00:03:45Claude Opus 4.6 liegt mit knapp über 80 % nur minimal darüber – ein hauchdünner Unterschied.
00:03:52Beim Multi-SWE-bench erzielt es über 51 % und lässt damit andere Open-Source-Modelle hinter sich.
00:03:58Und bei DROID schlägt es Opus sogar um 0,2 %. Es kommt also ganz darauf an, welche Metrik man betrachtet.
00:04:05Zur Geschwindigkeit: Es ist 37 % schneller als das Vorgängermodell, auch wenn mein Test hier 8 Minuten dauerte.
00:04:11Opus 4.6 ist im Schnitt etwas flotter, aber bei optimaler Formatierung sind beide nahezu gleichauf.
00:04:18Was bedeutet das nun für die Praxis? Nun, gleich mehrere Dinge.
00:04:20Weniger Retries, sauberere CI-Durchläufe, weniger Token-Verbrauch und letztlich mehr gemergte Pull-Requests.
00:04:26Bei agentenbasierten Aufgaben bewegt es sich auf dem Niveau von GPT-5 oder Gemini 3 Pro,
00:04:32aber eben mit Open Weights. Kommen wir nun zum entscheidenden Faktor,
00:04:37der trotz der längeren Wartezeit alles verändert: die Preisgestaltung.
00:04:40M2.5 Standard kostet 0,15 pro Million Output-Token.
00:04:47Lightning kostet das Doppelte: 0,30 für Output.
00:04:53Wenn man Lightning eine Stunde lang mit 100 Token pro Sekunde nutzt, kostet das etwa einen Dollar.
00:04:56Bei der Standard-Version, die ich hier genutzt habe, sind es nur etwa 30 Cent pro Stunde.
00:05:00Vergleicht man das mit Claude Opus 4.6, wird der gewaltige Unterschied deutlich.
00:05:04Dort zahlt man 5 pro Million Output-Token.
00:05:09Pro SWE-Aufgabe liegen die Kosten bei etwa 10 % von Opus, dank hoher Effizienz und weniger Tool-Calls.
00:05:15Zudem gibt es ein kostenloses API-Kontingent, das bereits live ist. Ich habe zwar gezahlt,
00:05:20aber die Option besteht. Hier verschieben sich die wirtschaftlichen Parameter massiv.
00:05:24Sollten Sie also von Opus 4.6 wechseln? Rein leistungstechnisch sind sie fast ebenbürtig.
00:05:30Es dauerte zwar etwas länger – ich war im Standard-Modus –, aber die Ergebnisse sind vergleichbar.
00:05:34Die Zeit bis zur Fertigstellung und die Tiefe der logischen Schlüsse waren auf Augenhöhe.
00:05:39Preislich ist es jedoch um Welten günstiger. Die Entscheidung liegt also bei Ihnen.
00:05:43Zudem benötigt es 20 % weniger Tool-Calls und vermeidet unnötige Token-Verschwendung.
00:05:47Was die Flexibilität angeht: Es sind Open Weights. Man kann es lokal hosten und feinabstimmen.
00:05:52In der absoluten High-End-Intelligenz hat Opus zwar noch einen minimalen Vorsprung,
00:05:57da es weiterhin das Premium-Modell am Markt ist.
00:06:00Warum das so wichtig ist? Weil man jetzt Agenten in großem Stil betreiben kann, ohne von den Kosten erschlagen zu werden.
00:06:05Mit einer Win-Rate von 59 % in fortgeschrittenen Agent-Benchmarks lassen sich autonome
00:06:12Repo-Bots bauen, persistente Coding-Agenten betreiben oder Enterprise-Workflows automatisieren. Es ist nicht perfekt,
00:06:17aber für das, was wir gesehen haben, extrem gut. Der Preis erlaubt echtes Experimentieren und Belastungstests.
00:06:22Minimax liefert in einem rasanten Tempo – Updates kommen eher alle paar Wochen als alle paar Monate.
00:06:27Integrationen für Ollama und GitHub sind bereits auf dem Vormarsch.
00:06:32Minimax M2.5 bietet Opus-Niveau beim Coding zum Budget-Preis und mit Open Weights. Diese
00:06:38Kombination ist selten, aber wer weiß, was uns 2026 noch erwartet. Testen Sie es kostenlos bei
00:06:43Minimax, nutzen Sie Ollama oder holen Sie sich einen API-Key. Wird das der neue Standard für
00:06:48Developer-Agenten? Wir werden sehen. Bis zum nächsten Video!