Wie kann das fast so gut wie Opus sein?

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Minimax hat gerade M2.5 veröffentlicht – ein Coding-Modell, das Claude Opus 4.6 fast schlägt, aber nur ein Zehntel kostet.
00:00:07Es kam erst vor wenigen Tagen heraus, bietet Open Weights, hat 230 Milliarden Parameter und ist speziell für Agent-Workflows konzipiert.
00:00:14Wenn Sie KI-Agenten, Co-Pilots oder Automatisierungstools entwickeln, wird dies Ihre Kosten über Nacht massiv senken.
00:00:19Das Verrückte sind dabei nicht nur die Benchmarks, sondern vor allem der Preis.
00:00:23Wir veröffentlichen ständig neue Videos, also abonnieren Sie unbedingt den Kanal.
00:00:31Minimax M2.5 ist ein Mixture-of-Experts-Modell mit insgesamt 230 Milliarden Parametern, wovon im Betrieb jedoch nur 10 Milliarden aktiv sind.
00:00:39Man erhält also ein riesiges Modell, ohne jedes Mal für die gesamte Kapazität bezahlen zu müssen.
00:00:43Es wurde für reale Entwicklungs-Workflows optimiert – von Python, Java und Rust über Multi-File-Refactoring bis hin zu Tool-Calling-Loops und sogar Word- oder Excel-Automatisierung.
00:00:53Es gibt zwei Versionen: Die Standard-Version mit 50 Token pro Sekunde und die Lightning-Version mit 100 Token pro Sekunde.
00:01:01Es ist multilingual und steht mit vollständig offenen Gewichten auf Hugging Face zur Verfügung.
00:01:05Das bedeutet, man kann es feinabstimmen, lokal betreiben und Vendor-Lock-ins vermeiden – und genau hier wird es für Agenten interessant.
00:01:12Ich habe denselben Prompt sowohl bei Opus als auch bei Minimax verwendet, um ein Full-Stack Kanban-Board zu erstellen.
00:01:18Nichts allzu Komplexes, aber genug, um die beiden beim Bauen eines Projekts direkt vergleichen zu können.
00:01:23Den exakten Prompt findet ihr in der Beschreibung. Schauen wir uns zuerst die Opus-Version an, die etwa 4 Minuten für die Erstellung brauchte.
00:01:31Das Ergebnis ist wie erwartet – ich musste nicht nachbessern, das hier war die finale Ausgabe.
00:01:37Alles läuft super flüssig, es funktioniert tadellos und auch das UI sieht für einen ersten Entwurf ziemlich gut aus.
00:01:44Drag-and-Drop funktioniert einwandfrei, ebenso wie das Bearbeiten von Aufgaben. Besonders gefällt mir das Label für den Ordner, das sich beim Verschieben anpasst. Ein schönes Extra.
00:01:55Alles in allem hat Opus hier einen wirklich guten Job gemacht, genau wie ich es erwartet hatte.
00:02:00Kommen wir zu Minimax. Hier hat es etwa 8 Minuten gedauert – vielleicht, weil ich es direkt in Cursor importiert habe, statt es auf deren Website auszuführen.
00:02:10Es hat zwar länger gedauert, kostete aber nur ein Zehntel des Preises. Damit kann ich gut leben.
00:02:14Insgesamt ist das Ergebnis nach nur einem Prompt beeindruckend. Das UI schwächelt im Vergleich zu Opus etwas, aber die Funktionalität ist identisch.
00:02:22Ich kann Aufgaben erstellen und sie per Drag-and-Drop in die richtige Spalte ziehen – das klappt hervorragend.
00:02:27Der einzige Unterschied: Das kleine Label auf den Karten, das mir bei Opus so gefiel, fehlte hier.
00:02:33Ein weiterer Schwachpunkt war die Bearbeitungsfunktion für die Beschreibungen.
00:02:38Wenn ich die Beschreibung ändere, passiert hier nichts – wie man sieht.
00:02:42Ich müsste also einen zweiten Prompt schicken, damit das Modell diesen Fehler korrigiert.
00:02:48Das ist aber völlig akzeptabel, wenn man bedenkt, dass es nur ein Zehntel kostet.
00:02:51Sprechen wir nun über das, was für Entwickler wirklich zählt: M2.5 nutzt Reinforcement Learning für die Aufgaben-Dekomposition.
00:02:58Es zerlegt Probleme präziser, was zu 20 % weniger Tool-Calls und 5 % weniger Token-Verschwendung führt.
00:03:06Wer schon mal Agenten gebaut hat, weiß: Tool-Calls sind der Punkt, an dem es teuer und oft chaotisch wird.
00:03:13Es beherrscht zudem Multi-File-Edits sowie Run-Debug-Fix-Zyklen, ohne dabei den Faden zu verlieren.
00:03:21In Search-Benchmarks reduziert es die Suchrunden im Vergleich zum Vorgänger M2.1 um 20 %.
00:03:27Caching wird ebenfalls unterstützt, wodurch wiederholte Anfragen mit der Zeit immer günstiger werden.
00:03:32Man kann es direkt in Ollama, lokale Cluster, GitHub-Automations oder CI-Pipelines einbinden.
00:03:37Kommen wir zu den Benchmarks im Vergleich zu Opus.
00:03:40Im SWE-bench Verified erreichte M2.5 über 80 %.
00:03:45Claude Opus 4.6 liegt mit knapp über 80 % nur minimal darüber – ein hauchdünner Unterschied.
00:03:52Beim Multi-SWE-bench erzielt es über 51 % und lässt damit andere Open-Source-Modelle hinter sich.
00:03:58Und bei DROID schlägt es Opus sogar um 0,2 %. Es kommt also ganz darauf an, welche Metrik man betrachtet.
00:04:05Zur Geschwindigkeit: Es ist 37 % schneller als das Vorgängermodell, auch wenn mein Test hier 8 Minuten dauerte.
00:04:11Opus 4.6 ist im Schnitt etwas flotter, aber bei optimaler Formatierung sind beide nahezu gleichauf.
00:04:18Was bedeutet das nun für die Praxis? Nun, gleich mehrere Dinge.
00:04:20Weniger Retries, sauberere CI-Durchläufe, weniger Token-Verbrauch und letztlich mehr gemergte Pull-Requests.
00:04:26Bei agentenbasierten Aufgaben bewegt es sich auf dem Niveau von GPT-5 oder Gemini 3 Pro,
00:04:32aber eben mit Open Weights. Kommen wir nun zum entscheidenden Faktor,
00:04:37der trotz der längeren Wartezeit alles verändert: die Preisgestaltung.
00:04:40M2.5 Standard kostet 0,15 pro Million Output-Token.
00:04:47Lightning kostet das Doppelte: 0,30 für Output.
00:04:53Wenn man Lightning eine Stunde lang mit 100 Token pro Sekunde nutzt, kostet das etwa einen Dollar.
00:04:56Bei der Standard-Version, die ich hier genutzt habe, sind es nur etwa 30 Cent pro Stunde.
00:05:00Vergleicht man das mit Claude Opus 4.6, wird der gewaltige Unterschied deutlich.
00:05:04Dort zahlt man 5 pro Million Output-Token.
00:05:09Pro SWE-Aufgabe liegen die Kosten bei etwa 10 % von Opus, dank hoher Effizienz und weniger Tool-Calls.
00:05:15Zudem gibt es ein kostenloses API-Kontingent, das bereits live ist. Ich habe zwar gezahlt,
00:05:20aber die Option besteht. Hier verschieben sich die wirtschaftlichen Parameter massiv.
00:05:24Sollten Sie also von Opus 4.6 wechseln? Rein leistungstechnisch sind sie fast ebenbürtig.
00:05:30Es dauerte zwar etwas länger – ich war im Standard-Modus –, aber die Ergebnisse sind vergleichbar.
00:05:34Die Zeit bis zur Fertigstellung und die Tiefe der logischen Schlüsse waren auf Augenhöhe.
00:05:39Preislich ist es jedoch um Welten günstiger. Die Entscheidung liegt also bei Ihnen.
00:05:43Zudem benötigt es 20 % weniger Tool-Calls und vermeidet unnötige Token-Verschwendung.
00:05:47Was die Flexibilität angeht: Es sind Open Weights. Man kann es lokal hosten und feinabstimmen.
00:05:52In der absoluten High-End-Intelligenz hat Opus zwar noch einen minimalen Vorsprung,
00:05:57da es weiterhin das Premium-Modell am Markt ist.
00:06:00Warum das so wichtig ist? Weil man jetzt Agenten in großem Stil betreiben kann, ohne von den Kosten erschlagen zu werden.
00:06:05Mit einer Win-Rate von 59 % in fortgeschrittenen Agent-Benchmarks lassen sich autonome
00:06:12Repo-Bots bauen, persistente Coding-Agenten betreiben oder Enterprise-Workflows automatisieren. Es ist nicht perfekt,
00:06:17aber für das, was wir gesehen haben, extrem gut. Der Preis erlaubt echtes Experimentieren und Belastungstests.
00:06:22Minimax liefert in einem rasanten Tempo – Updates kommen eher alle paar Wochen als alle paar Monate.
00:06:27Integrationen für Ollama und GitHub sind bereits auf dem Vormarsch.
00:06:32Minimax M2.5 bietet Opus-Niveau beim Coding zum Budget-Preis und mit Open Weights. Diese
00:06:38Kombination ist selten, aber wer weiß, was uns 2026 noch erwartet. Testen Sie es kostenlos bei
00:06:43Minimax, nutzen Sie Ollama oder holen Sie sich einen API-Key. Wird das der neue Standard für
00:06:48Developer-Agenten? Wir werden sehen. Bis zum nächsten Video!

Key Takeaway

Minimax M2.5 revolutioniert den Markt für Coding-KI durch eine Kombination aus High-End-Leistung auf Claude-Opus-Niveau, Open Weights und einer massiv reduzierten Kostenstruktur für Entwickler-Agenten.

Highlights

Minimax M2.5 ist ein neues Mixture-of-Experts-Modell mit 230 Milliarden Parametern für Coding und Agenten.

Das Modell bietet eine Leistung auf dem Niveau von Claude Opus 4.6, kostet aber nur ein Zehntel des Preises.

Es verfügt über Open Weights auf Hugging Face, was lokale Hosting-Optionen und Feinabstimmung ermöglicht.

M2.5 nutzt Reinforcement Learning für präzisere Aufgaben-Dekomposition und effizientere Tool-Calls.

In Benchmarks wie SWE-bench erreicht es über 80 % und schlägt Opus in spezifischen Metriken wie DROID.

Es gibt zwei Versionen: Standard (50 Token/s) und Lightning (100 Token/s) für unterschiedliche Geschwindigkeitsbedarfe.

Optimiert für reale Entwicklungs-Workflows inklusive Multi-File-Edits und automatisierten Debugging-Zyklen.

Timeline

Einführung in Minimax M2.5

Der Sprecher stellt das neue Coding-Modell Minimax M2.5 vor, das als ernsthafte Konkurrenz zu Claude Opus 4.6 positioniert wird. Mit 230 Milliarden Parametern und einer Ausrichtung auf Agent-Workflows verspricht es eine drastische Kostensenkung für Entwickler. Besonders hervorgehoben wird der Open-Weights-Ansatz, der Flexibilität und Unabhängigkeit von großen Cloud-Anbietern bietet. Das Modell ist erst seit wenigen Tagen verfügbar und zielt direkt auf KI-Agenten, Co-Pilots und Automatisierungstools ab. Der Einstieg betont die disruptive Preisgestaltung bei gleichzeitig hoher technischer Kapazität.

Technische Architektur und Versionen

In diesem Abschnitt werden die technischen Details des Mixture-of-Experts-Modells (MoE) erläutert, bei dem von 230 Milliarden Parametern nur 10 Milliarden gleichzeitig aktiv sind. Es unterstützt diverse Programmiersprachen wie Python, Java und Rust sowie komplexe Aufgaben wie Multi-File-Refactoring. Es stehen zwei Geschwindigkeitsstufen zur Verfügung: Eine Standard-Version und eine schnellere Lightning-Version mit bis zu 100 Token pro Sekunde. Da das Modell multilingual ist und auf Hugging Face bereitsteht, können Nutzer Vendor-Lock-ins vermeiden und es lokal für sensible Daten betreiben. Diese Offenheit ist ein zentrales Argument für den Einsatz in professionellen Umgebungen.

Praxisvergleich: Minimax vs. Claude Opus

Der Sprecher führt einen direkten Vergleichstest durch, indem er beide Modelle ein Full-Stack Kanban-Board erstellen lässt. Während Claude Opus das Projekt in 4 Minuten fehlerfrei abschloss, benötigte Minimax etwa 8 Minuten für ein funktionell identisches Ergebnis. Minimax zeigte zwar leichte Schwächen im UI-Design und einen kleinen Bug in der Bearbeitungsfunktion, lieferte aber eine beeindruckende Leistung für einen Bruchteil der Kosten. Der Preisvorteil von 90 % macht kleine funktionale Mängel wett, da diese durch einen zweiten Prompt leicht korrigiert werden können. Dieser Test unterstreicht die Praxistauglichkeit von M2.5 trotz der längeren Rechenzeit im Standard-Modus.

Effizienz und Reinforcement Learning

Ein wesentlicher technischer Fortschritt von M2.5 ist der Einsatz von Reinforcement Learning für die Aufgaben-Dekomposition. Dies führt zu einer Reduktion der Tool-Calls um 20 % und minimiert die Token-Verschwendung, was besonders bei autonomen Agenten die Stabilität erhöht. Das Modell beherrscht komplexe Run-Debug-Fix-Zyklen und reduziert die Anzahl der Suchrunden in Recherche-Tasks signifikant. Durch die Unterstützung von Caching werden wiederholte Anfragen über die Zeit hinweg immer kostengünstiger für den Anwender. Die Integration in bestehende Infrastrukturen wie Ollama oder GitHub-Pipelines wird als nahtlos beschrieben.

Benchmarks und Performance-Analyse

Hier werden konkrete Leistungsdaten im Vergleich zu den Marktführern präsentiert, wobei M2.5 im SWE-bench Verified über 80 % erreicht. Damit liegt es fast gleichauf mit Claude Opus 4.6 und übertrifft in der DROID-Metrik die Konkurrenz sogar minimal. Die Geschwindigkeit wurde im Vergleich zum Vorgänger M2.1 um 37 % gesteigert, was die technologische Evolution von Minimax verdeutlicht. Der Sprecher ordnet das Modell in die Leistungsklasse von GPT-5 oder Gemini 3 Pro ein, betont aber den Vorteil der offenen Gewichte. Für die Praxis bedeutet das weniger Fehlversuche und eine effizientere Abwicklung von Software-Engineering-Aufgaben.

Wirtschaftliche Vorteile und Fazit

Der Abschluss des Videos konzentriert sich auf die radikale Preisstruktur: M2.5 Standard kostet nur 0,15 Dollar pro Million Output-Token, während Opus bei 5 Dollar liegt. Diese enorme Differenz ermöglicht es Unternehmen, KI-Agenten in großem Stil zu skalieren, ohne das Budget zu sprengen. Der Sprecher empfiehlt das Modell für Enterprise-Workflows und autonome Repo-Bots, da es echtes Experimentieren durch niedrige Kosten erlaubt. Minimax liefert zudem Updates in sehr hoher Frequenz, was für eine schnelle Weiterentwicklung der Plattform spricht. Zusammenfassend wird M2.5 als neuer potenzieller Standard für kosteneffiziente Developer-Agenten bezeichnet.

Community Posts

View all posts