00:00:00Minimax baru saja merilis M2.5, model pengkodean yang hampir mengalahkan Claude Opus 4.6, namun dengan biaya sepepuluh kalinya saja.
00:00:07Model ini diluncurkan baru-baru ini, memiliki bobot terbuka (open weights), punya 230 miliar parameter, dan dirancang untuk alur kerja agen.
00:00:14Jika Anda sedang membangun agen AI, co-pilot, atau alat otomatisasi, ini akan mengubah struktur biaya Anda dalam semalam.
00:00:19Dan hal yang luar biasa bukan hanya hasil benchmark-nya, tetapi juga harganya.
00:00:23Kami rutin merilis video setiap saat, jadi pastikan untuk subscribe.
00:00:31Minimax M2.5 adalah model “mixture of experts” yang memiliki total 230 miliar parameter, namun hanya 10 miliar yang aktif saat dijalankan.
00:00:39Jadi, Anda mendapatkan model raksasa tanpa harus membayar untuk keseluruhan kapasitasnya setiap kali digunakan.
00:00:43Ini dibangun untuk alur kerja pengembangan dunia nyata, menggunakan Python, Java, Rust, refaktor multi-file, loop pemanggilan alat, bahkan otomatisasi Word dan Excel.
00:00:53Sekarang ada dua versi untuk ini, Anda memiliki versi standar dengan 50 token per detik, dan versi lightning dengan 100 token per detik.
00:01:01Model ini multibahasa dan bobotnya sepenuhnya terbuka di Hugging Face.
00:01:05Artinya, Anda bisa melakukan fine-tune, menjalankannya secara lokal (on-prem), dan menghindari ketergantungan vendor, dan di sinilah hal-hal mulai menarik bagi para agen.
00:01:12Saya menjalankan prompt yang sama pada Opus dan Minimax untuk membangun papan Kanban full-stack.
00:01:18Tidak ada yang terlalu rumit di sini, hanya cukup untuk melihat bagaimana keduanya membangun sesuatu dan membandingkannya.
00:01:23Prompt persis yang saya gunakan sudah saya sertakan di deskripsi jika kalian ingin membacanya, tapi pertama-tama kita akan melihat versi Opus di sini, yang memakan waktu sekitar 4 menit untuk selesai.
00:01:31Hasilnya sesuai ekspektasi, saya tidak perlu memberikan prompt tambahan, ini adalah hasil akhirnya.
00:01:37Semuanya di sini berjalan sangat lancar, berfungsi dengan sangat baik, UI-nya juga terlihat cukup bagus untuk sebuah permulaan.
00:01:44Fitur drag and drop berfungsi sebagaimana mestinya, mengedit tugas juga lancar. Saya sangat suka label kecil dengan folder yang benar ini, dan itu berubah saat kita menggesernya. Itu bonus yang keren.
00:01:55Secara keseluruhan, Opus melakukan pekerjaan yang sangat baik di sini, itulah yang saya harapkan sejak awal.
00:02:00Sekarang, beralih ke Minimax. Ini memakan waktu sekitar 8 menit untuk selesai, mungkin karena saya mengimpornya ke Cursor alih-alih menjalankannya di situs mereka, tapi saya memang ingin di Cursor.
00:02:10Meskipun memakan waktu lebih lama, biayanya hanya sepersepuluh, jadi saya tidak akan memperdebatkannya.
00:02:14Secara keseluruhan, ia melakukan pekerjaan yang sangat baik hanya dengan satu prompt. UI-nya sedikit kurang dibandingkan Opus, tetapi fungsinya tetap sama.
00:02:22Saya bisa membuat tugas, menggeser dan meletakkannya ke kolom yang benar, jadi semua itu berfungsi dengan baik.
00:02:27Satu-satunya hal yang tidak dilakukannya adalah menambahkan label kecil yang saya sukai pada setiap kartu seperti yang dilakukan Opus.
00:02:33Poin lain yang kurang tepat adalah kemampuan untuk mengedit deskripsi kotak.
00:02:38Jika saya mengedit deskripsinya, Anda lihat di sini, tidak ada yang berubah.
00:02:42Jadi saya harus menjalankannya untuk kedua kalinya agar fitur itu berfungsi sebagaimana mestinya.
00:02:48Tapi itu masih tidak masalah, karena sekali lagi, biayanya hanya sepersepuluh.
00:02:51Sekarang mari kita bahas apa yang benar-benar penting bagi pengembang. M2.5 menggunakan reinforcement learning untuk dekomposisi tugas.
00:02:58Jadi ia memecah masalah dengan lebih baik, yang menghasilkan 20% lebih sedikit pemanggilan alat (tool calls) dan 5% lebih sedikit pemborosan token.
00:03:06Jika Anda pernah membangun agen sebelumnya, Anda tahu bahwa pemanggilan alat adalah tempat biaya mulai membengkak dan bisa menjadi kacau.
00:03:13Ia juga menangani pengeditan multi-file, loop jalankan-debug-perbaiki, hal-hal semacam itu, berpindah antar alat tanpa mengalami kegagalan.
00:03:21Pada benchmark pencarian, ia mengurangi putaran pencarian sebesar 20% dibandingkan dengan versi M2.1 sebelumnya.
00:03:27Ia juga mendukung caching, yang berarti kueri yang berulang bisa memakan biaya lebih sedikit seiring waktu.
00:03:32Anda bisa langsung menghubungkannya ke Ollama, klaster lokal, otomatisasi GitHub, atau pipeline CI Anda.
00:03:37Sekarang soal benchmark, kan? Saya membandingkannya dengan Opus di sini.
00:03:40Nah, pada SWE-bench Verified, M2.5 mencetak skor di atas 80%.
00:03:45Claude Opus 4.6 sedikit lebih tinggi dari ini, juga tepat di atas 80%. Selisihnya sangat tipis di sini.
00:03:52Pada Multi-SWE-bench, ia mencetak skor di atas 51%, mengungguli model terbuka lainnya.
00:03:58Dan pada DROID, ia justru mengalahkan Opus sebesar 0,2%, ya? Jadi tergantung pada apa yang Anda lihat di sini.
00:04:05Sekarang soal kecepatan. Ia 37% lebih cepat dari model sebelumnya. Meskipun tadi masih butuh 8 menit di sini, oke?
00:04:11Opus 4.6 rata-rata memiliki kecepatan sedikit lebih cepat, tetapi kecepatannya menjadi identik saat Anda menjalankannya dalam format yang tepat.
00:04:18Jadi apa artinya ini bagi Anda? Yah, bisa berarti beberapa hal.
00:04:20Ini bisa berarti lebih sedikit percobaan ulang, proses CI yang lebih bersih, lebih sedikit token yang terbuang, dan lebih banyak pull request yang digabungkan.
00:04:26Dan dalam performa tugas agentic, ia menyamai wilayah seperti GPT-5 atau Gemini 3 Pro,
00:04:32tetapi dengan bobot terbuka, kan? Sekarang mari kita bahas bagian yang mengubah segalanya,
00:04:37yaitu soal harga, yang meskipun tadi memakan waktu lebih lama, tetap sangat signifikan.
00:04:40M2.5 standar berbiaya $0,15 per juta token input dan $1,20 per juta token output.
00:04:47Versi Lightning harganya dua kali lipat dari itu. Jadi $0,30 per juta input, $2,40 per output.
00:04:53Menjalankan lightning pada 100 token per detik selama satu jam, biayanya sekitar satu dolar.
00:04:56Jika Anda menjalankan standar, seperti yang saya lakukan di sini, biayanya sekitar 30 sen per jam.
00:05:00Sekarang bandingkan itu dengan Claude Opus 4.6. Perbedaannya sangat besar.
00:05:04$5 per juta token input, $25 per juta token output.
00:05:09Per tugas SWE, biayanya kira-kira 10% dari biaya Opus, terbantu oleh efisiensi dan pemanggilan alat yang lebih sedikit.
00:05:15Ada juga tingkat API gratis yang sudah tersedia sekarang. Saya memang membayar untuk ini,
00:05:20oke, tapi mereka menyediakan opsi itu. Dan di situlah sisi ekonomisnya benar-benar mulai bergeser.
00:05:24Jadi haruskah Anda beralih dari Opus 4.6? Dari segi performa, mereka hampir identik.
00:05:30Memang butuh waktu sedikit lebih lama, kan? Saya tadi pakai versi standar, bukan lightning, tapi mereka hampir sama.
00:05:34Waktu penyelesaian tugas pada dasarnya sama. Kedalaman penalarannya juga sebanding.
00:05:39Namun dari segi biaya, ini jauh lebih murah. Jadi Anda sendiri yang menilainya.
00:05:43Ia juga menggunakan 20% lebih sedikit pemanggilan alat dan membuang token-token tersebut, seperti yang saya katakan tadi.
00:05:47Dari segi fleksibilitas, ini adalah bobot terbuka. Anda bisa memasangnya secara lokal. Artinya Anda bisa melakukan fine tune.
00:05:52Dan Opus masih memiliki keunggulan di tingkat kecerdasan premium yang paling atas.
00:05:57Jadi, benar, itu adalah model premium yang masih kita gunakan.
00:06:00Nah, inilah mengapa ini penting, karena sekarang Anda bisa menjalankan agen dalam skala besar tanpa beban harga tersebut.
00:06:05Karena M2.5 memiliki tingkat kemenangan 59% pada benchmark agen tingkat lanjut, Anda bisa membangun bot repo otonom,
00:06:12menjalankan agen pengkodean yang persisten, mengotomatiskan alur kerja perusahaan, kan? Ini tidak sempurna,
00:06:17tetapi sangat, sangat bagus untuk apa yang kita lihat di sini. Dan harganya akan memungkinkan Anda untuk benar-benar bereksperimen dan mengujinya sepenuhnya.
00:06:22Dan Minimax merilis pembaruan dengan cepat, bergerak dalam hitungan minggu, bukan bulan.
00:06:27Integrasi Ollama dan GitHub sudah mulai meningkat pesat.
00:06:32Minimax M2.5 menghadirkan performa pengkodean setingkat Opus dengan harga ekonomis dan bobot terbuka. Kombinasi itu jarang terjadi.
00:06:38Tetapi di tahun 2026, siapa yang tahu apa yang akan kita lihat. Anda bisa mencobanya secara gratis di Minimax atau menjalankannya di Ollama atau membeli API seperti yang saya lakukan.
00:06:43Apakah ini model standar baru untuk agen pengembang? Sepertinya kita akan melihat bagaimana perkembangannya nanti.
00:06:48Sampai jumpa di video lainnya.