Kok Bisa Hampir Setara dengan Opus?

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Minimax baru saja merilis M2.5, model pengkodean yang hampir mengalahkan Claude Opus 4.6, namun dengan biaya sepepuluh kalinya saja.
00:00:07Model ini diluncurkan baru-baru ini, memiliki bobot terbuka (open weights), punya 230 miliar parameter, dan dirancang untuk alur kerja agen.
00:00:14Jika Anda sedang membangun agen AI, co-pilot, atau alat otomatisasi, ini akan mengubah struktur biaya Anda dalam semalam.
00:00:19Dan hal yang luar biasa bukan hanya hasil benchmark-nya, tetapi juga harganya.
00:00:23Kami rutin merilis video setiap saat, jadi pastikan untuk subscribe.
00:00:31Minimax M2.5 adalah model “mixture of experts” yang memiliki total 230 miliar parameter, namun hanya 10 miliar yang aktif saat dijalankan.
00:00:39Jadi, Anda mendapatkan model raksasa tanpa harus membayar untuk keseluruhan kapasitasnya setiap kali digunakan.
00:00:43Ini dibangun untuk alur kerja pengembangan dunia nyata, menggunakan Python, Java, Rust, refaktor multi-file, loop pemanggilan alat, bahkan otomatisasi Word dan Excel.
00:00:53Sekarang ada dua versi untuk ini, Anda memiliki versi standar dengan 50 token per detik, dan versi lightning dengan 100 token per detik.
00:01:01Model ini multibahasa dan bobotnya sepenuhnya terbuka di Hugging Face.
00:01:05Artinya, Anda bisa melakukan fine-tune, menjalankannya secara lokal (on-prem), dan menghindari ketergantungan vendor, dan di sinilah hal-hal mulai menarik bagi para agen.
00:01:12Saya menjalankan prompt yang sama pada Opus dan Minimax untuk membangun papan Kanban full-stack.
00:01:18Tidak ada yang terlalu rumit di sini, hanya cukup untuk melihat bagaimana keduanya membangun sesuatu dan membandingkannya.
00:01:23Prompt persis yang saya gunakan sudah saya sertakan di deskripsi jika kalian ingin membacanya, tapi pertama-tama kita akan melihat versi Opus di sini, yang memakan waktu sekitar 4 menit untuk selesai.
00:01:31Hasilnya sesuai ekspektasi, saya tidak perlu memberikan prompt tambahan, ini adalah hasil akhirnya.
00:01:37Semuanya di sini berjalan sangat lancar, berfungsi dengan sangat baik, UI-nya juga terlihat cukup bagus untuk sebuah permulaan.
00:01:44Fitur drag and drop berfungsi sebagaimana mestinya, mengedit tugas juga lancar. Saya sangat suka label kecil dengan folder yang benar ini, dan itu berubah saat kita menggesernya. Itu bonus yang keren.
00:01:55Secara keseluruhan, Opus melakukan pekerjaan yang sangat baik di sini, itulah yang saya harapkan sejak awal.
00:02:00Sekarang, beralih ke Minimax. Ini memakan waktu sekitar 8 menit untuk selesai, mungkin karena saya mengimpornya ke Cursor alih-alih menjalankannya di situs mereka, tapi saya memang ingin di Cursor.
00:02:10Meskipun memakan waktu lebih lama, biayanya hanya sepersepuluh, jadi saya tidak akan memperdebatkannya.
00:02:14Secara keseluruhan, ia melakukan pekerjaan yang sangat baik hanya dengan satu prompt. UI-nya sedikit kurang dibandingkan Opus, tetapi fungsinya tetap sama.
00:02:22Saya bisa membuat tugas, menggeser dan meletakkannya ke kolom yang benar, jadi semua itu berfungsi dengan baik.
00:02:27Satu-satunya hal yang tidak dilakukannya adalah menambahkan label kecil yang saya sukai pada setiap kartu seperti yang dilakukan Opus.
00:02:33Poin lain yang kurang tepat adalah kemampuan untuk mengedit deskripsi kotak.
00:02:38Jika saya mengedit deskripsinya, Anda lihat di sini, tidak ada yang berubah.
00:02:42Jadi saya harus menjalankannya untuk kedua kalinya agar fitur itu berfungsi sebagaimana mestinya.
00:02:48Tapi itu masih tidak masalah, karena sekali lagi, biayanya hanya sepersepuluh.
00:02:51Sekarang mari kita bahas apa yang benar-benar penting bagi pengembang. M2.5 menggunakan reinforcement learning untuk dekomposisi tugas.
00:02:58Jadi ia memecah masalah dengan lebih baik, yang menghasilkan 20% lebih sedikit pemanggilan alat (tool calls) dan 5% lebih sedikit pemborosan token.
00:03:06Jika Anda pernah membangun agen sebelumnya, Anda tahu bahwa pemanggilan alat adalah tempat biaya mulai membengkak dan bisa menjadi kacau.
00:03:13Ia juga menangani pengeditan multi-file, loop jalankan-debug-perbaiki, hal-hal semacam itu, berpindah antar alat tanpa mengalami kegagalan.
00:03:21Pada benchmark pencarian, ia mengurangi putaran pencarian sebesar 20% dibandingkan dengan versi M2.1 sebelumnya.
00:03:27Ia juga mendukung caching, yang berarti kueri yang berulang bisa memakan biaya lebih sedikit seiring waktu.
00:03:32Anda bisa langsung menghubungkannya ke Ollama, klaster lokal, otomatisasi GitHub, atau pipeline CI Anda.
00:03:37Sekarang soal benchmark, kan? Saya membandingkannya dengan Opus di sini.
00:03:40Nah, pada SWE-bench Verified, M2.5 mencetak skor di atas 80%.
00:03:45Claude Opus 4.6 sedikit lebih tinggi dari ini, juga tepat di atas 80%. Selisihnya sangat tipis di sini.
00:03:52Pada Multi-SWE-bench, ia mencetak skor di atas 51%, mengungguli model terbuka lainnya.
00:03:58Dan pada DROID, ia justru mengalahkan Opus sebesar 0,2%, ya? Jadi tergantung pada apa yang Anda lihat di sini.
00:04:05Sekarang soal kecepatan. Ia 37% lebih cepat dari model sebelumnya. Meskipun tadi masih butuh 8 menit di sini, oke?
00:04:11Opus 4.6 rata-rata memiliki kecepatan sedikit lebih cepat, tetapi kecepatannya menjadi identik saat Anda menjalankannya dalam format yang tepat.
00:04:18Jadi apa artinya ini bagi Anda? Yah, bisa berarti beberapa hal.
00:04:20Ini bisa berarti lebih sedikit percobaan ulang, proses CI yang lebih bersih, lebih sedikit token yang terbuang, dan lebih banyak pull request yang digabungkan.
00:04:26Dan dalam performa tugas agentic, ia menyamai wilayah seperti GPT-5 atau Gemini 3 Pro,
00:04:32tetapi dengan bobot terbuka, kan? Sekarang mari kita bahas bagian yang mengubah segalanya,
00:04:37yaitu soal harga, yang meskipun tadi memakan waktu lebih lama, tetap sangat signifikan.
00:04:40M2.5 standar berbiaya $0,15 per juta token input dan $1,20 per juta token output.
00:04:47Versi Lightning harganya dua kali lipat dari itu. Jadi $0,30 per juta input, $2,40 per output.
00:04:53Menjalankan lightning pada 100 token per detik selama satu jam, biayanya sekitar satu dolar.
00:04:56Jika Anda menjalankan standar, seperti yang saya lakukan di sini, biayanya sekitar 30 sen per jam.
00:05:00Sekarang bandingkan itu dengan Claude Opus 4.6. Perbedaannya sangat besar.
00:05:04$5 per juta token input, $25 per juta token output.
00:05:09Per tugas SWE, biayanya kira-kira 10% dari biaya Opus, terbantu oleh efisiensi dan pemanggilan alat yang lebih sedikit.
00:05:15Ada juga tingkat API gratis yang sudah tersedia sekarang. Saya memang membayar untuk ini,
00:05:20oke, tapi mereka menyediakan opsi itu. Dan di situlah sisi ekonomisnya benar-benar mulai bergeser.
00:05:24Jadi haruskah Anda beralih dari Opus 4.6? Dari segi performa, mereka hampir identik.
00:05:30Memang butuh waktu sedikit lebih lama, kan? Saya tadi pakai versi standar, bukan lightning, tapi mereka hampir sama.
00:05:34Waktu penyelesaian tugas pada dasarnya sama. Kedalaman penalarannya juga sebanding.
00:05:39Namun dari segi biaya, ini jauh lebih murah. Jadi Anda sendiri yang menilainya.
00:05:43Ia juga menggunakan 20% lebih sedikit pemanggilan alat dan membuang token-token tersebut, seperti yang saya katakan tadi.
00:05:47Dari segi fleksibilitas, ini adalah bobot terbuka. Anda bisa memasangnya secara lokal. Artinya Anda bisa melakukan fine tune.
00:05:52Dan Opus masih memiliki keunggulan di tingkat kecerdasan premium yang paling atas.
00:05:57Jadi, benar, itu adalah model premium yang masih kita gunakan.
00:06:00Nah, inilah mengapa ini penting, karena sekarang Anda bisa menjalankan agen dalam skala besar tanpa beban harga tersebut.
00:06:05Karena M2.5 memiliki tingkat kemenangan 59% pada benchmark agen tingkat lanjut, Anda bisa membangun bot repo otonom,
00:06:12menjalankan agen pengkodean yang persisten, mengotomatiskan alur kerja perusahaan, kan? Ini tidak sempurna,
00:06:17tetapi sangat, sangat bagus untuk apa yang kita lihat di sini. Dan harganya akan memungkinkan Anda untuk benar-benar bereksperimen dan mengujinya sepenuhnya.
00:06:22Dan Minimax merilis pembaruan dengan cepat, bergerak dalam hitungan minggu, bukan bulan.
00:06:27Integrasi Ollama dan GitHub sudah mulai meningkat pesat.
00:06:32Minimax M2.5 menghadirkan performa pengkodean setingkat Opus dengan harga ekonomis dan bobot terbuka. Kombinasi itu jarang terjadi.
00:06:38Tetapi di tahun 2026, siapa yang tahu apa yang akan kita lihat. Anda bisa mencobanya secara gratis di Minimax atau menjalankannya di Ollama atau membeli API seperti yang saya lakukan.
00:06:43Apakah ini model standar baru untuk agen pengembang? Sepertinya kita akan melihat bagaimana perkembangannya nanti.
00:06:48Sampai jumpa di video lainnya.

Key Takeaway

Minimax M2.5 menghadirkan model bahasa besar dengan bobot terbuka yang menawarkan performa pengkodean kelas atas setara Claude Opus namun dengan efisiensi biaya sepuluh kali lipat lebih murah.

Highlights

Minimax merilis model M2.5 dengan 230 miliar parameter menggunakan arsitektur Mixture of Experts (MoE) yang efisien.

Performa M2.5 hampir setara dengan Claude Opus 4.6 namun dengan biaya operasional hanya sepersepuluh kalinya.

Model ini bersifat open weights (bobot terbuka), memungkinkan penggunaan lokal (on-prem) dan kustomisasi penuh melalui fine-tuning.

M2.5 dioptimalkan untuk alur kerja agen AI dengan fitur dekomposisi tugas yang mengurangi pemanggilan alat sebesar 20%.

Tersedia dalam dua versi: Standar (50 token/detik) dan Lightning (100 token/detik) untuk fleksibilitas kecepatan.

Dalam pengujian dunia nyata, model ini mampu membangun aplikasi full-stack Kanban dengan hasil fungsional yang sangat baik.

Harga API sangat kompetitif, yakni $0,15 per juta token input untuk versi standar, jauh di bawah tarif Claude Opus.

Timeline

Pengenalan Minimax M2.5 dan Keunggulan Biaya

Bagian awal video memperkenalkan Minimax M2.5 sebagai model pengkodean baru yang dirancang untuk menantang dominasi Claude Opus 4.6. Narator menekankan bahwa keunggulan utama model ini terletak pada struktur biayanya yang hanya seperpuluh dari pesaingnya tersebut. Dengan total 230 miliar parameter dan sifatnya yang open weights, model ini sangat cocok untuk pengembang yang membangun agen AI atau alat otomatisasi. Peluncuran ini diprediksi akan mengubah lanskap ekonomi pengembangan AI secara signifikan dalam waktu singkat. Hal ini memberikan alternatif yang sangat kuat bagi mereka yang ingin menghindari ketergantungan pada vendor besar yang mahal.

Arsitektur Model dan Kemampuan Teknis

Minimax M2.5 menggunakan arsitektur Mixture of Experts (MoE) di mana hanya 10 miliar parameter yang aktif dari total 230 miliar selama proses berjalan. Model ini dirancang khusus untuk pengembangan dunia nyata, mencakup bahasa pemrograman seperti Python, Java, dan Rust, serta integrasi dengan Word dan Excel. Pengguna dapat memilih antara versi Standar yang menghasilkan 50 token per detik atau versi Lightning yang mencapai 100 token per detik. Karena bobotnya terbuka di Hugging Face, pengembang memiliki kebebasan untuk menjalankan model secara lokal dan melakukan fine-tune sesuai kebutuhan spesifik. Fleksibilitas ini dianggap sebagai poin krusial bagi pengembangan sistem agen AI yang lebih mandiri.

Uji Coba Langsung: Membangun Aplikasi Kanban

Narator melakukan eksperimen perbandingan antara Claude Opus dan Minimax M2.5 untuk membuat aplikasi papan Kanban full-stack. Claude Opus menyelesaikan tugas dalam 4 menit dengan hasil UI yang sangat rapi dan fitur drag-and-drop yang sempurna. Di sisi lain, Minimax memerlukan waktu 8 menit melalui Cursor, namun berhasil memberikan fungsionalitas inti yang hampir identik dengan biaya jauh lebih murah. Meskipun UI Minimax sedikit kurang dipoles dibandingkan Opus dan memerlukan satu kali prompt tambahan untuk fitur edit, fungsionalitas keseluruhannya tetap solid. Penulis menegaskan bahwa perbedaan kecil dalam kualitas visual sangat sebanding dengan penghematan biaya yang sangat besar.

Efisiensi Agen AI dan Fitur Pengembang

Model M2.5 menonjol dalam kemampuan dekomposisi tugas berkat penggunaan reinforcement learning dalam pelatihannya. Hal ini menghasilkan efisiensi tinggi dengan pengurangan pemanggilan alat sebesar 20% dan pemborosan token sebesar 5% dibandingkan model sebelumnya. Fitur-fitur seperti pengeditan multi-file dan loop debug-perbaiki berjalan lancar tanpa mengalami kegagalan proses. Selain itu, dukungan terhadap caching kueri membantu mengurangi biaya lebih lanjut untuk tugas-tugas yang berulang secara berkala. Integrasi yang mudah dengan Ollama dan pipeline CI membuat model ini sangat ramah bagi ekosistem pengembang modern saat ini.

Analisis Benchmark dan Perbandingan Performa

Dalam pengujian benchmark SWE-bench Verified, Minimax M2.5 mencetak skor di atas 80%, bersaing ketat dengan Claude Opus 4.6 yang hanya sedikit lebih unggul. Pada pengujian DROID, M2.5 bahkan berhasil mengungguli Opus sebesar 0,2%, membuktikan kekuatannya dalam skenario spesifik tertentu. Kecepatan model ini juga meningkat 37% dari versi pendahulunya, memberikan performa yang konsisten untuk alur kerja yang cepat. Secara keseluruhan, performa tugas agentic-nya dianggap setara dengan model papan atas seperti GPT-5 atau Gemini 3 Pro. Hal ini membuktikan bahwa model open weights kini telah mencapai tingkat kecerdasan yang sebelumnya hanya dimiliki model tertutup.

Detail Harga dan Kesimpulan Akhir

Analisis harga menunjukkan perbedaan yang dramatis, di mana tarif M2.5 standar adalah $0,15 untuk input dan $1,20 untuk output per juta token. Sebagai perbandingan, Claude Opus membebankan $5 untuk input dan $25 untuk output, menjadikannya berkali-kali lipat lebih mahal. Narator menyimpulkan bahwa meskipun Opus masih memiliki keunggulan tipis pada kecerdasan premium, M2.5 adalah pilihan rasional untuk skala besar. Kemampuan untuk menjalankan agen pengkodean otonom tanpa beban biaya tinggi menjadi nilai jual yang tidak tertandingi. Video diakhiri dengan ajakan untuk mencoba model ini secara gratis atau melalui API untuk merasakan transformasi efisiensi pengkodean.

Community Posts

View all posts