Mengapa Setiap Pengguna Mac Butuh AI Model Runner Baru Ini (oMLX)
BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology
Transcript
00:00:00Ini adalah OMLX. Proyek yang sangat menarik, yang pada dasarnya adalah mesin
00:00:06inferensi khusus untuk memeras setiap tetes performa dari Apple Silicon Anda.
00:00:11Jika Anda pengguna Mac, Anda akan sangat bersemangat. OMLX pada dasarnya
00:00:16mencoba mengatasi hambatan terbesar pada perangkat keras lokal, yaitu pajak memori.
00:00:21Di video ini, kita akan melihat OMLX, cara kerjanya, melakukan uji coba, dan
00:00:27membandingkannya dengan pemain besar, LM Studio, untuk melihat apakah alat baru ini
00:00:33bisa menjadi masa depan model AI lokal di Mac. Bakal seru, mari kita mulai.
00:00:39Jadi, apa sebenarnya OMLX itu? Intinya, ini adalah runtime yang dibangun khusus
00:00:49di atas kerangka kerja MLX Apple dan tidak seperti alat umum lainnya,
00:00:55MLX dibuat khusus oleh tim Apple Silicon untuk memanfaatkan arsitektur memori terpadu
00:01:02yang mentenagai Mac. Pada PC tradisional, CPU dan GPU Anda memiliki memori terpisah,
00:01:09artinya data seperti bobot model harus terus disalin bolak-balik melalui bus PCI.
00:01:16Tapi MLX menghilangkan penyalinan itu sepenuhnya. Karena CPU dan GPU berbagi
00:01:22memori fisik yang sama, MLX menggunakan array “zero copy”. Saat GPU selesai menghitung,
00:01:29CPU bisa langsung membaca hasilnya tanpa memindahkan satu byte pun. OMLX juga menggunakan
00:01:36komputasi malas, artinya ia tidak mengeksekusi operasi matematika sampai detik terakhir
00:01:41saat output dibutuhkan, yang memungkinkannya mengoptimalkan grafik kalkulasi secara cepat.
00:01:47Namun perbedaan OMLX dengan pengaturan LM Studio standar adalah cara pengelolaan KV cache.
00:01:54Dalam sesi LLM tipikal, setiap kata dari riwayat percakapan harus diingat di RAM.
00:02:01OMLX memperkenalkan sistem dua tingkat. Ia menyimpan konteks terdekat di memori
00:02:07terpadu untuk kecepatan, tapi membekukan bagian percakapan lama, seperti prompt sistem,
00:02:12lalu memindahkannya ke SSD Anda. Jika dibandingkan dengan LM Studio, perbedaannya langsung terasa.
00:02:19Ya, itu sangat stabil dan kompatibel, tapi masalahnya ia ingin menahan seluruh
00:02:23riwayat memori dalam keadaan aktif. OMLX lebih seperti sistem operasi modern.
00:02:30Ia cukup pintar untuk tahu data mana yang perlu ada di otak sekarang dan apa yang bisa di-page ke disk.
00:02:36Mari kita jalankan OMLX dan mencobanya. Antarmukanya cukup intuitif.
00:02:41Kita langsung mendapatkan jendela untuk menentukan lokasi server dan langsung meluncurkannya.
00:02:47Setelah itu, kita diminta memasukkan kunci API. Mari kita lakukan. Dan akhirnya,
00:02:53kita sampai di dasbor ini, yang merupakan titik masuk utama untuk server OMLX Anda.
00:03:00Dari sini, saya sudah mengunduh model Qwen 3.6 35 miliar parameter 4-bit untuk pengujian.
00:03:07Saya juga sudah menyiapkan repositori kosong dengan berkas agents.md di mana saya meminta model
00:03:13membuat aplikasi web sederhana untuk mencari film, memasukkannya ke daftar keinginan, dan memberi rating
00:03:19menggunakan kunci API Movie DB. Tidak terlalu rumit, hanya tes pengodean sederhana
00:03:24untuk melihat performanya pada tugas dunia nyata. Dan di halaman dasbor,
00:03:31ada bagian yang menyediakan potongan kode siap pakai untuk berbagai harness agen AI.
00:03:37Untuk demo ini, saya akan menggunakan Codex CLI untuk melakukan pengujian ini.
00:03:42Mungkin Anda bertanya mengapa saya tidak menggunakan CLI Claude Code resmi saja?
00:03:47Kenyataannya, pada MacBook M2, setiap token sangat berharga. Jika Anda melihat statistik konteks
00:03:54awal pada proyek kosong, Claude Code menghabiskan sekitar 16,2 ribu token hanya untuk
00:04:02prompt sistem dan definisi alatnya sendiri. Dalam jendela 32 ribu, ini hanya menyisakan
00:04:0916 ribu token untuk proyek sebenarnya, yang sangat kecil untuk membangun aplikasi full-stack.
00:04:14Di sisi lain, saya menemukan bahwa Codex jauh lebih ramping. Ia tidak membebani berat dasar
00:04:20percakapan, yang memberi kita ruang lebih luas untuk menulis kode sebelum mencapai batas konteks.
00:04:26Baiklah, sekarang saya akan meluncurkan Codex dengan perintah sederhana yang disediakan di sini.
00:04:31Lalu saya akan memberinya prompt awal yang menjelaskan tugas kita dan menjalankannya.
00:04:36Sambil menunggu proses di sebelah kanan, Anda bisa melihat performa sesi ini secara real-time,
00:04:42berapa banyak token yang dihasilkan, berapa banyak yang disimpan di cache,
00:04:46dan persentase efisiensi cache secara keseluruhan. Sangat berguna juga untuk melihat
00:04:51rata-rata token yang diproses per detik. Secara keseluruhan, butuh waktu sekitar 20 menit
00:04:57bagi model Qwen 3.6 35 miliar parameter ini di MacBook Pro M2 saya untuk menyelesaikan tugas ini.
00:05:04Ini sudah diduga karena ini adalah tugas yang sangat berat bagi model ini.
00:05:10Ada dua atau tiga kali saya mengalami eror 400 karena prompt melebihi batas
00:05:17konteks 30 ribu di MacBook M2 saya. Di alat lain, ini akan mematikan total proyek.
00:05:24Biasanya, jika saya menjalankan perintah clear, itu akan menghapus memori jangka pendek AI,
00:05:29yang memicu halusinasi karena model lupa kode yang baru saja ditulis. Tapi di sinilah caching SSD OMLX memukau saya.
00:05:37Meski saya menghapus sesi di Codex, status komputasi sebenarnya dari proyek saya
00:05:42masih tersimpan di SSD. Jadi saat saya memberi Codex prompt baru untuk melanjutkan,
00:05:48OMLX mengenali awalan tersebut dan secara instan memulihkan memori model dari disk.
00:05:56Alih-alih berhalusinasi atau mulai dari nol, ia melanjutkan tepat di bagian terakhir. Efisiensi cache
00:06:02sangat membantu dalam kasus ini. Di akhir tugas, kita bisa melihat bahwa Qwen 3.6 dengan
00:06:08bantuan OMLX mampu menyelesaikan tugas dengan memproses 1,78 juta token, dan sekitar 1,59 juta
00:06:16di antaranya masuk cache. Kita mendapatkan efisiensi cache 89%, yang sangat besar.
00:06:22Untuk aplikasinya sendiri, terlihat cukup bagus. Kita bisa mencari film, menambahkannya ke daftar pantau,
00:06:28dan memberi rating. Tapi setelah halaman disegarkan, daftar pantaunya tereset. Sepertinya
00:06:33ia tidak menerapkan solusi penyimpanan database dengan benar, tapi upaya yang bagus secara keseluruhan.
00:06:40Ini semua tampak mengesankan, tapi saya ingin tahu bagaimana perbandingannya dengan
00:06:46pengelola model kelas berat seperti LM Studio. Jadi saya memutuskan menjalankan tugas yang sama
00:06:52menggunakan model Qwen 3.6 yang sama dengan batasan jendela konteks yang sama.
00:06:58Jujur, saya tidak menduga ini, tapi performa di LM Studio justru lebih buruk.
00:07:04Tugas tersebut memakan waktu sekitar 35 menit. Itu 15 menit lebih lama daripada OMLX.
00:07:11Saya juga menyadari saat menjalankan tugas ini, LM Studio menggunakan seluruh daya MacBook saya.
00:07:17Bahkan saya tidak bisa menonton video di monitor kedua karena lag akibat kekurangan RAM yang parah.
00:07:23Saya tidak mengalami masalah itu dengan OMLX karena saat menjalankannya, saya bisa dengan mudah
00:07:30menjelajah web, menonton video, atau tugas lain sementara Codex berjalan di latar belakang.
00:07:35Hal ini hampir mustahil dilakukan di LM Studio. Lihat statistik ini. Yang lebih mengejutkan
00:07:41adalah kecepatan rata-rata token per detik di LM Studio adalah 16 token. Sedangkan di
00:07:47OMLX, sekitar 47. Itu menjelaskan mengapa tugasnya butuh 15 menit lebih lama untuk selesai.
00:07:55Namun, saya harus memberi pujian di mana itu layak diberikan. LM Studio tidak mengeluarkan satu pun
00:08:01eror 400 akibat hambatan batas konteks seperti OMLX. Manajemen konteks di LM Studio sangat stabil dan
00:08:08berjalan sempurna. Dan jika kita melihat hasil akhirnya, hasilnya sangat mirip.
00:08:13Tidak ada animasi mewah kali ini, tapi sejujurnya ini seperti membandingkan output yang sama
00:08:18dengan nilai seed yang berbeda untuk tugas dan model yang sama. Saya tidak akan menarik kesimpulan prematur.
00:08:25Ini model Qwen 3.6 yang sama. Anda bisa menilai sendiri output model Qwen di sini.
00:08:33Jadi apa putusan akhirnya? Saya harus katakan saya sangat, sangat terkesan dengan performa OMLX.
00:08:39Jika Anda menggunakan MacBook dengan RAM terbatas dan ingin tetap menggunakan komputer sambil
00:08:45menjalankan agen AI lokal di latar belakang, maka OMLX adalah alat yang sempurna. Ia memberikan
00:08:52perpanjangan RAM dengan memanfaatkan SSD berkecepatan tinggi dipadukan dengan kerangka kerja MLX
00:08:58yang menjalankan model lebih lancar di Apple Silicon. Ya, sesekali ada eror 400 yang berarti
00:09:05Anda harus lebih sigap dan mungkin sesekali melakukan perintah clear. Tapi itu adalah pengorbanan
00:09:10untuk kecepatan generasi tiga kali lebih cepat. Menurut saya itu sangat sepadan dalam hal ini.
00:09:16Proyek seperti OMLX membuktikan bahwa kita tidak butuh RAM 128 gigabyte untuk menjalankan
00:09:23agen yang kuat. Kita hanya butuh cara yang lebih pintar untuk mengelola memori yang sudah ada di MacBook.
00:09:29Kami sempat mengadakan survei beberapa bulan lalu dan menemukan bahwa sebagian besar penonton kami pengguna Mac.
00:09:34Jadi saya penasaran. Sudahkah Anda mencoba OMLX di mesin Anda sendiri? Bagaimana
00:09:40pengalamannya sejauh ini? Beri tahu kami di kolom komentar di bawah. Itu dia teman-teman.
00:09:45Itulah penjelasan singkat tentang OMLX. Jika Anda suka jenis ulasan teknis seperti ini,
00:09:50tolong beritahu saya dengan menekan tombol like di bawah video. Dan jangan lupa berlangganan
00:09:55ke saluran kami. Saya Andris dari Better Stack dan sampai jumpa di video berikutnya.