Mengapa Setiap Pengguna Mac Butuh AI Model Runner Baru Ini (oMLX)

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00Ini adalah OMLX. Proyek yang sangat menarik, yang pada dasarnya adalah mesin
00:00:06inferensi khusus untuk memeras setiap tetes performa dari Apple Silicon Anda.
00:00:11Jika Anda pengguna Mac, Anda akan sangat bersemangat. OMLX pada dasarnya
00:00:16mencoba mengatasi hambatan terbesar pada perangkat keras lokal, yaitu pajak memori.
00:00:21Di video ini, kita akan melihat OMLX, cara kerjanya, melakukan uji coba, dan
00:00:27membandingkannya dengan pemain besar, LM Studio, untuk melihat apakah alat baru ini
00:00:33bisa menjadi masa depan model AI lokal di Mac. Bakal seru, mari kita mulai.
00:00:39Jadi, apa sebenarnya OMLX itu? Intinya, ini adalah runtime yang dibangun khusus
00:00:49di atas kerangka kerja MLX Apple dan tidak seperti alat umum lainnya,
00:00:55MLX dibuat khusus oleh tim Apple Silicon untuk memanfaatkan arsitektur memori terpadu
00:01:02yang mentenagai Mac. Pada PC tradisional, CPU dan GPU Anda memiliki memori terpisah,
00:01:09artinya data seperti bobot model harus terus disalin bolak-balik melalui bus PCI.
00:01:16Tapi MLX menghilangkan penyalinan itu sepenuhnya. Karena CPU dan GPU berbagi
00:01:22memori fisik yang sama, MLX menggunakan array “zero copy”. Saat GPU selesai menghitung,
00:01:29CPU bisa langsung membaca hasilnya tanpa memindahkan satu byte pun. OMLX juga menggunakan
00:01:36komputasi malas, artinya ia tidak mengeksekusi operasi matematika sampai detik terakhir
00:01:41saat output dibutuhkan, yang memungkinkannya mengoptimalkan grafik kalkulasi secara cepat.
00:01:47Namun perbedaan OMLX dengan pengaturan LM Studio standar adalah cara pengelolaan KV cache.
00:01:54Dalam sesi LLM tipikal, setiap kata dari riwayat percakapan harus diingat di RAM.
00:02:01OMLX memperkenalkan sistem dua tingkat. Ia menyimpan konteks terdekat di memori
00:02:07terpadu untuk kecepatan, tapi membekukan bagian percakapan lama, seperti prompt sistem,
00:02:12lalu memindahkannya ke SSD Anda. Jika dibandingkan dengan LM Studio, perbedaannya langsung terasa.
00:02:19Ya, itu sangat stabil dan kompatibel, tapi masalahnya ia ingin menahan seluruh
00:02:23riwayat memori dalam keadaan aktif. OMLX lebih seperti sistem operasi modern.
00:02:30Ia cukup pintar untuk tahu data mana yang perlu ada di otak sekarang dan apa yang bisa di-page ke disk.
00:02:36Mari kita jalankan OMLX dan mencobanya. Antarmukanya cukup intuitif.
00:02:41Kita langsung mendapatkan jendela untuk menentukan lokasi server dan langsung meluncurkannya.
00:02:47Setelah itu, kita diminta memasukkan kunci API. Mari kita lakukan. Dan akhirnya,
00:02:53kita sampai di dasbor ini, yang merupakan titik masuk utama untuk server OMLX Anda.
00:03:00Dari sini, saya sudah mengunduh model Qwen 3.6 35 miliar parameter 4-bit untuk pengujian.
00:03:07Saya juga sudah menyiapkan repositori kosong dengan berkas agents.md di mana saya meminta model
00:03:13membuat aplikasi web sederhana untuk mencari film, memasukkannya ke daftar keinginan, dan memberi rating
00:03:19menggunakan kunci API Movie DB. Tidak terlalu rumit, hanya tes pengodean sederhana
00:03:24untuk melihat performanya pada tugas dunia nyata. Dan di halaman dasbor,
00:03:31ada bagian yang menyediakan potongan kode siap pakai untuk berbagai harness agen AI.
00:03:37Untuk demo ini, saya akan menggunakan Codex CLI untuk melakukan pengujian ini.
00:03:42Mungkin Anda bertanya mengapa saya tidak menggunakan CLI Claude Code resmi saja?
00:03:47Kenyataannya, pada MacBook M2, setiap token sangat berharga. Jika Anda melihat statistik konteks
00:03:54awal pada proyek kosong, Claude Code menghabiskan sekitar 16,2 ribu token hanya untuk
00:04:02prompt sistem dan definisi alatnya sendiri. Dalam jendela 32 ribu, ini hanya menyisakan
00:04:0916 ribu token untuk proyek sebenarnya, yang sangat kecil untuk membangun aplikasi full-stack.
00:04:14Di sisi lain, saya menemukan bahwa Codex jauh lebih ramping. Ia tidak membebani berat dasar
00:04:20percakapan, yang memberi kita ruang lebih luas untuk menulis kode sebelum mencapai batas konteks.
00:04:26Baiklah, sekarang saya akan meluncurkan Codex dengan perintah sederhana yang disediakan di sini.
00:04:31Lalu saya akan memberinya prompt awal yang menjelaskan tugas kita dan menjalankannya.
00:04:36Sambil menunggu proses di sebelah kanan, Anda bisa melihat performa sesi ini secara real-time,
00:04:42berapa banyak token yang dihasilkan, berapa banyak yang disimpan di cache,
00:04:46dan persentase efisiensi cache secara keseluruhan. Sangat berguna juga untuk melihat
00:04:51rata-rata token yang diproses per detik. Secara keseluruhan, butuh waktu sekitar 20 menit
00:04:57bagi model Qwen 3.6 35 miliar parameter ini di MacBook Pro M2 saya untuk menyelesaikan tugas ini.
00:05:04Ini sudah diduga karena ini adalah tugas yang sangat berat bagi model ini.
00:05:10Ada dua atau tiga kali saya mengalami eror 400 karena prompt melebihi batas
00:05:17konteks 30 ribu di MacBook M2 saya. Di alat lain, ini akan mematikan total proyek.
00:05:24Biasanya, jika saya menjalankan perintah clear, itu akan menghapus memori jangka pendek AI,
00:05:29yang memicu halusinasi karena model lupa kode yang baru saja ditulis. Tapi di sinilah caching SSD OMLX memukau saya.
00:05:37Meski saya menghapus sesi di Codex, status komputasi sebenarnya dari proyek saya
00:05:42masih tersimpan di SSD. Jadi saat saya memberi Codex prompt baru untuk melanjutkan,
00:05:48OMLX mengenali awalan tersebut dan secara instan memulihkan memori model dari disk.
00:05:56Alih-alih berhalusinasi atau mulai dari nol, ia melanjutkan tepat di bagian terakhir. Efisiensi cache
00:06:02sangat membantu dalam kasus ini. Di akhir tugas, kita bisa melihat bahwa Qwen 3.6 dengan
00:06:08bantuan OMLX mampu menyelesaikan tugas dengan memproses 1,78 juta token, dan sekitar 1,59 juta
00:06:16di antaranya masuk cache. Kita mendapatkan efisiensi cache 89%, yang sangat besar.
00:06:22Untuk aplikasinya sendiri, terlihat cukup bagus. Kita bisa mencari film, menambahkannya ke daftar pantau,
00:06:28dan memberi rating. Tapi setelah halaman disegarkan, daftar pantaunya tereset. Sepertinya
00:06:33ia tidak menerapkan solusi penyimpanan database dengan benar, tapi upaya yang bagus secara keseluruhan.
00:06:40Ini semua tampak mengesankan, tapi saya ingin tahu bagaimana perbandingannya dengan
00:06:46pengelola model kelas berat seperti LM Studio. Jadi saya memutuskan menjalankan tugas yang sama
00:06:52menggunakan model Qwen 3.6 yang sama dengan batasan jendela konteks yang sama.
00:06:58Jujur, saya tidak menduga ini, tapi performa di LM Studio justru lebih buruk.
00:07:04Tugas tersebut memakan waktu sekitar 35 menit. Itu 15 menit lebih lama daripada OMLX.
00:07:11Saya juga menyadari saat menjalankan tugas ini, LM Studio menggunakan seluruh daya MacBook saya.
00:07:17Bahkan saya tidak bisa menonton video di monitor kedua karena lag akibat kekurangan RAM yang parah.
00:07:23Saya tidak mengalami masalah itu dengan OMLX karena saat menjalankannya, saya bisa dengan mudah
00:07:30menjelajah web, menonton video, atau tugas lain sementara Codex berjalan di latar belakang.
00:07:35Hal ini hampir mustahil dilakukan di LM Studio. Lihat statistik ini. Yang lebih mengejutkan
00:07:41adalah kecepatan rata-rata token per detik di LM Studio adalah 16 token. Sedangkan di
00:07:47OMLX, sekitar 47. Itu menjelaskan mengapa tugasnya butuh 15 menit lebih lama untuk selesai.
00:07:55Namun, saya harus memberi pujian di mana itu layak diberikan. LM Studio tidak mengeluarkan satu pun
00:08:01eror 400 akibat hambatan batas konteks seperti OMLX. Manajemen konteks di LM Studio sangat stabil dan
00:08:08berjalan sempurna. Dan jika kita melihat hasil akhirnya, hasilnya sangat mirip.
00:08:13Tidak ada animasi mewah kali ini, tapi sejujurnya ini seperti membandingkan output yang sama
00:08:18dengan nilai seed yang berbeda untuk tugas dan model yang sama. Saya tidak akan menarik kesimpulan prematur.
00:08:25Ini model Qwen 3.6 yang sama. Anda bisa menilai sendiri output model Qwen di sini.
00:08:33Jadi apa putusan akhirnya? Saya harus katakan saya sangat, sangat terkesan dengan performa OMLX.
00:08:39Jika Anda menggunakan MacBook dengan RAM terbatas dan ingin tetap menggunakan komputer sambil
00:08:45menjalankan agen AI lokal di latar belakang, maka OMLX adalah alat yang sempurna. Ia memberikan
00:08:52perpanjangan RAM dengan memanfaatkan SSD berkecepatan tinggi dipadukan dengan kerangka kerja MLX
00:08:58yang menjalankan model lebih lancar di Apple Silicon. Ya, sesekali ada eror 400 yang berarti
00:09:05Anda harus lebih sigap dan mungkin sesekali melakukan perintah clear. Tapi itu adalah pengorbanan
00:09:10untuk kecepatan generasi tiga kali lebih cepat. Menurut saya itu sangat sepadan dalam hal ini.
00:09:16Proyek seperti OMLX membuktikan bahwa kita tidak butuh RAM 128 gigabyte untuk menjalankan
00:09:23agen yang kuat. Kita hanya butuh cara yang lebih pintar untuk mengelola memori yang sudah ada di MacBook.
00:09:29Kami sempat mengadakan survei beberapa bulan lalu dan menemukan bahwa sebagian besar penonton kami pengguna Mac.
00:09:34Jadi saya penasaran. Sudahkah Anda mencoba OMLX di mesin Anda sendiri? Bagaimana
00:09:40pengalamannya sejauh ini? Beri tahu kami di kolom komentar di bawah. Itu dia teman-teman.
00:09:45Itulah penjelasan singkat tentang OMLX. Jika Anda suka jenis ulasan teknis seperti ini,
00:09:50tolong beritahu saya dengan menekan tombol like di bawah video. Dan jangan lupa berlangganan
00:09:55ke saluran kami. Saya Andris dari Better Stack dan sampai jumpa di video berikutnya.

Key Takeaway

OMLX mengungguli LM Studio di Apple Silicon dengan kecepatan generasi tiga kali lebih cepat dan efisiensi RAM yang lebih tinggi melalui sistem caching SSD cerdas yang memungkinkan eksekusi model 35B pada perangkat keras terbatas.

Highlights

  • OMLX mencapai kecepatan rata-rata 47 token per detik pada MacBook Pro M2, hampir tiga kali lebih cepat dibandingkan LM Studio yang hanya menghasilkan 16 token per detik.

  • Sistem manajemen memori dua tingkat OMLX memindahkan konteks lama ke SSD untuk mengatasi keterbatasan RAM pada perangkat dengan memori terpadu yang terbatas.

  • Efisiensi cache mencapai 89% dengan memproses 1,78 juta token di mana 1,59 juta di antaranya berhasil disimpan dalam cache selama pengujian pembuatan aplikasi.

  • OMLX menyelesaikan tugas pengodean aplikasi web dalam waktu 20 menit, sementara LM Studio membutuhkan waktu 35 menit untuk tugas yang identik.

  • Fitur pemulihan instan dari SSD mencegah halusinasi model AI setelah penghapusan sesi (clear command) dengan memuat kembali status komputasi proyek dari disk.

  • Penggunaan sumber daya OMLX yang efisien memungkinkan multitasking berat seperti menonton video atau browsing web saat agen AI berjalan di latar belakang.

Timeline

Mekanisme Inferensi Khusus Apple Silicon

  • OMLX menggunakan kerangka kerja MLX Apple untuk memanfaatkan arsitektur memori terpadu secara maksimal.
  • Array zero copy menghilangkan kebutuhan untuk menyalin data antara CPU dan GPU melalui bus PCI.
  • Komputasi malas menunda eksekusi operasi matematika hingga output benar-benar dibutuhkan untuk mengoptimalkan grafik kalkulasi.

Hambatan terbesar pada perangkat keras lokal adalah pajak memori akibat pemisahan RAM pada PC tradisional. Dengan arsitektur memori terpadu, CPU dan GPU berbagi memori fisik yang sama sehingga pembacaan hasil perhitungan terjadi secara instan. Pengoptimalan ini dirancang khusus untuk memeras setiap tetes performa dari chip Apple Silicon.

Manajemen KV Cache dan Strategi Caching SSD

  • OMLX menerapkan sistem penyimpanan konteks dua tingkat untuk menjaga kecepatan dan kapasitas.
  • Bagian percakapan yang lama atau statis seperti prompt sistem dibekukan dan dipindahkan ke penyimpanan SSD.
  • Pendekatan cerdas ini menyerupai sistem operasi modern yang melakukan paging data ke disk saat memori fisik penuh.

Berbeda dengan LM Studio yang menahan seluruh riwayat percakapan di RAM aktif, OMLX membedakan konteks aktif dan pasif. Konteks terdekat tetap berada di memori terpadu demi kecepatan akses maksimal. Strategi ini mencegah sistem kehabisan memori saat menangani jendela konteks yang besar dalam sesi LLM yang panjang.

Uji Performa Pengodean dengan Codex CLI

  • Pengujian melibatkan pembuatan aplikasi web pencarian film menggunakan model Qwen 3.6 35B parameter 4-bit.
  • Codex CLI dipilih sebagai harness agen karena konsumsi token prompt sistem yang lebih rendah dibandingkan Claude Code.
  • Tugas pengodean yang berat berhasil diselesaikan dalam waktu 20 menit pada MacBook Pro M2.

Claude Code menghabiskan sekitar 16,2 ribu token hanya untuk definisi alat, menyisakan ruang konteks yang sangat sempit bagi proyek di MacBook M2. Penggunaan Codex yang lebih ramping memberikan ruang lebih luas untuk logika kode sebelum mencapai batas 32 ribu token. Dasbor OMLX menyediakan statistik real-time mengenai token per detik dan efisiensi cache selama proses berlangsung.

Ketahanan Terhadap Batas Konteks dan Efisiensi Cache

  • Caching SSD memulihkan memori model secara instan setelah terjadinya eror batas konteks atau pembersihan sesi.
  • Model mampu melanjutkan pekerjaan dari titik terakhir tanpa mengalami halusinasi atau pengulangan kode.
  • Hasil akhir pengujian menunjukkan efisiensi cache sebesar 89% dengan total 1,78 juta token yang diproses.

Eror 400 akibat melampaui batas konteks seringkali mematikan proyek pada alat inferensi lain karena hilangnya memori jangka pendek. OMLX mengatasi hal ini dengan menyimpan status komputasi di SSD sehingga pengenalan awalan prompt terjadi secara instan. Meskipun aplikasi web yang dihasilkan memiliki kekurangan pada penyimpanan database, fungsionalitas dasar seperti pencarian dan rating berhasil diimplementasikan.

Perbandingan Head-to-Head OMLX vs LM Studio

  • LM Studio membutuhkan waktu 35 menit untuk menyelesaikan tugas yang sama, atau 15 menit lebih lambat dari OMLX.
  • Kecepatan pemrosesan token OMLX mencapai 47 token per detik dibandingkan 16 token per detik pada LM Studio.
  • Manajemen konteks di LM Studio lebih stabil karena tidak mengeluarkan eror batas konteks selama pengujian.

LM Studio mengonsumsi seluruh daya komputasi dan RAM MacBook sehingga menyebabkan lag parah pada monitor kedua. Sebaliknya, OMLX memungkinkan pengguna untuk terus bekerja, browsing, atau menonton video sementara model berjalan di latar belakang. Meskipun LM Studio unggul dalam stabilitas manajemen konteks tanpa eror, perbedaan kecepatan yang mencapai hampir tiga kali lipat membuat OMLX lebih unggul secara keseluruhan.

Kesimpulan dan Putusan Akhir

  • OMLX adalah solusi ideal bagi pengguna Mac dengan RAM terbatas yang memerlukan multitasking.
  • Pemanfaatan SSD sebagai perpanjangan RAM memungkinkan eksekusi agen AI yang kuat tanpa membutuhkan memori 128GB.
  • Kecepatan generasi yang tiga kali lebih cepat dianggap sebagai kompensasi yang sepadan bagi risiko sesekali terjadinya eror konteks.

Proyek OMLX membuktikan bahwa manajemen memori yang cerdas lebih penting daripada kapasitas fisik yang masif. Pengguna disarankan untuk lebih sigap melakukan perintah pembersihan sesi jika terjadi eror, namun manfaat performa yang didapat sangat signifikan. Integrasi dengan kerangka kerja MLX Apple menjadikannya salah satu mesin inferensi paling lancar untuk ekosistem Apple Silicon saat ini.

Community Posts

View all posts