Mesin Baru Ini Menjalankan AI Lokal Menggunakan RAM 10x Lebih Sedikit! (Cactus)

BBetter Stack
Computing/SoftwareConsumer ElectronicsCell Phones

Transcript

00:00:00Ini adalah Cactus. Ini adalah mesin inferensi latensi rendah yang dirancang untuk memperlakukan perangkat seluler dan edge
00:00:06sebagai prioritas utama. Biasanya, saat kita mencoba menjalankan model AI di perangkat edge, model tersebut
00:00:12terasa berat, menguras baterai, dan rentan dihentikan paksa oleh manajer memori
00:00:18sistem operasi seluler. Namun Cactus mencoba menyelesaikan masalah ini karena dibuat khusus
00:00:23untuk keterbatasan unit pemrosesan saraf (NPU) dan RAM yang terbatas. Jadi hari ini kita akan
00:00:28melihat Cactus, mencari tahu cara kerjanya, dan mengujinya di perangkat edge untuk melihat performanya.
00:00:34Jadi, mari kita langsung bahas. Hambatan terbesar untuk AI lokal sebenarnya bukanlah komputasi, melainkan
00:00:44overhead memori. Pada perangkat seluler standar, sistem operasi sangat agresif
00:00:50dalam menghentikan aplikasi yang penggunaan RAM-nya melonjak. Namun Cactus mengatasi ini dengan menggunakan pemetaan memori
00:00:57zero-copy. Alih-alih pendekatan biasa di mana Anda memuat semuanya ke RAM, Cactus memetakan
00:01:02bobot model langsung dari penyimpanan. Ini adalah sistem zero-copy yang hanya menarik tensor
00:01:08tertentu ke dalam siklus komputasi aktif saat dibutuhkan. Anda mendapatkan kemampuan penalaran dari
00:01:13model besar tanpa risiko sistem operasi menutup aplikasi Anda. Dan untuk mencapai
00:01:19hal ini, mereka bahkan beralih dari format GGUF tradisional dan memiliki
00:01:24format .CACT eksklusif milik mereka sendiri yang membuat pemetaan ini menjadi efektif di perangkat edge. Namun
00:01:31tugas berat yang sebenarnya terjadi di NPU atau neural processing unit. Di saat sebagian besar
00:01:37mesin lokal secara default menggunakan GPU, Cactus dibangun untuk memprioritaskan NPU. Jika Anda memperhatikan
00:01:43chip modern dari Apple, Qualcomm, atau MediaTek, semuanya memiliki silikon khusus hanya untuk jaringan saraf.
00:01:50Cactus berkomunikasi dengan unit-unit ini secara langsung, melewati lapisan penerjemahan biasa
00:01:55yang memperlambat inferensi Anda. Dan mereka sebenarnya telah mengoptimalkan model-model tertentu
00:02:00untuk memanfaatkan sepenuhnya unit perkalian matriks ini. Jika Anda membuka dasbor Cactus,
00:02:07Anda akan melihat daftar model yang dioptimalkan untuk NPU yang siap diunduh. Fitur keren lainnya
00:02:12yang dimiliki Cactus adalah router hibrida. Faktanya adalah pada perangkat edge, model lokal,
00:02:18seberapa pun dioptimalkannya, pada akhirnya akan mencapai batas kemampuan penalarannya. Dan di sinilah
00:02:23router hibrida berperan. Alih-alih memaksa Anda memilih antara model lokal yang cepat tetapi terbatas
00:02:29dan model cloud yang cerdas tetapi mahal, Cactus dapat menangani keduanya dan beralih di antaranya.
00:02:35Ini menggunakan sistem perutean berbasis tingkat keyakinan. Jika Anda mengajukan pertanyaan sederhana, prosesnya tetap di
00:02:40NPU karena cepat, privat, dan tidak memakan biaya. Namun jika model lokal mendeteksi bahwa
00:02:45tugasnya terlalu rumit atau memerlukan context window yang sangat besar, model ini secara otomatis mengalihkan
00:02:51permintaan khusus tersebut ke frontier model di cloud. Kode Anda tetap sama. Mesin
00:02:57tersebut yang mengelola pengalihan di latar belakang. Jadi ini adalah cara yang siap pakai untuk menekan biaya
00:03:03rendah tanpa mengorbankan pengalaman pengguna saat situasi menjadi rumit. Semua itu
00:03:08terdengar keren, tetapi saya ingin mencobanya sendiri. Jadi di halaman utama mereka, mereka memiliki
00:03:13demo ini di mana mereka menunjukkan bagaimana Anda bisa melakukan transkripsi waktu nyata dengan latensi sekitar 100 milidetik
00:03:19pada perangkat edge. Jadi saya langsung mencoba ngoding santai membuat aplikasi Swift kecil menggunakan
00:03:25paket Swift Cactus mereka yang mendukung pengoperasian transkripsi waktu nyata menggunakan model bicara Parakeet
00:03:30secara lokal dan model Gemini di cloud. Mari kita coba. Seperti yang bisa
00:03:36Anda lihat, secara lokal, rata-rata latensi kita sekitar 260 milidetik dengan live streaming. Perlu diingat,
00:03:44saya menjalankan ini di model iPhone lama, yaitu 12 Pro. Jadi untuk model lama seperti
00:03:50ini, saya rasa performa di edge ini terbilang cukup bagus. Dan jika kita beralih ke cloud, Cactus beralih
00:03:55ke Gemini 2.5 Flash sebagai alternatif cloud-nya. Dan entah mengapa, mereka tidak memiliki model
00:04:01Parakeet yang sama di sisi cloud mereka. Jadi saya terpaksa menggunakan Gemini. Dan kita bisa melihat di sini bahwa
00:04:06ini rata-rata memakan waktu sekitar 2000 milidetik untuk transkripsi batch berdurasi tiga detik. Dan
00:04:12saya rasa hal ini wajar karena prosesnya memerlukan perjalanan pulang pergi ke server data. Namun
00:04:17secara realistis, sebagian besar waktu Anda akhirnya akan menggunakan transkripsi di perangkat edge,
00:04:23tetapi opsi cloud berguna untuk tugas-tugas lain seperti analisis gambar yang intensif atau hal lain
00:04:27yang merupakan tugas lebih berat. Jadi begitulah, teman-teman, intinya tentang mesin Cactus.
00:04:33Saya rasa mereka melakukan sesuatu yang sangat menarik di sini. Saya suka bagaimana mereka
00:04:37memikirkan tentang pengoptimalan di perangkat edge menggunakan arsitektur kustom yang ramah NPU. Dan saya suka
00:04:43fakta bahwa mereka menawarkan begitu banyak SDK dan model untuk berbagai jenis tugas multimodal.
00:04:50Dan saya sangat penasaran untuk melihat bagaimana produk mereka berkembang. Jadi saya pasti akan mengawasi
00:04:54perkembangan mereka. Namun bagaimana pendapat kalian tentang Cactus? Apakah Anda sudah mencobanya? Beri tahu kami
00:04:59di kolom komentar di bawah. Dan teman-teman, jika kalian suka jenis pembahasan seperti ini, tolong
00:05:03beri tahu saya dengan menekan tombol suka di bawah video. Dan juga jangan lupa untuk berlangganan
00:05:08ke saluran kami. Saya Andris dari Better Stack dan sampai jumpa di
00:05:13video-video berikutnya.

Key Takeaway

Mesin inferensi Cactus mengoptimalkan AI lokal pada perangkat edge dengan memetakan bobot model langsung dari penyimpanan melalui format .CACT dan menggunakan router hibrida untuk beralih ke cloud saat mendeteksi tugas rumit.

Highlights

  • Mesin inferensi Cactus mengatasi pemotongan paksa aplikasi oleh manajer memori sistem operasi seluler dengan menggunakan pemetaan memori zero-copy.

  • Format file khusus bernama .CACT menggantikan format GGUF tradisional untuk memungkinkan pemetaan bobot model secara langsung dari penyimpanan perangkat edge.

  • Router hibrida mengalihkan pemrosesan secara otomatis ke model cloud Gemini 2.5 Flash jika model lokal mendeteksi tugas yang terlalu rumit atau membutuhkan context window besar.

  • Pengujian transkripsi waktu nyata secara lokal menggunakan model Parakeet pada iPhone 12 Pro menghasilkan latensi rata-rata sebesar 260 milidetik.

  • Transkripsi batch berdurasi tiga detik di cloud memerlukan waktu rata-rata sekitar 2000 milidetik karena faktor perjalanan pulang pergi ke server data.

Timeline

Solusi Overhead Memori pada Perangkat Edge

  • Manajer memori sistem operasi seluler sering menghentikan paksa aplikasi AI lokal akibat lonjakan penggunaan RAM.
  • Pemetaan memori zero-copy menarik tensor tertentu ke dalam siklus komputasi aktif hanya saat dibutuhkan.
  • Format file .CACT menggantikan format GGUF tradisional untuk mengoptimalkan pemetaan langsung dari penyimpanan perangkat.

Menjalankan model AI pada perangkat seluler dan edge sering kali menguras baterai dan memicu penghentian paksa oleh sistem operasi. Cactus mengatasi hambatan overhead memori ini dengan tidak memuat seluruh model ke dalam RAM. Bobot model dipetakan langsung dari penyimpanan lokal menggunakan format khusus .CACT, sehingga kemampuan penalaran model besar tetap berjalan tanpa risiko penutupan aplikasi.

Optimalisasi NPU dan Mekanisme Router Hibrida

  • Cactus berkomunikasi langsung dengan silikon khusus jaringan saraf pada chip modern untuk melewati lapisan penerjemahan GPU.
  • Router hibrida menggunakan sistem berbasis tingkat keyakinan untuk membagi tugas antara model lokal dan model cloud.
  • Pengalihan permintaan ke frontier model di cloud berjalan otomatis di latar belakang tanpa mengubah kode pengguna.

Sebagian besar mesin lokal menggunakan GPU secara default, tetapi Cactus memprioritaskan unit pemrosesan saraf atau NPU pada chip seperti Apple, Qualcomm, atau MediaTek. Dasbor sistem menyediakan daftar model yang dioptimalkan khusus untuk unit perkalian matriks ini. Saat model lokal mencapai batas penalarannya, router hibrida memindahkan tugas rumit atau bermuatan konteks besar ke cloud, sehingga biaya tetap rendah tanpa mengorbankan pengalaman pengguna.

Pengujian Performa Transkripsi Lokal dan Cloud

  • Aplikasi Swift kustom menggunakan model bicarakan Parakeet untuk transkripsi lokal dan Gemini di cloud.
  • Proses transkripsi lokal pada perangkat iPhone 12 Pro menghasilkan latensi rata-rata sebesar 260 milidetik.
  • Transkripsi berbasis cloud menggunakan Gemini 2.5 Flash mencatat waktu rata-rata 2000 milidetik untuk audio berdurasi tiga detik.

Uji coba nyata dilakukan melalui aplikasi Swift kecil untuk membandingkan performa transkripsi waktu nyata. Model lokal Parakeet yang berjalan pada perangkat lama seperti iPhone 12 Pro mampu memberikan latensi rendah sebesar 260 milidetik dalam mode live streaming. Sebaliknya, alternatif cloud melalui Gemini 2.5 Flash membutuhkan waktu 2000 milidetik untuk transkripsi batch karena waktu tempuh data ke server, menjadikan opsi cloud lebih ideal untuk tugas berat seperti analisis gambar intensif.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video