Mesin Baru Ini Menjalankan AI Lokal Menggunakan RAM 10x Lebih Sedikit! (Cactus)

Bahasa Indonesiaالعربية Deutsch English Español Français हिन्दी 日本語 한국어 Português Русский 中文

Computing/SoftwareConsumer ElectronicsCell Phones

Transcript

00:00:00Ini adalah Cactus. Ini adalah mesin inferensi latensi rendah yang dirancang untuk memperlakukan perangkat seluler dan edge

00:00:06sebagai prioritas utama. Biasanya, saat kita mencoba menjalankan model AI di perangkat edge, model tersebut

00:00:12terasa berat, menguras baterai, dan rentan dihentikan paksa oleh manajer memori

00:00:18sistem operasi seluler. Namun Cactus mencoba menyelesaikan masalah ini karena dibuat khusus

00:00:23untuk keterbatasan unit pemrosesan saraf (NPU) dan RAM yang terbatas. Jadi hari ini kita akan

00:00:28melihat Cactus, mencari tahu cara kerjanya, dan mengujinya di perangkat edge untuk melihat performanya.

00:00:34Jadi, mari kita langsung bahas. Hambatan terbesar untuk AI lokal sebenarnya bukanlah komputasi, melainkan

00:00:44overhead memori. Pada perangkat seluler standar, sistem operasi sangat agresif

00:00:50dalam menghentikan aplikasi yang penggunaan RAM-nya melonjak. Namun Cactus mengatasi ini dengan menggunakan pemetaan memori

00:00:57zero-copy. Alih-alih pendekatan biasa di mana Anda memuat semuanya ke RAM, Cactus memetakan

00:01:02bobot model langsung dari penyimpanan. Ini adalah sistem zero-copy yang hanya menarik tensor

00:01:08tertentu ke dalam siklus komputasi aktif saat dibutuhkan. Anda mendapatkan kemampuan penalaran dari

00:01:13model besar tanpa risiko sistem operasi menutup aplikasi Anda. Dan untuk mencapai

00:01:19hal ini, mereka bahkan beralih dari format GGUF tradisional dan memiliki

00:01:24format .CACT eksklusif milik mereka sendiri yang membuat pemetaan ini menjadi efektif di perangkat edge. Namun

00:01:31tugas berat yang sebenarnya terjadi di NPU atau neural processing unit. Di saat sebagian besar

00:01:37mesin lokal secara default menggunakan GPU, Cactus dibangun untuk memprioritaskan NPU. Jika Anda memperhatikan

00:01:43chip modern dari Apple, Qualcomm, atau MediaTek, semuanya memiliki silikon khusus hanya untuk jaringan saraf.

00:01:50Cactus berkomunikasi dengan unit-unit ini secara langsung, melewati lapisan penerjemahan biasa

00:01:55yang memperlambat inferensi Anda. Dan mereka sebenarnya telah mengoptimalkan model-model tertentu

00:02:00untuk memanfaatkan sepenuhnya unit perkalian matriks ini. Jika Anda membuka dasbor Cactus,

00:02:07Anda akan melihat daftar model yang dioptimalkan untuk NPU yang siap diunduh. Fitur keren lainnya

00:02:12yang dimiliki Cactus adalah router hibrida. Faktanya adalah pada perangkat edge, model lokal,

00:02:18seberapa pun dioptimalkannya, pada akhirnya akan mencapai batas kemampuan penalarannya. Dan di sinilah

00:02:23router hibrida berperan. Alih-alih memaksa Anda memilih antara model lokal yang cepat tetapi terbatas

00:02:29dan model cloud yang cerdas tetapi mahal, Cactus dapat menangani keduanya dan beralih di antaranya.

00:02:35Ini menggunakan sistem perutean berbasis tingkat keyakinan. Jika Anda mengajukan pertanyaan sederhana, prosesnya tetap di

00:02:40NPU karena cepat, privat, dan tidak memakan biaya. Namun jika model lokal mendeteksi bahwa

00:02:45tugasnya terlalu rumit atau memerlukan context window yang sangat besar, model ini secara otomatis mengalihkan

00:02:51permintaan khusus tersebut ke frontier model di cloud. Kode Anda tetap sama. Mesin

00:02:57tersebut yang mengelola pengalihan di latar belakang. Jadi ini adalah cara yang siap pakai untuk menekan biaya

00:03:03rendah tanpa mengorbankan pengalaman pengguna saat situasi menjadi rumit. Semua itu

00:03:08terdengar keren, tetapi saya ingin mencobanya sendiri. Jadi di halaman utama mereka, mereka memiliki

00:03:13demo ini di mana mereka menunjukkan bagaimana Anda bisa melakukan transkripsi waktu nyata dengan latensi sekitar 100 milidetik

00:03:19pada perangkat edge. Jadi saya langsung mencoba ngoding santai membuat aplikasi Swift kecil menggunakan

00:03:25paket Swift Cactus mereka yang mendukung pengoperasian transkripsi waktu nyata menggunakan model bicara Parakeet

00:03:30secara lokal dan model Gemini di cloud. Mari kita coba. Seperti yang bisa

00:03:36Anda lihat, secara lokal, rata-rata latensi kita sekitar 260 milidetik dengan live streaming. Perlu diingat,

00:03:44saya menjalankan ini di model iPhone lama, yaitu 12 Pro. Jadi untuk model lama seperti

00:03:50ini, saya rasa performa di edge ini terbilang cukup bagus. Dan jika kita beralih ke cloud, Cactus beralih

00:03:55ke Gemini 2.5 Flash sebagai alternatif cloud-nya. Dan entah mengapa, mereka tidak memiliki model

00:04:01Parakeet yang sama di sisi cloud mereka. Jadi saya terpaksa menggunakan Gemini. Dan kita bisa melihat di sini bahwa

00:04:06ini rata-rata memakan waktu sekitar 2000 milidetik untuk transkripsi batch berdurasi tiga detik. Dan

00:04:12saya rasa hal ini wajar karena prosesnya memerlukan perjalanan pulang pergi ke server data. Namun

00:04:17secara realistis, sebagian besar waktu Anda akhirnya akan menggunakan transkripsi di perangkat edge,

00:04:23tetapi opsi cloud berguna untuk tugas-tugas lain seperti analisis gambar yang intensif atau hal lain

00:04:27yang merupakan tugas lebih berat. Jadi begitulah, teman-teman, intinya tentang mesin Cactus.

00:04:33Saya rasa mereka melakukan sesuatu yang sangat menarik di sini. Saya suka bagaimana mereka

00:04:37memikirkan tentang pengoptimalan di perangkat edge menggunakan arsitektur kustom yang ramah NPU. Dan saya suka

00:04:43fakta bahwa mereka menawarkan begitu banyak SDK dan model untuk berbagai jenis tugas multimodal.

00:04:50Dan saya sangat penasaran untuk melihat bagaimana produk mereka berkembang. Jadi saya pasti akan mengawasi

00:04:54perkembangan mereka. Namun bagaimana pendapat kalian tentang Cactus? Apakah Anda sudah mencobanya? Beri tahu kami

00:04:59di kolom komentar di bawah. Dan teman-teman, jika kalian suka jenis pembahasan seperti ini, tolong

00:05:03beri tahu saya dengan menekan tombol suka di bawah video. Dan juga jangan lupa untuk berlangganan

00:05:08ke saluran kami. Saya Andris dari Better Stack dan sampai jumpa di

00:05:13video-video berikutnya.

Key Takeaway

Mesin inferensi Cactus mengoptimalkan AI lokal pada perangkat edge dengan memetakan bobot model langsung dari penyimpanan melalui format .CACT dan menggunakan router hibrida untuk beralih ke cloud saat mendeteksi tugas rumit.

Highlights

Mesin inferensi Cactus mengatasi pemotongan paksa aplikasi oleh manajer memori sistem operasi seluler dengan menggunakan pemetaan memori zero-copy.
Format file khusus bernama .CACT menggantikan format GGUF tradisional untuk memungkinkan pemetaan bobot model secara langsung dari penyimpanan perangkat edge.
Router hibrida mengalihkan pemrosesan secara otomatis ke model cloud Gemini 2.5 Flash jika model lokal mendeteksi tugas yang terlalu rumit atau membutuhkan context window besar.
Pengujian transkripsi waktu nyata secara lokal menggunakan model Parakeet pada iPhone 12 Pro menghasilkan latensi rata-rata sebesar 260 milidetik.
Transkripsi batch berdurasi tiga detik di cloud memerlukan waktu rata-rata sekitar 2000 milidetik karena faktor perjalanan pulang pergi ke server data.

Timeline

Solusi Overhead Memori pada Perangkat Edge

Manajer memori sistem operasi seluler sering menghentikan paksa aplikasi AI lokal akibat lonjakan penggunaan RAM.
Pemetaan memori zero-copy menarik tensor tertentu ke dalam siklus komputasi aktif hanya saat dibutuhkan.
Format file .CACT menggantikan format GGUF tradisional untuk mengoptimalkan pemetaan langsung dari penyimpanan perangkat.

Menjalankan model AI pada perangkat seluler dan edge sering kali menguras baterai dan memicu penghentian paksa oleh sistem operasi. Cactus mengatasi hambatan overhead memori ini dengan tidak memuat seluruh model ke dalam RAM. Bobot model dipetakan langsung dari penyimpanan lokal menggunakan format khusus .CACT, sehingga kemampuan penalaran model besar tetap berjalan tanpa risiko penutupan aplikasi.

Optimalisasi NPU dan Mekanisme Router Hibrida

Cactus berkomunikasi langsung dengan silikon khusus jaringan saraf pada chip modern untuk melewati lapisan penerjemahan GPU.
Router hibrida menggunakan sistem berbasis tingkat keyakinan untuk membagi tugas antara model lokal dan model cloud.
Pengalihan permintaan ke frontier model di cloud berjalan otomatis di latar belakang tanpa mengubah kode pengguna.

Sebagian besar mesin lokal menggunakan GPU secara default, tetapi Cactus memprioritaskan unit pemrosesan saraf atau NPU pada chip seperti Apple, Qualcomm, atau MediaTek. Dasbor sistem menyediakan daftar model yang dioptimalkan khusus untuk unit perkalian matriks ini. Saat model lokal mencapai batas penalarannya, router hibrida memindahkan tugas rumit atau bermuatan konteks besar ke cloud, sehingga biaya tetap rendah tanpa mengorbankan pengalaman pengguna.

Pengujian Performa Transkripsi Lokal dan Cloud

Aplikasi Swift kustom menggunakan model bicarakan Parakeet untuk transkripsi lokal dan Gemini di cloud.
Proses transkripsi lokal pada perangkat iPhone 12 Pro menghasilkan latensi rata-rata sebesar 260 milidetik.
Transkripsi berbasis cloud menggunakan Gemini 2.5 Flash mencatat waktu rata-rata 2000 milidetik untuk audio berdurasi tiga detik.

Uji coba nyata dilakukan melalui aplikasi Swift kecil untuk membandingkan performa transkripsi waktu nyata. Model lokal Parakeet yang berjalan pada perangkat lama seperti iPhone 12 Pro mampu memberikan latensi rendah sebesar 260 milidetik dalam mode live streaming. Sebaliknya, alternatif cloud melalui Gemini 2.5 Flash membutuhkan waktu 2000 milidetik untuk transkripsi batch karena waktu tempuh data ke server, menjadikan opsi cloud lebih ideal untuk tugas berat seperti analisis gambar intensif.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video