Mesin Baru Ini Menjalankan AI Lokal Menggunakan RAM 10x Lebih Sedikit! (Cactus)
BBetter Stack
컴퓨터/소프트웨어가전제품/카메라스마트폰/모바일
Transcript
00:00:00Ini adalah Cactus. Ini adalah mesin inferensi latensi rendah yang dirancang untuk memperlakukan perangkat seluler dan edge
00:00:06sebagai prioritas utama. Biasanya, saat kita mencoba menjalankan model AI di perangkat edge, model tersebut
00:00:12terasa berat, menguras baterai, dan rentan dihentikan paksa oleh manajer memori
00:00:18sistem operasi seluler. Namun Cactus mencoba menyelesaikan masalah ini karena dibuat khusus
00:00:23untuk keterbatasan unit pemrosesan saraf (NPU) dan RAM yang terbatas. Jadi hari ini kita akan
00:00:28melihat Cactus, mencari tahu cara kerjanya, dan mengujinya di perangkat edge untuk melihat performanya.
00:00:34Jadi, mari kita langsung bahas. Hambatan terbesar untuk AI lokal sebenarnya bukanlah komputasi, melainkan
00:00:44overhead memori. Pada perangkat seluler standar, sistem operasi sangat agresif
00:00:50dalam menghentikan aplikasi yang penggunaan RAM-nya melonjak. Namun Cactus mengatasi ini dengan menggunakan pemetaan memori
00:00:57zero-copy. Alih-alih pendekatan biasa di mana Anda memuat semuanya ke RAM, Cactus memetakan
00:01:02bobot model langsung dari penyimpanan. Ini adalah sistem zero-copy yang hanya menarik tensor
00:01:08tertentu ke dalam siklus komputasi aktif saat dibutuhkan. Anda mendapatkan kemampuan penalaran dari
00:01:13model besar tanpa risiko sistem operasi menutup aplikasi Anda. Dan untuk mencapai
00:01:19hal ini, mereka bahkan beralih dari format GGUF tradisional dan memiliki
00:01:24format .CACT eksklusif milik mereka sendiri yang membuat pemetaan ini menjadi efektif di perangkat edge. Namun
00:01:31tugas berat yang sebenarnya terjadi di NPU atau neural processing unit. Di saat sebagian besar
00:01:37mesin lokal secara default menggunakan GPU, Cactus dibangun untuk memprioritaskan NPU. Jika Anda memperhatikan
00:01:43chip modern dari Apple, Qualcomm, atau MediaTek, semuanya memiliki silikon khusus hanya untuk jaringan saraf.
00:01:50Cactus berkomunikasi dengan unit-unit ini secara langsung, melewati lapisan penerjemahan biasa
00:01:55yang memperlambat inferensi Anda. Dan mereka sebenarnya telah mengoptimalkan model-model tertentu
00:02:00untuk memanfaatkan sepenuhnya unit perkalian matriks ini. Jika Anda membuka dasbor Cactus,
00:02:07Anda akan melihat daftar model yang dioptimalkan untuk NPU yang siap diunduh. Fitur keren lainnya
00:02:12yang dimiliki Cactus adalah router hibrida. Faktanya adalah pada perangkat edge, model lokal,
00:02:18seberapa pun dioptimalkannya, pada akhirnya akan mencapai batas kemampuan penalarannya. Dan di sinilah
00:02:23router hibrida berperan. Alih-alih memaksa Anda memilih antara model lokal yang cepat tetapi terbatas
00:02:29dan model cloud yang cerdas tetapi mahal, Cactus dapat menangani keduanya dan beralih di antaranya.
00:02:35Ini menggunakan sistem perutean berbasis tingkat keyakinan. Jika Anda mengajukan pertanyaan sederhana, prosesnya tetap di
00:02:40NPU karena cepat, privat, dan tidak memakan biaya. Namun jika model lokal mendeteksi bahwa
00:02:45tugasnya terlalu rumit atau memerlukan context window yang sangat besar, model ini secara otomatis mengalihkan
00:02:51permintaan khusus tersebut ke frontier model di cloud. Kode Anda tetap sama. Mesin
00:02:57tersebut yang mengelola pengalihan di latar belakang. Jadi ini adalah cara yang siap pakai untuk menekan biaya
00:03:03rendah tanpa mengorbankan pengalaman pengguna saat situasi menjadi rumit. Semua itu
00:03:08terdengar keren, tetapi saya ingin mencobanya sendiri. Jadi di halaman utama mereka, mereka memiliki
00:03:13demo ini di mana mereka menunjukkan bagaimana Anda bisa melakukan transkripsi waktu nyata dengan latensi sekitar 100 milidetik
00:03:19pada perangkat edge. Jadi saya langsung mencoba ngoding santai membuat aplikasi Swift kecil menggunakan
00:03:25paket Swift Cactus mereka yang mendukung pengoperasian transkripsi waktu nyata menggunakan model bicara Parakeet
00:03:30secara lokal dan model Gemini di cloud. Mari kita coba. Seperti yang bisa
00:03:36Anda lihat, secara lokal, rata-rata latensi kita sekitar 260 milidetik dengan live streaming. Perlu diingat,
00:03:44saya menjalankan ini di model iPhone lama, yaitu 12 Pro. Jadi untuk model lama seperti
00:03:50ini, saya rasa performa di edge ini terbilang cukup bagus. Dan jika kita beralih ke cloud, Cactus beralih
00:03:55ke Gemini 2.5 Flash sebagai alternatif cloud-nya. Dan entah mengapa, mereka tidak memiliki model
00:04:01Parakeet yang sama di sisi cloud mereka. Jadi saya terpaksa menggunakan Gemini. Dan kita bisa melihat di sini bahwa
00:04:06ini rata-rata memakan waktu sekitar 2000 milidetik untuk transkripsi batch berdurasi tiga detik. Dan
00:04:12saya rasa hal ini wajar karena prosesnya memerlukan perjalanan pulang pergi ke server data. Namun
00:04:17secara realistis, sebagian besar waktu Anda akhirnya akan menggunakan transkripsi di perangkat edge,
00:04:23tetapi opsi cloud berguna untuk tugas-tugas lain seperti analisis gambar yang intensif atau hal lain
00:04:27yang merupakan tugas lebih berat. Jadi begitulah, teman-teman, intinya tentang mesin Cactus.
00:04:33Saya rasa mereka melakukan sesuatu yang sangat menarik di sini. Saya suka bagaimana mereka
00:04:37memikirkan tentang pengoptimalan di perangkat edge menggunakan arsitektur kustom yang ramah NPU. Dan saya suka
00:04:43fakta bahwa mereka menawarkan begitu banyak SDK dan model untuk berbagai jenis tugas multimodal.
00:04:50Dan saya sangat penasaran untuk melihat bagaimana produk mereka berkembang. Jadi saya pasti akan mengawasi
00:04:54perkembangan mereka. Namun bagaimana pendapat kalian tentang Cactus? Apakah Anda sudah mencobanya? Beri tahu kami
00:04:59di kolom komentar di bawah. Dan teman-teman, jika kalian suka jenis pembahasan seperti ini, tolong
00:05:03beri tahu saya dengan menekan tombol suka di bawah video. Dan juga jangan lupa untuk berlangganan
00:05:08ke saluran kami. Saya Andris dari Better Stack dan sampai jumpa di
00:05:13video-video berikutnya.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video