Model Visi TERCEPAT untuk Laptop Anda (Liquid AI LFM 2.5)

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00Kebanyakan orang mengira bahwa menjalankan model visi bahasa yang canggih butuh GPU raksasa
00:00:05atau langganan berbayar ke layanan cloud.
00:00:08Namun, Liquid AI baru saja merilis demo model LFM terbaru mereka yang berjalan sepenuhnya
00:00:14di dalam peramban web.
00:00:16Menggunakan WebGPU dan ONNX Runtime, model ini bisa memproses gambar dan video secara lokal.
00:00:23Ini berarti data Anda tidak pernah keluar dari komputer dan Anda bahkan tidak butuh koneksi internet
00:00:28setelah modelnya tersimpan di perangkat Anda.
00:00:30Sejujurnya menurut saya ini sangat keren, jadi di video ini, kita akan melihat
00:00:34model ini, melihat performanya, melakukan sedikit tes, dan mencari tahu apakah ini benar-benar hebat
00:00:40seperti yang diiklankan.
00:00:41Ini bakal seru banget, jadi mari kita mulai.
00:00:48Jadi LFM adalah singkatan dari Liquid Foundation Model.
00:00:52Dan alih-alih hanya mengandalkan arsitektur transformer, Liquid AI menggunakan desain hibrida.
00:00:58Ini menggabungkan blok konvolusional dengan sesuatu yang disebut grouped query attention.
00:01:03Model dengan 1,6 miliar parameter ini dikhususkan untuk visi dan bahasa.
00:01:09Model ini dilatih pada dataset masif sebanyak 28 triliun token, yang membantunya bekerja melampaui
00:01:15kelasnya.
00:01:16Dalam benchmark, performanya sering menyamai model yang ukurannya dua kali lipat, namun tetap
00:01:21jauh lebih cepat pada perangkat edge seperti laptop dan ponsel.
00:01:26Sekarang Anda mungkin bertanya-tanya, bagaimana mereka bisa memadatkan tingkat kecerdasan ini ke dalam paket
00:01:31yang muat di bawah satu gigabyte RAM?
00:01:34Berbeda dengan model mungil lainnya yang menggunakan versi pangkasan atau kompresi dari model cloud raksasa,
00:01:40Liquid AI menggunakan filosofi yang disebut efisiensi berdasarkan desain.
00:01:44Kata "liquid" dalam nama mereka merujuk pada linear input varying architecture, atau LIV.
00:01:51Jika transformer tradisional memiliki memori yang makin besar seiring makin sering diajak bicara,
00:01:56model Liquid menggunakan sistem hibrida dari blok konvolusional adaptif.
00:02:01Blok-blok ini pada dasarnya bertindak seperti filter cerdas yang hanya memproses informasi lokal
00:02:07paling relevan, secara efektif mengompresi data saat mengalir melalui model.
00:02:11Ini memungkinkan LFM mempertahankan jendela konteks 32.000 token yang masif tanpa perlambatan eksponensial
00:02:18atau lonjakan memori yang biasa terlihat pada transformer tradisional.
00:02:23Dan ada detail teknis spesifik yang membuat model ini menonjol dari yang lain.
00:02:28Pertama-tama, model ini memiliki resolusi asli.
00:02:30Ia menangani gambar hingga 512 x 512 piksel tanpa distorsi atau peningkatan skala.
00:02:37Dan untuk gambar yang lebih besar, ia menggunakan strategi tiling, yang membagi gambar menjadi petak-petak
00:02:42sambil mempertahankan thumbnail untuk konteks global.
00:02:46Dan yang kedua, model ini sangat efisien.
00:02:47Karena arsitektur hibridanya, ia menawarkan jejak memori yang sangat rendah, sering kali berjalan
00:02:52di bawah satu gigabyte RAM.
00:02:54Tapi menurut saya yang paling mengesankan adalah integrasi web GPU-nya.
00:02:58Demo Hugging Face space menunjukkan bagaimana Anda bisa menggunakannya untuk captioning webcam waktu nyata.
00:03:04Jadi mari kita coba sendiri dan lihat seberapa baik kinerjanya.
00:03:08Baiklah, mari kita lihat bagaimana cara kerja benda ini sebenarnya.
00:03:11Saya rasa kita harus memilih model visi mana yang ingin dimuat.
00:03:15Mari coba yang paling kuat dengan FP 16.
00:03:18Dan mari kita muat.
00:03:20Nah, model ini butuh waktu yang cukup lama untuk diunduh.
00:03:23Dan ini semua diunduh ke perangkat Anda.
00:03:25Jadi lain kali Anda membuka aplikasinya, semuanya sudah tersimpan dalam cache.
00:03:28Baiklah.
00:03:29Sekarang kita sudah mengunduh model kuantisasi FP 16.
00:03:34Dan mari klik start untuk melihat cara kerjanya.
00:03:36Oh, lihat itu.
00:03:38Pria berjenggot dengan hoodie sedang melihat ke arah kamera.
00:03:40Oke, jadi ia mampu mendeteksi jenis objek apa yang ada di dalam video, yang mana
00:03:45sangat keren.
00:03:46Jadi kita bisa melakukan hal seperti deteksi objek.
00:03:50Mari kita lihat apakah ia bisa mendeteksi ponsel.
00:03:51Ya, ia mendeteksi kalau saya sedang memegang iPhone dengan casing hitam.
00:03:57Itu keren sekali.
00:03:58Lihat itu.
00:04:00Ia benar-benar melakukannya secara real-time.
00:04:02Saya terkesan.
00:04:04Bagaimana kalau saya melakukan ini?
00:04:05Apakah ia mengenali tanda damai (peace sign) di tangan saya?
00:04:10Itu keren sekali.
00:04:12Bagaimana kalau jempol?
00:04:13Ya, saya mendapatkan acungan jempol.
00:04:15Modelnya mendeteksi semua yang saya lakukan secara real-time.
00:04:18Mari lihat apakah ia bisa mendeteksi mikrofon saya.
00:04:21Oh, ia bahkan mendeteksi ada tulisan "rode" di atasnya.
00:04:24Wow, ia bahkan bisa membaca teks dari casing-nya, ini sangat, sangat keren.
00:04:29Fakta bahwa kita mendapatkan keterangan ini secara real-time menunjukkan bahwa model ini
00:04:33sangat canggih.
00:04:35Biar saya coba mematikan koneksi internet dan lihat apakah masih berfungsi.
00:04:40Sekarang saya sudah mematikan wifi dan ya, kita masih mendapatkan input yang sama, yang mana
00:04:50luar biasa.
00:04:51Jadi begitulah, teman-teman.
00:04:52Itulah rangkuman singkat mengenai Liquid Foundation Model terbaru.
00:04:56Menurut saya sangat mengesankan sejauh mana model AI ini telah berevolusi dalam hal kuantisasi
00:05:01dan kemampuan untuk menjalankannya di perangkat edge seperti laptop saya ini.
00:05:05Rasanya baru dua tahun lalu kita tidak percaya ini bisa menjadi kenyataan, tapi sekarang
00:05:10menjalankan model ini di web GPU menjadi hal yang semakin umum.
00:05:14Jadi apa pendapat Anda tentang Liquid Foundation Model?
00:05:16Sudahkah Anda mencobanya?
00:05:17Apakah Anda akan menggunakannya?
00:05:18Apa kasus penggunaan terbaik untuk model seperti ini?
00:05:21Beri tahu kami pendapat Anda di kolom komentar di bawah.
00:05:23Dan teman-teman, jika Anda menyukai ulasan teknis seperti ini, beri tahu saya dengan menekan
00:05:27tombol like di bawah video, dan jangan lupa juga untuk berlangganan saluran kami.
00:05:32Saya Andris dari Better Stack, sampai jumpa di video berikutnya.

Key Takeaway

Liquid AI LFM 2.5 merevolusi AI lokal dengan menghadirkan model visi bahasa yang sangat cepat, efisien, dan privat yang mampu berjalan langsung di peramban web tanpa memerlukan GPU raksasa atau koneksi cloud.

Highlights

Liquid AI meluncurkan LFM 2.5, model visi bahasa yang berjalan sepenuhnya di peramban web menggunakan WebGPU dan ONNX Runtime.

Model ini memproses data secara lokal di perangkat pengguna, sehingga menjamin privasi data tanpa memerlukan koneksi internet setelah pengunduhan selesai.

LFM menggunakan arsitektur Liquid Foundation Model yang menggabungkan blok konvolusional dengan grouped query attention untuk efisiensi tinggi.

Meskipun hanya memiliki 1,6 miliar parameter, performanya setara dengan model yang berukuran dua kali lipat berkat pelatihan pada 28 triliun token.

Arsitektur "Linear Input Varying" (LIV) memungkinkan jendela konteks 32.000 token tanpa lonjakan penggunaan memori RAM yang drastis.

Kemampuan pengenalan objek secara real-time sangat akurat, termasuk mendeteksi gerakan tangan, jenis perangkat, hingga membaca teks pada benda.

Model ini sangat ringan, mampu berjalan dengan penggunaan RAM di bawah satu gigabyte, menjadikannya ideal untuk perangkat edge seperti laptop.

Timeline

Pengenalan Liquid AI LFM 2.5 dan Kemampuan WebGPU

Bagian pembuka ini mematahkan anggapan umum bahwa menjalankan model AI visi canggih selalu memerlukan GPU raksasa atau layanan cloud berbayar. Pembicara memperkenalkan Liquid AI yang merilis model LFM terbaru yang dapat beroperasi sepenuhnya di dalam peramban web. Teknologi utama yang memungkinkan hal ini adalah penggunaan WebGPU dan ONNX Runtime untuk pemrosesan gambar serta video secara lokal. Keunggulan utamanya adalah keamanan data karena informasi tidak pernah keluar dari komputer pengguna dan tidak memerlukan internet setelah model tersimpan. Demonstrasi ini bertujuan untuk membuktikan apakah performa model ini sehebat yang diiklankan oleh pengembangnya.

Arsitektur Hibrida dan Efisiensi Desain LFM

LFM atau Liquid Foundation Model dijelaskan sebagai model yang tidak hanya mengandalkan arsitektur transformer tradisional, melainkan menggunakan desain hibrida yang unik. Desain ini menggabungkan blok konvolusional dengan grouped query attention untuk mengoptimalkan kinerja pada perangkat dengan sumber daya terbatas. Model dengan 1,6 miliar parameter ini telah dilatih pada dataset masif sebanyak 28 triliun token yang membuatnya sangat kompetitif. Hasil benchmark menunjukkan bahwa LFM mampu menyamai model yang berukuran dua kali lebih besar namun dengan kecepatan yang jauh lebih tinggi. Fokus utama dari bagian ini adalah bagaimana efisiensi desain memungkinkan kecerdasan tinggi dalam paket perangkat lunak yang sangat kecil.

Teknologi Linear Input Varying (LIV) dan Keunggulan Memori

Pembicara menjelaskan filosofi "efisiensi berdasarkan desain" yang diusung Liquid AI melalui arsitektur Linear Input Varying atau LIV. Berbeda dengan transformer biasa yang penggunaan memorinya membengkak seiring bertambahnya interaksi, model Liquid menggunakan blok konvolusional adaptif yang berfungsi sebagai filter cerdas. Sistem ini hanya memproses informasi lokal yang paling relevan dan secara efektif mengompresi data saat mengalir melalui model tersebut. Hal ini memungkinkan LFM mempertahankan jendela konteks hingga 32.000 token tanpa mengalami perlambatan eksponensial atau lonjakan memori RAM. Arsitektur ini menjadi kunci mengapa model ini tetap responsif bahkan ketika menangani input data yang besar dan kompleks secara berkelanjutan.

Detail Teknis: Resolusi Asli, Tiling, dan Integrasi Web

Bagian ini menyoroti detail teknis spesifik yang membuat model LFM menonjol dibandingkan model visi bahasa lainnya di pasar. Model ini mendukung resolusi asli hingga 512 x 512 piksel tanpa distorsi dan menggunakan strategi tiling untuk menangani gambar yang lebih besar dengan tetap mempertahankan konteks global. Efisiensi arsitekturnya terbukti dengan jejak memori yang sangat rendah, seringkali beroperasi hanya dengan menggunakan RAM di bawah satu gigabyte. Integrasi dengan WebGPU memungkinkan penggunaan langsung di platform seperti Hugging Face untuk aplikasi praktis seperti pemberian teks otomatis (captioning) pada webcam secara waktu nyata. Fleksibilitas ini menunjukkan potensi besar LFM untuk diintegrasikan ke dalam berbagai aplikasi berbasis web tanpa infrastruktur server yang mahal.

Pengujian Langsung: Deteksi Objek dan Teks Secara Real-Time

Dalam sesi demonstrasi langsung, pembicara mengunduh model dengan kuantisasi FP 16 dan mengujinya menggunakan kamera laptop. Model tersebut berhasil mengidentifikasi subjek secara akurat sebagai pria berjenggot yang mengenakan hoodie dan melakukan deteksi objek pada iPhone dengan sangat cepat. Selain objek besar, LFM juga mampu mengenali gerakan tangan seperti tanda damai (peace sign) dan acungan jempol secara instan. Salah satu fitur yang paling mengesankan adalah kemampuannya membaca teks kecil pada perangkat, seperti merek "Rode" pada mikrofon pembicara. Kecepatan pemrosesan yang sinkron dengan gerakan nyata menunjukkan tingkat kematangan teknologi visi yang dimiliki oleh Liquid AI saat ini.

Uji Coba Offline dan Kesimpulan Akhir

Untuk membuktikan klaim pemrosesan lokal, pembicara mematikan koneksi Wi-Fi dan menunjukkan bahwa model tetap berfungsi sempurna tanpa gangguan sedikitpun. Hal ini memvalidasi bahwa seluruh proses komputasi terjadi di perangkat edge (laptop) pengguna, bukan di server eksternal. Pembicara merenungkan betapa cepatnya evolusi AI dalam dua tahun terakhir, dari teknologi yang sulit dipercaya menjadi sesuatu yang umum di peramban web. Video diakhiri dengan ajakan kepada penonton untuk berbagi pendapat mengenai kasus penggunaan terbaik dari model efisien ini di masa depan. Penekanan diberikan pada pentingnya dukungan komunitas melalui langganan saluran untuk ulasan teknis lebih lanjut mengenai perkembangan AI terbaru.

Community Posts

View all posts