00:00:00Kebanyakan orang mengira bahwa menjalankan model visi bahasa yang canggih butuh GPU raksasa
00:00:05atau langganan berbayar ke layanan cloud.
00:00:08Namun, Liquid AI baru saja merilis demo model LFM terbaru mereka yang berjalan sepenuhnya
00:00:14di dalam peramban web.
00:00:16Menggunakan WebGPU dan ONNX Runtime, model ini bisa memproses gambar dan video secara lokal.
00:00:23Ini berarti data Anda tidak pernah keluar dari komputer dan Anda bahkan tidak butuh koneksi internet
00:00:28setelah modelnya tersimpan di perangkat Anda.
00:00:30Sejujurnya menurut saya ini sangat keren, jadi di video ini, kita akan melihat
00:00:34model ini, melihat performanya, melakukan sedikit tes, dan mencari tahu apakah ini benar-benar hebat
00:00:40seperti yang diiklankan.
00:00:41Ini bakal seru banget, jadi mari kita mulai.
00:00:48Jadi LFM adalah singkatan dari Liquid Foundation Model.
00:00:52Dan alih-alih hanya mengandalkan arsitektur transformer, Liquid AI menggunakan desain hibrida.
00:00:58Ini menggabungkan blok konvolusional dengan sesuatu yang disebut grouped query attention.
00:01:03Model dengan 1,6 miliar parameter ini dikhususkan untuk visi dan bahasa.
00:01:09Model ini dilatih pada dataset masif sebanyak 28 triliun token, yang membantunya bekerja melampaui
00:01:15kelasnya.
00:01:16Dalam benchmark, performanya sering menyamai model yang ukurannya dua kali lipat, namun tetap
00:01:21jauh lebih cepat pada perangkat edge seperti laptop dan ponsel.
00:01:26Sekarang Anda mungkin bertanya-tanya, bagaimana mereka bisa memadatkan tingkat kecerdasan ini ke dalam paket
00:01:31yang muat di bawah satu gigabyte RAM?
00:01:34Berbeda dengan model mungil lainnya yang menggunakan versi pangkasan atau kompresi dari model cloud raksasa,
00:01:40Liquid AI menggunakan filosofi yang disebut efisiensi berdasarkan desain.
00:01:44Kata "liquid" dalam nama mereka merujuk pada linear input varying architecture, atau LIV.
00:01:51Jika transformer tradisional memiliki memori yang makin besar seiring makin sering diajak bicara,
00:01:56model Liquid menggunakan sistem hibrida dari blok konvolusional adaptif.
00:02:01Blok-blok ini pada dasarnya bertindak seperti filter cerdas yang hanya memproses informasi lokal
00:02:07paling relevan, secara efektif mengompresi data saat mengalir melalui model.
00:02:11Ini memungkinkan LFM mempertahankan jendela konteks 32.000 token yang masif tanpa perlambatan eksponensial
00:02:18atau lonjakan memori yang biasa terlihat pada transformer tradisional.
00:02:23Dan ada detail teknis spesifik yang membuat model ini menonjol dari yang lain.
00:02:28Pertama-tama, model ini memiliki resolusi asli.
00:02:30Ia menangani gambar hingga 512 x 512 piksel tanpa distorsi atau peningkatan skala.
00:02:37Dan untuk gambar yang lebih besar, ia menggunakan strategi tiling, yang membagi gambar menjadi petak-petak
00:02:42sambil mempertahankan thumbnail untuk konteks global.
00:02:46Dan yang kedua, model ini sangat efisien.
00:02:47Karena arsitektur hibridanya, ia menawarkan jejak memori yang sangat rendah, sering kali berjalan
00:02:52di bawah satu gigabyte RAM.
00:02:54Tapi menurut saya yang paling mengesankan adalah integrasi web GPU-nya.
00:02:58Demo Hugging Face space menunjukkan bagaimana Anda bisa menggunakannya untuk captioning webcam waktu nyata.
00:03:04Jadi mari kita coba sendiri dan lihat seberapa baik kinerjanya.
00:03:08Baiklah, mari kita lihat bagaimana cara kerja benda ini sebenarnya.
00:03:11Saya rasa kita harus memilih model visi mana yang ingin dimuat.
00:03:15Mari coba yang paling kuat dengan FP 16.
00:03:18Dan mari kita muat.
00:03:20Nah, model ini butuh waktu yang cukup lama untuk diunduh.
00:03:23Dan ini semua diunduh ke perangkat Anda.
00:03:25Jadi lain kali Anda membuka aplikasinya, semuanya sudah tersimpan dalam cache.
00:03:28Baiklah.
00:03:29Sekarang kita sudah mengunduh model kuantisasi FP 16.
00:03:34Dan mari klik start untuk melihat cara kerjanya.
00:03:36Oh, lihat itu.
00:03:38Pria berjenggot dengan hoodie sedang melihat ke arah kamera.
00:03:40Oke, jadi ia mampu mendeteksi jenis objek apa yang ada di dalam video, yang mana
00:03:45sangat keren.
00:03:46Jadi kita bisa melakukan hal seperti deteksi objek.
00:03:50Mari kita lihat apakah ia bisa mendeteksi ponsel.
00:03:51Ya, ia mendeteksi kalau saya sedang memegang iPhone dengan casing hitam.
00:03:57Itu keren sekali.
00:03:58Lihat itu.
00:04:00Ia benar-benar melakukannya secara real-time.
00:04:02Saya terkesan.
00:04:04Bagaimana kalau saya melakukan ini?
00:04:05Apakah ia mengenali tanda damai (peace sign) di tangan saya?
00:04:10Itu keren sekali.
00:04:12Bagaimana kalau jempol?
00:04:13Ya, saya mendapatkan acungan jempol.
00:04:15Modelnya mendeteksi semua yang saya lakukan secara real-time.
00:04:18Mari lihat apakah ia bisa mendeteksi mikrofon saya.
00:04:21Oh, ia bahkan mendeteksi ada tulisan "rode" di atasnya.
00:04:24Wow, ia bahkan bisa membaca teks dari casing-nya, ini sangat, sangat keren.
00:04:29Fakta bahwa kita mendapatkan keterangan ini secara real-time menunjukkan bahwa model ini
00:04:33sangat canggih.
00:04:35Biar saya coba mematikan koneksi internet dan lihat apakah masih berfungsi.
00:04:40Sekarang saya sudah mematikan wifi dan ya, kita masih mendapatkan input yang sama, yang mana
00:04:50luar biasa.
00:04:51Jadi begitulah, teman-teman.
00:04:52Itulah rangkuman singkat mengenai Liquid Foundation Model terbaru.
00:04:56Menurut saya sangat mengesankan sejauh mana model AI ini telah berevolusi dalam hal kuantisasi
00:05:01dan kemampuan untuk menjalankannya di perangkat edge seperti laptop saya ini.
00:05:05Rasanya baru dua tahun lalu kita tidak percaya ini bisa menjadi kenyataan, tapi sekarang
00:05:10menjalankan model ini di web GPU menjadi hal yang semakin umum.
00:05:14Jadi apa pendapat Anda tentang Liquid Foundation Model?
00:05:16Sudahkah Anda mencobanya?
00:05:17Apakah Anda akan menggunakannya?
00:05:18Apa kasus penggunaan terbaik untuk model seperti ini?
00:05:21Beri tahu kami pendapat Anda di kolom komentar di bawah.
00:05:23Dan teman-teman, jika Anda menyukai ulasan teknis seperti ini, beri tahu saya dengan menekan
00:05:27tombol like di bawah video, dan jangan lupa juga untuk berlangganan saluran kami.
00:05:32Saya Andris dari Better Stack, sampai jumpa di video berikutnya.