Model Kecil Qwen 3.5 Ternyata LUAR BIASA! (Uji Coba 0.8B & 2B di Perangkat Edge)

BBetter Stack
Computing/SoftwareBusiness NewsConsumer ElectronicsCell Phones

Transcript

00:00:00Internet sedang heboh saat ini, dan kali ini gara-gara Qwen 3.5,
00:00:05khususnya seri model kecil mereka. Alibaba baru saja merilis versi multimodal
00:00:10asli dari Qwen 3.5 yang ukurannya sekecil 2 miliar bahkan 0,8 miliar parameter.
00:00:17Kemampuannya mengungguli beberapa model yang berukuran 4 kali lipatnya dalam hal penalaran dan visi.
00:00:22Ukurannya sangat mungil sehingga kita bisa menjalankannya secara lokal di laptop dan ponsel berusia 6 tahun
00:00:28tanpa koneksi internet. Di video ini, kita akan melihat lebih dalam pada seri model kecil
00:00:34baru Qwen 3.5 seperti versi 0,8 miliar dan 2 miliar. Kita juga akan mengujinya di
00:00:40MacBook Pro M2 serta di iPhone 14 Pro untuk mencari tahu seberapa kuat mereka sebenarnya.
00:00:48Ini akan sangat menyenangkan, jadi mari kita mulai.
00:00:55Jadi kenapa semua orang terobsesi dengan model Qwen 3.5 baru ini? Padahal, kita sudah punya model kecil
00:01:01sejak lama. Saya bahkan pernah membahas model Granite 4.0 nano dari IBM di video sebelumnya dan
00:01:08ukuran model mereka hanya 300 juta parameter. Jadi apa yang membuat model Qwen kecil ini begitu berbeda?
00:01:14Nah, ini semua tentang sesuatu yang disebut kepadatan kecerdasan. Jadi, selama ini aturannya adalah jika
00:01:20Anda ingin model yang bisa melihat, menalar, dan memprogram, ukurannya harus besar. Tapi model kecil Qwen 3.5
00:01:27ini membuktikan bahwa hal itu tidak selalu benar. Mereka entah bagaimana berhasil memadatkan model besarnya
00:01:33ke dalam versi yang lebih kecil namun tetap mendukung arsitektur multimodal yang terpadu. Itu berarti
00:01:39model 0,8 miliarnya tidak hanya menjawab teks, tapi juga memiliki kemampuan visi dan pemrograman di dalamnya.
00:01:46Mari kita lihat tolok ukurnya sebentar, karena hasilnya cukup menarik. Pada tolok ukur MMLU,
00:01:51yang mengukur pengetahuan umum dan penalaran, model 2 miliar mencapai skor 66,5,
00:01:57sementara model 0,8 miliar mencapai 42,3. Yang mungkin terdengar tidak terlalu mengesankan, tapi perlu diingat
00:02:04bahwa sebagai konteks, Llama 2 orisinal dengan 7 miliar parameter, yang rilis tahun 2023,
00:02:11mendapat skor 45,3 pada tolok ukur yang sama. Ini menunjukkan seberapa besar kita berhasil memperkecil
00:02:17jumlah parameter namun tetap mempertahankan skor pemahaman yang layak. Tapi lihat ini,
00:02:23keunggulan utamanya adalah performa multimodal mereka. Dalam tes visi khusus seperti OCRBench,
00:02:29model 2 miliar mendapat skor 85,4 dan model 0,8 miliar mencapai 79,1. Menunjukkan bahwa
00:02:37mereka sangat mampu melakukan tugas seperti membaca dokumen kompleks dan menganalisis gambar berisi teks.
00:02:43Oh, dan keduanya mendukung jendela konteks masif 262K, jadi Anda bisa memasukkan seluruh file PDF atau
00:02:51menggunakannya untuk menganalisis basis kode besar. Itu cukup mengesankan. Tapi sekarang, mari kita lihat
00:02:56bagaimana performa aslinya. Karena model 0,8 miliar dan 2 miliar bisa berjalan lokal di hampir semua
00:03:02laptop modern, saya akan melakukan tes ini dalam mode pesawat penuh tanpa koneksi internet
00:03:08sama sekali di laptop lokal saya. Untuk tes pertama, kita akan menjalankan server lokal di LM Studio
00:03:14dan menghubungkannya ke CLINE di VS Code untuk melihat apakah model mungil ini bisa menangani tugas pemrograman
00:03:21dunia nyata. Jadi pertama, Anda harus ke tab model dan mengunduh versi GGUF dari model
00:03:280,8 miliar dan 2 miliar parameter. Dan karena kita akan menggunakan model ini untuk tugas pemrograman, kita juga
00:03:33perlu meningkatkan panjang konteks yang tersedia cukup banyak. Setelah itu, kita bisa lanjut
00:03:38dan menyalakan servernya. Sekarang mari kita masuk ke CLINE. Dan pertama-tama, seperti yang saya sebutkan, saya akan
00:03:43mematikan Wi-Fi agar kita bisa melakukan tes ini sepenuhnya secara luring. Lalu di CLINE pada bagian konfigurasi API,
00:03:50saya akan pastikan untuk mengarahkan ke URL server LM Studio kustom kita. Mari kita juga pastikan
00:03:56bahwa kita memilih model 0,8 miliar. Dan untuk perintahnya, saya akan meminta model untuk membuat
00:04:01situs web perusahaan sederhana untuk sebuah kafe kecil. Saya juga menyadari bahwa jika kita tidak menentukan kerangka kerja
00:04:07tertentu dan membiarkan Qwen memilih sendiri, ia akan memilih untuk memasang React, yang tidak akan berfungsi untuk demo
00:04:14dalam mode luring ini. Jadi saya sedikit mengubah perintahnya untuk secara khusus meminta penggunaan HTML, CSS, dan JavaScript
00:04:20tanpa pustaka eksternal apa pun. Mari kita jalankan tesnya. Model membutuhkan waktu sekitar satu menit untuk
00:04:25menyelesaikan tugas ini. Dan inilah hasil akhirnya. Seperti yang Anda lihat, situsnya sangat hambar, desainnya
00:04:32tidak terlalu estetis, dan teksnya sangat gelap. Saya juga menyadari bahwa dalam CSS-nya,
00:04:37model mencoba memasukkan gambar tertentu secara manual dari Unsplash yang sesuai dengan tema kita. Itu sebuah
00:04:43pengamatan yang menarik. Dan jika kita menyalakan kembali Wi-Fi sejenak, kita bisa melihat bahwa salah satu
00:04:48gambar tersebut benar-benar muncul. Ternyata itu gambar seorang dokter yang sedang memegang ponsel. Cukup
00:04:54aneh ya. Tapi gambar lainnya berisi URL yang tidak valid. Saya juga mencoba memberi perintah lagi pada model untuk memperbaiki
00:05:00teks yang rusak dan meningkatkan area lainnya, tapi ia tidak bisa melakukannya dengan andal. Jadi secara keseluruhan, saya akan
00:05:06mengatakan bahwa meskipun model ini mampu melakukan pemrograman dan pemanggilan alat, saya rasa bukan
00:05:12ide yang baik untuk menggunakannya di skenario dunia nyata, karena jumlah parameternya terlalu rendah. Tapi
00:05:17sekarang mari kita uji model 2 miliar parameter dengan perintah yang sama dan lihat seberapa baik hasilnya. Dan
00:05:23model ini sebenarnya membuat saya pusing karena sering kali terjebak dalam pengulangan,
00:05:28menulis bagian yang sama berulang-ulang. Jadi saya harus menghentikan tugasnya dan memulainya lagi. Saya tidak yakin
00:05:34apakah ini masalah pada modelnya sendiri atau cara LM Studio mengelola servernya atau cara Cline
00:05:40memproses perintahnya. Tapi dengan konfigurasi khusus ini, hal tersebut menjadi kendala
00:05:45terus-menerus bagi saya. Hal lain yang saya perhatikan adalah jika model 0,8 miliar parameter langsung masuk ke
00:05:51tahap pemrograman, versi 2 miliar parameter lebih suka menyusun rencana terlebih dahulu sebelum lanjut ke
00:05:57pemrograman yang sebenarnya. Jadi model 2 miliar parameter menyelesaikan tugas ini dalam waktu sekitar tiga menit,
00:06:02jadi jauh lebih lama. Mari kita lihat apa hasil akhirnya. Seperti yang kita lihat, ini sudah
00:06:08merupakan peningkatan karena desainnya terlihat jauh lebih bersih dan menggunakan tema kecokelatan, yang lebih mendekati
00:06:14identitas visual sebuah kedai kopi. Hal lain yang saya perhatikan adalah jika kita menyalakan Wi-Fi,
00:06:20ia benar-benar memuat beberapa ikon eksternal, yang membuat keseluruhan situs terlihat lebih bagus.
00:06:24Dan versi ini sebenarnya mencoba menerapkan fungsi keranjang yang awalnya saya minta
00:06:29karena sekarang kita mendapatkan bilah samping keranjang yang bagus, meskipun saya tidak melihat tombol tambahkan ke keranjang
00:06:35pada kartu itemnya. Dan ketika saya mencoba memberi perintah untuk memperbaiki masalah ini, sekali lagi, saya mengalami masalah
00:06:41teknis yang sama di mana model masuk ke pengulangan tak terbatas. Jadi saya pikir ini mungkin hanya masalah pada
00:06:46LM Studio yang digabungkan dengan Cline atau semacamnya. Tapi jujur saja, tentu saja,
00:06:51tidak ada yang akan serius mempertimbangkan penggunaan model sekecil itu untuk pemrograman yang kompleks dan serius.
00:06:56Saya melakukan tes ini hanya karena penasaran untuk melihat apakah jumlah parameter sekecil itu masih bisa
00:07:02menghasilkan hasil yang berarti untuk tugas pemrograman tertentu. Sekarang mari kita lakukan sesuatu yang lebih seru.
00:07:07Mari mencoba menjalankan model ini di iPhone 14 Pro. Dan untuk melakukannya, saya membuat aplikasi iOS asli menggunakan
00:07:14Swift dan kerangka kerja MLX Swift. MLX adalah pustaka sumber terbuka Apple yang memungkinkan Anda menjalankan
00:07:22model langsung pada arsitektur memori terpadu silikon Apple. Dengan memanfaatkan GPU Metal, kita bisa
00:07:29menjalankan model Qwen ini dengan akselerasi perangkat keras langsung di perangkat. Saya juga akan
00:07:34mencantumkan tautan di deskripsi ke repo untuk proyek Swift ini agar Anda bisa mengunduh dan menyusunnya
00:07:40di perangkat Anda sendiri. Jadi begitu kita membuka aplikasinya, ia akan segera mulai mengunduh model 0,8
00:07:46miliar. Dan setelah selesai, kita sekarang siap menggunakannya. Tapi sebelum memberikan perintah apa pun,
00:07:52izinkan saya menyalakan mode pesawat di iPhone saya. Sekarang mari kita mulai dengan sapaan halo sederhana. Entah kenapa,
00:07:58ia menjawab bahwa namanya adalah Alex. Oke, itu sangat acak, tapi ya sudahlah. Tapi apakah Anda memperhatikan
00:08:04seberapa cepat responsnya dialirkan? Saya benar-benar takjub dengan kecepatan model ini dalam
00:08:10menjawab Anda secara waktu nyata. Sekarang mari coba tes tempat cuci mobil yang terkenal, yang biasanya dijawab salah oleh sebagian besar model.
00:08:17Dan lihat itu, Qwen 3.5 ternyata menjawab dengan benar. Itu sudah sangat mengesankan.
00:08:23Sekarang hal paling keren tentang model ini adalah mereka juga memiliki kemampuan visi. Jadi sekarang saya akan
00:08:29menunjukkan gambar pisang kepadanya. Mari kita lihat apakah ia mengerti benda apa itu dan dalam kondisi apa
00:08:35benda itu berada. Ia berhasil mengidentifikasi dengan benar bahwa itu memang pisang, meskipun ia menyebutnya
00:08:40pisang anjing. Jujur saya belum pernah mendengar istilah itu. Pisang anjing? Apa maksudnya?
00:08:47Apa yang dibicarakan Qwen di sini? Baiklah, tapi bagaimanapun, ia menganggap pisang itu terlalu matang. Dan ia memperingatkan saya bahwa mungkin
00:08:52tidak aman untuk dimakan, yang sebenarnya tidak benar. Saya makan pisang itu tadi pagi, dan rasanya enak. Tapi ya sudah,
00:08:58sekali lagi, saya terpukau dengan kecepatannya dalam memproses perintah dan memberikan kembali
00:09:04responsnya. Sekarang mari kita coba gambar lain. Mari kita lihat apakah ia bisa mengidentifikasi jenis anjing dalam
00:09:09gambar ini. Di sini kita bisa melihat bahwa jawabannya tidak terlalu akurat karena ia mengira melihat dua
00:09:15anjing, padahal tidak benar. Dan ia tidak menyebutkan jenisnya. Jadi mari kita tanya secara spesifik jenis anjing
00:09:20apa itu. Ia mengira itu seekor Golden Retriever, yang jelas sangat jauh dari kenyataan. Jadi
00:09:27walaupun beberapa responsnya tidak sepenuhnya akurat, dan beberapa di antaranya sangat lucu,
00:09:34saya tetap sangat terkesan dengan fakta bahwa model sekecil itu bisa menalar tentang konten sebuah
00:09:39gambar dan melakukannya dengan sangat cepat. Dan hal terakhir yang ingin saya uji adalah kemampuan OCR model ini,
00:09:45seperti yang digembar-gemborkan dalam tolok ukurnya. Secara khusus, saya ingin melihat apakah model ini bisa mengidentifikasi bahasa
00:09:50apa yang ada dalam konten teks di gambar ini. Sebagai konteks, bahasa
00:09:55yang ditampilkan di gambar ini adalah bahasa Latvia, yang merupakan bahasa ibu saya, karena saya
00:10:00berasal dari Latvia. Dan sayangnya, Qwen gagal dalam tes ini karena ini bukan bahasa Slovenia,
00:10:05dan bahasa kami bahkan tidak mirip dengan bahasa Slovenia. Dan saya juga merasa lucu betapa percaya dirinya ia
00:10:11menerjemahkan sebuah kata menjadi kata yang sama, yang saya bahkan tidak yakin apakah itu kata sungguhan. Jadi jelas ada
00:10:19halusinasi berat yang terjadi dalam respons perintah ini. Baiklah, sekarang mari kita pindah ke model 2 miliar
00:10:25parameter. Saat Anda mengganti di menu dropdown, ia akan mengunduhnya terlebih dahulu. Dan setelah itu
00:10:30selesai, kita bisa menjalankan tes yang sama di versi ini untuk melihat apakah ada peningkatan yang berarti. Jadi
00:10:36mari kita mulai dengan sapaan halo lagi. Oke, dan setidaknya kali ini, bukan Alex yang merespons. Jadi
00:10:42itu sudah merupakan sebuah peningkatan. Sekarang mari kita lakukan tes cuci mobil lagi. Dan sekali lagi, model ini lulus
00:10:47tes cuci mobil. Kerja bagus di sana. Sekarang mari lanjut dengan gambar pisang. Dan kali ini,
00:10:53kita mendapatkan jawaban yang lebih berarti. Ia mendeteksi bahwa itu memang sebuah pisang. Dan untuk
00:11:00kondisinya, ia mengatakan bahwa pisang itu sudah matang dan siap dimakan, dan itu benar. Sekarang mari coba gambar anjingnya
00:11:06lagi. Dan kali ini ia bilang itu seekor Pomeranian. Maksud saya, menurut saya jenis-jenis ini bahkan tidak
00:11:11mirip sama sekali. Jadi sayangnya, model 2 miliar pun buruk dalam mengidentifikasi jenis anjing.
00:11:18Dan terakhir, mari kita coba lagi gambar dengan teks dan lihat apakah ia bisa mengidentifikasi bahasanya.
00:11:22Dan lihat itu, model 2 miliar parameter berhasil mengidentifikasi dengan benar bahwa teks ini memang
00:11:29bahasa Latvia. Itu sangat keren. Jadi itulah dia, seri model kecil Qwen 3.5. Saya
00:11:36jujur berpikir bahwa terlepas dari sedikit ketidakkonsistenan, ini memang model mungil paling kuat
00:11:42yang pernah saya gunakan. Fakta bahwa kita sekarang bisa memiliki LLM multimodal asli sumber terbuka yang berjalan di
00:11:49iPhone 14 Pro secara luring dan menghasilkan hasil yang berarti dengan kecepatan inferensi yang relatif cepat
00:11:55sungguh sangat mengesankan. Jadi Qwen benar-benar melampaui diri mereka sendiri kali ini. Kerja bagus. Tapi ada
00:12:01sedikit pembaruan yang agak menyedihkan. Saat saya sedang menyelesaikan video ini, muncul laporan bahwa Alibaba sedang
00:12:07melakukan restrukturisasi besar-besaran pada tim Qwen. Tokoh kepemimpinan utama dan teknisi top di balik
00:12:13model-model ini dikabarkan telah hengkang, beberapa untuk membangun perusahaan rintisan AI mereka sendiri. Ini membuat
00:12:18komunitas bertanya-tanya apakah era terobosan pesat Qwen mungkin akan melambat. Hal ini membuat
00:12:24model saat ini menjadi semakin signifikan karena mungkin ini adalah rilis besar terakhir dari tim khusus ini untuk sementara waktu.
00:12:30Tapi apa pendapat Anda tentang seri model kecil ini? Sudahkah Anda mencobanya? Apakah Anda akan menggunakannya?
00:12:35Beri tahu kami di kolom komentar di bawah. Dan teman-teman, jika Anda menyukai jenis
00:12:39ulasan teknis seperti ini, beri tahu saya dengan menekan tombol suka di bawah video ini.
00:12:45Dan jangan lupa juga untuk berlangganan saluran kami. Saya Andres dari Better Stack dan sampai
00:12:50jumpa di video-video berikutnya.

Key Takeaway

Seri model kecil Qwen 3.5 membuktikan bahwa model AI multimodal berperforma tinggi kini dapat dijalankan secara luring di perangkat seluler dengan kecepatan luar biasa, meskipun masih menghadapi tantangan dalam akurasi teknis.

Highlights

Alibaba meluncurkan model Qwen 3.5 dalam ukuran sangat kecil (0,8B dan 2B parameter) dengan arsitektur multimodal terpadu.

Model ini memiliki "kepadatan kecerdasan" tinggi yang mampu mengungguli model dengan parameter 4 kali lebih besar dalam tugas penalaran dan visi.

Dukungan jendela konteks hingga 262K memungkinkan analisis file PDF besar atau basis kode yang kompleks secara lokal.

Pengujian pada MacBook Pro M2 dan iPhone 14 Pro menunjukkan kemampuan eksekusi luring (mode pesawat) yang sangat cepat.

Meskipun performa pemrogramannya masih terbatas dan sering mengalami halusinasi, model 2B menunjukkan peningkatan signifikan dalam identifikasi bahasa dan objek.

Ada ketidakpastian masa depan Qwen setelah laporan restrukturisasi besar-besaran dan kepergian talenta kunci dari tim Alibaba.

Timeline

Pendahuluan dan Spesifikasi Qwen 3.5 Kecil

Video dibuka dengan pengenalan model terbaru Alibaba, Qwen 3.5, yang tersedia dalam ukuran 0,8 miliar dan 2 miliar parameter. Pembicara menekankan konsep "kepadatan kecerdasan" di mana model mungil ini mampu melakukan tugas visi, penalaran, dan pemrograman yang biasanya membutuhkan model besar. Skor tolok ukur menunjukkan bahwa model 2B mampu mengalahkan Llama 2 7B yang legendaris dalam tes MMLU. Selain itu, kemampuan OCR pada model ini sangat menonjol dengan skor tinggi pada OCRBench. Fitur paling mengesankan adalah jendela konteks 262K yang memungkinkan pemrosesan dokumen panjang secara luring.

Uji Coba Pemrograman Lokal dan Mode Pesawat

Pembicara melakukan demonstrasi langsung menggunakan LM Studio dan VS Code pada MacBook Pro dalam kondisi Wi-Fi dimatikan sepenuhnya. Model 0,8B diuji untuk membuat situs web kafe sederhana menggunakan HTML, CSS, dan JavaScript murni. Hasilnya menunjukkan bahwa model mampu menghasilkan kode dasar, namun desainnya sangat hambar dan terdapat kesalahan dalam pemanggilan aset gambar. Meskipun model ini mendukung pemanggilan alat (tool calling), pembicara menyimpulkan bahwa model 0,8B belum cukup andal untuk tugas pemrograman dunia nyata. Eksperimen ini mengonfirmasi bahwa batasan jumlah parameter sangat memengaruhi estetika dan fungsionalitas hasil akhir.

Perbandingan Performa Model 2B dalam Pemrograman

Bagian ini membandingkan kemampuan model 2B dengan perintah pemrograman yang sama dengan sebelumnya. Berbeda dengan model 0,8B, versi 2B cenderung menyusun rencana kerja terlebih dahulu sebelum menulis kode, yang menghasilkan desain lebih bersih dan fungsional. Namun, pembicara menemukan masalah teknis di mana model sering terjebak dalam pengulangan teks (looping) yang tak terbatas. Hal ini diduga karena interaksi antara model, server LM Studio, dan ekstensi Cline yang digunakan. Meskipun hasilnya lebih baik dengan adanya integrasi ikon eksternal, model ini tetap dianggap hanya sebagai eksperimen menarik daripada alat produksi serius.

Implementasi dan Uji Visi pada iPhone 14 Pro

Eksperimen berlanjut ke perangkat seluler dengan menggunakan aplikasi iOS asli yang dibangun dengan kerangka kerja MLX Swift dari Apple. Pembicara menunjukkan betapa cepatnya model 0,8B memberikan respons secara waktu nyata di iPhone dalam mode pesawat. Saat diuji dengan kemampuan visi, model berhasil mengenali pisang namun gagal total dalam mengidentifikasi jenis anjing dengan akurat. Terdapat halusinasi yang lucu di mana model memperkenalkan diri sebagai "Alex" dan salah mengenali bahasa Latvia sebagai bahasa Slovenia. Kecepatan inferensi pada perangkat keras lokal tetap menjadi sorotan utama meskipun akurasi logikanya masih perlu ditingkatkan.

Uji Akhir Model 2B dan Kabar Terkini Tim Qwen

Model 2B diuji pada iPhone dan menunjukkan peningkatan kecerdasan yang signifikan dibandingkan versi 0,8B. Model ini berhasil melewati tes logika "cuci mobil" dan secara akurat mengidentifikasi bahasa Latvia serta kondisi kematangan buah. Di akhir video, pembicara membagikan berita kurang menyenangkan mengenai restrukturisasi besar-besaran di tim AI Alibaba dan hengkangnya para teknisi kunci. Hal ini menimbulkan spekulasi bahwa Qwen 3.5 mungkin menjadi rilis besar terakhir dalam waktu dekat dari tim orisinal tersebut. Video ditutup dengan ajakan bagi penonton untuk mencoba model tersebut secara lokal dan memberikan pendapat mereka.

Community Posts

View all posts