Model Kecil Qwen 3.5 Ternyata LUAR BIASA! (Uji Coba 0.8B & 2B di Perangkat Edge)

Bahasa Indonesiaالعربية Deutsch English Español Français हिन्दी 日本語 한국어 Português Русский 中文

Computing/SoftwareBusiness NewsConsumer ElectronicsCell Phones

Transcript

00:00:00Internet sedang heboh saat ini, dan kali ini gara-gara Qwen 3.5,

00:00:05khususnya seri model kecil mereka. Alibaba baru saja merilis versi multimodal

00:00:10asli dari Qwen 3.5 yang ukurannya sekecil 2 miliar bahkan 0,8 miliar parameter.

00:00:17Kemampuannya mengungguli beberapa model yang berukuran 4 kali lipatnya dalam hal penalaran dan visi.

00:00:22Ukurannya sangat mungil sehingga kita bisa menjalankannya secara lokal di laptop dan ponsel berusia 6 tahun

00:00:28tanpa koneksi internet. Di video ini, kita akan melihat lebih dalam pada seri model kecil

00:00:34baru Qwen 3.5 seperti versi 0,8 miliar dan 2 miliar. Kita juga akan mengujinya di

00:00:40MacBook Pro M2 serta di iPhone 14 Pro untuk mencari tahu seberapa kuat mereka sebenarnya.

00:00:48Ini akan sangat menyenangkan, jadi mari kita mulai.

00:00:55Jadi kenapa semua orang terobsesi dengan model Qwen 3.5 baru ini? Padahal, kita sudah punya model kecil

00:01:01sejak lama. Saya bahkan pernah membahas model Granite 4.0 nano dari IBM di video sebelumnya dan

00:01:08ukuran model mereka hanya 300 juta parameter. Jadi apa yang membuat model Qwen kecil ini begitu berbeda?

00:01:14Nah, ini semua tentang sesuatu yang disebut kepadatan kecerdasan. Jadi, selama ini aturannya adalah jika

00:01:20Anda ingin model yang bisa melihat, menalar, dan memprogram, ukurannya harus besar. Tapi model kecil Qwen 3.5

00:01:27ini membuktikan bahwa hal itu tidak selalu benar. Mereka entah bagaimana berhasil memadatkan model besarnya

00:01:33ke dalam versi yang lebih kecil namun tetap mendukung arsitektur multimodal yang terpadu. Itu berarti

00:01:39model 0,8 miliarnya tidak hanya menjawab teks, tapi juga memiliki kemampuan visi dan pemrograman di dalamnya.

00:01:46Mari kita lihat tolok ukurnya sebentar, karena hasilnya cukup menarik. Pada tolok ukur MMLU,

00:01:51yang mengukur pengetahuan umum dan penalaran, model 2 miliar mencapai skor 66,5,

00:01:57sementara model 0,8 miliar mencapai 42,3. Yang mungkin terdengar tidak terlalu mengesankan, tapi perlu diingat

00:02:04bahwa sebagai konteks, Llama 2 orisinal dengan 7 miliar parameter, yang rilis tahun 2023,

00:02:11mendapat skor 45,3 pada tolok ukur yang sama. Ini menunjukkan seberapa besar kita berhasil memperkecil

00:02:17jumlah parameter namun tetap mempertahankan skor pemahaman yang layak. Tapi lihat ini,

00:02:23keunggulan utamanya adalah performa multimodal mereka. Dalam tes visi khusus seperti OCRBench,

00:02:29model 2 miliar mendapat skor 85,4 dan model 0,8 miliar mencapai 79,1. Menunjukkan bahwa

00:02:37mereka sangat mampu melakukan tugas seperti membaca dokumen kompleks dan menganalisis gambar berisi teks.

00:02:43Oh, dan keduanya mendukung jendela konteks masif 262K, jadi Anda bisa memasukkan seluruh file PDF atau

00:02:51menggunakannya untuk menganalisis basis kode besar. Itu cukup mengesankan. Tapi sekarang, mari kita lihat

00:02:56bagaimana performa aslinya. Karena model 0,8 miliar dan 2 miliar bisa berjalan lokal di hampir semua

00:03:02laptop modern, saya akan melakukan tes ini dalam mode pesawat penuh tanpa koneksi internet

00:03:08sama sekali di laptop lokal saya. Untuk tes pertama, kita akan menjalankan server lokal di LM Studio

00:03:14dan menghubungkannya ke CLINE di VS Code untuk melihat apakah model mungil ini bisa menangani tugas pemrograman

00:03:21dunia nyata. Jadi pertama, Anda harus ke tab model dan mengunduh versi GGUF dari model

00:03:280,8 miliar dan 2 miliar parameter. Dan karena kita akan menggunakan model ini untuk tugas pemrograman, kita juga

00:03:33perlu meningkatkan panjang konteks yang tersedia cukup banyak. Setelah itu, kita bisa lanjut

00:03:38dan menyalakan servernya. Sekarang mari kita masuk ke CLINE. Dan pertama-tama, seperti yang saya sebutkan, saya akan

00:03:43mematikan Wi-Fi agar kita bisa melakukan tes ini sepenuhnya secara luring. Lalu di CLINE pada bagian konfigurasi API,

00:03:50saya akan pastikan untuk mengarahkan ke URL server LM Studio kustom kita. Mari kita juga pastikan

00:03:56bahwa kita memilih model 0,8 miliar. Dan untuk perintahnya, saya akan meminta model untuk membuat

00:04:01situs web perusahaan sederhana untuk sebuah kafe kecil. Saya juga menyadari bahwa jika kita tidak menentukan kerangka kerja

00:04:07tertentu dan membiarkan Qwen memilih sendiri, ia akan memilih untuk memasang React, yang tidak akan berfungsi untuk demo

00:04:14dalam mode luring ini. Jadi saya sedikit mengubah perintahnya untuk secara khusus meminta penggunaan HTML, CSS, dan JavaScript

00:04:20tanpa pustaka eksternal apa pun. Mari kita jalankan tesnya. Model membutuhkan waktu sekitar satu menit untuk

00:04:25menyelesaikan tugas ini. Dan inilah hasil akhirnya. Seperti yang Anda lihat, situsnya sangat hambar, desainnya

00:04:32tidak terlalu estetis, dan teksnya sangat gelap. Saya juga menyadari bahwa dalam CSS-nya,

00:04:37model mencoba memasukkan gambar tertentu secara manual dari Unsplash yang sesuai dengan tema kita. Itu sebuah

00:04:43pengamatan yang menarik. Dan jika kita menyalakan kembali Wi-Fi sejenak, kita bisa melihat bahwa salah satu

00:04:48gambar tersebut benar-benar muncul. Ternyata itu gambar seorang dokter yang sedang memegang ponsel. Cukup

00:04:54aneh ya. Tapi gambar lainnya berisi URL yang tidak valid. Saya juga mencoba memberi perintah lagi pada model untuk memperbaiki

00:05:00teks yang rusak dan meningkatkan area lainnya, tapi ia tidak bisa melakukannya dengan andal. Jadi secara keseluruhan, saya akan

00:05:06mengatakan bahwa meskipun model ini mampu melakukan pemrograman dan pemanggilan alat, saya rasa bukan

00:05:12ide yang baik untuk menggunakannya di skenario dunia nyata, karena jumlah parameternya terlalu rendah. Tapi

00:05:17sekarang mari kita uji model 2 miliar parameter dengan perintah yang sama dan lihat seberapa baik hasilnya. Dan

00:05:23model ini sebenarnya membuat saya pusing karena sering kali terjebak dalam pengulangan,

00:05:28menulis bagian yang sama berulang-ulang. Jadi saya harus menghentikan tugasnya dan memulainya lagi. Saya tidak yakin

00:05:34apakah ini masalah pada modelnya sendiri atau cara LM Studio mengelola servernya atau cara Cline

00:05:40memproses perintahnya. Tapi dengan konfigurasi khusus ini, hal tersebut menjadi kendala

00:05:45terus-menerus bagi saya. Hal lain yang saya perhatikan adalah jika model 0,8 miliar parameter langsung masuk ke

00:05:51tahap pemrograman, versi 2 miliar parameter lebih suka menyusun rencana terlebih dahulu sebelum lanjut ke

00:05:57pemrograman yang sebenarnya. Jadi model 2 miliar parameter menyelesaikan tugas ini dalam waktu sekitar tiga menit,

00:06:02jadi jauh lebih lama. Mari kita lihat apa hasil akhirnya. Seperti yang kita lihat, ini sudah

00:06:08merupakan peningkatan karena desainnya terlihat jauh lebih bersih dan menggunakan tema kecokelatan, yang lebih mendekati

00:06:14identitas visual sebuah kedai kopi. Hal lain yang saya perhatikan adalah jika kita menyalakan Wi-Fi,

00:06:20ia benar-benar memuat beberapa ikon eksternal, yang membuat keseluruhan situs terlihat lebih bagus.

00:06:24Dan versi ini sebenarnya mencoba menerapkan fungsi keranjang yang awalnya saya minta

00:06:29karena sekarang kita mendapatkan bilah samping keranjang yang bagus, meskipun saya tidak melihat tombol tambahkan ke keranjang

00:06:35pada kartu itemnya. Dan ketika saya mencoba memberi perintah untuk memperbaiki masalah ini, sekali lagi, saya mengalami masalah

00:06:41teknis yang sama di mana model masuk ke pengulangan tak terbatas. Jadi saya pikir ini mungkin hanya masalah pada

00:06:46LM Studio yang digabungkan dengan Cline atau semacamnya. Tapi jujur saja, tentu saja,

00:06:51tidak ada yang akan serius mempertimbangkan penggunaan model sekecil itu untuk pemrograman yang kompleks dan serius.

00:06:56Saya melakukan tes ini hanya karena penasaran untuk melihat apakah jumlah parameter sekecil itu masih bisa

00:07:02menghasilkan hasil yang berarti untuk tugas pemrograman tertentu. Sekarang mari kita lakukan sesuatu yang lebih seru.

00:07:07Mari mencoba menjalankan model ini di iPhone 14 Pro. Dan untuk melakukannya, saya membuat aplikasi iOS asli menggunakan

00:07:14Swift dan kerangka kerja MLX Swift. MLX adalah pustaka sumber terbuka Apple yang memungkinkan Anda menjalankan

00:07:22model langsung pada arsitektur memori terpadu silikon Apple. Dengan memanfaatkan GPU Metal, kita bisa

00:07:29menjalankan model Qwen ini dengan akselerasi perangkat keras langsung di perangkat. Saya juga akan

00:07:34mencantumkan tautan di deskripsi ke repo untuk proyek Swift ini agar Anda bisa mengunduh dan menyusunnya

00:07:40di perangkat Anda sendiri. Jadi begitu kita membuka aplikasinya, ia akan segera mulai mengunduh model 0,8

00:07:46miliar. Dan setelah selesai, kita sekarang siap menggunakannya. Tapi sebelum memberikan perintah apa pun,

00:07:52izinkan saya menyalakan mode pesawat di iPhone saya. Sekarang mari kita mulai dengan sapaan halo sederhana. Entah kenapa,

00:07:58ia menjawab bahwa namanya adalah Alex. Oke, itu sangat acak, tapi ya sudahlah. Tapi apakah Anda memperhatikan

00:08:04seberapa cepat responsnya dialirkan? Saya benar-benar takjub dengan kecepatan model ini dalam

00:08:10menjawab Anda secara waktu nyata. Sekarang mari coba tes tempat cuci mobil yang terkenal, yang biasanya dijawab salah oleh sebagian besar model.

00:08:17Dan lihat itu, Qwen 3.5 ternyata menjawab dengan benar. Itu sudah sangat mengesankan.

00:08:23Sekarang hal paling keren tentang model ini adalah mereka juga memiliki kemampuan visi. Jadi sekarang saya akan

00:08:29menunjukkan gambar pisang kepadanya. Mari kita lihat apakah ia mengerti benda apa itu dan dalam kondisi apa

00:08:35benda itu berada. Ia berhasil mengidentifikasi dengan benar bahwa itu memang pisang, meskipun ia menyebutnya

00:08:40pisang anjing. Jujur saya belum pernah mendengar istilah itu. Pisang anjing? Apa maksudnya?

00:08:47Apa yang dibicarakan Qwen di sini? Baiklah, tapi bagaimanapun, ia menganggap pisang itu terlalu matang. Dan ia memperingatkan saya bahwa mungkin

00:08:52tidak aman untuk dimakan, yang sebenarnya tidak benar. Saya makan pisang itu tadi pagi, dan rasanya enak. Tapi ya sudah,

00:08:58sekali lagi, saya terpukau dengan kecepatannya dalam memproses perintah dan memberikan kembali

00:09:04responsnya. Sekarang mari kita coba gambar lain. Mari kita lihat apakah ia bisa mengidentifikasi jenis anjing dalam

00:09:09gambar ini. Di sini kita bisa melihat bahwa jawabannya tidak terlalu akurat karena ia mengira melihat dua

00:09:15anjing, padahal tidak benar. Dan ia tidak menyebutkan jenisnya. Jadi mari kita tanya secara spesifik jenis anjing

00:09:20apa itu. Ia mengira itu seekor Golden Retriever, yang jelas sangat jauh dari kenyataan. Jadi

00:09:27walaupun beberapa responsnya tidak sepenuhnya akurat, dan beberapa di antaranya sangat lucu,

00:09:34saya tetap sangat terkesan dengan fakta bahwa model sekecil itu bisa menalar tentang konten sebuah

00:09:39gambar dan melakukannya dengan sangat cepat. Dan hal terakhir yang ingin saya uji adalah kemampuan OCR model ini,

00:09:45seperti yang digembar-gemborkan dalam tolok ukurnya. Secara khusus, saya ingin melihat apakah model ini bisa mengidentifikasi bahasa

00:09:50apa yang ada dalam konten teks di gambar ini. Sebagai konteks, bahasa

00:09:55yang ditampilkan di gambar ini adalah bahasa Latvia, yang merupakan bahasa ibu saya, karena saya

00:10:00berasal dari Latvia. Dan sayangnya, Qwen gagal dalam tes ini karena ini bukan bahasa Slovenia,

00:10:05dan bahasa kami bahkan tidak mirip dengan bahasa Slovenia. Dan saya juga merasa lucu betapa percaya dirinya ia

00:10:11menerjemahkan sebuah kata menjadi kata yang sama, yang saya bahkan tidak yakin apakah itu kata sungguhan. Jadi jelas ada

00:10:19halusinasi berat yang terjadi dalam respons perintah ini. Baiklah, sekarang mari kita pindah ke model 2 miliar

00:10:25parameter. Saat Anda mengganti di menu dropdown, ia akan mengunduhnya terlebih dahulu. Dan setelah itu

00:10:30selesai, kita bisa menjalankan tes yang sama di versi ini untuk melihat apakah ada peningkatan yang berarti. Jadi

00:10:36mari kita mulai dengan sapaan halo lagi. Oke, dan setidaknya kali ini, bukan Alex yang merespons. Jadi

00:10:42itu sudah merupakan sebuah peningkatan. Sekarang mari kita lakukan tes cuci mobil lagi. Dan sekali lagi, model ini lulus

00:10:47tes cuci mobil. Kerja bagus di sana. Sekarang mari lanjut dengan gambar pisang. Dan kali ini,

00:10:53kita mendapatkan jawaban yang lebih berarti. Ia mendeteksi bahwa itu memang sebuah pisang. Dan untuk

00:11:00kondisinya, ia mengatakan bahwa pisang itu sudah matang dan siap dimakan, dan itu benar. Sekarang mari coba gambar anjingnya

00:11:06lagi. Dan kali ini ia bilang itu seekor Pomeranian. Maksud saya, menurut saya jenis-jenis ini bahkan tidak

00:11:11mirip sama sekali. Jadi sayangnya, model 2 miliar pun buruk dalam mengidentifikasi jenis anjing.

00:11:18Dan terakhir, mari kita coba lagi gambar dengan teks dan lihat apakah ia bisa mengidentifikasi bahasanya.

00:11:22Dan lihat itu, model 2 miliar parameter berhasil mengidentifikasi dengan benar bahwa teks ini memang

00:11:29bahasa Latvia. Itu sangat keren. Jadi itulah dia, seri model kecil Qwen 3.5. Saya

00:11:36jujur berpikir bahwa terlepas dari sedikit ketidakkonsistenan, ini memang model mungil paling kuat

00:11:42yang pernah saya gunakan. Fakta bahwa kita sekarang bisa memiliki LLM multimodal asli sumber terbuka yang berjalan di

00:11:49iPhone 14 Pro secara luring dan menghasilkan hasil yang berarti dengan kecepatan inferensi yang relatif cepat

00:11:55sungguh sangat mengesankan. Jadi Qwen benar-benar melampaui diri mereka sendiri kali ini. Kerja bagus. Tapi ada

00:12:01sedikit pembaruan yang agak menyedihkan. Saat saya sedang menyelesaikan video ini, muncul laporan bahwa Alibaba sedang

00:12:07melakukan restrukturisasi besar-besaran pada tim Qwen. Tokoh kepemimpinan utama dan teknisi top di balik

00:12:13model-model ini dikabarkan telah hengkang, beberapa untuk membangun perusahaan rintisan AI mereka sendiri. Ini membuat

00:12:18komunitas bertanya-tanya apakah era terobosan pesat Qwen mungkin akan melambat. Hal ini membuat

00:12:24model saat ini menjadi semakin signifikan karena mungkin ini adalah rilis besar terakhir dari tim khusus ini untuk sementara waktu.

00:12:30Tapi apa pendapat Anda tentang seri model kecil ini? Sudahkah Anda mencobanya? Apakah Anda akan menggunakannya?

00:12:35Beri tahu kami di kolom komentar di bawah. Dan teman-teman, jika Anda menyukai jenis

00:12:39ulasan teknis seperti ini, beri tahu saya dengan menekan tombol suka di bawah video ini.

00:12:45Dan jangan lupa juga untuk berlangganan saluran kami. Saya Andres dari Better Stack dan sampai

00:12:50jumpa di video-video berikutnya.

Key Takeaway

Seri model kecil Qwen 3.5 membuktikan bahwa model AI multimodal berperforma tinggi kini dapat dijalankan secara luring di perangkat seluler dengan kecepatan luar biasa, meskipun masih menghadapi tantangan dalam akurasi teknis.

Highlights

Alibaba meluncurkan model Qwen 3.5 dalam ukuran sangat kecil (0,8B dan 2B parameter) dengan arsitektur multimodal terpadu.

Model ini memiliki "kepadatan kecerdasan" tinggi yang mampu mengungguli model dengan parameter 4 kali lebih besar dalam tugas penalaran dan visi.

Dukungan jendela konteks hingga 262K memungkinkan analisis file PDF besar atau basis kode yang kompleks secara lokal.

Pengujian pada MacBook Pro M2 dan iPhone 14 Pro menunjukkan kemampuan eksekusi luring (mode pesawat) yang sangat cepat.

Meskipun performa pemrogramannya masih terbatas dan sering mengalami halusinasi, model 2B menunjukkan peningkatan signifikan dalam identifikasi bahasa dan objek.

Ada ketidakpastian masa depan Qwen setelah laporan restrukturisasi besar-besaran dan kepergian talenta kunci dari tim Alibaba.

Timeline

Pendahuluan dan Spesifikasi Qwen 3.5 Kecil

Video dibuka dengan pengenalan model terbaru Alibaba, Qwen 3.5, yang tersedia dalam ukuran 0,8 miliar dan 2 miliar parameter. Pembicara menekankan konsep "kepadatan kecerdasan" di mana model mungil ini mampu melakukan tugas visi, penalaran, dan pemrograman yang biasanya membutuhkan model besar. Skor tolok ukur menunjukkan bahwa model 2B mampu mengalahkan Llama 2 7B yang legendaris dalam tes MMLU. Selain itu, kemampuan OCR pada model ini sangat menonjol dengan skor tinggi pada OCRBench. Fitur paling mengesankan adalah jendela konteks 262K yang memungkinkan pemrosesan dokumen panjang secara luring.

Uji Coba Pemrograman Lokal dan Mode Pesawat

Pembicara melakukan demonstrasi langsung menggunakan LM Studio dan VS Code pada MacBook Pro dalam kondisi Wi-Fi dimatikan sepenuhnya. Model 0,8B diuji untuk membuat situs web kafe sederhana menggunakan HTML, CSS, dan JavaScript murni. Hasilnya menunjukkan bahwa model mampu menghasilkan kode dasar, namun desainnya sangat hambar dan terdapat kesalahan dalam pemanggilan aset gambar. Meskipun model ini mendukung pemanggilan alat (tool calling), pembicara menyimpulkan bahwa model 0,8B belum cukup andal untuk tugas pemrograman dunia nyata. Eksperimen ini mengonfirmasi bahwa batasan jumlah parameter sangat memengaruhi estetika dan fungsionalitas hasil akhir.

Perbandingan Performa Model 2B dalam Pemrograman

Bagian ini membandingkan kemampuan model 2B dengan perintah pemrograman yang sama dengan sebelumnya. Berbeda dengan model 0,8B, versi 2B cenderung menyusun rencana kerja terlebih dahulu sebelum menulis kode, yang menghasilkan desain lebih bersih dan fungsional. Namun, pembicara menemukan masalah teknis di mana model sering terjebak dalam pengulangan teks (looping) yang tak terbatas. Hal ini diduga karena interaksi antara model, server LM Studio, dan ekstensi Cline yang digunakan. Meskipun hasilnya lebih baik dengan adanya integrasi ikon eksternal, model ini tetap dianggap hanya sebagai eksperimen menarik daripada alat produksi serius.

Implementasi dan Uji Visi pada iPhone 14 Pro

Eksperimen berlanjut ke perangkat seluler dengan menggunakan aplikasi iOS asli yang dibangun dengan kerangka kerja MLX Swift dari Apple. Pembicara menunjukkan betapa cepatnya model 0,8B memberikan respons secara waktu nyata di iPhone dalam mode pesawat. Saat diuji dengan kemampuan visi, model berhasil mengenali pisang namun gagal total dalam mengidentifikasi jenis anjing dengan akurat. Terdapat halusinasi yang lucu di mana model memperkenalkan diri sebagai "Alex" dan salah mengenali bahasa Latvia sebagai bahasa Slovenia. Kecepatan inferensi pada perangkat keras lokal tetap menjadi sorotan utama meskipun akurasi logikanya masih perlu ditingkatkan.

Uji Akhir Model 2B dan Kabar Terkini Tim Qwen

Model 2B diuji pada iPhone dan menunjukkan peningkatan kecerdasan yang signifikan dibandingkan versi 0,8B. Model ini berhasil melewati tes logika "cuci mobil" dan secara akurat mengidentifikasi bahasa Latvia serta kondisi kematangan buah. Di akhir video, pembicara membagikan berita kurang menyenangkan mengenai restrukturisasi besar-besaran di tim AI Alibaba dan hengkangnya para teknisi kunci. Hal ini menimbulkan spekulasi bahwa Qwen 3.5 mungkin menjadi rilis besar terakhir dalam waktu dekat dari tim orisinal tersebut. Video ditutup dengan ajakan bagi penonton untuk mencoba model tersebut secara lokal dan memberikan pendapat mereka.

Community Posts

Penerapan On-Device Qwen 3.5: Panduan Praktis Mengatasi Loop Tak Terbatas dan Bottleneck Perangkat Keras

makedream11 de mar. de 202610640

Write about this video