00:00:00Internet sedang heboh saat ini, dan kali ini gara-gara Qwen 3.5,
00:00:05khususnya seri model kecil mereka. Alibaba baru saja merilis versi multimodal
00:00:10asli dari Qwen 3.5 yang ukurannya sekecil 2 miliar bahkan 0,8 miliar parameter.
00:00:17Kemampuannya mengungguli beberapa model yang berukuran 4 kali lipatnya dalam hal penalaran dan visi.
00:00:22Ukurannya sangat mungil sehingga kita bisa menjalankannya secara lokal di laptop dan ponsel berusia 6 tahun
00:00:28tanpa koneksi internet. Di video ini, kita akan melihat lebih dalam pada seri model kecil
00:00:34baru Qwen 3.5 seperti versi 0,8 miliar dan 2 miliar. Kita juga akan mengujinya di
00:00:40MacBook Pro M2 serta di iPhone 14 Pro untuk mencari tahu seberapa kuat mereka sebenarnya.
00:00:48Ini akan sangat menyenangkan, jadi mari kita mulai.
00:00:55Jadi kenapa semua orang terobsesi dengan model Qwen 3.5 baru ini? Padahal, kita sudah punya model kecil
00:01:01sejak lama. Saya bahkan pernah membahas model Granite 4.0 nano dari IBM di video sebelumnya dan
00:01:08ukuran model mereka hanya 300 juta parameter. Jadi apa yang membuat model Qwen kecil ini begitu berbeda?
00:01:14Nah, ini semua tentang sesuatu yang disebut kepadatan kecerdasan. Jadi, selama ini aturannya adalah jika
00:01:20Anda ingin model yang bisa melihat, menalar, dan memprogram, ukurannya harus besar. Tapi model kecil Qwen 3.5
00:01:27ini membuktikan bahwa hal itu tidak selalu benar. Mereka entah bagaimana berhasil memadatkan model besarnya
00:01:33ke dalam versi yang lebih kecil namun tetap mendukung arsitektur multimodal yang terpadu. Itu berarti
00:01:39model 0,8 miliarnya tidak hanya menjawab teks, tapi juga memiliki kemampuan visi dan pemrograman di dalamnya.
00:01:46Mari kita lihat tolok ukurnya sebentar, karena hasilnya cukup menarik. Pada tolok ukur MMLU,
00:01:51yang mengukur pengetahuan umum dan penalaran, model 2 miliar mencapai skor 66,5,
00:01:57sementara model 0,8 miliar mencapai 42,3. Yang mungkin terdengar tidak terlalu mengesankan, tapi perlu diingat
00:02:04bahwa sebagai konteks, Llama 2 orisinal dengan 7 miliar parameter, yang rilis tahun 2023,
00:02:11mendapat skor 45,3 pada tolok ukur yang sama. Ini menunjukkan seberapa besar kita berhasil memperkecil
00:02:17jumlah parameter namun tetap mempertahankan skor pemahaman yang layak. Tapi lihat ini,
00:02:23keunggulan utamanya adalah performa multimodal mereka. Dalam tes visi khusus seperti OCRBench,
00:02:29model 2 miliar mendapat skor 85,4 dan model 0,8 miliar mencapai 79,1. Menunjukkan bahwa
00:02:37mereka sangat mampu melakukan tugas seperti membaca dokumen kompleks dan menganalisis gambar berisi teks.
00:02:43Oh, dan keduanya mendukung jendela konteks masif 262K, jadi Anda bisa memasukkan seluruh file PDF atau
00:02:51menggunakannya untuk menganalisis basis kode besar. Itu cukup mengesankan. Tapi sekarang, mari kita lihat
00:02:56bagaimana performa aslinya. Karena model 0,8 miliar dan 2 miliar bisa berjalan lokal di hampir semua
00:03:02laptop modern, saya akan melakukan tes ini dalam mode pesawat penuh tanpa koneksi internet
00:03:08sama sekali di laptop lokal saya. Untuk tes pertama, kita akan menjalankan server lokal di LM Studio
00:03:14dan menghubungkannya ke CLINE di VS Code untuk melihat apakah model mungil ini bisa menangani tugas pemrograman
00:03:21dunia nyata. Jadi pertama, Anda harus ke tab model dan mengunduh versi GGUF dari model
00:03:280,8 miliar dan 2 miliar parameter. Dan karena kita akan menggunakan model ini untuk tugas pemrograman, kita juga
00:03:33perlu meningkatkan panjang konteks yang tersedia cukup banyak. Setelah itu, kita bisa lanjut
00:03:38dan menyalakan servernya. Sekarang mari kita masuk ke CLINE. Dan pertama-tama, seperti yang saya sebutkan, saya akan
00:03:43mematikan Wi-Fi agar kita bisa melakukan tes ini sepenuhnya secara luring. Lalu di CLINE pada bagian konfigurasi API,
00:03:50saya akan pastikan untuk mengarahkan ke URL server LM Studio kustom kita. Mari kita juga pastikan
00:03:56bahwa kita memilih model 0,8 miliar. Dan untuk perintahnya, saya akan meminta model untuk membuat
00:04:01situs web perusahaan sederhana untuk sebuah kafe kecil. Saya juga menyadari bahwa jika kita tidak menentukan kerangka kerja
00:04:07tertentu dan membiarkan Qwen memilih sendiri, ia akan memilih untuk memasang React, yang tidak akan berfungsi untuk demo
00:04:14dalam mode luring ini. Jadi saya sedikit mengubah perintahnya untuk secara khusus meminta penggunaan HTML, CSS, dan JavaScript
00:04:20tanpa pustaka eksternal apa pun. Mari kita jalankan tesnya. Model membutuhkan waktu sekitar satu menit untuk
00:04:25menyelesaikan tugas ini. Dan inilah hasil akhirnya. Seperti yang Anda lihat, situsnya sangat hambar, desainnya
00:04:32tidak terlalu estetis, dan teksnya sangat gelap. Saya juga menyadari bahwa dalam CSS-nya,
00:04:37model mencoba memasukkan gambar tertentu secara manual dari Unsplash yang sesuai dengan tema kita. Itu sebuah
00:04:43pengamatan yang menarik. Dan jika kita menyalakan kembali Wi-Fi sejenak, kita bisa melihat bahwa salah satu
00:04:48gambar tersebut benar-benar muncul. Ternyata itu gambar seorang dokter yang sedang memegang ponsel. Cukup
00:04:54aneh ya. Tapi gambar lainnya berisi URL yang tidak valid. Saya juga mencoba memberi perintah lagi pada model untuk memperbaiki
00:05:00teks yang rusak dan meningkatkan area lainnya, tapi ia tidak bisa melakukannya dengan andal. Jadi secara keseluruhan, saya akan
00:05:06mengatakan bahwa meskipun model ini mampu melakukan pemrograman dan pemanggilan alat, saya rasa bukan
00:05:12ide yang baik untuk menggunakannya di skenario dunia nyata, karena jumlah parameternya terlalu rendah. Tapi
00:05:17sekarang mari kita uji model 2 miliar parameter dengan perintah yang sama dan lihat seberapa baik hasilnya. Dan
00:05:23model ini sebenarnya membuat saya pusing karena sering kali terjebak dalam pengulangan,
00:05:28menulis bagian yang sama berulang-ulang. Jadi saya harus menghentikan tugasnya dan memulainya lagi. Saya tidak yakin
00:05:34apakah ini masalah pada modelnya sendiri atau cara LM Studio mengelola servernya atau cara Cline
00:05:40memproses perintahnya. Tapi dengan konfigurasi khusus ini, hal tersebut menjadi kendala
00:05:45terus-menerus bagi saya. Hal lain yang saya perhatikan adalah jika model 0,8 miliar parameter langsung masuk ke
00:05:51tahap pemrograman, versi 2 miliar parameter lebih suka menyusun rencana terlebih dahulu sebelum lanjut ke
00:05:57pemrograman yang sebenarnya. Jadi model 2 miliar parameter menyelesaikan tugas ini dalam waktu sekitar tiga menit,
00:06:02jadi jauh lebih lama. Mari kita lihat apa hasil akhirnya. Seperti yang kita lihat, ini sudah
00:06:08merupakan peningkatan karena desainnya terlihat jauh lebih bersih dan menggunakan tema kecokelatan, yang lebih mendekati
00:06:14identitas visual sebuah kedai kopi. Hal lain yang saya perhatikan adalah jika kita menyalakan Wi-Fi,
00:06:20ia benar-benar memuat beberapa ikon eksternal, yang membuat keseluruhan situs terlihat lebih bagus.
00:06:24Dan versi ini sebenarnya mencoba menerapkan fungsi keranjang yang awalnya saya minta
00:06:29karena sekarang kita mendapatkan bilah samping keranjang yang bagus, meskipun saya tidak melihat tombol tambahkan ke keranjang
00:06:35pada kartu itemnya. Dan ketika saya mencoba memberi perintah untuk memperbaiki masalah ini, sekali lagi, saya mengalami masalah
00:06:41teknis yang sama di mana model masuk ke pengulangan tak terbatas. Jadi saya pikir ini mungkin hanya masalah pada
00:06:46LM Studio yang digabungkan dengan Cline atau semacamnya. Tapi jujur saja, tentu saja,
00:06:51tidak ada yang akan serius mempertimbangkan penggunaan model sekecil itu untuk pemrograman yang kompleks dan serius.
00:06:56Saya melakukan tes ini hanya karena penasaran untuk melihat apakah jumlah parameter sekecil itu masih bisa
00:07:02menghasilkan hasil yang berarti untuk tugas pemrograman tertentu. Sekarang mari kita lakukan sesuatu yang lebih seru.
00:07:07Mari mencoba menjalankan model ini di iPhone 14 Pro. Dan untuk melakukannya, saya membuat aplikasi iOS asli menggunakan
00:07:14Swift dan kerangka kerja MLX Swift. MLX adalah pustaka sumber terbuka Apple yang memungkinkan Anda menjalankan
00:07:22model langsung pada arsitektur memori terpadu silikon Apple. Dengan memanfaatkan GPU Metal, kita bisa
00:07:29menjalankan model Qwen ini dengan akselerasi perangkat keras langsung di perangkat. Saya juga akan
00:07:34mencantumkan tautan di deskripsi ke repo untuk proyek Swift ini agar Anda bisa mengunduh dan menyusunnya
00:07:40di perangkat Anda sendiri. Jadi begitu kita membuka aplikasinya, ia akan segera mulai mengunduh model 0,8
00:07:46miliar. Dan setelah selesai, kita sekarang siap menggunakannya. Tapi sebelum memberikan perintah apa pun,
00:07:52izinkan saya menyalakan mode pesawat di iPhone saya. Sekarang mari kita mulai dengan sapaan halo sederhana. Entah kenapa,
00:07:58ia menjawab bahwa namanya adalah Alex. Oke, itu sangat acak, tapi ya sudahlah. Tapi apakah Anda memperhatikan
00:08:04seberapa cepat responsnya dialirkan? Saya benar-benar takjub dengan kecepatan model ini dalam
00:08:10menjawab Anda secara waktu nyata. Sekarang mari coba tes tempat cuci mobil yang terkenal, yang biasanya dijawab salah oleh sebagian besar model.
00:08:17Dan lihat itu, Qwen 3.5 ternyata menjawab dengan benar. Itu sudah sangat mengesankan.
00:08:23Sekarang hal paling keren tentang model ini adalah mereka juga memiliki kemampuan visi. Jadi sekarang saya akan
00:08:29menunjukkan gambar pisang kepadanya. Mari kita lihat apakah ia mengerti benda apa itu dan dalam kondisi apa
00:08:35benda itu berada. Ia berhasil mengidentifikasi dengan benar bahwa itu memang pisang, meskipun ia menyebutnya
00:08:40pisang anjing. Jujur saya belum pernah mendengar istilah itu. Pisang anjing? Apa maksudnya?
00:08:47Apa yang dibicarakan Qwen di sini? Baiklah, tapi bagaimanapun, ia menganggap pisang itu terlalu matang. Dan ia memperingatkan saya bahwa mungkin
00:08:52tidak aman untuk dimakan, yang sebenarnya tidak benar. Saya makan pisang itu tadi pagi, dan rasanya enak. Tapi ya sudah,
00:08:58sekali lagi, saya terpukau dengan kecepatannya dalam memproses perintah dan memberikan kembali
00:09:04responsnya. Sekarang mari kita coba gambar lain. Mari kita lihat apakah ia bisa mengidentifikasi jenis anjing dalam
00:09:09gambar ini. Di sini kita bisa melihat bahwa jawabannya tidak terlalu akurat karena ia mengira melihat dua
00:09:15anjing, padahal tidak benar. Dan ia tidak menyebutkan jenisnya. Jadi mari kita tanya secara spesifik jenis anjing
00:09:20apa itu. Ia mengira itu seekor Golden Retriever, yang jelas sangat jauh dari kenyataan. Jadi
00:09:27walaupun beberapa responsnya tidak sepenuhnya akurat, dan beberapa di antaranya sangat lucu,
00:09:34saya tetap sangat terkesan dengan fakta bahwa model sekecil itu bisa menalar tentang konten sebuah
00:09:39gambar dan melakukannya dengan sangat cepat. Dan hal terakhir yang ingin saya uji adalah kemampuan OCR model ini,
00:09:45seperti yang digembar-gemborkan dalam tolok ukurnya. Secara khusus, saya ingin melihat apakah model ini bisa mengidentifikasi bahasa
00:09:50apa yang ada dalam konten teks di gambar ini. Sebagai konteks, bahasa
00:09:55yang ditampilkan di gambar ini adalah bahasa Latvia, yang merupakan bahasa ibu saya, karena saya
00:10:00berasal dari Latvia. Dan sayangnya, Qwen gagal dalam tes ini karena ini bukan bahasa Slovenia,
00:10:05dan bahasa kami bahkan tidak mirip dengan bahasa Slovenia. Dan saya juga merasa lucu betapa percaya dirinya ia
00:10:11menerjemahkan sebuah kata menjadi kata yang sama, yang saya bahkan tidak yakin apakah itu kata sungguhan. Jadi jelas ada
00:10:19halusinasi berat yang terjadi dalam respons perintah ini. Baiklah, sekarang mari kita pindah ke model 2 miliar
00:10:25parameter. Saat Anda mengganti di menu dropdown, ia akan mengunduhnya terlebih dahulu. Dan setelah itu
00:10:30selesai, kita bisa menjalankan tes yang sama di versi ini untuk melihat apakah ada peningkatan yang berarti. Jadi
00:10:36mari kita mulai dengan sapaan halo lagi. Oke, dan setidaknya kali ini, bukan Alex yang merespons. Jadi
00:10:42itu sudah merupakan sebuah peningkatan. Sekarang mari kita lakukan tes cuci mobil lagi. Dan sekali lagi, model ini lulus
00:10:47tes cuci mobil. Kerja bagus di sana. Sekarang mari lanjut dengan gambar pisang. Dan kali ini,
00:10:53kita mendapatkan jawaban yang lebih berarti. Ia mendeteksi bahwa itu memang sebuah pisang. Dan untuk
00:11:00kondisinya, ia mengatakan bahwa pisang itu sudah matang dan siap dimakan, dan itu benar. Sekarang mari coba gambar anjingnya
00:11:06lagi. Dan kali ini ia bilang itu seekor Pomeranian. Maksud saya, menurut saya jenis-jenis ini bahkan tidak
00:11:11mirip sama sekali. Jadi sayangnya, model 2 miliar pun buruk dalam mengidentifikasi jenis anjing.
00:11:18Dan terakhir, mari kita coba lagi gambar dengan teks dan lihat apakah ia bisa mengidentifikasi bahasanya.
00:11:22Dan lihat itu, model 2 miliar parameter berhasil mengidentifikasi dengan benar bahwa teks ini memang
00:11:29bahasa Latvia. Itu sangat keren. Jadi itulah dia, seri model kecil Qwen 3.5. Saya
00:11:36jujur berpikir bahwa terlepas dari sedikit ketidakkonsistenan, ini memang model mungil paling kuat
00:11:42yang pernah saya gunakan. Fakta bahwa kita sekarang bisa memiliki LLM multimodal asli sumber terbuka yang berjalan di
00:11:49iPhone 14 Pro secara luring dan menghasilkan hasil yang berarti dengan kecepatan inferensi yang relatif cepat
00:11:55sungguh sangat mengesankan. Jadi Qwen benar-benar melampaui diri mereka sendiri kali ini. Kerja bagus. Tapi ada
00:12:01sedikit pembaruan yang agak menyedihkan. Saat saya sedang menyelesaikan video ini, muncul laporan bahwa Alibaba sedang
00:12:07melakukan restrukturisasi besar-besaran pada tim Qwen. Tokoh kepemimpinan utama dan teknisi top di balik
00:12:13model-model ini dikabarkan telah hengkang, beberapa untuk membangun perusahaan rintisan AI mereka sendiri. Ini membuat
00:12:18komunitas bertanya-tanya apakah era terobosan pesat Qwen mungkin akan melambat. Hal ini membuat
00:12:24model saat ini menjadi semakin signifikan karena mungkin ini adalah rilis besar terakhir dari tim khusus ini untuk sementara waktu.
00:12:30Tapi apa pendapat Anda tentang seri model kecil ini? Sudahkah Anda mencobanya? Apakah Anda akan menggunakannya?
00:12:35Beri tahu kami di kolom komentar di bawah. Dan teman-teman, jika Anda menyukai jenis
00:12:39ulasan teknis seperti ini, beri tahu saya dengan menekan tombol suka di bawah video ini.
00:12:45Dan jangan lupa juga untuk berlangganan saluran kami. Saya Andres dari Better Stack dan sampai
00:12:50jumpa di video-video berikutnya.