Qwen 3.5 35B vs Sonnet 4.5: Apakah Perbedaannya Semakin MENIPIS?

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00Awal bulan ini Alibaba merilis Qwen 3.5 dengan model parameter 400 miliar dan
00:00:05versi "max thinking" yang diklaim memiliki benchmark lebih baik dari Opus 4.5 dengan kebutuhan sistem tinggi
00:00:11untuk dijalankan secara lokal.
00:00:12Namun baru minggu ini mereka merilis model Qwen 3.5 Seri Medium yang hampir sama
00:00:17tangguh dengan versi max dan bisa dijalankan secara lokal di MacBook Pro modern, serta diklaim
00:00:22memiliki benchmark lebih baik dari Sonnet 4.5, yang saya tidak percaya, jadi klik subscribe
00:00:27dan mari kita uji kedua model ini.
00:00:31Kebanyakan developer akan mengakui bahwa Sonnet 4.5 adalah model yang hebat, bekerja baik dengan Claude
00:00:35Code, Co-Work, dan seluruh rangkaian Anthropic yang membuat pengalamannya terasa premium.
00:00:40Tetapi Anda harus online agar model ini bisa bekerja dan harganya tidaklah murah.
00:00:44Qwen 3.5 Seri Medium bertujuan untuk mengubah itu semua dengan memungkinkan kita menjalankan
00:00:49model sehebat Sonnet 4.5 secara lokal dan orang-orang di Twitter mulai heboh.
00:00:54Namun saya tidak yakin model ini benar-benar sebagus Sonnet 4.5.
00:00:58Jadi saya akan menguji kedua model ini pada tugas mudah, sedang, dan sulit untuk melihat mana
00:01:02yang performanya lebih baik.
00:01:04Tapi sebelum kita mulai pengujiannya, saya punya sedikit pengakuan.
00:01:07Saya tidak akan menjalankan Qwen 3.5 secara lokal karena MacBook Pro M1 saya yang payah
00:01:12tidak punya memori terpadu yang cukup untuk menjalankan inferensi dengan benar.
00:01:15Jadi saya akan menggunakan Qwen 3.5 35b di OpenRouter yang terhubung ke OpenCode dan
00:01:21saya akan menjalankan Sonnet 4.5 di Claude Code dalam mode bersih, sehingga tidak menggunakan
00:01:25skill, plugin, atau alat MCP saya yang lain.
00:01:27Kita mulai dengan yang sederhana dan meminta model untuk membangun daftar tugas dari awal menggunakan React dan Vite.
00:01:32Jika kita melihat hasil Sonnet 4.5, kita bisa melihat tampilannya memiliki warna ungu AI.
00:01:36Saya bisa menambah item, menandainya sebagai selesai, saya bisa menghapusnya dan
00:01:40jika saya segarkan halamannya, semua tetap ada karena menggunakan penyimpanan lokal.
00:01:44Jika melihat Qwen 3.5, keduanya memiliki gaya yang mirip dan tidak menimpa
00:01:48gaya bawaan yang menyertai Vite.
00:01:51Tapi sekali lagi, saya bisa menambahkan item daftar tugas.
00:01:53Dan di sini kita punya beberapa opsi lain.
00:01:54Jadi kita bisa memilih kategori, kita bisa memilih tingkat kepentingannya dan
00:01:59mungkin tanggal tugas atau tanggal jatuh temponya.
00:02:02Jadi saya bisa mengetik seperti "belanja" dan ia menampilkan tanggal, tingkat kepentingan, dan
00:02:06kategorinya, yang mana ini sangat keren.
00:02:08Mari kita lihat kodenya.
00:02:09Ini dari Sonnet dan di sebelah sini, ia menggunakan useEffect, yang saya rasa untuk
00:02:13keperluan penyimpanan lokal di bagian bawah ini.
00:02:15Menurut saya ini oke saja, tapi saya lebih suka cara lain.
00:02:17Kita punya fungsi "add todo" di sini dan beberapa fungsi lain untuk melakukan tindakan.
00:02:22Seperti beralih status tugas, dan di sini ada hapus tugas.
00:02:25Semuanya terlihat bagus.
00:02:26Dan satu hal yang membuat saya agak terkejut adalah bagian atas yang menyebutkan parsing JSON.
00:02:32Jadi sepertinya ia menyimpannya di penyimpanan lokal sebagai JSON lalu melakukan parsing.
00:02:35Akan lebih baik jika kode ini ada di fungsi terpisah sehingga jika ingin
00:02:38menambah lebih banyak hal, kodenya tidak menumpuk di bagian atas sini.
00:02:42Sekarang, jika kita lihat Qwen, ada beberapa kategori, dan sepertinya tidak menggunakan
00:02:46useEffect, yang mana itu bagus.
00:02:48Jika kita gulir ke bawah, ada "handle submit", nama yang lebih saya sukai.
00:02:51Dan ada juga handle update, handle delete, dan handle toggle completed.
00:02:55Dan satu hal yang sangat saya suka adalah ia memisahkan item tugas ke komponen tersendiri.
00:02:59Jadi alih-alih menumpuk di komponen utama aplikasi, ia membuat
00:03:03komponen baru di sini, yang digunakan di bagian bawah aplikasi karena ada banyak
00:03:07item daftar tugas.
00:03:08Jadi kemenangan jatuh ke Qwen karena menghasilkan daftar tugas dengan fitur yang jauh lebih banyak.
00:03:13Tapi setelah saya menjalankan tes ini, saya sadar bahwa Qwen mengaktifkan fitur superpower
00:03:18di OpenCode.
00:03:19Jadi saya jalankan lagi tanpa fitur itu dan inilah hasil yang kita dapatkan.
00:03:23Jadi saya rasa kemenangan beralih ke Sonnet.
00:03:25Mari kita lanjut ke tes kedua, yaitu membuat tata surya interaktif menggunakan
00:03:29React, Vite, dan Three.js.
00:03:31Claude melakukan pekerjaan yang jauh lebih baik dalam sekali coba.
00:03:33Oke, ada beberapa planet yang kurang, tapi saya bisa mengeklik planet yang ada.
00:03:37Saya klik matahari dan mendapatkan informasi tentangnya.
00:03:39Saya klik Uranus di bawah sini dan juga mendapatkan informasi tentangnya.
00:03:44Pergerakan di situsnya juga mulus, saya bisa menggeser, memutar, memperbesar, dan
00:03:48seterusnya.
00:03:49Dan inilah yang dihasilkan oleh Qwen.
00:03:50Ya, halaman kosong.
00:03:51Jika kita lihat konsolnya, ada eror di sini yang sudah saya berikan ke Qwen
00:03:56berkali-kali, tapi ia tetap tidak bisa menyelesaikannya.
00:03:58Faktanya, seluruh proses pembuatan ini cukup merepotkan.
00:04:01Qwen sempat terhenti beberapa kali dan saya harus memancingnya lagi, dan ia juga kesulitan
00:04:05memperbaiki eror yang sama berulang-ulang.
00:04:06Belum lagi, jika kita melihat file yang dihasilkan Qwen, ada package JSON di sini,
00:04:10package-lock, dan direktori node_modules yang sama sekali tidak digunakan karena
00:04:15proyek utamanya ada di dalam direktori solar system dengan package JSON serta
00:04:20direktori node_modules yang semestinya.
00:04:21Jadi untuk tes nomor dua, Claude juga menang.
00:04:23Untuk tes terakhir, saya meminta model-model ini memodifikasi basis kode yang ada untuk mengambil tangkapan layar
00:04:28sebuah tweet saat pengguna memasukkan URL ke dalam aplikasi.
00:04:32Kita mulai dengan Claude, yang menghasilkan halaman layar di sebelah sini.
00:04:35Memberikan saya opsi untuk mengubah latar belakang dan padding.
00:04:38Saat pertama kali dijalankan, memang ada eror, yang kemudian saya minta Claude perbaiki.
00:04:42Saya akan menyalin URL tweet oleh Jason ini, tempel di sini, dan klik tangkap.
00:04:47Dan setelah beberapa detik, kita mendapatkan gambarnya di bawah sini dengan opsi untuk mengunduhnya.
00:04:51Dan inilah hasil dari Qwen dengan halaman layar di sini.
00:04:54Sekali lagi, saya akan menyalin tweet ini dan menempelnya di sini.
00:04:56Tulisannya "ekstrak video" alih-alih "ekstrak tangkapan layar" dan ia mulai prosesnya, yang terlihat menjanjikan.
00:05:01Tapi setelah beberapa lama, muncul batas waktu 60 detik, yang mirip dengan eror
00:05:06yang kita alami pada Sonnet.
00:05:07Tapi saya meminta Qwen memperbaikinya dan ia memang memperpanjang batas waktunya, tapi tidak memperbaiki masalah
00:05:11yang menjadi penyebab utamanya.
00:05:13Jadi sepertinya Sonnet 4.5 memenangkan ketiga tes tersebut.
00:05:17Jadi meskipun di atas kertas Qwen 3.5/35b seharusnya mengungguli Sonnet 4.5, dalam pengujian dunia nyata
00:05:24hal itu sepertinya tidak terbukti.
00:05:26Dan jangan salah paham, sangat mengesankan bahwa Anda bisa menjalankan model dengan
00:05:3135 miliar atau bahkan 27 miliar parameter secara lokal di MacBook modern.
00:05:34Tapi terlepas dari apa yang dikatakan orang di Twitter, tidak mungkin model ini bisa mengalahkan
00:05:38Sonnet 4.5 dalam tugas pemrograman, seperti yang Anda lihat dari tes yang saya jalankan tadi.
00:05:42Jadi mengapa hasil benchmark-nya terlihat sangat bagus?
00:05:45Ada kemungkinan besar bahwa Qwen 3.5 dilatih khusus pada pertanyaan benchmark tertentu
00:05:51seperti Sweebench yang terverifikasi sehingga performanya sangat baik pada pertanyaan tersebut.
00:05:55Namun model seperti Sonnet 4.5 kemungkinan dilatih pada dataset yang jauh lebih luas dan kuat,
00:06:01membuatnya mampu menangani tugas-tugas yang lebih bernuansa.
00:06:03Belum lagi model Qwen yang saya uji memiliki 35 miliar parameter, tapi hanya menggunakan 3 miliar
00:06:08selama inferensi.
00:06:09Sedangkan Anthropic, meskipun tidak mempublikasikan angkanya, berdasarkan estimasi, Sonnet
00:06:143 bisa saja dilatih pada 70 miliar parameter, dan tidak diragukan lagi Sonnet 4.5 akan memiliki
00:06:18jauh lebih banyak dari itu.
00:06:19Jadi tidak adil membandingkan model-model ini hanya berdasarkan benchmark saja.
00:06:23Penting untuk selalu melakukan riset sendiri dan menjalankan evaluasi Anda sendiri.
00:06:26Maksud saya, ada alasan mengapa Qwen 3.5 tidak dimasukkan dalam daftar model untuk OpenCode Go.
00:06:31Selagi membahas Qwen, model TTS mereka baru saja dirilis dan Joss punya
00:06:35video bagus yang membahas kloning suara, emosi dalam suara, dan banyak lagi, yang
00:06:39bisa Anda tonton di sini.

Key Takeaway

Meskipun Qwen 3.5 35B menunjukkan potensi besar sebagai model lokal yang efisien, Claude Sonnet 4.5 tetap mendominasi dalam pengujian dunia nyata untuk tugas pemrograman yang kompleks dan bernuansa.

Highlights

Alibaba merilis Qwen 3.5 Seri Medium (35B) yang diklaim mampu menyaingi benchmark Sonnet 4.5.

Keunggulan utama Qwen 3.5 adalah kemampuannya untuk dijalankan secara lokal pada perangkat seperti MacBook Pro modern.

Dalam uji coba pembuatan aplikasi Daftar Tugas (To-Do List)

Timeline

Pengenalan Qwen 3.5 dan Ambisinya

Video dimulai dengan pembahasan rilis terbaru Alibaba yaitu Qwen 3.5 Seri Medium yang memiliki 35 miliar parameter. Narator menyoroti klaim bahwa model ini dapat menandingi Sonnet 4.5 milik Anthropic dalam berbagai benchmark AI. Salah satu daya tarik utamanya adalah fleksibilitas untuk dijalankan secara lokal tanpa harus selalu terhubung ke internet. Narator menyatakan keraguannya terhadap klaim tersebut dan memutuskan untuk melakukan pengujian langsung. Persiapan dilakukan dengan menggunakan OpenRouter untuk Qwen dan mode bersih pada Claude Code untuk Sonnet.

Tes Pertama: Membangun Aplikasi Daftar Tugas

Tugas pertama adalah membuat aplikasi daftar tugas menggunakan React dan Vite dari awal. Sonnet 4.5 menghasilkan aplikasi yang fungsional dengan fitur penyimpanan lokal dan antarmuka standar khas AI. Di sisi lain, Qwen 3.5 awalnya tampak lebih unggul karena menambahkan fitur kategori, tingkat kepentingan, dan struktur komponen yang lebih rapi. Namun, kemenangan ini dianulir setelah diketahui bahwa Qwen menggunakan fitur bantuan tambahan dari platform OpenCode. Saat fitur tersebut dimatikan, performa Sonnet terbukti lebih stabil dan handal secara keseluruhan.

Tes Kedua: Visualisasi Tata Surya Interaktif

Pengujian tingkat menengah melibatkan pembuatan model tata surya interaktif menggunakan pustaka Three.js. Claude berhasil menyelesaikan tugas ini hampir sempurna dalam satu kali percobaan dengan kontrol navigasi yang mulus dan informasi planet yang akurat. Sebaliknya, Qwen 3.5 gagal total dan hanya menghasilkan halaman kosong dengan banyak pesan kesalahan pada konsol. Qwen juga melakukan kesalahan organisasi file dengan menyertakan direktori node_modules yang tidak perlu. Ketidakmampuan Qwen memperbaiki kesalahan berulang menunjukkan keterbatasan logikanya dibandingkan Sonnet.

Tes Ketiga: Modifikasi Kode Pengambilan Gambar

Tantangan terakhir adalah memodifikasi basis kode yang sudah ada untuk mengambil tangkapan layar tweet melalui URL. Sonnet 4.5 mampu memperbaiki kesalahan awal dan berhasil menjalankan fungsi pengambilan gambar lengkap dengan opsi kustomisasi latar belakang. Qwen 3.5 mengalami kebingungan terminologi dengan menyebutnya sebagai "ekstrak video" dan gagal menyelesaikan proses karena masalah batas waktu. Meskipun pengguna meminta perbaikan, Qwen hanya memperpanjang durasi tanpa benar-benar menyelesaikan akar permasalahan kodenya. Hal ini menegaskan bahwa untuk tugas integrasi API yang rumit, Sonnet masih jauh lebih unggul.

Analisis Perbedaan Benchmark dan Realitas

Bagian penutup menganalisis mengapa terdapat kesenjangan antara hasil benchmark yang tinggi dan performa nyata Qwen. Narator menduga adanya optimasi berlebihan pada dataset benchmark seperti Sweebench yang membuat skor terlihat impresif secara artifisial. Secara teknis, perbedaan jumlah parameter antara Qwen 35B dan Sonnet (yang diperkirakan jauh lebih besar) memainkan peran kunci dalam menangani nuansa pemrograman. Pengguna diingatkan untuk selalu melakukan evaluasi mandiri daripada hanya mempercayai hype di media sosial seperti Twitter. Video diakhiri dengan rekomendasi sumber lain mengenai teknologi kloning suara terbaru dari Qwen.

Community Posts

View all posts