00:00:00Awal bulan ini Alibaba merilis Qwen 3.5 dengan model parameter 400 miliar dan
00:00:05versi "max thinking" yang diklaim memiliki benchmark lebih baik dari Opus 4.5 dengan kebutuhan sistem tinggi
00:00:11untuk dijalankan secara lokal.
00:00:12Namun baru minggu ini mereka merilis model Qwen 3.5 Seri Medium yang hampir sama
00:00:17tangguh dengan versi max dan bisa dijalankan secara lokal di MacBook Pro modern, serta diklaim
00:00:22memiliki benchmark lebih baik dari Sonnet 4.5, yang saya tidak percaya, jadi klik subscribe
00:00:27dan mari kita uji kedua model ini.
00:00:31Kebanyakan developer akan mengakui bahwa Sonnet 4.5 adalah model yang hebat, bekerja baik dengan Claude
00:00:35Code, Co-Work, dan seluruh rangkaian Anthropic yang membuat pengalamannya terasa premium.
00:00:40Tetapi Anda harus online agar model ini bisa bekerja dan harganya tidaklah murah.
00:00:44Qwen 3.5 Seri Medium bertujuan untuk mengubah itu semua dengan memungkinkan kita menjalankan
00:00:49model sehebat Sonnet 4.5 secara lokal dan orang-orang di Twitter mulai heboh.
00:00:54Namun saya tidak yakin model ini benar-benar sebagus Sonnet 4.5.
00:00:58Jadi saya akan menguji kedua model ini pada tugas mudah, sedang, dan sulit untuk melihat mana
00:01:02yang performanya lebih baik.
00:01:04Tapi sebelum kita mulai pengujiannya, saya punya sedikit pengakuan.
00:01:07Saya tidak akan menjalankan Qwen 3.5 secara lokal karena MacBook Pro M1 saya yang payah
00:01:12tidak punya memori terpadu yang cukup untuk menjalankan inferensi dengan benar.
00:01:15Jadi saya akan menggunakan Qwen 3.5 35b di OpenRouter yang terhubung ke OpenCode dan
00:01:21saya akan menjalankan Sonnet 4.5 di Claude Code dalam mode bersih, sehingga tidak menggunakan
00:01:25skill, plugin, atau alat MCP saya yang lain.
00:01:27Kita mulai dengan yang sederhana dan meminta model untuk membangun daftar tugas dari awal menggunakan React dan Vite.
00:01:32Jika kita melihat hasil Sonnet 4.5, kita bisa melihat tampilannya memiliki warna ungu AI.
00:01:36Saya bisa menambah item, menandainya sebagai selesai, saya bisa menghapusnya dan
00:01:40jika saya segarkan halamannya, semua tetap ada karena menggunakan penyimpanan lokal.
00:01:44Jika melihat Qwen 3.5, keduanya memiliki gaya yang mirip dan tidak menimpa
00:01:48gaya bawaan yang menyertai Vite.
00:01:51Tapi sekali lagi, saya bisa menambahkan item daftar tugas.
00:01:53Dan di sini kita punya beberapa opsi lain.
00:01:54Jadi kita bisa memilih kategori, kita bisa memilih tingkat kepentingannya dan
00:01:59mungkin tanggal tugas atau tanggal jatuh temponya.
00:02:02Jadi saya bisa mengetik seperti "belanja" dan ia menampilkan tanggal, tingkat kepentingan, dan
00:02:06kategorinya, yang mana ini sangat keren.
00:02:08Mari kita lihat kodenya.
00:02:09Ini dari Sonnet dan di sebelah sini, ia menggunakan useEffect, yang saya rasa untuk
00:02:13keperluan penyimpanan lokal di bagian bawah ini.
00:02:15Menurut saya ini oke saja, tapi saya lebih suka cara lain.
00:02:17Kita punya fungsi "add todo" di sini dan beberapa fungsi lain untuk melakukan tindakan.
00:02:22Seperti beralih status tugas, dan di sini ada hapus tugas.
00:02:25Semuanya terlihat bagus.
00:02:26Dan satu hal yang membuat saya agak terkejut adalah bagian atas yang menyebutkan parsing JSON.
00:02:32Jadi sepertinya ia menyimpannya di penyimpanan lokal sebagai JSON lalu melakukan parsing.
00:02:35Akan lebih baik jika kode ini ada di fungsi terpisah sehingga jika ingin
00:02:38menambah lebih banyak hal, kodenya tidak menumpuk di bagian atas sini.
00:02:42Sekarang, jika kita lihat Qwen, ada beberapa kategori, dan sepertinya tidak menggunakan
00:02:46useEffect, yang mana itu bagus.
00:02:48Jika kita gulir ke bawah, ada "handle submit", nama yang lebih saya sukai.
00:02:51Dan ada juga handle update, handle delete, dan handle toggle completed.
00:02:55Dan satu hal yang sangat saya suka adalah ia memisahkan item tugas ke komponen tersendiri.
00:02:59Jadi alih-alih menumpuk di komponen utama aplikasi, ia membuat
00:03:03komponen baru di sini, yang digunakan di bagian bawah aplikasi karena ada banyak
00:03:07item daftar tugas.
00:03:08Jadi kemenangan jatuh ke Qwen karena menghasilkan daftar tugas dengan fitur yang jauh lebih banyak.
00:03:13Tapi setelah saya menjalankan tes ini, saya sadar bahwa Qwen mengaktifkan fitur superpower
00:03:18di OpenCode.
00:03:19Jadi saya jalankan lagi tanpa fitur itu dan inilah hasil yang kita dapatkan.
00:03:23Jadi saya rasa kemenangan beralih ke Sonnet.
00:03:25Mari kita lanjut ke tes kedua, yaitu membuat tata surya interaktif menggunakan
00:03:29React, Vite, dan Three.js.
00:03:31Claude melakukan pekerjaan yang jauh lebih baik dalam sekali coba.
00:03:33Oke, ada beberapa planet yang kurang, tapi saya bisa mengeklik planet yang ada.
00:03:37Saya klik matahari dan mendapatkan informasi tentangnya.
00:03:39Saya klik Uranus di bawah sini dan juga mendapatkan informasi tentangnya.
00:03:44Pergerakan di situsnya juga mulus, saya bisa menggeser, memutar, memperbesar, dan
00:03:48seterusnya.
00:03:49Dan inilah yang dihasilkan oleh Qwen.
00:03:50Ya, halaman kosong.
00:03:51Jika kita lihat konsolnya, ada eror di sini yang sudah saya berikan ke Qwen
00:03:56berkali-kali, tapi ia tetap tidak bisa menyelesaikannya.
00:03:58Faktanya, seluruh proses pembuatan ini cukup merepotkan.
00:04:01Qwen sempat terhenti beberapa kali dan saya harus memancingnya lagi, dan ia juga kesulitan
00:04:05memperbaiki eror yang sama berulang-ulang.
00:04:06Belum lagi, jika kita melihat file yang dihasilkan Qwen, ada package JSON di sini,
00:04:10package-lock, dan direktori node_modules yang sama sekali tidak digunakan karena
00:04:15proyek utamanya ada di dalam direktori solar system dengan package JSON serta
00:04:20direktori node_modules yang semestinya.
00:04:21Jadi untuk tes nomor dua, Claude juga menang.
00:04:23Untuk tes terakhir, saya meminta model-model ini memodifikasi basis kode yang ada untuk mengambil tangkapan layar
00:04:28sebuah tweet saat pengguna memasukkan URL ke dalam aplikasi.
00:04:32Kita mulai dengan Claude, yang menghasilkan halaman layar di sebelah sini.
00:04:35Memberikan saya opsi untuk mengubah latar belakang dan padding.
00:04:38Saat pertama kali dijalankan, memang ada eror, yang kemudian saya minta Claude perbaiki.
00:04:42Saya akan menyalin URL tweet oleh Jason ini, tempel di sini, dan klik tangkap.
00:04:47Dan setelah beberapa detik, kita mendapatkan gambarnya di bawah sini dengan opsi untuk mengunduhnya.
00:04:51Dan inilah hasil dari Qwen dengan halaman layar di sini.
00:04:54Sekali lagi, saya akan menyalin tweet ini dan menempelnya di sini.
00:04:56Tulisannya "ekstrak video" alih-alih "ekstrak tangkapan layar" dan ia mulai prosesnya, yang terlihat menjanjikan.
00:05:01Tapi setelah beberapa lama, muncul batas waktu 60 detik, yang mirip dengan eror
00:05:06yang kita alami pada Sonnet.
00:05:07Tapi saya meminta Qwen memperbaikinya dan ia memang memperpanjang batas waktunya, tapi tidak memperbaiki masalah
00:05:11yang menjadi penyebab utamanya.
00:05:13Jadi sepertinya Sonnet 4.5 memenangkan ketiga tes tersebut.
00:05:17Jadi meskipun di atas kertas Qwen 3.5/35b seharusnya mengungguli Sonnet 4.5, dalam pengujian dunia nyata
00:05:24hal itu sepertinya tidak terbukti.
00:05:26Dan jangan salah paham, sangat mengesankan bahwa Anda bisa menjalankan model dengan
00:05:3135 miliar atau bahkan 27 miliar parameter secara lokal di MacBook modern.
00:05:34Tapi terlepas dari apa yang dikatakan orang di Twitter, tidak mungkin model ini bisa mengalahkan
00:05:38Sonnet 4.5 dalam tugas pemrograman, seperti yang Anda lihat dari tes yang saya jalankan tadi.
00:05:42Jadi mengapa hasil benchmark-nya terlihat sangat bagus?
00:05:45Ada kemungkinan besar bahwa Qwen 3.5 dilatih khusus pada pertanyaan benchmark tertentu
00:05:51seperti Sweebench yang terverifikasi sehingga performanya sangat baik pada pertanyaan tersebut.
00:05:55Namun model seperti Sonnet 4.5 kemungkinan dilatih pada dataset yang jauh lebih luas dan kuat,
00:06:01membuatnya mampu menangani tugas-tugas yang lebih bernuansa.
00:06:03Belum lagi model Qwen yang saya uji memiliki 35 miliar parameter, tapi hanya menggunakan 3 miliar
00:06:08selama inferensi.
00:06:09Sedangkan Anthropic, meskipun tidak mempublikasikan angkanya, berdasarkan estimasi, Sonnet
00:06:143 bisa saja dilatih pada 70 miliar parameter, dan tidak diragukan lagi Sonnet 4.5 akan memiliki
00:06:18jauh lebih banyak dari itu.
00:06:19Jadi tidak adil membandingkan model-model ini hanya berdasarkan benchmark saja.
00:06:23Penting untuk selalu melakukan riset sendiri dan menjalankan evaluasi Anda sendiri.
00:06:26Maksud saya, ada alasan mengapa Qwen 3.5 tidak dimasukkan dalam daftar model untuk OpenCode Go.
00:06:31Selagi membahas Qwen, model TTS mereka baru saja dirilis dan Joss punya
00:06:35video bagus yang membahas kloning suara, emosi dalam suara, dan banyak lagi, yang
00:06:39bisa Anda tonton di sini.