00:00:00Minggu lalu, Google melakukan sesuatu yang tidak terduga.
00:00:02Mereka merilis model sumber terbuka yang sesungguhnya di bawah lisensi Apache 2.0.
00:00:08Model ini bernama Gemma 4 dan memiliki versi khusus edge sekecil 2,3 miliar parameter
00:00:14yang dirancang untuk berjalan sepenuhnya secara offline pada perangkat seperti iPhone, ponsel unggulan Android,
00:00:21atau bahkan pada Raspberry Pi.
00:00:23Tampaknya persaingan untuk membangun model kecil yang mutakhir benar-benar memanas.
00:00:28Beberapa minggu lalu saya melakukan beberapa pengujian pada QWAN 3.5 untuk melihat kemampuannya
00:00:33menembus batas AI lokal, tetapi sekarang Google menjanjikan kepadatan kecerdasan yang lebih tinggi.
00:00:39Jadi dalam video ini, kita akan melakukan tes serupa pada Gemma 4 untuk melihat apakah model ini benar-benar
00:00:44model kecil terbaik yang ada saat ini.
00:00:47Ini akan sangat menyenangkan, jadi mari kita mulai.
00:00:53Jadi, apa yang begitu unik dari model Gemma 4 baru ini?
00:00:57Perubahan teknis yang nyata di sini adalah sesuatu yang disebut Google sebagai "per-layer embeddings".
00:01:03Dalam transformer tradisional, sebuah token mendapat satu embedding di awal yang harus membawa
00:01:08seluruh maknanya melalui setiap lapisan.
00:01:11Tetapi di Gemma 4, setiap lapisan memiliki set embedding-nya sendiri, memungkinkan model untuk memasukkan
00:01:16informasi baru tepat di tempat yang dibutuhkan.
00:01:19Inilah sebabnya Anda melihat huruf E pada nama model E2B dan E4B.
00:01:24Itu singkatan dari parameter efektif.
00:01:27Meskipun model bekerja dengan kedalaman penalaran model 5 miliar parameter, ia hanya menggunakan
00:01:32sekitar 2,3 miliar parameter aktif selama inferensi.
00:01:36Hal ini menghasilkan kepadatan kecerdasan yang jauh lebih tinggi, memungkinkannya menangani logika kompleks
00:01:42sambil menggunakan RAM kurang dari 1,5 gigabyte.
00:01:46Dan selain performa teks, Gemma 4 bersifat multimodal secara native.
00:01:50Ini berarti penglihatan, teks, dan bahkan audio diproses dalam arsitektur terpadu yang sama
00:01:56bukan sekadar ditempelkan sebagai modul terpisah.
00:01:59Arsitektur ini memungkinkan mode berpikir baru yang menggunakan rantai penalaran internal untuk memverifikasi
00:02:05logikanya sendiri sebelum memberikan jawaban kepada Anda.
00:02:08Ini dirancang khusus untuk mencegah loop tak terbatas dan kesalahan logika yang sering
00:02:13mengganggu model-model kecil.
00:02:15Model ini juga dilengkapi dengan jendela konteks 128K dan dukungan untuk lebih dari 140 bahasa, yang seharusnya
00:02:22membuatnya jauh lebih mumpuni dalam tugas-tugas seperti OCR kompleks atau identifikasi bahasa lokal.
00:02:29Dan untuk memamerkan kemampuan ini, Google merilis beberapa benchmark yang membuka mata.
00:02:34Dalam tes internal mereka, model E4B mencapai skor 42,5% pada benchmark matematika AIME 2026,
00:02:43yang berarti lebih dari dua kali lipat skor model generasi sebelumnya yang jauh lebih besar.
00:02:49Mereka juga mendemonstrasikan potensi agen model ini pada T2 bench, di mana ia menunjukkan
00:02:54lonjakan besar dalam akurasi penggunaan alat (tool use).
00:02:57Mereka juga menunjukkan potensi agen model tersebut melalui fitur yang disebut keterampilan agen.
00:03:02Alih-alih hanya menghasilkan teks statis, model tersebut terlihat menggunakan pemanggilan fungsi native
00:03:07untuk menangani alur kerja multi-langkah seperti menanyakan data langsung ke Wikipedia atau membangun
00:03:13widget panggilan suara hewan secara menyeluruh.
00:03:15Semua itu terdengar mengesankan, tapi mari kita coba sendiri dan lihat cara kerjanya.
00:03:20Dalam video QUEN 3.5 sebelumnya, saya menguji model kecil tersebut dengan menjalankannya secara lokal tanpa
00:03:25koneksi internet menggunakan LMStudio dan CLINE.
00:03:28Saya akan menggunakan pengaturan yang sama untuk menguji GEMMA 4.
00:03:32Pertama kita harus mengunduh model di LMStudio, lalu meningkatkan jendela konteks yang tersedia
00:03:37dan memulai servernya.
00:03:39Kita kemudian bisa masuk ke CLINE dan menghubungkan server LMStudio lokal kita, pilih model E2B,
00:03:45matikan koneksi internet kita dan mulai pengujiannya.
00:03:49Terakhir kali kita melihat bahwa QUEN 3.5 cukup baik dalam membuat situs web kafe sederhana menggunakan HTML,
00:03:55CSS, dan JavaScript dengan dua model parameter terkecil mereka.
00:04:00Mari gunakan prompt yang sama dan lihat apakah GEMMA 4 sama bagusnya dalam tugas pemrograman ini.
00:04:05Model E2B membutuhkan waktu sekitar 1,5 menit untuk menyelesaikan tugas ini.
00:04:10Dan untuk model dengan 2,3 miliar parameter aktif, hasilnya sejujurnya agak mengecewakan
00:04:16jika dibandingkan dengan hasil keluaran QUEN yang hanya menggunakan 0,8 miliar parameter.
00:04:22Hal yang paling menyebalkan adalah GEMMA menambahkan daftar tugas di akhir file HTML serta
00:04:28di akhir file CSS sehingga saya harus menghapusnya secara manual dari kedua file tersebut sebelum
00:04:33membuka halamannya.
00:04:34Ia juga mengklaim telah menulis file JavaScript, padahal kenyataannya tidak ada file JS yang dihasilkan
00:04:40pada hasil akhirnya, jadi hasil tes E2B agak mengecewakan.
00:04:45Tetapi situasi ini meningkat cukup pesat saat beralih ke versi model E4B.
00:04:50Versi ini membutuhkan waktu sekitar 3,5 menit untuk menyelesaikan tugas, tetapi hasil akhirnya secara nyata
00:04:55lebih baik.
00:04:56Mungkin bukan dalam hal desain, tampilannya masih sangat hambar, tetapi versi ini sebenarnya memiliki
00:05:00fungsionalitas kartu belanja yang berfungsi, yang tidak bisa dihasilkan oleh tes sebelumnya, baik untuk QUEN maupun GEMMA,
00:05:06secara berhasil.
00:05:08Jadi versi E4B sudah merupakan peningkatan besar dari versi E2B, tetapi jelas tidak ada yang
00:05:15serius mempertimbangkan penggunaan model sekecil itu untuk pemrograman yang kompleks atau serius.
00:05:20Saya hanya melakukan tes ini karena penasaran untuk melihat apakah jumlah parameter yang sesedikit itu
00:05:25masih dapat menghasilkan hasil yang berarti untuk tugas pemrograman yang diberikan.
00:05:29Baiklah sekarang mari kita lihat bagaimana performa GEMMA 4 pada perangkat edge seperti iPhone.
00:05:34Dalam video QUEN 3.5 saya, saya membangun aplikasi iOS kustom yang mampu menjalankan model tersebut
00:05:40pada Metal GPU native menggunakan kerangka kerja MLX milik Swift.
00:05:44Meskipun GEMMA 4 bersifat sumber terbuka, sayangnya belum ada binding MLX yang tersedia untuk model ini
00:05:49saat ini, yang mampu menjalankan model ini di iOS dengan kemampuan multimodal.
00:05:56Dan Google sendiri menjalankan GEMMA 4 pada aplikasi AI Edge Gallery mereka menggunakan
00:06:01kerangka kerja inferensi mereka sendiri yang disebut Lite RTLM, yang sayangnya juga belum mendukung binding iOS
00:06:07saat ini.
00:06:08Jadi untuk mencobanya di iPhone, pilihan terbaik kita sekarang adalah menggunakan aplikasi Edge Gallery mereka.
00:06:13Jadi kita akan melakukan pengujian pada aplikasi mereka sendiri dan melihat bagaimana performanya.
00:06:18Mari kita pergi ke bagian obrolan AI.
00:06:20Dan di sini kita akan diminta untuk mengunduh GEMMA 4 versi E2B.
00:06:25Dan Anda juga memiliki opsi untuk mengunduh versi E4B, tetapi entah mengapa aplikasi tersebut mengatakan
00:06:29bahwa saya tidak memiliki ruang yang cukup untuk mengunduhnya, yang saya yakin itu tidak benar, jadi mungkin itu
00:06:34adalah bug dalam aplikasinya.
00:06:36Tapi bagaimanapun juga, sekarang saya sudah mengunduh modelnya, kita akhirnya bisa mulai menggunakannya.
00:06:41Mari kita mulai dengan mengetik "halo" sederhana.
00:06:43Wah, apakah Anda melihat betapa cepat responsnya?
00:06:46Jauh lebih cepat daripada QUEN 3.5.
00:06:48Mungkin ini adalah keajaiban dari kerangka kerja Lite RTLM yang mereka gunakan.
00:06:53Sekarang mari kita coba tes cuci mobil yang terkenal dan lihat apakah GEMMA menjawabnya dengan benar.
00:06:57Wah, ia memberiku respons yang sangat panjang.
00:07:00Dan di akhir, kita melihat bahwa rekomendasi akhirnya adalah menyetir, yang mana benar,
00:07:06tapi saya harus mempertimbangkan fakta bahwa ia melihat dari segi kenyamanan dan kemudahan
00:07:10dan bukan pada fakta logis yang sebenarnya.
00:07:13Jadi saya tidak tahu, model ini bisa dibilang lulus tes, tapi juga bisa dibilang tidak di saat yang sama.
00:07:18Baiklah, sekarang mari kita beralih ke bagian tanya gambar dan mari kita lihat apakah GEMMA bisa mengenali
00:07:24anjing di gambar ini.
00:07:26Ia berhasil mengidentifikasi bahwa itu memang seekor anjing dan memberikan beberapa detail lain tentang gambar tersebut.
00:07:31Jadi itu cukup keren.
00:07:32Tetapi jika saya bertanya, apa ras anjing tersebut?
00:07:35Ia menjawab bahwa itu adalah Border Collie, yang mana tidak benar.
00:07:39Anjing itu sebenarnya adalah seekor Corgi.
00:07:40Tetapi saya harus katakan, untuk parameter aktif yang hanya sedikit di atas 2 miliar, respons ini tetap
00:07:45cukup bagus.
00:07:46Terakhir, mari kita coba tes OCR.
00:07:48Jadi jika Anda menonton video saya sebelumnya dengan Quen 3.5, Anda akan ingat bahwa saya mengujinya dengan
00:07:54gambar yang berisi teks di dalamnya, yang dalam bahasa Latvia, yang juga bahasa ibu saya.
00:07:59Nah, GEMMA membanggakan dirinya mampu memahami hingga 140 bahasa.
00:08:05Jadi saya asumsikan ia seharusnya lulus tes ini dengan mudah.
00:08:08Dan ya, memang benar, ia mengidentifikasi bahwa bahasanya adalah Latvia.
00:08:13Dan saya terkejut bahwa sebagian besar teksnya sebenarnya cukup tepat.
00:08:16Dengan beberapa pengecualian kecil, saya melihat bahwa beberapa kata tidak ada dan beberapa struktur
00:08:22gramatikanya terasa sangat aneh.
00:08:24Tapi itu tetap sangat mengesankan.
00:08:26Jadi saya akan memberikan kelulusan untuk tes ini.
00:08:28Sekarang, ini sebenarnya menimbulkan pertanyaan, bisakah saya mengobrol dengan model ini dalam bahasa Latvia?
00:08:32Jadi biarkan saya mencobanya berikutnya.
00:08:33Saya melihat bahwa responsnya sebenarnya dalam bahasa Latvia.
00:08:36Tetapi sekali lagi, struktur gramatikanya sangat aneh.
00:08:39Dan tidak ada orang yang berbicara seperti itu.
00:08:41Tetapi tetap saja, bahasa Latvia adalah bahasa yang sangat kecil.
00:08:44Jadi ini sudah mengesankan bahwa ia memiliki semua pengetahuan itu dalam model sekecil itu.
00:08:48Dan mumpung saya sedang mencobanya, saya akan bertanya, siapa presiden AS saat ini untuk melihat
00:08:53kapan batas pengetahuan (knowledge cutoff) dari GEMMA 4?
00:08:56Dan ia menjawab bahwa presidennya adalah Joe Biden.
00:08:58Dan kemudian jika saya bertanya, kapan batas pengetahuan Anda?
00:09:02Ia akan memberi tahu saya bahwa itu adalah Januari 2025, yang mana masuk akal.
00:09:06Jadi begitulah.
00:09:07Itulah GEMMA 4, model sumber terbuka terbaru dari Google.
00:09:10Dan sejujurnya, model ini tampaknya cukup bagus.
00:09:14Ia melakukan apa yang diiklankan, meskipun kurang kreativitas dalam desain web.
00:09:19Tapi selain itu, model kecil, seperti yang baru saja kita lihat, lebih dari mampu untuk berhasil
00:09:24menyelesaikan semua tugas yang saya berikan padanya.
00:09:27Sayang sekali kita masih belum memiliki binding MLX untuk model ini, karena saya sangat ingin
00:09:32menggunakan GEMMA 4 secara lokal pada aplikasi iOS kustom.
00:09:36Tapi saya yakin tidak butuh waktu lama bagi Google untuk mengeluarkan rilis ini ke publik.
00:09:41Dan sementara itu, saya terus memantau proyek komunitas seperti SwiftLM, yang
00:09:46sudah mengerjakan binding native tidak resmi untuk model-model ini.
00:09:50Jadi itulah pendapat saya tentang model ini.
00:09:52Apa pendapat Anda tentang GEMMA 4?
00:09:54Sudahkah Anda mencobanya?
00:09:55Apakah Anda akan menggunakannya?
00:09:56Beri tahu kami di kolom komentar di bawah.
00:09:59Dan teman-teman, jika Anda menyukai jenis perincian teknis seperti ini, beri tahu saya dengan menekan
00:10:03tombol suka di bawah video.
00:10:05Dan juga jangan lupa untuk berlangganan saluran kami.
00:10:07Saya Andres dari BetterStack dan sampai jumpa di video-video berikutnya.