Apakah Google Baru Saja Membuat Model Edge AI TERBAIK? (Gemma 4)

BBetter Stack
컴퓨터/소프트웨어어학(외국어)가전제품/카메라스마트폰/모바일AI/미래기술

Transcript

00:00:00Minggu lalu, Google melakukan sesuatu yang tidak terduga.
00:00:02Mereka merilis model sumber terbuka yang sesungguhnya di bawah lisensi Apache 2.0.
00:00:08Model ini bernama Gemma 4 dan memiliki versi khusus edge sekecil 2,3 miliar parameter
00:00:14yang dirancang untuk berjalan sepenuhnya secara offline pada perangkat seperti iPhone, ponsel unggulan Android,
00:00:21atau bahkan pada Raspberry Pi.
00:00:23Tampaknya persaingan untuk membangun model kecil yang mutakhir benar-benar memanas.
00:00:28Beberapa minggu lalu saya melakukan beberapa pengujian pada QWAN 3.5 untuk melihat kemampuannya
00:00:33menembus batas AI lokal, tetapi sekarang Google menjanjikan kepadatan kecerdasan yang lebih tinggi.
00:00:39Jadi dalam video ini, kita akan melakukan tes serupa pada Gemma 4 untuk melihat apakah model ini benar-benar
00:00:44model kecil terbaik yang ada saat ini.
00:00:47Ini akan sangat menyenangkan, jadi mari kita mulai.
00:00:53Jadi, apa yang begitu unik dari model Gemma 4 baru ini?
00:00:57Perubahan teknis yang nyata di sini adalah sesuatu yang disebut Google sebagai "per-layer embeddings".
00:01:03Dalam transformer tradisional, sebuah token mendapat satu embedding di awal yang harus membawa
00:01:08seluruh maknanya melalui setiap lapisan.
00:01:11Tetapi di Gemma 4, setiap lapisan memiliki set embedding-nya sendiri, memungkinkan model untuk memasukkan
00:01:16informasi baru tepat di tempat yang dibutuhkan.
00:01:19Inilah sebabnya Anda melihat huruf E pada nama model E2B dan E4B.
00:01:24Itu singkatan dari parameter efektif.
00:01:27Meskipun model bekerja dengan kedalaman penalaran model 5 miliar parameter, ia hanya menggunakan
00:01:32sekitar 2,3 miliar parameter aktif selama inferensi.
00:01:36Hal ini menghasilkan kepadatan kecerdasan yang jauh lebih tinggi, memungkinkannya menangani logika kompleks
00:01:42sambil menggunakan RAM kurang dari 1,5 gigabyte.
00:01:46Dan selain performa teks, Gemma 4 bersifat multimodal secara native.
00:01:50Ini berarti penglihatan, teks, dan bahkan audio diproses dalam arsitektur terpadu yang sama
00:01:56bukan sekadar ditempelkan sebagai modul terpisah.
00:01:59Arsitektur ini memungkinkan mode berpikir baru yang menggunakan rantai penalaran internal untuk memverifikasi
00:02:05logikanya sendiri sebelum memberikan jawaban kepada Anda.
00:02:08Ini dirancang khusus untuk mencegah loop tak terbatas dan kesalahan logika yang sering
00:02:13mengganggu model-model kecil.
00:02:15Model ini juga dilengkapi dengan jendela konteks 128K dan dukungan untuk lebih dari 140 bahasa, yang seharusnya
00:02:22membuatnya jauh lebih mumpuni dalam tugas-tugas seperti OCR kompleks atau identifikasi bahasa lokal.
00:02:29Dan untuk memamerkan kemampuan ini, Google merilis beberapa benchmark yang membuka mata.
00:02:34Dalam tes internal mereka, model E4B mencapai skor 42,5% pada benchmark matematika AIME 2026,
00:02:43yang berarti lebih dari dua kali lipat skor model generasi sebelumnya yang jauh lebih besar.
00:02:49Mereka juga mendemonstrasikan potensi agen model ini pada T2 bench, di mana ia menunjukkan
00:02:54lonjakan besar dalam akurasi penggunaan alat (tool use).
00:02:57Mereka juga menunjukkan potensi agen model tersebut melalui fitur yang disebut keterampilan agen.
00:03:02Alih-alih hanya menghasilkan teks statis, model tersebut terlihat menggunakan pemanggilan fungsi native
00:03:07untuk menangani alur kerja multi-langkah seperti menanyakan data langsung ke Wikipedia atau membangun
00:03:13widget panggilan suara hewan secara menyeluruh.
00:03:15Semua itu terdengar mengesankan, tapi mari kita coba sendiri dan lihat cara kerjanya.
00:03:20Dalam video QUEN 3.5 sebelumnya, saya menguji model kecil tersebut dengan menjalankannya secara lokal tanpa
00:03:25koneksi internet menggunakan LMStudio dan CLINE.
00:03:28Saya akan menggunakan pengaturan yang sama untuk menguji GEMMA 4.
00:03:32Pertama kita harus mengunduh model di LMStudio, lalu meningkatkan jendela konteks yang tersedia
00:03:37dan memulai servernya.
00:03:39Kita kemudian bisa masuk ke CLINE dan menghubungkan server LMStudio lokal kita, pilih model E2B,
00:03:45matikan koneksi internet kita dan mulai pengujiannya.
00:03:49Terakhir kali kita melihat bahwa QUEN 3.5 cukup baik dalam membuat situs web kafe sederhana menggunakan HTML,
00:03:55CSS, dan JavaScript dengan dua model parameter terkecil mereka.
00:04:00Mari gunakan prompt yang sama dan lihat apakah GEMMA 4 sama bagusnya dalam tugas pemrograman ini.
00:04:05Model E2B membutuhkan waktu sekitar 1,5 menit untuk menyelesaikan tugas ini.
00:04:10Dan untuk model dengan 2,3 miliar parameter aktif, hasilnya sejujurnya agak mengecewakan
00:04:16jika dibandingkan dengan hasil keluaran QUEN yang hanya menggunakan 0,8 miliar parameter.
00:04:22Hal yang paling menyebalkan adalah GEMMA menambahkan daftar tugas di akhir file HTML serta
00:04:28di akhir file CSS sehingga saya harus menghapusnya secara manual dari kedua file tersebut sebelum
00:04:33membuka halamannya.
00:04:34Ia juga mengklaim telah menulis file JavaScript, padahal kenyataannya tidak ada file JS yang dihasilkan
00:04:40pada hasil akhirnya, jadi hasil tes E2B agak mengecewakan.
00:04:45Tetapi situasi ini meningkat cukup pesat saat beralih ke versi model E4B.
00:04:50Versi ini membutuhkan waktu sekitar 3,5 menit untuk menyelesaikan tugas, tetapi hasil akhirnya secara nyata
00:04:55lebih baik.
00:04:56Mungkin bukan dalam hal desain, tampilannya masih sangat hambar, tetapi versi ini sebenarnya memiliki
00:05:00fungsionalitas kartu belanja yang berfungsi, yang tidak bisa dihasilkan oleh tes sebelumnya, baik untuk QUEN maupun GEMMA,
00:05:06secara berhasil.
00:05:08Jadi versi E4B sudah merupakan peningkatan besar dari versi E2B, tetapi jelas tidak ada yang
00:05:15serius mempertimbangkan penggunaan model sekecil itu untuk pemrograman yang kompleks atau serius.
00:05:20Saya hanya melakukan tes ini karena penasaran untuk melihat apakah jumlah parameter yang sesedikit itu
00:05:25masih dapat menghasilkan hasil yang berarti untuk tugas pemrograman yang diberikan.
00:05:29Baiklah sekarang mari kita lihat bagaimana performa GEMMA 4 pada perangkat edge seperti iPhone.
00:05:34Dalam video QUEN 3.5 saya, saya membangun aplikasi iOS kustom yang mampu menjalankan model tersebut
00:05:40pada Metal GPU native menggunakan kerangka kerja MLX milik Swift.
00:05:44Meskipun GEMMA 4 bersifat sumber terbuka, sayangnya belum ada binding MLX yang tersedia untuk model ini
00:05:49saat ini, yang mampu menjalankan model ini di iOS dengan kemampuan multimodal.
00:05:56Dan Google sendiri menjalankan GEMMA 4 pada aplikasi AI Edge Gallery mereka menggunakan
00:06:01kerangka kerja inferensi mereka sendiri yang disebut Lite RTLM, yang sayangnya juga belum mendukung binding iOS
00:06:07saat ini.
00:06:08Jadi untuk mencobanya di iPhone, pilihan terbaik kita sekarang adalah menggunakan aplikasi Edge Gallery mereka.
00:06:13Jadi kita akan melakukan pengujian pada aplikasi mereka sendiri dan melihat bagaimana performanya.
00:06:18Mari kita pergi ke bagian obrolan AI.
00:06:20Dan di sini kita akan diminta untuk mengunduh GEMMA 4 versi E2B.
00:06:25Dan Anda juga memiliki opsi untuk mengunduh versi E4B, tetapi entah mengapa aplikasi tersebut mengatakan
00:06:29bahwa saya tidak memiliki ruang yang cukup untuk mengunduhnya, yang saya yakin itu tidak benar, jadi mungkin itu
00:06:34adalah bug dalam aplikasinya.
00:06:36Tapi bagaimanapun juga, sekarang saya sudah mengunduh modelnya, kita akhirnya bisa mulai menggunakannya.
00:06:41Mari kita mulai dengan mengetik "halo" sederhana.
00:06:43Wah, apakah Anda melihat betapa cepat responsnya?
00:06:46Jauh lebih cepat daripada QUEN 3.5.
00:06:48Mungkin ini adalah keajaiban dari kerangka kerja Lite RTLM yang mereka gunakan.
00:06:53Sekarang mari kita coba tes cuci mobil yang terkenal dan lihat apakah GEMMA menjawabnya dengan benar.
00:06:57Wah, ia memberiku respons yang sangat panjang.
00:07:00Dan di akhir, kita melihat bahwa rekomendasi akhirnya adalah menyetir, yang mana benar,
00:07:06tapi saya harus mempertimbangkan fakta bahwa ia melihat dari segi kenyamanan dan kemudahan
00:07:10dan bukan pada fakta logis yang sebenarnya.
00:07:13Jadi saya tidak tahu, model ini bisa dibilang lulus tes, tapi juga bisa dibilang tidak di saat yang sama.
00:07:18Baiklah, sekarang mari kita beralih ke bagian tanya gambar dan mari kita lihat apakah GEMMA bisa mengenali
00:07:24anjing di gambar ini.
00:07:26Ia berhasil mengidentifikasi bahwa itu memang seekor anjing dan memberikan beberapa detail lain tentang gambar tersebut.
00:07:31Jadi itu cukup keren.
00:07:32Tetapi jika saya bertanya, apa ras anjing tersebut?
00:07:35Ia menjawab bahwa itu adalah Border Collie, yang mana tidak benar.
00:07:39Anjing itu sebenarnya adalah seekor Corgi.
00:07:40Tetapi saya harus katakan, untuk parameter aktif yang hanya sedikit di atas 2 miliar, respons ini tetap
00:07:45cukup bagus.
00:07:46Terakhir, mari kita coba tes OCR.
00:07:48Jadi jika Anda menonton video saya sebelumnya dengan Quen 3.5, Anda akan ingat bahwa saya mengujinya dengan
00:07:54gambar yang berisi teks di dalamnya, yang dalam bahasa Latvia, yang juga bahasa ibu saya.
00:07:59Nah, GEMMA membanggakan dirinya mampu memahami hingga 140 bahasa.
00:08:05Jadi saya asumsikan ia seharusnya lulus tes ini dengan mudah.
00:08:08Dan ya, memang benar, ia mengidentifikasi bahwa bahasanya adalah Latvia.
00:08:13Dan saya terkejut bahwa sebagian besar teksnya sebenarnya cukup tepat.
00:08:16Dengan beberapa pengecualian kecil, saya melihat bahwa beberapa kata tidak ada dan beberapa struktur
00:08:22gramatikanya terasa sangat aneh.
00:08:24Tapi itu tetap sangat mengesankan.
00:08:26Jadi saya akan memberikan kelulusan untuk tes ini.
00:08:28Sekarang, ini sebenarnya menimbulkan pertanyaan, bisakah saya mengobrol dengan model ini dalam bahasa Latvia?
00:08:32Jadi biarkan saya mencobanya berikutnya.
00:08:33Saya melihat bahwa responsnya sebenarnya dalam bahasa Latvia.
00:08:36Tetapi sekali lagi, struktur gramatikanya sangat aneh.
00:08:39Dan tidak ada orang yang berbicara seperti itu.
00:08:41Tetapi tetap saja, bahasa Latvia adalah bahasa yang sangat kecil.
00:08:44Jadi ini sudah mengesankan bahwa ia memiliki semua pengetahuan itu dalam model sekecil itu.
00:08:48Dan mumpung saya sedang mencobanya, saya akan bertanya, siapa presiden AS saat ini untuk melihat
00:08:53kapan batas pengetahuan (knowledge cutoff) dari GEMMA 4?
00:08:56Dan ia menjawab bahwa presidennya adalah Joe Biden.
00:08:58Dan kemudian jika saya bertanya, kapan batas pengetahuan Anda?
00:09:02Ia akan memberi tahu saya bahwa itu adalah Januari 2025, yang mana masuk akal.
00:09:06Jadi begitulah.
00:09:07Itulah GEMMA 4, model sumber terbuka terbaru dari Google.
00:09:10Dan sejujurnya, model ini tampaknya cukup bagus.
00:09:14Ia melakukan apa yang diiklankan, meskipun kurang kreativitas dalam desain web.
00:09:19Tapi selain itu, model kecil, seperti yang baru saja kita lihat, lebih dari mampu untuk berhasil
00:09:24menyelesaikan semua tugas yang saya berikan padanya.
00:09:27Sayang sekali kita masih belum memiliki binding MLX untuk model ini, karena saya sangat ingin
00:09:32menggunakan GEMMA 4 secara lokal pada aplikasi iOS kustom.
00:09:36Tapi saya yakin tidak butuh waktu lama bagi Google untuk mengeluarkan rilis ini ke publik.
00:09:41Dan sementara itu, saya terus memantau proyek komunitas seperti SwiftLM, yang
00:09:46sudah mengerjakan binding native tidak resmi untuk model-model ini.
00:09:50Jadi itulah pendapat saya tentang model ini.
00:09:52Apa pendapat Anda tentang GEMMA 4?
00:09:54Sudahkah Anda mencobanya?
00:09:55Apakah Anda akan menggunakannya?
00:09:56Beri tahu kami di kolom komentar di bawah.
00:09:59Dan teman-teman, jika Anda menyukai jenis perincian teknis seperti ini, beri tahu saya dengan menekan
00:10:03tombol suka di bawah video.
00:10:05Dan juga jangan lupa untuk berlangganan saluran kami.
00:10:07Saya Andres dari BetterStack dan sampai jumpa di video-video berikutnya.

Key Takeaway

Gemma 4 menghadirkan kepadatan kecerdasan tinggi pada perangkat edge melalui arsitektur per-layer embeddings dan efisiensi RAM di bawah 1,5 GB untuk menjalankan tugas multimodal secara offline.

Highlights

Gemma 4 hadir sebagai model sumber terbuka sejati di bawah lisensi Apache 2.0 dengan varian terkecil sebesar 2,3 miliar parameter.

Arsitektur per-layer embeddings pada Gemma 4 memungkinkan setiap lapisan memiliki set embedding sendiri untuk memasukkan informasi baru secara spesifik.

Model E4B mencapai skor 42,5% pada benchmark matematika AIME 2026 yang merupakan peningkatan performa dua kali lipat dibanding generasi sebelumnya.

Gemma 4 mampu menjalankan logika kompleks dan tugas multimodal menggunakan RAM kurang dari 1,5 gigabyte pada perangkat edge.

Versi E4B berhasil menghasilkan fungsionalitas kartu belanja yang bekerja pada pengujian pembuatan situs web sederhana.

Batas pengetahuan (knowledge cutoff) Gemma 4 berada pada bulan Januari 2025 dengan dukungan lebih dari 140 bahasa.

Kecepatan inferensi Gemma 4 pada perangkat iPhone menggunakan kerangka kerja Lite RTLM melampaui performa QWAN 3.5.

Timeline

Arsitektur dan Spesifikasi Teknis Gemma 4

  • Lisensi Apache 2.0 menjadikan Gemma 4 sebagai model sumber terbuka yang dapat diakses secara luas.
  • Teknologi per-layer embeddings menggantikan sistem embedding tunggal pada transformer tradisional.
  • Efisiensi parameter aktif sebesar 2,3 miliar memungkinkan penalaran setingkat model 5 miliar parameter.
  • Arsitektur multimodal native memproses teks, penglihatan, dan audio dalam satu sistem terpadu.

Penggunaan parameter efektif (E2B dan E4B) mengoptimalkan penggunaan memori sehingga model dapat berjalan pada perangkat dengan spesifikasi rendah seperti Raspberry Pi. Rantai penalaran internal berfungsi memverifikasi logika secara mandiri untuk mencegah kesalahan repetitif yang sering terjadi pada model kecil. Jendela konteks sebesar 128K mendukung pemrosesan data dalam jumlah besar sekaligus.

Benchmark Performa dan Kemampuan Agen

  • Skor 42,5% pada AIME 2026 menunjukkan lonjakan kemampuan matematika yang signifikan.
  • Fitur keterampilan agen mendukung pemanggilan fungsi native untuk alur kerja multi-langkah.
  • Akurasi penggunaan alat mengalami peningkatan besar berdasarkan hasil tes T2 bench.

Data internal menunjukkan bahwa model E4B melampaui performa model generasi sebelumnya yang memiliki ukuran jauh lebih besar. Kemampuan fungsionalnya mencakup penarikan data langsung dari Wikipedia dan pembangunan widget suara secara otomatis. Hal ini menandai pergeseran dari model penghasil teks statis menuju asisten digital yang proaktif.

Pengujian Lokal dan Kemampuan Pemrograman

  • Varian E2B membutuhkan 1,5 menit untuk membuat situs web namun gagal menghasilkan file JavaScript.
  • Model E4B menyelesaikan tugas pemrograman dalam 3,5 menit dengan fungsionalitas yang lebih lengkap.
  • Versi E4B menunjukkan keunggulan dalam logika aplikasi melalui pembuatan fitur kartu belanja yang berfungsi.

Pengujian dilakukan secara offline menggunakan LMStudio dan CLINE untuk memastikan privasi dan kinerja lokal. Meskipun desain visual yang dihasilkan masih sederhana, perbedaan kemampuan logika antara versi 2,3 miliar dan 4 miliar parameter terlihat sangat jelas dalam eksekusi kode. Penambahan teks tidak relevan pada file HTML dan CSS menjadi kendala kecil yang ditemukan pada versi terkecil.

Implementasi dan Uji Coba pada Perangkat iPhone

  • Kerangka kerja Lite RTLM memberikan kecepatan respons yang sangat tinggi pada perangkat seluler.
  • Model berhasil mengidentifikasi keberadaan objek anjing dalam gambar meskipun terjadi kesalahan klasifikasi ras.
  • Kemampuan OCR mencakup bahasa dengan basis pengguna kecil seperti bahasa Latvia dengan akurasi teks yang tinggi.

Ketiadaan binding MLX saat ini membatasi penggunaan model pada aplikasi iOS kustom sehingga pengujian dialihkan ke AI Edge Gallery. Respon instan pada teks sapaan menunjukkan optimasi perangkat keras yang efektif melalui integrasi GPU. Meskipun struktur tata bahasa pada bahasa non-Inggris terkadang terasa kaku, pemahaman konteks bahasa tetap berada pada level yang memadai untuk ukuran model tersebut.

Batas Pengetahuan dan Status Pengembangan Komunitas

  • Data pelatihan Gemma 4 mencakup informasi hingga pembaruan terakhir pada Januari 2025.
  • Proyek komunitas seperti SwiftLM sedang mengembangkan binding native tidak resmi untuk integrasi perangkat lunak.
  • Dukungan multibahasa mencakup lebih dari 140 bahasa secara fungsional.

Identifikasi Joe Biden sebagai presiden menunjukkan batas pengetahuan yang relevan dengan awal tahun 2025. Pengembang saat ini menantikan rilis resmi binding untuk memperluas implementasi lokal pada ekosistem seluler. Keberhasilan penyelesaian tugas-tugas dasar mengonfirmasi posisi Gemma 4 sebagai pesaing kuat dalam kategori model AI edge.

Community Posts

View all posts