Google Baru Saja Memperbaiki Masalah Terbesar pada AI Multimodal (Gemma 4 12B)

BBetter Stack
Computing/SoftwareConsumer Electronics

Transcript

00:00:00Google baru saja meluncurkan model Gemma 4 12 miliar parameter terbaru mereka dan ini adalah terobosan.
00:00:06Tidak, serius, ini bukan clickbait. Model ini memang sebuah terobosan dalam cara pembuatannya.
00:00:13Hal yang membedakan ini dari semua model AI lainnya adalah fakta bahwa model ini sepenuhnya
00:00:18tanpa encoder. Sekarang, apa artinya itu, bagaimana cara kerjanya, dan mengapa ini menjadi masalah besar?
00:00:24Nah, itu semua adalah pertanyaan bagus yang akan kita bahas di video hari ini. Ini akan sangat
00:00:29menyenangkan. Jadi mari kita bahas. Jadi model Gemma 4 12 miliar memiliki arsitektur baru yang
00:00:39benar-benar berbeda dari cara kerja model multimodal lainnya. Model multimodal. Ya ampun,
00:00:46itu benar-benar membuat lidah kelu. Jadi untuk memahami mengapa ini begitu penting, kita harus
00:00:51melihat bagaimana model multimodal lain menangani berbagai hal saat ini. Model bahasa dibangun untuk membaca
00:00:57token, pada dasarnya potongan teks yang diubah menjadi angka. Mereka tidak secara alami tahu apa itu piksel atau seperti apa
00:01:05gelombang suara. Jadi biasanya kita menyambungkan model yang berbeda. Jika Anda memberikan gambar ke AI, sebuah vision encoder besar
00:01:11akan mencegatnya terlebih dahulu. Ia menghabiskan banyak daya pemrosesan untuk menerjemahkan piksel mentah itu menjadi
00:01:19bahasa yang benar-benar bisa dipahami oleh LLM. Dan begitu juga untuk audio. Speech encoder terpisah harus
00:01:25menerjemahkan gelombang suara terlebih dahulu. Pada saat otak AI yang sebenarnya mendapatkan data, Anda menjalankan tiga
00:01:32jaringan terpisah secara bersamaan. Pada laptop standar, ini benar-benar menghabiskan VRAM Anda dan memperlambat
00:01:38segalanya. Namun Google DeepMind melihat masalah ini dan berpikir, bagaimana jika kita bisa memotong perantara?
00:01:44Jadi pada model Gemma 4 12 miliar, mereka benar-benar menghapus vision encoder yang berat. Sebaliknya,
00:01:51saat Anda memberinya gambar, model memotongnya menjadi potongan kecil berukuran 48 kali 48 piksel. Dan alih-alih melewati
00:01:58potongan-potongan itu melalui lusinan lapisan jaringan visi terpisah, piksel mentah melewati satu
00:02:04langkah matematika tipis yang disebut proyeksi linear. Dan proyeksi linear ini hanyalah kisi angka yang masif
00:02:11yang mengambil 2304 nilai piksel, karena itu berkorelasi dengan kotak 48 kali 48 piksel, mengalikannya dalam
00:02:19satu langkah, dan merentangkannya menjadi satu baris yang sangat cocok dengan format token teks LLM.
00:02:26Jadi ini belum menganalisis apa yang ada di dalam gambar, ini hanya memformat ulang data mentah agar bisa masuk
00:02:32melalui model. Dan jika Anda melihat model standar, vision encoder mereka sangat besar. Seperti contohnya,
00:02:38yang satu ini memiliki 550 juta parameter. Itu karena encoder tradisional membutuhkan banyak data untuk membentuk ulang,
00:02:45memetakan, dan memahami gambar. Ia memiliki lusinan lapisan perhatian internal yang menghitung hubungan
00:02:50antar piksel, mencoba mencari tahu di mana tepiannya, apa bentuknya, dan apa objeknya sebelum
00:02:57bahkan menyerahkannya ke model teks. Namun DeepMind memperkecilnya dengan menghapus semua kekuatan otak yang berat itu.
00:03:04Mereka menyadari bahwa tulang punggung bahasa utama sudah sangat cerdas dan memiliki banyak
00:03:10lapisan untuk melakukan penalaran visual yang sebenarnya. Jadi dengan menghapus semua lapisan pemikiran itu, mereka tersisa dengan
00:03:17hanya 35 juta parameter, dan itu secara harfiah hanyalah jumlah fisik bobot koneksi yang dibutuhkan
00:03:24untuk memetakan kisi piksel itu ke dalam format teks. Jadi ini adalah peta lapisan tunggal statis yang berfungsi untuk setiap gambar.
00:03:30Karena ia melakukan nol pemikiran internal, ia hampir tidak memakan daya pemrosesan, membebaskan VRAM
00:03:37dan membiarkan LLM utama menangani kecerdasan yang sebenarnya secara asli. Dan untuk memahami bagaimana langkah tunggal itu bekerja,
00:03:44Anda harus melihat apa yang sebenarnya terjadi di dalam tulang punggung model bahasa. Setiap model bahasa memiliki
00:03:50aturan pemformatan internal yang disebut dimensi tersembunyi. Anggap saja seperti ukuran baki standar. Baik itu
00:03:56kata apel atau kode atau tanda baca, apa pun yang dimasukkan ke dalam LLM harus dikonversi
00:04:04menjadi daftar angka masif khusus ini karena harus sesuai dengan dimensi matriks. Dan potongan mentah
00:04:1148 kali 48 piksel ini hanyalah kisi dari 2304 nomor warna individu. Jika Anda mencoba memasukkan potongan mentah itu
00:04:19secara langsung ke dalam LLM, model akan menolaknya karena dimensinya tidak cocok. Dan itulah
00:04:26alasan mengapa lapisan pemetaan 35 juta parameter itu ada. Ini secara harfiah adalah kisi masif tunggal
00:04:33bobot koneksi yang mengalikan 2304 nilai piksel itu dan merentangkannya menjadi satu baris yang
00:04:40sangat cocok dengan format token teks LLM. Ia melakukan nol pemikiran analitis, ia hanya bertindak sebagai pengonversi format
00:04:48agar data bisa masuk langsung ke transformer utama tempat penalaran visual yang sebenarnya terjadi
00:04:54secara asli. Dan model melakukan sesuatu yang mirip untuk penalaran audio juga, tetapi untuk audio itu bahkan lebih sederhana.
00:05:01Jadi cara mereka berhasil menyingkirkan audio encoder adalah dengan mengambil sinyal audio 16 kilohertz mentah dan
00:05:07mengirisnya menjadi bingkai kontinu 40 milidetik. Setiap bingkai kecil berisi tepat 640 angka floating point
00:05:15yang menggambarkan gelombang suara. Model mengambil 640 float itu dan menjalankannya melalui proyeksi sederhana serupa
00:05:21lapisan yang memetakannya langsung ke ruang input model bahasa. Ke tulang punggung transformer
00:05:28blok audio 40 milidetik terlihat identik dengan aliran token teks yang berkelanjutan. Karena suara
00:05:35sudah merupakan urutan kronologis, seperti halnya kalimat dalam urutan kata, LLM memperlakukan audio
00:05:42persis seperti teks. Jadi integrasi asli yang mendalam ini memungkinkan model 12 miliar parameter menangani transkripsi langsung,
00:05:49terjemahan, dan pemformatan teks dalam satu lintasan maju tanpa memaksa Anda memuat jaringan bicara terpisah
00:05:56ke dalam memori Anda. Jadi taktik cerdas ini adalah kemenangan besar untuk menjalankan model secara lokal di perangkat keras Anda sendiri.
00:06:02Dengan melucuti semua bloat encoder, DeepMind berhasil mengemas penalaran luar biasa
00:06:08ke dalam jejak kecil. Dan melihat tolok ukurnya, kinerjanya mendekati model 26 miliar parameter mereka yang masif,
00:06:15tetapi dengan mudah masuk pada laptop standar dengan 16 gigabyte VRAM
00:06:21atau lebih. Ditambah Google menyertakan drafter prediksi multi-token asli langsung, artinya ia memprediksi
00:06:28beberapa token sekaligus untuk kecepatan inferensi lokal yang cepat tanpa memaksa Anda mengompres model.
00:06:34Jadi semua itu terdengar mengesankan. Jadi sekarang mari kita uji dan lihat cara kerjanya di M2 MacBook Pro lokal saya.
00:06:41Dan beberapa orang di video OMLX saya sebelumnya bertanya berapa banyak VRAM yang sebenarnya saya miliki di mesin saya?
00:06:48Jadi untuk menjawab pertanyaan itu, saya memiliki 24 gigabyte VRAM. Jadi itulah yang kita gunakan
00:06:53hari ini. Saya juga harus mengatakan aplikasi edge gallery ini sangat buggy. Seperti contohnya, jika saya mencoba menambahkan
00:07:01gambar dan bertanya, tolong analisis gambar ini, itu akan langsung gagal dan memberi saya kesalahan acak ini. Dan ini
00:07:13ada di versi terbaru. Jadi sayangnya kami tidak dapat menguji vision encoder menggunakan aplikasi AI edge resmi
00:07:20tersebut, tetapi ada cara lain yang bisa kita gunakan untuk mengujinya. Oke. Jadi karena saya tidak bisa
00:07:26menguji pemrosesan gambar dengan model Gemma 4 12 miliar pada aplikasi Google AI edge gallery dengan andal,
00:07:34saya memutuskan untuk mengujinya di OMLX. Dan saya juga membuat video tentang OMLX. Itu adalah kerangka kerja yang luar biasa
00:07:42untuk menjalankan model AI secara lokal, khususnya pada Apple Silicon. Dan seperti yang Anda lihat di sini, saya telah
00:07:47mengunduh versi terkuantisasi delapan bit dari model ini. Jadi sekarang saya akan pergi ke bagian obrolan
00:07:54dan mari kita lihat seberapa cepat ia benar-benar dapat melakukan penalaran gambar secara waktu nyata. Jadi di sini saya punya folder uji
00:08:01dengan dua gambar. Salah satunya hanya tangkapan layar keberangkatan bandara. Jadi kita akan menggunakan gambar ini
00:08:09dan bertanya apa yang Anda lihat di gambar ini. Dan saya ingin Anda memperhatikan bahwa saya tidak mempercepat video ini.
00:08:18Ini semua waktu nyata. Saya ingin Anda memperhatikan seberapa cepat ia mampu melakukan penalaran
00:08:24pada gambar seperti itu. Jadi ia mulai di sini, ia memuat model, menghasilkan dan bum, lihat itu.
00:08:33Lihat betapa cepatnya ia mampu membedah gambar ini dan mengekstrak informasi berharga darinya.
00:08:41Pertama kali saya melihat ini di OMLX, saya benar-benar terpesona oleh kecepatannya. Itu benar-benar gila.
00:08:50Jadi saya harus mengatakan ini adalah model terbaik yang saya uji secara lokal untuk penalaran gambar. Dan saya juga
00:08:57ingin Anda memperhatikan fakta bahwa saya menjalankan model ini secara offline. Wi-Fi saya tidak aktif.
00:09:03Jadi sekarang mari kita coba contoh lain. Ini hanya gambar buram acara TV Vikings yang menunjukkan beberapa
00:09:10karakter. Jadi sekali lagi, mari kita buka gambar ini dan ajukan pertanyaan yang sama. Apa yang Anda lihat di
00:09:21gambar ini? Ia sedang menghasilkan.
00:09:27Dan bum, lihat itu.
00:09:30Maksud saya, itu benar-benar gila. Ini sangat cepat. Saya sangat terkejut.
00:09:37Jadi ya, saya jujur sangat, sangat terkesan dengan kinerja pemrosesan gambar dari model baru ini.
00:09:43Jadi begitulah, kawan. Itu adalah model Gemma 4 12 miliar tanpa encoder yang baru secara singkat.
00:09:50Saya cukup frustrasi karena saya tidak bisa mengujinya dengan percaya diri di aplikasi AI edge gallery resmi mereka.
00:09:56Tetapi seperti yang kita lihat, ada cara lain dan mungkin bahkan lebih baik untuk menjalankannya
00:10:01secara lokal. Jadi saya pikir ini adalah model yang sangat bagus dan benar-benar mengubah masa depan menjalankan
00:10:07model AI lokal. Google DeepMind baru saja membuktikan bahwa tulang punggung bahasa tunggal cukup cerdas
00:10:13untuk menangani visi dan suara secara asli. Jadi teknik baru ini mungkin akan membuka pintu untuk mengembangkan bahkan
00:10:19lebih banyak model penalaran multimodal yang efisien yang dapat dengan mudah berjalan di perangkat edge. Jadi apa pendapat Anda
00:10:26tentang model Gemma yang baru? Apakah Anda sudah mencobanya? Akankah Anda menggunakannya? Beri tahu kami di bagian komentar di
00:10:32bawah. Dan kawan, jika Anda menyukai jenis perincian teknis ini, beri tahu saya dengan menekan tombol suka
00:10:37di bawah video. Dan juga jangan lupa untuk berlangganan saluran kami. Ini adalah Andres
00:10:43dari BetterStack dan saya akan melihat Anda di video berikutnya.

Key Takeaway

Arsitektur tanpa encoder pada model Gemma 4 12B memungkinkan pemrosesan multimodal yang efisien dengan memetakan data piksel dan audio langsung ke dalam format token LLM, sehingga memungkinkan penalaran visual dan audio yang cepat pada perangkat keras konsumen.

Highlights

  • Google Gemma 4 12B menghilangkan kebutuhan akan vision dan speech encoder terpisah dengan menggunakan arsitektur tanpa encoder.

  • Gambar diproses dengan memotongnya menjadi kotak 48x48 piksel yang diproyeksikan melalui lapisan linear 35 juta parameter tunggal ke dalam format token LLM.

  • Data audio 16 kilohertz mentah diiris menjadi bingkai 40 milidetik dan dipetakan langsung ke ruang input transformer agar diperlakukan layaknya urutan teks.

  • Penghapusan lapisan encoder tradisional membebaskan VRAM secara signifikan, memungkinkan model berjalan pada laptop standar dengan 16GB VRAM.

  • Model ini menyertakan drafter prediksi multi-token asli yang mempercepat kecepatan inferensi lokal secara waktu nyata.

Timeline

Arsitektur Tanpa Encoder Gemma 4 12B

  • Model multimodal tradisional menggunakan encoder terpisah untuk gambar dan suara yang memakan banyak daya pemrosesan.
  • Gemma 4 12B memotong vision encoder berat dan menggantinya dengan proyeksi linear 35 juta parameter.
  • Proyeksi linear ini mengubah kisi 48x48 piksel menjadi baris data yang kompatibel dengan dimensi token teks LLM.

Sebagian besar model AI saat ini menggunakan jaringan saraf tambahan yang besar untuk menerjemahkan data mentah sebelum diproses oleh model bahasa. Google DeepMind menghapus lapisan 'berpikir' tambahan ini dan membiarkan tulang punggung LLM melakukan penalaran visual secara langsung. Pendekatan ini mengurangi jumlah parameter encoder dari ratusan juta menjadi hanya 35 juta, yang bertindak murni sebagai konverter format tanpa beban komputasi internal.

Pemrosesan Data Audio dan Integrasi LLM

  • LLM menggunakan dimensi tersembunyi sebagai aturan pemformatan internal untuk semua input data.
  • Sinyal audio mentah 16kHz dipotong menjadi bingkai 40 milidetik yang berisi 640 angka floating point.
  • Data audio diperlakukan sebagai urutan kronologis yang identik dengan aliran token teks untuk pemrosesan asli.

Integrasi audio dilakukan dengan memetakan potongan gelombang suara langsung ke dalam ruang input model bahasa. Karena audio memiliki urutan kronologis, transformer memperlakukannya seperti kalimat dalam urutan kata. Teknik ini memungkinkan model menangani transkripsi dan terjemahan dalam satu lintasan maju tanpa perlu memuat jaringan bicara eksternal ke dalam VRAM.

Uji Kinerja pada Perangkat Lokal

  • Model dijalankan secara lokal pada Apple Silicon M2 MacBook Pro dengan 24GB VRAM.
  • Pengujian menggunakan framework OMLX menunjukkan kecepatan inferensi waktu nyata yang sangat tinggi untuk analisis gambar.
  • Model tetap beroperasi secara efisien dalam kondisi offline sepenuhnya tanpa koneksi internet.

Pengujian pada gambar keberangkatan bandara dan cuplikan acara televisi menunjukkan kemampuan model untuk membedah data visual dengan cepat. Meskipun aplikasi resmi dari Google mengalami kendala teknis, penggunaan kerangka kerja alternatif seperti OMLX membuktikan potensi model ini pada perangkat edge. Kinerja model yang mendekati versi 26 miliar parameter menjadikannya pilihan efisien untuk penggunaan lokal.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video