Google Baru Saja Memperbaiki Masalah Terbesar pada AI Multimodal (Gemma 4 12B)
BBetter Stack
컴퓨터/소프트웨어가전제품/카메라
Transcript
00:00:00Google baru saja meluncurkan model Gemma 4 12 miliar parameter terbaru mereka dan ini adalah terobosan.
00:00:06Tidak, serius, ini bukan clickbait. Model ini memang sebuah terobosan dalam cara pembuatannya.
00:00:13Hal yang membedakan ini dari semua model AI lainnya adalah fakta bahwa model ini sepenuhnya
00:00:18tanpa encoder. Sekarang, apa artinya itu, bagaimana cara kerjanya, dan mengapa ini menjadi masalah besar?
00:00:24Nah, itu semua adalah pertanyaan bagus yang akan kita bahas di video hari ini. Ini akan sangat
00:00:29menyenangkan. Jadi mari kita bahas. Jadi model Gemma 4 12 miliar memiliki arsitektur baru yang
00:00:39benar-benar berbeda dari cara kerja model multimodal lainnya. Model multimodal. Ya ampun,
00:00:46itu benar-benar membuat lidah kelu. Jadi untuk memahami mengapa ini begitu penting, kita harus
00:00:51melihat bagaimana model multimodal lain menangani berbagai hal saat ini. Model bahasa dibangun untuk membaca
00:00:57token, pada dasarnya potongan teks yang diubah menjadi angka. Mereka tidak secara alami tahu apa itu piksel atau seperti apa
00:01:05gelombang suara. Jadi biasanya kita menyambungkan model yang berbeda. Jika Anda memberikan gambar ke AI, sebuah vision encoder besar
00:01:11akan mencegatnya terlebih dahulu. Ia menghabiskan banyak daya pemrosesan untuk menerjemahkan piksel mentah itu menjadi
00:01:19bahasa yang benar-benar bisa dipahami oleh LLM. Dan begitu juga untuk audio. Speech encoder terpisah harus
00:01:25menerjemahkan gelombang suara terlebih dahulu. Pada saat otak AI yang sebenarnya mendapatkan data, Anda menjalankan tiga
00:01:32jaringan terpisah secara bersamaan. Pada laptop standar, ini benar-benar menghabiskan VRAM Anda dan memperlambat
00:01:38segalanya. Namun Google DeepMind melihat masalah ini dan berpikir, bagaimana jika kita bisa memotong perantara?
00:01:44Jadi pada model Gemma 4 12 miliar, mereka benar-benar menghapus vision encoder yang berat. Sebaliknya,
00:01:51saat Anda memberinya gambar, model memotongnya menjadi potongan kecil berukuran 48 kali 48 piksel. Dan alih-alih melewati
00:01:58potongan-potongan itu melalui lusinan lapisan jaringan visi terpisah, piksel mentah melewati satu
00:02:04langkah matematika tipis yang disebut proyeksi linear. Dan proyeksi linear ini hanyalah kisi angka yang masif
00:02:11yang mengambil 2304 nilai piksel, karena itu berkorelasi dengan kotak 48 kali 48 piksel, mengalikannya dalam
00:02:19satu langkah, dan merentangkannya menjadi satu baris yang sangat cocok dengan format token teks LLM.
00:02:26Jadi ini belum menganalisis apa yang ada di dalam gambar, ini hanya memformat ulang data mentah agar bisa masuk
00:02:32melalui model. Dan jika Anda melihat model standar, vision encoder mereka sangat besar. Seperti contohnya,
00:02:38yang satu ini memiliki 550 juta parameter. Itu karena encoder tradisional membutuhkan banyak data untuk membentuk ulang,
00:02:45memetakan, dan memahami gambar. Ia memiliki lusinan lapisan perhatian internal yang menghitung hubungan
00:02:50antar piksel, mencoba mencari tahu di mana tepiannya, apa bentuknya, dan apa objeknya sebelum
00:02:57bahkan menyerahkannya ke model teks. Namun DeepMind memperkecilnya dengan menghapus semua kekuatan otak yang berat itu.
00:03:04Mereka menyadari bahwa tulang punggung bahasa utama sudah sangat cerdas dan memiliki banyak
00:03:10lapisan untuk melakukan penalaran visual yang sebenarnya. Jadi dengan menghapus semua lapisan pemikiran itu, mereka tersisa dengan
00:03:17hanya 35 juta parameter, dan itu secara harfiah hanyalah jumlah fisik bobot koneksi yang dibutuhkan
00:03:24untuk memetakan kisi piksel itu ke dalam format teks. Jadi ini adalah peta lapisan tunggal statis yang berfungsi untuk setiap gambar.
00:03:30Karena ia melakukan nol pemikiran internal, ia hampir tidak memakan daya pemrosesan, membebaskan VRAM
00:03:37dan membiarkan LLM utama menangani kecerdasan yang sebenarnya secara asli. Dan untuk memahami bagaimana langkah tunggal itu bekerja,
00:03:44Anda harus melihat apa yang sebenarnya terjadi di dalam tulang punggung model bahasa. Setiap model bahasa memiliki
00:03:50aturan pemformatan internal yang disebut dimensi tersembunyi. Anggap saja seperti ukuran baki standar. Baik itu
00:03:56kata apel atau kode atau tanda baca, apa pun yang dimasukkan ke dalam LLM harus dikonversi
00:04:04menjadi daftar angka masif khusus ini karena harus sesuai dengan dimensi matriks. Dan potongan mentah
00:04:1148 kali 48 piksel ini hanyalah kisi dari 2304 nomor warna individu. Jika Anda mencoba memasukkan potongan mentah itu
00:04:19secara langsung ke dalam LLM, model akan menolaknya karena dimensinya tidak cocok. Dan itulah
00:04:26alasan mengapa lapisan pemetaan 35 juta parameter itu ada. Ini secara harfiah adalah kisi masif tunggal
00:04:33bobot koneksi yang mengalikan 2304 nilai piksel itu dan merentangkannya menjadi satu baris yang
00:04:40sangat cocok dengan format token teks LLM. Ia melakukan nol pemikiran analitis, ia hanya bertindak sebagai pengonversi format
00:04:48agar data bisa masuk langsung ke transformer utama tempat penalaran visual yang sebenarnya terjadi
00:04:54secara asli. Dan model melakukan sesuatu yang mirip untuk penalaran audio juga, tetapi untuk audio itu bahkan lebih sederhana.
00:05:01Jadi cara mereka berhasil menyingkirkan audio encoder adalah dengan mengambil sinyal audio 16 kilohertz mentah dan
00:05:07mengirisnya menjadi bingkai kontinu 40 milidetik. Setiap bingkai kecil berisi tepat 640 angka floating point
00:05:15yang menggambarkan gelombang suara. Model mengambil 640 float itu dan menjalankannya melalui proyeksi sederhana serupa
00:05:21lapisan yang memetakannya langsung ke ruang input model bahasa. Ke tulang punggung transformer
00:05:28blok audio 40 milidetik terlihat identik dengan aliran token teks yang berkelanjutan. Karena suara
00:05:35sudah merupakan urutan kronologis, seperti halnya kalimat dalam urutan kata, LLM memperlakukan audio
00:05:42persis seperti teks. Jadi integrasi asli yang mendalam ini memungkinkan model 12 miliar parameter menangani transkripsi langsung,
00:05:49terjemahan, dan pemformatan teks dalam satu lintasan maju tanpa memaksa Anda memuat jaringan bicara terpisah
00:05:56ke dalam memori Anda. Jadi taktik cerdas ini adalah kemenangan besar untuk menjalankan model secara lokal di perangkat keras Anda sendiri.
00:06:02Dengan melucuti semua bloat encoder, DeepMind berhasil mengemas penalaran luar biasa
00:06:08ke dalam jejak kecil. Dan melihat tolok ukurnya, kinerjanya mendekati model 26 miliar parameter mereka yang masif,
00:06:15tetapi dengan mudah masuk pada laptop standar dengan 16 gigabyte VRAM
00:06:21atau lebih. Ditambah Google menyertakan drafter prediksi multi-token asli langsung, artinya ia memprediksi
00:06:28beberapa token sekaligus untuk kecepatan inferensi lokal yang cepat tanpa memaksa Anda mengompres model.
00:06:34Jadi semua itu terdengar mengesankan. Jadi sekarang mari kita uji dan lihat cara kerjanya di M2 MacBook Pro lokal saya.
00:06:41Dan beberapa orang di video OMLX saya sebelumnya bertanya berapa banyak VRAM yang sebenarnya saya miliki di mesin saya?
00:06:48Jadi untuk menjawab pertanyaan itu, saya memiliki 24 gigabyte VRAM. Jadi itulah yang kita gunakan
00:06:53hari ini. Saya juga harus mengatakan aplikasi edge gallery ini sangat buggy. Seperti contohnya, jika saya mencoba menambahkan
00:07:01gambar dan bertanya, tolong analisis gambar ini, itu akan langsung gagal dan memberi saya kesalahan acak ini. Dan ini
00:07:13ada di versi terbaru. Jadi sayangnya kami tidak dapat menguji vision encoder menggunakan aplikasi AI edge resmi
00:07:20tersebut, tetapi ada cara lain yang bisa kita gunakan untuk mengujinya. Oke. Jadi karena saya tidak bisa
00:07:26menguji pemrosesan gambar dengan model Gemma 4 12 miliar pada aplikasi Google AI edge gallery dengan andal,
00:07:34saya memutuskan untuk mengujinya di OMLX. Dan saya juga membuat video tentang OMLX. Itu adalah kerangka kerja yang luar biasa
00:07:42untuk menjalankan model AI secara lokal, khususnya pada Apple Silicon. Dan seperti yang Anda lihat di sini, saya telah
00:07:47mengunduh versi terkuantisasi delapan bit dari model ini. Jadi sekarang saya akan pergi ke bagian obrolan
00:07:54dan mari kita lihat seberapa cepat ia benar-benar dapat melakukan penalaran gambar secara waktu nyata. Jadi di sini saya punya folder uji
00:08:01dengan dua gambar. Salah satunya hanya tangkapan layar keberangkatan bandara. Jadi kita akan menggunakan gambar ini
00:08:09dan bertanya apa yang Anda lihat di gambar ini. Dan saya ingin Anda memperhatikan bahwa saya tidak mempercepat video ini.
00:08:18Ini semua waktu nyata. Saya ingin Anda memperhatikan seberapa cepat ia mampu melakukan penalaran
00:08:24pada gambar seperti itu. Jadi ia mulai di sini, ia memuat model, menghasilkan dan bum, lihat itu.
00:08:33Lihat betapa cepatnya ia mampu membedah gambar ini dan mengekstrak informasi berharga darinya.
00:08:41Pertama kali saya melihat ini di OMLX, saya benar-benar terpesona oleh kecepatannya. Itu benar-benar gila.
00:08:50Jadi saya harus mengatakan ini adalah model terbaik yang saya uji secara lokal untuk penalaran gambar. Dan saya juga
00:08:57ingin Anda memperhatikan fakta bahwa saya menjalankan model ini secara offline. Wi-Fi saya tidak aktif.
00:09:03Jadi sekarang mari kita coba contoh lain. Ini hanya gambar buram acara TV Vikings yang menunjukkan beberapa
00:09:10karakter. Jadi sekali lagi, mari kita buka gambar ini dan ajukan pertanyaan yang sama. Apa yang Anda lihat di
00:09:21gambar ini? Ia sedang menghasilkan.
00:09:27Dan bum, lihat itu.
00:09:30Maksud saya, itu benar-benar gila. Ini sangat cepat. Saya sangat terkejut.
00:09:37Jadi ya, saya jujur sangat, sangat terkesan dengan kinerja pemrosesan gambar dari model baru ini.
00:09:43Jadi begitulah, kawan. Itu adalah model Gemma 4 12 miliar tanpa encoder yang baru secara singkat.
00:09:50Saya cukup frustrasi karena saya tidak bisa mengujinya dengan percaya diri di aplikasi AI edge gallery resmi mereka.
00:09:56Tetapi seperti yang kita lihat, ada cara lain dan mungkin bahkan lebih baik untuk menjalankannya
00:10:01secara lokal. Jadi saya pikir ini adalah model yang sangat bagus dan benar-benar mengubah masa depan menjalankan
00:10:07model AI lokal. Google DeepMind baru saja membuktikan bahwa tulang punggung bahasa tunggal cukup cerdas
00:10:13untuk menangani visi dan suara secara asli. Jadi teknik baru ini mungkin akan membuka pintu untuk mengembangkan bahkan
00:10:19lebih banyak model penalaran multimodal yang efisien yang dapat dengan mudah berjalan di perangkat edge. Jadi apa pendapat Anda
00:10:26tentang model Gemma yang baru? Apakah Anda sudah mencobanya? Akankah Anda menggunakannya? Beri tahu kami di bagian komentar di
00:10:32bawah. Dan kawan, jika Anda menyukai jenis perincian teknis ini, beri tahu saya dengan menekan tombol suka
00:10:37di bawah video. Dan juga jangan lupa untuk berlangganan saluran kami. Ini adalah Andres
00:10:43dari BetterStack dan saya akan melihat Anda di video berikutnya.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video