Transcript
00:00:00Google sedang sangat populer akhir-akhir ini. Minggu lalu saya membuat video tentang model
00:00:05Gemma 4 tanpa encoder mereka yang inovatif, dan minggu ini mereka merilis model lain yang sangat inovatif. Namanya Diffusion
00:00:11Gemma dan model ini sangat cepat. Ia mampu menghasilkan lebih dari seribu token
00:00:18per detik dan alasan mengapa ia bisa melakukan itu adalah karena ia menghasilkan teks dengan cara yang sepenuhnya
00:00:23berbeda dari model lain yang pernah Anda gunakan sebelumnya. Jadi di video ini kita akan melihat
00:00:29Diffusion Gemma, melihat cara kerjanya, dan saya juga akan menunjukkan cara untuk mencobanya sendiri.
00:00:35Ini akan sangat menyenangkan, jadi mari kita mulai.
00:00:41Jadi, setiap model bahasa yang pernah Anda ajak bicara bekerja dengan cara dasar yang sama. Mereka bersifat auto-regresif
00:00:48dan itu istilah keren untuk mengatakan mereka menghasilkan satu token pada satu waktu dari kiri ke kanan. Mereka menulis kata
00:00:54lalu mereka melihat semua yang telah ditulis sejauh ini dan kemudian mereka memprediksi kata berikutnya dan siklusnya terus
00:00:59berulang. Dan cara kerjanya untuk model komersial besar seperti Claude atau GPT adalah ketika sebuah server
00:01:06menghasilkan token, sebagian besar waktu tidak dihabiskan untuk komputasi, melainkan untuk memuat bobot model
00:01:12keluar dari memori. Dan itu agak sia-sia jika Anda hanya melayani satu pengguna. Jadi server menggabungkan ratusan
00:01:19pengguna sekaligus, memuat bobotnya sekali, dan menjalankannya untuk semua orang pada waktu yang sama. Dan dengan cara itu,
00:01:25Anda bisa melayani 256 pengguna dengan satu pemuatan memori. Namun ketika Anda menjalankan model secara lokal, Anda hanyalah satu pengguna,
00:01:33jadi tidak ada orang lain untuk digabungkan dengan Anda. GPU memuat sebagian besar bobot, melakukan sedikit
00:01:39komputasi untuk menghasilkan satu token, lalu diam saja sebelum melakukan semuanya lagi. Dalam istilah teknis,
00:01:46ini disebut memory bound. GPU Anda yang mahal menghabiskan sebagian besar waktunya menunggu token berikutnya
00:01:52daripada benar-benar menghitung. Jadi Google DeepMind melihat masalah ini dan mengajukan pertanyaan cerdas:
00:01:58Jika cloud mengisi waktu tunggu dengan melayani 256 pengguna sekaligus, bagaimana jika kita mengisi waktu tunggu itu
00:02:07untuk satu pengguna saja? Jadi alih-alih satu token untuk 256 orang, bagaimana jika kita menghasilkan 256 token untuk satu
00:02:16orang sekaligus? Dan itulah seluruh ide di balik Diffusion Gemma. Alih-alih menulis kata demi kata,
00:02:23model ini dimulai dengan kanvas, yaitu deretan 256 token placeholder yang benar-benar acak. Jadi itu hanya
00:02:31derau (noise). Dan tugasnya adalah memperbaiki kanvas itu di semua posisi sekaligus dan mengubahnya menjadi teks nyata. Jadi dengan memprediksi semua
00:02:38256 token dalam satu kesempatan, Anda memberi GPU Anda banyak pekerjaan nyata alih-alih membiarkannya diam. Dengan begitu,
00:02:46Anda mengubah model dari memory bound menjadi compute bound, dan semua daya yang terbuang akhirnya digunakan.
00:02:53Tapi ini tidak semudah kedengarannya. Memprediksi 256 token sekaligus sebenarnya sangat sulit.
00:03:01Karena bagaimana model bisa menebak token nomor 254 jika ia tidak tahu apa yang terjadi dengan token 1 sampai 253?
00:03:09Dan itulah yang terjadi. Beberapa token pertama keluar dengan baik, tetapi semakin jauh, semakin
00:03:15ia hancur menjadi omong kosong. Tapi bagaimana jika alih-alih hanya melakukan satu kali jalan, bagaimana jika model melakukan
00:03:21beberapa kali jalan? Dan ini adalah trik kuncinya. Model melewati kanvas lagi dan lagi, tetapi sekarang ia
00:03:28bisa melihat tebakan sebelumnya sendiri. Token yang diprediksinya dengan percaya diri menjadi petunjuk konteks yang
00:03:35membantu memperbaiki yang lebih berantakan. Dan hal paling keren adalah ia hanya membutuhkan beberapa kali jalan. Jauh lebih sedikit dari
00:03:42total hitungan 256 token. Dan dari situlah kecepatan model ini berasal. Dan Anda mungkin pernah melihat
00:03:49trik ini sebelumnya. Ini disebut difusi. Anda mulai dengan derau lalu memperbaikinya langkah demi langkah. Dan
00:03:55itu adalah ide yang sama persis yang mendukung generator gambar AI. Dan cara model mempelajarinya adalah dengan
00:04:01sengaja menambahkan derau ke gambar nyata saat pelatihan, lalu belajar memprediksi dan mengurangi derau itu
00:04:07kembali. Tapi bagaimana cara menerapkan konsep yang sama pada teks? Itu bagian yang sulit. Karena dengan gambar,
00:04:14derau itu mudah. Buat satu piksel sedikit lebih merah atau biru. Tapi dengan teks, bagaimana Anda membuat kata
00:04:19the menjadi sedikit kurang 'the'? Apa arti derau itu bagi sebuah kata? Nah, DeepMind menemukan
00:04:27sesuatu yang disebut uniform state diffusion. Jadi, alih-alih mengutak-atik huruf, Anda memperlakukan kata yang
00:04:32ditukar secara acak sebagai derau. Dan untuk merusak teks pelatihan, Anda mengganti beberapa kata asli dengan kata
00:04:38acak. Dan tugas model adalah mencari tahu kata mana yang sampah dan akhirnya memperbaikinya dengan beberapa kali jalan.
00:04:45Ada versi yang lebih sederhana untuk melakukan ini yang disebut mask diffusion yang hanya mengosongkan token.
00:04:51Tapi itu memiliki kelemahan besar. Begitu model memutuskan sebuah kata, itu terkunci selamanya. Ia memiliki masalah yang sama
00:04:57dengan model auto-regresif. Namun uniform state diffusion memperbaiki ini dengan selalu menahan semacam token di
00:05:04setiap posisi. Jadi model bisa melihat kata yang diterimanya tiga langkah lalu, memutuskan apakah itu tidak cocok
00:05:10lagi, dan menukarnya. Jadi pada dasarnya kita bisa melakukan koreksi mandiri sepanjang proses. Tapi solusi ini
00:05:15juga punya kendala. Difusi membutuhkan encoder untuk memahami prompt Anda dan denoiser untuk membersihkan
00:05:23kanvas. Jadi DeepMind mengembangkan patch encoder denoiser. Itu dibangun di atas model 26 miliar
00:05:30GEMMA4 yang sudah ada dan beralih di antara kedua mode saat menghasilkan respons Anda. Dalam mode encoder,
00:05:36model membaca prompt Anda, mencoba mengambil beberapa konteks dan panduan darinya. Ia mengumpulkan semua itu
00:05:42di dalam KV cache lalu meneruskannya langsung ke denoiser. Dan tugas denoiser pada dasarnya adalah
00:05:49membersihkan kanvas. Dan ia melakukannya dengan dua hal. Pertama, ingat bagaimana LLM normal menghasilkan
00:05:56skor kepercayaan atau logit untuk setiap posisi tetapi membuang semuanya kecuali yang terakhir? Omong-omong,
00:06:02jika Anda bingung di sini, saya juga membuat video beberapa waktu lalu yang menjelaskan cara kerja LLM secara lebih
00:06:07rinci. Jadi tonton video itu jika Anda tertarik. Jadi pada dasarnya Diffusion GEMMA tidak membuang
00:06:13skor-skor tersebut. Ia menyimpan semua skor kepercayaan itu karena setiap posisi kanvas memerlukan prediksinya sendiri.
00:06:19Dan kedua, denoiser ini tidak menggunakan causal attention, yaitu aturan bahwa sebuah kata hanya
00:06:25bisa melihat ke belakang, yang merupakan cara kerja model auto-regresif. Jadi sebagai gantinya, ia menukarnya dengan bi-directional
00:06:31attention. Jadi sekarang setiap token bisa melihat setiap token lainnya ke segala arah. Jadi untuk setiap posisi,
00:06:38Anda menerapkan skor kepercayaan tersebut, melihat token lain, dan membersihkan kanvas secara perlahan, langkah demi langkah.
00:06:44Dan beginilah cara Diffusion GEMMA mencapai kecepatan luar biasa 1000+ token per detik
00:06:51pada GPU H100. Sekarang saya harus jujur kepada Anda. Ini bukan solusi ajaib. Dengan taktik baru ini,
00:06:58Diffusion GEMMA pada dasarnya menukar kualitas dengan kecepatan. Untuk pekerjaan kualitas maksimal, standar GEMMA 4 masih
00:07:05pilihan yang lebih baik. Model ini dibuat khusus untuk hal-hal lokal yang kritis seperti pengeditan inline atau pengisian
00:07:13kode atau iterasi cepat. Dan itu sangat kuat untuk tugas non-linear seperti mengisi bagian tengah
00:07:19blok kode atau bahkan memecahkan teka-teki Sudoku, di mana model kiri-ke-kanan normal biasanya cukup buruk
00:07:26dalam hal itu. Jadi semua itu terdengar menarik, tapi mari kita coba sendiri dan lihat cara kerjanya.
00:07:33Google telah membuka sumber bobotnya di bawah lisensi Apache 2.0 di Hugging Face.
00:07:38Jadi jika Anda memiliki GPU tangguh seperti RTX 5090, Anda bisa mencoba menjalankannya secara lokal. Dan ada juga
00:07:44resep khusus untuk VLLM yang bisa Anda jalankan di Docker untuk menyederhanakan proses itu. Tapi saya sangat penasaran untuk
00:07:51melihat apakah model ini benar-benar bisa mencapai 1000+ token per detik. Jadi untuk tes ini, saya akan mencoba
00:07:58menjalankannya di GPU H100 menggunakan container run pod dan melihat bagaimana hasilnya. Dan omong-omong, saya juga
00:08:04telah menerbitkan template Diffusion GEMMA untuk menjalankannya di run pod. Jadi jika Anda ingin mereplikasi tes ini,
00:08:10yang perlu Anda lakukan hanyalah menjalankan template itu saat membuat pod baru. Jadi untuk melakukan tes ini di run pod,
00:08:15saya akan memilih container H100. Dan seperti yang saya sebutkan sebelumnya, saya membuat template Diffusion GEMMA
00:08:22yang bisa Anda gunakan kembali. Jadi Anda tinggal klik disk volume lalu klik deploy
00:08:28on demand. Dan butuh beberapa menit sampai ia mengunduh container dan meluncurkan semuanya.
00:08:34Dan jika kita buka log, jika Anda melihat application startup complete, itu berarti VLLM sudah siap
00:08:40dan sekarang dapat diakses melalui port 8000. Jika kita buka ini, Anda akan melihat detail not found,
00:08:46tapi jangan khawatir. Ini berarti ia benar-benar berfungsi. Kita hanya perlu menyalin URL ini. Jadi untuk
00:08:52mengonfigurasi Diffusion GEMMA agar berjalan di terminal AI agent, sesuatu seperti open code, Anda perlu
00:08:58mengonfigurasi pengaturan open code Anda untuk mengakses server jarak jauh. Jadi Anda bisa melakukan itu dengan perintah sederhana ini
00:09:04dan ini akan membuka file konfigurasi. Dan di sini, saya hanya menentukan server run pod kita dan
00:09:11ia memiliki model Diffusion GEMMA yang dipilih. Dan Anda bisa simpan file ini dan jalankan open code.
00:09:17Jadi dalam tes ini, saya akan memintanya untuk membuat dashboard pelacakan keuangan pribadi bernama ledger.
00:09:24Dan mari kita lihat seberapa cepat ia bisa menghasilkannya. Lihat itu. Seketika, ia mulai streaming langsung.
00:09:34Lihat betapa cepatnya itu. Ya ampun. Wow. Itu gila. Dan di sini dalam log,
00:09:43kita bisa melihat bahwa rata-rata mencapai 700 token per detik. Jadi untuk fase output, kecepatannya sedikit turun,
00:09:50tetapi selama fase penalaran, kecepatannya naik hingga 700 token per detik. Itu gila. Jadi mari
00:09:58kita buka. Oke. Jadi ini terlihat seperti dasbor. Itu bagus. Oke. Kita sebenarnya mendapatkan beberapa kategori
00:10:06dan hal-hal yang terjadi di sini. Jika kita tambahkan sesuatu di sini. Oh, itu benar-benar menambahkannya sebagai pengeluaran. Jadi
00:10:13pengeluarannya tidak benar-benar diperbarui. Jadi tidak berfungsi sepenuhnya, tetapi setidaknya beberapa bagian interaktif.
00:10:20Untuk tugas berikutnya, mari kita lihat apakah ia benar-benar bisa membuat game bergaya arcade.
00:10:26Jadi mari kita jalankan. Sekali lagi, kecepatannya sangat gila. Oke. Yang satu ini butuh waktu sedikit lebih lama.
00:10:36Kita benar-benar mendapatkan dua file di sini. Menarik, menarik. Oke. Jadi ia menyadari adanya kesalahan ketik lalu ia
00:10:44memproses ulang file HTML itu lagi, yang cukup bagus. Oke. Baiklah. Mari kita buka yang ini. Restart.
00:10:52Oh, wow. Yang ini berfungsi. Oh, wow. Ini keren. Wow. Sangat bagus. Itu mengesankan. Jadi gamenya
00:11:03berfungsi penuh dan butuh 14 detik untuk menghasilkan game ini. 14 detik untuk menghasilkan game seperti ini.
00:11:11Jadi meskipun halaman pemasaran mereka mengatakan bahwa kita bisa mengharapkan kecepatan 1000 token per detik pada H
00:11:18100. Itu bukan pengamatan saya. Um, saya tidak tahu. Mungkin ada sesuatu yang harus saya ubah di
00:11:26template atau prompt saya, tapi tetap saja, saya benar-benar terkesan. Ini monster. Jadi itulah,
00:11:33kawan-kawan. Itulah diffusion Gemma secara singkat. Saya pikir ini salah satu rilis paling menarik
00:11:38tahun ini karena terbukti Anda bisa mengambil paradigma generasi yang benar-benar berbeda dari dunia gambar,
00:11:44menempelkannya ke model yang sudah Anda latih, dan membuka keuntungan kecepatan nyata untuk pengaturan pengguna
00:11:51lokal tunggal. Dan saya pikir ini juga membuka pintu bagi keluarga baru model lokal interaktif yang cepat
00:11:58yang memanfaatkan potensi penuh perangkat keras Anda alih-alih membiarkannya diam. Jadi bagaimana pendapat Anda
00:12:04tentang diffusion Gemma? Sudahkah Anda mencobanya? Apakah Anda akan menggunakannya? Beri tahu kami di bagian komentar di bawah.
00:12:09Dan kawan-kawan, jika Anda menyukai jenis analisis teknis ini, beri tahu saya dengan menekan tombol
00:12:14like di bawah video. Dan juga jangan lupa untuk berlangganan saluran kami. Ini adalah
00:12:19Andrus dari Betterstack dan saya akan melihat Anda di video berikutnya.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video