AI Baru Google Hasilkan 1.000+ Token Per Detik (DiffusionGemma)

BBetter Stack
컴퓨터/소프트웨어게임/e스포츠

Transcript

00:00:00Google sedang sangat populer akhir-akhir ini. Minggu lalu saya membuat video tentang model
00:00:05Gemma 4 tanpa encoder mereka yang inovatif, dan minggu ini mereka merilis model lain yang sangat inovatif. Namanya Diffusion
00:00:11Gemma dan model ini sangat cepat. Ia mampu menghasilkan lebih dari seribu token
00:00:18per detik dan alasan mengapa ia bisa melakukan itu adalah karena ia menghasilkan teks dengan cara yang sepenuhnya
00:00:23berbeda dari model lain yang pernah Anda gunakan sebelumnya. Jadi di video ini kita akan melihat
00:00:29Diffusion Gemma, melihat cara kerjanya, dan saya juga akan menunjukkan cara untuk mencobanya sendiri.
00:00:35Ini akan sangat menyenangkan, jadi mari kita mulai.
00:00:41Jadi, setiap model bahasa yang pernah Anda ajak bicara bekerja dengan cara dasar yang sama. Mereka bersifat auto-regresif
00:00:48dan itu istilah keren untuk mengatakan mereka menghasilkan satu token pada satu waktu dari kiri ke kanan. Mereka menulis kata
00:00:54lalu mereka melihat semua yang telah ditulis sejauh ini dan kemudian mereka memprediksi kata berikutnya dan siklusnya terus
00:00:59berulang. Dan cara kerjanya untuk model komersial besar seperti Claude atau GPT adalah ketika sebuah server
00:01:06menghasilkan token, sebagian besar waktu tidak dihabiskan untuk komputasi, melainkan untuk memuat bobot model
00:01:12keluar dari memori. Dan itu agak sia-sia jika Anda hanya melayani satu pengguna. Jadi server menggabungkan ratusan
00:01:19pengguna sekaligus, memuat bobotnya sekali, dan menjalankannya untuk semua orang pada waktu yang sama. Dan dengan cara itu,
00:01:25Anda bisa melayani 256 pengguna dengan satu pemuatan memori. Namun ketika Anda menjalankan model secara lokal, Anda hanyalah satu pengguna,
00:01:33jadi tidak ada orang lain untuk digabungkan dengan Anda. GPU memuat sebagian besar bobot, melakukan sedikit
00:01:39komputasi untuk menghasilkan satu token, lalu diam saja sebelum melakukan semuanya lagi. Dalam istilah teknis,
00:01:46ini disebut memory bound. GPU Anda yang mahal menghabiskan sebagian besar waktunya menunggu token berikutnya
00:01:52daripada benar-benar menghitung. Jadi Google DeepMind melihat masalah ini dan mengajukan pertanyaan cerdas:
00:01:58Jika cloud mengisi waktu tunggu dengan melayani 256 pengguna sekaligus, bagaimana jika kita mengisi waktu tunggu itu
00:02:07untuk satu pengguna saja? Jadi alih-alih satu token untuk 256 orang, bagaimana jika kita menghasilkan 256 token untuk satu
00:02:16orang sekaligus? Dan itulah seluruh ide di balik Diffusion Gemma. Alih-alih menulis kata demi kata,
00:02:23model ini dimulai dengan kanvas, yaitu deretan 256 token placeholder yang benar-benar acak. Jadi itu hanya
00:02:31derau (noise). Dan tugasnya adalah memperbaiki kanvas itu di semua posisi sekaligus dan mengubahnya menjadi teks nyata. Jadi dengan memprediksi semua
00:02:38256 token dalam satu kesempatan, Anda memberi GPU Anda banyak pekerjaan nyata alih-alih membiarkannya diam. Dengan begitu,
00:02:46Anda mengubah model dari memory bound menjadi compute bound, dan semua daya yang terbuang akhirnya digunakan.
00:02:53Tapi ini tidak semudah kedengarannya. Memprediksi 256 token sekaligus sebenarnya sangat sulit.
00:03:01Karena bagaimana model bisa menebak token nomor 254 jika ia tidak tahu apa yang terjadi dengan token 1 sampai 253?
00:03:09Dan itulah yang terjadi. Beberapa token pertama keluar dengan baik, tetapi semakin jauh, semakin
00:03:15ia hancur menjadi omong kosong. Tapi bagaimana jika alih-alih hanya melakukan satu kali jalan, bagaimana jika model melakukan
00:03:21beberapa kali jalan? Dan ini adalah trik kuncinya. Model melewati kanvas lagi dan lagi, tetapi sekarang ia
00:03:28bisa melihat tebakan sebelumnya sendiri. Token yang diprediksinya dengan percaya diri menjadi petunjuk konteks yang
00:03:35membantu memperbaiki yang lebih berantakan. Dan hal paling keren adalah ia hanya membutuhkan beberapa kali jalan. Jauh lebih sedikit dari
00:03:42total hitungan 256 token. Dan dari situlah kecepatan model ini berasal. Dan Anda mungkin pernah melihat
00:03:49trik ini sebelumnya. Ini disebut difusi. Anda mulai dengan derau lalu memperbaikinya langkah demi langkah. Dan
00:03:55itu adalah ide yang sama persis yang mendukung generator gambar AI. Dan cara model mempelajarinya adalah dengan
00:04:01sengaja menambahkan derau ke gambar nyata saat pelatihan, lalu belajar memprediksi dan mengurangi derau itu
00:04:07kembali. Tapi bagaimana cara menerapkan konsep yang sama pada teks? Itu bagian yang sulit. Karena dengan gambar,
00:04:14derau itu mudah. Buat satu piksel sedikit lebih merah atau biru. Tapi dengan teks, bagaimana Anda membuat kata
00:04:19the menjadi sedikit kurang 'the'? Apa arti derau itu bagi sebuah kata? Nah, DeepMind menemukan
00:04:27sesuatu yang disebut uniform state diffusion. Jadi, alih-alih mengutak-atik huruf, Anda memperlakukan kata yang
00:04:32ditukar secara acak sebagai derau. Dan untuk merusak teks pelatihan, Anda mengganti beberapa kata asli dengan kata
00:04:38acak. Dan tugas model adalah mencari tahu kata mana yang sampah dan akhirnya memperbaikinya dengan beberapa kali jalan.
00:04:45Ada versi yang lebih sederhana untuk melakukan ini yang disebut mask diffusion yang hanya mengosongkan token.
00:04:51Tapi itu memiliki kelemahan besar. Begitu model memutuskan sebuah kata, itu terkunci selamanya. Ia memiliki masalah yang sama
00:04:57dengan model auto-regresif. Namun uniform state diffusion memperbaiki ini dengan selalu menahan semacam token di
00:05:04setiap posisi. Jadi model bisa melihat kata yang diterimanya tiga langkah lalu, memutuskan apakah itu tidak cocok
00:05:10lagi, dan menukarnya. Jadi pada dasarnya kita bisa melakukan koreksi mandiri sepanjang proses. Tapi solusi ini
00:05:15juga punya kendala. Difusi membutuhkan encoder untuk memahami prompt Anda dan denoiser untuk membersihkan
00:05:23kanvas. Jadi DeepMind mengembangkan patch encoder denoiser. Itu dibangun di atas model 26 miliar
00:05:30GEMMA4 yang sudah ada dan beralih di antara kedua mode saat menghasilkan respons Anda. Dalam mode encoder,
00:05:36model membaca prompt Anda, mencoba mengambil beberapa konteks dan panduan darinya. Ia mengumpulkan semua itu
00:05:42di dalam KV cache lalu meneruskannya langsung ke denoiser. Dan tugas denoiser pada dasarnya adalah
00:05:49membersihkan kanvas. Dan ia melakukannya dengan dua hal. Pertama, ingat bagaimana LLM normal menghasilkan
00:05:56skor kepercayaan atau logit untuk setiap posisi tetapi membuang semuanya kecuali yang terakhir? Omong-omong,
00:06:02jika Anda bingung di sini, saya juga membuat video beberapa waktu lalu yang menjelaskan cara kerja LLM secara lebih
00:06:07rinci. Jadi tonton video itu jika Anda tertarik. Jadi pada dasarnya Diffusion GEMMA tidak membuang
00:06:13skor-skor tersebut. Ia menyimpan semua skor kepercayaan itu karena setiap posisi kanvas memerlukan prediksinya sendiri.
00:06:19Dan kedua, denoiser ini tidak menggunakan causal attention, yaitu aturan bahwa sebuah kata hanya
00:06:25bisa melihat ke belakang, yang merupakan cara kerja model auto-regresif. Jadi sebagai gantinya, ia menukarnya dengan bi-directional
00:06:31attention. Jadi sekarang setiap token bisa melihat setiap token lainnya ke segala arah. Jadi untuk setiap posisi,
00:06:38Anda menerapkan skor kepercayaan tersebut, melihat token lain, dan membersihkan kanvas secara perlahan, langkah demi langkah.
00:06:44Dan beginilah cara Diffusion GEMMA mencapai kecepatan luar biasa 1000+ token per detik
00:06:51pada GPU H100. Sekarang saya harus jujur kepada Anda. Ini bukan solusi ajaib. Dengan taktik baru ini,
00:06:58Diffusion GEMMA pada dasarnya menukar kualitas dengan kecepatan. Untuk pekerjaan kualitas maksimal, standar GEMMA 4 masih
00:07:05pilihan yang lebih baik. Model ini dibuat khusus untuk hal-hal lokal yang kritis seperti pengeditan inline atau pengisian
00:07:13kode atau iterasi cepat. Dan itu sangat kuat untuk tugas non-linear seperti mengisi bagian tengah
00:07:19blok kode atau bahkan memecahkan teka-teki Sudoku, di mana model kiri-ke-kanan normal biasanya cukup buruk
00:07:26dalam hal itu. Jadi semua itu terdengar menarik, tapi mari kita coba sendiri dan lihat cara kerjanya.
00:07:33Google telah membuka sumber bobotnya di bawah lisensi Apache 2.0 di Hugging Face.
00:07:38Jadi jika Anda memiliki GPU tangguh seperti RTX 5090, Anda bisa mencoba menjalankannya secara lokal. Dan ada juga
00:07:44resep khusus untuk VLLM yang bisa Anda jalankan di Docker untuk menyederhanakan proses itu. Tapi saya sangat penasaran untuk
00:07:51melihat apakah model ini benar-benar bisa mencapai 1000+ token per detik. Jadi untuk tes ini, saya akan mencoba
00:07:58menjalankannya di GPU H100 menggunakan container run pod dan melihat bagaimana hasilnya. Dan omong-omong, saya juga
00:08:04telah menerbitkan template Diffusion GEMMA untuk menjalankannya di run pod. Jadi jika Anda ingin mereplikasi tes ini,
00:08:10yang perlu Anda lakukan hanyalah menjalankan template itu saat membuat pod baru. Jadi untuk melakukan tes ini di run pod,
00:08:15saya akan memilih container H100. Dan seperti yang saya sebutkan sebelumnya, saya membuat template Diffusion GEMMA
00:08:22yang bisa Anda gunakan kembali. Jadi Anda tinggal klik disk volume lalu klik deploy
00:08:28on demand. Dan butuh beberapa menit sampai ia mengunduh container dan meluncurkan semuanya.
00:08:34Dan jika kita buka log, jika Anda melihat application startup complete, itu berarti VLLM sudah siap
00:08:40dan sekarang dapat diakses melalui port 8000. Jika kita buka ini, Anda akan melihat detail not found,
00:08:46tapi jangan khawatir. Ini berarti ia benar-benar berfungsi. Kita hanya perlu menyalin URL ini. Jadi untuk
00:08:52mengonfigurasi Diffusion GEMMA agar berjalan di terminal AI agent, sesuatu seperti open code, Anda perlu
00:08:58mengonfigurasi pengaturan open code Anda untuk mengakses server jarak jauh. Jadi Anda bisa melakukan itu dengan perintah sederhana ini
00:09:04dan ini akan membuka file konfigurasi. Dan di sini, saya hanya menentukan server run pod kita dan
00:09:11ia memiliki model Diffusion GEMMA yang dipilih. Dan Anda bisa simpan file ini dan jalankan open code.
00:09:17Jadi dalam tes ini, saya akan memintanya untuk membuat dashboard pelacakan keuangan pribadi bernama ledger.
00:09:24Dan mari kita lihat seberapa cepat ia bisa menghasilkannya. Lihat itu. Seketika, ia mulai streaming langsung.
00:09:34Lihat betapa cepatnya itu. Ya ampun. Wow. Itu gila. Dan di sini dalam log,
00:09:43kita bisa melihat bahwa rata-rata mencapai 700 token per detik. Jadi untuk fase output, kecepatannya sedikit turun,
00:09:50tetapi selama fase penalaran, kecepatannya naik hingga 700 token per detik. Itu gila. Jadi mari
00:09:58kita buka. Oke. Jadi ini terlihat seperti dasbor. Itu bagus. Oke. Kita sebenarnya mendapatkan beberapa kategori
00:10:06dan hal-hal yang terjadi di sini. Jika kita tambahkan sesuatu di sini. Oh, itu benar-benar menambahkannya sebagai pengeluaran. Jadi
00:10:13pengeluarannya tidak benar-benar diperbarui. Jadi tidak berfungsi sepenuhnya, tetapi setidaknya beberapa bagian interaktif.
00:10:20Untuk tugas berikutnya, mari kita lihat apakah ia benar-benar bisa membuat game bergaya arcade.
00:10:26Jadi mari kita jalankan. Sekali lagi, kecepatannya sangat gila. Oke. Yang satu ini butuh waktu sedikit lebih lama.
00:10:36Kita benar-benar mendapatkan dua file di sini. Menarik, menarik. Oke. Jadi ia menyadari adanya kesalahan ketik lalu ia
00:10:44memproses ulang file HTML itu lagi, yang cukup bagus. Oke. Baiklah. Mari kita buka yang ini. Restart.
00:10:52Oh, wow. Yang ini berfungsi. Oh, wow. Ini keren. Wow. Sangat bagus. Itu mengesankan. Jadi gamenya
00:11:03berfungsi penuh dan butuh 14 detik untuk menghasilkan game ini. 14 detik untuk menghasilkan game seperti ini.
00:11:11Jadi meskipun halaman pemasaran mereka mengatakan bahwa kita bisa mengharapkan kecepatan 1000 token per detik pada H
00:11:18100. Itu bukan pengamatan saya. Um, saya tidak tahu. Mungkin ada sesuatu yang harus saya ubah di
00:11:26template atau prompt saya, tapi tetap saja, saya benar-benar terkesan. Ini monster. Jadi itulah,
00:11:33kawan-kawan. Itulah diffusion Gemma secara singkat. Saya pikir ini salah satu rilis paling menarik
00:11:38tahun ini karena terbukti Anda bisa mengambil paradigma generasi yang benar-benar berbeda dari dunia gambar,
00:11:44menempelkannya ke model yang sudah Anda latih, dan membuka keuntungan kecepatan nyata untuk pengaturan pengguna
00:11:51lokal tunggal. Dan saya pikir ini juga membuka pintu bagi keluarga baru model lokal interaktif yang cepat
00:11:58yang memanfaatkan potensi penuh perangkat keras Anda alih-alih membiarkannya diam. Jadi bagaimana pendapat Anda
00:12:04tentang diffusion Gemma? Sudahkah Anda mencobanya? Apakah Anda akan menggunakannya? Beri tahu kami di bagian komentar di bawah.
00:12:09Dan kawan-kawan, jika Anda menyukai jenis analisis teknis ini, beri tahu saya dengan menekan tombol
00:12:14like di bawah video. Dan juga jangan lupa untuk berlangganan saluran kami. Ini adalah
00:12:19Andrus dari Betterstack dan saya akan melihat Anda di video berikutnya.

Key Takeaway

DiffusionGemma mempercepat pembuatan teks dengan menggunakan teknik difusi untuk memprediksi 256 token sekaligus, secara signifikan mengurangi waktu tunggu GPU dibandingkan metode auto-regresif standar.

Highlights

  • DiffusionGemma mencapai kecepatan inferensi hingga 700 token per detik pada GPU H100.

  • Model ini menggantikan metode auto-regresif tradisional dengan pendekatan difusi yang menghasilkan 256 token secara paralel.

  • Pendekatan difusi mengubah operasi model dari memory bound menjadi compute bound, memaksimalkan pemanfaatan GPU untuk satu pengguna.

  • Uniform state diffusion menggantikan kata-kata yang diacak dengan kata asli secara bertahap dalam beberapa kali proses iterasi.

  • DiffusionGemma menggunakan bi-directional attention, memungkinkan setiap token untuk melihat token lain ke segala arah.

  • Model ini tersedia di bawah lisensi Apache 2.0 di platform Hugging Face.

Timeline

Keterbatasan Model Auto-Regresif Lokal

  • Model bahasa standar bersifat auto-regresif, menghasilkan satu token secara berurutan dari kiri ke kanan.
  • Server komersial menggabungkan ratusan pengguna untuk efisiensi, tetapi pengguna lokal tunggal mengalami masalah memory bound.
  • GPU menghabiskan sebagian besar waktu dalam kondisi diam menunggu token berikutnya pada eksekusi lokal.

Model bahasa konvensional membuang banyak waktu komputasi karena proses pemuatan bobot model dari memori lebih lama daripada perhitungan token itu sendiri. Ketika digunakan secara lokal, tidak ada pengguna lain untuk berbagi beban komputasi, sehingga GPU berkinerja rendah karena harus menunggu proses penulisan kata demi kata.

Mekanisme Kerja DiffusionGemma

  • DiffusionGemma memulai proses dengan kanvas berisi 256 token acak (noise).
  • Model memperbaiki semua 256 token sekaligus dalam beberapa kali iterasi, bukan satu per satu.
  • Teknik uniform state diffusion digunakan untuk memperbaiki teks dengan mengganti kata acak secara iteratif.
  • Bi-directional attention menggantikan causal attention, memungkinkan setiap token memiliki akses konteks ke seluruh bagian teks.

Model ini mengadopsi prinsip yang sama dengan generator gambar AI, yaitu memperbaiki derau langkah demi langkah. Untuk teks, model menggunakan encoder untuk memahami prompt dan denoiser berbasis 26 miliar parameter untuk membersihkan kanvas secara paralel. Skor kepercayaan setiap posisi disimpan untuk mendukung proses koreksi mandiri selama iterasi.

Uji Performa dan Penggunaan

  • DiffusionGemma lebih efektif untuk tugas non-linear seperti pengisian kode atau teka-teki Sudoku dibandingkan model standar.
  • Pengujian pada GPU H100 menghasilkan kecepatan sekitar 700 token per detik.
  • Implementasi dapat dilakukan menggunakan kontainer VLLM melalui platform seperti RunPod.

Model ini tidak dimaksudkan untuk menggantikan kualitas maksimal Gemma 4, melainkan untuk kebutuhan iterasi cepat dan pengeditan inline. Meskipun klaim kecepatan mencapai 1000+ token per detik, pengujian praktis menunjukkan angka stabil di 700 token per detik, yang tetap memberikan performa sangat tinggi untuk pembuatan kode dan aplikasi interaktif.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video