Hype atau Game Changer? | Analisis Mendalam

MMaximilian Schwarzmüller
컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00Beberapa jam yang lalu ada sebuah pengumuman yang cukup besar. Atau kehebohan yang cukup besar. Kita
00:00:06belum tahu pasti dan saya jelas tidak akan mengabaikan bagian kehebohan itu. Bagian kehebohan yang tidak ada poinnya. Tapi jika
00:00:13ini benar, ini memang pengumuman besar. Karena Alexander Wedin, yang tidak saya kenal dan Anda mungkin
00:00:20juga tidak kenal, mengumumkan sub-q, singkatan dari sub-kuadratik, sebuah terobosan besar dalam kecerdasan
00:00:28LLM. Dan apa yang dia umumkan di sini adalah jenis model bahasa besar baru yang sangat unggul dalam
00:00:36tugas-tugas konteks panjang tanpa kehilangan — setidaknya itulah yang dia klaim — tanpa kehilangan "kecerdasan"
00:00:45— dalam tanda kutip, model-model ini menghasilkan token tetapi itu memberi mereka kecerdasan pada akhirnya — jadi
00:00:52tanpa kehilangan kecerdasan yang biasa Anda dapatkan dari model frontier saat ini seperti Opus 4.7,
00:00:59GPT 5.5, dan seterusnya. Nah, apa yang dia sebutkan dalam postingan pengumuman di X — dan kemudian
00:01:04juga ada postingan blog pengumuman dengan detail teknis lebih lanjut yang akan kita lihat nanti
00:01:08karena kita akan membahasnya secara mendalam di episode dan video kali ini — apa yang dia umumkan di sini adalah model yang
00:01:16jauh lebih cepat saat melakukan inferensi pada tugas konteks satu juta token dan biayanya jauh lebih murah. Lima persen
00:01:26dari biaya Opus. Dia juga menjanjikan bahwa model awal mereka akan memiliki jendela konteks
00:01:3512 juta token yang, untuk memberikan perspektif pada angka tersebut, berarti Anda dapat memasukkan seluruh basis kode,
00:01:42basis kode yang sangat besar ke dalam jendela konteks tersebut. Anda dapat memasukkan beberapa dokumen hukum besar di dalamnya dan
00:01:49itulah mengapa model seperti ini, jika memang ada dan berfungsi, bisa sangat berguna dan benar-benar
00:01:57mengubah permainan. Tidak ada cara lain untuk mengatakannya. Jika ini berfungsi — kita belum memiliki banyak detail,
00:02:02saya akan kembali ke pembahasan itu — tetapi jika ini berfungsi, itu tentu saja berarti semua solusi sementara yang
00:02:08kita gunakan saat ini, seperti sub-agen, RAG, dan sebagainya, yang semuanya merupakan solusi sementara untuk masalah di mana
00:02:15model hanya melihat sebagian kecil dari hal yang seharusnya dilihat. Jadi jika Anda sedang mengerjakan basis kode,
00:02:22model frontier yang ada, tergantung pada ukuran basis kode Anda, tidak dapat melihat seluruh basis kode.
00:02:28Mereka tidak dapat memuat seluruh basis kode. Jadi jika Anda memintanya untuk mengubah sesuatu, Anda harus berharap
00:02:33bahwa model tersebut menemukan bagian yang tepat dalam basis kode Anda untuk melakukan perubahan yang Anda minta.
00:02:40Dan hal itu tentu saja menjadi masalah yang semakin besar seiring bertambahnya ukuran basis kode atau bertambahnya
00:02:45jumlah dokumen yang Anda inginkan untuk dikerjakan oleh model tersebut. Jadi jika Anda memiliki model yang dapat diandalkan
00:02:52menggunakan jendela konteks 12 juta token dengan kualitas yang baik, itu tentu saja akan mengubah permainan.
00:02:59Berbicara tentang mengubah permainan, kita akan membahasnya secara mendalam di video ini dan saya akan membahasnya secara mendalam di semua kursus saya. Jadi
00:03:06jika Anda tertarik untuk mempelajari cara praktis menggunakan alat seperti Claude Code, Codex, tugas AI lainnya,
00:03:13atau coding, atau kombinasi dari semua itu, maka kursus-kursus saya mungkin layak untuk dilirik. Kursus-kursus tersebut praktis,
00:03:19langsung praktik, mendalam, dan Anda bisa mengambil kursus individu atau keanggotaan,
00:03:24yang memberi Anda akses ke semua kursus dengan satu harga bulanan atau tahunan. Tautan di bawah.
00:03:31Jadi mari kita bahas sedikit lebih mendalam sekarang. Dan seperti yang disebutkan, ada postingan blog pengumuman dengan
00:03:36beberapa detail teknis, tetapi tidak banyak agar sangat jelas di sini. Ada banyak informasi yang hilang,
00:03:43dan kita juga tidak memiliki banyak benchmark. Khususnya, mereka hanya merilis tiga
00:03:49benchmark. Benchmark Ruler yang menguji perilaku pengambilan dan penalaran di luar pencarian jarum sederhana,
00:03:56termasuk pengambilan multi-hop, agregasi, pelacakan variabel, dan penyaringan
00:04:01selektif. Jadi itu adalah benchmark, yang pada akhirnya adalah tentang model yang menemukan beberapa bagian
00:04:06informasi relevan dari jendela konteks yang relatif besar. 128.000 token. Jadi tidak terlalu besar
00:04:15untuk ukuran jendela konteks, bahkan tidak mendekati 12 juta yang mereka janjikan, tetapi juga tidak hanya 5K atau lebih.
00:04:22Jadi ini adalah benchmark yang menguji seberapa baik model dapat menemukan dan menyatukan berbagai bagian dari
00:04:28jendela konteks atau basis dokumen yang kurang lebih besar. Dan di sini model mereka berada di tingkat yang sama dengan
00:04:36OPUS 4.6. Dalam postingan itu, mereka juga menyebutkan benchmark lain, benchmark MRCRv2, yang juga tentang tugas
00:04:45pengambilan konteks panjang di mana model mereka berada dalam kisaran, seperti yang mereka nyatakan, OPUS 4.6. Meskipun,
00:04:53ya, itu berada dalam kisaran jika Anda melihat semua hasil lainnya di sini, tetapi itu jelas lebih buruk.
00:05:00Yang tentu saja menarik karena seluruh fokus mereka adalah pengambilan konteks panjang di sini. Tetapi
00:05:07sekali lagi, tentu saja, Anda juga bisa berargumen bahwa untuk kasus penggunaan jendela konteks super panjang, model
00:05:15lainnya tidak dapat digunakan sama sekali, sementara model mereka mungkin masih memberi Anda hasil yang sangat baik, yang mungkin
00:05:22lebih baik daripada tidak sama sekali. Dan tentu saja, model mereka juga pasti bisa meningkat seiring waktu. Jadi saya tidak akan
00:05:29menganggap ini sebagai pertanda yang sangat buruk untuk model awal. Ini hanya sesuatu yang patut dicatat. Dan
00:05:35tentu saja, patut dicatat juga bahwa ini jauh lebih baik daripada Gemini 3.1 Pro, misalnya, atau OPUS 4.7 di
00:05:43tabel tersebut. Dan mereka juga merilis satu benchmark, yang menurut saya menarik, yaitu tentang tugas-tugas
00:05:49terkait coding. Sekarang, saya akan katakan bahwa semua benchmark ini, saya bukan penggemar beratnya. Kita semua tahu
00:05:56bahwa hal itu bisa dimanipulasi, setidaknya banyak dari mereka, model dapat secara sengaja atau tidak sengaja
00:06:05disesuaikan secara halus atau dioptimalkan untuk berkinerja baik dalam benchmark. Kita memiliki banyak kasus seperti itu di masa lalu,
00:06:12tetapi tetap saja, mereka memberi kita sesuatu untuk dilihat. Dan saya menganggap benchmark rekayasa perangkat lunak di sini
00:06:20menarik, karena di sini kita dapat melihat bahwa model mereka berada di kisaran model
00:06:27OPUS. Dan itu, tentu saja, menunjukkan bahwa model tersebut tidak hanya mampu menemukan informasi dalam jendela konteks
00:06:36panjang, dalam banyak dokumen, basis kode yang besar, tetapi juga mampu melakukan sesuatu yang berguna dengannya,
00:06:42bahwa ia mampu menghasilkan kode yang bermakna dan baik sebagai hasil dari kecerdasannya dan data yang mampu
00:06:50ia ambil dalam jendela konteks panjang ini, bisa dikatakan begitu. Jadi ini bukan hanya tentang mengambil,
00:06:54ini juga tentang melakukan hal-hal yang berguna. Dan tampaknya bagus di sana. Tetapi seperti yang disebutkan, itu saja
00:07:00tentang hal itu. Kita tidak mendapatkan pembahasan mendalam atau detail teknis lainnya. Belum ada kartu model.
00:07:09Oleh karena itu, yang kita miliki hanyalah deskripsi, pada dasarnya, bagaimana model mereka menggunakan atensi jarang alih-alih
00:07:16atensi padat untuk membuat tugas-tugas konteks panjang ini berfungsi atau untuk membuat model berfungsi secara efisien
00:07:22dalam skenario jendela konteks panjang, dan bagaimana model tersebut mencapai peningkatan kecepatan dan efisiensi biayanya,
00:07:29karena model ini lebih cepat dan lebih murah, bukan? Itulah yang mereka umumkan. Jadi mari kita lihat
00:07:37atensi padat versus atensi jarang untuk memahami apa yang terjadi di sini. Nah, atensi padat
00:07:45adalah apa yang Anda miliki dalam model frontier saat ini. Jadi GPT 5.5 Anda, Opus 4.7, semua model lainnya,
00:07:52ini semua adalah model padat, yang pada dasarnya berarti bahwa untuk setiap token baru, katakanlah token D,
00:07:58untuk menghasilkan token tersebut, semua token lainnya harus dievaluasi dan koneksi di antara
00:08:08token-token tersebut harus dievaluasi karena seluruh gagasan dalam model bahasa besar adalah bahwa Anda
00:08:13menurunkan token masa depan, yang bisa berupa satu kata utuh atau bagian dari kata berdasarkan apa yang mendahului
00:08:20token tersebut. Jadi jika Anda memiliki, misalnya, kalimat seperti "sebuah kontrak dapat diakhiri kapan saja..."
00:08:28maka kata berikutnya setelah itu adalah apa yang ingin Anda prediksi. Anda mungkin telah bertanya kepada model, "Hei,
00:08:35kapan saya bisa mengakhiri kontrak saya?" Dan Anda mungkin telah memasukkan kontrak tersebut sebagai dokumen PDF atau sebagai teks
00:08:42biasa ke dalam perintah Anda juga. Jadi perintah di depan kalimat ini, yang dihasilkan oleh model
00:08:48sebagai keluaran adalah pertanyaan Anda dan mungkin beberapa konteks lainnya. Jadi kontrak tersebut, misalnya,
00:08:57bukan? Begitulah cara kita saat ini menggunakan model. Dan untuk menghasilkan token ini di sini,
00:09:03dan untuk menghasilkan setiap token yang mendahuluinya, model pada dasarnya melihat
00:09:10seluruh percakapan, semua token di dalamnya. Jadi itu adalah pertanyaan Anda dan konteks tambahan apa pun
00:09:16yang Anda masukkan ke sana. Dan model membaginya menjadi beberapa token dan kemudian menggabungkan semua token tersebut atau
00:09:23menghitung bobot pada akhirnya berdasarkan semua kombinasi token sebelumnya. Jadi misalnya,
00:09:30jika itu adalah seluruh percakapan kita, yang jelas sengaja dibuat singkat, ini adalah contoh, maka begitulah
00:09:38percakapan tersebut akan dipecah menjadi beberapa token untuk model GPT-5, misalnya. Jadi beberapa token
00:09:46hanya berupa kata atau kata dengan spasi di depannya. Beberapa token hanyalah karakter khusus.
00:09:51Dan untuk menghasilkan token berikutnya, semua token sebelumnya pada akhirnya digabungkan satu sama
00:09:58lain untuk memahami artinya pada akhirnya. Karena tentu saja, tanda tanya memiliki arti dan
00:10:05implikasi yang sangat berbeda untuk token masa depan, tergantung pada apa yang mendahului tanda tanya
00:10:11tersebut. Jadi tanda tanya itu digabungkan dengan semua token sebelumnya. Dan kombinasi dari semua
00:10:17kombinasi inilah yang kemudian digunakan untuk menurunkan token akhir tersebut. Itu secara
00:10:22garis besar bagaimana Anda bisa membayangkan atensi padat dan cara kerjanya. Sekarang, tentu saja,
00:10:29hal itu sangat tidak efisien, tetapi ini adalah yang terbaik yang kita miliki saat ini, setidaknya dalam hal
00:10:36kecerdasan dan kualitas keluaran. Tetapi ini bersifat kuadratik karena n dikali n,
00:10:44yang berarti untuk menurunkan token baru, kita harus menggabungkan semua token sebelumnya. Ada
00:10:49mekanisme pengoptimalan seperti caching KV, yang pada akhirnya menyimpan hasil bobot yang telah dihitung
00:10:56di masa lalu. Sehingga untuk token baru, Anda tidak perlu menghitung ulang
00:11:01semua kombinasi sebelumnya, tetapi Anda masih harus menghitung token baru itu dengan membandingkannya dengan semua
00:11:08bobot tersimpan sebelumnya. Jadi Anda masih berakhir dalam situasi kuadratik di sini. Dan hal itu tentu saja
00:11:16tidak efisien dan lambat, itulah sebabnya model frontier yang kita miliki saat ini sangat haus komputasi,
00:11:24lambat, terutama ketika Anda masuk ke area jendela konteks yang lebih tinggi dan mengapa ada batas
00:11:31ukuran jendela konteks yang cukup ketat. Karena karena ini bersifat kuadratik, tentu saja, ukuran jendela konteks 12 juta
00:11:38hampir mustahil untuk dikomputasi. Itu akan memakan waktu selamanya dan waktu komputasi hanyalah satu
00:11:46dimensi, memori yang harus dicadangkan adalah dimensi lainnya. Jadi begitulah cara kerja model padat secara singkat
00:11:54dan apa keterbatasan mereka. Sekarang, sebaliknya atau pendekatan alternatif yang digunakan oleh
00:12:00model baru itu, model sub q yang diumumkan kemarin, adalah menggunakan atensi jarang. Sekarang,
00:12:06bagaimana cara kerja atensi jarang? Gagasan dengan atensi jarang adalah bahwa untuk menghitung token
00:12:14baru, Anda tidak melihat semua token sebelumnya, Anda tidak memiliki kombinasi dari semua token
00:12:20sebelumnya, tetapi hanya dari beberapa token terpilih. Jadi misalnya, jika Anda ingin menurunkan token D di sini,
00:12:28Anda mungkin hanya melihat B dan C, tetapi tidak melihat A. Sekarang, tentu saja pertanyaan besarnya adalah,
00:12:33bagaimana Anda memutuskan token sebelumnya mana yang akan dilihat atau token sebelumnya mana yang menarik untuk
00:12:40menghasilkan token baru tersebut. Dan ada pendekatan berbeda yang telah digunakan di masa lalu karena
00:12:46model baru ini bukan model atensi jarang pertama. Tetapi alasan mengapa mereka belum benar-benar
00:12:52populer di sini adalah karena mereka memiliki keterbatasan yang serius. Misalnya, salah satu caranya adalah dengan menggunakan
00:12:59pendekatan jendela lokal. Sekarang, apa artinya itu? Itu berarti bahwa untuk menghasilkan token baru,
00:13:06katakanlah token nomor lima, token kelima dalam urutan, kita melihat, katakanlah,
00:13:13hanya dua token sebelum itu. Jadi tiga ditambah empat, misalnya. Jadi Anda memiliki jendela geser berisi token
00:13:22dan Anda selalu hanya melihat token di depan token yang akan Anda hasilkan. Sekarang,
00:13:27seperti yang bisa Anda bayangkan, ini memiliki beberapa keterbatasan serius karena jika saya hanya melihat beberapa token
00:13:33terakhir, jika saya, misalnya, bertanya-tanya kapan kontrak dapat diakhiri, informasi tersebut
00:13:39mungkin ada di sini dalam konteks ekstra yang saya masukkan ke dalam perintah, tetapi itu bukan bagian dari jendela lokal tersebut
00:13:45jika jendela lokal hanya berupa beberapa token terakhir, misalnya. Jadi token berikutnya yang akan
00:13:50diprediksi tidak tahu apa-apa tentang apa yang ada sebelumnya dalam konteks tersebut. Jadi itu tidak berguna. Anda dapat memiliki
00:13:55ukuran jendela konteks yang tidak terbatas dengan pendekatan ini, tetapi semua konteks itu tidak penting. Jadi itu adalah keterbatasan yang jelas.
00:14:01Pendekatan lainnya adalah apa yang disebut pendekatan token global. Di sini, gagasannya adalah Anda
00:14:09memiliki token ringkasan global. Jadi secara garis besar, Anda bisa menganggap ini sebagai token khusus yang muncul
00:14:16di awal urutan token yang dimasukkan di awal urutan token
00:14:20oleh model, bisa dikatakan begitu, yang merangkum token-token setelahnya. Begitulah cara Anda bisa membayangkannya.
00:14:27Dan kemudian untuk memprediksi token berikutnya, token global itu dipertimbangkan. Sekarang, itu mungkin berfungsi
00:14:34sangat baik jika kita kembali ke contoh ini di sini dengan teks hukum yang mungkin telah Anda berikan kepada model
00:14:40dalam perintah Anda. Jika ringkasan yang dihasilkan di sini untuk percakapan Anda, jika itu mencakup ketentuan
00:14:46pengakhiran kontrak, misalnya, maka tentu saja token berikutnya ini dapat diprediksi dengan sangat baik
00:14:53berdasarkan ringkasan tersebut. Tetapi jika Anda tidak beruntung dan ringkasan tersebut tidak menyertakan detail ini,
00:15:00maka Anda tidak beruntung dan Anda kembali ke keadaan di mana informasi tersebut benar-benar hilang.
00:15:04Jadi pendekatan token global dapat berfungsi, tetapi tentu saja semakin panjang jendela konteks Anda,
00:15:12semakin umum ringkasannya. Maksud saya, itu mudah dibayangkan. Jika Anda memiliki dokumen PDF
00:15:16seratus halaman dan Anda meringkasnya dalam satu atau dua kalimat, itu akan sangat tidak spesifik,
00:15:22bukan? Jadi tentu saja, memprediksi token berikutnya berdasarkan ringkasan tersebut tidak akan benar-benar berfungsi.
00:15:29Sekarang, pendekatan lain adalah menggunakan router, yaitu Anda memiliki jaringan saraf
00:15:37tambahan. Jadi Anda memiliki dua model, pada dasarnya model bahasa besar Anda, dan kemudian Anda memiliki model
00:15:43perutean tambahan. Dan model perutean itu melihat perintah oleh pengguna atau pada konteks dari
00:15:51token berikutnya yang akan dihasilkan dan kemudian merutekan token tersebut, bisa dikatakan begitu, ke token lain yang dianggapnya
00:15:59relevan. Tetapi sekarang hal itu tentu saja berarti Anda sekarang memiliki model perutean, yang entah bagaimana perlu
00:16:04melacak semua token lain yang datang setelahnya. Jadi itu mungkin kembali ke area atensi
00:16:10kuadratik atau sangat tidak spesifik dan Anda mengandalkan hal itu. Jadi Anda kembali lagi ke kompleksitas
00:16:17kuadratik dan Anda tidak mendapatkan banyak keuntungan dibandingkan dengan model padat atau Anda tidak melakukan
00:16:23itu dan Anda mungkin akan mengalami beberapa kerugian karena peruteannya tidak terlalu bagus. Jadi sama seperti dengan
00:16:30ringkasan, Anda akan berharap bahwa router melakukan pekerjaan yang baik dan mengaktifkan token yang tepat untuk
00:16:37memprediksi token berikutnya. Dan itulah mengapa atensi jarang menarik tetapi belum benar-benar
00:16:46populer sejauh ini karena semua pendekatan berbeda ini memiliki timbal balik yang berarti dan sampai saat ini,
00:16:54sepanjang pengetahuan saya, belum ada model atensi jarang yang menghasilkan
00:17:00kualitas yang setara yang sebanding dengan model padat frontier saat ini dan mampu bertindak pada jendela
00:17:07konteks yang besar. Dan mereka berjanji untuk mengubah ini dengan model baru mereka. Dalam postingan blog pengumuman itu,
00:17:14mereka menyebutkan bahwa model mereka melakukan pemilihan yang bergantung pada konten. Untuk setiap kueri, model memilih bagian
00:17:22urutan mana yang layak untuk diperhatikan dan menghitung atensi tepat pada posisi-posisi tersebut. Jadi
00:17:28pada akhirnya, kita kembali ke pendekatan perutean ini tetapi mereka berjanji di sini, menyebutkan di sini,
00:17:35bahwa mekanisme mereka tampaknya sangat efisien untuk mengaktifkan token yang tepat guna memprediksi
00:17:43token berikutnya. Mereka menyebutkan bahwa atensi padat mengasumsikan setiap pasangan mungkin penting, sehingga mengevaluasi
00:17:49semuanya. Dalam praktiknya, hampir tidak ada yang penting. SSA, singkatan dari sub-quadratic selective attention,
00:17:55yang merupakan pendekatan mereka, menghapus asumsi tersebut. Ini tidak memperkirakan atensi. Ini membatasi
00:18:01atensi pada posisi yang benar-benar membawa sinyal dan melewatkan sisanya. Itulah pendekatan mereka.
00:18:08Mereka melakukan perutean yang bergantung pada konten untuk mengaktifkan token yang tepat atau menggunakan token yang tepat untuk
00:18:14memprediksi token berikutnya dan itulah yang memberi mereka peningkatan efisiensi. Dan kita masih harus melihat
00:18:21seberapa baik ini sebenarnya berfungsi karena, seperti yang disebutkan, kita memiliki subset benchmark yang sangat terbatas di sini.
00:18:30Tidak banyak atau tidak ada benchmark lain. Kita tidak memiliki kartu model. Kita tidak memiliki detail tentang bagaimana tepatnya
00:18:36pemilihan yang bergantung pada konten berfungsi dan oleh karena itu kita memiliki banyak tanda tanya di sini.
00:18:42Dan jika ada satu hal yang pasti kita pelajari selama beberapa bulan dan tahun terakhir
00:18:49adalah bahwa AI jelas merupakan alat yang berguna dan saya menggunakannya setiap hari. Anda mungkin menggunakannya setiap hari dan
00:18:57alat seperti Codex atau Claude Code sangat berguna. Saya tidak meragukan hal itu dan, ya, itulah
00:19:04pengalaman saya dengan mereka tetapi kita juga belajar bahwa kita berada di industri dengan banyak kehebohan. Kita berada di
00:19:10masa transisi. Semuanya berubah atau banyak hal yang berubah saat ini dan oleh karena itu tentu saja ada
00:19:16banyak janji di mana-mana dan tidak semua janji terealisasi, terwujud menjadi sesuatu yang
00:19:26benar-benar berguna. Maksud saya, ambil contoh model dari Meta yang merupakan model padat. Model Llama 4
00:19:35memiliki angka benchmark yang luar biasa tetapi tidak sehebat itu. Jadi ada banyak contoh yang terlalu dilebih-lebihkan
00:19:42dan itu baru satu contoh saja. Ada banyak contoh di luar sana. Ini jelas patut
00:19:49diwaspadai tetapi jika mereka merilis model-model ini dan Anda dapat mendaftar untuk akses awal sekarang,
00:19:56saya sudah mendaftar tetapi belum mendapatkan akses. Jika model-model ini memang memenuhi janji mereka, jika mereka berguna,
00:20:05cerdas di seluruh ukuran jendela konteks yang besar, itu tentu saja akan mengubah banyak hal. Itu akan membantu mengatasi
00:20:13kendala komputasi yang kita hadapi saat ini karena komputasi yang tersedia di dunia bahkan tidak mendekati cukup.
00:20:19Kita butuh lebih banyak pusat data, chip, listrik, dan semuanya. Jadi memiliki model yang
00:20:25jauh lebih efisien akan membantu mengatasi hal itu. Yah, mungkin kita akan menggunakannya jauh lebih sering sehingga
00:20:33masalahnya tetap sama tetapi tetap saja itu pasti akan memungkinkan lebih banyak penggunaan saat ini. Dan tentu saja itu akan
00:20:40membuka kasus penggunaan yang benar-benar baru. Itu akan memungkinkan untuk memasukkan seluruh basis kode ke
00:20:45dalamnya dan bertindak berdasarkan itu. Jadi semua solusi sementara yang kita gunakan saat ini akan hilang. Kita tidak akan
00:20:52memerlukan sub-agen. Kita tidak akan memerlukan sistem RAG jika itu berhasil. Tapi itu adalah pengandaian
00:21:00tentu saja dan kita masih harus melihat apakah itu memenuhi janji besar yang mereka buat. Jika ya,
00:21:07mereka pasti telah mendirikan perusahaan bernilai miliaran, multi-miliar, atau triliunan dolar di sana.

Key Takeaway

Pengembangan model Selective Sub-quadratic Attention (SSA) dengan jendela konteks 12 juta token berpotensi menggantikan solusi perantara seperti RAG dengan biaya inferensi yang jauh lebih murah dan efisiensi komputasi lebih tinggi.

Highlights

  • Alexander Wedin memperkenalkan model bahasa sub-kuadratik (sub-q) yang mengklaim efisiensi inferensi tinggi pada konteks 12 juta token.

  • Biaya operasional model sub-q diklaim hanya 5% dari biaya model Opus 4.7.

  • Jendela konteks 12 juta token memungkinkan pemrosesan seluruh basis kode besar atau dokumen hukum panjang dalam satu perintah.

  • Model ini menggunakan Selective Sub-quadratic Attention (SSA) untuk melakukan pemilihan konteks berdasarkan konten, menggantikan mekanisme atensi padat yang membebani komputasi.

  • Benchmark menunjukkan kinerja model ini berada pada kisaran Opus 4.6 dalam tugas pengambilan konteks dan coding.

Timeline

Pengenalan Model Sub-Kuadratik

  • Alexander Wedin mengumumkan model bahasa baru yang berfokus pada efisiensi tugas konteks panjang.
  • Model ini diklaim mampu memproses 12 juta token tanpa kehilangan kecerdasan model frontier.
  • Biaya operasional model ini mencapai 5% dari model Opus.

Pengumuman ini berfokus pada terobosan sub-kuadratik dalam LLM. Model ini menargetkan penyelesaian masalah keterbatasan jendela konteks pada model seperti GPT-5.5 atau Opus. Jika terbukti berfungsi, model ini berpotensi menghilangkan kebutuhan akan solusi sementara seperti sub-agen atau Retrieval-Augmented Generation (RAG).

Analisis Benchmark dan Performa

  • Model diuji menggunakan benchmark Ruler dan MRCRv2 untuk kemampuan pengambilan konteks.
  • Hasil pengujian menunjukkan kinerja setara dengan Opus 4.6.
  • Benchmark rekayasa perangkat lunak mengonfirmasi kemampuan model dalam menghasilkan kode dari jendela konteks besar.

Meskipun benchmark yang dirilis terbatas, data menunjukkan model tersebut mampu menangani tugas pengambilan multi-hop dan penyaringan selektif. Kemampuan dalam coding menunjukkan model tidak sekadar mengambil data, tetapi mampu menghasilkan keluaran bermakna dari konteks yang sangat panjang.

Mekanisme Atensi: Padat vs Jarang

  • Model frontier saat ini menggunakan atensi padat yang bersifat kuadratik dan haus komputasi.
  • Pendekatan atensi jarang sebelumnya memiliki keterbatasan seperti jendela lokal yang tidak relevan atau ringkasan global yang tidak spesifik.
  • Atensi jarang sering kali tidak mencapai kualitas yang sebanding dengan model padat.

Atensi padat mengharuskan evaluasi hubungan setiap token terhadap token lainnya, menciptakan hambatan skala kuadratik. Berbagai upaya atensi jarang sebelumnya gagal karena kehilangan informasi penting saat mencoba mengefisienkan komputasi.

Inovasi Selective Sub-quadratic Attention (SSA)

  • SSA melakukan pemilihan token yang bergantung pada konten untuk menghitung atensi hanya pada posisi relevan.
  • Mekanisme ini membatasi atensi pada sinyal penting dan mengabaikan bagian urutan yang tidak relevan.
  • Model ini menjanjikan pengurangan kendala komputasi global di pusat data.

Pendekatan SSA secara dinamis merutekan atensi ke bagian urutan yang paling berpengaruh bagi prediksi token berikutnya. Jika implementasi ini berhasil, kebutuhan akan sistem pendukung seperti RAG akan berkurang secara signifikan karena seluruh basis dokumen atau kode dapat dimuat langsung ke dalam jendela konteks.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video