Hype atau Game Changer? | Analisis Mendalam

Bahasa Indonesiaالعربية Deutsch English Español Français हिन्दी 日本語 한국어 Português Русский 中文

MMaximilian Schwarzmüller

컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00Beberapa jam yang lalu ada sebuah pengumuman yang cukup besar. Atau kehebohan yang cukup besar. Kita

00:00:06belum tahu pasti dan saya jelas tidak akan mengabaikan bagian kehebohan itu. Bagian kehebohan yang tidak ada poinnya. Tapi jika

00:00:13ini benar, ini memang pengumuman besar. Karena Alexander Wedin, yang tidak saya kenal dan Anda mungkin

00:00:20juga tidak kenal, mengumumkan sub-q, singkatan dari sub-kuadratik, sebuah terobosan besar dalam kecerdasan

00:00:28LLM. Dan apa yang dia umumkan di sini adalah jenis model bahasa besar baru yang sangat unggul dalam

00:00:36tugas-tugas konteks panjang tanpa kehilangan — setidaknya itulah yang dia klaim — tanpa kehilangan "kecerdasan"

00:00:45— dalam tanda kutip, model-model ini menghasilkan token tetapi itu memberi mereka kecerdasan pada akhirnya — jadi

00:00:52tanpa kehilangan kecerdasan yang biasa Anda dapatkan dari model frontier saat ini seperti Opus 4.7,

00:00:59GPT 5.5, dan seterusnya. Nah, apa yang dia sebutkan dalam postingan pengumuman di X — dan kemudian

00:01:04juga ada postingan blog pengumuman dengan detail teknis lebih lanjut yang akan kita lihat nanti

00:01:08karena kita akan membahasnya secara mendalam di episode dan video kali ini — apa yang dia umumkan di sini adalah model yang

00:01:16jauh lebih cepat saat melakukan inferensi pada tugas konteks satu juta token dan biayanya jauh lebih murah. Lima persen

00:01:26dari biaya Opus. Dia juga menjanjikan bahwa model awal mereka akan memiliki jendela konteks

00:01:3512 juta token yang, untuk memberikan perspektif pada angka tersebut, berarti Anda dapat memasukkan seluruh basis kode,

00:01:42basis kode yang sangat besar ke dalam jendela konteks tersebut. Anda dapat memasukkan beberapa dokumen hukum besar di dalamnya dan

00:01:49itulah mengapa model seperti ini, jika memang ada dan berfungsi, bisa sangat berguna dan benar-benar

00:01:57mengubah permainan. Tidak ada cara lain untuk mengatakannya. Jika ini berfungsi — kita belum memiliki banyak detail,

00:02:02saya akan kembali ke pembahasan itu — tetapi jika ini berfungsi, itu tentu saja berarti semua solusi sementara yang

00:02:08kita gunakan saat ini, seperti sub-agen, RAG, dan sebagainya, yang semuanya merupakan solusi sementara untuk masalah di mana

00:02:15model hanya melihat sebagian kecil dari hal yang seharusnya dilihat. Jadi jika Anda sedang mengerjakan basis kode,

00:02:22model frontier yang ada, tergantung pada ukuran basis kode Anda, tidak dapat melihat seluruh basis kode.

00:02:28Mereka tidak dapat memuat seluruh basis kode. Jadi jika Anda memintanya untuk mengubah sesuatu, Anda harus berharap

00:02:33bahwa model tersebut menemukan bagian yang tepat dalam basis kode Anda untuk melakukan perubahan yang Anda minta.

00:02:40Dan hal itu tentu saja menjadi masalah yang semakin besar seiring bertambahnya ukuran basis kode atau bertambahnya

00:02:45jumlah dokumen yang Anda inginkan untuk dikerjakan oleh model tersebut. Jadi jika Anda memiliki model yang dapat diandalkan

00:02:52menggunakan jendela konteks 12 juta token dengan kualitas yang baik, itu tentu saja akan mengubah permainan.

00:02:59Berbicara tentang mengubah permainan, kita akan membahasnya secara mendalam di video ini dan saya akan membahasnya secara mendalam di semua kursus saya. Jadi

00:03:06jika Anda tertarik untuk mempelajari cara praktis menggunakan alat seperti Claude Code, Codex, tugas AI lainnya,

00:03:13atau coding, atau kombinasi dari semua itu, maka kursus-kursus saya mungkin layak untuk dilirik. Kursus-kursus tersebut praktis,

00:03:19langsung praktik, mendalam, dan Anda bisa mengambil kursus individu atau keanggotaan,

00:03:24yang memberi Anda akses ke semua kursus dengan satu harga bulanan atau tahunan. Tautan di bawah.

00:03:31Jadi mari kita bahas sedikit lebih mendalam sekarang. Dan seperti yang disebutkan, ada postingan blog pengumuman dengan

00:03:36beberapa detail teknis, tetapi tidak banyak agar sangat jelas di sini. Ada banyak informasi yang hilang,

00:03:43dan kita juga tidak memiliki banyak benchmark. Khususnya, mereka hanya merilis tiga

00:03:49benchmark. Benchmark Ruler yang menguji perilaku pengambilan dan penalaran di luar pencarian jarum sederhana,

00:03:56termasuk pengambilan multi-hop, agregasi, pelacakan variabel, dan penyaringan

00:04:01selektif. Jadi itu adalah benchmark, yang pada akhirnya adalah tentang model yang menemukan beberapa bagian

00:04:06informasi relevan dari jendela konteks yang relatif besar. 128.000 token. Jadi tidak terlalu besar

00:04:15untuk ukuran jendela konteks, bahkan tidak mendekati 12 juta yang mereka janjikan, tetapi juga tidak hanya 5K atau lebih.

00:04:22Jadi ini adalah benchmark yang menguji seberapa baik model dapat menemukan dan menyatukan berbagai bagian dari

00:04:28jendela konteks atau basis dokumen yang kurang lebih besar. Dan di sini model mereka berada di tingkat yang sama dengan

00:04:36OPUS 4.6. Dalam postingan itu, mereka juga menyebutkan benchmark lain, benchmark MRCRv2, yang juga tentang tugas

00:04:45pengambilan konteks panjang di mana model mereka berada dalam kisaran, seperti yang mereka nyatakan, OPUS 4.6. Meskipun,

00:04:53ya, itu berada dalam kisaran jika Anda melihat semua hasil lainnya di sini, tetapi itu jelas lebih buruk.

00:05:00Yang tentu saja menarik karena seluruh fokus mereka adalah pengambilan konteks panjang di sini. Tetapi

00:05:07sekali lagi, tentu saja, Anda juga bisa berargumen bahwa untuk kasus penggunaan jendela konteks super panjang, model

00:05:15lainnya tidak dapat digunakan sama sekali, sementara model mereka mungkin masih memberi Anda hasil yang sangat baik, yang mungkin

00:05:22lebih baik daripada tidak sama sekali. Dan tentu saja, model mereka juga pasti bisa meningkat seiring waktu. Jadi saya tidak akan

00:05:29menganggap ini sebagai pertanda yang sangat buruk untuk model awal. Ini hanya sesuatu yang patut dicatat. Dan

00:05:35tentu saja, patut dicatat juga bahwa ini jauh lebih baik daripada Gemini 3.1 Pro, misalnya, atau OPUS 4.7 di

00:05:43tabel tersebut. Dan mereka juga merilis satu benchmark, yang menurut saya menarik, yaitu tentang tugas-tugas

00:05:49terkait coding. Sekarang, saya akan katakan bahwa semua benchmark ini, saya bukan penggemar beratnya. Kita semua tahu

00:05:56bahwa hal itu bisa dimanipulasi, setidaknya banyak dari mereka, model dapat secara sengaja atau tidak sengaja

00:06:05disesuaikan secara halus atau dioptimalkan untuk berkinerja baik dalam benchmark. Kita memiliki banyak kasus seperti itu di masa lalu,

00:06:12tetapi tetap saja, mereka memberi kita sesuatu untuk dilihat. Dan saya menganggap benchmark rekayasa perangkat lunak di sini

00:06:20menarik, karena di sini kita dapat melihat bahwa model mereka berada di kisaran model

00:06:27OPUS. Dan itu, tentu saja, menunjukkan bahwa model tersebut tidak hanya mampu menemukan informasi dalam jendela konteks

00:06:36panjang, dalam banyak dokumen, basis kode yang besar, tetapi juga mampu melakukan sesuatu yang berguna dengannya,

00:06:42bahwa ia mampu menghasilkan kode yang bermakna dan baik sebagai hasil dari kecerdasannya dan data yang mampu

00:06:50ia ambil dalam jendela konteks panjang ini, bisa dikatakan begitu. Jadi ini bukan hanya tentang mengambil,

00:06:54ini juga tentang melakukan hal-hal yang berguna. Dan tampaknya bagus di sana. Tetapi seperti yang disebutkan, itu saja

00:07:00tentang hal itu. Kita tidak mendapatkan pembahasan mendalam atau detail teknis lainnya. Belum ada kartu model.

00:07:09Oleh karena itu, yang kita miliki hanyalah deskripsi, pada dasarnya, bagaimana model mereka menggunakan atensi jarang alih-alih

00:07:16atensi padat untuk membuat tugas-tugas konteks panjang ini berfungsi atau untuk membuat model berfungsi secara efisien

00:07:22dalam skenario jendela konteks panjang, dan bagaimana model tersebut mencapai peningkatan kecepatan dan efisiensi biayanya,

00:07:29karena model ini lebih cepat dan lebih murah, bukan? Itulah yang mereka umumkan. Jadi mari kita lihat

00:07:37atensi padat versus atensi jarang untuk memahami apa yang terjadi di sini. Nah, atensi padat

00:07:45adalah apa yang Anda miliki dalam model frontier saat ini. Jadi GPT 5.5 Anda, Opus 4.7, semua model lainnya,

00:07:52ini semua adalah model padat, yang pada dasarnya berarti bahwa untuk setiap token baru, katakanlah token D,

00:07:58untuk menghasilkan token tersebut, semua token lainnya harus dievaluasi dan koneksi di antara

00:08:08token-token tersebut harus dievaluasi karena seluruh gagasan dalam model bahasa besar adalah bahwa Anda

00:08:13menurunkan token masa depan, yang bisa berupa satu kata utuh atau bagian dari kata berdasarkan apa yang mendahului

00:08:20token tersebut. Jadi jika Anda memiliki, misalnya, kalimat seperti "sebuah kontrak dapat diakhiri kapan saja..."

00:08:28maka kata berikutnya setelah itu adalah apa yang ingin Anda prediksi. Anda mungkin telah bertanya kepada model, "Hei,

00:08:35kapan saya bisa mengakhiri kontrak saya?" Dan Anda mungkin telah memasukkan kontrak tersebut sebagai dokumen PDF atau sebagai teks

00:08:42biasa ke dalam perintah Anda juga. Jadi perintah di depan kalimat ini, yang dihasilkan oleh model

00:08:48sebagai keluaran adalah pertanyaan Anda dan mungkin beberapa konteks lainnya. Jadi kontrak tersebut, misalnya,

00:08:57bukan? Begitulah cara kita saat ini menggunakan model. Dan untuk menghasilkan token ini di sini,

00:09:03dan untuk menghasilkan setiap token yang mendahuluinya, model pada dasarnya melihat

00:09:10seluruh percakapan, semua token di dalamnya. Jadi itu adalah pertanyaan Anda dan konteks tambahan apa pun

00:09:16yang Anda masukkan ke sana. Dan model membaginya menjadi beberapa token dan kemudian menggabungkan semua token tersebut atau

00:09:23menghitung bobot pada akhirnya berdasarkan semua kombinasi token sebelumnya. Jadi misalnya,

00:09:30jika itu adalah seluruh percakapan kita, yang jelas sengaja dibuat singkat, ini adalah contoh, maka begitulah

00:09:38percakapan tersebut akan dipecah menjadi beberapa token untuk model GPT-5, misalnya. Jadi beberapa token

00:09:46hanya berupa kata atau kata dengan spasi di depannya. Beberapa token hanyalah karakter khusus.

00:09:51Dan untuk menghasilkan token berikutnya, semua token sebelumnya pada akhirnya digabungkan satu sama

00:09:58lain untuk memahami artinya pada akhirnya. Karena tentu saja, tanda tanya memiliki arti dan

00:10:05implikasi yang sangat berbeda untuk token masa depan, tergantung pada apa yang mendahului tanda tanya

00:10:11tersebut. Jadi tanda tanya itu digabungkan dengan semua token sebelumnya. Dan kombinasi dari semua

00:10:17kombinasi inilah yang kemudian digunakan untuk menurunkan token akhir tersebut. Itu secara

00:10:22garis besar bagaimana Anda bisa membayangkan atensi padat dan cara kerjanya. Sekarang, tentu saja,

00:10:29hal itu sangat tidak efisien, tetapi ini adalah yang terbaik yang kita miliki saat ini, setidaknya dalam hal

00:10:36kecerdasan dan kualitas keluaran. Tetapi ini bersifat kuadratik karena n dikali n,

00:10:44yang berarti untuk menurunkan token baru, kita harus menggabungkan semua token sebelumnya. Ada

00:10:49mekanisme pengoptimalan seperti caching KV, yang pada akhirnya menyimpan hasil bobot yang telah dihitung

00:10:56di masa lalu. Sehingga untuk token baru, Anda tidak perlu menghitung ulang

00:11:01semua kombinasi sebelumnya, tetapi Anda masih harus menghitung token baru itu dengan membandingkannya dengan semua

00:11:08bobot tersimpan sebelumnya. Jadi Anda masih berakhir dalam situasi kuadratik di sini. Dan hal itu tentu saja

00:11:16tidak efisien dan lambat, itulah sebabnya model frontier yang kita miliki saat ini sangat haus komputasi,

00:11:24lambat, terutama ketika Anda masuk ke area jendela konteks yang lebih tinggi dan mengapa ada batas

00:11:31ukuran jendela konteks yang cukup ketat. Karena karena ini bersifat kuadratik, tentu saja, ukuran jendela konteks 12 juta

00:11:38hampir mustahil untuk dikomputasi. Itu akan memakan waktu selamanya dan waktu komputasi hanyalah satu

00:11:46dimensi, memori yang harus dicadangkan adalah dimensi lainnya. Jadi begitulah cara kerja model padat secara singkat

00:11:54dan apa keterbatasan mereka. Sekarang, sebaliknya atau pendekatan alternatif yang digunakan oleh

00:12:00model baru itu, model sub q yang diumumkan kemarin, adalah menggunakan atensi jarang. Sekarang,

00:12:06bagaimana cara kerja atensi jarang? Gagasan dengan atensi jarang adalah bahwa untuk menghitung token

00:12:14baru, Anda tidak melihat semua token sebelumnya, Anda tidak memiliki kombinasi dari semua token

00:12:20sebelumnya, tetapi hanya dari beberapa token terpilih. Jadi misalnya, jika Anda ingin menurunkan token D di sini,

00:12:28Anda mungkin hanya melihat B dan C, tetapi tidak melihat A. Sekarang, tentu saja pertanyaan besarnya adalah,

00:12:33bagaimana Anda memutuskan token sebelumnya mana yang akan dilihat atau token sebelumnya mana yang menarik untuk

00:12:40menghasilkan token baru tersebut. Dan ada pendekatan berbeda yang telah digunakan di masa lalu karena

00:12:46model baru ini bukan model atensi jarang pertama. Tetapi alasan mengapa mereka belum benar-benar

00:12:52populer di sini adalah karena mereka memiliki keterbatasan yang serius. Misalnya, salah satu caranya adalah dengan menggunakan

00:12:59pendekatan jendela lokal. Sekarang, apa artinya itu? Itu berarti bahwa untuk menghasilkan token baru,

00:13:06katakanlah token nomor lima, token kelima dalam urutan, kita melihat, katakanlah,

00:13:13hanya dua token sebelum itu. Jadi tiga ditambah empat, misalnya. Jadi Anda memiliki jendela geser berisi token

00:13:22dan Anda selalu hanya melihat token di depan token yang akan Anda hasilkan. Sekarang,

00:13:27seperti yang bisa Anda bayangkan, ini memiliki beberapa keterbatasan serius karena jika saya hanya melihat beberapa token

00:13:33terakhir, jika saya, misalnya, bertanya-tanya kapan kontrak dapat diakhiri, informasi tersebut

00:13:39mungkin ada di sini dalam konteks ekstra yang saya masukkan ke dalam perintah, tetapi itu bukan bagian dari jendela lokal tersebut

00:13:45jika jendela lokal hanya berupa beberapa token terakhir, misalnya. Jadi token berikutnya yang akan

00:13:50diprediksi tidak tahu apa-apa tentang apa yang ada sebelumnya dalam konteks tersebut. Jadi itu tidak berguna. Anda dapat memiliki

00:13:55ukuran jendela konteks yang tidak terbatas dengan pendekatan ini, tetapi semua konteks itu tidak penting. Jadi itu adalah keterbatasan yang jelas.

00:14:01Pendekatan lainnya adalah apa yang disebut pendekatan token global. Di sini, gagasannya adalah Anda

00:14:09memiliki token ringkasan global. Jadi secara garis besar, Anda bisa menganggap ini sebagai token khusus yang muncul

00:14:16di awal urutan token yang dimasukkan di awal urutan token

00:14:20oleh model, bisa dikatakan begitu, yang merangkum token-token setelahnya. Begitulah cara Anda bisa membayangkannya.

00:14:27Dan kemudian untuk memprediksi token berikutnya, token global itu dipertimbangkan. Sekarang, itu mungkin berfungsi

00:14:34sangat baik jika kita kembali ke contoh ini di sini dengan teks hukum yang mungkin telah Anda berikan kepada model

00:14:40dalam perintah Anda. Jika ringkasan yang dihasilkan di sini untuk percakapan Anda, jika itu mencakup ketentuan

00:14:46pengakhiran kontrak, misalnya, maka tentu saja token berikutnya ini dapat diprediksi dengan sangat baik

00:14:53berdasarkan ringkasan tersebut. Tetapi jika Anda tidak beruntung dan ringkasan tersebut tidak menyertakan detail ini,

00:15:00maka Anda tidak beruntung dan Anda kembali ke keadaan di mana informasi tersebut benar-benar hilang.

00:15:04Jadi pendekatan token global dapat berfungsi, tetapi tentu saja semakin panjang jendela konteks Anda,

00:15:12semakin umum ringkasannya. Maksud saya, itu mudah dibayangkan. Jika Anda memiliki dokumen PDF

00:15:16seratus halaman dan Anda meringkasnya dalam satu atau dua kalimat, itu akan sangat tidak spesifik,

00:15:22bukan? Jadi tentu saja, memprediksi token berikutnya berdasarkan ringkasan tersebut tidak akan benar-benar berfungsi.

00:15:29Sekarang, pendekatan lain adalah menggunakan router, yaitu Anda memiliki jaringan saraf

00:15:37tambahan. Jadi Anda memiliki dua model, pada dasarnya model bahasa besar Anda, dan kemudian Anda memiliki model

00:15:43perutean tambahan. Dan model perutean itu melihat perintah oleh pengguna atau pada konteks dari

00:15:51token berikutnya yang akan dihasilkan dan kemudian merutekan token tersebut, bisa dikatakan begitu, ke token lain yang dianggapnya

00:15:59relevan. Tetapi sekarang hal itu tentu saja berarti Anda sekarang memiliki model perutean, yang entah bagaimana perlu

00:16:04melacak semua token lain yang datang setelahnya. Jadi itu mungkin kembali ke area atensi

00:16:10kuadratik atau sangat tidak spesifik dan Anda mengandalkan hal itu. Jadi Anda kembali lagi ke kompleksitas

00:16:17kuadratik dan Anda tidak mendapatkan banyak keuntungan dibandingkan dengan model padat atau Anda tidak melakukan

00:16:23itu dan Anda mungkin akan mengalami beberapa kerugian karena peruteannya tidak terlalu bagus. Jadi sama seperti dengan

00:16:30ringkasan, Anda akan berharap bahwa router melakukan pekerjaan yang baik dan mengaktifkan token yang tepat untuk

00:16:37memprediksi token berikutnya. Dan itulah mengapa atensi jarang menarik tetapi belum benar-benar

00:16:46populer sejauh ini karena semua pendekatan berbeda ini memiliki timbal balik yang berarti dan sampai saat ini,

00:16:54sepanjang pengetahuan saya, belum ada model atensi jarang yang menghasilkan

00:17:00kualitas yang setara yang sebanding dengan model padat frontier saat ini dan mampu bertindak pada jendela

00:17:07konteks yang besar. Dan mereka berjanji untuk mengubah ini dengan model baru mereka. Dalam postingan blog pengumuman itu,

00:17:14mereka menyebutkan bahwa model mereka melakukan pemilihan yang bergantung pada konten. Untuk setiap kueri, model memilih bagian

00:17:22urutan mana yang layak untuk diperhatikan dan menghitung atensi tepat pada posisi-posisi tersebut. Jadi

00:17:28pada akhirnya, kita kembali ke pendekatan perutean ini tetapi mereka berjanji di sini, menyebutkan di sini,

00:17:35bahwa mekanisme mereka tampaknya sangat efisien untuk mengaktifkan token yang tepat guna memprediksi

00:17:43token berikutnya. Mereka menyebutkan bahwa atensi padat mengasumsikan setiap pasangan mungkin penting, sehingga mengevaluasi

00:17:49semuanya. Dalam praktiknya, hampir tidak ada yang penting. SSA, singkatan dari sub-quadratic selective attention,

00:17:55yang merupakan pendekatan mereka, menghapus asumsi tersebut. Ini tidak memperkirakan atensi. Ini membatasi

00:18:01atensi pada posisi yang benar-benar membawa sinyal dan melewatkan sisanya. Itulah pendekatan mereka.

00:18:08Mereka melakukan perutean yang bergantung pada konten untuk mengaktifkan token yang tepat atau menggunakan token yang tepat untuk

00:18:14memprediksi token berikutnya dan itulah yang memberi mereka peningkatan efisiensi. Dan kita masih harus melihat

00:18:21seberapa baik ini sebenarnya berfungsi karena, seperti yang disebutkan, kita memiliki subset benchmark yang sangat terbatas di sini.

00:18:30Tidak banyak atau tidak ada benchmark lain. Kita tidak memiliki kartu model. Kita tidak memiliki detail tentang bagaimana tepatnya

00:18:36pemilihan yang bergantung pada konten berfungsi dan oleh karena itu kita memiliki banyak tanda tanya di sini.

00:18:42Dan jika ada satu hal yang pasti kita pelajari selama beberapa bulan dan tahun terakhir

00:18:49adalah bahwa AI jelas merupakan alat yang berguna dan saya menggunakannya setiap hari. Anda mungkin menggunakannya setiap hari dan

00:18:57alat seperti Codex atau Claude Code sangat berguna. Saya tidak meragukan hal itu dan, ya, itulah

00:19:04pengalaman saya dengan mereka tetapi kita juga belajar bahwa kita berada di industri dengan banyak kehebohan. Kita berada di

00:19:10masa transisi. Semuanya berubah atau banyak hal yang berubah saat ini dan oleh karena itu tentu saja ada

00:19:16banyak janji di mana-mana dan tidak semua janji terealisasi, terwujud menjadi sesuatu yang

00:19:26benar-benar berguna. Maksud saya, ambil contoh model dari Meta yang merupakan model padat. Model Llama 4

00:19:35memiliki angka benchmark yang luar biasa tetapi tidak sehebat itu. Jadi ada banyak contoh yang terlalu dilebih-lebihkan

00:19:42dan itu baru satu contoh saja. Ada banyak contoh di luar sana. Ini jelas patut

00:19:49diwaspadai tetapi jika mereka merilis model-model ini dan Anda dapat mendaftar untuk akses awal sekarang,

00:19:56saya sudah mendaftar tetapi belum mendapatkan akses. Jika model-model ini memang memenuhi janji mereka, jika mereka berguna,

00:20:05cerdas di seluruh ukuran jendela konteks yang besar, itu tentu saja akan mengubah banyak hal. Itu akan membantu mengatasi

00:20:13kendala komputasi yang kita hadapi saat ini karena komputasi yang tersedia di dunia bahkan tidak mendekati cukup.

00:20:19Kita butuh lebih banyak pusat data, chip, listrik, dan semuanya. Jadi memiliki model yang

00:20:25jauh lebih efisien akan membantu mengatasi hal itu. Yah, mungkin kita akan menggunakannya jauh lebih sering sehingga

00:20:33masalahnya tetap sama tetapi tetap saja itu pasti akan memungkinkan lebih banyak penggunaan saat ini. Dan tentu saja itu akan

00:20:40membuka kasus penggunaan yang benar-benar baru. Itu akan memungkinkan untuk memasukkan seluruh basis kode ke

00:20:45dalamnya dan bertindak berdasarkan itu. Jadi semua solusi sementara yang kita gunakan saat ini akan hilang. Kita tidak akan

00:20:52memerlukan sub-agen. Kita tidak akan memerlukan sistem RAG jika itu berhasil. Tapi itu adalah pengandaian

00:21:00tentu saja dan kita masih harus melihat apakah itu memenuhi janji besar yang mereka buat. Jika ya,

00:21:07mereka pasti telah mendirikan perusahaan bernilai miliaran, multi-miliar, atau triliunan dolar di sana.

Key Takeaway

Pengembangan model Selective Sub-quadratic Attention (SSA) dengan jendela konteks 12 juta token berpotensi menggantikan solusi perantara seperti RAG dengan biaya inferensi yang jauh lebih murah dan efisiensi komputasi lebih tinggi.

Highlights

Alexander Wedin memperkenalkan model bahasa sub-kuadratik (sub-q) yang mengklaim efisiensi inferensi tinggi pada konteks 12 juta token.
Biaya operasional model sub-q diklaim hanya 5% dari biaya model Opus 4.7.
Jendela konteks 12 juta token memungkinkan pemrosesan seluruh basis kode besar atau dokumen hukum panjang dalam satu perintah.
Model ini menggunakan Selective Sub-quadratic Attention (SSA) untuk melakukan pemilihan konteks berdasarkan konten, menggantikan mekanisme atensi padat yang membebani komputasi.
Benchmark menunjukkan kinerja model ini berada pada kisaran Opus 4.6 dalam tugas pengambilan konteks dan coding.

Timeline

Pengenalan Model Sub-Kuadratik

Alexander Wedin mengumumkan model bahasa baru yang berfokus pada efisiensi tugas konteks panjang.
Model ini diklaim mampu memproses 12 juta token tanpa kehilangan kecerdasan model frontier.
Biaya operasional model ini mencapai 5% dari model Opus.

Pengumuman ini berfokus pada terobosan sub-kuadratik dalam LLM. Model ini menargetkan penyelesaian masalah keterbatasan jendela konteks pada model seperti GPT-5.5 atau Opus. Jika terbukti berfungsi, model ini berpotensi menghilangkan kebutuhan akan solusi sementara seperti sub-agen atau Retrieval-Augmented Generation (RAG).

Analisis Benchmark dan Performa

Model diuji menggunakan benchmark Ruler dan MRCRv2 untuk kemampuan pengambilan konteks.
Hasil pengujian menunjukkan kinerja setara dengan Opus 4.6.
Benchmark rekayasa perangkat lunak mengonfirmasi kemampuan model dalam menghasilkan kode dari jendela konteks besar.

Meskipun benchmark yang dirilis terbatas, data menunjukkan model tersebut mampu menangani tugas pengambilan multi-hop dan penyaringan selektif. Kemampuan dalam coding menunjukkan model tidak sekadar mengambil data, tetapi mampu menghasilkan keluaran bermakna dari konteks yang sangat panjang.

Mekanisme Atensi: Padat vs Jarang

Model frontier saat ini menggunakan atensi padat yang bersifat kuadratik dan haus komputasi.
Pendekatan atensi jarang sebelumnya memiliki keterbatasan seperti jendela lokal yang tidak relevan atau ringkasan global yang tidak spesifik.
Atensi jarang sering kali tidak mencapai kualitas yang sebanding dengan model padat.

Atensi padat mengharuskan evaluasi hubungan setiap token terhadap token lainnya, menciptakan hambatan skala kuadratik. Berbagai upaya atensi jarang sebelumnya gagal karena kehilangan informasi penting saat mencoba mengefisienkan komputasi.

Inovasi Selective Sub-quadratic Attention (SSA)

SSA melakukan pemilihan token yang bergantung pada konten untuk menghitung atensi hanya pada posisi relevan.
Mekanisme ini membatasi atensi pada sinyal penting dan mengabaikan bagian urutan yang tidak relevan.
Model ini menjanjikan pengurangan kendala komputasi global di pusat data.

Pendekatan SSA secara dinamis merutekan atensi ke bagian urutan yang paling berpengaruh bagi prediksi token berikutnya. Jika implementasi ini berhasil, kebutuhan akan sistem pendukung seperti RAG akan berkurang secara signifikan karena seluruh basis dokumen atau kode dapat dimuat langsung ke dalam jendela konteks.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video