00:00:00Membuat kode cloud berbicara seperti manusia purba mungkin tidak hanya menghemat token Anda.
00:00:04Ini sebenarnya bisa meningkatkan performa Anda juga. Sekarang, di permukaan,
00:00:07ini terdengar seperti lelucon belaka. Kami memiliki repo GitHub bernama caveman.
00:00:12Yang telah mendapatkan 5.000 star dalam 72 jam.
00:00:15Dan yang dilakukannya hanyalah memaksa kode cloud untuk berbicara seperti Neanderthal.
00:00:19Ini memangkas semua kata pengisi. Idenya adalah dengan membuatnya lebih ringkas,
00:00:24kita menghemat banyak sekali token dalam prosesnya,
00:00:27tapi tersembunyi di repo ini ada tautan ke makalah penelitian yang baru saja keluar beberapa
00:00:31minggu lalu,
00:00:31yang memberi tahu kita jika kita memaksa model bahasa besar kita untuk lebih ringkas,
00:00:36kita tidak hanya menghemat token, tetapi kita dapat meningkatkan performanya secara dramatis.
00:00:40Jadi hari ini saya akan membedah seluruh keahlian caveman ini.
00:00:42Saya akan menjelaskan apa yang sebenarnya Anda dapatkan karena angka-angka di repo tersebut
00:00:46sedikit menyesatkan dan kita akan membahas makalah penelitian ini agar Anda
00:00:50bisa memahami apa arti sebenarnya bagi Anda. Jadi ini adalah caveman,
00:00:54repo "mengapa bicara banyak kata kalau sedikit kata cukup" kami.
00:00:58Sekarang, langsung saja, apa yang dilakukannya? Cukup sederhana,
00:01:02memotong pengisi kode cloud. Sekarang ia berbicara seperti manusia purba.
00:01:07Ini memberikan beberapa contoh sebelum dan sesudah, menunjukkan perbedaan token dan bahkan
00:01:11memiliki daftar benchmark lengkap yang menunjukkan tugas yang diberikan ke kode cloud,
00:01:15menjelaskan bug re-render react, token normal yang digunakan,
00:01:19token caveman, dan jumlah yang dihemat.
00:01:21Sekarang angka-angka yang diajukan dalam repo ini agak gila.
00:01:23Jadi mereka mengklaim bahwa dengan keahlian ini,
00:01:26kita akan memotong 75% token output sambil tetap menjaga akurasi teknis
00:01:30penuh.
00:01:31Caveman ini tidak mengubah cara kode cloud menalar di balik layar.
00:01:35Ini tidak mengubah cara ia menghasilkan kode. Tidak ada yang berubah.
00:01:38Ini hanya outputnya. Apa yang Anda lihat sebagai respons.
00:01:41Ini juga menyertakan alat pendamping yang mengompres file memori Anda.
00:01:45Bayangkan claud.md menjadi bahasa caveman.
00:01:47Dan itu seharusnya mengurangi token input kita sebesar 45% setiap sesi.
00:01:52Sekarang mari kita perjelas. Anda tidak memotong 75% token output Anda secara keseluruhan,
00:01:57dan 45% token input Anda secara keseluruhan sama sekali. Itu sama sekali tidak benar.
00:02:01Meskipun kita bisa melihat hal-hal ini yang mengatakan, Hei,
00:02:03ini menghemat 87% token pada cara ia menjelaskan bug re-render react.
00:02:07Prompt yang Anda dapatkan kembali dari kode claud, respons itu sendiri,
00:02:11teksnya hanyalah sebagian kecil dari token output secara keseluruhan,
00:02:15sama seperti file memori,
00:02:17seperti claud.md yang hanyalah sebagian kecil dari input secara keseluruhan.
00:02:21Jadi mari kita sangat jelas tentang apa yang sebenarnya ini berikan pada skala token.
00:02:25Anda tidak menghemat 80% dari total token Anda. Dan untuk membuatnya sedikit lebih jelas,
00:02:28mari kita bedah rata-rata sesi kode claud seratus ribu token Anda. Sekarang,
00:02:32saya mengerti setiap sesi sedikit berbeda, tapi ikuti saja saya di sini.
00:02:36Kita punya sesi seratus ribu token, dan itu terbagi menjadi dua bagian.
00:02:40Input, yang merupakan bagian terbesarnya.
00:02:42Itu 75.000 token dalam output, yaitu 25%.
00:02:46Sekarang caveman mengklaim kita akan mengurangi output sebesar 75%.
00:02:51Itu tidak benar. Jika kita melihat output, sebenarnya ada tiga bagian, kan?
00:02:56Kita punya pemanggilan alat, yang mengambil sebagian, blok kode,
00:02:59seperti pembuatan kode yang sebenarnya, yang mengambil sebagian.
00:03:02Dan kemudian respons prosa yang sebenarnya, respons ini,
00:03:06respons teks internal itu, itulah yang disesuaikan oleh caveman.
00:03:10Itulah yang ia kurangi. Ia bisa mengurangi 75% dari itu. Anda tahu,
00:03:13jika kita turun ke sini, kita bisa melihat, oke,
00:03:16jadi biasanya prosa memakan enam ribu token dengan caveman.
00:03:20Kita menghemat 4.000 token. Jadi kita mendapatkan pengurangan 4%. Itu masih sangat bagus.
00:03:25Jika kita menghemat 4% dari total token kita selama seminggu,
00:03:29itu pasti bertambah,
00:03:30terutama di lingkungan saat ini di mana kita semua sangat sadar akan penggunaan kita.
00:03:33Tapi pahami ini bukan 87%. Ini 70%,
00:03:3860% dari satu bagian dari satu bagian dari total sesi.
00:03:43Terlebih lagi,
00:03:44jika Anda melihat input dan ia berbicara tentang kompresi caveman yang menghemat 45%,
00:03:49sekali lagi, tidak juga.
00:03:50Kita berbicara tentang area system prompt dan hanya bagian tertentu dari system
00:03:54prompt. Jadi total di sini, kan? Kita menghemat apa? Mungkin seribu token,
00:03:58mungkin 2000 token. Dan selama, sekali lagi, seluruh sesi.
00:04:03Jika saya katakan 5.000 token, 5% dari setiap sesi, itu bagus, hal yang bagus,
00:04:07tapi itu bukan angka-angka mentereng tersebut. Jadi pahami itu saat memulai,
00:04:13ini adalah permainan di batas tipis. Ini tidak sepenuhnya mengubah.
00:04:15Anda tidak akan bisa beralih dari rencana maksimal lima kali lipat ke rencana maksimal 20 kali lipat
00:04:19karena kita menghemat 75%. Tidak, tidak, tidak, tidak,
00:04:22tapi masih banyak nilai yang bisa ditambahkan di sini dan bahkan lebih banyak nilai yang bisa
00:04:25diekstrak. Setelah kita melihat studinya, itu agak terkubur di sini.
00:04:29Ada satu bagian kecil yang didedikasikan untuk itu,
00:04:31tapi ini adalah studi berjudul "brevity constraints,
00:04:34reverse performance hierarchies in language models."
00:04:36Dan ini keluar pada awal Maret tahun ini.
00:04:38Jadi saya akan menaruh tautan ke studi tersebut di deskripsi jika Anda ingin memeriksanya,
00:04:41tapi mari kita bahas ini sebentar saja karena ini sangat menarik.
00:04:45Karena ide dan harapannya adalah model yang lebih besar,
00:04:49selalu lebih baik daripada model yang lebih kecil. Yah,
00:04:53tidak persis demikian, menurut studi ini.
00:04:56Jadi dalam studi ini mereka mengevaluasi 31 model di 1500
00:05:01masalah,
00:05:02dan mereka mengidentifikasi mekanismenya sebagai verbositas spontan yang bergantung pada skala yang
00:05:07memperkenalkan kesalahan melalui elaborasi berlebihan. Apa maksudnya?
00:05:11Artinya pada hampir 8% masalah dari 1500 masalah ini dan
00:05:1631 model, model bahasa yang lebih besar,
00:05:19yang memiliki lebih banyak parameter kinerjanya di bawah model yang lebih kecil sebesar 28
00:05:24persen poin, meskipun memiliki parameter seratus kali lebih banyak dalam beberapa kasus.
00:05:28Jadi Anda memiliki skenario di mana sekali lagi, ini dengan semua model open weight.
00:05:32Anda memiliki model parameter 2 miliar yang mengungguli model parameter 400 miliar.
00:05:37Ini terjadi berkali-kali. Ini gila.
00:05:41Mengapa ini terjadi? Yah,
00:05:43mereka berpendapat bahwa alasannya adalah karena model bahasa besar ini
00:05:49terlalu banyak bicara.
00:05:51Mereka terlalu bertele-tele sampai-sampai mereka membuat diri mereka sendiri
00:05:55berputar-putar dan mendapatkan jawaban yang salah karenanya. Dan dalam studi tersebut,
00:05:58mereka menemukan bahwa dengan membatasi model besar untuk memberikan respons singkat,
00:06:02respons caveman meningkatkan akurasi sebesar 26 persen poin dan mengurangi
00:06:07kesenjangan kinerja hingga dua pertiga.
00:06:09Dan dalam banyak kasus dengan memaksa model bahasa besar ini menjadi lebih ringkas,
00:06:14lebih seperti caveman, itu benar-benar mengubah dinamika yang tadinya
00:06:18kalah dari model yang lebih kecil tiba-tiba sekarang mereka mengalahkannya.
00:06:21Itu sangat liar, terutama dalam konteks repo GitHub ini. Sekarang,
00:06:26jelas ini adalah model open weight. Ini bukan Opus 4.6.
00:06:29Ini bukan Codex 5.4.
00:06:30Apakah model-model terdepan ini menunjukkan perilaku yang persis sama?
00:06:34Kita belum tentu tahu pasti,
00:06:36tetapi jika Anda telah melihat studi-studi ini, Anda mengerti biasanya apa yang Anda lihat di sini
00:06:40cenderung terulang pada tingkat tertentu dengan model-model terdepan.
00:06:44Mungkin tidak seekstrem ini, tapi mungkin ada benarnya.
00:06:47Sekarang bagian studi lainnya menjelaskan banyak detail tentang cara mereka menjalankan tes,
00:06:51bagaimana mereka mencoba membedakan korelasi versus kausalitas dan mengapa mereka pikir
00:06:55ini adalah masalah. Dan seperti yang saya katakan sebelumnya,
00:06:57mereka berhipotesis bahwa model besar menghasilkan respons yang sangat bertele-tele yang
00:07:02mengaburkan penalaran yang benar, fenomena yang mereka sebut overthinking.
00:07:06Ia hanya mencoba mengeluarkan terlalu banyak hal.
00:07:07Alih-alih hanya memberi Anda jawaban dan menyingkir,
00:07:10ia secara harfiah berbicara sendiri sampai ke jawaban yang salah.
00:07:13Dan mereka secara spesifik mengatakan kecenderungan untuk menjadi teliti ini menjadi
00:07:17kontraproduktif, memperkenalkan akumulasi kesalahan,
00:07:21batasan ringkas sangat membantu model besar sementara hampir tidak mempengaruhi
00:07:25model yang lebih kecil. Dan pertanyaan yang jelas harus Anda miliki adalah, kenapa,
00:07:28mengapa ini terjadi? Mengapa model yang lebih besar ini mengalami masalah ini?
00:07:31Mereka mengarah pada pembelajaran penguatan (reinforcement learning).
00:07:34Jadi saat Anda melatih model baru,
00:07:36bayangkan Opus 5.0 sedang dalam proses pelatihan.
00:07:40Bagian dari apa yang mereka lakukan adalah pembelajaran penguatan.
00:07:42Sekarang saya tidak tahu apakah Anthropic melakukannya secara spesifik,
00:07:44tapi begitulah cara kerjanya untuk banyak model.
00:07:45Pada dasarnya mereka mengambil model baru dan mendatangkan manusia untuk menilai
00:07:50jawabannya. Mereka menunjukkan beberapa jawaban dan manusia berkata,
00:07:52Saya lebih suka yang ini daripada yang ini. Dan mereka mengatakan dalam studi tersebut,
00:07:55kemungkinannya adalah manusia cenderung menyukai jawaban yang lebih bertele-tele, jawaban yang lebih teliti.
00:08:00Dan karena itu,
00:08:01model-model besar ini pada dasarnya dilatih untuk menjadi lebih bertele-tele daripada
00:08:05ringkas dan bahkan benar dalam beberapa contoh.
00:08:08Tapi poin penting di sini adalah bahwa batasan ringkas benar-benar membalikkan
00:08:12hierarki kinerja. Jadi di mana mereka kalah sebelumnya,
00:08:14sekarang mereka menang hanya dengan menyuruh mereka menjadi lebih ringkas.
00:08:18Mereka tidak mengubah cara mereka berpikir, mereka tidak mengubah apa pun di balik layar.
00:08:20Mereka hanya berkata, jadilah caveman. Sekarang mereka tidak benar-benar menggunakan GitHub ini,
00:08:25tapi hal yang persis sama.
00:08:28Jadi inilah mengapa menurut saya ini sebenarnya cukup menarik,
00:08:31bukan sekadar meme belaka, Anda tahu,
00:08:32di luar fakta bahwa ada beberapa hal positif terkait token di sini,
00:08:37menghemat 5% token bukan hal yang remeh,
00:08:39terutama jika Anda bukan menggunakan paket maksimal 20.
00:08:41Tetapi jika ada skenario potensial di mana kita sebenarnya mendapatkan output yang lebih baik
00:08:44karenanya, terutama pada pertanyaan yang lebih lugas,
00:08:47karena jika Anda mendalami studi tersebut,
00:08:49ia menguraikan jenis pertanyaan mana yang mengalami masalah ini dalam
00:08:53dinamika ini. Ini menarik, sangat menarik,
00:08:56itulah sebabnya menurut saya ini layak untuk dilihat.
00:08:58Dan ini juga sangat mudah digunakan. Ini hanyalah sekumpulan keahlian.
00:09:02Menginstal ini secara harfiah hanya satu baris dan kemudian menjalankannya.
00:09:06Kita memanggilnya dengan forward slash caveman, atau cukup katakan sesuatu seperti,
00:09:09bicara seperti caveman, mode caveman, atau tolong kurangi token. Ada juga tingkatannya.
00:09:13Jadi kita bisa memilih ultra caveman, kan? Seperti kita baru saja keluar dari laut.
00:09:17Kita nyaris tidak bisa berdiri tegak. Dan kemudian kita punya all in light.
00:09:21Jadi Anda bisa mendapatkan tingkat caveman yang berbeda selama bertahun-tahun.
00:09:24Dan ini bukan hal yang berlaku untuk semuanya.
00:09:25Baik hal-hal seperti pesan kesalahan dikutip persis. Dan lagi,
00:09:29apa pun yang berhubungan dengan kode, apa pun yang berhubungan dengan pembuatan,
00:09:31apa pun di balik layar tetap sama. Kita tidak mengubah cara ia benar-benar berpikir.
00:09:35Jadi secara keseluruhan, saya pikir ini layak dicoba. Ini adalah keahlian tunggal.
00:09:37Ini menghemat token dan tidak ada kerugian nyata. Dan berdasarkan studi tersebut,
00:09:42sebenarnya ada potensi keuntungan di sini dalam hal output.
00:09:45Dan jika Anda tidak suka seluruh hal berbau caveman ini,
00:09:48saya pikir ini setidaknya mengarah pada penambahan semacam baris di
00:09:52spot.md Anda yang mengatakan, jadilah ringkas, tanpa pengisi,
00:09:56langsung ke intinya, gunakan lebih sedikit kata,
00:09:59karena jelas ada keuntungan untuk itu, tidak hanya dalam token,
00:10:03tetapi seperti yang kita lihat berpotensi pada jawaban sebenarnya yang diberikan kepada kita.
00:10:06Jadi di situlah saya akan mengakhiri untuk kalian hari ini.
00:10:07Apa yang di permukaan tampak seperti proyek meme belaka,
00:10:11caveman Claude sebenarnya memiliki bobot dan beberapa, Anda tahu,
00:10:15ketatnya sisi ilmiah di balik alasannya,
00:10:17yang menurut saya sebenarnya membuat ini layak, layak untuk diimplementasikan.
00:10:21Jadi seperti biasa, beri tahu saya di kolom komentar apa pendapat Anda,
00:10:25pastikan untuk memeriksa chase AI Plus
00:10:26jika Anda ingin mendapatkan masterclass kode Claude saya,
00:10:29ada lebih banyak pembaruan yang akan hadir di sana dalam beberapa hari ke depan.
00:10:33Tapi selain itu, sampai jumpa lagi.