Caveman Claude Code Adalah Meta Baru (Ini Penjelasan Ilmiahnya)

CChase AI
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00Membuat kode cloud berbicara seperti manusia purba mungkin tidak hanya menghemat token Anda.
00:00:04Ini sebenarnya bisa meningkatkan performa Anda juga. Sekarang, di permukaan,
00:00:07ini terdengar seperti lelucon belaka. Kami memiliki repo GitHub bernama caveman.
00:00:12Yang telah mendapatkan 5.000 star dalam 72 jam.
00:00:15Dan yang dilakukannya hanyalah memaksa kode cloud untuk berbicara seperti Neanderthal.
00:00:19Ini memangkas semua kata pengisi. Idenya adalah dengan membuatnya lebih ringkas,
00:00:24kita menghemat banyak sekali token dalam prosesnya,
00:00:27tapi tersembunyi di repo ini ada tautan ke makalah penelitian yang baru saja keluar beberapa
00:00:31minggu lalu,
00:00:31yang memberi tahu kita jika kita memaksa model bahasa besar kita untuk lebih ringkas,
00:00:36kita tidak hanya menghemat token, tetapi kita dapat meningkatkan performanya secara dramatis.
00:00:40Jadi hari ini saya akan membedah seluruh keahlian caveman ini.
00:00:42Saya akan menjelaskan apa yang sebenarnya Anda dapatkan karena angka-angka di repo tersebut
00:00:46sedikit menyesatkan dan kita akan membahas makalah penelitian ini agar Anda
00:00:50bisa memahami apa arti sebenarnya bagi Anda. Jadi ini adalah caveman,
00:00:54repo "mengapa bicara banyak kata kalau sedikit kata cukup" kami.
00:00:58Sekarang, langsung saja, apa yang dilakukannya? Cukup sederhana,
00:01:02memotong pengisi kode cloud. Sekarang ia berbicara seperti manusia purba.
00:01:07Ini memberikan beberapa contoh sebelum dan sesudah, menunjukkan perbedaan token dan bahkan
00:01:11memiliki daftar benchmark lengkap yang menunjukkan tugas yang diberikan ke kode cloud,
00:01:15menjelaskan bug re-render react, token normal yang digunakan,
00:01:19token caveman, dan jumlah yang dihemat.
00:01:21Sekarang angka-angka yang diajukan dalam repo ini agak gila.
00:01:23Jadi mereka mengklaim bahwa dengan keahlian ini,
00:01:26kita akan memotong 75% token output sambil tetap menjaga akurasi teknis
00:01:30penuh.
00:01:31Caveman ini tidak mengubah cara kode cloud menalar di balik layar.
00:01:35Ini tidak mengubah cara ia menghasilkan kode. Tidak ada yang berubah.
00:01:38Ini hanya outputnya. Apa yang Anda lihat sebagai respons.
00:01:41Ini juga menyertakan alat pendamping yang mengompres file memori Anda.
00:01:45Bayangkan claud.md menjadi bahasa caveman.
00:01:47Dan itu seharusnya mengurangi token input kita sebesar 45% setiap sesi.
00:01:52Sekarang mari kita perjelas. Anda tidak memotong 75% token output Anda secara keseluruhan,
00:01:57dan 45% token input Anda secara keseluruhan sama sekali. Itu sama sekali tidak benar.
00:02:01Meskipun kita bisa melihat hal-hal ini yang mengatakan, Hei,
00:02:03ini menghemat 87% token pada cara ia menjelaskan bug re-render react.
00:02:07Prompt yang Anda dapatkan kembali dari kode claud, respons itu sendiri,
00:02:11teksnya hanyalah sebagian kecil dari token output secara keseluruhan,
00:02:15sama seperti file memori,
00:02:17seperti claud.md yang hanyalah sebagian kecil dari input secara keseluruhan.
00:02:21Jadi mari kita sangat jelas tentang apa yang sebenarnya ini berikan pada skala token.
00:02:25Anda tidak menghemat 80% dari total token Anda. Dan untuk membuatnya sedikit lebih jelas,
00:02:28mari kita bedah rata-rata sesi kode claud seratus ribu token Anda. Sekarang,
00:02:32saya mengerti setiap sesi sedikit berbeda, tapi ikuti saja saya di sini.
00:02:36Kita punya sesi seratus ribu token, dan itu terbagi menjadi dua bagian.
00:02:40Input, yang merupakan bagian terbesarnya.
00:02:42Itu 75.000 token dalam output, yaitu 25%.
00:02:46Sekarang caveman mengklaim kita akan mengurangi output sebesar 75%.
00:02:51Itu tidak benar. Jika kita melihat output, sebenarnya ada tiga bagian, kan?
00:02:56Kita punya pemanggilan alat, yang mengambil sebagian, blok kode,
00:02:59seperti pembuatan kode yang sebenarnya, yang mengambil sebagian.
00:03:02Dan kemudian respons prosa yang sebenarnya, respons ini,
00:03:06respons teks internal itu, itulah yang disesuaikan oleh caveman.
00:03:10Itulah yang ia kurangi. Ia bisa mengurangi 75% dari itu. Anda tahu,
00:03:13jika kita turun ke sini, kita bisa melihat, oke,
00:03:16jadi biasanya prosa memakan enam ribu token dengan caveman.
00:03:20Kita menghemat 4.000 token. Jadi kita mendapatkan pengurangan 4%. Itu masih sangat bagus.
00:03:25Jika kita menghemat 4% dari total token kita selama seminggu,
00:03:29itu pasti bertambah,
00:03:30terutama di lingkungan saat ini di mana kita semua sangat sadar akan penggunaan kita.
00:03:33Tapi pahami ini bukan 87%. Ini 70%,
00:03:3860% dari satu bagian dari satu bagian dari total sesi.
00:03:43Terlebih lagi,
00:03:44jika Anda melihat input dan ia berbicara tentang kompresi caveman yang menghemat 45%,
00:03:49sekali lagi, tidak juga.
00:03:50Kita berbicara tentang area system prompt dan hanya bagian tertentu dari system
00:03:54prompt. Jadi total di sini, kan? Kita menghemat apa? Mungkin seribu token,
00:03:58mungkin 2000 token. Dan selama, sekali lagi, seluruh sesi.
00:04:03Jika saya katakan 5.000 token, 5% dari setiap sesi, itu bagus, hal yang bagus,
00:04:07tapi itu bukan angka-angka mentereng tersebut. Jadi pahami itu saat memulai,
00:04:13ini adalah permainan di batas tipis. Ini tidak sepenuhnya mengubah.
00:04:15Anda tidak akan bisa beralih dari rencana maksimal lima kali lipat ke rencana maksimal 20 kali lipat
00:04:19karena kita menghemat 75%. Tidak, tidak, tidak, tidak,
00:04:22tapi masih banyak nilai yang bisa ditambahkan di sini dan bahkan lebih banyak nilai yang bisa
00:04:25diekstrak. Setelah kita melihat studinya, itu agak terkubur di sini.
00:04:29Ada satu bagian kecil yang didedikasikan untuk itu,
00:04:31tapi ini adalah studi berjudul "brevity constraints,
00:04:34reverse performance hierarchies in language models."
00:04:36Dan ini keluar pada awal Maret tahun ini.
00:04:38Jadi saya akan menaruh tautan ke studi tersebut di deskripsi jika Anda ingin memeriksanya,
00:04:41tapi mari kita bahas ini sebentar saja karena ini sangat menarik.
00:04:45Karena ide dan harapannya adalah model yang lebih besar,
00:04:49selalu lebih baik daripada model yang lebih kecil. Yah,
00:04:53tidak persis demikian, menurut studi ini.
00:04:56Jadi dalam studi ini mereka mengevaluasi 31 model di 1500
00:05:01masalah,
00:05:02dan mereka mengidentifikasi mekanismenya sebagai verbositas spontan yang bergantung pada skala yang
00:05:07memperkenalkan kesalahan melalui elaborasi berlebihan. Apa maksudnya?
00:05:11Artinya pada hampir 8% masalah dari 1500 masalah ini dan
00:05:1631 model, model bahasa yang lebih besar,
00:05:19yang memiliki lebih banyak parameter kinerjanya di bawah model yang lebih kecil sebesar 28
00:05:24persen poin, meskipun memiliki parameter seratus kali lebih banyak dalam beberapa kasus.
00:05:28Jadi Anda memiliki skenario di mana sekali lagi, ini dengan semua model open weight.
00:05:32Anda memiliki model parameter 2 miliar yang mengungguli model parameter 400 miliar.
00:05:37Ini terjadi berkali-kali. Ini gila.
00:05:41Mengapa ini terjadi? Yah,
00:05:43mereka berpendapat bahwa alasannya adalah karena model bahasa besar ini
00:05:49terlalu banyak bicara.
00:05:51Mereka terlalu bertele-tele sampai-sampai mereka membuat diri mereka sendiri
00:05:55berputar-putar dan mendapatkan jawaban yang salah karenanya. Dan dalam studi tersebut,
00:05:58mereka menemukan bahwa dengan membatasi model besar untuk memberikan respons singkat,
00:06:02respons caveman meningkatkan akurasi sebesar 26 persen poin dan mengurangi
00:06:07kesenjangan kinerja hingga dua pertiga.
00:06:09Dan dalam banyak kasus dengan memaksa model bahasa besar ini menjadi lebih ringkas,
00:06:14lebih seperti caveman, itu benar-benar mengubah dinamika yang tadinya
00:06:18kalah dari model yang lebih kecil tiba-tiba sekarang mereka mengalahkannya.
00:06:21Itu sangat liar, terutama dalam konteks repo GitHub ini. Sekarang,
00:06:26jelas ini adalah model open weight. Ini bukan Opus 4.6.
00:06:29Ini bukan Codex 5.4.
00:06:30Apakah model-model terdepan ini menunjukkan perilaku yang persis sama?
00:06:34Kita belum tentu tahu pasti,
00:06:36tetapi jika Anda telah melihat studi-studi ini, Anda mengerti biasanya apa yang Anda lihat di sini
00:06:40cenderung terulang pada tingkat tertentu dengan model-model terdepan.
00:06:44Mungkin tidak seekstrem ini, tapi mungkin ada benarnya.
00:06:47Sekarang bagian studi lainnya menjelaskan banyak detail tentang cara mereka menjalankan tes,
00:06:51bagaimana mereka mencoba membedakan korelasi versus kausalitas dan mengapa mereka pikir
00:06:55ini adalah masalah. Dan seperti yang saya katakan sebelumnya,
00:06:57mereka berhipotesis bahwa model besar menghasilkan respons yang sangat bertele-tele yang
00:07:02mengaburkan penalaran yang benar, fenomena yang mereka sebut overthinking.
00:07:06Ia hanya mencoba mengeluarkan terlalu banyak hal.
00:07:07Alih-alih hanya memberi Anda jawaban dan menyingkir,
00:07:10ia secara harfiah berbicara sendiri sampai ke jawaban yang salah.
00:07:13Dan mereka secara spesifik mengatakan kecenderungan untuk menjadi teliti ini menjadi
00:07:17kontraproduktif, memperkenalkan akumulasi kesalahan,
00:07:21batasan ringkas sangat membantu model besar sementara hampir tidak mempengaruhi
00:07:25model yang lebih kecil. Dan pertanyaan yang jelas harus Anda miliki adalah, kenapa,
00:07:28mengapa ini terjadi? Mengapa model yang lebih besar ini mengalami masalah ini?
00:07:31Mereka mengarah pada pembelajaran penguatan (reinforcement learning).
00:07:34Jadi saat Anda melatih model baru,
00:07:36bayangkan Opus 5.0 sedang dalam proses pelatihan.
00:07:40Bagian dari apa yang mereka lakukan adalah pembelajaran penguatan.
00:07:42Sekarang saya tidak tahu apakah Anthropic melakukannya secara spesifik,
00:07:44tapi begitulah cara kerjanya untuk banyak model.
00:07:45Pada dasarnya mereka mengambil model baru dan mendatangkan manusia untuk menilai
00:07:50jawabannya. Mereka menunjukkan beberapa jawaban dan manusia berkata,
00:07:52Saya lebih suka yang ini daripada yang ini. Dan mereka mengatakan dalam studi tersebut,
00:07:55kemungkinannya adalah manusia cenderung menyukai jawaban yang lebih bertele-tele, jawaban yang lebih teliti.
00:08:00Dan karena itu,
00:08:01model-model besar ini pada dasarnya dilatih untuk menjadi lebih bertele-tele daripada
00:08:05ringkas dan bahkan benar dalam beberapa contoh.
00:08:08Tapi poin penting di sini adalah bahwa batasan ringkas benar-benar membalikkan
00:08:12hierarki kinerja. Jadi di mana mereka kalah sebelumnya,
00:08:14sekarang mereka menang hanya dengan menyuruh mereka menjadi lebih ringkas.
00:08:18Mereka tidak mengubah cara mereka berpikir, mereka tidak mengubah apa pun di balik layar.
00:08:20Mereka hanya berkata, jadilah caveman. Sekarang mereka tidak benar-benar menggunakan GitHub ini,
00:08:25tapi hal yang persis sama.
00:08:28Jadi inilah mengapa menurut saya ini sebenarnya cukup menarik,
00:08:31bukan sekadar meme belaka, Anda tahu,
00:08:32di luar fakta bahwa ada beberapa hal positif terkait token di sini,
00:08:37menghemat 5% token bukan hal yang remeh,
00:08:39terutama jika Anda bukan menggunakan paket maksimal 20.
00:08:41Tetapi jika ada skenario potensial di mana kita sebenarnya mendapatkan output yang lebih baik
00:08:44karenanya, terutama pada pertanyaan yang lebih lugas,
00:08:47karena jika Anda mendalami studi tersebut,
00:08:49ia menguraikan jenis pertanyaan mana yang mengalami masalah ini dalam
00:08:53dinamika ini. Ini menarik, sangat menarik,
00:08:56itulah sebabnya menurut saya ini layak untuk dilihat.
00:08:58Dan ini juga sangat mudah digunakan. Ini hanyalah sekumpulan keahlian.
00:09:02Menginstal ini secara harfiah hanya satu baris dan kemudian menjalankannya.
00:09:06Kita memanggilnya dengan forward slash caveman, atau cukup katakan sesuatu seperti,
00:09:09bicara seperti caveman, mode caveman, atau tolong kurangi token. Ada juga tingkatannya.
00:09:13Jadi kita bisa memilih ultra caveman, kan? Seperti kita baru saja keluar dari laut.
00:09:17Kita nyaris tidak bisa berdiri tegak. Dan kemudian kita punya all in light.
00:09:21Jadi Anda bisa mendapatkan tingkat caveman yang berbeda selama bertahun-tahun.
00:09:24Dan ini bukan hal yang berlaku untuk semuanya.
00:09:25Baik hal-hal seperti pesan kesalahan dikutip persis. Dan lagi,
00:09:29apa pun yang berhubungan dengan kode, apa pun yang berhubungan dengan pembuatan,
00:09:31apa pun di balik layar tetap sama. Kita tidak mengubah cara ia benar-benar berpikir.
00:09:35Jadi secara keseluruhan, saya pikir ini layak dicoba. Ini adalah keahlian tunggal.
00:09:37Ini menghemat token dan tidak ada kerugian nyata. Dan berdasarkan studi tersebut,
00:09:42sebenarnya ada potensi keuntungan di sini dalam hal output.
00:09:45Dan jika Anda tidak suka seluruh hal berbau caveman ini,
00:09:48saya pikir ini setidaknya mengarah pada penambahan semacam baris di
00:09:52spot.md Anda yang mengatakan, jadilah ringkas, tanpa pengisi,
00:09:56langsung ke intinya, gunakan lebih sedikit kata,
00:09:59karena jelas ada keuntungan untuk itu, tidak hanya dalam token,
00:10:03tetapi seperti yang kita lihat berpotensi pada jawaban sebenarnya yang diberikan kepada kita.
00:10:06Jadi di situlah saya akan mengakhiri untuk kalian hari ini.
00:10:07Apa yang di permukaan tampak seperti proyek meme belaka,
00:10:11caveman Claude sebenarnya memiliki bobot dan beberapa, Anda tahu,
00:10:15ketatnya sisi ilmiah di balik alasannya,
00:10:17yang menurut saya sebenarnya membuat ini layak, layak untuk diimplementasikan.
00:10:21Jadi seperti biasa, beri tahu saya di kolom komentar apa pendapat Anda,
00:10:25pastikan untuk memeriksa chase AI Plus
00:10:26jika Anda ingin mendapatkan masterclass kode Claude saya,
00:10:29ada lebih banyak pembaruan yang akan hadir di sana dalam beberapa hari ke depan.
00:10:33Tapi selain itu, sampai jumpa lagi.

Key Takeaway

Memaksa model bahasa besar untuk memberikan respons ringkas ala manusia purba tidak hanya menghemat token sebesar 5% per sesi, tetapi juga meningkatkan akurasi teknis secara signifikan dengan mencegah akumulasi kesalahan akibat penjelasan yang berlebihan.

Highlights

Repo GitHub bernama caveman mendapatkan 5.000 star dalam waktu 72 jam dengan memaksa Claude Code berbicara seperti manusia purba.

Membatasi verbositas model bahasa besar dapat meningkatkan akurasi hingga 26 persen poin pada model tertentu.

Model parameter 2 miliar mampu mengungguli model 400 miliar ketika instruksi ringkas diterapkan untuk mencegah fenomena overthinking.

Implementasi mode caveman menghemat sekitar 5% dari total token dalam sesi rata-rata 100.000 token.

Manusia cenderung memberikan penilaian lebih tinggi pada jawaban yang panjang saat proses reinforcement learning, yang secara tidak sengaja melatih model untuk bertele-tele.

Instruksi ringkas mengurangi kesenjangan performa antara model besar dan kecil hingga dua pertiga bagian.

Timeline

Fenomena Repo Caveman dan Penghematan Token

  • Repo GitHub caveman memangkas kata pengisi agar Claude Code berbicara seperti Neanderthal.
  • Klaim awal pengurangan 75% token output dan 45% token input bersifat menyesuaikan konteks tertentu saja.
  • Akurasi teknis tetap terjaga penuh karena metode ini hanya mengubah format output prosa tanpa menyentuh logika penalaran internal.

Proyek ini menggunakan pendekatan minimalis dengan prinsip mengapa bicara banyak kata jika sedikit kata sudah cukup. Meskipun angka penghematan terlihat besar pada contoh spesifik seperti penjelasan bug React, dampaknya terhadap total sesi bergantung pada proporsi teks prosa dibandingkan blok kode. Alat pendamping juga tersedia untuk mengompresi file memori seperti claud.md ke dalam dialek caveman.

Analisis Realistis Struktur Token Sesi Claude

  • Sesi standar 100.000 token biasanya terdiri dari 75% input dan 25% output.
  • Pengurangan token 75% oleh caveman hanya berlaku pada bagian respons prosa, bukan pada pemanggilan alat atau blok kode.
  • Penghematan nyata dalam satu sesi penuh berada di kisaran 4% hingga 5% atau sekitar 5.000 token.

Dalam struktur sesi yang kompleks, teks penjelasan hanyalah sebagian kecil dari beban token secara keseluruhan. Sesi 100.000 token yang dipecah menunjukkan bahwa porsi input jauh lebih besar daripada output. Dengan mengurangi penggunaan kata pada bagian narasi, pengguna tetap mendapatkan efisiensi yang berarti dalam akumulasi penggunaan mingguan tanpa harus mengharapkan perubahan drastis pada limit kuota.

Dasar Ilmiah di Balik Batasan Ringkas

  • Studi Maret 2026 terhadap 31 model di 1500 masalah menunjukkan bahwa model besar sering kali terbebani oleh verbositas spontan.
  • Overthinking terjadi ketika model menghasilkan terlalu banyak teks hingga mengaburkan penalaran yang benar dan berujung pada jawaban salah.
  • Pemberian batasan ringkas membantu model besar tetapi hampir tidak berpengaruh pada model kecil.

Penelitian berjudul Brevity Constraints, Reverse Performance Hierarchies in Language Models membuktikan adanya anomali di mana model kecil bisa mengalahkan model raksasa. Hal ini disebabkan oleh kecenderungan model besar untuk menjadi terlalu teliti hingga memperkenalkan kesalahan yang terakumulasi. Dengan memaksa model menjadi ringkas, dinamika hierarki performa berbalik sehingga model besar kembali menunjukkan keunggulannya.

Penyebab Verbositas dan Implementasi Praktis

  • Proses reinforcement learning dengan umpan balik manusia mendorong model untuk menjadi bertele-tele karena manusia menyukai jawaban yang terlihat teliti.
  • Instruksi sederhana seperti 'be concise' atau 'no fillers' di file konfigurasi memberikan keuntungan performa yang serupa dengan mode caveman.
  • Tersedia berbagai tingkatan instruksi mulai dari ultra caveman hingga versi yang lebih ringan untuk kebutuhan profesional.

Bias manusia dalam menilai kualitas jawaban menjadi akar masalah mengapa model bahasa besar cenderung berbicara terlalu banyak. Pelatihan model mengutamakan kepuasan pengguna yang sering kali menyamakan panjang teks dengan kualitas. Pengguna dapat mengadopsi prinsip ini secara praktis dengan menambahkan instruksi langsung pada system prompt untuk mendapatkan jawaban yang lebih tajam dan akurat.

Community Posts

View all posts