Masalah Limit Claude Code Akhirnya Terpecahkan

AAI LABS
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Claude code tidak begitu bagus akhir-akhir ini.
00:00:02Tim kami menggunakannya setiap hari dan selama beberapa minggu terakhir kami kehabisan batas
00:00:06jauh lebih cepat daripada seharusnya.
00:00:07Jendela konteks 1 juta token seharusnya membuat segalanya lebih baik tetapi sebenarnya malah
00:00:12memperburuknya.
00:00:13Inilah sebabnya kami meneliti optimasi yang bisa kami temukan agar Claude code bertahan lebih lama.
00:00:18Sebelum kita lanjut ke cara memaksimalkan batas tersebut, mari kita
00:00:22bahas terlebih dahulu cara kerja sistem paket dan batas Claude yang sebenarnya.
00:00:26Bagian ini hanya untuk menjelaskan bagi mereka yang belum terbiasa dengan cara kerja
00:00:30batas tersebut.
00:00:31Claude memiliki 2 paket berbayar yang mencakup paket pro dan max.
00:00:34Max adalah yang paling mahal dan pro adalah paket yang lebih murah hanya dengan $20 per bulan.
00:00:38Kedua paket memiliki akses ke berbagai fitur yang tidak tersedia di paket gratis termasuk
00:00:43Claude code, co-work, dan lainnya.
00:00:45Namun semuanya mengikuti aturan yang sama.
00:00:46Apapun paketnya, masing-masing memberi Anda jumlah pesan terbatas yang dapat dikirim dalam
00:00:51jendela 5 jam dan setelah jendela itu berakhir, jumlah pesan Anda akan diatur ulang.
00:00:55Jumlah pesan yang Anda dapatkan berbeda-beda berdasarkan paket.
00:00:57Jendela 5 jam dimulai saat Anda mengirim pesan pertama, baik itu di Claude desktop,
00:01:01web, atau antarmuka Claude mana pun.
00:01:03Setelah jendela dimulai, setiap pesan yang Anda kirim dihitung terhadap batas yang ditetapkan pada paket Anda.
00:01:08Sekarang Anda mungkin berharap bahwa jendela tersebut hanya dihitung saat Anda aktif menggunakannya.
00:01:11Tetapi meskipun Anda menganggur di sela-selanya lalu menggunakannya secara intensif di jam ke-5, jendela tersebut
00:01:15tetap berjalan dan Anda harus menunggu hingga 5 jam penuh berlalu sebelum batas Anda
00:01:20diatur ulang.
00:01:21Jendela 5 jam juga tidak bergantung pada perangkat Anda.
00:01:23Jadi jika Anda menggunakan lebih dari satu perangkat dengan akun yang sama, semua penggunaan akan dihitung
00:01:27dalam batas yang sama.
00:01:28Sekarang untuk paket pro, Anda mendapatkan sekitar 45 pesan per jendela 5 jam.
00:01:32Paket max memberi Anda 225 dan paket max 20 kali lipat, yang lebih mahal daripada
00:01:37paket 100 dolar, memberi Anda 900 pesan dalam jendela yang sama.
00:01:41Angka-angka ini dapat bervariasi tergantung model yang Anda gunakan karena Anda mendapat lebih banyak pesan dengan Sonnet
00:01:46dan lebih sedikit dengan Opus.
00:01:47Sekarang Anda mungkin berpikir bahwa jumlah pesan ini terdengar lebih dari cukup untuk kebutuhan Anda.
00:01:51Tetapi ini hanyalah hitungan kasar dan ada faktor lain yang memengaruhinya.
00:01:54Yang pertama adalah model yang Anda gunakan.
00:01:56Model Opus mengonsumsi sekitar 3 kali lebih banyak token untuk permintaan yang sama dibandingkan Sonnet karena mereka
00:02:01jauh lebih kuat dan intensif komputasi.
00:02:03Jadi jika Anda selalu menggunakan Opus, Anda tidak akan mendapatkan 45 pesan dalam jendela 5 jam
00:02:08dan batas Anda akan habis jauh lebih cepat.
00:02:10Paket pro memiliki batas yang lebih rendah secara keseluruhan.
00:02:12Adapun paket max, meskipun satu orang mungkin bisa mengaturnya, paket max biasanya dibeli
00:02:16oleh organisasi dan didistribusikan ke anggota tim, jadi itu tidak akan bertahan dengan banyak
00:02:20orang di dalamnya.
00:02:21Kami melakukan hal yang sama di AI labs, kami telah membeli paket max dan mendistribusikannya ke seluruh tim kami.
00:02:26Meskipun begitu, kami masih sering kehabisan batas yang membuat kami meneliti cara agar
00:02:30itu bertahan lebih lama.
00:02:31Faktor kedua adalah jenis tugas yang Anda lakukan.
00:02:34Tugas yang intensif komputasi atau tugas yang membutuhkan banyak alat akan mengonsumsi banyak token.
00:02:38Jadi jendela akan habis jauh lebih cepat dari biasanya dan Anda mungkin bahkan tidak mencapai 45
00:02:43pesan pada paket pro.
00:02:44Dan di atas semua itu, Anthropic baru-baru ini mengurangi batas sesi lebih cepat selama jam sibuk
00:02:48ketika banyak orang menggunakan layanan ini secara intensif secara bersamaan.
00:02:52Jadi paket Claude Anda akan habis lebih cepat bahkan sebelum Anda bisa menyelesaikan pekerjaan nyata.
00:02:56Inilah sebabnya sekarang adalah waktu yang tepat untuk mempelajari cara memaksimalkan jendela Anda dan
00:03:00menggunakan Claude secara efektif sepanjang hari.
00:03:02Tetapi sebelum kita lanjut, mari kita dengar sepatah kata dari sponsor kita, Twin.
00:03:05Jika Anda pernah mencoba otomatisasi dengan alat seperti Zapier atau N8N, Anda pasti tahu masalahnya.
00:03:09Alur kerja yang kaku, kerusakan terus-menerus, dan berjam-jam terbuang untuk menghubungkan aplikasi.
00:03:13Dan agen lokal seperti Claudebot adalah mimpi buruk keamanan dan terlalu mahal.
00:03:17Twin mengubah itu.
00:03:18Ini adalah agen AI tanpa kode yang benar-benar bekerja untuk Anda saat Anda tidur.
00:03:21Ia terhubung ke alat melalui API jika tersedia dan jika tidak, ia membangun integrasi
00:03:26secara instan, memberi Anda perpustakaan integrasi yang tak terbatas.
00:03:29Dan jika tidak ada API, Twin bisa menjelajah dan berinteraksi seperti manusia.
00:03:33Selain itu, Anda mendapatkan akses bawaan ke alat seperti Perplexity, Gamma, VO3, dan Nanobanana.
00:03:38Mereka baru saja meluncurkan Twin API.
00:03:40Jadi Anda dapat memicu agen dari mana saja dan menyambungkannya ke alur kerja Anda yang sudah ada.
00:03:44Dan bagian terbaiknya?
00:03:45Agen-agen ini belajar.
00:03:46Mereka memperbaiki diri sendiri ketika ada yang rusak, meningkat seiring waktu, dan berjalan 24/7.
00:03:50Berhenti mengawasi otomatisasi yang rusak.
00:03:52Klik tautan di komentar tersemat dan coba Twin.
00:03:55Sekarang Anda mungkin sudah tahu bahwa kode sumber Claude code telah bocor.
00:03:58Dan banyak orang mengidentifikasi bahwa ada banyak masalah di dalamnya yang dapat membuat batas
00:04:02habis lebih cepat dari yang seharusnya.
00:04:04Salah satunya adalah respons yang terpotong tetap berada dalam konteks.
00:04:07Jadi jika Anda mendapat pesan kesalahan seperti batas laju tercapai, itu dapat membuat respons
00:04:12sebagian.
00:04:13Dan mengenai hal itu, ia mencoba lagi sambil tetap menyimpan konteks sebelumnya bersama dengan pesan
00:04:17parsial yang penuh kesalahan tersebut.
00:04:18Ini membengkakkan konteks dengan informasi yang tidak perlu dan membuang-buang token.
00:04:22Daftar keterampilan juga disuntikkan terutama untuk akses yang lebih cepat, meskipun itu tidak memberikan
00:04:27banyak nilai karena penanganan yang lebih cepat melalui alat keterampilan sudah ada.
00:04:31Mirip dengan itu, ada beberapa masalah lain juga.
00:04:33Karena semua ini, banyak orang mengeluh tentang batas Claude yang tercapai lebih cepat dari yang diharapkan.
00:04:38Jadi untuk menangkal batas resmi dan pengurasan token tersembunyi ini, Anda harus mengambil
00:04:43langkah-langkah tertentu agar Claude code bertahan lebih lama saat Anda membangun produk Anda.
00:04:47Kami membagikan semua yang kami temukan tentang membangun produk dengan AI di saluran ini.
00:04:51Jadi jika Anda ingin lebih banyak video tentang itu, berlanggananlah dan pantau terus video-video mendatang.
00:04:55Kami akan mulai dengan tips yang mungkin sudah pernah Anda dengar dari kami jika Anda menonton video kami
00:04:59sebelumnya.
00:05:00Yang pertama adalah perintah clear.
00:05:01Gunakan ini setiap kali Anda telah menyelesaikan tugas dan tidak membutuhkan konteks sebelumnya lagi.
00:05:05Misalnya, saat Anda selesai mengimplementasikan aplikasi dan ingin pindah ke fase pengujian,
00:05:09Anda tidak membutuhkan konteks sebelumnya.
00:05:11Jadi lebih baik untuk mengaturnya ulang dan memulai tugas berikutnya dengan jendela konteks yang baru.
00:05:15Tapi terkadang Anda ingin mempertahankan sebagian dari konteks tersebut.
00:05:18Dalam hal ini, Anda dapat menjalankan perintah compact sebagai gantinya.
00:05:21Ini merangkum seluruh interaksi dan mengosongkan ruang dengan ringkasan di dalam konteks.
00:05:25Alasan kami ingin Anda menggunakan ini adalah karena setiap kali Claude mengirim pesan, ia menyertakan
00:05:29seluruh percakapan sejauh ini, bersama dengan prompt sistem, alat Anda, dan semua riwayat
00:05:34percakapan sebelumnya.
00:05:35Dengan setiap pesan baru, ini terus bertambah, mengakibatkan jendela konteks yang membengkak dan penggunaan
00:05:40token per pesan yang lebih tinggi.
00:05:41Sekarang bahkan dengan pemadatan, jika Anda mengajukan pertanyaan sampingan di jendela utama, Anda tetap membengkakkannya
00:05:46dengan konten yang tidak terkait.
00:05:47Jadi Anda dapat menggunakan perintah by the way untuk mengajukan pertanyaan sampingan singkat.
00:05:50Ia akan merespons dalam jendela konteks sesi yang terpisah.
00:05:53Pertanyaan sampingan ini tidak akan terbawa ke pesan berikutnya yang Anda kirim, sehingga menghasilkan lebih sedikit token per
00:05:57permintaan.
00:05:58Sekarang meskipun perencanaan mungkin terdengar seperti tugas yang intensif token, Anda harus memulai
00:06:02proyek Anda dengannya.
00:06:03Ini karena jika Anda tidak meluangkan waktu untuk merencanakan, Anda harus melakukan koreksi pada Claude nantinya
00:06:07ketika implementasinya tidak sesuai dengan apa yang Anda butuhkan.
00:06:10Menghabiskan token di muka untuk perencanaan menyelamatkan Anda dari pemborosan lebih banyak token untuk koreksi
00:06:14di kemudian hari.
00:06:15Terkadang Claude tidak mengikuti instruksi Anda sesuai keinginan Anda.
00:06:18Di saat-saat itu, kita sering kali memberikan prompt lagi dengan cara implementasi yang benar.
00:06:22Tetapi alih-alih memberikan prompt ulang, Anda dapat menjalankan perintah rewind untuk memulihkan percakapan
00:06:26dan kode ke titik sebelumnya sebelum pesan di mana Claude tidak selaras dan membuat perubahan
00:06:31langsung di prompt.
00:06:32Anda juga dapat menekan tombol escape dua kali untuk melakukan hal yang sama.
00:06:35Ini menghapus implementasi yang salah dari jendela konteks dan output yang salah tidak
00:06:39terkirim ke model.
00:06:41Sekarang semua perintah ini membantu Anda menghemat token selama sesi.
00:06:44Tetapi dampak yang lebih besar datang dari bagaimana proyek Anda disusun sejak awal.
00:06:47Anda mungkin sudah menyusun proyek Anda menggunakan berbagai kerangka kerja seperti Beemad, SpecKit
00:06:52atau lainnya.
00:06:53Tetapi mayoritas kerangka kerja ini sebenarnya intensif token.
00:06:56Jadi jika Anda menggunakannya di aplikasi Anda sendiri, bersiaplah batas token Anda tercapai lebih cepat.
00:07:00Meskipun kerangka kerja ini mungkin bisa bertahan di paket max, mereka pasti tidak akan bertahan di paket pro.
00:07:04Sekarang bahkan jika Anda tidak menggunakan kerangka kerja, Anda mungkin telah menyiapkan sendiri.
00:07:07Untuk membuat file Claude.md Anda pasti telah menggunakan perintah init yang menyisir basis kode Anda
00:07:12dan membuatkan file Claude.md untuk Anda.
00:07:14Ia memang membuatnya, tetapi itu mengandung banyak masalah.
00:07:17File ini seharusnya memberikan panduan kepada agen AI, tetapi ia mencantumkan hal-hal tertentu yang
00:07:20AI sudah tahu dengan sendirinya.
00:07:22Misalnya, perintah yang ditunjukkannya adalah yang digunakan untuk menjalankan setiap server pengembangan dan Claude sudah
00:07:27tahu cara melakukannya.
00:07:28Kecuali jika Anda memiliki bendera jalan yang berbeda untuk menjalankan server, tidak perlu menambahkannya
00:07:31ke sana.
00:07:32Begitu juga dengan arsitektur, Claude dapat membaca nama file dan menyimpulkan tentang apa setiap file tersebut berdasarkan
00:07:37namanya karena ia memahami sistem file dan menggunakannya untuk bernavigasi.
00:07:41Jadi tidak ada kebutuhan nyata untuk instruksi semacam ini kecuali ada kasus-kasus spesifik
00:07:45di mana panduan tambahan diperlukan.
00:07:47Jika Anda akan menulis Claude.md Anda sendiri, idealnya harus kurang dari 300 baris.
00:07:52Semakin pendek filenya, semakin baik performanya dan semakin fokus Claude pada apa
00:07:56yang benar-benar penting.
00:07:57Itu harus bertindak sebagai file panduan, bukan manual terperinci yang menjelaskan cara melakukan semuanya.
00:08:01Apa pun yang Anda sertakan harus berlaku secara umum di seluruh proyek, bukan detail spesifik
00:08:05dari setiap bagian yang semuanya dikemas dalam satu file.
00:08:08Sertakan apa yang tidak boleh dilakukan Claude, praktik pengembangan Anda, dan instruksi serupa lainnya
00:08:13yang tidak diketahui Claude secara bawaan hanya di Claude.md.
00:08:16Anda perlu mengonfigurasi file ini dengan benar karena file ini dimuat ke dalam konteks satu kali
00:08:20setiap sesi dan menetap di sana.
00:08:22Jadi informasi yang tidak perlu di jendela konteks berarti Anda membuang-buang token di setiap giliran
00:08:27yang bahkan tidak dibutuhkan di awal.
00:08:28Untuk aspek spesifik proyek seperti database, skema, atau area lain di mana aturan yang berbeda
00:08:33diperlukan, pisahkan menjadi dokumen terpisah dan tautkan di file Claude.md.
00:08:37Ini memungkinkan Claude untuk secara progresif menarik hanya dokumen yang benar-benar ia butuhkan.
00:08:41Kami juga menyebutkan ini di video kami sebelumnya, membuat aturan proyek yang spesifik untuk
00:08:45jalur tertentu membantu Claude tetap fokus.
00:08:48Dengan cara ini, Claude hanya memiliki informasi yang relevan dalam konteks dan menghindari penggunaan token yang tidak perlu.
00:08:53Jadi Anda juga harus memisahkan file aturan untuk logika spesifik area sehingga Claude dapat memuat
00:08:57hanya apa yang diperlukan.
00:08:58Anda juga perlu memanfaatkan keterampilan untuk alur kerja yang berulang dan menambahkan skrip serta referensi sehingga
00:09:03ia dapat melakukan tugas dengan lebih akurat.
00:09:05Keterampilan membantu dengan memuat secara progresif hanya bagian yang diperlukan dan ini membuat Claude tetap fokus
00:09:10pada aspek tugas yang relevan.
00:09:12Pembundelan dengan skrip membantu dengan tidak membuang token pada tugas deterministik yang dapat
00:09:16ditangani secara terprogram.
00:09:17Alasan memisahkan file sangatlah sederhana.
00:09:19Jika Claude sedang mengerjakan satu bagian, ia tidak memerlukan informasi tentang area yang tidak terkait.
00:09:24Tetapi jika semuanya ditempatkan di file Claude.md yang sama, semuanya akan dimuat setiap saat,
00:09:29menyebabkan penggunaan token yang tidak perlu.
00:09:30Anda juga dapat menggunakan bendera append system prompt untuk menambahkan instruksi spesifik secara langsung ke
00:09:35prompt sistem.
00:09:36Sesi akan dimulai dengan instruksi tersebut alih-alih memasukkan semuanya ke dalam file
00:09:40Claude.md.
00:09:41Instruksi ini bersifat sementara dan akan dihapus setelah sesi berakhir.
00:09:44Sekarang ini mungkin terdengar seperti menambah konteks, tetapi sebenarnya lebih efisien daripada
00:09:48memasukkan instruksi satu kali di Claude.md.
00:09:51Jika Anda menambahkannya di sana, Claude menyimpannya di konteks secara permanen, membuang token secara tidak perlu.
00:09:56Dengan penambahan (appending), Anda memberikan instruksi tepat saat Anda membutuhkannya.
00:09:59Juga, jika Anda menyukai konten kami, pertimbangkan untuk menekan tombol hype karena itu membantu kami
00:10:03membuat lebih banyak konten seperti ini dan menjangkau lebih banyak orang.
00:10:06Anda juga perlu mengatur tingkat upaya (effort level) dari model yang Anda gunakan.
00:10:10Jika Anda tidak sedang mengerjakan tugas yang membutuhkan banyak pemikiran, setel ke rendah (low) karena setelan
00:10:14rendah menghemat token.
00:10:15Secara bawaan, ini diatur ke effort auto yang berarti model memutuskan seberapa besar upaya yang
00:10:20akan digunakan tetapi Anda dapat mengubahnya secara manual.
00:10:21Jika tugas Anda tidak sangat kompleks, tidak perlu menggunakan pengaturan upaya tinggi.
00:10:25Sekarang seperti yang kami sebutkan sebelumnya, Opus adalah model yang paling banyak mengonsumsi token.
00:10:28Jadi jika Anda sedang mengerjakan tugas-tugas yang mudah, beralihlah ke Haiku.
00:10:31Jika tugas Anda membutuhkan tingkat pemikiran yang wajar, gunakan Sonnet.
00:10:34Mungkin tidak sekuat Opus, tetapi masih efisien dan menghemat lebih banyak token.
00:10:39Jika Anda telah mengonfigurasi banyak MCP untuk sebuah proyek dan tidak memerlukan yang tertentu, nonaktifkan saja
00:10:43agar tidak membuang token dengan menyuntikkan informasi yang tidak perlu ke dalam jendela konteks.
00:10:48Langkah penting lainnya adalah membuat kait (hooks) yang menyaring konten yang tidak seharusnya berada
00:10:52di jendela konteks Claude.
00:10:54Misalnya, saya telah mengonfigurasi kasus pengujian untuk proyek saya.
00:10:57Saat kita menjalankannya, mereka melaporkan pengujian yang lulus dan gagal dan semua itu dimuat
00:11:01ke dalam konteks.
00:11:02Tetapi perhatian utama Claude adalah pengujian yang gagal karena itulah yang perlu diperbaiki.
00:11:05Jadi Anda dapat membuat hook yang menggunakan skrip untuk mencegah kasus pengujian yang lulus memasuki
00:11:10jendela konteks dan hanya yang gagal yang disertakan.
00:11:13Ini menghemat jumlah token yang signifikan dibandingkan dengan menyuntikkan semua laporan pengujian.
00:11:17Anda dapat mengonfigurasi hook untuk banyak tugas lain dengan cara yang sama untuk mengoptimalkan penggunaan token.
00:11:21Sekarang selain itu semua, ada konfigurasi tertentu yang perlu Anda buat di folder
00:11:25.claud Anda untuk meningkatkan performa.
00:11:27Yang pertama adalah menyetel disable prompt caching ke false.
00:11:30Ini membuat Claude menyimpan cache awalan yang paling sering Anda gunakan, yang mengurangi penggunaan token.
00:11:34Anthropic tidak menagih Anda untuk bagian yang dikirim berulang kali, Anda hanya membayar untuk
00:11:38konten baru.
00:11:39Anda juga dapat menonaktifkan memori otomatis (auto memory) untuk mencegahnya menambahkan konten ke konteks Anda dan
00:11:43meningkatkan penggunaan token.
00:11:44Memori otomatis adalah proses latar belakang yang menganalisis percakapan Anda dan mengonsolidasikan informasi
00:11:49yang berguna ke dalam file memori untuk proyek spesifik Anda.
00:11:52Menonaktifkannya berarti ia tidak akan melacak kebiasaan Anda tetapi akan menghemat token dengan tidak berjalan di
00:11:56latar belakang.
00:11:57Ada bendera lain yang disebut disable background task yang menghentikan proses latar belakang agar tidak
00:12:00mengonsumsi token secara terus-menerus.
00:12:02Ini termasuk dream, refaktorisasi dan pembersihan memori, serta pengindeksan latar belakang.
00:12:06Mematikan ini membantu menghemat token karena meskipun Anda tidak sedang aktif mengobrol, proses-proses
00:12:10ini akan tetap bekerja pada percakapan Anda.
00:12:13Anda juga harus menonaktifkan pemikiran (thinking) saat tidak diperlukan karena pemikiran mengonsumsi banyak
00:12:16konteks dan membuang token secara ekstensif pada tugas-tugas yang bahkan tidak membutuhkannya.
00:12:20Sekarang ini berbeda dari pengaturan upaya (effort) yang kita bahas sebelumnya.
00:12:23Pengaturan upaya mengontrol seberapa banyak penalaran yang dilakukan Claude dalam sebuah respons, jadi upaya yang lebih rendah
00:12:28berarti lebih sedikit berpikir, tetapi ia tetap berpikir.
00:12:30Menonaktifkan pemikiran sepenuhnya mematikan langkah penalaran internal dan Claude hanya menghasilkan
00:12:34respons secara langsung.
00:12:35Jadi jika tugas Anda tidak membutuhkan penalaran mendalam, matikan pemikiran sepenuhnya.
00:12:39Jika membutuhkan penalaran tetapi tidak banyak, turunkan tingkat upaya sebagai gantinya.
00:12:43Terakhir, konfigurasikan max output tokens ke angka yang ditentukan.
00:12:46Tidak ada default, tetapi membatasi ini akan mengontrol seberapa banyak model menghasilkan output.
00:12:50Setel lebih rendah jika Anda ingin menghemat token secara agresif atau tingkatkan jika tugas Anda membutuhkan
00:12:55output yang lebih panjang.
00:12:56Sekarang templat Claude.md dan sumber daya lainnya tersedia di AI Labs Pro untuk video ini
00:13:00dan untuk semua video kami sebelumnya di mana Anda dapat mengunduh dan menggunakannya untuk proyek Anda sendiri.
00:13:05Jika Anda menemukan nilai dalam apa yang kami lakukan dan ingin mendukung saluran ini, ini adalah cara terbaik
00:13:09untuk melakukannya.
00:13:10Tautannya ada di deskripsi.
00:13:11Itu membawa kita ke akhir video ini.
00:13:13Jika Anda ingin mendukung saluran ini dan membantu kami terus membuat video seperti ini, Anda dapat melakukannya
00:13:17dengan menggunakan tombol super thanks di bawah.
00:13:19Seperti biasa, terima kasih telah menonton dan sampai jumpa di video berikutnya.

Key Takeaway

Optimasi batas penggunaan Claude Code dilakukan melalui manajemen konteks yang ketat menggunakan perintah internal seperti compact, rewind, dan by the way, serta penyederhanaan file instruksi Claude.md di bawah 300 baris.

Highlights

Paket Claude Pro memberikan sekitar 45 pesan per 5 jam, sedangkan paket Max menyediakan 225 pesan dan paket tim yang lebih mahal hingga 900 pesan.

Model Opus mengonsumsi token 3 kali lebih banyak daripada Sonnet untuk permintaan yang sama karena intensitas komputasi yang lebih tinggi.

Perintah 'compact' merangkum interaksi sebelumnya untuk mengosongkan ruang konteks, sementara perintah 'clear' menghapus seluruh riwayat saat berpindah tugas.

Penggunaan perintah 'by the way' memungkinkan pertanyaan sampingan dijawab dalam jendela sesi terpisah tanpa menambah beban token pada percakapan utama.

File Claude.md yang ideal harus berukuran kurang dari 300 baris dan hanya berisi instruksi umum untuk mencegah pemborosan token di setiap sesi.

Menonaktifkan fitur 'auto memory' dan 'background task' seperti refaktorisasi otomatis mencegah penggunaan token secara terus-menerus di latar belakang.

Penyetelan 'disable prompt caching' ke posisi 'false' di folder konfigurasi .claud memungkinkan penyimpanan cache awalan yang mengurangi biaya token.

Timeline

Mekanisme Batas Pesan dan Paket Langganan Claude

  • Jendela waktu 5 jam dimulai saat pesan pertama dikirimkan pada perangkat atau antarmuka mana pun.
  • Jumlah pesan yang tersedia bervariasi antara 45 hingga 900 pesan tergantung pada paket Pro atau Max yang digunakan.
  • Konsumsi token dipengaruhi secara signifikan oleh pemilihan model seperti Opus yang jauh lebih boros dibandingkan Sonnet.
  • Anthropic sering kali mengurangi batas sesi secara dinamis selama jam sibuk penggunaan layanan.

Sistem kuota Claude beroperasi berdasarkan jendela waktu tetap yang tidak berhenti meskipun pengguna sedang tidak aktif. Paket Pro seharga $20 memiliki batas terendah, sementara paket organisasi didistribusikan ke banyak anggota yang mempercepat habisnya kuota. Faktor teknis seperti jenis tugas yang intensif komputasi atau penggunaan alat (tools) tambahan memperpendek durasi jendela pesan sebelum diatur ulang secara otomatis.

Masalah Kebocoran Konteks pada Kode Sumber Claude Code

  • Respons yang terpotong akibat kesalahan batas laju tetap disimpan dalam memori konteks percakapan.
  • Suntikan daftar keterampilan yang tidak perlu ke dalam sistem meningkatkan beban token tanpa memberikan nilai tambahan.
  • Upaya pengulangan (retry) otomatis menyertakan pesan parsial yang penuh kesalahan ke dalam riwayat aktif.

Analisis terhadap kode sumber yang bocor menunjukkan adanya inefisiensi sistemik dalam cara Claude menangani kesalahan. Saat terjadi limitasi, sistem mencoba lagi dengan mempertahankan data sampah dari kegagalan sebelumnya, yang mengakibatkan pembengkakan konteks secara prematur. Hal ini menjelaskan mengapa banyak pengguna merasa batas pesan mereka habis jauh lebih cepat dari ekspektasi normal.

Perintah Internal untuk Penghematan Token Sesi

  • Perintah 'clear' secara total menghapus konteks lama saat memulai fase pengerjaan proyek yang baru.
  • Perintah 'rewind' atau menekan tombol escape dua kali menghapus implementasi kode yang salah dari memori model.
  • Langkah perencanaan di awal menghemat token dengan mengurangi jumlah koreksi yang diperlukan di kemudian hari.

Setiap pesan baru yang dikirimkan ke Claude menyertakan seluruh riwayat percakapan, instruksi sistem, dan data alat pendukung. Menggunakan perintah 'compact' membantu meringkas riwayat panjang menjadi rangkuman singkat agar ruang token tetap tersedia untuk tugas utama. Perintah 'by the way' sangat efektif untuk menjaga agar percakapan utama tetap bersih dari instruksi atau pertanyaan minor yang tidak relevan dengan logika kode jangka panjang.

Struktur Proyek dan Optimasi File Claude.md

  • Kerangka kerja populer seperti Beemad dan SpecKit cenderung mengonsumsi token dalam jumlah besar secara agresif.
  • File Claude.md harus difokuskan pada panduan khusus proyek dan praktik pengembangan daripada manual teknis umum.
  • Pemisahan dokumen berdasarkan area logika memungkinkan pemuatan informasi secara progresif hanya saat dibutuhkan.

Perintah inisialisasi otomatis sering kali menghasilkan file Claude.md yang berlebihan dengan mencantumkan perintah server atau struktur file yang sebenarnya sudah dipahami AI secara bawaan. Menjaga file instruksi tetap di bawah 300 baris meningkatkan fokus model dan akurasi respons. Strategi terbaik adalah menautkan dokumen terpisah untuk skema database atau aturan jalur (path) tertentu agar Claude tidak memuat data yang tidak relevan dengan bagian kode yang sedang dikerjakan.

Konfigurasi Teknis dan Pengaturan Latar Belakang

  • Pengaturan 'effort level' ke posisi rendah (low) menghemat token pada tugas-tugas yang tidak memerlukan penalaran mendalam.
  • Penyaringan konten melalui 'hooks' mencegah laporan pengujian (test cases) yang sukses masuk ke jendela konteks.
  • Menonaktifkan 'thinking' secara total menghilangkan langkah penalaran internal untuk respons yang lebih langsung dan hemat biaya.

Optimasi tingkat lanjut melibatkan modifikasi file konfigurasi di folder .claud untuk mematikan tugas latar belakang seperti 'dream' atau pengindeksan otomatis. Penggunaan 'append system prompt' lebih efisien untuk instruksi sementara dibandingkan memasukkannya secara permanen ke dalam file utama. Dengan membatasi 'max output tokens', pengguna memiliki kontrol penuh atas panjang respons model untuk menghindari pemborosan kuota pada output yang terlalu verbose.

Community Posts

View all posts