Skill Claude Ini Pangkas Biaya Token Anda Hingga SETENGAHNYA

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Jika Anda suka berhemat atau benci cara bicara LLM, video ini mungkin cocok untuk Anda.
00:00:03Ini adalah keahlian baru yang sedang tren bernama Caveman dan menjanjikan pengurangan hingga 75% token
00:00:07output sambil tetap menjaga akurasi teknis secara penuh.
00:00:10Semua berkat kata-kata bijak dari Kevin.
00:00:12Kenapa buang waktu?
00:00:13Ucap banyak kata saat sedikit kata cukup.
00:00:16Ini berfungsi di Claude, Codex, dan lainnya, mengubah output Anda dari kata-kata pengisi,
00:00:20respons yang terlalu panjang hingga tidak dibaca, menjadi TLDR yang bagus dengan akurasi teknis yang sama,
00:00:24bahkan dapat disesuaikan dan memiliki fitur tambahan seperti mode wenyan, commit singkat, ulasan kode satu baris,
00:00:29dan alat kompresi input.
00:00:30Mungkin awalnya terlihat sedikit gila, tapi sebenarnya ada penjelasan ilmiah di baliknya, jadi mari
00:00:34kita langsung masuk dan lihat.
00:00:40Tadi saya mencobanya di Claude Code dengan aplikasi demo Next.js yang sebenarnya
00:00:44memiliki sistem autentikasi palsu, dan saya hanya bertanya: bisakah Anda jelaskan bagaimana autentikasi diimplementasikan
00:00:48dalam aplikasi ini.
00:00:49Ini adalah Claude Code normal tanpa keahlian tersebut terpasang, Anda lihat sendiri ia langsung
00:00:53menggunakan kata pengisi dengan mengatakan bahwa ini adalah sistem autentikasi simulasi.
00:00:56Kita melihat tanda pisah yang mengatakan tidak ada backend, tanpa kata sandi, tanpa keamanan nyata, ada untuk mendemonstrasikan
00:01:00pelacakan pengguna RUM stack yang lebih baik.
00:01:03Setelah itu, ia menjelaskan file inti dan cara kerjanya, dan semuanya disampaikan
00:01:06dalam bahasa Inggris yang mudah dibaca.
00:01:08Jika kita menanyakan hal yang sama tetapi kali ini menggunakan keahlian caveman, Anda lihat ia langsung
00:01:11ke intinya dan jauh lebih ringkas.
00:01:13Kalimat pertamanya adalah: hanya demo, autentikasi sisi klien, tanpa keamanan nyata, dibuat untuk demo pelacakan
00:01:17RUM Better Stack.
00:01:18Ia tidak memiliki kata-kata pengisi, tanda pisah, atau hal semacam itu.
00:01:21Ia tidak perlu membuat kalimat yang sempurna, ia bisa langsung memberi tahu informasi teknisnya
00:01:25secara instan.
00:01:26Hal yang sama berlaku untuk bagian cara kerja, alur, dan poin integrasi.
00:01:29Anda bisa melihat di sini, alih-alih menjelaskan cara kerjanya dalam kalimat bahasa Inggris biasa,
00:01:33ia hanya menulis: muat aplikasi, lalu ada panah untuk memeriksa penyimpanan lokal untuk pengguna yang tersimpan.
00:01:36Jadi ini jauh lebih ringkas dan sejujurnya itulah yang saya pedulikan.
00:01:39Saya tidak terlalu peduli apakah bahasanya Inggris baku, saya hanya ingin informasi teknis
00:01:43darinya.
00:01:44Keringkasan itulah alasan utama saya menyukai keahlian ini, tetapi nilai jual lainnya
00:01:47adalah ini berarti dapat mengurangi token output dan secara teoritis Anda bisa
00:01:51mendapatkan lebih banyak dari langganan Claude Code atau bahkan menghemat uang untuk token API Anda.
00:01:55Namun saya rasa ada sedikit kendala di sini.
00:01:57Ini adalah hasil dari tes perbandingan yang saya jalankan tadi, di mana saya membandingkan respons
00:02:00dasar Claude Code vs respons singkat di mana saya secara harfiah menyuruh Claude Code untuk menjadi
00:02:04ringkas vs menggunakan keahlian caveman kami.
00:02:07Ini dilakukan pada 10 prompt, mulai dari hal sederhana seperti apa perbedaan git rebase dengan git merge.
00:02:11Sekarang Anda bisa melihat hasilnya sangat positif.
00:02:14Saat kita menggunakan keahlian caveman vs dasar, kita mendapatkan pengurangan 45% dalam token
00:02:18output, dan 39% dibandingkan hanya menyuruh Claude Code untuk menjadi ringkas.
00:02:22Hal itu jelas akan berhubungan dengan biaya juga, akan ada penghematan 45% di sana
00:02:26pada token output, di mana biaya dasarnya sekitar 8 sen dan caveman sekitar
00:02:314 sen.
00:02:32Jadi semuanya terlihat cukup bagus pada awalnya.
00:02:34Namun, keadaan mulai menjadi menarik ketika kita memperhitungkan biaya input
00:02:37token.
00:02:38Jelas karena sekarang kita menggunakan keahlian caveman, kita memuat file markdown yang
00:02:41memiliki lebih banyak teks daripada prompt satu kalimat kita. Untuk baseline di mana kita hanya
00:02:45mengirim kalimat itu, biayanya sangat kecil, tetapi saat kita menggunakan keahlian ini, Anda lihat
00:02:49biayanya sekarang sekitar 4 sen.
00:02:50Jika kita menggabungkan biaya token input dan output, Anda bisa melihat rata-rata caveman
00:02:54sebenarnya 10% lebih mahal daripada baseline karena penghematan yang kita buat pada token
00:02:58output telah habis dimakan oleh token input kita.
00:03:01Tetapi ini tidak berarti kekalahan bagi caveman, karena hal ini hanya benar dalam
00:03:04skenario yang sangat spesifik.
00:03:05Ini hanya benar jika kita mengirim satu prompt kecil dan tidak menanyakan pertanyaan lanjutan.
00:03:10Jika Anda mulai menanyakan pertanyaan lanjutan, Anda bisa memanfaatkan harga prompt cache, dan saat
00:03:14kita melakukan itu, Anda bisa melihat situasinya berbalik menguntungkan caveman dan kita sebenarnya mendapatkan penghematan
00:03:19biaya sebesar 39%.
00:03:20Kita sudah cukup jauh membahas ini, tapi ini membuktikan ada logika dalam menggunakan
00:03:23caveman, bahkan sebelum kita memperhitungkan keuntungan potensial lainnya yaitu
00:03:27sebuah studi tahun ini menunjukkan bahwa membatasi model besar pada respons singkat meningkatkan akurasi
00:03:31sebesar 26% pada tolok ukur tertentu.
00:03:34Jadi mungkin Kevin memang yang paling pintar, dan Anda juga pintar jika berlangganan.
00:03:38Anda bisa mencoba keahlian ini sendiri dengan menggunakan paket keahlian vacel dan menjalankan
00:03:41perintah seperti ini, dan di sini kita juga bisa melihat apa yang diperintahkan kepada agen.
00:03:45Kami memiliki beberapa aturan seperti hapus artikel seperti a, an, dan the, hapus kata pengisi, sapaan,
00:03:49dan kata-kata ragu.
00:03:50Lalu kami juga menggunakan sinonim pendek: gunakan "big" daripada "extensive" dan katakan "fix"
00:03:54daripada "implement a solution for", dan kami juga memiliki apa yang ingin kami pertahankan yaitu istilah teknis,
00:03:58blok kode, dan pesan kesalahan.
00:04:00Setelah ini kita memiliki pola bagaimana strukturnya harus dibuat, jadi kita harus memiliki
00:04:03objek, tindakan, alasan, dan kemudian langkah selanjutnya.
00:04:05Jadi sangat bagus dan ringkas.
00:04:07Bahkan ada mode intensitas di sini untuk mengubah seberapa "caveman" responsnya.
00:04:10Anda bisa melihat rentangnya mulai dari light hingga ultra.
00:04:12Saya menggunakan "full" karena itu bawaannya, tetapi di ultra ia menyingkat semuanya,
00:04:17menghapus konjungsi, menggunakan panah untuk kausalitas, dan menggunakan satu kata saat satu kata
00:04:21cukup.
00:04:22Ada juga mode wenyan yang menggunakan karakter bahasa Mandarin klasik karena sebenarnya
00:04:26paling efisien secara token.
00:04:27Sayangnya saya tidak bisa membacanya, jadi tidak terlalu berguna bagi saya.
00:04:30Bukan itu saja yang ditawarkan caveman, sebenarnya ada beberapa keahlian lagi untuk
00:04:33skenario spesifik.
00:04:34Kami punya caveman commit untuk menulis pesan singkat dan tepat dalam format conventional commits.
00:04:38Kami punya caveman review untuk menulis komentar ulasan kode yang hanya satu baris ringkas per temuan,
00:04:42dan kami juga punya keahlian compress untuk mengubah file bahasa alami Anda menjadi gaya caveman
00:04:46sehingga Anda bisa menggunakannya kembali dengan token input yang sedikit lebih rendah.
00:04:49Beri tahu saya di komentar jika Anda menyukai salah satu dari ini, dan selagi Anda di
00:04:52sana, jangan lupa subscribe, dan seperti biasa, sampai jumpa di video berikutnya.

Key Takeaway

Metode prompting Caveman memangkas biaya token output hingga 45% dan meningkatkan akurasi teknis sebesar 26% dengan cara menghilangkan kata-kata pengisi serta sapaan tanpa mengurangi substansi informasi.

Highlights

Skill Caveman mengurangi jumlah token output hingga 45% dibandingkan dengan respons standar Claude Code.

Pembatasan model bahasa besar pada respons singkat meningkatkan akurasi teknis sebesar 26% pada tolok ukur tertentu.

Penggunaan prompt caching dengan metode ini menghasilkan penghematan biaya total sebesar 39% untuk penggunaan jangka panjang.

Mode intensitas Ultra mengoptimalkan keringkasan dengan menghapus konjungsi dan menggunakan tanda panah untuk menunjukkan hubungan kausalitas.

Fitur Caveman Review membatasi komentar ulasan kode hanya pada satu baris ringkas untuk setiap temuan teknis.

Mode Wenyan memanfaatkan karakter Mandarin klasik untuk mencapai efisiensi token tertinggi yang dimungkinkan oleh model.

Timeline

Mekanisme dan Cara Kerja Keterampilan Caveman

  • Keterampilan Caveman mengubah output LLM yang panjang menjadi format ringkas tanpa menghilangkan akurasi teknis.
  • Sistem ini menghapus kata-kata pengisi dan struktur kalimat sempurna untuk langsung menyajikan informasi inti.
  • Alur kerja teknis dijelaskan melalui simbol seperti tanda panah daripada menggunakan narasi bahasa Inggris standar.

Output standar sering kali mengandung bahasa basa-basi yang tidak diperlukan untuk kebutuhan teknis. Dalam pengujian pada aplikasi Next.js, respons beralih dari penjelasan naratif menjadi poin-poin instan yang fokus pada implementasi autentikasi sisi klien. Perubahan ini mengutamakan kecepatan pemahaman data teknis bagi pengembang.

Analisis Biaya dan Efisiensi Token

  • Penggunaan metode ini menghasilkan penurunan biaya token output dari 8 sen menjadi sekitar 4 sen.
  • Biaya input awal meningkat karena pemuatan file instruksi markdown tambahan.
  • Pemanfaatan fitur prompt cache membalikkan kerugian biaya input menjadi penghematan total sebesar 39%.

Perbandingan dilakukan pada 10 prompt berbeda untuk mengukur efektivitas biaya secara nyata. Meskipun input awal lebih mahal karena instruksi sistem yang lebih panjang, efisiensi tercapai saat pengguna melakukan percakapan lanjutan atau pertanyaan susulan. Penghematan 45% pada token output tetap menjadi faktor utama dalam mengurangi biaya operasional API.

Fitur Tambahan dan Kustomisasi Intensitas

  • Aturan sistem mencakup penghapusan artikel, sapaan, dan penggunaan sinonim kata yang lebih pendek.
  • Tersedia tingkatan intensitas mulai dari Light hingga Ultra untuk mengatur tingkat keringkasan respons.
  • Modul khusus tersedia untuk pesan commit Git, ulasan kode, dan kompresi file bahasa alami.

Sistem instruksi memerintahkan agen untuk menggunakan kata seperti 'fix' daripada 'implement a solution for' guna menghemat karakter. Struktur respons diatur secara ketat mengikuti pola objek, tindakan, alasan, dan langkah selanjutnya. Mode Ultra memberikan tingkat kompresi tertinggi dengan menghapus semua elemen linguistik non-esensial.

Community Posts

View all posts