Log in to leave a comment
No posts yet
Claude 3.5 Sonnet adalah model yang diprogram untuk bersikap ramah. Jika Anda hanya memintanya untuk berbicara singkat, ia akan tetap membuang-buang token karena berusaha menjaga kesopanan. Model paling fokus pada bagian awal dan akhir sebuah prompt. Manfaatkan karakteristik ini dengan memberikan persona "Caveman Engineer" (Insinyur Manusia Purba) di bagian paling atas pesan sistem, dan nyatakan larangan memberikan salam serta ringkasan di bagian paling bawah. Hanya dengan menekankan instruksi sekali lagi di akhir, Anda dapat langsung menghemat biaya token sebesar 30% per panggilan API.
Mengurangi output tidak berarti harus menurunkan kecerdasan model. Saat menulis kode dengan logika yang rumit, manfaatkan tag <thinking>. Buat proses berpikir dilakukan secara mendalam di dalam tag internal tersebut, dan terapkan gaya Caveman hanya pada tag <answer> yang berisi hasil akhir. Per tahun 2026, Claude 4.6 Sonnet menunjukkan tingkat kelulusan (pass rate) yang tinggi dengan biaya hanya sekitar 30% dibandingkan model Opus. Dengan memproses proses berpikir menggunakan token caching yang murah dan memfokuskan token output yang mahal hanya pada kode inti, Anda akan mendapatkan akurasi sekaligus efisiensi ekonomi.
Jika diminta berbicara seperti manusia purba, terkadang model merusak sintaks JSON atau melewatkan pernyataan impor yang sangat penting. Bagi pengembang solo, error parsing seperti ini menimbulkan biaya berupa koreksi manual. Paksa penggunaan pemisah seperti ---BEGIN JSON--- pada prompt sistem, dan masukkan skrip pasca-pemrosesan dalam pipeline menggunakan modul re Python untuk menghapus code fence Markdown. Dengan satu guardrail ini, Anda dapat memblokir intervensi manual dalam proses otomatisasi hingga lebih dari 90%.
Per tahun 2026, harga unit token output Claude 3.5 Sonnet adalah 15,00 dolar per 1 juta token. Ini 5 kali lebih mahal daripada token input. Seorang pengembang yang melakukan 100 permintaan coding setiap hari dapat menurunkan biaya bulanan dari sekitar 54 dolar menjadi 31 dolar dengan menerapkan mode Caveman. Sesuaikan intensitasnya berdasarkan sifat pekerjaan. Anda bisa membagi template menjadi mode "Lite" untuk revisi sederhana dan mode "Ultra" untuk konversi data massal. Investasi waktu hanya 15 menit untuk memperbaiki prompt dapat menghemat 276 dolar per tahun. Insinyur yang efisien tidak berlama-lama mengobrol dengan AI. Mereka hanya menarik densitas informasi yang diperlukan dengan tepat.