Log in to leave a comment
No posts yet
Claude Opus 4.7 adalah model yang luar biasa dalam hal performa, tetapi cukup menyulitkan dari sisi biaya. Hal ini dikarenakan konsumsi tokennya meningkat sekitar 35% dibandingkan model sebelumnya. Meskipun Anthropic mematok harga input di angka $5/MTok, Anda akan melihat angka yang berbeda saat menerima tagihan yang sebenarnya. Perlu diingat bahwa harga token output adalah $25/MTok, yaitu 5 kali lebih mahal daripada input. Jika Anda tidak memanfaatkan kemampuan instruksi model yang luar biasa untuk mengurangi panjang jawaban secara fisik, dompet Anda akan terkuras dalam sekejap.
Banyak token yang terbuang sia-sia pada Opus 4.7 untuk kalimat ramah seperti "Tolong buatkan ringkasan yang ramah dan mendetail". Model ini jauh lebih memahami perintah yang terstruktur. Jika Anda mengubah instruksi bahasa alami menjadi tag XML dan kata kunci utama, Anda dapat mengurangi panjang respons sekitar 20%.
Tone: Concise, Output: JSON only, dan Intro/Outro: None.<instructions> dan informasi latar belakang dengan tag <context>. Ini akan meningkatkan efisiensi komputasi model saat menelusuri informasi.Skip reasoning: true di akhir prompt. Ini mencegah pikiran internal model (Thinking process) yang tidak perlu diperlihatkan kepada pengguna dihitung sebagai token output.Opus 4.7 mampu membaca hingga resolusi tinggi 2.576 piksel, tetapi biayanya mencapai maksimal 4.784 token per permintaan. Jika kita memasukkan rumus perhitungan Anthropic , mengirimkan gambar resolusi tinggi apa adanya adalah tindakan yang sembrono. Pengembang tunggal atau startup harus mengendalikan resolusi di tingkat infrastruktur.
file_id-nya saja.Menerima semua permintaan dengan Opus 4.7 adalah pemborosan uang. Pada tahun 2026, standar desain backend adalah pola Koordinator-Pekerja (Coordinator-Worker). Model yang relatif murah bertanggung jawab atas klasifikasi tahap pertama, dan hanya tugas yang benar-benar sulit yang diserahkan kepada Opus.
| Jenis Tugas | Model Rekomendasi | Biaya Input (/MTok) | Kegunaan |
|---|---|---|---|
| Arsitektur, Audit Keamanan | Opus 4.7 | $5.00 | Penalaran logis tingkat tinggi |
| Review Kode, Integrasi API | Sonnet 4.6 | $3.00 | Keseimbangan kecepatan dan performa |
| Ringkasan Sederhana, Klasifikasi Data | Haiku 4.5 | $0.25 | Maksimalisasi efisiensi biaya |
Kunci dari penghematan biaya adalah Prompt Caching. Tetapkan cache_control: {"type": "ephemeral"} pada titik di mana sistem prompt atau dokumen API tetap melebihi 1.024 token. Jika Anda meningkatkan rasio hit cache hingga 80%, Anda bisa mendapatkan diskon 90% untuk nilai input yang berulang. Hanya dengan menerapkan routing sederhana dan caching, Anda dapat menekan seluruh biaya operasional hingga di bawah setengahnya.
Terakhir, gunakan parameter effort: low untuk membatasi agar model tidak melakukan penalaran yang terlalu mendalam secara mandiri. Mengaktifkan fitur Anggaran Tugas (Task Budgets) juga menjadi pengaman untuk mencegah lonjakan token yang tiba-tiba.