Cara Merancang Prompt untuk Menekan Konsumsi Token Opus 4.7 yang Meningkat

Claude Opus 4.7 adalah model yang luar biasa dalam hal performa, tetapi cukup menyulitkan dari sisi biaya. Hal ini dikarenakan konsumsi tokennya meningkat sekitar 35% dibandingkan model sebelumnya. Meskipun Anthropic mematok harga input di angka $5/MTok, Anda akan melihat angka yang berbeda saat menerima tagihan yang sebenarnya. Perlu diingat bahwa harga token output adalah $25/MTok, yaitu 5 kali lebih mahal daripada input. Jika Anda tidak memanfaatkan kemampuan instruksi model yang luar biasa untuk mengurangi panjang jawaban secara fisik, dompet Anda akan terkuras dalam sekejap.

Membuang Predikat dan Memerintah dengan Simbol

Banyak token yang terbuang sia-sia pada Opus 4.7 untuk kalimat ramah seperti "Tolong buatkan ringkasan yang ramah dan mendetail". Model ini jauh lebih memahami perintah yang terstruktur. Jika Anda mengubah instruksi bahasa alami menjadi tag XML dan kata kunci utama, Anda dapat mengurangi panjang respons sekitar 20%.

Perombakan Sistem Prompt: Hapus semua kata-kata pemanis seperti "Anda adalah asisten yang membantu". Sebaliknya, lebih menguntungkan untuk menetapkan spesifikasi dengan kata kunci singkat seperti Tone: Concise, Output: JSON only, dan Intro/Outro: None.
Pemanfaatan Tag XML: Pisahkan instruksi dengan tag <instructions> dan informasi latar belakang dengan tag <context>. Ini akan meningkatkan efisiensi komputasi model saat menelusuri informasi.
Memblokir Proses Penalaran: Masukkan flag Skip reasoning: true di akhir prompt. Ini mencegah pikiran internal model (Thinking process) yang tidak perlu diperlihatkan kepada pengguna dihitung sebagai token output.

Pipa Saluran (Pipeline) yang Menghemat Biaya Analisis Gambar hingga 80%

Opus 4.7 mampu membaca hingga resolusi tinggi 2.576 piksel, tetapi biayanya mencapai maksimal 4.784 token per permintaan. Jika kita memasukkan rumus perhitungan Anthropic $Tokens \approx (Width \times Height) / 750$ , mengirimkan gambar resolusi tinggi apa adanya adalah tindakan yang sembrono. Pengembang tunggal atau startup harus mengendalikan resolusi di tingkat infrastruktur.

Resizing Terlebih Dahulu: Gunakan pustaka seperti Sharp atau Pillow di backend untuk memperkecil sisi terpanjang gambar menjadi 800px sebelum dikirim. Resolusi ini sudah cukup untuk analisis UI atau pengenalan objek umum.
Referensi Files API: Jika Anda perlu melakukan percakapan beberapa kali tentang gambar yang sama, jangan mengirimkannya setiap kali dengan base64, tetapi unggahlah ke Files API dan panggil file_id-nya saja.
Strategi Crop Bagian (ROI): Buat struktur ganda dengan memotong bagian yang harus dilihat secara presisi dalam resolusi tinggi, dan mengirimkan sisanya sebagai bidikan keseluruhan dalam resolusi rendah. Anda dapat memangkas biaya terkait gambar lebih dari 80% sambil tetap menjaga akurasi.

Desain Hibrida Menggunakan Haiku sebagai Router

Menerima semua permintaan dengan Opus 4.7 adalah pemborosan uang. Pada tahun 2026, standar desain backend adalah pola Koordinator-Pekerja (Coordinator-Worker). Model yang relatif murah bertanggung jawab atas klasifikasi tahap pertama, dan hanya tugas yang benar-benar sulit yang diserahkan kepada Opus.

Jenis Tugas	Model Rekomendasi	Biaya Input (/MTok)	Kegunaan
Arsitektur, Audit Keamanan	Opus 4.7	$5.00	Penalaran logis tingkat tinggi
Review Kode, Integrasi API	Sonnet 4.6	$3.00	Keseimbangan kecepatan dan performa
Ringkasan Sederhana, Klasifikasi Data	Haiku 4.5	$0.25	Maksimalisasi efisiensi biaya

Kunci dari penghematan biaya adalah Prompt Caching. Tetapkan cache_control: {"type": "ephemeral"} pada titik di mana sistem prompt atau dokumen API tetap melebihi 1.024 token. Jika Anda meningkatkan rasio hit cache hingga 80%, Anda bisa mendapatkan diskon 90% untuk nilai input yang berulang. Hanya dengan menerapkan routing sederhana dan caching, Anda dapat menekan seluruh biaya operasional hingga di bawah setengahnya.

Terakhir, gunakan parameter effort: low untuk membatasi agar model tidak melakukan penalaran yang terlalu mendalam secara mandiri. Mengaktifkan fitur Anggaran Tugas (Task Budgets) juga menjadi pengaman untuk mencegah lonjakan token yang tiba-tiba.

Cara Merancang Prompt untuk Menekan Konsumsi Token Opus 4.7 yang Meningkat

Membuang Predikat dan Memerintah dengan Simbol

Perombakan Sistem Prompt: Hapus semua kata-kata pemanis seperti "Anda adalah asisten yang membantu". Sebaliknya, lebih menguntungkan untuk menetapkan spesifikasi dengan kata kunci singkat seperti Tone: Concise, Output: JSON only, dan Intro/Outro: None.

Pemanfaatan Tag XML: Pisahkan instruksi dengan tag <instructions> dan informasi latar belakang dengan tag <context>. Ini akan meningkatkan efisiensi komputasi model saat menelusuri informasi.

Memblokir Proses Penalaran: Masukkan flag Skip reasoning: true di akhir prompt. Ini mencegah pikiran internal model (Thinking process) yang tidak perlu diperlihatkan kepada pengguna dihitung sebagai token output.

Pipa Saluran (Pipeline) yang Menghemat Biaya Analisis Gambar hingga 80%

Opus 4.7 mampu membaca hingga resolusi tinggi 2.576 piksel, tetapi biayanya mencapai maksimal 4.784 token per permintaan. Jika kita memasukkan rumus perhitungan Anthropic

Tokens \approx (Width \times Height) / 750

, mengirimkan gambar resolusi tinggi apa adanya adalah tindakan yang sembrono. Pengembang tunggal atau startup harus mengendalikan resolusi di tingkat infrastruktur.

Resizing Terlebih Dahulu: Gunakan pustaka seperti Sharp atau Pillow di backend untuk memperkecil sisi terpanjang gambar menjadi 800px sebelum dikirim. Resolusi ini sudah cukup untuk analisis UI atau pengenalan objek umum.

Referensi Files API: Jika Anda perlu melakukan percakapan beberapa kali tentang gambar yang sama, jangan mengirimkannya setiap kali dengan base64, tetapi unggahlah ke Files API dan panggil file_id-nya saja.

Strategi Crop Bagian (ROI): Buat struktur ganda dengan memotong bagian yang harus dilihat secara presisi dalam resolusi tinggi, dan mengirimkan sisanya sebagai bidikan keseluruhan dalam resolusi rendah. Anda dapat memangkas biaya terkait gambar lebih dari 80% sambil tetap menjaga akurasi.

Desain Hibrida Menggunakan Haiku sebagai Router

Jenis Tugas

Model Rekomendasi

Biaya Input (/MTok)

Kegunaan

Arsitektur, Audit Keamanan

Opus 4.7

$5.00

Penalaran logis tingkat tinggi

Review Kode, Integrasi API

Sonnet 4.6

$3.00

Keseimbangan kecepatan dan performa

Ringkasan Sederhana, Klasifikasi Data

Haiku 4.5

$0.25

Maksimalisasi efisiensi biaya

Cara Merancang Prompt untuk Menekan Konsumsi Token Opus 4.7 yang Meningkat

Related Video

Opus 4.7 SANGAT Mantap (kecuali boros tokennya)

Cara Merancang Prompt untuk Menekan Konsumsi Token Opus 4.7 yang Meningkat

Membuang Predikat dan Memerintah dengan Simbol

Pipa Saluran (Pipeline) yang Menghemat Biaya Analisis Gambar hingga 80%

Desain Hibrida Menggunakan Haiku sebagai Router

Comments (0)

Cara Merancang Prompt untuk Menekan Konsumsi Token Opus 4.7 yang Meningkat

Membuang Predikat dan Memerintah dengan Simbol

Pipa Saluran (Pipeline) yang Menghemat Biaya Analisis Gambar hingga 80%

Desain Hibrida Menggunakan Haiku sebagai Router