Cara Spesifik Mengamankan Batas TPM Saat Membangun Agen Claude

Anthropic telah bekerja sama dengan pusat data Colossus 1 milik SpaceX untuk mulai mengoperasikan infrastruktur 220.000 GPU. Skala infrastruktur yang membesar bukan sekadar berarti model menjadi lebih pintar. Bagi pengembang seperti kita, ini adalah sinyal bahwa batas token per menit (TPM), yang selama ini menjadi hambatan dalam operasional layanan, akan berubah secara mendasar. Saat menerapkan agen skala besar, dinding pertama yang dihadapi bukanlah performa model, melainkan kesalahan 429 Too Many Requests.

Mengamankan Batas 4 Juta Token per Menit dengan Promosi ke Tier 4

Agar agen dapat menganalisis basis kode yang kompleks atau menangani permintaan ribuan pengguna secara bersamaan, setidaknya diperlukan izin Tier 4. Berdasarkan standar tahun 2026, naik ke Tier 4 akan meningkatkan batas input token per menit (ITPM) hingga 4.000.000. Ini adalah sistem yang ditentukan secara otomatis berdasarkan akumulasi jumlah pembayaran, sehingga Anda harus bergerak secara strategis.

Isi ulang kredit awal sebesar 400 dolar AS atau lebih di menu Billing konsol Anthropic. Anda harus segera memenuhi ambang batas pembayaran kumulatif agar sistem menaikkan tier secara otomatis.
Tetapkan parameter service_tier pada header permintaan API ke auto. Ini memungkinkan transisi fleksibel antara kapasitas yang dipesan dan kuota standar untuk menahan lonjakan trafik.
Ajukan akses beta untuk context window 1M. Mulai dari Tier 4 ke atas, prioritas diberikan untuk izin memasukkan data dalam jumlah besar sekaligus.

Setelah persiapan selesai, jumlah permintaan per menit (RPM) akan terbuka hingga 4.000 kali. Sekarang, meskipun trafik memuncak, layanan tidak akan terhenti karena API yang terblokir.

Mengurangi Biaya Input Hingga 90% dengan Prompt Caching

Context window yang diperluas adalah pedang bermata dua. Meskipun Anda bisa menggunakan 1 juta token, mengirimkan semuanya setiap saat akan menguras kantong. Context Caching dari Anthropic menetapkan prompt sistem yang berulang atau dokumen referensi ke dalam memori server. Berdasarkan Claude Sonnet 4.6, biaya membaca cache adalah 0,30 dolar per 1 juta token. Dibandingkan dengan biaya input biasa sebesar 3,00 dolar, ini hanya sepersepuluhnya.

Letakkan definisi alat (Tool Definitions) yang tidak berubah di bagian paling atas prompt dan pasang titik henti (breakpoint) cache pertama.
Tempatkan dokumen yang diambil dari basis pengetahuan atau RAG di bagian tengah dan tetapkan titik henti kedua. Gunakan kembali data tersebut sepanjang sesi.
Pastikan awalan (prefix) melebihi minimal 2.048 token. Jika di bawah angka ini, fitur caching tidak akan berfungsi sama sekali.

Bahkan dengan meningkatkan tingkat keberhasilan cache (cache hit rate) hingga 80%, throughput aktual akan meningkat lebih dari 5 kali lipat. Dompet tidak akan menipis sementara agen dapat melakukan lebih banyak pekerjaan.

Desain Hibrida dengan Mencampur Batch API

Tidak semua permintaan perlu diselesaikan dalam satu detik. Tugas-tugas seperti pelabelan data atau pengindeksan basis kode tidak mementingkan respons real-time. Jika tugas-tugas semacam ini dialihkan ke Batch API, biayanya akan berkurang setengahnya. Inti dari desain ini adalah memilah tugas-tugas yang hasilnya cukup diterima dalam waktu 24 jam.

Gunakan Messages API untuk fungsi yang berdialog langsung dengan pelanggan, dan pisahkan semua pekerjaan latar belakang internal ke dalam kelompok Batch API.
Hubungkan mesin alur kerja seperti Temporal untuk melacak ID batch, dan buat pipa asinkron agar logika berikutnya berjalan saat selesai.
Terapkan caching TTL 1 jam bahkan pada permintaan batch. Anda bisa mendapatkan diskon batch 50% sekaligus diskon cache input token secara bertumpuk.

Dalam lingkungan yang menggunakan 100 juta token per bulan, mengadopsi struktur ini akan menurunkan biaya operasional dari sekitar 660 dolar menjadi 320 dolar. Jauh lebih menguntungkan menggunakan uang yang dihemat untuk meningkatkan frekuensi penalaran agen.

Mempersingkat TTFT dengan Perutean Lintas Wilayah

Seiring dengan tersebarnya infrastruktur di seluruh Amerika Utara, waktu pembuatan token pertama (TTFT) dapat berbeda ratusan milidetik tergantung pada endpoint mana yang Anda akses. Menggunakan fitur inferensi lintas wilayah AWS Bedrock memungkinkan Anda mengelola sumber daya dari berbagai wilayah sebagai satu kesatuan. Ini secara otomatis meneruskan permintaan ke tempat dengan sumber daya tersedia yang cukup, menghindari wilayah yang sedang padat trafik.

Tempatkan Cloudflare AI Gateway di depan pemanggilan API. Penggunaan edge caching melalui lebih dari 300 titik kehadiran (PoP) di seluruh dunia akan mempercepat kecepatan respons.
Aktifkan perutean berbasis latensi (Latency-based Routing) pada pengaturan SDK. Ini akan memilih wilayah yang memberikan respons tercepat secara real-time untuk mengirim paket.
Wajibkan protokol HTTP/3. Waktu jabat tangan (handshake) akan berkurang dan koneksi tetap terjaga dengan kuat bahkan di jaringan yang tidak stabil.

Hanya dengan memperbaiki pengaturan jaringan, Anda dapat mengurangi waktu respons lebih dari 35%. Seiring dengan skala infrastruktur yang membesar, teknologi yang mengoptimalkan jalur tersebut akan menentukan pengalaman pengguna.

Cara Spesifik Mengamankan Batas TPM Saat Membangun Agen Claude

Mengamankan Batas 4 Juta Token per Menit dengan Promosi ke Tier 4

Isi ulang kredit awal sebesar 400 dolar AS atau lebih di menu Billing konsol Anthropic. Anda harus segera memenuhi ambang batas pembayaran kumulatif agar sistem menaikkan tier secara otomatis.

Tetapkan parameter service_tier pada header permintaan API ke auto. Ini memungkinkan transisi fleksibel antara kapasitas yang dipesan dan kuota standar untuk menahan lonjakan trafik.

Ajukan akses beta untuk context window 1M. Mulai dari Tier 4 ke atas, prioritas diberikan untuk izin memasukkan data dalam jumlah besar sekaligus.

Setelah persiapan selesai, jumlah permintaan per menit (RPM) akan terbuka hingga 4.000 kali. Sekarang, meskipun trafik memuncak, layanan tidak akan terhenti karena API yang terblokir.

Mengurangi Biaya Input Hingga 90% dengan Prompt Caching

Letakkan definisi alat (Tool Definitions) yang tidak berubah di bagian paling atas prompt dan pasang titik henti (breakpoint) cache pertama.

Tempatkan dokumen yang diambil dari basis pengetahuan atau RAG di bagian tengah dan tetapkan titik henti kedua. Gunakan kembali data tersebut sepanjang sesi.

Pastikan awalan (prefix) melebihi minimal 2.048 token. Jika di bawah angka ini, fitur caching tidak akan berfungsi sama sekali.

Desain Hibrida dengan Mencampur Batch API

Gunakan Messages API untuk fungsi yang berdialog langsung dengan pelanggan, dan pisahkan semua pekerjaan latar belakang internal ke dalam kelompok Batch API.

Hubungkan mesin alur kerja seperti Temporal untuk melacak ID batch, dan buat pipa asinkron agar logika berikutnya berjalan saat selesai.

Terapkan caching TTL 1 jam bahkan pada permintaan batch. Anda bisa mendapatkan diskon batch 50% sekaligus diskon cache input token secara bertumpuk.

Mempersingkat TTFT dengan Perutean Lintas Wilayah

Tempatkan Cloudflare AI Gateway di depan pemanggilan API. Penggunaan edge caching melalui lebih dari 300 titik kehadiran (PoP) di seluruh dunia akan mempercepat kecepatan respons.

Aktifkan perutean berbasis latensi (Latency-based Routing) pada pengaturan SDK. Ini akan memilih wilayah yang memberikan respons tercepat secara real-time untuk mengirim paket.

Wajibkan protokol HTTP/3. Waktu jabat tangan (handshake) akan berkurang dan koneksi tetap terjaga dengan kuat bahkan di jaringan yang tidak stabil.

Cara Spesifik Mengamankan Batas TPM Saat Membangun Agen Claude

Related Video

Analisis mendalam tentang kesepakatan Anthropic & xAI

Cara Spesifik Mengamankan Batas TPM Saat Membangun Agen Claude

Mengamankan Batas 4 Juta Token per Menit dengan Promosi ke Tier 4

Mengurangi Biaya Input Hingga 90% dengan Prompt Caching

Desain Hibrida dengan Mencampur Batch API

Mempersingkat TTFT dengan Perutean Lintas Wilayah

Comments (0)

Cara Spesifik Mengamankan Batas TPM Saat Membangun Agen Claude

Mengamankan Batas 4 Juta Token per Menit dengan Promosi ke Tier 4

Mengurangi Biaya Input Hingga 90% dengan Prompt Caching

Desain Hibrida dengan Mencampur Batch API

Mempersingkat TTFT dengan Perutean Lintas Wilayah