Cara Spesifik Mengamankan Batas TPM Saat Membangun Agen Claude
2026年5月7日
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
Anthropic telah bekerja sama dengan pusat data Colossus 1 milik SpaceX untuk mulai mengoperasikan infrastruktur 220.000 GPU. Skala infrastruktur yang membesar bukan sekadar berarti model menjadi lebih pintar. Bagi pengembang seperti kita, ini adalah sinyal bahwa batas token per menit (TPM), yang selama ini menjadi hambatan dalam operasional layanan, akan berubah secara mendasar. Saat menerapkan agen skala besar, dinding pertama yang dihadapi bukanlah performa model, melainkan kesalahan 429 Too Many Requests.
Agar agen dapat menganalisis basis kode yang kompleks atau menangani permintaan ribuan pengguna secara bersamaan, setidaknya diperlukan izin Tier 4. Berdasarkan standar tahun 2026, naik ke Tier 4 akan meningkatkan batas input token per menit (ITPM) hingga 4.000.000. Ini adalah sistem yang ditentukan secara otomatis berdasarkan akumulasi jumlah pembayaran, sehingga Anda harus bergerak secara strategis.
service_tier pada header permintaan API ke auto. Ini memungkinkan transisi fleksibel antara kapasitas yang dipesan dan kuota standar untuk menahan lonjakan trafik.Setelah persiapan selesai, jumlah permintaan per menit (RPM) akan terbuka hingga 4.000 kali. Sekarang, meskipun trafik memuncak, layanan tidak akan terhenti karena API yang terblokir.
Context window yang diperluas adalah pedang bermata dua. Meskipun Anda bisa menggunakan 1 juta token, mengirimkan semuanya setiap saat akan menguras kantong. Context Caching dari Anthropic menetapkan prompt sistem yang berulang atau dokumen referensi ke dalam memori server. Berdasarkan Claude Sonnet 4.6, biaya membaca cache adalah 0,30 dolar per 1 juta token. Dibandingkan dengan biaya input biasa sebesar 3,00 dolar, ini hanya sepersepuluhnya.
Bahkan dengan meningkatkan tingkat keberhasilan cache (cache hit rate) hingga 80%, throughput aktual akan meningkat lebih dari 5 kali lipat. Dompet tidak akan menipis sementara agen dapat melakukan lebih banyak pekerjaan.
Tidak semua permintaan perlu diselesaikan dalam satu detik. Tugas-tugas seperti pelabelan data atau pengindeksan basis kode tidak mementingkan respons real-time. Jika tugas-tugas semacam ini dialihkan ke Batch API, biayanya akan berkurang setengahnya. Inti dari desain ini adalah memilah tugas-tugas yang hasilnya cukup diterima dalam waktu 24 jam.
Dalam lingkungan yang menggunakan 100 juta token per bulan, mengadopsi struktur ini akan menurunkan biaya operasional dari sekitar 660 dolar menjadi 320 dolar. Jauh lebih menguntungkan menggunakan uang yang dihemat untuk meningkatkan frekuensi penalaran agen.
Seiring dengan tersebarnya infrastruktur di seluruh Amerika Utara, waktu pembuatan token pertama (TTFT) dapat berbeda ratusan milidetik tergantung pada endpoint mana yang Anda akses. Menggunakan fitur inferensi lintas wilayah AWS Bedrock memungkinkan Anda mengelola sumber daya dari berbagai wilayah sebagai satu kesatuan. Ini secara otomatis meneruskan permintaan ke tempat dengan sumber daya tersedia yang cukup, menghindari wilayah yang sedang padat trafik.
Hanya dengan memperbaiki pengaturan jaringan, Anda dapat mengurangi waktu respons lebih dari 35%. Seiring dengan skala infrastruktur yang membesar, teknologi yang mengoptimalkan jalur tersebut akan menentukan pengalaman pengguna.