Mode Advisor Baru Claude: Hasil Lebih Baik + Lebih MURAH

CChase AI
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00Anthropic baru saja merilis strategi advisor,
00:00:02yang memungkinkan kita tidak hanya mendapatkan performa lebih baik
00:00:05dari model-model Anthropic kita, tapi dengan biaya yang lebih rendah.
00:00:09Dan cara kerjanya cukup sederhana.
00:00:10Ini menyandingkan Opus sebagai advisor
00:00:12dengan Sonnet atau Haiku sebagai eksekutor.
00:00:15Jadi Opus yang menyusun rencana
00:00:17dan model yang lebih murah yang melakukan semua pekerjaannya.
00:00:19Jadi ini sangat mirip dengan saat kita menggunakan Claude Code
00:00:22dan menjalankan Opus dalam mode rencana,
00:00:24namun eksekusi sebenarnya diserahkan kepada Sonnet.
00:00:27Perbedaannya adalah dengan strategi advisor,
00:00:30semua ini dilakukan secara otomatis melalui API.
00:00:32Jadi ini sangat cocok jika Anda mengerjakan hal-hal
00:00:34di luar Claude Code.
00:00:35Jadi jika Anda memiliki jenis aplikasi web apa pun
00:00:38yang menggunakan API Anthropic di baliknya,
00:00:41ini adalah pilihan yang sudah sangat jelas.
00:00:42Anda akan mendapatkan output yang lebih efektif dengan harga lebih murah.
00:00:46Dan ini sebenarnya sedikit lebih canggih
00:00:48daripada yang kita lakukan di Claude Code dengan perencanaan Opus
00:00:50dan kemudian eksekusi oleh Sonnet.
00:00:52Karena hubungan antara advisor dan eksekutor ini
00:00:55terus berubah dan ini bukan hal yang terjadi sekali saja
00:00:58di mana Opus memberi saran sekali lalu Sonnet mengeksekusi.
00:01:01Sebenarnya terjadi proses bolak-balik.
00:01:02Seperti yang dinyatakan di sini, ketika eksekutor,
00:01:04yakni Sonnet atau Haiku menemui sebuah keputusan
00:01:06yang tidak bisa diselesaikan secara masuk akal,
00:01:08ia akan berkonsultasi dengan Opus untuk panduan sebagai advisor.
00:01:11Opus memiliki konteks penuh tentang apa yang sedang dilakukan Sonnet.
00:01:15Jadi ini bukan sekadar mode rencana
00:01:16di mana ia memberikan satu strategi lalu selesai.
00:01:19Ini seolah-olah Anda melakukan itu, lalu Sonnet mencoba mengeksekusi.
00:01:22Saat menemui hambatan, ia akan kembali ke Opus.
00:01:24Jadi ada proses bolak-balik yang konstan.
00:01:26Terlebih lagi, untuk menjaga biaya tetap rendah,
00:01:28Opus tidak melakukan panggilan alat (tool call) kapan pun.
00:01:30Satu-satunya panggilan alat dilakukan oleh LLM yang lebih kecil itu,
00:01:34dalam hal ini, Sonnet atau Haiku.
00:01:35Tetapi Opus tetap memegang konteks bersama yang penuh.
00:01:39Dan seperti yang saya sebutkan di pembukaan,
00:01:40ini memberikan kita hasil yang lebih baik dengan biaya lebih sedikit.
00:01:43Jadi di sini, ada perbandingan antara Sonnet 4.6 High
00:01:46dengan Opus advisor versus Sonnet 4.6 High sendirian.
00:01:50Sonnet mendapat skor lebih tinggi di SWE-bench pada 74,8 berbanding 72,1,
00:01:55dan biayanya jauh lebih murah.
00:01:56Harganya hanya sedikit di atas 96 sen per tugas agen
00:02:00dibandingkan hampir 1,09 dolar, yang mana perbedaannya signifikan.
00:02:03Dan Anda melihat hal yang sama terjadi pada benchmark lain
00:02:06seperti BrowseComp dan TerminalBench.
00:02:08Skor 60,4 berbanding 58,1, dan biayanya lebih murah.
00:02:12Aspek lebih murah ini luar biasa karena seperti yang kita tahu,
00:02:14API Anthropic itu memang hebat,
00:02:16tapi harganya sangat mahal.
00:02:19Dan seringkali Anda merasa menginginkan sesuatu
00:02:21di antara Sonnet dan Opus, tapi itu tidak ada.
00:02:24Jadi ini memberikan kita titik tengah
00:02:26dalam hal performa antara Sonnet dan Opus,
00:02:28tetapi dengan biaya yang lebih murah daripada Sonnet normal.
00:02:31Jadi apa lagi yang kurang?
00:02:32Seperti yang saya katakan sebelumnya, ini adalah fitur API,
00:02:33bukan melulu soal ekosistem Claude Code.
00:02:35Jadi untuk menggunakan ini, Anda hanya perlu menyesuaikan kode Anda
00:02:38dan cara kodenya melakukan panggilan API tersebut.
00:02:41Secara spesifik, Anda harus menyebutkan tipenya sebagai advisor,
00:02:45serta menentukan max uses (penggunaan maksimal).
00:02:47Adapun max uses adalah jumlah berapa kali
00:02:48sistem akan kembali berkonsultasi ke Opus
00:02:50untuk mendapatkan saran mengenai masalah tertentu.
00:02:52Singkatnya, ini adalah peningkatan yang luar biasa.
00:02:54Jika Anda adalah pengguna API Anthropic
00:02:56dalam proyek nyata di luar ekosistem Claude Code,
00:03:00kita mendapatkan hasil yang lebih baik dengan biaya lebih murah.
00:03:03Karena seperti yang Anda tahu, seringkali Opus terasa berlebihan
00:03:06untuk sebagian besar hal,
00:03:08namun terkadang Anda butuh performa yang sedikit lebih baik dari Sonnet.
00:03:10Dan inilah dia, titik tengah yang sempurna.

Key Takeaway

Strategi advisor Anthropic meningkatkan performa benchmark SWE-bench menjadi 74,8 dengan biaya 12% lebih murah melalui koordinasi otomatis antara model Opus dan Sonnet via API.

Highlights

Strategi advisor Anthropic memasangkan model Opus sebagai pemberi rencana dengan Sonnet atau Haiku sebagai pelaksana tugas.

Sistem advisor memungkinkan interaksi dua arah secara otomatis melalui API saat model pelaksana menemui kendala keputusan.

Penggunaan mode advisor menurunkan biaya tugas agen dari 1,09 dolar menjadi 96 sen pada benchmark SWE-bench.

Performa model meningkat dari skor 72,1 menjadi 74,8 pada pengujian SWE-bench dibandingkan penggunaan Sonnet standar.

Implementasi teknis melalui API memerlukan spesifikasi tipe sebagai advisor dan pengaturan parameter max uses untuk frekuensi konsultasi.

Model Opus dalam sistem ini tidak melakukan panggilan alat (tool call) secara langsung untuk menjaga efisiensi biaya.

Timeline

Mekanisme Kerja Advisor dan Eksekutor

  • Strategi baru ini menggunakan Opus untuk menyusun rencana kerja sementara Sonnet atau Haiku mengeksekusi tugas tersebut.
  • Proses koordinasi antara kedua model berjalan secara otomatis melalui integrasi API Anthropic.
  • Sistem ini berfungsi sebagai solusi optimal untuk aplikasi web yang membutuhkan keseimbangan antara kecerdasan dan efisiensi biaya.

Metode ini membagi beban kerja berdasarkan kapasitas model. Opus berfungsi sebagai otak strategis yang memandu model yang lebih murah untuk melakukan pekerjaan teknis. Hal ini memperluas fungsionalitas yang sebelumnya hanya tersedia di Claude Code ke seluruh ekosistem API Anthropic.

Interaksi Dinamis dan Efisiensi Operasional

  • Model pelaksana berkonsultasi kembali dengan Opus secara instan saat menghadapi hambatan atau keputusan sulit.
  • Opus mempertahankan konteks penuh dari seluruh proses pengerjaan yang dilakukan oleh eksekutor.
  • Pembatasan panggilan alat hanya pada model kecil mencegah lonjakan biaya penggunaan API Opus yang mahal.

Hubungan antara advisor dan eksekutor bersifat dinamis dan terjadi bolak-balik selama proses berlangsung. Konsultasi ini memastikan akurasi tetap tinggi tanpa harus menjalankan model besar untuk setiap langkah kecil. Opus tetap memiliki pemahaman kontekstual terhadap progres kerja meskipun tidak melakukan aksi langsung melalui alat.

Perbandingan Performa dan Analisis Biaya

  • Kombinasi Sonnet 4.6 High dengan Opus advisor mencatat skor 60,4 pada benchmark BrowseComp.
  • Biaya operasional per tugas agen turun secara signifikan di bawah harga penggunaan Sonnet versi standar.
  • Sistem advisor mengisi kekosongan performa di antara model Sonnet tunggal dan Opus tunggal.

Data benchmark menunjukkan bahwa efisiensi biaya tidak mengorbankan kualitas keluaran. Pada TerminalBench dan BrowseComp, skor yang dihasilkan melampaui kemampuan Sonnet yang bekerja sendiri. Strategi ini memposisikan diri sebagai titik tengah yang ideal bagi pengguna yang menganggap Opus terlalu mahal namun membutuhkan tenaga lebih dari sekadar Sonnet.

Implementasi Teknis pada API

  • Integrasi fitur ini menuntut penyesuaian pada struktur pemanggilan kode API pengguna.
  • Parameter max uses menentukan batas maksimal frekuensi model eksekutor meminta saran kepada advisor.
  • Strategi ini ditujukan khusus untuk proyek di luar ekosistem tertutup Claude Code.

Pengguna harus mendefinisikan tipe model secara spesifik sebagai advisor di dalam kode aplikasi mereka. Pengaturan jumlah konsultasi maksimal memungkinkan kendali penuh atas anggaran dan akurasi tugas. Fitur ini memberikan peningkatan performa yang dibutuhkan tepat saat Sonnet mencapai batas kemampuannya.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video