AI Agent Itu Acak… Perbaikan Ini Membuatnya Deterministik (Archon)
BBetter Stack
컴퓨터/소프트웨어창업/스타트업가전제품/카메라AI/미래기술
Transcript
00:00:00Agen AI semakin hebat, tapi mereka masih kacau.
00:00:04Kita beri mereka tugas yang sama, tapi hasilnya kode yang jauh berbeda, kualitas berbeda, dan
00:00:09bahkan keputusan yang berbeda setiap saat.
00:00:12Itulah realita bekerja dengan agen.
00:00:15Ternyata tidak harus seperti itu.
00:00:17Ini adalah Archon, dan ia kini bisa menjalankan banyak agen secara paralel tanpa konflik merge
00:00:22dan hasil yang konsisten.
00:00:24Saya akan tunjukkan cara mengaturnya dan cara kerjanya dalam beberapa menit ke depan.
00:00:30Saat menggunakan Claude code, Cursor, atau Codex, kita tahu hasil pertamanya terlihat bagus.
00:00:39Tapi hasil kedua bisa jadi rencana yang sama sekali berbeda.
00:00:42Konteks bisa melenceng.
00:00:44Agen berubah arah di tengah jalan.
00:00:47Lalu Anda mencoba menskalakannya.
00:00:49Dua agen, mungkin tiga agen, empat agen.
00:00:51Sekarang repo Anda benar-benar berantakan.
00:00:54Dan inilah masalah sebenarnya.
00:00:55Anda tidak benar-benar menghemat waktu lagi.
00:00:57Anda menjalankan ulang prompt.
00:00:58Anda memperbaiki kode yang rusak, berharap kali ini tidak hancur semua.
00:01:02Dan jika Anda sedang membangun sesuatu, ini benar-benar mematikan kecepatan kita.
00:01:06Archon memperbaikinya dengan sesuatu yang disebut harness engineering.
00:01:10Alih-alih berharap agen berperilaku baik, Anda benar-benar menentukan prosesnya.
00:01:14Perencanaan, pengkodean, pengujian, peninjauan, semuanya dalam YAML.
00:01:18Dalam skill agen, ada paket instruksi yang dapat digunakan kembali yang dimuat secara otomatis.
00:01:23Jadi alih-alih menebak apa yang harus dilakukan, agen Anda mengikuti sebuah sistem.
00:01:28Jika Anda menyukai alat coding yang mempercepat alur kerja, pastikan untuk subscribe.
00:01:32Kami punya video baru setiap saat.
00:01:34Baiklah, sekarang biarkan saya tunjukkan.
00:01:36Ini berjalan secara lokal di M4 Pro saya, tanpa cloud.
00:01:40Saya bisa memasukkan archonserv.
00:01:43Itu memunculkan antarmuka UI ini.
00:01:45Saya akan menginstal skill archon ke dalam repo ini dengan Claude.
00:01:49Sekarang saya jalankan alur kerja sederhana untuk memperbaiki masalah ini.
00:01:54Perhatikan bagian ini sekarang.
00:01:55Agen menemukan skill itu sendiri, memuat alur kerja, dan mengeksekusi langkah demi langkah.
00:02:02Anda bisa melihatnya di sini di terminal atau di sini pada UI.
00:02:04Ini terlihat jauh lebih baik.
00:02:05Tidak ada penyesuaian prompt di sini.
00:02:07Bahkan saat gagal, Anda mendapatkan transparansi penuh di dalam UI.
00:02:11Anda bisa melihat langkah mana yang rusak dan memperbaiki alur kerjanya.
00:02:15Ini jauh lebih baik daripada kode Claude mentah di mana Anda hanya bingung dengan riwayat chat.
00:02:20Bagian ini adalah kuncinya.
00:02:21Ia juga berjalan di work tree Git-nya sendiri, jadi tidak pernah menyentuh main.
00:02:26Proses prompt sedang berjalan dan Anda bisa lihat di sini ia menghasilkannya.
00:02:29Sudah selesai, PR bersih, struktur yang sama, hasil yang sama.
00:02:33Kita bisa melihat log, proses yang dilalui prompt, dan seluruh outputnya.
00:02:38Seperti inilah konsistensi itu terlihat.
00:02:40Jadi apa sebenarnya yang berubah di sini?
00:02:42Nah, tiga hal telah berubah dengan menggunakan Archon.
00:02:45Pertama, alur kerjanya.
00:02:47Archon menggunakan DAG YAML.
00:02:50Anggap saja seperti daftar periksa yang harus diikuti oleh agen.
00:02:53Beberapa langkah menggunakan AI, tentu.
00:02:56Beberapa langkah sudah tetap.
00:02:58Campuran itulah yang membuatnya lebih andal.
00:03:00Lalu kita punya isolasi.
00:03:01Setiap eksekusi terjadi di work tree Git terpisah, jadi agen tidak bisa saling menindih.
00:03:06Itulah mengapa tidak ada konflik merge.
00:03:08Dalam skill, alih-alih menjejali prompt setiap saat, agen memuat konteks secara otomatis.
00:03:14Jadi dibandingkan dengan agen mentah, Anda menghilangkan semua keacakan ini.
00:03:19Dibandingkan dengan alat seperti, katakanlah, LangChain untuk hal ini.
00:03:22LangChain memang bagus, tapi Archon dibuat untuk kode, bukan bot umum.
00:03:27Dan dibandingkan dengan skrip, ini bisa digunakan kembali.
00:03:30Ini berversi.
00:03:31Ini mudah ditemukan.
00:03:32Agen tidak menebak-nebak lagi.
00:03:34Kita punya seluruh alur kerja yang dilaluinya.
00:03:36Ia mengikuti sistem yang nyata ini.
00:03:38Sekarang kita bisa jalankan banyak agen sekaligus tanpa khawatir merusak repo.
00:03:42Anda bisa menghasilkan PR yang terlihat sama setiap saat.
00:03:45Dan yang terpenting, Anda berhenti kehilangan pengetahuan dalam riwayat chat.
00:03:49Proses Anda hidup dalam alur kerja sekarang, yang berarti setiap eksekusi jadi lebih konsisten menggunakan
00:03:55ini.
00:03:56Dengan ini, PR bersih, hasil lebih bisa diprediksi.
00:03:58Input yang sama, output yang sama.
00:04:00Itulah bagian yang selama ini hilang dari para agen.
00:04:02Sekarang ini memang tidak sempurna, kan?
00:04:04Tapi apa yang bagus?
00:04:05Baiklah, ini open source, berjalan lancar secara lokal, terutama di chip seri M, kan?
00:04:10Ada beberapa yang memerlukan konfigurasi VPS.
00:04:13Saya tidak membutuhkannya di sini.
00:04:14YAML membuat segalanya terlihat jelas.
00:04:16Kemenangan besar bagi kita dan work tree Git menyelesaikan masalah nyata.
00:04:19Tapi sekali lagi, ini juga berarti beberapa hal.
00:04:21Anda harus berpikir di awal.
00:04:23Merancang alur kerja akan membutuhkan sedikit usaha dan ini masih berkembang, kan?
00:04:28Hal-hal akan berubah.
00:04:29Mereka akan berevolusi, tapi mereka terus bertumbuh.
00:04:31Dan jika Anda hanya melakukan prompt cepat, Anda mungkin tidak butuh ini.
00:04:34Sejujurnya ini hanya akan membuang-buang waktu.
00:04:36Juga, modelnya tetap berpengaruh.
00:04:38Jadi model yang lebih baik jelas akan memberi kita output yang lebih baik.
00:04:42Jika Anda lelah memperbaiki kesalahan agen, ini patut dicoba.
00:04:46Jika Anda menginginkan sesuatu yang benar-benar bisa diandalkan tanpa harus meragu,
00:04:50ini juga sangat layak.
00:04:52Jika Anda baru bereksperimen, maksud saya, ya, saya pun baru bereksperimen untuk ini.
00:04:55Saya buat tetap sederhana.
00:04:56Ini berfungsi dengan baik.
00:04:57Saya harus melihat tentang apa semua ini.
00:04:58Tapi jika Anda serius membangun dengan agen, ini adalah salah satu alat dengan leverage tertinggi
00:05:02yang pernah saya temui saat ini.
00:05:04Inilah yang mengubah agen dari sekadar demo yang kita gunakan menjadi sesuatu yang bisa
00:05:08kita luncurkan dengan lebih andal, dengan memasukkannya ke dalam alur kerja kita.
00:05:13Caranya cukup sederhana.
00:05:14Sebelumnya Anda hanya berharap agen melakukan hal yang benar, kan?
00:05:16Namanya juga agen.
00:05:17Sekarang kita menentukan cara kerjanya.
00:05:20Itulah klaim mereka atau itulah yang dimaksud dengan harness engineering ini.
00:05:23Jika Anda menyukai alat coding dan tips seperti ini, pastikan untuk subscribe ke channel Better Stack.
00:05:27Sampai jumpa di video lainnya.