AI Agent Itu Acak… Perbaikan Ini Membuatnya Deterministik (Archon)

BBetter Stack
Computing/SoftwareSmall Business/StartupsConsumer ElectronicsInternet Technology

Transcript

00:00:00Agen AI semakin hebat, tapi mereka masih kacau.
00:00:04Kita beri mereka tugas yang sama, tapi hasilnya kode yang jauh berbeda, kualitas berbeda, dan
00:00:09bahkan keputusan yang berbeda setiap saat.
00:00:12Itulah realita bekerja dengan agen.
00:00:15Ternyata tidak harus seperti itu.
00:00:17Ini adalah Archon, dan ia kini bisa menjalankan banyak agen secara paralel tanpa konflik merge
00:00:22dan hasil yang konsisten.
00:00:24Saya akan tunjukkan cara mengaturnya dan cara kerjanya dalam beberapa menit ke depan.
00:00:30Saat menggunakan Claude code, Cursor, atau Codex, kita tahu hasil pertamanya terlihat bagus.
00:00:39Tapi hasil kedua bisa jadi rencana yang sama sekali berbeda.
00:00:42Konteks bisa melenceng.
00:00:44Agen berubah arah di tengah jalan.
00:00:47Lalu Anda mencoba menskalakannya.
00:00:49Dua agen, mungkin tiga agen, empat agen.
00:00:51Sekarang repo Anda benar-benar berantakan.
00:00:54Dan inilah masalah sebenarnya.
00:00:55Anda tidak benar-benar menghemat waktu lagi.
00:00:57Anda menjalankan ulang prompt.
00:00:58Anda memperbaiki kode yang rusak, berharap kali ini tidak hancur semua.
00:01:02Dan jika Anda sedang membangun sesuatu, ini benar-benar mematikan kecepatan kita.
00:01:06Archon memperbaikinya dengan sesuatu yang disebut harness engineering.
00:01:10Alih-alih berharap agen berperilaku baik, Anda benar-benar menentukan prosesnya.
00:01:14Perencanaan, pengkodean, pengujian, peninjauan, semuanya dalam YAML.
00:01:18Dalam skill agen, ada paket instruksi yang dapat digunakan kembali yang dimuat secara otomatis.
00:01:23Jadi alih-alih menebak apa yang harus dilakukan, agen Anda mengikuti sebuah sistem.
00:01:28Jika Anda menyukai alat coding yang mempercepat alur kerja, pastikan untuk subscribe.
00:01:32Kami punya video baru setiap saat.
00:01:34Baiklah, sekarang biarkan saya tunjukkan.
00:01:36Ini berjalan secara lokal di M4 Pro saya, tanpa cloud.
00:01:40Saya bisa memasukkan archonserv.
00:01:43Itu memunculkan antarmuka UI ini.
00:01:45Saya akan menginstal skill archon ke dalam repo ini dengan Claude.
00:01:49Sekarang saya jalankan alur kerja sederhana untuk memperbaiki masalah ini.
00:01:54Perhatikan bagian ini sekarang.
00:01:55Agen menemukan skill itu sendiri, memuat alur kerja, dan mengeksekusi langkah demi langkah.
00:02:02Anda bisa melihatnya di sini di terminal atau di sini pada UI.
00:02:04Ini terlihat jauh lebih baik.
00:02:05Tidak ada penyesuaian prompt di sini.
00:02:07Bahkan saat gagal, Anda mendapatkan transparansi penuh di dalam UI.
00:02:11Anda bisa melihat langkah mana yang rusak dan memperbaiki alur kerjanya.
00:02:15Ini jauh lebih baik daripada kode Claude mentah di mana Anda hanya bingung dengan riwayat chat.
00:02:20Bagian ini adalah kuncinya.
00:02:21Ia juga berjalan di work tree Git-nya sendiri, jadi tidak pernah menyentuh main.
00:02:26Proses prompt sedang berjalan dan Anda bisa lihat di sini ia menghasilkannya.
00:02:29Sudah selesai, PR bersih, struktur yang sama, hasil yang sama.
00:02:33Kita bisa melihat log, proses yang dilalui prompt, dan seluruh outputnya.
00:02:38Seperti inilah konsistensi itu terlihat.
00:02:40Jadi apa sebenarnya yang berubah di sini?
00:02:42Nah, tiga hal telah berubah dengan menggunakan Archon.
00:02:45Pertama, alur kerjanya.
00:02:47Archon menggunakan DAG YAML.
00:02:50Anggap saja seperti daftar periksa yang harus diikuti oleh agen.
00:02:53Beberapa langkah menggunakan AI, tentu.
00:02:56Beberapa langkah sudah tetap.
00:02:58Campuran itulah yang membuatnya lebih andal.
00:03:00Lalu kita punya isolasi.
00:03:01Setiap eksekusi terjadi di work tree Git terpisah, jadi agen tidak bisa saling menindih.
00:03:06Itulah mengapa tidak ada konflik merge.
00:03:08Dalam skill, alih-alih menjejali prompt setiap saat, agen memuat konteks secara otomatis.
00:03:14Jadi dibandingkan dengan agen mentah, Anda menghilangkan semua keacakan ini.
00:03:19Dibandingkan dengan alat seperti, katakanlah, LangChain untuk hal ini.
00:03:22LangChain memang bagus, tapi Archon dibuat untuk kode, bukan bot umum.
00:03:27Dan dibandingkan dengan skrip, ini bisa digunakan kembali.
00:03:30Ini berversi.
00:03:31Ini mudah ditemukan.
00:03:32Agen tidak menebak-nebak lagi.
00:03:34Kita punya seluruh alur kerja yang dilaluinya.
00:03:36Ia mengikuti sistem yang nyata ini.
00:03:38Sekarang kita bisa jalankan banyak agen sekaligus tanpa khawatir merusak repo.
00:03:42Anda bisa menghasilkan PR yang terlihat sama setiap saat.
00:03:45Dan yang terpenting, Anda berhenti kehilangan pengetahuan dalam riwayat chat.
00:03:49Proses Anda hidup dalam alur kerja sekarang, yang berarti setiap eksekusi jadi lebih konsisten menggunakan
00:03:55ini.
00:03:56Dengan ini, PR bersih, hasil lebih bisa diprediksi.
00:03:58Input yang sama, output yang sama.
00:04:00Itulah bagian yang selama ini hilang dari para agen.
00:04:02Sekarang ini memang tidak sempurna, kan?
00:04:04Tapi apa yang bagus?
00:04:05Baiklah, ini open source, berjalan lancar secara lokal, terutama di chip seri M, kan?
00:04:10Ada beberapa yang memerlukan konfigurasi VPS.
00:04:13Saya tidak membutuhkannya di sini.
00:04:14YAML membuat segalanya terlihat jelas.
00:04:16Kemenangan besar bagi kita dan work tree Git menyelesaikan masalah nyata.
00:04:19Tapi sekali lagi, ini juga berarti beberapa hal.
00:04:21Anda harus berpikir di awal.
00:04:23Merancang alur kerja akan membutuhkan sedikit usaha dan ini masih berkembang, kan?
00:04:28Hal-hal akan berubah.
00:04:29Mereka akan berevolusi, tapi mereka terus bertumbuh.
00:04:31Dan jika Anda hanya melakukan prompt cepat, Anda mungkin tidak butuh ini.
00:04:34Sejujurnya ini hanya akan membuang-buang waktu.
00:04:36Juga, modelnya tetap berpengaruh.
00:04:38Jadi model yang lebih baik jelas akan memberi kita output yang lebih baik.
00:04:42Jika Anda lelah memperbaiki kesalahan agen, ini patut dicoba.
00:04:46Jika Anda menginginkan sesuatu yang benar-benar bisa diandalkan tanpa harus meragu,
00:04:50ini juga sangat layak.
00:04:52Jika Anda baru bereksperimen, maksud saya, ya, saya pun baru bereksperimen untuk ini.
00:04:55Saya buat tetap sederhana.
00:04:56Ini berfungsi dengan baik.
00:04:57Saya harus melihat tentang apa semua ini.
00:04:58Tapi jika Anda serius membangun dengan agen, ini adalah salah satu alat dengan leverage tertinggi
00:05:02yang pernah saya temui saat ini.
00:05:04Inilah yang mengubah agen dari sekadar demo yang kita gunakan menjadi sesuatu yang bisa
00:05:08kita luncurkan dengan lebih andal, dengan memasukkannya ke dalam alur kerja kita.
00:05:13Caranya cukup sederhana.
00:05:14Sebelumnya Anda hanya berharap agen melakukan hal yang benar, kan?
00:05:16Namanya juga agen.
00:05:17Sekarang kita menentukan cara kerjanya.
00:05:20Itulah klaim mereka atau itulah yang dimaksud dengan harness engineering ini.
00:05:23Jika Anda menyukai alat coding dan tips seperti ini, pastikan untuk subscribe ke channel Better Stack.
00:05:27Sampai jumpa di video lainnya.

Key Takeaway

Archon menggantikan ketidakpastian respons agen AI dengan sistem harness engineering berbasis YAML dan isolasi Git work tree untuk menghasilkan output kode yang identik pada setiap eksekusi.

Highlights

  • Archon mengubah agen AI yang tidak konsisten menjadi deterministik melalui pendekatan harness engineering dengan proses yang didefinisikan dalam format YAML.

  • Sistem ini menjalankan setiap eksekusi pada work tree Git yang terpisah untuk mencegah konflik merge saat beberapa agen bekerja secara paralel.

  • Penggunaan Directed Acyclic Graph (DAG) dalam YAML menggabungkan langkah-langkah AI dengan instruksi tetap untuk memastikan urutan kerja yang kaku.

  • Archon berjalan sepenuhnya secara lokal pada perangkat keras seperti chip seri M Apple tanpa memerlukan ketergantungan pada layanan cloud atau konfigurasi VPS.

  • Agen secara otomatis memuat paket instruksi atau skill yang dapat digunakan kembali untuk menghilangkan tebakan konteks selama proses pengkodean.

Timeline

Masalah Inkonsistensi dan Kegagalan Skala Agen AI

  • Agen AI konvensional sering menghasilkan kode dan keputusan yang berbeda meskipun diberikan tugas yang sama.
  • Konteks instruksi sering melenceng di tengah jalan saat agen mencoba menangani repositori yang kompleks.
  • Penambahan jumlah agen yang bekerja secara bersamaan justru merusak struktur repositori dan membuang waktu untuk perbaikan manual.

Realita bekerja dengan alat seperti Claude Code atau Cursor sering kali melibatkan pengulangan prompt karena hasil kedua tidak pernah sama dengan yang pertama. Masalah ini menjadi hambatan besar dalam kecepatan pengembangan perangkat lunak karena pengguna harus terus-menerus memperbaiki kode yang rusak. Efisiensi waktu hilang saat skala agen ditingkatkan tanpa adanya sistem kontrol yang jelas.

Mekanisme Kerja Harness Engineering dan YAML

  • Harness engineering memaksa agen mengikuti proses perencanaan, pengkodean, pengujian, dan peninjauan yang sudah ditentukan sebelumnya.
  • Integrasi antarmuka UI Archon memberikan transparansi penuh terhadap langkah mana yang mengalami kegagalan dalam alur kerja.
  • Eksekusi pada work tree Git mandiri memastikan hasil akhir berupa Pull Request yang bersih tanpa menyentuh cabang utama secara langsung.

Archon membedakan dirinya dengan memuat paket instruksi yang disebut skill secara otomatis ke dalam repositori. Melalui perintah archonserv, pengguna mendapatkan akses ke UI yang melacak log proses dan output dari setiap prompt secara detail. Sistem ini menghilangkan ketergantungan pada riwayat chat yang berantakan dengan memindahkan seluruh logika operasional ke dalam sistem alur kerja yang terstruktur.

Tiga Pilar Konsistensi Archon

  • Struktur DAG YAML berfungsi sebagai daftar periksa tetap yang memadukan kecerdasan AI dengan langkah-langkah prosedural.
  • Isolasi eksekusi mencegah agen saling menindih pekerjaan sehingga konflik merge tidak pernah terjadi.
  • Otomatisasi pemuatan konteks dalam skill menghilangkan keacakan yang biasanya ditemukan pada agen mentah.

Perbedaan utama antara Archon dan alat seperti LangChain terletak pada spesialisasi Archon untuk menangani kode, bukan sekadar bot umum. Dengan menggunakan alur kerja yang berversi dan mudah ditemukan, pengetahuan tidak lagi hilang dalam riwayat percakapan. Hasil yang diprediksi tercapai karena input yang sama akan selalu diproses melalui sistem yang sama untuk menghasilkan output yang identik.

Keuntungan Lokalitas dan Keterbatasan Sistem

  • Archon merupakan perangkat lunak open source yang dioptimalkan untuk berjalan secara lokal pada chip seri M.
  • Perancangan alur kerja awal membutuhkan investasi waktu dan usaha sebelum sistem bisa berjalan secara otomatis.
  • Kualitas output tetap bergantung pada model AI yang digunakan di balik sistem alur kerja tersebut.

Meskipun sangat kuat untuk membangun aplikasi yang serius, Archon dianggap berlebihan jika hanya digunakan untuk pemberian perintah (prompting) cepat yang sederhana. Pengguna harus merancang strategi alur kerja di awal untuk mendapatkan manfaat leverage tertinggi. Alat ini mengubah status agen AI dari sekadar demo eksperimental menjadi solusi produksi yang dapat diandalkan dalam siklus pengembangan profesional.

Community Posts

View all posts