Lupakan Codex vs Claude Code, Goal Buddy Akhirnya Menyempurnakan Keduanya

AAI LABS
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00ini gary si siput dan dia telah menemukan celah pasar untuk membangun platform kencan bagi siput
00:00:04tapi karena dia sangat lambat, dia ingin claude code menangani tugas jangka panjangnya secara otonom
00:00:09untungnya bagi dia, agen sudah sangat mahir dalam tugas jangka panjang, claude code memiliki
00:00:13perintah goal yang membuat agen terus berjalan sampai tugas selesai, namun selama
00:00:18pengujian kami, kami menemukan banyak masalah dengan perintah goal karena gary baru saja mengalami
00:00:22perceraian dan kami ingin dia bahagia, kami menemukan alat open source ini yang benar-benar memperbaiki masalahnya
00:00:28dan alat ini tidak hanya berfungsi dengan claude code tetapi juga codex, menyebarkan cinta seperti ibumu yang saya
00:00:32yakin sangat mencintaimu sama seperti saudaramu yang bekerja, claude code sebelumnya merilis perintah yang disebut
00:00:38goal yang membuat agen bekerja sampai kondisi tertentu terpenuhi, kami tidak membahas yang satu ini di
00:00:42channel kami tetapi Anda mungkin sudah tahu tentang itu, sebelum ini ada plugin yang disebut ralph wiggum
00:00:47yang mendapatkan banyak daya tarik yang pada dasarnya melakukan hal yang sama, ia menggunakan hook untuk memberikan prompt
00:00:52kembali ke claude code sampai kondisi benar-benar terpenuhi, tapi masalahnya kondisi ini harus
00:00:57cocok secara tepat karena loop ralph menggunakan skrip shell untuk memeriksa kondisi tersebut, persis seperti
00:01:02petugas penjaga bandara yang tidak mengizinkan Anda lewat karena semprotan tubuh maskulin Anda melebihi batas
00:01:06bagasi, perintah goal bekerja secara berbeda, ia mengambil kondisi dan percakapan sejauh ini dan memberikannya
00:01:11ke model kecil yaitu haiku dan model ini secara cerdas mengevaluasi apakah tugas sudah selesai atau belum
00:01:17ia memberikan keputusan ya atau tidak, dan jawaban tidak memberi tahu claude untuk terus mengulangi tugas yang sama seperti saat bos Anda
00:01:22menyuruh Anda untuk meningkatkan pengalaman pengguna karena dia tidak bisa menemukan tombol di halaman tersebut, jadi ini membuat
00:01:27evaluasi menjadi subjektif dan untuk hal-hal yang tidak bisa kita kuantifikasi sendiri, itu adalah peningkatan nyata
00:01:32perintah goal memang berfungsi dengan baik untuk banyak tugas tetapi masih memiliki banyak masalah, masalah pertama adalah
00:01:37ia tidak menggunakan basis pengetahuan atau sistem file apa pun yang melacak kemajuan tugas dan karena
00:01:42tidak melakukannya, satu-satunya sumber kebenaran bagi agen menjadi konteks obrolan, ini mungkin memicu
00:01:47Anda karena ayah Anda lah yang menulis keberuntungan kripto di catatan tempel yang jatuh dari kulkas pada
00:01:522017, setelah sesi berakhir karena alasan apa pun dan tujuan belum tercapai, Anda pasti bisa melanjutkannya menggunakan
00:01:58perintah resume claude, tujuan tidak akan hilang tetapi satu-satunya cara ia tahu di mana ia berhenti adalah
00:02:03konteks obrolan dan karena perintah ini ditujukan untuk tugas jangka panjang bukan tugas sederhana, segalanya bisa menjadi
00:02:08berantakan di antaranya dan tentu saja dengan goal yang berjalan berjam-jam, pembengkakan konteks dan mencapai pemadatan
00:02:13pasti akan menjadi masalah nyata di beberapa titik, setelah pemadatan, output agen menjadi lebih buruk
00:02:18ia mulai berperilaku seperti nenek saya yang karena demensianya mulai melupakan nama channel ini,
00:02:22saya butuh kalian menonton video terakhir untuknya, masalah lain adalah tidak
00:02:27memecah tugas menjadi tugas yang lebih kecil, sebaliknya ia hanya menggunakan agen utama dan melakukan pemecahan tugas
00:02:32sendiri seperti yang biasanya dilakukan claude code, jadi tidak ada rencana terstruktur dan agen mungkin kehilangan jejak
00:02:37tentang apa yang tersisa untuk dilakukan dan meskipun ini mungkin bekerja dengan baik untuk beberapa kasus, definisi yang tidak jelas
00:02:42tentang seperti apa hasil akhirnya bagi agen bukanlah hal yang benar, goal sepenuhnya mengandalkan
00:02:47model untuk mengevaluasi penyelesaian, jadi mungkin tidak seefektif dalam beberapa kasus, ini lebih baik daripada
00:02:52ralph wiggum yang benar-benar ketat dengan menggunakan skrip, tapi setidaknya harus ada metrik
00:02:56yang memberi tahu agen seperti apa hasil akhirnya, persis seperti fotografer pernikahan Anda yang terus berkata
00:03:01satu jepretan lagi sampai seluruh acara selesai, jadi di sinilah tujuan gagal dan hal-hal ini
00:03:05mungkin tidak terlihat banyak tetapi ketika dimasukkan ke dalam alur kerja yang berat, mereka dapat membawa beberapa masalah serius
00:03:10sekarang goal buddy adalah alat yang dibuat dengan satu tujuan untuk membuat perintah goal benar-benar berfungsi
00:03:16sebagaimana mestinya, ia menyelesaikan semua masalah yang baru saja kita bicarakan, tetapi tidak benar-benar mendapatkan perhatian sebanyak
00:03:20yang seharusnya mengingat betapa bergunanya alat ini, itu seperti pengasuh bayi yang seksi, hanya saja alih-alih menggoda
00:03:25Anda, dia hanya mengasuh tugas jangka panjang Anda, goal tidak mempertahankan status pekerjaan
00:03:30secara lokal, jadi alat ini memperbaikinya dan benar-benar memaksa goal untuk membaca dan memperbarui status lokal alih-alih mengandalkan
00:03:36riwayat obrolan dan ia juga selesai dengan bukti sehingga agen benar-benar tahu seperti apa hasil akhirnya sebelum
00:03:42ia mulai, untuk melacak kemajuan ia juga menyertakan dasbor di mana Anda dapat menonton
00:03:46agen Anda bekerja saat ia sedang bekerja dan untuk menangani semua ini ia dibangun di atas tiga agen yaitu
00:03:51scout, worker, dan judge, pada dasarnya tim startup y combinator di mana satu melakukan semua pekerjaan, satu
00:03:56menontonnya bekerja, dan satu menghakimi keduanya di twitter, instalasinya cukup mudah, cukup
00:04:01salin perintah instal dan tempel ke folder proyek Anda, ia akan diinstal sebagai plugin
00:04:06yang tersedia untuk claude code dan codex, setelah Anda memulai sesi baru, Anda dapat melihat perintah
00:04:10yang tersedia untuk digunakan, jadi ketiga agen ini masing-masing memiliki peran dan tingkat akses yang ditentukan secara ketat, karena
00:04:16alat ini dibuat untuk codex juga, agen ditentukan dalam toml alih-alih markdown standar, yang
00:04:21pertama adalah judge yang hanya memiliki akses baca, ia secara skeptis menganalisis keputusan sulit seperti lingkup berisiko,
00:04:26sumber yang kontradiktif, dan pola lainnya untuk memastikan tugas diselesaikan dengan aman, instruksinya
00:04:31melarang pengeditan karena ia ada hanya untuk membuat penilaian, tidak ada yang lain, dan karena
00:04:36tugasnya sangat kritis, penalaran agen ini diatur ke yang tertinggi sehingga keputusan dibuat dengan benar,
00:04:42persis seperti saat Anda menyusun satu pesan teks untuk gebetan Anda selama empat jam di
00:04:47tengah malam, setelah selesai bekerja, ia mengembalikan struktur json dengan keputusan yang disetujui dan
00:04:52ditolak beserta rasionya, scout adalah agen lain yang hanya membaca yang memetakan tugas aktif
00:04:57dan membuat tanda terima bukti ringkas untuknya, karena tugasnya hanya memeriksa status tugas
00:05:02upaya penalarannya dijaga tetap rendah seperti bouncer klub malam favorit Anda, ia tidak benar-benar peduli
00:05:07banyak, dan kemudian ada agen worker, satu-satunya yang memiliki akses edit, ia melakukan pekerjaan yang sebenarnya dan
00:05:12hanya diizinkan menjalankan satu tugas dalam satu waktu, ada juga peran pm yang merupakan thread utama yang
00:05:17mengoordinasikan alur kerja, ia berperilaku seperti manajer proyek sungguhan yang melakukan pekerjaan minimal,
00:05:22ia adalah satu-satunya otoritas yang benar-benar dapat menandai tugas sebagai selesai, alur kerja inti dimulai dengan menyatakan
00:05:27tujuan tugas dengan kata-kata yang tepat, tidak secara samar seperti cara kita homo sapiens biasanya lakukan, tetapi dengan cara yang dapat
00:05:33dipahami oleh agen dengan benar, dan kemudian oracle ditentukan, oracle pada dasarnya adalah sinyal yang dapat diamati
00:05:38yang mengidentifikasi hasil, itu adalah apa yang diiterasi sistem untuk melihat apakah tugas dapat
00:05:43ditandai selesai atau tidak, bisa apa saja, suite pengujian, peramban, tolok ukur artefak apa pun, atau kode
00:05:49yang mengubah microwave saya menjadi mesin waktu karena kenapa tidak, agen ai sedang melakukan apa saja saat ini,
00:05:54langkah selanjutnya adalah surface, ia memecah tugas menjadi langkah-langkah yang dapat ditindaklanjuti, membuat dasbor, dan memetakan
00:06:00tugas ke dalam format visual, bagian terakhir adalah pm, dia adalah manajer dalam hal ini dan menjaga tujuan berjalan
00:06:06sampai audit akhir menandai tujuan terpenuhi, untuk menggunakan goal buddy Anda cukup jalankan perintah goal prep
00:06:11ini adalah perintah yang menginisialisasi alur kerja dan Anda menentukan tujuan yang ingin dicapainya,
00:06:16ia pertama kali memastikan agen diinstal dan siap digunakan, ia kemudian memulai alur kerja tetapi tidak seperti
00:06:21perintah goal asli, ia sangat sadar diri dan pertama-tama menghilangkan ambiguitasnya sendiri dengan menanyakan
00:06:27Anda pertanyaan sehingga Anda dapat dengan jelas menentukan implementasi, dan seperti istri Anda yang curiga,
00:06:32ia akan terus bertanya sampai ia memahami langkah pertama, ia berfokus untuk membuat file tujuan, ia menempatkan
00:06:38permintaan asli bersama dengan jawaban kita dan kemudian memetakannya ke tujuan yang tepat dalam bahasa yang
00:06:43bahasa yang dimengerti agen, berisi ringkasan semua informasi, lalu menentukan oracle
00:06:48yang merupakan bagian terpenting, oracle untuk tugas ini mudah, semua pengujian harus lulus dengan
00:06:53perilaku yang tepat, tujuan semacam ini spesifik karena dapat dievaluasi secara
00:06:57terprogram tidak seperti cerita karangan Anda semalam yang tidak dipercayai istri Anda, goal buddy memecah seluruh alur kerja
00:07:03menjadi tugas kecil yang bisa dilakukan, ini disebut irisan tetapi tidak seperti dunia nyata, ukuran tidak masalah di sini
00:07:08karena irisan kecil bukan berarti tugas kecil, itu berarti sesuatu yang aman, dapat diverifikasi dengan mudah,
00:07:14dan dapat dijalankan secara individual, ia secara eksplisit menentukan ukuran irisan aman di dokumen juga, ia membuat
00:07:19state.yaml yang melacak proyek dan tugas serta menentukan seperti apa tampilan loop pm, state.yaml terdiri dari
00:07:26semua tujuan dan aturan dengan semua tugas yang dipecah berdasarkan id-nya dan agen yang ditugaskan, ia berisi
00:07:31bidang untuk melacak tugas aktif juga, ia juga menyebutkan dasbor tertaut, ia mencantumkan semua tugas to-do
00:07:36dan tugas yang sedang berlangsung, dalam kasus kami, agen scout saat ini sedang berlangsung dan sedang memetakan semua
00:07:42file dan endpoint, jadi untuk memulai loop Anda cukup salin perintah ini dan jalankan, ia menginstruksikan claude untuk
00:07:47menetapkan tujuan melakukan semuanya di file goal.md, dari sana ia akan mengambil tugas aktif pertama
00:07:52seperti raja dan kemudian memanggil agen bawahannya untuk melakukannya, setelah scout menyelesaikan
00:07:58pekerjaan, ia memperbarui file kemajuan dengan semua temuannya dan mendokumentasikannya di direktori terpisah,
00:08:03ia juga memperbarui papan dari aktif menjadi selesai, kemudian loop mengambil tugas berikutnya, menandainya sebagai
00:08:08aktif dan memulai agen judge, judge secara kritis meninjau temuan dan mengurutkan laporan
00:08:13menjadi sesedikit mungkin irisan vertikal, yang merupakan pemecahan tugas bagi worker untuk dilakukan
00:08:18secara mandiri, ia kemudian memperbarui jumlah irisan dan memperbarui file status, setiap tugas
00:08:22secara eksplisit mencantumkan file yang diizinkan, cara memverifikasinya, dan kapan harus berhenti, inilah cara ia menentukan setiap irisan
00:08:28sehingga agen memiliki output yang diharapkan, pemeriksaan, dan semua detail yang diperlukan, kemudian satu per satu
00:08:33menginisialisasi agen worker dan dimulai dengan irisan pertama, kemajuan setiap agen dapat dilacak
00:08:39menggunakan dasbor, Anda akan tahu apa yang dilakukan setiap tugas, agen mana yang aktif, tugas apa yang antre, dan
00:08:44mana yang selesai, jadi Anda tidak perlu memantau sendiri dan benar-benar dapat memberikan anak-anak Anda
00:08:48waktu yang mereka butuhkan, setelah semua tugas selesai, ia melakukan audit terakhir sebagai pm
00:08:53memastikan bahwa semua tes telah dilakukan dengan benar, setelah audit selesai, ia menandai audit akhir judge
00:08:58sebagai selesai dan kemudian menandai tujuan sebagai selesai, setelah ini Anda harus mulai
00:09:03berdoa dan berharap bahwa agen-agen itu tidak berhalusinasi, secara keseluruhan ini bekerja sangat baik mengingat
00:09:09kompleksitas dan skala aplikasi yang kita berikan, tetapi kami pikir paralelisasi yang lebih efektif bisa
00:09:13ditambahkan karena ia melakukan semuanya secara berurutan, ia menangani satu tugas dalam satu waktu dan tidak menggunakan
00:09:18kemampuan paralelisasi claude code sama sekali, dario akan benar-benar kecewa melihat ini
00:09:23tapi mengingat seberapa baik ia merencanakan alur kerja, itu bekerja cukup baik, juga jika Anda menikmati konten kami
00:09:28pertimbangkan untuk menekan tombol hype karena itu membantu kami membuat lebih banyak konten seperti ini dan menjangkau lebih banyak
00:09:33orang, kami juga ingin menguji goalbuddy pada sesuatu yang lebih umum seperti merancang ui untuk melihat bagaimana ia
00:09:38menangani tugas yang tidak dapat dievaluasi secara terprogram, pengujian sebelumnya dilakukan pada alur kerja tertentu dengan
00:09:44kriteria lulus dan gagal yang jelas tetapi sama seperti Anda mendapatkan potongan rambut baru dari tukang cukur Anda, beberapa tugas
00:09:49hanya tidak memilikinya, jadi kami pertama kali memberi perintah goal biasa dengan prompt yang samar, ia menginisialisasi tujuan
00:09:54tugas berkonsultasi dengan penasihat dan memberikan situs web dalam waktu singkat, karena malas ia hanya membuat halaman html sederhana
00:10:00dan tidak menggunakan framework apa pun, tetapi halaman landing tidak terlihat buruk, jadi kami memberikan prompt yang persis sama ke
00:10:05goal buddy juga, setelah dimulai ia mengikuti alur kerja yang sama dan memberikan sesi tanya jawab serupa
00:10:10untuk mengklarifikasi niat dengan kita, di sini goal buddy sebenarnya menanyakan tumpukan teknologi juga, biasanya
00:10:14saya akan menyebut ini berlebihan tapi karena saya menanggapi agen ai saya dengan serius, saya akan menyebutnya bersikap teliti, sama halnya ia
00:10:20membuat papan dan file goal.md dan menerjemahkan permintaan asli kita ke tujuan yang tepat, ia juga
00:10:26mengidentifikasi oracle dengan benar, tetapi oracle dalam tugas sebelumnya mudah, ia hanya perlu lulus semua
00:10:31tes, yang satu ini memiliki tujuan yang berbeda, ia menentukan tugas selesai saat server pengembangan aktif dan
00:10:36penelusuran peramban mengonfirmasi semua bagian berfungsi seperti yang ditentukan, inilah cara ia mengubah
00:10:41tugas yang tidak dapat diukur menjadi sesuatu yang dapat diukur, ia juga membuat state.yaml lagi dengan oracle
00:10:47aturan, agen, dan semua tugas terdaftar dan kemudian mulai bekerja dengan cara yang sama, ia butuh waktu lebih lama
00:10:52daripada perintah goal normal tetapi ia akhirnya mengimplementasikan aplikasi dengan benar, ini tidak akan menjadi
00:10:57masalah bagi gary si siput tetapi Anda harus melakukan push-up sementara itu, saya bisa melihat Anda sudah menjadi gemuk,
00:11:02secara komparatif seluruh situs web berkinerja jauh lebih baik daripada apa yang dibuat perintah goal sederhana
00:11:07jika Anda benar-benar ingin menjadi pendiri ai b2b sas yang suka membangun daripada hanya menonton tutorial
00:11:12maka Anda harus menjadi ai labs pro, Anda akan mendapatkan orang-orang berpikiran sama seperti tim kami di sana dengan
00:11:17sumber daya dari video dan banyak hal baik lainnya juga, tautannya ada di deskripsi dan
00:11:22Anda bisa memeriksanya, itu membawa kita ke akhir video ini, jika Anda ingin mendukung channel
00:11:27dan membantu kami terus membuat video seperti ini, Anda bisa melakukannya dengan menggunakan tombol super thanks di bawah, seperti biasa
00:11:32terima kasih telah menonton dan saya akan melihat Anda di video berikutnya

Key Takeaway

Goal Buddy meningkatkan efektivitas agen otonom jangka panjang dengan menggantikan ketergantungan pada riwayat obrolan menggunakan sistem status lokal, manajemen multi-agen, dan verifikasi berbasis oracle.

Highlights

  • Goal Buddy memperbaiki keterbatasan perintah goal bawaan Claude Code dengan menerapkan pelacakan status lokal melalui file state.yaml.

  • Alat ini menggunakan struktur tiga agen yaitu scout, worker, dan judge untuk melakukan manajemen tugas yang terstruktur.

  • Goal Buddy mengintegrasikan model kecil, Haiku, untuk mengevaluasi secara cerdas apakah suatu tugas telah selesai berdasarkan oracle yang terdefinisi.

  • Pemasangan Goal Buddy dilakukan sebagai plugin melalui perintah instalasi yang kompatibel dengan Claude Code dan Codex.

  • Penggunaan oracle yang spesifik memungkinkan agen untuk mengubah tugas yang tidak terukur menjadi hasil yang dapat diverifikasi secara terprogram.

  • Struktur kerja Goal Buddy memecah proyek besar menjadi tugas-tugas kecil yang disebut irisan untuk meningkatkan keamanan dan kemudahan verifikasi.

Timeline

Keterbatasan Perintah Goal Bawaan

  • Perintah goal standar mengandalkan riwayat obrolan sebagai satu-satunya sumber kebenaran untuk melacak kemajuan tugas.
  • Ketiadaan basis pengetahuan atau sistem file lokal menyebabkan pembengkakan konteks selama eksekusi tugas jangka panjang.
  • Evaluasi penyelesaian tugas sepenuhnya bergantung pada model, yang berisiko menciptakan ambiguitas dalam hasil akhir.

Perintah goal bawaan sering mengalami masalah karena tidak menyimpan status pekerjaan secara lokal. Saat sesi berakhir, agen kehilangan jejak progres kecuali melalui konteks obrolan yang terbatas. Hal ini menyebabkan penurunan kualitas output seiring bertambahnya durasi tugas akibat pembengkakan konteks.

Mekanisme Kerja Goal Buddy

  • Goal Buddy mengimplementasikan file state.yaml untuk memelihara status pekerjaan dan melacak progres secara lokal.
  • Sistem ini menggunakan tiga peran agen spesifik: scout untuk pemetaan, worker untuk eksekusi, dan judge untuk evaluasi kritis.
  • Peran manajer proyek (PM) bertindak sebagai thread utama yang mengoordinasikan alur kerja hingga audit akhir terpenuhi.

Alat ini dirancang untuk mengatasi masalah status dengan memaksa goal membaca dan memperbarui status lokal. Agen judge dengan akses baca saja memastikan keamanan tugas dengan penalaran tingkat tinggi dan output format JSON. PM bertindak sebagai otoritas utama yang memastikan setiap langkah terverifikasi sebelum menandai tugas sebagai selesai.

Implementasi dan Verifikasi Tugas

  • Inisialisasi alur kerja dimulai dengan perintah goal prep yang menghilangkan ambiguitas melalui sesi tanya jawab.
  • Oracle didefinisikan sebagai sinyal terukur yang menjadi metrik penyelesaian tugas bagi agen.
  • Tugas dipecah menjadi irisan yang aman dan dapat diverifikasi secara individual untuk menghindari kegagalan pada alur kerja berat.

Proses dimulai dengan menentukan oracle, yaitu kondisi yang dapat diamati untuk menandai penyelesaian tugas. Setelah itu, alur kerja dipecah menjadi tugas-tugas kecil. Semua progres, termasuk tugas aktif dan selesai, dapat dipantau melalui dasbor yang disertakan tanpa perlu pengawasan manual terus-menerus.

Pengujian pada Kasus Umum

  • Pengujian pada perancangan UI menunjukkan kemampuan Goal Buddy dalam mengubah tugas abstrak menjadi tugas terukur.
  • Alur kerja Goal Buddy membutuhkan waktu eksekusi yang lebih lama dibandingkan perintah goal standar karena proses verifikasi yang lebih ketat.
  • Hasil akhir aplikasi menunjukkan performa yang lebih baik secara fungsional dibandingkan implementasi yang dihasilkan oleh perintah goal sederhana.

Saat diuji pada tugas perancangan UI, Goal Buddy secara proaktif menanyakan teknologi yang digunakan dan menetapkan kondisi keberhasilan (seperti server pengembangan aktif). Meskipun lebih lambat, pendekatan teliti ini menghasilkan implementasi aplikasi yang lebih terstruktur dan berkinerja tinggi dibanding cara otomatisasi konvensional.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video