Lupakan Codex vs Claude Code, Goal Buddy Akhirnya Menyempurnakan Keduanya
AAI LABS
컴퓨터/소프트웨어창업/스타트업AI/미래기술
Transcript
00:00:00ini gary si siput dan dia telah menemukan celah pasar untuk membangun platform kencan bagi siput
00:00:04tapi karena dia sangat lambat, dia ingin claude code menangani tugas jangka panjangnya secara otonom
00:00:09untungnya bagi dia, agen sudah sangat mahir dalam tugas jangka panjang, claude code memiliki
00:00:13perintah goal yang membuat agen terus berjalan sampai tugas selesai, namun selama
00:00:18pengujian kami, kami menemukan banyak masalah dengan perintah goal karena gary baru saja mengalami
00:00:22perceraian dan kami ingin dia bahagia, kami menemukan alat open source ini yang benar-benar memperbaiki masalahnya
00:00:28dan alat ini tidak hanya berfungsi dengan claude code tetapi juga codex, menyebarkan cinta seperti ibumu yang saya
00:00:32yakin sangat mencintaimu sama seperti saudaramu yang bekerja, claude code sebelumnya merilis perintah yang disebut
00:00:38goal yang membuat agen bekerja sampai kondisi tertentu terpenuhi, kami tidak membahas yang satu ini di
00:00:42channel kami tetapi Anda mungkin sudah tahu tentang itu, sebelum ini ada plugin yang disebut ralph wiggum
00:00:47yang mendapatkan banyak daya tarik yang pada dasarnya melakukan hal yang sama, ia menggunakan hook untuk memberikan prompt
00:00:52kembali ke claude code sampai kondisi benar-benar terpenuhi, tapi masalahnya kondisi ini harus
00:00:57cocok secara tepat karena loop ralph menggunakan skrip shell untuk memeriksa kondisi tersebut, persis seperti
00:01:02petugas penjaga bandara yang tidak mengizinkan Anda lewat karena semprotan tubuh maskulin Anda melebihi batas
00:01:06bagasi, perintah goal bekerja secara berbeda, ia mengambil kondisi dan percakapan sejauh ini dan memberikannya
00:01:11ke model kecil yaitu haiku dan model ini secara cerdas mengevaluasi apakah tugas sudah selesai atau belum
00:01:17ia memberikan keputusan ya atau tidak, dan jawaban tidak memberi tahu claude untuk terus mengulangi tugas yang sama seperti saat bos Anda
00:01:22menyuruh Anda untuk meningkatkan pengalaman pengguna karena dia tidak bisa menemukan tombol di halaman tersebut, jadi ini membuat
00:01:27evaluasi menjadi subjektif dan untuk hal-hal yang tidak bisa kita kuantifikasi sendiri, itu adalah peningkatan nyata
00:01:32perintah goal memang berfungsi dengan baik untuk banyak tugas tetapi masih memiliki banyak masalah, masalah pertama adalah
00:01:37ia tidak menggunakan basis pengetahuan atau sistem file apa pun yang melacak kemajuan tugas dan karena
00:01:42tidak melakukannya, satu-satunya sumber kebenaran bagi agen menjadi konteks obrolan, ini mungkin memicu
00:01:47Anda karena ayah Anda lah yang menulis keberuntungan kripto di catatan tempel yang jatuh dari kulkas pada
00:01:522017, setelah sesi berakhir karena alasan apa pun dan tujuan belum tercapai, Anda pasti bisa melanjutkannya menggunakan
00:01:58perintah resume claude, tujuan tidak akan hilang tetapi satu-satunya cara ia tahu di mana ia berhenti adalah
00:02:03konteks obrolan dan karena perintah ini ditujukan untuk tugas jangka panjang bukan tugas sederhana, segalanya bisa menjadi
00:02:08berantakan di antaranya dan tentu saja dengan goal yang berjalan berjam-jam, pembengkakan konteks dan mencapai pemadatan
00:02:13pasti akan menjadi masalah nyata di beberapa titik, setelah pemadatan, output agen menjadi lebih buruk
00:02:18ia mulai berperilaku seperti nenek saya yang karena demensianya mulai melupakan nama channel ini,
00:02:22saya butuh kalian menonton video terakhir untuknya, masalah lain adalah tidak
00:02:27memecah tugas menjadi tugas yang lebih kecil, sebaliknya ia hanya menggunakan agen utama dan melakukan pemecahan tugas
00:02:32sendiri seperti yang biasanya dilakukan claude code, jadi tidak ada rencana terstruktur dan agen mungkin kehilangan jejak
00:02:37tentang apa yang tersisa untuk dilakukan dan meskipun ini mungkin bekerja dengan baik untuk beberapa kasus, definisi yang tidak jelas
00:02:42tentang seperti apa hasil akhirnya bagi agen bukanlah hal yang benar, goal sepenuhnya mengandalkan
00:02:47model untuk mengevaluasi penyelesaian, jadi mungkin tidak seefektif dalam beberapa kasus, ini lebih baik daripada
00:02:52ralph wiggum yang benar-benar ketat dengan menggunakan skrip, tapi setidaknya harus ada metrik
00:02:56yang memberi tahu agen seperti apa hasil akhirnya, persis seperti fotografer pernikahan Anda yang terus berkata
00:03:01satu jepretan lagi sampai seluruh acara selesai, jadi di sinilah tujuan gagal dan hal-hal ini
00:03:05mungkin tidak terlihat banyak tetapi ketika dimasukkan ke dalam alur kerja yang berat, mereka dapat membawa beberapa masalah serius
00:03:10sekarang goal buddy adalah alat yang dibuat dengan satu tujuan untuk membuat perintah goal benar-benar berfungsi
00:03:16sebagaimana mestinya, ia menyelesaikan semua masalah yang baru saja kita bicarakan, tetapi tidak benar-benar mendapatkan perhatian sebanyak
00:03:20yang seharusnya mengingat betapa bergunanya alat ini, itu seperti pengasuh bayi yang seksi, hanya saja alih-alih menggoda
00:03:25Anda, dia hanya mengasuh tugas jangka panjang Anda, goal tidak mempertahankan status pekerjaan
00:03:30secara lokal, jadi alat ini memperbaikinya dan benar-benar memaksa goal untuk membaca dan memperbarui status lokal alih-alih mengandalkan
00:03:36riwayat obrolan dan ia juga selesai dengan bukti sehingga agen benar-benar tahu seperti apa hasil akhirnya sebelum
00:03:42ia mulai, untuk melacak kemajuan ia juga menyertakan dasbor di mana Anda dapat menonton
00:03:46agen Anda bekerja saat ia sedang bekerja dan untuk menangani semua ini ia dibangun di atas tiga agen yaitu
00:03:51scout, worker, dan judge, pada dasarnya tim startup y combinator di mana satu melakukan semua pekerjaan, satu
00:03:56menontonnya bekerja, dan satu menghakimi keduanya di twitter, instalasinya cukup mudah, cukup
00:04:01salin perintah instal dan tempel ke folder proyek Anda, ia akan diinstal sebagai plugin
00:04:06yang tersedia untuk claude code dan codex, setelah Anda memulai sesi baru, Anda dapat melihat perintah
00:04:10yang tersedia untuk digunakan, jadi ketiga agen ini masing-masing memiliki peran dan tingkat akses yang ditentukan secara ketat, karena
00:04:16alat ini dibuat untuk codex juga, agen ditentukan dalam toml alih-alih markdown standar, yang
00:04:21pertama adalah judge yang hanya memiliki akses baca, ia secara skeptis menganalisis keputusan sulit seperti lingkup berisiko,
00:04:26sumber yang kontradiktif, dan pola lainnya untuk memastikan tugas diselesaikan dengan aman, instruksinya
00:04:31melarang pengeditan karena ia ada hanya untuk membuat penilaian, tidak ada yang lain, dan karena
00:04:36tugasnya sangat kritis, penalaran agen ini diatur ke yang tertinggi sehingga keputusan dibuat dengan benar,
00:04:42persis seperti saat Anda menyusun satu pesan teks untuk gebetan Anda selama empat jam di
00:04:47tengah malam, setelah selesai bekerja, ia mengembalikan struktur json dengan keputusan yang disetujui dan
00:04:52ditolak beserta rasionya, scout adalah agen lain yang hanya membaca yang memetakan tugas aktif
00:04:57dan membuat tanda terima bukti ringkas untuknya, karena tugasnya hanya memeriksa status tugas
00:05:02upaya penalarannya dijaga tetap rendah seperti bouncer klub malam favorit Anda, ia tidak benar-benar peduli
00:05:07banyak, dan kemudian ada agen worker, satu-satunya yang memiliki akses edit, ia melakukan pekerjaan yang sebenarnya dan
00:05:12hanya diizinkan menjalankan satu tugas dalam satu waktu, ada juga peran pm yang merupakan thread utama yang
00:05:17mengoordinasikan alur kerja, ia berperilaku seperti manajer proyek sungguhan yang melakukan pekerjaan minimal,
00:05:22ia adalah satu-satunya otoritas yang benar-benar dapat menandai tugas sebagai selesai, alur kerja inti dimulai dengan menyatakan
00:05:27tujuan tugas dengan kata-kata yang tepat, tidak secara samar seperti cara kita homo sapiens biasanya lakukan, tetapi dengan cara yang dapat
00:05:33dipahami oleh agen dengan benar, dan kemudian oracle ditentukan, oracle pada dasarnya adalah sinyal yang dapat diamati
00:05:38yang mengidentifikasi hasil, itu adalah apa yang diiterasi sistem untuk melihat apakah tugas dapat
00:05:43ditandai selesai atau tidak, bisa apa saja, suite pengujian, peramban, tolok ukur artefak apa pun, atau kode
00:05:49yang mengubah microwave saya menjadi mesin waktu karena kenapa tidak, agen ai sedang melakukan apa saja saat ini,
00:05:54langkah selanjutnya adalah surface, ia memecah tugas menjadi langkah-langkah yang dapat ditindaklanjuti, membuat dasbor, dan memetakan
00:06:00tugas ke dalam format visual, bagian terakhir adalah pm, dia adalah manajer dalam hal ini dan menjaga tujuan berjalan
00:06:06sampai audit akhir menandai tujuan terpenuhi, untuk menggunakan goal buddy Anda cukup jalankan perintah goal prep
00:06:11ini adalah perintah yang menginisialisasi alur kerja dan Anda menentukan tujuan yang ingin dicapainya,
00:06:16ia pertama kali memastikan agen diinstal dan siap digunakan, ia kemudian memulai alur kerja tetapi tidak seperti
00:06:21perintah goal asli, ia sangat sadar diri dan pertama-tama menghilangkan ambiguitasnya sendiri dengan menanyakan
00:06:27Anda pertanyaan sehingga Anda dapat dengan jelas menentukan implementasi, dan seperti istri Anda yang curiga,
00:06:32ia akan terus bertanya sampai ia memahami langkah pertama, ia berfokus untuk membuat file tujuan, ia menempatkan
00:06:38permintaan asli bersama dengan jawaban kita dan kemudian memetakannya ke tujuan yang tepat dalam bahasa yang
00:06:43bahasa yang dimengerti agen, berisi ringkasan semua informasi, lalu menentukan oracle
00:06:48yang merupakan bagian terpenting, oracle untuk tugas ini mudah, semua pengujian harus lulus dengan
00:06:53perilaku yang tepat, tujuan semacam ini spesifik karena dapat dievaluasi secara
00:06:57terprogram tidak seperti cerita karangan Anda semalam yang tidak dipercayai istri Anda, goal buddy memecah seluruh alur kerja
00:07:03menjadi tugas kecil yang bisa dilakukan, ini disebut irisan tetapi tidak seperti dunia nyata, ukuran tidak masalah di sini
00:07:08karena irisan kecil bukan berarti tugas kecil, itu berarti sesuatu yang aman, dapat diverifikasi dengan mudah,
00:07:14dan dapat dijalankan secara individual, ia secara eksplisit menentukan ukuran irisan aman di dokumen juga, ia membuat
00:07:19state.yaml yang melacak proyek dan tugas serta menentukan seperti apa tampilan loop pm, state.yaml terdiri dari
00:07:26semua tujuan dan aturan dengan semua tugas yang dipecah berdasarkan id-nya dan agen yang ditugaskan, ia berisi
00:07:31bidang untuk melacak tugas aktif juga, ia juga menyebutkan dasbor tertaut, ia mencantumkan semua tugas to-do
00:07:36dan tugas yang sedang berlangsung, dalam kasus kami, agen scout saat ini sedang berlangsung dan sedang memetakan semua
00:07:42file dan endpoint, jadi untuk memulai loop Anda cukup salin perintah ini dan jalankan, ia menginstruksikan claude untuk
00:07:47menetapkan tujuan melakukan semuanya di file goal.md, dari sana ia akan mengambil tugas aktif pertama
00:07:52seperti raja dan kemudian memanggil agen bawahannya untuk melakukannya, setelah scout menyelesaikan
00:07:58pekerjaan, ia memperbarui file kemajuan dengan semua temuannya dan mendokumentasikannya di direktori terpisah,
00:08:03ia juga memperbarui papan dari aktif menjadi selesai, kemudian loop mengambil tugas berikutnya, menandainya sebagai
00:08:08aktif dan memulai agen judge, judge secara kritis meninjau temuan dan mengurutkan laporan
00:08:13menjadi sesedikit mungkin irisan vertikal, yang merupakan pemecahan tugas bagi worker untuk dilakukan
00:08:18secara mandiri, ia kemudian memperbarui jumlah irisan dan memperbarui file status, setiap tugas
00:08:22secara eksplisit mencantumkan file yang diizinkan, cara memverifikasinya, dan kapan harus berhenti, inilah cara ia menentukan setiap irisan
00:08:28sehingga agen memiliki output yang diharapkan, pemeriksaan, dan semua detail yang diperlukan, kemudian satu per satu
00:08:33menginisialisasi agen worker dan dimulai dengan irisan pertama, kemajuan setiap agen dapat dilacak
00:08:39menggunakan dasbor, Anda akan tahu apa yang dilakukan setiap tugas, agen mana yang aktif, tugas apa yang antre, dan
00:08:44mana yang selesai, jadi Anda tidak perlu memantau sendiri dan benar-benar dapat memberikan anak-anak Anda
00:08:48waktu yang mereka butuhkan, setelah semua tugas selesai, ia melakukan audit terakhir sebagai pm
00:08:53memastikan bahwa semua tes telah dilakukan dengan benar, setelah audit selesai, ia menandai audit akhir judge
00:08:58sebagai selesai dan kemudian menandai tujuan sebagai selesai, setelah ini Anda harus mulai
00:09:03berdoa dan berharap bahwa agen-agen itu tidak berhalusinasi, secara keseluruhan ini bekerja sangat baik mengingat
00:09:09kompleksitas dan skala aplikasi yang kita berikan, tetapi kami pikir paralelisasi yang lebih efektif bisa
00:09:13ditambahkan karena ia melakukan semuanya secara berurutan, ia menangani satu tugas dalam satu waktu dan tidak menggunakan
00:09:18kemampuan paralelisasi claude code sama sekali, dario akan benar-benar kecewa melihat ini
00:09:23tapi mengingat seberapa baik ia merencanakan alur kerja, itu bekerja cukup baik, juga jika Anda menikmati konten kami
00:09:28pertimbangkan untuk menekan tombol hype karena itu membantu kami membuat lebih banyak konten seperti ini dan menjangkau lebih banyak
00:09:33orang, kami juga ingin menguji goalbuddy pada sesuatu yang lebih umum seperti merancang ui untuk melihat bagaimana ia
00:09:38menangani tugas yang tidak dapat dievaluasi secara terprogram, pengujian sebelumnya dilakukan pada alur kerja tertentu dengan
00:09:44kriteria lulus dan gagal yang jelas tetapi sama seperti Anda mendapatkan potongan rambut baru dari tukang cukur Anda, beberapa tugas
00:09:49hanya tidak memilikinya, jadi kami pertama kali memberi perintah goal biasa dengan prompt yang samar, ia menginisialisasi tujuan
00:09:54tugas berkonsultasi dengan penasihat dan memberikan situs web dalam waktu singkat, karena malas ia hanya membuat halaman html sederhana
00:10:00dan tidak menggunakan framework apa pun, tetapi halaman landing tidak terlihat buruk, jadi kami memberikan prompt yang persis sama ke
00:10:05goal buddy juga, setelah dimulai ia mengikuti alur kerja yang sama dan memberikan sesi tanya jawab serupa
00:10:10untuk mengklarifikasi niat dengan kita, di sini goal buddy sebenarnya menanyakan tumpukan teknologi juga, biasanya
00:10:14saya akan menyebut ini berlebihan tapi karena saya menanggapi agen ai saya dengan serius, saya akan menyebutnya bersikap teliti, sama halnya ia
00:10:20membuat papan dan file goal.md dan menerjemahkan permintaan asli kita ke tujuan yang tepat, ia juga
00:10:26mengidentifikasi oracle dengan benar, tetapi oracle dalam tugas sebelumnya mudah, ia hanya perlu lulus semua
00:10:31tes, yang satu ini memiliki tujuan yang berbeda, ia menentukan tugas selesai saat server pengembangan aktif dan
00:10:36penelusuran peramban mengonfirmasi semua bagian berfungsi seperti yang ditentukan, inilah cara ia mengubah
00:10:41tugas yang tidak dapat diukur menjadi sesuatu yang dapat diukur, ia juga membuat state.yaml lagi dengan oracle
00:10:47aturan, agen, dan semua tugas terdaftar dan kemudian mulai bekerja dengan cara yang sama, ia butuh waktu lebih lama
00:10:52daripada perintah goal normal tetapi ia akhirnya mengimplementasikan aplikasi dengan benar, ini tidak akan menjadi
00:10:57masalah bagi gary si siput tetapi Anda harus melakukan push-up sementara itu, saya bisa melihat Anda sudah menjadi gemuk,
00:11:02secara komparatif seluruh situs web berkinerja jauh lebih baik daripada apa yang dibuat perintah goal sederhana
00:11:07jika Anda benar-benar ingin menjadi pendiri ai b2b sas yang suka membangun daripada hanya menonton tutorial
00:11:12maka Anda harus menjadi ai labs pro, Anda akan mendapatkan orang-orang berpikiran sama seperti tim kami di sana dengan
00:11:17sumber daya dari video dan banyak hal baik lainnya juga, tautannya ada di deskripsi dan
00:11:22Anda bisa memeriksanya, itu membawa kita ke akhir video ini, jika Anda ingin mendukung channel
00:11:27dan membantu kami terus membuat video seperti ini, Anda bisa melakukannya dengan menggunakan tombol super thanks di bawah, seperti biasa
00:11:32terima kasih telah menonton dan saya akan melihat Anda di video berikutnya
Community Posts
No posts yet. Be the first to write about this video!
Write about this video