Lupakan Codex vs Claude Code, Goal Buddy Akhirnya Menyempurnakan Keduanya

Bahasa Indonesiaالعربية Deutsch English Español Français हिन्दी 日本語 한국어 Português Русский 中文

컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00ini gary si siput dan dia telah menemukan celah pasar untuk membangun platform kencan bagi siput

00:00:04tapi karena dia sangat lambat, dia ingin claude code menangani tugas jangka panjangnya secara otonom

00:00:09untungnya bagi dia, agen sudah sangat mahir dalam tugas jangka panjang, claude code memiliki

00:00:13perintah goal yang membuat agen terus berjalan sampai tugas selesai, namun selama

00:00:18pengujian kami, kami menemukan banyak masalah dengan perintah goal karena gary baru saja mengalami

00:00:22perceraian dan kami ingin dia bahagia, kami menemukan alat open source ini yang benar-benar memperbaiki masalahnya

00:00:28dan alat ini tidak hanya berfungsi dengan claude code tetapi juga codex, menyebarkan cinta seperti ibumu yang saya

00:00:32yakin sangat mencintaimu sama seperti saudaramu yang bekerja, claude code sebelumnya merilis perintah yang disebut

00:00:38goal yang membuat agen bekerja sampai kondisi tertentu terpenuhi, kami tidak membahas yang satu ini di

00:00:42channel kami tetapi Anda mungkin sudah tahu tentang itu, sebelum ini ada plugin yang disebut ralph wiggum

00:00:47yang mendapatkan banyak daya tarik yang pada dasarnya melakukan hal yang sama, ia menggunakan hook untuk memberikan prompt

00:00:52kembali ke claude code sampai kondisi benar-benar terpenuhi, tapi masalahnya kondisi ini harus

00:00:57cocok secara tepat karena loop ralph menggunakan skrip shell untuk memeriksa kondisi tersebut, persis seperti

00:01:02petugas penjaga bandara yang tidak mengizinkan Anda lewat karena semprotan tubuh maskulin Anda melebihi batas

00:01:06bagasi, perintah goal bekerja secara berbeda, ia mengambil kondisi dan percakapan sejauh ini dan memberikannya

00:01:11ke model kecil yaitu haiku dan model ini secara cerdas mengevaluasi apakah tugas sudah selesai atau belum

00:01:17ia memberikan keputusan ya atau tidak, dan jawaban tidak memberi tahu claude untuk terus mengulangi tugas yang sama seperti saat bos Anda

00:01:22menyuruh Anda untuk meningkatkan pengalaman pengguna karena dia tidak bisa menemukan tombol di halaman tersebut, jadi ini membuat

00:01:27evaluasi menjadi subjektif dan untuk hal-hal yang tidak bisa kita kuantifikasi sendiri, itu adalah peningkatan nyata

00:01:32perintah goal memang berfungsi dengan baik untuk banyak tugas tetapi masih memiliki banyak masalah, masalah pertama adalah

00:01:37ia tidak menggunakan basis pengetahuan atau sistem file apa pun yang melacak kemajuan tugas dan karena

00:01:42tidak melakukannya, satu-satunya sumber kebenaran bagi agen menjadi konteks obrolan, ini mungkin memicu

00:01:47Anda karena ayah Anda lah yang menulis keberuntungan kripto di catatan tempel yang jatuh dari kulkas pada

00:01:522017, setelah sesi berakhir karena alasan apa pun dan tujuan belum tercapai, Anda pasti bisa melanjutkannya menggunakan

00:01:58perintah resume claude, tujuan tidak akan hilang tetapi satu-satunya cara ia tahu di mana ia berhenti adalah

00:02:03konteks obrolan dan karena perintah ini ditujukan untuk tugas jangka panjang bukan tugas sederhana, segalanya bisa menjadi

00:02:08berantakan di antaranya dan tentu saja dengan goal yang berjalan berjam-jam, pembengkakan konteks dan mencapai pemadatan

00:02:13pasti akan menjadi masalah nyata di beberapa titik, setelah pemadatan, output agen menjadi lebih buruk

00:02:18ia mulai berperilaku seperti nenek saya yang karena demensianya mulai melupakan nama channel ini,

00:02:22saya butuh kalian menonton video terakhir untuknya, masalah lain adalah tidak

00:02:27memecah tugas menjadi tugas yang lebih kecil, sebaliknya ia hanya menggunakan agen utama dan melakukan pemecahan tugas

00:02:32sendiri seperti yang biasanya dilakukan claude code, jadi tidak ada rencana terstruktur dan agen mungkin kehilangan jejak

00:02:37tentang apa yang tersisa untuk dilakukan dan meskipun ini mungkin bekerja dengan baik untuk beberapa kasus, definisi yang tidak jelas

00:02:42tentang seperti apa hasil akhirnya bagi agen bukanlah hal yang benar, goal sepenuhnya mengandalkan

00:02:47model untuk mengevaluasi penyelesaian, jadi mungkin tidak seefektif dalam beberapa kasus, ini lebih baik daripada

00:02:52ralph wiggum yang benar-benar ketat dengan menggunakan skrip, tapi setidaknya harus ada metrik

00:02:56yang memberi tahu agen seperti apa hasil akhirnya, persis seperti fotografer pernikahan Anda yang terus berkata

00:03:01satu jepretan lagi sampai seluruh acara selesai, jadi di sinilah tujuan gagal dan hal-hal ini

00:03:05mungkin tidak terlihat banyak tetapi ketika dimasukkan ke dalam alur kerja yang berat, mereka dapat membawa beberapa masalah serius

00:03:10sekarang goal buddy adalah alat yang dibuat dengan satu tujuan untuk membuat perintah goal benar-benar berfungsi

00:03:16sebagaimana mestinya, ia menyelesaikan semua masalah yang baru saja kita bicarakan, tetapi tidak benar-benar mendapatkan perhatian sebanyak

00:03:20yang seharusnya mengingat betapa bergunanya alat ini, itu seperti pengasuh bayi yang seksi, hanya saja alih-alih menggoda

00:03:25Anda, dia hanya mengasuh tugas jangka panjang Anda, goal tidak mempertahankan status pekerjaan

00:03:30secara lokal, jadi alat ini memperbaikinya dan benar-benar memaksa goal untuk membaca dan memperbarui status lokal alih-alih mengandalkan

00:03:36riwayat obrolan dan ia juga selesai dengan bukti sehingga agen benar-benar tahu seperti apa hasil akhirnya sebelum

00:03:42ia mulai, untuk melacak kemajuan ia juga menyertakan dasbor di mana Anda dapat menonton

00:03:46agen Anda bekerja saat ia sedang bekerja dan untuk menangani semua ini ia dibangun di atas tiga agen yaitu

00:03:51scout, worker, dan judge, pada dasarnya tim startup y combinator di mana satu melakukan semua pekerjaan, satu

00:03:56menontonnya bekerja, dan satu menghakimi keduanya di twitter, instalasinya cukup mudah, cukup

00:04:01salin perintah instal dan tempel ke folder proyek Anda, ia akan diinstal sebagai plugin

00:04:06yang tersedia untuk claude code dan codex, setelah Anda memulai sesi baru, Anda dapat melihat perintah

00:04:10yang tersedia untuk digunakan, jadi ketiga agen ini masing-masing memiliki peran dan tingkat akses yang ditentukan secara ketat, karena

00:04:16alat ini dibuat untuk codex juga, agen ditentukan dalam toml alih-alih markdown standar, yang

00:04:21pertama adalah judge yang hanya memiliki akses baca, ia secara skeptis menganalisis keputusan sulit seperti lingkup berisiko,

00:04:26sumber yang kontradiktif, dan pola lainnya untuk memastikan tugas diselesaikan dengan aman, instruksinya

00:04:31melarang pengeditan karena ia ada hanya untuk membuat penilaian, tidak ada yang lain, dan karena

00:04:36tugasnya sangat kritis, penalaran agen ini diatur ke yang tertinggi sehingga keputusan dibuat dengan benar,

00:04:42persis seperti saat Anda menyusun satu pesan teks untuk gebetan Anda selama empat jam di

00:04:47tengah malam, setelah selesai bekerja, ia mengembalikan struktur json dengan keputusan yang disetujui dan

00:04:52ditolak beserta rasionya, scout adalah agen lain yang hanya membaca yang memetakan tugas aktif

00:04:57dan membuat tanda terima bukti ringkas untuknya, karena tugasnya hanya memeriksa status tugas

00:05:02upaya penalarannya dijaga tetap rendah seperti bouncer klub malam favorit Anda, ia tidak benar-benar peduli

00:05:07banyak, dan kemudian ada agen worker, satu-satunya yang memiliki akses edit, ia melakukan pekerjaan yang sebenarnya dan

00:05:12hanya diizinkan menjalankan satu tugas dalam satu waktu, ada juga peran pm yang merupakan thread utama yang

00:05:17mengoordinasikan alur kerja, ia berperilaku seperti manajer proyek sungguhan yang melakukan pekerjaan minimal,

00:05:22ia adalah satu-satunya otoritas yang benar-benar dapat menandai tugas sebagai selesai, alur kerja inti dimulai dengan menyatakan

00:05:27tujuan tugas dengan kata-kata yang tepat, tidak secara samar seperti cara kita homo sapiens biasanya lakukan, tetapi dengan cara yang dapat

00:05:33dipahami oleh agen dengan benar, dan kemudian oracle ditentukan, oracle pada dasarnya adalah sinyal yang dapat diamati

00:05:38yang mengidentifikasi hasil, itu adalah apa yang diiterasi sistem untuk melihat apakah tugas dapat

00:05:43ditandai selesai atau tidak, bisa apa saja, suite pengujian, peramban, tolok ukur artefak apa pun, atau kode

00:05:49yang mengubah microwave saya menjadi mesin waktu karena kenapa tidak, agen ai sedang melakukan apa saja saat ini,

00:05:54langkah selanjutnya adalah surface, ia memecah tugas menjadi langkah-langkah yang dapat ditindaklanjuti, membuat dasbor, dan memetakan

00:06:00tugas ke dalam format visual, bagian terakhir adalah pm, dia adalah manajer dalam hal ini dan menjaga tujuan berjalan

00:06:06sampai audit akhir menandai tujuan terpenuhi, untuk menggunakan goal buddy Anda cukup jalankan perintah goal prep

00:06:11ini adalah perintah yang menginisialisasi alur kerja dan Anda menentukan tujuan yang ingin dicapainya,

00:06:16ia pertama kali memastikan agen diinstal dan siap digunakan, ia kemudian memulai alur kerja tetapi tidak seperti

00:06:21perintah goal asli, ia sangat sadar diri dan pertama-tama menghilangkan ambiguitasnya sendiri dengan menanyakan

00:06:27Anda pertanyaan sehingga Anda dapat dengan jelas menentukan implementasi, dan seperti istri Anda yang curiga,

00:06:32ia akan terus bertanya sampai ia memahami langkah pertama, ia berfokus untuk membuat file tujuan, ia menempatkan

00:06:38permintaan asli bersama dengan jawaban kita dan kemudian memetakannya ke tujuan yang tepat dalam bahasa yang

00:06:43bahasa yang dimengerti agen, berisi ringkasan semua informasi, lalu menentukan oracle

00:06:48yang merupakan bagian terpenting, oracle untuk tugas ini mudah, semua pengujian harus lulus dengan

00:06:53perilaku yang tepat, tujuan semacam ini spesifik karena dapat dievaluasi secara

00:06:57terprogram tidak seperti cerita karangan Anda semalam yang tidak dipercayai istri Anda, goal buddy memecah seluruh alur kerja

00:07:03menjadi tugas kecil yang bisa dilakukan, ini disebut irisan tetapi tidak seperti dunia nyata, ukuran tidak masalah di sini

00:07:08karena irisan kecil bukan berarti tugas kecil, itu berarti sesuatu yang aman, dapat diverifikasi dengan mudah,

00:07:14dan dapat dijalankan secara individual, ia secara eksplisit menentukan ukuran irisan aman di dokumen juga, ia membuat

00:07:19state.yaml yang melacak proyek dan tugas serta menentukan seperti apa tampilan loop pm, state.yaml terdiri dari

00:07:26semua tujuan dan aturan dengan semua tugas yang dipecah berdasarkan id-nya dan agen yang ditugaskan, ia berisi

00:07:31bidang untuk melacak tugas aktif juga, ia juga menyebutkan dasbor tertaut, ia mencantumkan semua tugas to-do

00:07:36dan tugas yang sedang berlangsung, dalam kasus kami, agen scout saat ini sedang berlangsung dan sedang memetakan semua

00:07:42file dan endpoint, jadi untuk memulai loop Anda cukup salin perintah ini dan jalankan, ia menginstruksikan claude untuk

00:07:47menetapkan tujuan melakukan semuanya di file goal.md, dari sana ia akan mengambil tugas aktif pertama

00:07:52seperti raja dan kemudian memanggil agen bawahannya untuk melakukannya, setelah scout menyelesaikan

00:07:58pekerjaan, ia memperbarui file kemajuan dengan semua temuannya dan mendokumentasikannya di direktori terpisah,

00:08:03ia juga memperbarui papan dari aktif menjadi selesai, kemudian loop mengambil tugas berikutnya, menandainya sebagai

00:08:08aktif dan memulai agen judge, judge secara kritis meninjau temuan dan mengurutkan laporan

00:08:13menjadi sesedikit mungkin irisan vertikal, yang merupakan pemecahan tugas bagi worker untuk dilakukan

00:08:18secara mandiri, ia kemudian memperbarui jumlah irisan dan memperbarui file status, setiap tugas

00:08:22secara eksplisit mencantumkan file yang diizinkan, cara memverifikasinya, dan kapan harus berhenti, inilah cara ia menentukan setiap irisan

00:08:28sehingga agen memiliki output yang diharapkan, pemeriksaan, dan semua detail yang diperlukan, kemudian satu per satu

00:08:33menginisialisasi agen worker dan dimulai dengan irisan pertama, kemajuan setiap agen dapat dilacak

00:08:39menggunakan dasbor, Anda akan tahu apa yang dilakukan setiap tugas, agen mana yang aktif, tugas apa yang antre, dan

00:08:44mana yang selesai, jadi Anda tidak perlu memantau sendiri dan benar-benar dapat memberikan anak-anak Anda

00:08:48waktu yang mereka butuhkan, setelah semua tugas selesai, ia melakukan audit terakhir sebagai pm

00:08:53memastikan bahwa semua tes telah dilakukan dengan benar, setelah audit selesai, ia menandai audit akhir judge

00:08:58sebagai selesai dan kemudian menandai tujuan sebagai selesai, setelah ini Anda harus mulai

00:09:03berdoa dan berharap bahwa agen-agen itu tidak berhalusinasi, secara keseluruhan ini bekerja sangat baik mengingat

00:09:09kompleksitas dan skala aplikasi yang kita berikan, tetapi kami pikir paralelisasi yang lebih efektif bisa

00:09:13ditambahkan karena ia melakukan semuanya secara berurutan, ia menangani satu tugas dalam satu waktu dan tidak menggunakan

00:09:18kemampuan paralelisasi claude code sama sekali, dario akan benar-benar kecewa melihat ini

00:09:23tapi mengingat seberapa baik ia merencanakan alur kerja, itu bekerja cukup baik, juga jika Anda menikmati konten kami

00:09:28pertimbangkan untuk menekan tombol hype karena itu membantu kami membuat lebih banyak konten seperti ini dan menjangkau lebih banyak

00:09:33orang, kami juga ingin menguji goalbuddy pada sesuatu yang lebih umum seperti merancang ui untuk melihat bagaimana ia

00:09:38menangani tugas yang tidak dapat dievaluasi secara terprogram, pengujian sebelumnya dilakukan pada alur kerja tertentu dengan

00:09:44kriteria lulus dan gagal yang jelas tetapi sama seperti Anda mendapatkan potongan rambut baru dari tukang cukur Anda, beberapa tugas

00:09:49hanya tidak memilikinya, jadi kami pertama kali memberi perintah goal biasa dengan prompt yang samar, ia menginisialisasi tujuan

00:09:54tugas berkonsultasi dengan penasihat dan memberikan situs web dalam waktu singkat, karena malas ia hanya membuat halaman html sederhana

00:10:00dan tidak menggunakan framework apa pun, tetapi halaman landing tidak terlihat buruk, jadi kami memberikan prompt yang persis sama ke

00:10:05goal buddy juga, setelah dimulai ia mengikuti alur kerja yang sama dan memberikan sesi tanya jawab serupa

00:10:10untuk mengklarifikasi niat dengan kita, di sini goal buddy sebenarnya menanyakan tumpukan teknologi juga, biasanya

00:10:14saya akan menyebut ini berlebihan tapi karena saya menanggapi agen ai saya dengan serius, saya akan menyebutnya bersikap teliti, sama halnya ia

00:10:20membuat papan dan file goal.md dan menerjemahkan permintaan asli kita ke tujuan yang tepat, ia juga

00:10:26mengidentifikasi oracle dengan benar, tetapi oracle dalam tugas sebelumnya mudah, ia hanya perlu lulus semua

00:10:31tes, yang satu ini memiliki tujuan yang berbeda, ia menentukan tugas selesai saat server pengembangan aktif dan

00:10:36penelusuran peramban mengonfirmasi semua bagian berfungsi seperti yang ditentukan, inilah cara ia mengubah

00:10:41tugas yang tidak dapat diukur menjadi sesuatu yang dapat diukur, ia juga membuat state.yaml lagi dengan oracle

00:10:47aturan, agen, dan semua tugas terdaftar dan kemudian mulai bekerja dengan cara yang sama, ia butuh waktu lebih lama

00:10:52daripada perintah goal normal tetapi ia akhirnya mengimplementasikan aplikasi dengan benar, ini tidak akan menjadi

00:10:57masalah bagi gary si siput tetapi Anda harus melakukan push-up sementara itu, saya bisa melihat Anda sudah menjadi gemuk,

00:11:02secara komparatif seluruh situs web berkinerja jauh lebih baik daripada apa yang dibuat perintah goal sederhana

00:11:07jika Anda benar-benar ingin menjadi pendiri ai b2b sas yang suka membangun daripada hanya menonton tutorial

00:11:12maka Anda harus menjadi ai labs pro, Anda akan mendapatkan orang-orang berpikiran sama seperti tim kami di sana dengan

00:11:17sumber daya dari video dan banyak hal baik lainnya juga, tautannya ada di deskripsi dan

00:11:22Anda bisa memeriksanya, itu membawa kita ke akhir video ini, jika Anda ingin mendukung channel

00:11:27dan membantu kami terus membuat video seperti ini, Anda bisa melakukannya dengan menggunakan tombol super thanks di bawah, seperti biasa

00:11:32terima kasih telah menonton dan saya akan melihat Anda di video berikutnya

Key Takeaway

Goal Buddy meningkatkan efektivitas agen otonom jangka panjang dengan menggantikan ketergantungan pada riwayat obrolan menggunakan sistem status lokal, manajemen multi-agen, dan verifikasi berbasis oracle.

Highlights

Goal Buddy memperbaiki keterbatasan perintah goal bawaan Claude Code dengan menerapkan pelacakan status lokal melalui file state.yaml.
Alat ini menggunakan struktur tiga agen yaitu scout, worker, dan judge untuk melakukan manajemen tugas yang terstruktur.
Goal Buddy mengintegrasikan model kecil, Haiku, untuk mengevaluasi secara cerdas apakah suatu tugas telah selesai berdasarkan oracle yang terdefinisi.
Pemasangan Goal Buddy dilakukan sebagai plugin melalui perintah instalasi yang kompatibel dengan Claude Code dan Codex.
Penggunaan oracle yang spesifik memungkinkan agen untuk mengubah tugas yang tidak terukur menjadi hasil yang dapat diverifikasi secara terprogram.
Struktur kerja Goal Buddy memecah proyek besar menjadi tugas-tugas kecil yang disebut irisan untuk meningkatkan keamanan dan kemudahan verifikasi.

Timeline

Keterbatasan Perintah Goal Bawaan

Perintah goal standar mengandalkan riwayat obrolan sebagai satu-satunya sumber kebenaran untuk melacak kemajuan tugas.
Ketiadaan basis pengetahuan atau sistem file lokal menyebabkan pembengkakan konteks selama eksekusi tugas jangka panjang.
Evaluasi penyelesaian tugas sepenuhnya bergantung pada model, yang berisiko menciptakan ambiguitas dalam hasil akhir.

Perintah goal bawaan sering mengalami masalah karena tidak menyimpan status pekerjaan secara lokal. Saat sesi berakhir, agen kehilangan jejak progres kecuali melalui konteks obrolan yang terbatas. Hal ini menyebabkan penurunan kualitas output seiring bertambahnya durasi tugas akibat pembengkakan konteks.

Mekanisme Kerja Goal Buddy

Goal Buddy mengimplementasikan file state.yaml untuk memelihara status pekerjaan dan melacak progres secara lokal.
Sistem ini menggunakan tiga peran agen spesifik: scout untuk pemetaan, worker untuk eksekusi, dan judge untuk evaluasi kritis.
Peran manajer proyek (PM) bertindak sebagai thread utama yang mengoordinasikan alur kerja hingga audit akhir terpenuhi.

Alat ini dirancang untuk mengatasi masalah status dengan memaksa goal membaca dan memperbarui status lokal. Agen judge dengan akses baca saja memastikan keamanan tugas dengan penalaran tingkat tinggi dan output format JSON. PM bertindak sebagai otoritas utama yang memastikan setiap langkah terverifikasi sebelum menandai tugas sebagai selesai.

Implementasi dan Verifikasi Tugas

Inisialisasi alur kerja dimulai dengan perintah goal prep yang menghilangkan ambiguitas melalui sesi tanya jawab.
Oracle didefinisikan sebagai sinyal terukur yang menjadi metrik penyelesaian tugas bagi agen.
Tugas dipecah menjadi irisan yang aman dan dapat diverifikasi secara individual untuk menghindari kegagalan pada alur kerja berat.

Proses dimulai dengan menentukan oracle, yaitu kondisi yang dapat diamati untuk menandai penyelesaian tugas. Setelah itu, alur kerja dipecah menjadi tugas-tugas kecil. Semua progres, termasuk tugas aktif dan selesai, dapat dipantau melalui dasbor yang disertakan tanpa perlu pengawasan manual terus-menerus.

Pengujian pada Kasus Umum

Pengujian pada perancangan UI menunjukkan kemampuan Goal Buddy dalam mengubah tugas abstrak menjadi tugas terukur.
Alur kerja Goal Buddy membutuhkan waktu eksekusi yang lebih lama dibandingkan perintah goal standar karena proses verifikasi yang lebih ketat.
Hasil akhir aplikasi menunjukkan performa yang lebih baik secara fungsional dibandingkan implementasi yang dihasilkan oleh perintah goal sederhana.

Saat diuji pada tugas perancangan UI, Goal Buddy secara proaktif menanyakan teknologi yang digunakan dan menetapkan kondisi keberhasilan (seperti server pengembangan aktif). Meskipun lebih lambat, pendekatan teliti ini menghasilkan implementasi aplikasi yang lebih terstruktur dan berkinerja tinggi dibanding cara otomatisasi konvensional.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video