00:00:00Selama beberapa bulan terakhir kami telah membahas banyak framework coding AI termasuk BMAD, GSD, Speckit, dan Superpowers,
00:00:08dan banyak dari Anda yang benar-benar mulai menggunakannya. Namun Anthropic baru saja melakukan eksperimen pada harness mereka sendiri,
00:00:14menghapus komponen satu per satu, dan mengukur apa yang sebenarnya penting. Kesimpulan mereka adalah bahwa sebagian besar darinya kini menjadi beban mati.
00:00:17Setiap komponen dalam sebuah framework menyandikan asumsi tentang apa yang tidak dapat dilakukan model sendiri,
00:00:25dan dengan Opus 4.6, asumsi-asumsi tersebut sudah basi. Kami telah meninjau semuanya dan memetakan apa yang masih penting,
00:00:32apa yang bisa Anda buang, dan seperti apa seharusnya pengaturan Anda sekarang. Harness agen memainkan peran penting
00:00:37dalam membuat agen bekerja jauh lebih baik dalam jangka panjang. Anthropic telah merilis harness agen,
00:00:43yang kami bahas secara rinci di video sebelumnya, menjelaskan cara menyiapkan dan menggunakannya. Kami juga telah membahas framework lain
00:00:50dalam konteks yang sama, dan meskipun implementasinya berbeda, semuanya mencoba melakukan hal yang sama.
00:00:55Tetapi ketika framework ini dirilis, model-modelnya tidak secanggih Opus 4.6 saat ini. Misalnya,
00:01:01framework seperti GSD fokus pada isolasi konteks, tetapi itu bukan masalah bagi Opus 4.6. Bukan hanya karena context window satu juta token,
00:01:06tetapi ada alasan lain yang akan kita bahas sebentar lagi. Oleh karena itu, banyak framework yang diimplementasikan sebelumnya
00:01:11kini menjadi beban berlebih bagi kapabilitas model baru. Anthropic benar-benar menjalankan eksperimen untuk menguji berbagai aspek dari harness tersebut,
00:01:17menghapus setiap bagian dan mengukur dampaknya. Dari temuan mereka, mereka menyimpulkan bahwa yang sebenarnya dibutuhkan
00:01:24hanyalah agen untuk perencanaan, pembuatan, dan evaluasi. Sisanya hanyalah cara melakukan sesuatu yang menjadi beban mati
00:01:29mengingat betapa mampunya model-model sekarang. Teori intinya adalah bahwa setiap komponen dalam harness agen,
00:01:35tidak peduli mana yang Anda gunakan, bergantung pada prinsip yang sama. Setiap komponen menyandikan asumsi
00:01:38tentang apa yang bisa dilakukan model sendiri. Asumsi ini harus diuji tekanannya karena mungkin salah, dan akan basi seiring peningkatan model,
00:01:46dan itulah yang mereka lakukan di sepanjang artikel tersebut. Oleh karena itu, dengan evolusi model, harness Anda juga harus berevolusi,
00:01:54dan jika Anda bekerja dengan prinsip yang sama seperti beberapa bulan lalu, Anda tertinggal. Perencanaan adalah langkah pertama
00:02:01yang tetap tidak berubah di setiap framework, tetapi cara Anda merencanakan harus berubah untuk model yang lebih mampu.
00:02:06Harness jangka panjang Anthropic sebelumnya mengharuskan pengguna memberikan spek terperinci di awal. Framework seperti BeMad dan SpecKit
00:02:14secara harfiah memecah tugas menjadi fragmen lebih kecil dan mikro-tugas yang membantu agen AI mengimplementasikannya dengan mudah.
00:02:20Dan ini bukan sekadar tugas kecil, melainkan langkah-langkah terperinci yang harus diikuti agen tanpa berpikir. Ini karena pada saat itu,
00:02:27model-modelnya belum cukup mampu dan perlu dipandu secara mikro agar bisa bekerja sesuai keinginan Anda. Namun dengan Opus 4.5 dan 4.6, hal ini telah berubah.
00:02:30Ketika Anthropic menguji ini, mereka menemukan bahwa jika perencana mencoba menentukan detail teknis mikro di awal,
00:02:43satu kesalahan saja akan merambat ke setiap level implementasi, sehingga sulit bagi agen untuk menyimpang dan memperbaiki masalah sendiri.
00:02:45Semuanya bergantung pada seberapa baik rencana itu ditulis. Oleh karena itu, perencanaan kini menjadi tingkat tinggi,
00:02:50bukan lagi implementasi teknis yang mendetail. Agen jauh lebih pintar sekarang dan Anda cukup memberi tahu mereka hasil apa yang dibutuhkan.
00:02:55Mereka bisa menemukan jalan menuju hasil tersebut sendiri. Dengan pergeseran ini, pendekatan perencanaan seperti di BeMad dan SpecKit
00:02:57tidak lagi serelevan dulu. Anda dapat membatasi BeMad pada fase perencanaan hingga pembuatan PRD
00:03:02tanpa perlu masuk ke proses pemecahan teknis. Seperti yang telah kami sebutkan sebelumnya,
00:03:08pembuatan PRD dengan BeMad efektif karena memiliki agen khusus untuk memahami persyaratan produk lebih baik daripada yang dilakukan Claude sendiri.
00:03:18Ini karena agen-agen tersebut memiliki konteks eksternal untuk tugas-tugas spesifik yang ditambahkan oleh pembuatnya.
00:03:23Atau, Anda bisa menggunakan sesi tanya jawab dari Superpowers karena itu memang dimaksudkan untuk mengidentifikasi edge case,
00:03:32yang bisa lebih efektif daripada dokumentasi tugas bertingkat. Namun masalah utama dengan perencanaan yang terlalu detail adalah
00:03:40hal itu mengunci agen dan tidak memberi ruang bagi AI untuk melakukan penemuan dan memecahkan masalah sendiri. Anthropic juga memberikan contoh rencana
00:03:46yang dibuat oleh agen perencana, yang dapat Anda gunakan untuk menyiapkan agen perencana Anda sendiri. Ini dengan jelas menguraikan bahwa rencana
00:03:52harus berfokus besar pada cakupan dan mendorong batas-batas dari ide aplikasi apa pun yang Anda berikan. Ide intinya adalah menjaga proyek
00:03:56pada tingkat produk, bukan tingkat implementasi. Ini penting karena jika ia mencoba merencanakan implementasi dalam rencana proyek,
00:04:06ia menjadi terlalu fokus pada detail teknis dan mungkin gagal memberikan apa yang sebenarnya dibutuhkan untuk produk yang lengkap.
00:04:12Sekarang Anda mungkin berpikir bahwa mode rencana milik Claude sendiri sudah melakukan perencanaan serupa dengan mengajukan pertanyaan dan memberikan rencana detail.
00:04:22Namun inilah perbedaannya. Meskipun Claude memiliki agen perencanaan, ia tetap sangat fokus pada detail implementasi
00:04:31dan tidak benar-benar beroperasi di tingkat produk, yang bertentangan dengan temuan Anthropic. Oleh karena itu, setelah Anda menyiapkan ini,
00:04:40Anda cukup meminta Claude menggunakan agen yang Anda buat untuk merencanakan aplikasi Anda, dan ia akan menghasilkan rencana lengkap
00:04:44dan mendokumentasikannya di folder Anda seiring kemajuannya. Rencana ini mencakup rincian fitur lengkap di tingkat produk,
00:04:47dan di setiap fase, mencakup user story yang menunjukkan seperti apa perspektif pengguna. Ini membantu Claude mengimplementasikan alur kerja yang tepat
00:04:56yang benar-benar diharapkan pengguna. Namun sebelum kita lanjut, mari dengarkan pesan dari sponsor kami, Minimax.
00:04:59Menyiapkan agen AI adalah mimpi buruk. API key, konfigurasi server, pengaturan Docker, dan setelah semua itu,
00:05:02asisten Anda melupakan segalanya saat Anda menutup tab. Solusinya adalah MaxClaw, AI bertenaga cloud di ujung jari Anda.
00:05:12Tanpa pengaturan, tanpa pusing, Anda bisa men-deploy OpenClaw Anda sendiri. Cukup klik deploy, dan Anda aktif dalam kurang dari 10 detik.
00:05:21Ia membangun situs web, menulis kode, menjalankan riset, dan mengotomatiskan pekerjaan sibuk Anda semua dari perintah teks sederhana.
00:05:27MaxClaw terhubung langsung ke Telegram, Slack, Discord, dan banyak lagi, memungkinkan Anda mengotomatiskan alur kerja, menjelajahi web,
00:05:33dan bahkan menghasilkan gambar atau video semua dari chat sederhana. Ini adalah bagian dari Minimax Agent, ruang kerja asli AI
00:05:39di mana setiap orang menjadi desainer agen. Ini bekerja di Mac, Windows, ditenagai oleh M 2.7, yang setara dengan Claude Opus 4.6 pada Sweetbench.
00:05:42Berhenti bergulat dengan pengaturan yang rumit, biarkan MaxClaw menanganinya, dan klik tautan di komentar tersemat untuk memulai.
00:05:46Agen yang menulis kode tidak boleh menjadi agen yang mengevaluasinya. Ini adalah masalah kedua yang paling umum,
00:05:56dan biasanya tidak banyak dibahas. Evaluasi diri bermasalah karena jika Anda menggunakan agen yang sama yang menulis kode untuk mengevaluasinya,
00:06:03ia cenderung merespons dengan sangat percaya diri dan memuji karyanya sendiri, bahkan ketika kualitasnya jelas di bawah standar.
00:06:08Ini mungkin lebih mudah dikelola untuk tugas yang memiliki metrik kuantitatif, seperti apakah API yang diimplementasikan benar-benar berfungsi.
00:06:10Namun masalah ini menjadi jauh lebih nyata untuk tugas yang tidak memiliki hasil yang dapat diverifikasi dengan jelas. Contoh terbesarnya adalah UI.
00:06:15Apa yang merupakan UI yang baik itu subjektif, dan AI mungkin tidak sepenuhnya memahami niat Anda. Ia mungkin menganggap implementasinya sendiri bagus,
00:06:19bahkan jika itu tidak memenuhi standar Anda. Masalah ini sudah disadari oleh para pembuat berbagai framework,
00:06:26dan mereka mengimplementasikan mekanisme evaluasi mereka sendiri untuk mengatasinya. Semua framework yang telah kami bahas,
00:06:34seperti GSD, BMAD, dan Superpowers, memastikan bahwa agen yang sama yang menulis kode tidak mengevaluasi kualitasnya sendiri.
00:06:39Pendekatan ini secara signifikan meningkatkan akurasi dan keandalan evaluasi agen. Oleh karena itu,
00:06:47baik Anda menggunakan framework yang sudah ada atau membangun sendiri, Anda perlu memastikan bahwa evaluator benar-benar terpisah dari pengimplementasi.
00:06:54Sebelum implementasi dimulai, baik agen generator maupun evaluator merundingkan kontrak, menyetujui seperti apa definisi "selesai" untuk pekerjaan tersebut.
00:06:58Ini membantu karena kedua agen tahu jelas apa yang harus dicapai dan apa yang harus diverifikasi.
00:07:02Dengan perencanaan tingkat tinggi, tetap perlu ada langkah-langkah yang dapat ditindaklanjuti dan diimplementasikan.
00:07:06Namun selama pengujian dengan harness, mereka mencoba menghapus kontrak sprint. Mereka menemukan bahwa Opus 4.5
00:07:12kurang efisien dalam skenario ini karena evaluator masih harus turun tangan untuk menangkap masalah. Namun dengan Opus 4.6,
00:07:18kapabilitas model telah meningkat pesat sehingga kontrak tersebut tidak lagi diperlukan. Agen generatif sudah cukup mampu untuk menangani sebagian besar pekerjaan sendiri.
00:07:22Oleh karena itu, untuk model yang lebih kecil seperti Sonnet atau Haiku, Anda masih perlu mendokumentasikan tugas.
00:07:27Pecah tugas dengan benar ke dalam struktur sprint dan buat setiap agen setuju pada apa yang dianggap "lengkap".
00:07:32Tetapi dengan model yang lebih mampu, Anda dapat mengandalkan Opus untuk mengeksekusi rencana tingkat tinggi tanpa langkah-langkah tambahan ini.
00:07:38Tadi kami katakan ada alasan mengapa isolasi konteks itu penting. Ini karena model-model kecil mengalami context anxiety,
00:07:42sebuah fenomena di mana model mulai kehilangan koherensi pada tugas-tugas panjang saat context window mereka penuh.
00:07:51Ketika ini terjadi, mereka menyelesaikan pekerjaan sebelum waktunya dan mengklaim telah mengimplementasikan tugas dengan benar, padahal belum.
00:07:57Solusi yang membantu adalah reset konteks, membersihkan context window mereka sebelum memulai implementasi.
00:08:02Karena konteks dibersihkan, mereka bisa mengandalkan rincian tugas yang didokumentasikan secara eksternal, yang tetap ada meskipun ada reset konteks.
00:08:08Tetapi model-model tersebut menunjukkan kecemasan konteks yang begitu besar sehingga pemadatan saja tidak cukup.
00:08:13Mereka butuh tindakan tambahan untuk mencegah masalah pada tugas yang lebih panjang. Namun mulai dari Opus 4.5,
00:08:17model-model tersebut tidak lagi menunjukkan perilaku ini. Agen-agen ini dapat berjalan terus-menerus di sepanjang sesi,
00:08:21dan cara Claude menangani pemadatan sudah cukup untuk fungsi mereka. Oleh karena itu, reset konteks tidak lagi diperlukan,
00:08:28dan rincian tugas yang mendalam seperti di BMAD dan SpecKit juga tidak dibutuhkan lagi, dengan panduan tingkat tinggi saja sudah cukup.
00:08:37Agen generator adalah pengimplementasi utama yang membangun aplikasi fitur demi fitur. Ia mengambil spek dari rencana
00:08:42dan mengimplementasikannya secara terus-menerus, sambil berintegrasi dengan Git untuk kontrol versi. Generator bekerja berkoordinasi dengan agen evaluator.
00:08:47Setelah membangun sebuah fitur, ia menyerahkannya untuk pengujian dan menerima umpan balik untuk meningkatkan implementasinya.
00:08:50Alur kerjanya diatur ke dalam beberapa langkah: memahami tugas, mengimplementasikannya, dan menyempurnakan implementasi.
00:08:56Bahkan dalam fase implementasi, pekerjaan dibagi menjadi empat sub-fase yang mencakup berbagai aspek.
00:09:02Ia mengikuti arahan desain, memverifikasi pekerjaannya, lalu menyerahkannya ke evaluator. Ini menciptakan pola langkah-demi-langkah yang terstruktur,
00:09:07memungkinkan agen untuk mengimplementasikan seluruh aplikasi secara mandiri dan sistematis. Agen evaluator bertindak sebagai lawan bagi generator.
00:09:11Tugasnya adalah memastikan aplikasi diimplementasikan dengan benar, bukan dengan melakukan pengecekan bug secara umum,
00:09:18tetapi dengan mendekatinya secara kritis dari perspektif bahwa bug itu ada. Ia dapat menggunakan alat seperti Playwright untuk menguji aplikasi
00:09:21dengan mensimulasikan interaksi pengguna, mengidentifikasi bug berdasarkan kriteria yang telah ditentukan, dan mengirim umpan balik kembali ke generator.
00:09:30Dengan membaca rencana tersebut, evaluator mendapatkan pemahaman yang jelas tentang seperti apa definisi "selesai" seharusnya
00:09:39dan memeriksa semuanya secara menyeluruh sebelum menyetujuinya. Setiap framework memiliki validatornya sendiri, tetapi pendekatannya sangat berbeda.
00:09:46BMAD menggunakan agen peninjau kode dan QA khusus yang membuat dan menjalankan pengujian, mengevaluasi kode dari berbagai sudut.
00:09:50GSD menggunakan sub-agen verifikator yang memeriksa implementasi terhadap rencana yang ada dan menghasilkan laporan dokumentasi.
00:09:57Superpowers mengandalkan sub-agen baru dan menerapkan TDD yang ketat, di mana tidak ada kode yang boleh ditulis sebelum test case.
00:10:04Jika agen mencoba mengabaikan ini, ia akan diblokir. SpecKit menganggap spek sebagai sumber kebenaran
00:10:10dan memungkinkan agen untuk memverifikasi kode terhadap dokumentasi. Namun tidak satu pun dari framework ini yang menyediakan
00:10:13mekanisme penilaian dengan tingkat ketegasan yang dituju oleh Anthropic. Oleh karena itu, evaluator dalam harness Anthropic
00:10:18adalah yang paling dekat dengan penegakan implementasi ketat Ralph Loop untuk Claude, memastikan agen benar-benar memberikan apa yang dibutuhkan
00:10:24dengan mekanisme evaluasi bertingkat yang tepat. Selain itu, jika Anda menikmati konten kami, pertimbangkan untuk menekan tombol hype,
00:10:35karena itu membantu kami membuat lebih banyak konten seperti ini dan menjangkau lebih banyak orang. Agen tidak memiliki cara
00:10:43untuk mengetahui seperti apa output yang tepat bagi Anda, terutama dalam kasus-kasus di mana implementasinya tidak dapat diukur secara kuantitatif.
00:10:49Oleh karena itu, Anda menggunakan mekanisme evaluasi bertingkat sehingga mereka tahu seperti apa output yang tepat bagi Anda.
00:10:54Ketika Anthropic memberikan contoh metrik evaluasi untuk front-end, mereka menyebutkan bahwa AI cenderung menghasilkan output yang serupa hampir setiap waktu.
00:11:02Mereka menetapkan empat kriteria penilaian untuk agen generator dan evaluator. Yang pertama adalah kualitas desain,
00:11:06menginstruksikannya untuk memeriksa apakah tampilannya koheren atau hanya komponen-komponen terpisah yang digabung-gabungkan.
00:11:12Lalu orisinalitas, yang merupakan salah satu yang utama karena AI cenderung menggunakan pola gradasi ungu dan putih yang sama untuk sebagian besar UI.
00:11:19Ini bertentangan dengan cara manusia mendesain, karena bagi manusia, setiap pilihan desain itu disengaja dan ini membuatnya mudah dikenali
00:11:27ketika situs web tersebut tidak terlihat bagus. Yang ketiga adalah keahlian (craft), detail kecil seperti tipografi, konsistensi spasi,
00:11:37dan harmoni warna, di mana rasio kontras diseimbangkan secara teknis daripada memberinya tampilan yang lebih kreatif.
00:11:44Dan yang terakhir adalah fungsionalitas, karena dalam hal UI, setiap komponen memainkan peran visual dalam meningkatkan pengalaman pengguna.
00:11:54Claude sudah mendapat skor baik pada aspek craft dan fungsionalitas, tetapi sisanya adalah kesulitan yang paling umum,
00:12:02dan perintah-perintahnya perlu mendorongnya ke kapabilitas terbaiknya dengan menekankan bahwa desain terbaik berasal dari kualitas.
00:12:10Oleh karena itu, saat Anda membangun aplikasi, Anda dapat menyiapkan kriteria serupa untuk sebanyak mungkin fitur yang Anda inginkan,
00:12:17seperti arsitektur kode, front-end, alur pengguna UX, dan lainnya. Buatlah setiap bagian yang disebutkan dalam kriteria memiliki skor khusus
00:12:21sehingga model dapat mengidentifikasi kepentingannya berdasarkan seberapa baik kinerjanya. File-file ini dirujuk dalam agen evaluator
00:12:35karena tugas evaluator adalah memberi skor, sehingga ia tahu rubrik apa yang harus diikuti. Mengingat semua yang telah kita bahas,
00:12:49Anda mungkin bertanya-tanya apa yang harus dilakukan sekarang. Jika Anda ingin framework agar pengaturannya lebih mudah, pilih GSD,
00:12:58karena GSD secara inheren menggunakan loop perencana, generator, evaluator secara default, tetapi evaluatornya hanya mencocokkan kode
00:13:03dengan rencana yang ada dan mengandalkan pengujian penerimaan pengguna. Ia menggunakan mekanisme lulus dan gagal, bukan implementasi dengan skor.
00:13:10Oleh karena itu, Anda dapat mengambil bagian terbaik dari framework Anthropic dan menggabungkannya dengan GSD, misalnya mengubah agen evaluator
00:13:24dan menggabungkannya dengan kriteria sehingga agen tahu apa implementasi yang tepat. Tetapi jika Anda ingin menggunakan framework Anthropic
00:13:33dan menyiapkannya sendiri, Anda dapat mengimplementasikannya dengan membuat agen berdasarkan peran masing-masing dan membuat mereka bekerja sama
00:13:43menggunakan tim agen. Anda dapat menggunakan satu anggota tim agen sebagai generator dan satu lagi sebagai evaluator.
00:13:48Alasan menggunakan tim agen adalah karena mereka dapat berkomunikasi satu sama lain, sementara sub-agen tidak bisa dan harus menulis ke dokumen,
00:13:57yang menciptakan beban berlebih. Oleh karena itu, Claude membuat tugas dari rencana tingkat tinggi dan membuat kedua agen pada saat yang sama,