Anthropic Baru Saja Mematikan AI Agent Harness Anda

AAI LABS
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00Selama beberapa bulan terakhir kami telah membahas banyak framework coding AI termasuk BMAD, GSD, Speckit, dan Superpowers,
00:00:08dan banyak dari Anda yang benar-benar mulai menggunakannya. Namun Anthropic baru saja melakukan eksperimen pada harness mereka sendiri,
00:00:14menghapus komponen satu per satu, dan mengukur apa yang sebenarnya penting. Kesimpulan mereka adalah bahwa sebagian besar darinya kini menjadi beban mati.
00:00:17Setiap komponen dalam sebuah framework menyandikan asumsi tentang apa yang tidak dapat dilakukan model sendiri,
00:00:25dan dengan Opus 4.6, asumsi-asumsi tersebut sudah basi. Kami telah meninjau semuanya dan memetakan apa yang masih penting,
00:00:32apa yang bisa Anda buang, dan seperti apa seharusnya pengaturan Anda sekarang. Harness agen memainkan peran penting
00:00:37dalam membuat agen bekerja jauh lebih baik dalam jangka panjang. Anthropic telah merilis harness agen,
00:00:43yang kami bahas secara rinci di video sebelumnya, menjelaskan cara menyiapkan dan menggunakannya. Kami juga telah membahas framework lain
00:00:50dalam konteks yang sama, dan meskipun implementasinya berbeda, semuanya mencoba melakukan hal yang sama.
00:00:55Tetapi ketika framework ini dirilis, model-modelnya tidak secanggih Opus 4.6 saat ini. Misalnya,
00:01:01framework seperti GSD fokus pada isolasi konteks, tetapi itu bukan masalah bagi Opus 4.6. Bukan hanya karena context window satu juta token,
00:01:06tetapi ada alasan lain yang akan kita bahas sebentar lagi. Oleh karena itu, banyak framework yang diimplementasikan sebelumnya
00:01:11kini menjadi beban berlebih bagi kapabilitas model baru. Anthropic benar-benar menjalankan eksperimen untuk menguji berbagai aspek dari harness tersebut,
00:01:17menghapus setiap bagian dan mengukur dampaknya. Dari temuan mereka, mereka menyimpulkan bahwa yang sebenarnya dibutuhkan
00:01:24hanyalah agen untuk perencanaan, pembuatan, dan evaluasi. Sisanya hanyalah cara melakukan sesuatu yang menjadi beban mati
00:01:29mengingat betapa mampunya model-model sekarang. Teori intinya adalah bahwa setiap komponen dalam harness agen,
00:01:35tidak peduli mana yang Anda gunakan, bergantung pada prinsip yang sama. Setiap komponen menyandikan asumsi
00:01:38tentang apa yang bisa dilakukan model sendiri. Asumsi ini harus diuji tekanannya karena mungkin salah, dan akan basi seiring peningkatan model,
00:01:46dan itulah yang mereka lakukan di sepanjang artikel tersebut. Oleh karena itu, dengan evolusi model, harness Anda juga harus berevolusi,
00:01:54dan jika Anda bekerja dengan prinsip yang sama seperti beberapa bulan lalu, Anda tertinggal. Perencanaan adalah langkah pertama
00:02:01yang tetap tidak berubah di setiap framework, tetapi cara Anda merencanakan harus berubah untuk model yang lebih mampu.
00:02:06Harness jangka panjang Anthropic sebelumnya mengharuskan pengguna memberikan spek terperinci di awal. Framework seperti BeMad dan SpecKit
00:02:14secara harfiah memecah tugas menjadi fragmen lebih kecil dan mikro-tugas yang membantu agen AI mengimplementasikannya dengan mudah.
00:02:20Dan ini bukan sekadar tugas kecil, melainkan langkah-langkah terperinci yang harus diikuti agen tanpa berpikir. Ini karena pada saat itu,
00:02:27model-modelnya belum cukup mampu dan perlu dipandu secara mikro agar bisa bekerja sesuai keinginan Anda. Namun dengan Opus 4.5 dan 4.6, hal ini telah berubah.
00:02:30Ketika Anthropic menguji ini, mereka menemukan bahwa jika perencana mencoba menentukan detail teknis mikro di awal,
00:02:43satu kesalahan saja akan merambat ke setiap level implementasi, sehingga sulit bagi agen untuk menyimpang dan memperbaiki masalah sendiri.
00:02:45Semuanya bergantung pada seberapa baik rencana itu ditulis. Oleh karena itu, perencanaan kini menjadi tingkat tinggi,
00:02:50bukan lagi implementasi teknis yang mendetail. Agen jauh lebih pintar sekarang dan Anda cukup memberi tahu mereka hasil apa yang dibutuhkan.
00:02:55Mereka bisa menemukan jalan menuju hasil tersebut sendiri. Dengan pergeseran ini, pendekatan perencanaan seperti di BeMad dan SpecKit
00:02:57tidak lagi serelevan dulu. Anda dapat membatasi BeMad pada fase perencanaan hingga pembuatan PRD
00:03:02tanpa perlu masuk ke proses pemecahan teknis. Seperti yang telah kami sebutkan sebelumnya,
00:03:08pembuatan PRD dengan BeMad efektif karena memiliki agen khusus untuk memahami persyaratan produk lebih baik daripada yang dilakukan Claude sendiri.
00:03:18Ini karena agen-agen tersebut memiliki konteks eksternal untuk tugas-tugas spesifik yang ditambahkan oleh pembuatnya.
00:03:23Atau, Anda bisa menggunakan sesi tanya jawab dari Superpowers karena itu memang dimaksudkan untuk mengidentifikasi edge case,
00:03:32yang bisa lebih efektif daripada dokumentasi tugas bertingkat. Namun masalah utama dengan perencanaan yang terlalu detail adalah
00:03:40hal itu mengunci agen dan tidak memberi ruang bagi AI untuk melakukan penemuan dan memecahkan masalah sendiri. Anthropic juga memberikan contoh rencana
00:03:46yang dibuat oleh agen perencana, yang dapat Anda gunakan untuk menyiapkan agen perencana Anda sendiri. Ini dengan jelas menguraikan bahwa rencana
00:03:52harus berfokus besar pada cakupan dan mendorong batas-batas dari ide aplikasi apa pun yang Anda berikan. Ide intinya adalah menjaga proyek
00:03:56pada tingkat produk, bukan tingkat implementasi. Ini penting karena jika ia mencoba merencanakan implementasi dalam rencana proyek,
00:04:06ia menjadi terlalu fokus pada detail teknis dan mungkin gagal memberikan apa yang sebenarnya dibutuhkan untuk produk yang lengkap.
00:04:12Sekarang Anda mungkin berpikir bahwa mode rencana milik Claude sendiri sudah melakukan perencanaan serupa dengan mengajukan pertanyaan dan memberikan rencana detail.
00:04:22Namun inilah perbedaannya. Meskipun Claude memiliki agen perencanaan, ia tetap sangat fokus pada detail implementasi
00:04:31dan tidak benar-benar beroperasi di tingkat produk, yang bertentangan dengan temuan Anthropic. Oleh karena itu, setelah Anda menyiapkan ini,
00:04:40Anda cukup meminta Claude menggunakan agen yang Anda buat untuk merencanakan aplikasi Anda, dan ia akan menghasilkan rencana lengkap
00:04:44dan mendokumentasikannya di folder Anda seiring kemajuannya. Rencana ini mencakup rincian fitur lengkap di tingkat produk,
00:04:47dan di setiap fase, mencakup user story yang menunjukkan seperti apa perspektif pengguna. Ini membantu Claude mengimplementasikan alur kerja yang tepat
00:04:56yang benar-benar diharapkan pengguna. Namun sebelum kita lanjut, mari dengarkan pesan dari sponsor kami, Minimax.
00:04:59Menyiapkan agen AI adalah mimpi buruk. API key, konfigurasi server, pengaturan Docker, dan setelah semua itu,
00:05:02asisten Anda melupakan segalanya saat Anda menutup tab. Solusinya adalah MaxClaw, AI bertenaga cloud di ujung jari Anda.
00:05:12Tanpa pengaturan, tanpa pusing, Anda bisa men-deploy OpenClaw Anda sendiri. Cukup klik deploy, dan Anda aktif dalam kurang dari 10 detik.
00:05:21Ia membangun situs web, menulis kode, menjalankan riset, dan mengotomatiskan pekerjaan sibuk Anda semua dari perintah teks sederhana.
00:05:27MaxClaw terhubung langsung ke Telegram, Slack, Discord, dan banyak lagi, memungkinkan Anda mengotomatiskan alur kerja, menjelajahi web,
00:05:33dan bahkan menghasilkan gambar atau video semua dari chat sederhana. Ini adalah bagian dari Minimax Agent, ruang kerja asli AI
00:05:39di mana setiap orang menjadi desainer agen. Ini bekerja di Mac, Windows, ditenagai oleh M 2.7, yang setara dengan Claude Opus 4.6 pada Sweetbench.
00:05:42Berhenti bergulat dengan pengaturan yang rumit, biarkan MaxClaw menanganinya, dan klik tautan di komentar tersemat untuk memulai.
00:05:46Agen yang menulis kode tidak boleh menjadi agen yang mengevaluasinya. Ini adalah masalah kedua yang paling umum,
00:05:56dan biasanya tidak banyak dibahas. Evaluasi diri bermasalah karena jika Anda menggunakan agen yang sama yang menulis kode untuk mengevaluasinya,
00:06:03ia cenderung merespons dengan sangat percaya diri dan memuji karyanya sendiri, bahkan ketika kualitasnya jelas di bawah standar.
00:06:08Ini mungkin lebih mudah dikelola untuk tugas yang memiliki metrik kuantitatif, seperti apakah API yang diimplementasikan benar-benar berfungsi.
00:06:10Namun masalah ini menjadi jauh lebih nyata untuk tugas yang tidak memiliki hasil yang dapat diverifikasi dengan jelas. Contoh terbesarnya adalah UI.
00:06:15Apa yang merupakan UI yang baik itu subjektif, dan AI mungkin tidak sepenuhnya memahami niat Anda. Ia mungkin menganggap implementasinya sendiri bagus,
00:06:19bahkan jika itu tidak memenuhi standar Anda. Masalah ini sudah disadari oleh para pembuat berbagai framework,
00:06:26dan mereka mengimplementasikan mekanisme evaluasi mereka sendiri untuk mengatasinya. Semua framework yang telah kami bahas,
00:06:34seperti GSD, BMAD, dan Superpowers, memastikan bahwa agen yang sama yang menulis kode tidak mengevaluasi kualitasnya sendiri.
00:06:39Pendekatan ini secara signifikan meningkatkan akurasi dan keandalan evaluasi agen. Oleh karena itu,
00:06:47baik Anda menggunakan framework yang sudah ada atau membangun sendiri, Anda perlu memastikan bahwa evaluator benar-benar terpisah dari pengimplementasi.
00:06:54Sebelum implementasi dimulai, baik agen generator maupun evaluator merundingkan kontrak, menyetujui seperti apa definisi "selesai" untuk pekerjaan tersebut.
00:06:58Ini membantu karena kedua agen tahu jelas apa yang harus dicapai dan apa yang harus diverifikasi.
00:07:02Dengan perencanaan tingkat tinggi, tetap perlu ada langkah-langkah yang dapat ditindaklanjuti dan diimplementasikan.
00:07:06Namun selama pengujian dengan harness, mereka mencoba menghapus kontrak sprint. Mereka menemukan bahwa Opus 4.5
00:07:12kurang efisien dalam skenario ini karena evaluator masih harus turun tangan untuk menangkap masalah. Namun dengan Opus 4.6,
00:07:18kapabilitas model telah meningkat pesat sehingga kontrak tersebut tidak lagi diperlukan. Agen generatif sudah cukup mampu untuk menangani sebagian besar pekerjaan sendiri.
00:07:22Oleh karena itu, untuk model yang lebih kecil seperti Sonnet atau Haiku, Anda masih perlu mendokumentasikan tugas.
00:07:27Pecah tugas dengan benar ke dalam struktur sprint dan buat setiap agen setuju pada apa yang dianggap "lengkap".
00:07:32Tetapi dengan model yang lebih mampu, Anda dapat mengandalkan Opus untuk mengeksekusi rencana tingkat tinggi tanpa langkah-langkah tambahan ini.
00:07:38Tadi kami katakan ada alasan mengapa isolasi konteks itu penting. Ini karena model-model kecil mengalami context anxiety,
00:07:42sebuah fenomena di mana model mulai kehilangan koherensi pada tugas-tugas panjang saat context window mereka penuh.
00:07:51Ketika ini terjadi, mereka menyelesaikan pekerjaan sebelum waktunya dan mengklaim telah mengimplementasikan tugas dengan benar, padahal belum.
00:07:57Solusi yang membantu adalah reset konteks, membersihkan context window mereka sebelum memulai implementasi.
00:08:02Karena konteks dibersihkan, mereka bisa mengandalkan rincian tugas yang didokumentasikan secara eksternal, yang tetap ada meskipun ada reset konteks.
00:08:08Tetapi model-model tersebut menunjukkan kecemasan konteks yang begitu besar sehingga pemadatan saja tidak cukup.
00:08:13Mereka butuh tindakan tambahan untuk mencegah masalah pada tugas yang lebih panjang. Namun mulai dari Opus 4.5,
00:08:17model-model tersebut tidak lagi menunjukkan perilaku ini. Agen-agen ini dapat berjalan terus-menerus di sepanjang sesi,
00:08:21dan cara Claude menangani pemadatan sudah cukup untuk fungsi mereka. Oleh karena itu, reset konteks tidak lagi diperlukan,
00:08:28dan rincian tugas yang mendalam seperti di BMAD dan SpecKit juga tidak dibutuhkan lagi, dengan panduan tingkat tinggi saja sudah cukup.
00:08:37Agen generator adalah pengimplementasi utama yang membangun aplikasi fitur demi fitur. Ia mengambil spek dari rencana
00:08:42dan mengimplementasikannya secara terus-menerus, sambil berintegrasi dengan Git untuk kontrol versi. Generator bekerja berkoordinasi dengan agen evaluator.
00:08:47Setelah membangun sebuah fitur, ia menyerahkannya untuk pengujian dan menerima umpan balik untuk meningkatkan implementasinya.
00:08:50Alur kerjanya diatur ke dalam beberapa langkah: memahami tugas, mengimplementasikannya, dan menyempurnakan implementasi.
00:08:56Bahkan dalam fase implementasi, pekerjaan dibagi menjadi empat sub-fase yang mencakup berbagai aspek.
00:09:02Ia mengikuti arahan desain, memverifikasi pekerjaannya, lalu menyerahkannya ke evaluator. Ini menciptakan pola langkah-demi-langkah yang terstruktur,
00:09:07memungkinkan agen untuk mengimplementasikan seluruh aplikasi secara mandiri dan sistematis. Agen evaluator bertindak sebagai lawan bagi generator.
00:09:11Tugasnya adalah memastikan aplikasi diimplementasikan dengan benar, bukan dengan melakukan pengecekan bug secara umum,
00:09:18tetapi dengan mendekatinya secara kritis dari perspektif bahwa bug itu ada. Ia dapat menggunakan alat seperti Playwright untuk menguji aplikasi
00:09:21dengan mensimulasikan interaksi pengguna, mengidentifikasi bug berdasarkan kriteria yang telah ditentukan, dan mengirim umpan balik kembali ke generator.
00:09:30Dengan membaca rencana tersebut, evaluator mendapatkan pemahaman yang jelas tentang seperti apa definisi "selesai" seharusnya
00:09:39dan memeriksa semuanya secara menyeluruh sebelum menyetujuinya. Setiap framework memiliki validatornya sendiri, tetapi pendekatannya sangat berbeda.
00:09:46BMAD menggunakan agen peninjau kode dan QA khusus yang membuat dan menjalankan pengujian, mengevaluasi kode dari berbagai sudut.
00:09:50GSD menggunakan sub-agen verifikator yang memeriksa implementasi terhadap rencana yang ada dan menghasilkan laporan dokumentasi.
00:09:57Superpowers mengandalkan sub-agen baru dan menerapkan TDD yang ketat, di mana tidak ada kode yang boleh ditulis sebelum test case.
00:10:04Jika agen mencoba mengabaikan ini, ia akan diblokir. SpecKit menganggap spek sebagai sumber kebenaran
00:10:10dan memungkinkan agen untuk memverifikasi kode terhadap dokumentasi. Namun tidak satu pun dari framework ini yang menyediakan
00:10:13mekanisme penilaian dengan tingkat ketegasan yang dituju oleh Anthropic. Oleh karena itu, evaluator dalam harness Anthropic
00:10:18adalah yang paling dekat dengan penegakan implementasi ketat Ralph Loop untuk Claude, memastikan agen benar-benar memberikan apa yang dibutuhkan
00:10:24dengan mekanisme evaluasi bertingkat yang tepat. Selain itu, jika Anda menikmati konten kami, pertimbangkan untuk menekan tombol hype,
00:10:35karena itu membantu kami membuat lebih banyak konten seperti ini dan menjangkau lebih banyak orang. Agen tidak memiliki cara
00:10:43untuk mengetahui seperti apa output yang tepat bagi Anda, terutama dalam kasus-kasus di mana implementasinya tidak dapat diukur secara kuantitatif.
00:10:49Oleh karena itu, Anda menggunakan mekanisme evaluasi bertingkat sehingga mereka tahu seperti apa output yang tepat bagi Anda.
00:10:54Ketika Anthropic memberikan contoh metrik evaluasi untuk front-end, mereka menyebutkan bahwa AI cenderung menghasilkan output yang serupa hampir setiap waktu.
00:11:02Mereka menetapkan empat kriteria penilaian untuk agen generator dan evaluator. Yang pertama adalah kualitas desain,
00:11:06menginstruksikannya untuk memeriksa apakah tampilannya koheren atau hanya komponen-komponen terpisah yang digabung-gabungkan.
00:11:12Lalu orisinalitas, yang merupakan salah satu yang utama karena AI cenderung menggunakan pola gradasi ungu dan putih yang sama untuk sebagian besar UI.
00:11:19Ini bertentangan dengan cara manusia mendesain, karena bagi manusia, setiap pilihan desain itu disengaja dan ini membuatnya mudah dikenali
00:11:27ketika situs web tersebut tidak terlihat bagus. Yang ketiga adalah keahlian (craft), detail kecil seperti tipografi, konsistensi spasi,
00:11:37dan harmoni warna, di mana rasio kontras diseimbangkan secara teknis daripada memberinya tampilan yang lebih kreatif.
00:11:44Dan yang terakhir adalah fungsionalitas, karena dalam hal UI, setiap komponen memainkan peran visual dalam meningkatkan pengalaman pengguna.
00:11:54Claude sudah mendapat skor baik pada aspek craft dan fungsionalitas, tetapi sisanya adalah kesulitan yang paling umum,
00:12:02dan perintah-perintahnya perlu mendorongnya ke kapabilitas terbaiknya dengan menekankan bahwa desain terbaik berasal dari kualitas.
00:12:10Oleh karena itu, saat Anda membangun aplikasi, Anda dapat menyiapkan kriteria serupa untuk sebanyak mungkin fitur yang Anda inginkan,
00:12:17seperti arsitektur kode, front-end, alur pengguna UX, dan lainnya. Buatlah setiap bagian yang disebutkan dalam kriteria memiliki skor khusus
00:12:21sehingga model dapat mengidentifikasi kepentingannya berdasarkan seberapa baik kinerjanya. File-file ini dirujuk dalam agen evaluator
00:12:35karena tugas evaluator adalah memberi skor, sehingga ia tahu rubrik apa yang harus diikuti. Mengingat semua yang telah kita bahas,
00:12:49Anda mungkin bertanya-tanya apa yang harus dilakukan sekarang. Jika Anda ingin framework agar pengaturannya lebih mudah, pilih GSD,
00:12:58karena GSD secara inheren menggunakan loop perencana, generator, evaluator secara default, tetapi evaluatornya hanya mencocokkan kode
00:13:03dengan rencana yang ada dan mengandalkan pengujian penerimaan pengguna. Ia menggunakan mekanisme lulus dan gagal, bukan implementasi dengan skor.
00:13:10Oleh karena itu, Anda dapat mengambil bagian terbaik dari framework Anthropic dan menggabungkannya dengan GSD, misalnya mengubah agen evaluator
00:13:24dan menggabungkannya dengan kriteria sehingga agen tahu apa implementasi yang tepat. Tetapi jika Anda ingin menggunakan framework Anthropic
00:13:33dan menyiapkannya sendiri, Anda dapat mengimplementasikannya dengan membuat agen berdasarkan peran masing-masing dan membuat mereka bekerja sama
00:13:43menggunakan tim agen. Anda dapat menggunakan satu anggota tim agen sebagai generator dan satu lagi sebagai evaluator.
00:13:48Alasan menggunakan tim agen adalah karena mereka dapat berkomunikasi satu sama lain, sementara sub-agen tidak bisa dan harus menulis ke dokumen,
00:13:57yang menciptakan beban berlebih. Oleh karena itu, Claude membuat tugas dari rencana tingkat tinggi dan membuat kedua agen pada saat yang sama,

Key Takeaway

Evolusi Opus 4.6 mengubah struktur AI Agent dari instruksi mikro yang kaku menjadi kolaborasi tingkat tinggi antara agen perencana, pembuat, dan evaluator independen dengan rubrik penilaian berbasis skor.

Highlights

Opus 4.6 merender kerangka kerja coding AI lama seperti BMAD, GSD, dan SpecKit menjadi beban mati karena kemampuan model yang sudah melampaui asumsi awal.

Perencanaan mikro-tugas yang mendetail justru merusak performa agen karena satu kesalahan teknis di awal akan merambat dan mengunci kemampuan AI untuk memperbaiki diri.

Pemisahan peran secara absolut antara agen pembuat kode dan agen evaluator sangat diperlukan untuk menghindari bias kepercayaan diri yang berlebihan pada AI.

Model Opus 4.5 ke atas tidak lagi mengalami 'context anxiety' atau kehilangan koherensi pada tugas panjang, sehingga teknik reset konteks manual tidak lagi dibutuhkan.

Evaluator front-end harus menggunakan rubrik penilaian dengan skor khusus untuk aspek kualitas desain, orisinalitas, keahlian tipografi, dan fungsionalitas teknis.

Timeline

Usangnya Framework Coding AI Tradisional

  • Komponen dalam framework lama menyandikan asumsi tentang keterbatasan model yang kini sudah tidak relevan bagi Opus 4.6.
  • Isolasi konteks yang menjadi fitur utama framework GSD bukan lagi masalah bagi model dengan jendela konteks satu juta token.
  • Harness agen harus berevolusi mengikuti peningkatan kapabilitas model agar tidak menjadi beban operasional yang memperlambat proses.

Eksperimen Anthropic menunjukkan bahwa menghapus komponen framework satu per satu justru meningkatkan efisiensi pada model terbaru. Framework seperti BMAD, GSD, dan SpecKit dibuat saat model membutuhkan panduan ketat, namun sekarang fungsi-fungsi tersebut menjadi redundan. Struktur yang terlalu kompleks menghambat potensi asli dari kecerdasan model saat ini.

Pergeseran Perencanaan dari Mikro ke Tingkat Tinggi

  • Perencanaan teknis yang terlalu mendetail di awal mengunci agen dan mencegah penemuan solusi masalah secara mandiri.
  • Agen perencana sekarang harus berfokus pada cakupan produk dan user story daripada instruksi implementasi baris per baris.
  • Penggunaan agen khusus untuk pembuatan PRD tetap efektif karena memberikan konteks eksternal yang melampaui pengetahuan bawaan Claude.

Kesalahan kecil dalam rencana teknis mikro akan merusak seluruh hierarki implementasi karena agen tidak berani menyimpang dari instruksi awal. Pendekatan baru menekankan pada hasil akhir yang diinginkan, membiarkan AI menemukan jalur teknisnya sendiri. Perencanaan tingkat tinggi memastikan proyek tetap pada jalur visi produk tanpa terjebak dalam detail implementasi yang kaku.

Pemisahan Mutlak Agen Generator dan Evaluator

  • Agen yang menulis kode cenderung memberikan penilaian subjektif yang terlalu percaya diri terhadap hasil karyanya sendiri.
  • Kontrak sprint dan definisi 'selesai' harus disepakati oleh agen generator dan evaluator sebelum proses implementasi dimulai.
  • Model besar seperti Opus mampu mengeksekusi rencana tingkat tinggi tanpa perlu dokumentasi tugas mikro yang biasanya diperlukan model kecil seperti Haiku.

Evaluasi diri sering gagal terutama pada tugas subjektif seperti desain antarmuka pengguna (UI) di mana AI mungkin menganggap hasilnya bagus padahal tidak memenuhi standar. Memisahkan evaluator sebagai entitas independen meningkatkan akurasi dan keandalan sistem secara signifikan. Kolaborasi ini bekerja paling baik ketika kedua agen memiliki pemahaman yang sama tentang kriteria keberhasilan proyek.

Solusi Context Anxiety dan Mekanisme Kerja Agen

  • Fenomena context anxiety yang menyebabkan model berhenti bekerja prematur telah hilang sejak versi Opus 4.5.
  • Agen generator bekerja secara sistematis melalui fase pemahaman, implementasi empat sub-fase, dan penyempurnaan kode.
  • Agen evaluator menggunakan alat simulasi seperti Playwright untuk menguji aplikasi dari perspektif pengguna dan mencari bug secara kritis.

Model lama membutuhkan pembersihan jendela konteks secara berkala untuk menjaga koherensi, namun manajemen memori Claude saat ini sudah cukup mumpuni. Agen generator kini terintegrasi langsung dengan Git untuk kontrol versi selama proses pembangunan fitur. Evaluator bertindak sebagai lawan yang skeptis, mendekati kode dengan asumsi bahwa bug pasti ada di dalamnya.

Kriteria Penilaian UI dan Implementasi Tim Agen

  • Empat metrik utama evaluasi desain meliputi kualitas desain, orisinalitas, keahlian detail (craft), dan fungsionalitas.
  • Sistem penilaian berbasis skor memungkinkan model mengidentifikasi prioritas perbaikan berdasarkan rubrik yang ditentukan.
  • Penggunaan tim agen lebih efisien daripada sub-agent karena memungkinkan komunikasi langsung tanpa beban menulis ke dokumen eksternal.

AI memiliki kecenderungan untuk menghasilkan pola desain yang repetitif seperti gradasi ungu dan putih, sehingga instruksi harus mendorongnya menuju orisinalitas manusia. Dengan memberikan skor pada setiap komponen desain, evaluator dapat memberikan umpan balik yang lebih terukur kepada generator. Menggabungkan rubrik penilaian Anthropic ke dalam framework seperti GSD menawarkan keseimbangan antara kemudahan pengaturan dan ketegasan hasil.

Community Posts

View all posts