Skill Ini Punya SATU Tugas (Tapi Gagal)

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Ternyata, menggunakan "skills" mungkin bukan cara terbaik untuk memberi konteks tambahan pada agen Anda, dan Anda mungkin lebih beruntung jika kembali menggunakan file agents.md.
00:00:08Ini sebenarnya hasil mengejutkan yang ditemukan Vercel saat mereka menguji metode terbaik untuk memberikan dokumentasi Next.js kepada agen pengodean.
00:00:15Jadi, mari kita langsung bedah apa yang terjadi, mengapa hal itu bisa terjadi, dan apa yang bisa kita pelajari tentang penggunaan agen pengodean secara efektif.
00:00:26Seperti yang saya katakan, tujuan Vercel di sini adalah memberi agen pengodean konteks tambahan, dalam hal ini dokumentasi Next.js, sehingga saat Anda menggunakan agen tersebut untuk menulis kode Next.js, ia tahu semua API baru karena beberapa mungkin belum ada dalam data pelatihannya.
00:00:41Atau sebaliknya, bisa jadi itu versi lama Next.js dan Anda ingin memastikan agen tersebut hanya menggunakan metode yang tersedia di versi itu.
00:00:47Mereka menginginkan sistem dokumentasi yang sesuai dengan versi yang bisa digunakan oleh agen tersebut.
00:00:51Untuk melakukannya, mereka menguji dua pendekatan umum.
00:00:54Pertama, kita punya "skills".
00:00:56Ini cukup populer akhir-akhir ini dengan banyaknya framework dan alat yang merilisnya.
00:01:01Ironisnya, Vercel adalah salah satu pihak yang memopulerkannya dengan CLI skills dan repositori skills mereka.
00:01:08Sangat disarankan bagi Anda untuk mencobanya.
00:01:09Jika Anda belum tahu, skills sebenarnya hanyalah standar terbuka dari Anthropic yang berisi bundel instruksi, skrip, dan konteks modular yang dapat dimuat agen sesuai permintaan untuk menjalankan tugas dengan lebih akurat.
00:01:20Namun, ada detail krusial di sini: keputusan kapan harus memuat informasi ini sepenuhnya ada di tangan si agen.
00:01:26Dan bagian itulah yang tampaknya menjadi kelemahannya saat ini. Ketika Vercel melakukan evaluasi, mereka menemukan bahwa dalam 56 persen kasus, skill tersebut tidak pernah dipanggil.
00:01:35Agen tersebut memutuskan untuk tidak menggunakannya sama sekali.
00:01:37Anehnya lagi, memberikan skill kepada agen ternyata tidak memberikan peningkatan apa pun dalam evaluasi dibandingkan dengan agen yang tidak memilikinya.
00:01:44Dan yang lebih mengejutkan, mereka menemukan bahwa skill tersebut mungkin memberikan efek negatif.
00:01:48Terkadang performanya lebih buruk daripada baseline saat skill tidak digunakan, yang menunjukkan bahwa skill yang tidak terpakai mungkin menimbulkan gangguan atau distraksi.
00:01:57Untuk mengatasinya, mereka mencoba secara spesifik mengatakan dalam prompt, "tolong gunakan skill ini."
00:02:02Dan itu memang membantu. Hal tersebut meningkatkan tingkat pemicu skill menjadi 95 persen dan mendongkrak tingkat kelulusan evaluasi hingga 79 persen.
00:02:09Namun, hal itu juga membawa masalah tersendiri. Mereka menemukan bahwa pilihan kata yang berbeda menghasilkan hasil yang sangat berbeda.
00:02:15Misalnya, jika Anda hanya berkata "Anda harus menggunakan skill ini", agen akan melakukannya, tetapi kemudian melewatkan konteks proyeknya.
00:02:21Jadi, Anda harus berkata "gunakan skill dan konteks proyek sekaligus."
00:02:24Vercel tidak menyukai kerapuhan sistem ini, dengan menyatakan bahwa jika sedikit perubahan kata saja menghasilkan perubahan perilaku yang besar, pendekatannya terasa terlalu ringkih untuk penggunaan produksi.
00:02:33Jadi mereka butuh solusi yang lebih andal, mungkin di mana agen tidak perlu membuat keputusan itu sendiri.
00:02:40Di sinilah mereka mencoba file agents.md.
00:02:42Ini sebenarnya adalah format terbuka yang sudah digunakan banyak agen. Jika Anda penggemar Claude, ini sama persis dengan Claude.md.
00:02:49Ini digunakan untuk memberikan instruksi kepada agen pengodean yang selalu disertakan dalam system prompt.
00:02:53Jadi tidak seperti skills, agen tidak bertugas memutuskan kapan harus mengambil informasi.
00:02:58Informasinya sudah ada di system prompt. Namun, hal ini juga bisa menimbulkan masalah konteks tersendiri.
00:03:03Di mana saat konteks Anda bertambah besar, kualitas output-nya justru menurun.
00:03:06Bayangkan jika Anda memasukkan seluruh dokumentasi Next.js ke dalam file agents.md.
00:03:10Lalu bagaimana cara melakukannya? Nah, untuk menyiasati hal ini, Vercel hanya menggunakan indeks dokumentasi di dalam agents.md.
00:03:17Isinya hanyalah daftar path file ke setiap file dokumentasi individu di dalam sistem file Anda.
00:03:22Kemudian bagian krusial lainnya adalah menambahkan instruksi yang berbunyi: "utamakan penalaran berbasis pengambilan data (retrieval) daripada penalaran berbasis hasil pelatihan (pre-training) untuk setiap tugas Next.js."
00:03:31Secara pribadi, saat membaca ini, saya pikir hasilnya akan mirip dengan skills karena agen tetap harus mencari dan membaca file dokumentasi tersebut.
00:03:38Tetapi saat mereka mengujinya, agen tersebut skornya 100 persen pada semua pengujian dan mendapatkan nilai sempurna pada evaluasi build, lint, dan test.
00:03:47Jadi, cara ini jauh lebih andal dan akurat daripada skills. Ini seperti kasus klasik dalam rekayasa perangkat lunak.
00:03:53Di mana pendekatan yang lebih sederhana dan "bodoh" ternyata menjadi yang terbaik, tanpa perlu merancang sesuatu yang terlalu rumit.
00:03:58Tapi mengapa bisa begitu? Mengapa file agents lebih baik daripada skills? Sebenarnya sulit untuk memastikannya.
00:04:03AI itu seperti kotak hitam, tetapi Vercel berspekulasi bahwa hal ini disebabkan oleh tiga faktor, yang semuanya berpusat pada pengambilan keputusan.
00:04:10Saat Anda menggunakan file agents, tidak ada titik keputusan bagi si agen.
00:04:14Kita memberi tahu agen sejak awal di system prompt untuk menggunakan dokumentasi tersebut dan di mana tepatnya setiap file berada.
00:04:20Ini membuat pengetahuan tersebut menjadi konteks yang persisten, alih-alih bersifat on-demand yang membiarkan model memutuskan apakah akan menggunakannya atau tidak.
00:04:27Pengetahuan itu sudah ada dalam penalarannya karena kita menyediakannya di system prompt.
00:04:31Namun, ini bukan berarti skills sama sekali tidak berguna. Faktanya, Vercel menemukan bahwa keduanya saling melengkapi.
00:04:36Mereka mengatakan bahwa skills bekerja lebih baik untuk alur kerja yang dipicu pengguna secara eksplisit, seperti perintah "perbarui versi Next.js saya",
00:04:41"migrasi ke app router", atau "terapkan praktik terbaik framework ini."
00:04:45Tetapi jika Anda ingin agen pengodean memiliki pengetahuan framework secara umum,
00:04:48konteks pasif dengan agents.md akan mengungguli skills, terutama dengan model-model saat ini.
00:04:54Saya yakin di masa depan model-model akan dioptimalkan untuk alur kerja retrieval berbasis skill, tapi kita belum sampai di sana.
00:04:59Untuk saat ini, rekomendasi Vercel—terutama bagi penulis framework atau Anda yang akan menulis skills atau file agents.md—
00:05:06adalah jangan menunggu skills membaik. Kompres konteks Anda sebanyak mungkin.
00:05:10Desainlah untuk pengambilan data (retrieval), bukan untuk ingatan (memory). Dan yang terpenting, selalu uji semuanya dengan evaluasi.
00:05:16Dan jika Anda hanya pengguna file-file ini, Vercel menyediakan alat untuk mengunduh dokumentasi
00:05:21serta file agents.md yang sudah jadi untuk versi Next.js spesifik Anda, sehingga Anda bisa langsung memanfaatkan pendekatan baru ini.
00:05:29Saya penasaran apakah alat lain juga akan mengambil pendekatan ini. Dan saya juga ingin tahu pendapat Anda tentang hal ini.
00:05:34Tuliskan pendapat Anda tentang agents dan skills di kolom komentar di bawah.
00:05:37Dan selagi di sana, jangan lupa subscribe. Seperti biasa, sampai jumpa di video berikutnya.

Key Takeaway

Penggunaan file agents.md dengan indeks dokumentasi jauh lebih andal dan akurat dibandingkan fitur skills karena menghilangkan keraguan agen AI dalam memutuskan kapan harus mengambil konteks tambahan.

Highlights

Vercel menemukan bahwa penggunaan file "agents.md" lebih efektif daripada fitur "skills" untuk memberikan konteks pada agen AI.

Fitur "skills" seringkali gagal karena agen AI memutuskan untuk tidak memanggilnya dalam 56 persen kasus pengujian.

Menginstruksikan agen secara eksplisit untuk menggunakan "skills

Timeline

Masalah Utama: Kegagalan Fitur Skills

Video dimulai dengan temuan mengejutkan dari Vercel mengenai ketidakefektifan fitur "skills" dalam memberikan konteks dokumentasi Next.js kepada agen pengodean. Meskipun fitur ini populer dan didasarkan pada standar terbuka dari Anthropic, hasil pengujian menunjukkan performa yang tidak memuaskan. Masalah utamanya terletak pada detail krusial di mana keputusan untuk memuat informasi sepenuhnya berada di tangan agen AI. Pembicara menjelaskan bahwa Vercel ingin memastikan agen selalu menggunakan API terbaru atau versi spesifik dari Next.js melalui sistem dokumentasi yang sesuai. Hal ini penting karena data pelatihan model AI mungkin belum mencakup pembaruan framework yang paling mutakhir.

Evaluasi dan Kerapuhan Prompting

Dalam tahap evaluasi, Vercel menemukan bahwa dalam 56 persen kasus, fitur skill bahkan tidak pernah dipanggil oleh agen AI. Lebih buruk lagi, keberadaan skill tanpa penggunaan aktif terkadang memberikan efek negatif berupa gangguan yang menurunkan performa dibandingkan baseline. Upaya untuk memaksa penggunaan melalui instruksi prompt khusus memang meningkatkan tingkat pemicu hingga 95 persen, namun hasilnya menjadi sangat rapuh. Perubahan kecil dalam pilihan kata bisa membuat agen mengabaikan konteks proyek yang penting demi menjalankan skill tersebut. Ketidakstabilan ini membuat Vercel menyimpulkan bahwa pendekatan berbasis skill saat ini terlalu berisiko untuk digunakan dalam skala produksi.

Solusi File agents.md dan Hasil Sempurna

Sebagai alternatif, Vercel mencoba menggunakan file agents.md yang mirip dengan format Claude.md untuk memasukkan instruksi langsung ke dalam system prompt. Alih-alih memasukkan seluruh dokumen yang bisa merusak kualitas output, mereka hanya menyertakan indeks daftar path file dokumentasi di dalam sistem file. Instruksi tambahan diberikan agar agen mengutamakan penalaran berbasis pengambilan data (retrieval) dibandingkan pengetahuan dari masa pelatihan. Hasilnya sangat luar biasa karena agen berhasil meraih skor 100 persen pada semua pengujian termasuk build, lint, dan test. Pendekatan yang lebih sederhana dan "bodoh" ini terbukti jauh lebih efektif karena tidak memberikan ruang bagi AI untuk ragu atau salah mengambil keputusan.

Analisis Mengapa agents.md Lebih Unggul

Pembicara menganalisis alasan di balik keunggulan file agents yang berpusat pada penghapusan titik keputusan bagi model AI. Dengan menempatkan informasi di system prompt sejak awal, pengetahuan tersebut menjadi konteks persisten yang sudah terintegrasi dalam alur penalaran AI. Vercel berspekulasi bahwa model saat ini belum sepenuhnya optimal untuk alur kerja retrieval berbasis skill yang bersifat on-demand. Namun, fitur skills masih memiliki tempat untuk tugas-tugas spesifik yang diminta pengguna secara eksplisit, seperti migrasi ke app router. Untuk konteks pengetahuan framework yang bersifat umum, penggunaan agents.md tetap menjadi pilihan yang tidak terkalahkan saat ini.

Rekomendasi Strategi dan Kesimpulan

Bagian penutup memberikan saran praktis bagi para pengembang framework dan pengguna agen pengodean untuk tidak menunggu perbaikan pada teknologi skills. Vercel menyarankan untuk mengompres konteks sebanyak mungkin dan mendesain sistem untuk pengambilan data (retrieval) daripada mengandalkan ingatan model. Pengguna dapat memanfaatkan alat dari Vercel untuk mengunduh dokumentasi dan file agents.md yang sudah dioptimalkan sesuai dengan versi Next.js yang digunakan. Pembicara juga mengajak audiens untuk berdiskusi mengenai pengalaman mereka dalam menggunakan kedua metode tersebut di kolom komentar. Video berakhir dengan ajakan untuk berlangganan dan nantikan konten informatif berikutnya mengenai perkembangan dunia AI.

Community Posts

View all posts