00:00:00Jadi, oke.
00:00:02Apa model AI terbaik saat ini?
00:00:04Claude, GPT, Gemini.
00:00:07Dan sejujurnya, menurutku itu pertanyaan yang salah.
00:00:11Benar-benar pertanyaan yang salah.
00:00:14Singkat saja, aku Daniel.
00:00:16Aku sudah mendalami pengembangan iOS selama lebih dari delapan tahun.
00:00:20Memulai sebagai pekerja lepas, merancang antarmuka pengguna,
00:00:24berpindah dari satu klien ke klien lain,
00:00:25merilis ide orang lain
00:00:27sambil mencoba mematangkan ideku sendiri.
00:00:28Lalu setelah tahun 2025, aku memutuskan untuk terjun solo.
00:00:33Tanpa klien lagi, tanpa jaring pengaman.
00:00:36Sejak itu, aku sudah membuat lebih dari 15 aplikasi sendiri,
00:00:39semuanya pakai Swift UI, semuanya dibangun secara publik.
00:00:41Dan saat ini, sejujurnya, seluruh energiku
00:00:44dikerahkan untuk membuat studio solo ini
00:00:46menjadi sesuatu yang benar-benar bertahan lama.
00:00:49Bukan sekadar MVP cepat atau aplikasi AI murahan,
00:00:52tapi aplikasi sungguhan yang tahan uji saat berkembang.
00:00:55Dan ya, seluruh proses itu,
00:00:57perjalanan yang berliku itu ada di crafterslab.
00:01:00Alamatnya di crafterslab.dev,
00:01:01dan ini bukan sekadar kuburan tutorial atau pabrik kloning AI.
00:01:06Ini benar-benar markas utamaku,
00:01:08dibuat untuk pengembang solo yang menggunakan AI sebagai rekan tim sejati.
00:01:12Bukan seperti mesin penjual otomatis yang kau pencet saat buntu
00:01:14lalu berharap yang terbaik.
00:01:16Jika kau peduli dengan kualitas karya,
00:01:18jika kau serius ingin naik level
00:01:20dan membangun sesuatu yang benar-benar awet,
00:01:23ya, kau akan merasa cocok di sini.
00:01:24Dan hei, jika kau masih di Patreon,
00:01:26terima kasih banyak, tapi sekadar info.
00:01:29Semuanya sudah pindah ke crafterslab.dev.
00:01:32Di sanalah semua anggota berkumpul sekarang.
00:01:33Mari membangun bersama kami.
00:01:35Jadi, inilah yang membuatku terpikirkan hal ini.
00:01:38Ada sebuah studi yang baru saja dirilis.
00:01:41Para peneliti menerbitkan tolok ukur bernama Epic's Agent.
00:01:45Dan yang membuatnya berbeda dari tolok ukur lainnya
00:01:49yang sering diperdebatkan orang secara daring
00:01:51adalah ini menguji agen pada pekerjaan profesional nyata,
00:01:55bukan teka-teki pemrograman atau pilihan ganda.
00:01:58Kita bicara tentang tugas nyata yang dilakukan konsultan, pengacara,
00:02:03dan analis setiap harinya.
00:02:05Setiap tugas butuh waktu sekitar satu hingga dua jam bagi manusia.
00:02:08Jadi mereka menguji setiap model utama melaluinya.
00:02:11Model terbaik menyelesaikan tugas-tugas tersebut
00:02:13hanya sekitar 24% dari waktu yang ada, satu dari empat.
00:02:17Dan setelah delapan kali percobaan dengan model yang sama,
00:02:20angkanya hanya naik ke sekitar 40%.
00:02:23Padahal, ingat, ini adalah model-model yang sama
00:02:26yang skornya di atas 90% pada tolok ukur
00:02:29yang membuat semua orang heboh.
00:02:32Jadi antara tolok ukur itu tidak akurat
00:02:33atau kita mengukur hal yang salah.
00:02:36Dan menurutku kemungkinannya yang kedua, kan?
00:02:37Tapi oke, di sinilah letak poin penting bagi kita.
00:02:41Para peneliti menyelidiki mengapa agen-agen itu gagal.
00:02:46Dan jawabannya bukan karena modelnya bodoh.
00:02:49Mereka punya semua pengetahuan yang dibutuhkan.
00:02:51Mereka bisa memikirkan solusi masalah dengan baik.
00:02:54Kegagalan tersebut hampir seluruhnya
00:02:56terkait dengan eksekusi dan orkestrasi.
00:03:00Agen-agen tersebut mulai bingung setelah terlalu banyak langkah.
00:03:02Mereka mengulang pendekatan yang sudah jelas gagal.
00:03:05Mereka kehilangan jejak tentang apa yang seharusnya
00:03:09mereka lakukan sejak awal.
00:03:11Dan jika kau pengembang solo yang memakai Claude Code
00:03:14atau Cursor setiap hari, ya, kau pasti pernah merasakannya.
00:03:18Kau melihat agen itu berputar-putar mencoba hal
00:03:21rusak yang sama sampai tiga kali,
00:03:23benar-benar lupa konteks dari 20 langkah sebelumnya.
00:03:26Dan kau hanya bisa duduk termenung sambil berpikir,
00:03:28"Mungkin aku harus ganti ke Opus."
00:03:30"Mungkin aku butuh penyedia layanan lain,"
00:03:32tapi data menunjukkan bukan itu masalahnya.
00:03:34Modelnya bukanlah penghambatnya.
00:03:36Tapi segala hal yang membungkusnya.
00:03:38Dan ada satu kata untuk itu.
00:03:40Aku rasa kata ini akan mendefinisikan tahun 2026
00:03:43seperti halnya kata "agen" mendefinisikan 2025.
00:03:46Kata itu adalah "harness" (kerangka kendali).
00:03:47Harness agen mencakup seluruh infrastruktur
00:03:50di sekitar model; apa yang bisa dilihatnya,
00:03:52alat apa yang bisa diaksesnya,
00:03:54bagaimana ia pulih saat terjadi kendala,
00:03:56dan bagaimana ia mencatat apa yang dilakukan dalam sesi yang panjang.
00:03:59OpenAI baru saja menerbitkan tulisan blog
00:04:02berjudul Harness Engineering.
00:04:04Anthropic merilis panduan lengkap tentang membangun harness
00:04:07yang efektif untuk agen yang berjalan lama.
00:04:09Manus, perusahaan AI yang baru saja diakuisisi Meta,
00:04:13menerbitkan pelajaran rekayasa konteks mereka
00:04:16setelah membangun ulang seluruh kerangka kerja agen
00:04:19sebanyak lima kali dalam enam bulan, lima kali.
00:04:22Dan mereka semua mengatakan hal yang sama.
00:04:24Harness adalah tempat pekerjaan rekayasa yang sesungguhnya,
00:04:27bukan pada modelnya.
00:04:28Oke, dan ini bagian yang sejujurnya mengejutkanku
00:04:32karena ini benar-benar berlawanan
00:04:34dengan cara kebanyakan dari kita membangun alat ini.
00:04:38Ada cerita menarik dari Vercel.
00:04:41Mereka punya agen teks-ke-SQL.
00:04:43Kau ajukan pertanyaan, ia menulis kueri SQL,
00:04:46dan mereka membangunnya seperti kebanyakan orang, kan?
00:04:49Memberinya banyak alat khusus,
00:04:51satu untuk memahami skema basis data,
00:04:54satu untuk menulis kueri, satu untuk validasi hasil.
00:04:58Semua penanganan kesalahan ini membungkusnya,
00:05:01dan itu berhasil sekitar 80% dari waktu.
00:05:04Lalu mereka mencoba sesuatu yang radikal.
00:05:06Mereka membuang 80% alat tersebut, dicabut saja,
00:05:11memberi agen itu hal-hal dasar: jalankan perintah bash, baca file,
00:05:15alat baris perintah standar seperti grep dan cat,
00:05:18jenis alat yang sebenarnya kau atau aku gunakan.
00:05:20Dan tingkat akurasinya naik dari 80% ke 100%.
00:05:25Ia menggunakan token 40% lebih sedikit,
00:05:28dan tiga setengah kali lebih cepat.
00:05:31Jujur saja, itu luar biasa, bukan?
00:05:33Dan insinyur yang membangunnya mengatakan sesuatu
00:05:36yang sangat membekas bagiku.
00:05:38Model-model menjadi semakin pintar.
00:05:40Jendela konteks menjadi semakin besar.
00:05:42Jadi mungkin arsitektur agen terbaik
00:05:44adalah hampir tanpa arsitektur sama sekali.
00:05:46Dan itu mengubah segalanya, kau tahu maksudku?
00:05:50Karena insting kita, terutama saat bekerja solo
00:05:54dan mencoba membuat sistem ini andal,
00:05:57adalah terus menambah alat, menambah pembatas,
00:06:01dan menambah logika perutean.
00:06:02Kau pikir lebih banyak struktur akan membantu,
00:06:04tapi alat-alat itu tidak membantu modelnya.
00:06:06Malah jadi penghalang.
00:06:08Dan ini bukan kejadian langka.
00:06:10Manus pun menyadari hal yang persis sama.
00:06:13Mereka membangun ulang seluruh kerangka kerja agen mereka
00:06:16lima kali dalam enam bulan,
00:06:19dan peningkatan performa terbesar mereka
00:06:21bukan datang dari penambahan fitur.
00:06:23Tapi justru dari membuang fitur tersebut.
00:06:25Mereka membuang pengambilan dokumen yang rumit,
00:06:28menghentikan logika perutean yang canggih,
00:06:29dan mengganti agen manajemen dengan serah terima terstruktur yang sederhana.
00:06:34Setiap iterasi, sistemnya jadi lebih simpel dan lebih baik.
00:06:37Dan inilah bagian yang menurutku perlu didengar
00:06:40oleh setiap pengembang solo yang menjalankan sesi Claude Code yang lama.
00:06:42Manus menemukan bahwa agen mereka rata-rata
00:06:45melakukan sekitar 50 panggilan alat per tugas.
00:06:49Itu langkah yang sangat banyak.
00:06:50Dan bahkan dengan model yang secara teknis mendukung
00:06:53jendela konteks yang sangat besar,
00:06:54performa akan menurun setelah titik tertentu.
00:06:58Modelnya tidak tiba-tiba lupa segalanya.
00:07:01Tapi lebih seperti sinyal utama tertimbun gangguan.
00:07:04Instruksi pentingmu di awal sesi
00:07:07hilang di bawah ratusan hasil perantara.
00:07:10Jadi solusi mereka sangat sederhana.
00:07:12Mereka mulai memperlakukan sistem file
00:07:14sebagai memori eksternal model.
00:07:17Alih-alih menjejalkan semuanya ke dalam jendela konteks,
00:07:20agen menulis info kunci ke dalam sebuah file
00:07:23dan membacanya kembali saat dibutuhkan.
00:07:25Dan ya, jika kau memakai Claude Code,
00:07:27kau pasti pernah melihat ini.
00:07:29File claude.md, daftar tugas, pelacakan progres,
00:07:34itu adalah pola yang sama yang terjadi
00:07:36di terminalmu setiap hari.
00:07:37Baiklah, ingat apa yang kukatakan
00:07:40tentang semua orang menuju pada ide yang sama?
00:07:44Karena saat kau melihat
00:07:45tiga sistem agen paling sukses saat ini,
00:07:49semuanya sampai pada kesimpulan yang sama
00:07:51meski dari arah yang benar-benar berbeda.
00:07:53Codex dari OpenAI punya pendekatan berlapis.
00:07:57Ada orkestrator yang merencana,
00:07:59eksekutor yang menangani tugas individu,
00:08:02dan lapisan pemulihan untuk menangani kegagalan.
00:08:06Sangat tangguh.
00:08:07Kau bisa memberinya tugas lalu pergi meninggalkannya.
00:08:09Itu satu filosofi.
00:08:10Claude Code, yang kugunakan setiap hari.
00:08:14Intinya sebenarnya cuma empat alat.
00:08:16Baca file, tulis file, edit file,
00:08:19jalankan perintah bash, itu saja.
00:08:21Kebanyakan kecerdasan ada pada model itu sendiri.
00:08:23Harness-nya tetap minimalis.
00:08:25Dan saat kau butuh lebih, ekstensibilitasnya lewat MCP
00:08:28dan keahlian yang dipelajari agen sesuai kebutuhan.
00:08:30Lalu Manus sampai pada apa yang kusebut
00:08:33kurangi, pindahkan, isolasi; aktif mengecilkan konteks,
00:08:38memakai sistem file untuk memori,
00:08:40menjalankan sub-agen untuk tugas berat,
00:08:43lalu hanya membawa kembali ringkasannya.
00:08:45Tiga pendekatan yang sama sekali berbeda,
00:08:47semuanya bertemu pada pemahaman yang sama.
00:08:50Harness lebih penting daripada modelnya.
00:08:52Dan bagi pengembang solo,
00:08:55ini mengubah apa yang seharusnya
00:08:57apa yang seharusnya Anda lakukan
00:08:59Karena, kita tidak punya waktu tak terbatas.
00:09:01Setiap jam yang Anda habiskan di Reddit untuk berdebat
00:09:05Claude vs GPT adalah satu jam saat Anda tidak merilis produk.
00:09:08Dan ada ide dari Richard Sutton,
00:09:11salah satu pencipta reinforcement learning,
00:09:14yang disebut "the bitter lesson" (pelajaran pahit).
00:09:16Argumen intinya adalah bahwa
00:09:18pendekatan yang berskala dengan komputasi
00:09:21selalu berakhir mengalahkan pendekatan
00:09:23yang mengandalkan pengetahuan yang dirancang manual
00:09:26terkait apa yang kita kerjakan.
00:09:27Itu berarti sesuatu yang sangat spesifik.
00:09:29Seiring model menjadi lebih pintar,
00:09:31harness Anda harusnya menjadi lebih sederhana,
00:09:33bukan lebih rumit.
00:09:34Jika Anda menambahkan lebih banyak logika kode manual,
00:09:36lebih banyak alur kustom di setiap pembaruan model,
00:09:40Anda sedang melawan arus.
00:09:42Dan sejujurnya, over-engineering itulah
00:09:44yang mungkin membuat agen Anda terus-menerus error.
00:09:47Jadi, inilah yang sebenarnya akan saya coba.
00:09:49Pertama, lakukan eksperimen Vercel itu sendiri.
00:09:52Jika Anda memiliki semacam pengaturan agen,
00:09:54preteli semuanya, hapus alat-alat khusus,
00:09:57berikan terminal bash dan akses file dasar
00:10:00dan lihat saja apa yang terjadi.
00:10:02Model tersebut kemungkinan lebih pintar
00:10:03daripada alur alat yang Anda bangun di sekitarnya.
00:10:06Kedua, tambahkan file progres.
00:10:08Biarkan agen Anda mengelola daftar tugas berjalan
00:10:10yang ia perbarui setelah setiap langkah.
00:10:13Ia membaca file tersebut di awal setiap tindakan,
00:10:15dan menulis ke sana di akhir.
00:10:17Ini persis seperti yang dilakukan Claude Code
00:10:19dengan file-file markdown tersebut.
00:10:20Dan itu pola yang sama yang ditemukan Manish
00:10:22setelah lima kali merombak total kodenya.
00:10:24Saya sebenarnya punya sistem lengkap untuk ini
00:10:26di laboratorium dengan semua instruksi agen
00:10:29dan template .md, siap pakai jika Anda penasaran.
00:10:33Dan ketiga, mulailah belajar tentang MCP dan skills.
00:10:37Ini memberi model cara yang bersih dan standar
00:10:40untuk bekerja dengan alat eksternal
00:10:42tanpa Anda harus mengodekan setiap integrasi secara manual.
00:10:44Di situlah letak fleksibilitasnya sekarang.
00:10:462025 adalah tahunnya para agen.
00:10:50Dan sebagian besar, ya, itu memang terjadi.
00:10:53Tapi 2026, saya rasa 2026 adalah tahunnya harness
00:10:58dan model yang sama, benar-benar model yang sama
00:11:03berperilaku sangat berbeda di Claude Code
00:11:06dibandingkan di Cursor atau di Codecx.
00:11:08Jadi, pilihlah harness Anda dengan hati-hati,
00:11:11baik saat menggunakan agen pengodean atau membangunnya.
00:11:14Dan ya, jika Anda masih menyimak,
00:11:17sejujurnya, Anda luar biasa.
00:11:18Dan dengar, saya tahu diskusi soal model sedang sangat ramai.
00:11:22Setiap minggu ada rilis baru, benchmark baru,
00:11:24utas baru tentang model mana yang terbaik.
00:11:27Tapi data yang sebenarnya, rekayasa yang sebenarnya
00:11:30yang keluar dari perusahaan yang membangun hal ini,
00:11:32semuanya menunjuk ke arah lain.
00:11:34Harness adalah tempat kemenangan sebenarnya berada.
00:11:37Dan sebagai pengembang solo, itu kabar baik
00:11:40karena membangun harness yang lebih baik
00:11:42adalah sesuatu yang bisa Anda lakukan sekarang juga
00:11:45tanpa menunggu rilis model berikutnya.
00:11:47Dan jika Anda ingin mendalami bagaimana saya sebenarnya
00:11:51mengatur semua ini, file .md, alur kerja agen,
00:11:56bagaimana saya menghubungkan semuanya untuk aplikasi saya,
00:11:59silakan kunjungi crafterslab.dev.
00:12:02Ini bukan sekadar tumpukan tutorial atau konten AI biasa.
00:12:06Ini murni markas saya yang dibangun untuk pengembang solo
00:12:09yang menganggap AI sebagai rekan tim sungguhan
00:12:11dan benar-benar peduli dengan produk yang mereka buat.
00:12:13Di dalamnya, Anda mendapatkan panduan lengkap,
00:12:15tutorial video singkat, berbagai keahlian Claude Code
00:12:19yang bisa langsung Anda ambil dan gunakan,
00:12:21dan sumber daya yang dapat diunduh untuk dimasukkan
00:12:24langsung ke dalam proyek Anda.
00:12:26Para anggota berdiskusi di komentar, bertanya,
00:12:29dan saling bertukar pikiran.
00:12:30Ini adalah percakapan nyata, bukan sekadar umpan konten satu arah.
00:12:34Tapi intinya adalah ruang tim Notion,
00:12:37playbook live saya, Anda mendapatkan kursi barisan depan
00:12:40tentang cara saya menjalankan setiap aplikasi yang saya bangun,
00:12:42file .md asli yang saya gunakan pada proyek nyata,
00:12:46perpustakaan prompt, dokumen yang saya tulis sambil jalan,
00:12:49semua otomatisasi yang berjalan di balik layar,
00:12:51tidak ada yang dipoles untuk kamera, hanya proses nyata,
00:12:55termasuk bagian yang berantakan, dan ada Swift Brain,
00:12:58perpustakaan Swift dan Swift UI yang dikurasi
00:13:01yang telah saya bangun selama bertahun-tahun, presentasi mendalam,
00:13:04pembicaraan pribadi yang saya kurasi dengan biaya sendiri,
00:13:07materi yang tidak akan Anda temukan berkeliaran
00:13:10di data pelatihan publik.
00:13:11Inilah yang sebenarnya saya gunakan untuk membangun MCP kustom
00:13:16untuk mengatur keahlian bagi Claude Code, Cursor, semuanya,
00:13:20selalu bereksperimen, selalu berbagi apa yang berhasil,
00:13:23dan kemudian Ops Lab.
00:13:25Di situlah semua instruksi agen AI berada,
00:13:28template Notion, keahlian Claude Code,
00:13:31alur kerja, otomatisasi yang semuanya sudah terhubung
00:13:33dan siap untuk Anda salin, bongkar,
00:13:36hancurkan total, dan bangun kembali dengan cara Anda sendiri.
00:13:38Intinya adalah menjaga tumpukan teknologi independen tetap terhubung
00:13:41sehingga Anda tidak pernah benar-benar membangun sendirian,
00:13:44meskipun Anda sendirian di depan keyboard.
00:13:46Jadi ya, jika Anda ingin bergabung selagi anggotanya masih sedikit
00:13:49dan harga masih terkunci, sekarang adalah waktu yang tepat.
00:13:52Rasanya lebih seperti ruang santai pengembang di balik layar
00:13:55daripada forum raksasa tanpa identitas,
00:13:57saya akan sangat senang melihat Anda di sana.
00:14:00Saling bertukar pendapat tentang masalah harness ini,
00:14:02mungkin belajar sesuatu dari apa yang Anda bangun selanjutnya.
00:14:05Teruslah berkarya, teruslah bereksperimen,
00:14:08dan jangan biarkan kebisingan benchmark mengalihkan Anda
00:14:10dari apa yang sebenarnya penting.
00:14:12Sampai jumpa.