Apa Itu Harness Engineer & Mengapa Perannya Penting

AAI Jason
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Terima kasih kepada HubSpot yang telah mensponsori video ini.
00:00:03Jadi, ada sesuatu yang sangat besar terjadi pada Desember 2025.
00:00:07Dan sebagian besar orang bahkan tidak menyadarinya.
00:00:09Andrew Cupsey mencuitkan hal ini minggu lalu.
00:00:10"Sangat sulit untuk menjelaskan seberapa jauh pemrograman telah berubah karena AI dalam dua bulan terakhir,
00:00:15khususnya sejak Desember lalu."
00:00:17Dan Greg dari OpenAI juga membicarakan hal ini.
00:00:20Sejak Desember, terdapat peningkatan fungsi bertahap pada kemampuan model dan alat-alatnya.
00:00:24Dan beberapa insinyur memberi tahu dia bahwa pekerjaan mereka telah berubah secara mendasar sejak Desember
00:00:282025.
00:00:29Jadi, apa yang sebenarnya terjadi pada Desember 2025?
00:00:32Singkatnya, model terbaru yang diperkenalkan saat itu akhirnya siap untuk tugas mandiri
00:00:37yang berjalan dalam waktu lama.
00:00:38Jadi dengan AI, impian utamanya adalah saat kita tidur, AI bisa mengerjakan
00:00:43tugas secara mandiri, 24/7.
00:00:46Bahkan di tahun 2023, proyek yang paling populer, jika Anda ingat, bernama AutoGPT.
00:00:50Itulah pertama kalinya sistem agen yang sepenuhnya otonom diperkenalkan.
00:00:54Mereka memiliki arsitektur yang cukup mendasar dan sederhana yang menggunakan GPT-4 sebagai model untuk secara mandiri
00:00:59memecah daftar tugas berdasarkan tujuan pengguna dan memiliki penyimpanan memori sederhana untuk menyimpan
00:01:03hasilnya.
00:01:04Dan orang-orang melakukan hal-hal yang gila seperti memberi tujuan, hasilkan $100.000 dan
00:01:08membiarkannya mengulang tugas tanpa henti sampai selesai.
00:01:11Saat itu, sistemnya rusak dan gagal total karena modelnya memang belum siap.
00:01:15Namun sejak Desember tahun lalu, hal ini benar-benar berubah.
00:01:18Model-model tersebut memiliki kualitas yang jauh lebih tinggi, koherensi jangka panjang, dan dapat menyelesaikan
00:01:22tugas yang jauh lebih besar dan lebih lama.
00:01:24Dan kita melihat berbagai macam eksperimen muncul dari industri ini.
00:01:28Pertama, mulai Januari, kita mendapati konsep yang sangat populer bernama rough loop, dan sebagian besar iterasi
00:01:33agen sederhana untuk memaksa model bekerja lebih lama agar bisa menangani tugas
00:01:37yang lebih kompleks.
00:01:38Kita hanya membuat model mengulang terus dengan beberapa pemeriksaan kondisi sederhana, tapi kita sudah mulai melihat
00:01:42perbedaannya.
00:01:43Dan seminggu kemudian, Cursor juga merilis eksperimen mereka di mana mereka menggunakan GPT-5.2 untuk secara mandiri
00:01:49membangun browser dari nol dengan 3 juta baris kode.
00:01:52Dan Anthropic juga merilis eksperimen ini di mana mereka menggunakan tim kode cloud
00:01:57untuk bekerja secara mandiri pada kompiler C dari nol selama dua minggu.
00:02:01Dan pada akhirnya, ia menghasilkan versi fungsional tanpa pengodean manual sama sekali.
00:02:05Bahkan bisa menjalankan game Doom di dalam kompiler tersebut.
00:02:08Dan pada saat yang sama, OpenClaw mulai menarik perhatian dan mengalami pertumbuhan pesat yang belum pernah
00:02:13kita lihat sebelumnya.
00:02:14Sangat sulit untuk memahami apa yang terjadi dengan OpenClaw karena dari luar,
00:02:18sangat mudah untuk mengkategorikan OpenClaw sebagai gangguan lain, tapi ia hidup di dalam komputer
00:02:23Anda sendiri dan juga bisa diakses dari Telegram.
00:02:27Kenapa hal ini bisa begitu populer?
00:02:29Dan baru kemudian setelah saya menggunakannya secara mendalam, saya menyadari bahwa perbedaan sebenarnya adalah OpenClaw mewakili
00:02:35tipe agen yang selalu aktif, berjalan lama, dan sepenuhnya otonom yang sangat berbeda dari
00:02:40semua sistem agen lain yang kita gunakan sebelumnya di mana manusia adalah penggerak utama untuk meminta
00:02:45tindakan selanjutnya.
00:02:46OpenClaw selalu aktif dan bersifat proaktif.
00:02:49Dan perasaan otonom ini diciptakan oleh arsitektur yang cukup sederhana di mana ia memiliki
00:02:53lapisan konteks memori dengan pemicu dan cron job untuk mengambil tindakan secara otomatis dan memiliki
00:02:58akses komputer penuh, yang merupakan lingkungan yang sangat kuat untuk beroperasi.
00:03:02Dan saya percaya OpenClaw adalah proyek pertama yang benar-benar membuka pergeseran paradigma terbesar
00:03:06pada tahun 2026, bahwa kita berpindah dari sistem agen berbasis tugas sederhana seperti co-pilot ke agen otonom
00:03:13yang berjalan dalam waktu lama.
00:03:15Sesuatu yang selalu aktif, selalu siap, memberikan hasil kerja terkoordinasi yang sangat kompleks secara otomatis.
00:03:20Ini adalah pergeseran kritis yang harus Anda pahami.
00:03:22Model saat ini sebenarnya jauh lebih kuat dari yang Anda kira asalkan Anda merancang sistem yang tepat
00:03:27untuk membukanya.
00:03:28Dan ini adalah inti dari apa yang ingin saya bicarakan hari ini.
00:03:30Insinyur Hardness untuk memungkinkan sistem otonom yang berjalan lama.
00:03:34Jika ini pertama kalinya Anda mendengar tentang Insinyur Hardness, ini seperti evolusi dari apa yang
00:03:38sebelumnya kita bicarakan yaitu Insinyur Konteks atau Insinyur Prompt.
00:03:41Sebelumnya kita benar-benar fokus pada cara mengoptimalkan prompt dalam jendela konteks yang efektif
00:03:46agar model mendapatkan performa terbaik untuk satu sesi loop agen tunggal.
00:03:49Tetapi Insinyur Hardness benar-benar fokus pada tugas-tugas yang berjalan lama yang berarti bagaimana
00:03:53Anda merancang sistem yang dapat bekerja di berbagai sesi dan berbagai agen yang berbeda.
00:03:57Dan bagaimana Anda merancang alur kerja yang tepat untuk memastikan konteks yang relevan akan diambil
00:04:01untuk setiap sesi dan rangkaian alat yang tepat untuk memaksimalkan potensi model.
00:04:05Ini adalah konsep yang cukup baru, tapi untungnya industri sudah mulai sepakat pada
00:04:09beberapa praktik terbaik yang bisa Anda gunakan dari Anthropic, Vercel, LangChain, dan banyak lainnya.
00:04:14Mari kita bahas satu per satu agar Anda bisa melihat polanya.
00:04:16Namun sebelum kita mendalaminya, dengan pergeseran paradigma agen yang sepenuhnya otonom ini, salah satu peluang
00:04:21terbesar untuk 6-12 bulan ke depan adalah membangun OpenClaw untuk vertikal tertentu.
00:04:25Artinya Anda menyelidiki dan memahami secara mendalam alur kerja menyeluruh dari vertikal tertentu.
00:04:29Dan membangun agen otonom dengan lingkungan dan alat yang tepat untuk memungkinkan proses dari ujung ke ujung.
00:04:34Itulah mengapa saya ingin memperkenalkan riset luar biasa yang dilakukan HubSpot mengenai laporan
00:04:39adopsi AI dalam pemasaran email.
00:04:40Ini adalah laporan yang menarik bagi Anda untuk memahami vertikal seperti pemasaran email di mana orang-orang
00:04:44sebenarnya menggunakan AI saat ini dan apa saja kekurangannya.
00:04:47Karena laporan ini menunjukkan alur kerja dan peluang yang jelas dalam pemasaran email yang berpotensi
00:04:51dapat Anda otomatisasi.
00:04:52Mereka mensurvei ratusan pemasar email dari perusahaan papan atas untuk memahami dengan tepat bagaimana AI
00:04:57mengubah alur kerja mereka.
00:04:58Mereka membahas mengapa pemasar masih melakukan banyak pengeditan berat, apa penyebabnya,
00:05:03serta tantangan terbesar yang mereka hadapi saat ini saat mengimplementasikan AI dalam
00:05:06pemasaran email.
00:05:07Dan masing-masing adalah peluang besar bagi Anda untuk membangun agen yang sepenuhnya otonom.
00:05:11Mereka bahkan mendalami KPI spesifik yang lebih mereka pedulikan dan AI telah menunjukkan
00:05:15hasil yang terbukti.
00:05:16Serta apa saja hal yang sebenarnya diinginkan oleh para pemasar email dari AI.
00:05:20Jadi jika Anda seorang pengembang yang sedang memikirkan produk agen besar berikutnya untuk dibangun, saya sangat
00:05:24merekomendasikan Anda untuk melihat sumber daya yang luar biasa ini.
00:05:27Saya telah menyertakan tautannya di deskripsi di bawah untuk Anda unduh secara gratis.
00:05:30Dan terima kasih HubSpot karena telah mensponsori video ini.
00:05:32Sekarang mari kita kembali ke insinyur hardness untuk sistem agen yang berjalan lama.
00:05:36Dan secara garis besar, ada tiga pembelajaran yang saya ambil dari sana.
00:05:39Pertama adalah bahwa untuk agen tugas yang berjalan lama, bagian kritis dari desain sistem adalah menciptakan
00:05:44lingkungan yang terbaca di mana setiap sub-agen atau sesi dapat benar-benar memahami posisi
00:05:49segala sesuatunya.
00:05:50Kemungkinan besar ada beberapa alur kerja yang dapat dilakukan untuk memaksakan keterbacaan lingkungan.
00:05:54Dan saya akan menjelaskan lebih lanjut tentang hal itu.
00:05:56Kedua adalah verifikasi itu sangat krusial.
00:05:58Anda dapat meningkatkan output sistem secara signifikan dengan memungkinkannya memverifikasi pekerjaannya secara efektif
00:06:03dengan loop umpan balik yang lebih cepat.
00:06:04Dan ketiga adalah kita perlu lebih mempercayai model daripada membangun alat khusus
00:06:08yang membungkus banyak penalaran dan logika secara prematur.
00:06:11Kita harus memberikan konteks maksimal kepada model dengan alat umum yang mereka pahami secara alami dan
00:06:16membiarkannya bereksplorasi seperti manusia.
00:06:17Dan saya akan menguraikan ketiga hal itu satu per satu saat kita membahas setiap blok di sini.
00:06:20Pertama adalah blog Anthropic tentang harness yang efektif untuk agen yang berjalan lama.
00:06:24Mereka telah bereksperimen menggunakan SDK kode cloud untuk membangun agen khusus untuk tugas yang sangat
00:06:29lama seperti membangun kloning situs web cloud.ai.
00:06:32Kegagalan pertama yang mereka amati adalah, pertama, agen cenderung melakukan terlalu banyak hal sekaligus.
00:06:37Intinya, ia akan selalu mencoba menyelesaikan seluruh aplikasi dalam sekali jalan.
00:06:40Dan ini menyebabkan model kehabisan konteks di tengah-tengah implementasinya dan membiarkan
00:06:45sesi berikutnya dimulai dengan fitur yang baru setengah diimplementasikan atau didokumentasikan.
00:06:49Kemudian agen tersebut harus menebak-nebak apa yang sebenarnya terjadi dan menghabiskan banyak waktu untuk mencoba
00:06:52membuat aplikasi dasarnya berfungsi kembali.
00:06:55Dan kegagalan kedua yang mereka amati adalah agen cenderung menyatakan pekerjaan selesai secara prematur.
00:07:00Anda mungkin pernah mengalaminya sendiri beberapa kali.
00:07:02Kode cloud atau cursor akan mengklaim proyek atau fitur telah selesai.
00:07:05Tapi begitu Anda mengujinya, ternyata tidak berfungsi.
00:07:07Jadi pendekatan mereka untuk memecahkan perilaku kegagalan model standar tersebut adalah pertama-tama menyiapkan
00:07:12lingkungan awal yang meletakkan fondasi untuk semua fitur yang diperlukan oleh prompt yang diberikan, yang
00:07:16mengatur agen untuk bekerja selangkah demi selangkah dan fitur demi fitur.
00:07:20Jadi ini semacam pendekatan rencana atau PRD yang biasa kita lakukan.
00:07:23Kedua adalah ia mulai meminta setiap agen untuk membuat kemajuan bertahap menuju tujuannya
00:07:27sambil juga membiarkan lingkungan dalam keadaan bersih di akhir setiap sesi.
00:07:32Apa yang mereka lakukan adalah mulai merancang solusi dua bagian ini.
00:07:35Mereka akan memiliki agen inisialisasi yang menggunakan prompt khusus untuk meminta model menyiapkan
00:07:40lingkungan awal dengan skrip init.sh, yang akan menyiapkan server pengembangan, misalnya,
00:07:45sehingga model berikutnya tidak perlu mengkhawatirkan hal-hal tersebut.
00:07:48Dan juga file cloud progress.txt yang menyimpan log tentang apa yang telah dilakukan agen serta komit
00:07:53git awal yang menunjukkan file apa yang telah ditambahkan.
00:07:55Kemudian agen pengodean untuk setiap sesi berikutnya akan meminta model untuk membuat kemajuan bertahap,
00:08:01lalu meninggalkan pembaruan yang terstruktur.
00:08:02Dan semua upaya tersebut benar-benar mencoba melayani satu tujuan yaitu bagaimana mereka dapat menentukan
00:08:07sebuah lingkungan di mana agen dapat dengan cepat memahami status pekerjaan saat memulai dengan jendela
00:08:11konteks yang baru.
00:08:13Jadi alur kerjanya adalah agen inisialisasi pertama-tama akan mencoba menyiapkan lingkungan atau
00:08:17Anda bisa menyebutnya sistem dokumentasi untuk melacak dan mempertahankan rencana keseluruhan.
00:08:21Dan lingkungan yang mereka rancang di sini adalah pertama-tama mereka akan memiliki dokumen daftar fitur untuk
00:08:25mencegah agen menyelesaikan seluruh aplikasi sekaligus atau menganggap proyek selesai sebelum waktunya.
00:08:30Dan mereka akan meminta agen inisialisasi untuk memecah proyek menjadi lebih dari 200 fitur
00:08:34dan mencatatnya dalam file JSON lokal yang terlihat seperti ini, di mana setiap tugas memiliki spesifikasi terperinci
00:08:39serta status lulus atau gagal.
00:08:41Secara default, semua tugas akan ditandai sebagai gagal.
00:08:43Jadi memaksa model untuk selalu melihat tujuan proyek secara keseluruhan dan kemajuannya untuk mengambil tugas
00:08:49dengan prioritas tertinggi dan melakukan hal berikutnya.
00:08:50Tetapi agar alur kerja ini berhasil, mereka juga membutuhkan cara untuk memaksa model meninggalkan lingkungan
00:08:55dalam keadaan bersih setelah melakukan perubahan kode. Dalam eksperimen mereka, mereka menemukan cara terbaik
00:08:59adalah dengan meminta model mengomits kemajuan ke git dengan pesan komentar deskriptif dan menulis
00:09:05ringkasan kemajuannya dalam file progress, tapi apakah hanya dokumentasi dan lingkungan konteks
00:09:08saja sudah cukup? Ternyata tidak, karena model secara default memiliki kecenderungan untuk menandai sesuatu
00:09:13sebagai selesai tanpa pengujian yang tepat dan pada awalnya, mereka hanya meminta kode cloud
00:09:17untuk selalu melakukan pengujian setelah perubahan kode dengan melakukan unit test atau API test untuk
00:09:22server pengembangan.
00:09:23Tetapi semua hal itu seringkali gagal menyadari bahwa sebuah fitur tidak berfungsi secara menyeluruh.
00:09:27Karena hal-hal benar-benar mulai berubah ketika mereka memberikan model alat yang tepat untuk melakukan tes
00:09:30menyeluruh sendiri, seperti Puppeteer MCP atau Chrome dev tool, di mana agen dapat
00:09:35mengidentifikasi dan memperbaiki bug yang tidak terlihat secara langsung dari kodenya sendiri.
00:09:39Jadi pada dasarnya, mereka menyiapkan struktur di mana mereka memiliki agen yang diinisialisasi untuk memecah
00:09:43tujuan pengguna menjadi daftar fitur bersama skrip init.sh agar dapat menjalankan server pengembangan
00:09:47dan file kemajuan.
00:09:49Sehingga agen pengodean berikutnya bisa langsung membaca daftar fitur untuk mendapatkan pemahaman tentang
00:09:53rencana proyek secara keseluruhan dan mengambil tugas prioritas tinggi serta file kemajuan dan mendapatkan log untuk memahami
00:09:57sejauh mana perkembangannya.
00:09:59Kemudian jalankan init.sh untuk segera memulai server pengembangan dan lakukan tes menyeluruh untuk memverifikasi lingkungan
00:10:04sudah bersih sehingga ia bisa mendapatkan gambaran lengkap, loop umpan balik yang lebih cepat sementara setiap sesi baru
00:10:09dan jendela konteks terjadi.
00:10:10Di blog OpenAI, mereka membicarakan hal-hal yang sangat mirip.
00:10:13Anda harus memastikan lingkungan aplikasi Anda terbaca.
00:10:16Mereka membuat seluruh repositori sebagai sistem pengetahuan atau rekam jejak.
00:10:19Awalnya, mereka memasukkan file agents.md yang sangat besar dan gagal dengan cara yang sudah diprediksi karena
00:10:23konteksnya terlalu banyak untuk dikelola dan dipertahankan oleh agen mana pun.
00:10:27Jadi apa yang mereka lakukan adalah merancang struktur lingkungan dokumen yang tepat dan memperlakukan file agents.md sebagai daftar
00:10:32isi.
00:10:33Jadi mereka menyiapkan sistem dokumentasi ini mulai dari arsitektur, dokumen desain, rencana
00:10:37eksekusi, skema DB, spesifikasi produk, dan desain rencana front-end, keamanan, dan banyak lagi, dan
00:10:42memasukkan daftar isi ini ke dalam file agents.md sehingga agen dapat mengambil kembali informasi
00:10:47secara acak saat dibutuhkan.
00:10:49Dan ini memungkinkan pengungkapan progresif dan OpenAI sebenarnya melakukannya lebih jauh lagi.
00:10:53Mereka akan mencoba mendorong bukan hanya pengetahuan kode, tetapi juga Google Docs, pesan Slack, semua
00:10:58informasi terfragmentasi lainnya, memasukkan data tersebut ke dalam repositori sebagai versi lokal repositori
00:11:03artefak.
00:11:04Jadi agen juga bisa mengambilnya karena dari sudut pandang agen, jika sesuatu tidak bisa diakses
00:11:09di lingkungan tersebut, maka secara efektif hal itu dianggap tidak ada.
00:11:11Tetapi sekali lagi, dokumentasi itu sendiri tidak benar-benar membuat basis kode yang dihasilkan agen tetap koheren.
00:11:16Mereka juga memperkenalkan alur kerja terprogram tertentu untuk memaksakan invarians.
00:11:20Sebagai contoh, mereka melapisi arsitektur domain dengan batas-batas lintas sektor yang eksplisit, yang
00:11:25memungkinkan mereka untuk memaksakan aturan tersebut dengan pemeriksaan kustom, linter, dan pengujian struktural, yang
00:11:29dapat dipicu dan dimasukkan secara otomatis oleh setiap pre-komit git.
00:11:33Arsitektur tipe seperti itu biasanya akan Anda tunda sampai Anda memiliki ratusan insinyur
00:11:37di perusahaan perangkat lunak tradisional, tetapi dengan agen pengodean, ini adalah prasyarat awal.
00:11:41Dalam batas-batas tersebut, Anda memberikan tim dan agen kebebasan yang signifikan dalam bagaimana solusi
00:11:46diekspresikan tanpa perlu mengatur secara mikro dan khawatir arsitekturnya akan melenceng.
00:11:49Sementara itu, mereka juga banyak meningkatkan basis kode.
00:11:52Misalnya, mereka membuat aplikasi dapat dijalankan per pohon kerja git, sehingga kodek dapat meluncurkan dan
00:11:55menjalankan banyak instansi yang berbeda.
00:11:57Dan mereka juga menghubungkan protokol Chrome dev ke dalam runtime agen sehingga agen dapat
00:12:01mereproduksi bug, memvalidasi perbaikan, melalui snapshot DOM, tangkapan layar, dan navigasi.
00:12:05Dan dengan pengaturan lingkungan dan alur kerja tersebut, repositori tersebut akhirnya melampaui ambang batas
00:12:09minimum di mana kodek dapat menjalankan fitur baru dari ujung ke ujung.
00:12:13Jadi setiap kali kodek menerima satu perintah, agen akan mulai memvalidasi status
00:12:17basis kode saat ini, mereproduksi bug yang dilaporkan, merekam video untuk menunjukkan
00:12:21kegagalan, mengimplementasikan perbaikan, memvalidasi perbaikan dengan menjalankan aplikasi, merekam video
00:12:25kedua yang menunjukkan penyelesaiannya, dan akhirnya menggabungkan perubahan tersebut.
00:12:29Jadi kedua blok tersebut menunjukkan pembelajaran yang sangat baik dan sistem harness yang diperlukan yang perlu Anda terapkan
00:12:32untuk sistem yang sepenuhnya otonom.
00:12:34Sementara itu, ada juga pembelajaran tertentu.
00:12:36Sering kali saat kita membangun agen, terutama agen khusus vertikal, kecenderungan kita adalah
00:12:40membangun alat khusus untuk melakukan tugas-tugas khusus domain.
00:12:43Tujuan pembelajarannya adalah bahwa model pembelajaran besar hampir selalu bekerja lebih baik dengan alat umum
00:12:47yang mereka pahami secara alami.
00:12:49Vercel merilis artikel luar biasa ini tentang bagaimana mereka mendesain ulang tugas mereka ke agen SQL.
00:12:53Jadi mereka menghabiskan waktu berbulan-bulan membangun agen teks-ke-SQL internal yang canggih D0 dengan alat khusus
00:12:58rekayasa prompt yang berat dan manajemen konteks yang hati-hati.
00:13:02Tetapi seperti yang dialami banyak dari kita sebelumnya, sistem tipe tersebut memang berfungsi tetapi sangat rapuh,
00:13:06lambat, dan memerlukan perawatan terus-menerus.
00:13:09Karena setiap ada kasus khusus baru yang terjadi, Anda perlu memasukkan prompt baru ke agen tersebut.
00:13:12Namun kemudian mereka mencoba satu hal yang benar-benar mengubah lintasannya.
00:13:15Mereka menghapus sebagian besar alat khusus dari agen hingga menyisakan satu alat perintah batch tunggal.
00:13:20Dan dengan arsitektur yang jauh lebih sederhana ini, agen tersebut sebenarnya berkinerja 3,5 kali lebih cepat dengan
00:13:25token 37% lebih sedikit dan tingkat keberhasilan meningkat dari 80% menjadi 100%.
00:13:30Pembelajaran serupa juga dibagikan dari tim Anthropic di mana mereka berbicara tentang daripada
00:13:34memiliki alat eksekusi pencarian khusus, mereka hanya memiliki satu alat batch di mana
00:13:38mereka dapat menjalankan grep, tail, npm, npm run lint.
00:13:41Dan pada dasarnya, saya pikir itu karena model pembelajaran besar juga jauh lebih akrab
00:13:45dengan alat-alat asli kode yang memiliki miliaran token pelatihan dibandingkan pemanggilan alat pesanan
00:13:49JSON yang perlu ia hasilkan.
00:13:51Dan saya sudah membicarakan hal ini di video pemanggilan alat terprogram yang saya rilis minggu lalu.
00:13:55Dan saya percaya ini adalah prinsip dasar yang serupa di sini, tetapi fondasi dari arsitektur sederhana tersebut
00:13:59sekali lagi adalah konteks yang baik dan lingkungan dokumentasi di mana model dapat menggunakan alat umum
00:14:05untuk mengambil konteks secara bertahap.
00:14:06Dan hal yang sama terjadi pada OpenClaw.
00:14:09Salah satu alasan OpenClaw sangat menarik adalah karena mereka memiliki lingkungan konteks yang secara mengejutkan sederhana
00:14:13namun efektif.
00:14:15Mereka memiliki daftar dokumentasi untuk menyimpan informasi inti dengan fondasi ini.
00:14:18Mereka hanya memiliki alat yang paling dasar seperti membaca, menulis, mengedit file, menjalankan perintah batch
00:14:23dan mengirim pesan.
00:14:24Semua risikonya berasal dari memberikan lingkungan agen untuk mengambil konteks yang relevan ditambah perpustakaan keahlian
00:14:29yang besar untuk memperluas kemampuan.
00:14:31Jadi itulah tiga pembelajaran praktis tentang cara melakukan rekayasa hardness untuk agen kompleks
00:14:35yang berjalan lama.
00:14:36Dengan menyiapkan lingkungan konteks yang terbaca untuk memungkinkan setiap sesi mengambil konteks secara efektif
00:14:41dan alur kerja serta alat yang tepat sehingga model dapat memverifikasi pekerjaannya secara efektif, mendorong loop umpan balik
00:14:46yang lebih cepat dan mempercayai agen dengan alat umum yang mereka pahami secara alami.
00:14:50Jika Anda tertarik, saya akan membagikan lebih mendalam tentang bagaimana saya mengambil pembelajaran ini
00:14:54dan mengubahnya menjadi proses siklus hidup pengembangan.
00:14:58Di AI Builder Club, kami memiliki kursus dan panduan tentang vibe coding dan membangun agen
00:15:02produksi.
00:15:03Dan setiap minggu, saya sendiri dan para pakar industri membagikan pembelajaran praktis terbaru.
00:15:08Jadi jika Anda tertarik untuk mempelajari apa yang saya pelajari setiap hari, Anda bisa mengklik tautan
00:15:12di bawah untuk bergabung dengan komunitas kami.
00:15:13Saya harap Anda menikmati video ini.
00:15:14Terima kasih dan sampai jumpa di lain waktu.

Key Takeaway

Harness Engineering adalah kunci untuk membuka potensi penuh AI otonom melalui desain lingkungan yang terstruktur, verifikasi tugas yang ketat, dan penggunaan alat bantu umum yang dipahami model secara alami.

Highlights

Pergeseran paradigma AI pada Desember 2025 yang memungkinkan model menjalankan tugas mandiri berdurasi panjang secara otonom.

Munculnya 'Harness Engineering' sebagai evolusi dari prompt engineering yang berfokus pada desain sistem lintas sesi dan agen.

Pentingnya menciptakan lingkungan yang 'terbaca' (readable environment) agar agen AI dapat memahami status pekerjaan saat memulai jendela konteks baru.

Verifikasi mandiri melalui loop umpan balik yang cepat menggunakan alat seperti Puppeteer atau Chrome DevTools terbukti krusial bagi keberhasilan tugas.

Model AI bekerja lebih efektif dengan alat-alat umum (seperti perintah batch) dibandingkan alat khusus yang terlalu banyak mengandung logika kustom.

Proyek OpenClaw sebagai contoh agen proaktif yang selalu aktif dan memiliki akses komputer penuh untuk menyelesaikan alur kerja ujung-ke-ujung.

Timeline

Kebangkitan Agen Otonom Desember 2025

Bagian ini membahas perubahan fundamental dalam dunia pemrograman sejak Desember 2025 di mana model AI mulai mampu menangani tugas mandiri yang berjalan lama. Pembicara membandingkan kegagalan sistem AutoGPT di tahun 2023 dengan kemajuan model saat ini yang memiliki koherensi jangka panjang yang jauh lebih baik. Beberapa eksperimen besar disebutkan seperti penggunaan GPT-5.2 oleh Cursor untuk membangun browser dari nol serta keberhasilan Anthropic membuat kompiler C fungsional tanpa pengkodean manual. Hal ini menandai era baru di mana AI tidak lagi sekadar asisten, melainkan agen yang mampu memecah tujuan kompleks menjadi tugas-tugas kecil secara mandiri. Fenomena ini membuktikan bahwa kualitas model telah mencapai titik di mana mereka bisa dipercaya untuk menjalankan proyek berskala besar.

OpenClaw dan Pergeseran Paradigma 2026

Pembicara menguraikan popularitas OpenClaw sebagai proyek yang memicu pergeseran paradigma terbesar di tahun 2026. Berbeda dengan sistem 'co-pilot' yang menunggu instruksi manusia, OpenClaw bersifat proaktif, selalu aktif, dan mampu mengambil tindakan otomatis melalui pemicu atau cron job. Arsitektur OpenClaw yang sederhana namun kuat mencakup lapisan konteks memori dan akses komputer penuh yang memungkinkan koordinasi kerja yang sangat kompleks. Konsep 'Harness Engineering' diperkenalkan sebagai evolusi dari prompt engineering yang kini lebih berfokus pada desain alur kerja sistem secara keseluruhan. Fokus utamanya adalah memastikan konteks yang relevan dapat diambil di berbagai sesi dan agen yang berbeda untuk memaksimalkan potensi model.

Peluang Vertikal dan Integrasi HubSpot

Dalam segmen ini, pembicara menyoroti peluang besar untuk membangun agen otonom pada vertikal industri tertentu, seperti pemasaran email. Menggunakan riset dari HubSpot, dijelaskan bagaimana AI mengubah alur kerja para pemasar dan tantangan apa saja yang masih mereka hadapi dalam implementasinya. Laporan tersebut menunjukkan bahwa meskipun AI sudah digunakan, banyak pemasar masih melakukan pengeditan berat yang manual, yang sebenarnya merupakan peluang emas bagi pengembang untuk menciptakan solusi otomatis. Pembicara merekomendasikan laporan gratis dari HubSpot ini sebagai panduan bagi para pengembang untuk memahami KPI dan kebutuhan nyata di industri. Hal ini menunjukkan bahwa pemahaman mendalam tentang alur kerja spesifik adalah fondasi untuk membangun produk agen AI yang sukses di masa depan.

Tiga Prinsip Utama Harness Engineering

Pembicara merangkum tiga pembelajaran kritis untuk merancang sistem agen yang berjalan lama dan otonom. Pertama, sistem harus menciptakan lingkungan yang terbaca di mana sub-agen dapat memahami posisi tugas terakhir tanpa kebingungan. Kedua, proses verifikasi sangat krusial untuk memastikan output berkualitas tinggi melalui loop umpan balik yang lebih cepat dan otomatis. Ketiga, pengembang harus lebih mempercayai kemampuan penalaran model daripada membangun alat khusus yang terlalu rumit dan kaku secara prematur. Penjelasan ini didukung oleh observasi terhadap kegagalan umum agen, seperti kecenderungan melakukan terlalu banyak hal sekaligus atau menyatakan pekerjaan selesai secara prematur sebelum benar-benar berfungsi. Ketiga prinsip ini menjadi kerangka kerja utama bagi siapa saja yang ingin mengimplementasikan Harness Engineering.

Studi Kasus Anthropic: Dokumentasi dan Inisialisasi

Bagian ini mendalami eksperimen Anthropic dalam membangun agen khusus untuk tugas pengkodean berdurasi sangat panjang. Mereka menggunakan pendekatan dua bagian yang terdiri dari 'agen inisialisasi' untuk menyiapkan fondasi lingkungan dan 'agen pengodean' untuk kemajuan bertahap. Agen inisialisasi bertugas memecah proyek menjadi ratusan fitur kecil dalam file JSON yang melacak status lulus atau gagal setiap tugas secara mendetail. Penggunaan kontrol versi seperti Git sangat ditekankan agar setiap sesi baru dapat memulai dengan kondisi lingkungan yang bersih dan terstruktur. Selain itu, integrasi alat tes seperti Puppeteer memungkinkan agen untuk memverifikasi fungsionalitas aplikasi secara menyeluruh dari perspektif pengguna. Strategi ini berhasil mengatasi masalah keterbatasan jendela konteks dengan menyediakan sistem pelacakan progres yang handal.

Studi Kasus OpenAI dan Vercel: Struktur vs Alat Khusus

Pembicara membahas bagaimana OpenAI dan Vercel mengoptimalkan kinerja agen mereka dengan cara yang sedikit berbeda namun sejalan. OpenAI mengubah repositori menjadi sistem pengetahuan dengan file daftar isi yang memungkinkan pengungkapan informasi secara progresif kepada agen. Mereka juga menerapkan aturan arsitektur yang ketat melalui linter dan pengujian otomatis pada setiap proses komit Git untuk menjaga koherensi kode. Sementara itu, Vercel menemukan bahwa menghapus alat khusus yang rumit dan menggantinya dengan satu alat perintah batch justru meningkatkan performa agen hingga 3,5 kali lebih cepat. Hasil ini mengejutkan karena menunjukkan bahwa model AI lebih mahir menggunakan alat umum yang sering muncul dalam data pelatihannya. Kesederhanaan arsitektur ternyata memberikan tingkat keberhasilan yang lebih tinggi dan biaya token yang lebih rendah.

Kesimpulan dan Komunitas AI Builder Club

Video diakhiri dengan merangkum kembali bahwa kunci keberhasilan agen kompleks terletak pada lingkungan konteks yang terbaca, verifikasi mandiri, dan penggunaan alat umum. Pembicara menekankan bahwa model pembelajaran besar saat ini sudah sangat kuat, asalkan kita mampu merancang sistem 'harness' yang tepat untuk mendukungnya. Penonton diajak untuk bergabung dengan AI Builder Club untuk mempelajari lebih dalam tentang teknik 'vibe coding' dan siklus hidup pengembangan agen produksi. Komunitas ini menawarkan kursus dan panduan praktis dari para pakar industri yang terus memperbarui pengetahuan mereka setiap minggu. Pembicara menutup dengan harapan agar pembelajaran ini dapat membantu pengembang membangun sistem AI yang lebih otonom dan efektif. Penekanan terakhir diberikan pada pentingnya terus bereksperimen dengan praktik terbaik yang terus berkembang di industri ini.

Community Posts

View all posts