Loop Engineering Melipatgandakan Agen Hermes Hingga 10x Lipat

Bahasa Indonesiaالعربية Deutsch English Español Français हिन्दी 日本語 한국어 Português Русский 中文

컴퓨터/소프트웨어AI/미래기술

Transcript

00:00:00Ada istilah baru yang sedang populer dan mungkin sudah pernah Anda dengar.

00:00:04Namanya loop engineering dan seperti istilah hype lainnya, semua orang membicarakannya seolah ini hal baru.

00:00:09Padahal tidak. Tapi ketika digabungkan dengan agen yang selalu aktif seperti Hermes, ini bukan lagi sekadar hype.

00:00:13Kebanyakan orang yang mencoba mengaturnya berhasil membuat loop-nya, tetapi melewatkan hal yang sebenarnya

00:00:17membuatnya berfungsi. Jika Anda sudah tahu ada dua jenis loop, ada pengaturan khusus di dalam

00:00:22salah satunya yang hampir tidak dilakukan siapa pun. Begitu Anda melihatnya, cara Anda membangun dengan agen

00:00:27berubah total. Di akhir video ini, Anda akan mengerti apa itu sebenarnya dan Anda akan memilikinya

00:00:31berjalan di Hermes dan bahkan Claude Code tanpa Anda harus turun tangan sama sekali.

00:00:36Dengan loop engineering, ide intinya sederhana. Anda berhenti menjadi orang yang menulis prompt yang menggerakkan agen,

00:00:41dan sebaliknya, Anda membiarkan agen menggerakkan dirinya sendiri. Tetapi untuk melihat mengapa ini adalah sebuah perubahan,

00:00:46Anda harus membandingkannya dengan metode sebelumnya. Keahlian yang dulu penting adalah prompt engineering,

00:00:51di mana fokus kita tertuju pada menulis serangkaian instruksi yang tepat untuk menjalankan agen pengodean dengan benar.

00:00:56Tapi loop engineering membalikkan keadaan itu. Alih-alih menulis prompt sendiri,

00:01:01Anda merancang sistem yang melakukan prompt engineering untuk Anda dan menggerakkan agen dengan sendirinya,

00:01:05sehingga fokus beralih dari membuat instruksi menjadi merancang sistem yang berjalan sendiri.

00:01:10Semua ini dimulai ketika pembuat OpenClaw mengatakan bahwa Anda seharusnya tidak perlu lagi memberikan prompt pada agen pengodean,

00:01:15dan bahwa Anda harus fokus pada merancang loop yang memberikan prompt pada agen untuk Anda, dan dia bukan satu-satunya.

00:01:20Boris, yang merupakan pembuat Claude Code, juga menyampaikan klaim yang sama pada konferensi pengembang tahunan Anthropic,

00:01:25di mana dia mengatakan bahwa dia tidak lagi memberikan prompt pada Claude. Dia menjalankan loop yang memberikan prompt pada Claude,

00:01:30dan Claude mencari tahu sendiri apa yang perlu dilakukan. Jadi pertanyaannya adalah, bagaimana Anda memulainya?

00:01:34Semuanya bermuara pada seberapa baik Anda bisa mengatur sistem di mana Anda tidak perlu repot memberikan prompt pada agen sama sekali.

00:01:39Anda menentukan apa yang Anda butuhkan dan agen melakukan sisanya. Itulah tepatnya ke arah mana pengembangan berbasis AI menuju.

00:01:45Sebelum kita membahas cara membangunnya, Anda harus jelas tentang apa itu loop. Loop pada dasarnya adalah

00:01:50proses di mana Anda menentukan tujuan akhir dan agen menentukan langkah-langkah untuk mencapainya sendiri.

00:01:56Agen mengoreksi dirinya sendiri di sepanjang jalan dan mengatasi masalah hingga mencapai tujuan yang Anda tetapkan.

00:02:01Beberapa bulan lalu, sebelum model cukup mampu untuk melakukan tugas panjang, ini tidak mungkin dilakukan.

00:02:06Jika Anda perlu membuat aplikasi, Anda akan memberikan prompt pada agen, memantau apa yang dilakukannya,

00:02:11memeriksa hasilnya sendiri, menemukan masalah, dan memberikan prompt ulang untuk memperbaikinya.

00:02:16Anda adalah loop-nya. Anda adalah bagian yang melakukan pemeriksaan kesalahan dan koreksi antara setiap langkah.

00:02:20Seperti itulah pengembangan bagi kebanyakan orang, dan itulah yang akan dihilangkan oleh loop engineering.

00:02:25Ini mungkin terdengar seperti konsep baru, tetapi loop sebenarnya sudah ada sejak lama.

00:02:30Cron job adalah contoh bagus dari loop yang mungkin sudah sering Anda lihat.

00:02:35Tugas tersebut dijadwalkan untuk berjalan berulang kali secara otomatis tanpa Anda harus memicunya setiap kali.

00:02:39Satu-satunya perbedaan nyata adalah cron job berjalan pada waktu yang ditentukan. Jadi dengan adanya loop, pekerjaan berhenti menjadi sekadar menulis prompt.

00:02:44Performa agen Anda pada suatu tugas bergantung pada seberapa baik Anda mendefinisikan tujuan akhir.

00:02:49Bagi sebagian orang, proses ini akan terdengar seperti reinforcement learning (pembelajaran penguatan).

00:02:54Jika Anda belum pernah mendengarnya, reinforcement learning adalah cara melatih model di mana Anda tidak menunjukkan jawaban yang benar.

00:02:59Sebaliknya, Anda hanya memberi tahu model kapan ia berhasil dan kapan tidak, dan perlahan-lahan ia akan mencari tahu cara menjadi lebih baik sendiri.

00:03:04Model menemukan jalur yang benar dengan mencoba berbagai hal. Ia mendapat sinyal positif saat bergerak ke arah yang benar

00:03:09dan sinyal negatif saat tidak. Ide yang sama berlaku di sini, kecuali model itu sendiri bukan yang sedang dilatih.

00:03:14Sebaliknya, agen bekerja untuk menyelesaikan tugas yang Anda inginkan, melakukan iterasi dengan cara yang sama seperti model meningkatkan diri selama pelatihan.

00:03:19Jika gagal, loop yang Anda pasang pada agen tidak menandai tugas sebagai selesai.

00:03:23Agen akan mencoba lagi, terus berjalan, dan mengoreksi diri hingga mencapai tujuan yang Anda tetapkan.

00:03:28Nah, setelah mendengar semua ini, Anda mungkin bertanya-tanya apa yang sebenarnya tersisa untuk Anda lakukan

00:03:33jika semuanya menjadi otonom. Tetapi peran Anda tidak menyusut, justru menjadi lebih penting.

00:03:38Karena pengetahuan domain dan pengalaman Andalah yang mendefinisikan tujuan akhir sejak awal,

00:03:43dan itu akan terlihat pada semua yang Anda bangun dan luncurkan. Inilah alasan mengapa dorongan menuju loop otonom

00:03:48hanya akan semakin cepat dan terlihat pada setiap fitur baru yang dirilis saat ini. Fable 5 adalah

00:03:54contoh paling jelas. Anthropic merilisnya meskipun mereka sempat menyerukan perlambatan dalam pengembangan AI

00:03:59karena model menjadi jauh lebih mumpuni dengan kecepatan yang sulit diikuti. Dan setelah

00:04:03merilisnya untuk beberapa waktu, mereka bahkan menariknya kembali. Mereka membangunnya untuk tugas yang panjang dan kompleks,

00:04:08dan kinerjanya semakin baik seiring dengan semakin panjang dan kompleks tugasnya, yang pada dasarnya berlawanan dengan cara kerja model dulu.

00:04:13Perubahan ini benar-benar dimulai dengan Opus 4.5. Setelah rilis tersebut, tugas jangka panjang menjadi

00:04:19jauh lebih baik. Dan Anda tidak perlu lagi menyiapkan agen dengan panduan yang sangat teliti,

00:04:23pada dasarnya pengaturan terstruktur yang menuntun agen melalui setiap langkah. Fokusnya malah beralih ke

00:04:28mempersiapkan proyek agar dapat berjalan dalam jangka panjang karena model sekarang sudah cukup mumpuni untuk

00:04:33menangani banyak hal sendiri tanpa perlu banyak penanganan langkah demi langkah. Tapi loop bukan satu-satunya hal yang

00:04:38penting. Anda juga perlu menyusun proyek Anda dengan cara yang memungkinkan agen bekerja sendiri dalam waktu yang

00:04:43lama tanpa Anda harus turun tangan. Jadi banyak orang telah membangun dan menyediakan sistem sumber terbuka

00:04:48untuk pengaturan semacam ini. Loop RALF adalah salah satu yang pertama. Ia bekerja dengan menetapkan tujuan akhir

00:04:53dan memastikan agen tidak menyimpang dari tujuan tersebut. Hal ini dilakukan melalui hook, yang pada dasarnya

00:04:57adalah skrip yang berjalan secara otomatis ketika sesuatu yang spesifik terjadi. Jadi skrip ini secara ketat mencegah agen menandai

00:05:03tugas sebagai selesai kecuali jika kondisinya benar-benar terpenuhi. Tapi hook bersifat kaku, jadi Claude memperkenalkan perintah tujuannya sendiri,

00:05:09yang melakukan hal yang sama tetapi dengan lebih fleksibel. Alih-alih pemeriksaan yang dikodekan secara kaku, perintah ini memungkinkan

00:05:14model lain untuk memutuskan apakah tugas tersebut benar-benar selesai. Kami membahas Goal Buddy 2, yang membangun hal itu

00:05:19dengan meminta agen melacak kemajuannya dalam file lokal dan mendefinisikan dengan tepat seperti apa bentuk 'selesai' itu

00:05:24sebelum ia mulai, sehingga agen selalu tahu apa yang sedang ia kerjakan. Agen Hermes dan OpenClaw keduanya

00:05:29dibangun dengan filosofi yang sama. Mereka mengeluarkan Anda dari gambar sepenuhnya dan membiarkan agen menangani semuanya

00:05:35sendiri. Nah, jika Anda ingin membangun loop ini, kami memiliki sistem lima langkah sederhana untuk Anda, dan karena

00:05:40ada dua jenis loop, beberapa langkah tersebut bekerja sedikit berbeda, tetapi kita akan membahas kedua jenis tersebut

00:05:45nanti. Untuk saat ini, kita akan mulai di Claude Code dan nanti di video ini, kita akan melihat cara melakukan hal yang sama

00:05:49pada agen Hermes. Langkah pertama adalah memeriksa keadaan proyek saat ini. Dari sana, model

00:05:54memutuskan apa tindakan selanjutnya. Kemudian ia bertindak berdasarkan keputusan itu, dan inilah tempat pekerjaan yang sebenarnya

00:05:59terjadi. Agen memanggil alat, menulis ke file, dan menjalankan perintah untuk menyelesaikan tugas. Setelah itu

00:06:04selesai, ia mengumpulkan umpan balik untuk melihat apa yang sebenarnya terjadi, dan berdasarkan itu, ia memutuskan apakah

00:06:09tugas tersebut sudah selesai atau belum. Inilah juga di mana perbedaan antara prompt engineering dan loop engineering menjadi

00:06:14jelas. Dengan prompt engineering, Anda hanya mengendalikan langkah keputusan, sementara loop engineering

00:06:19menangani kelima langkah tersebut secara bersamaan. Membangun loop yang berfungsi dengan baik berarti melakukan beberapa hal dengan benar,

00:06:24dan masing-masing ada di sana karena masalah spesifik yang diselesaikannya. Yang pertama adalah manajemen konteks.

00:06:29Anda memperhatikan apa yang masuk ke dalam konteks pada setiap giliran karena itulah yang menentukan apa yang agen

00:06:34ketahui pada titik tertentu. Anda tidak bisa hanya mengandalkan konteks obrolan saja, bahkan dengan jendela konteks

00:06:39sebesar satu juta token, yang pada dasarnya adalah seberapa banyak yang dapat ditampung agen dalam memori sekaligus, karena saat

00:06:44percakapan tumbuh, prompt sistem dan instruksi Anda terkubur di bawah output alat terbaru. Perhatian agen secara alami

00:06:50tertarik ke apa pun yang paling baru, jadi hal-hal penting terabaikan. Itulah mengapa

00:06:55mengelola konteks sangat penting. Hal berikutnya yang harus diperbaiki adalah kualitas umpan balik. Umpan balik adalah yang memberi tahu

00:07:00agen bagaimana kinerjanya, dan itu adalah salah satu sinyal terpenting dalam keseluruhan sistem. Umpan balik bisa berbentuk banyak

00:07:05hal, seperti output dari hasil tes atau tangkapan layar UI yang baru saja dibuatnya, dan dalam bentuk apa pun itu,

00:07:11itulah yang dibaca agen untuk menentukan langkah selanjutnya. Gerbang verifikasi adalah apa yang mengubah umpan balik tersebut

00:07:16menjadi keputusan yang jelas. Mereka adalah pos pemeriksaan yang memberi tahu agen apakah suatu tugas benar-benar selesai

00:07:21atau tidak. Anda juga memerlukan kondisi terminasi, pada dasarnya aturan yang memberi tahu loop kapan harus berhenti, dan yang satu ini

00:07:26harus ditetapkan secara eksplisit, jika tidak, agen akan berhenti terlalu cepat atau terus berjalan tanpa membuat kemajuan

00:07:31nyata. Hal yang paling sering diabaikan orang adalah penanganan kesalahan. Anda harus menjelaskan apa yang harus dilakukan model

00:07:36ketika panggilan alat gagal, sehingga sistem menanganinya dengan bersih alih-alih membiarkan sesuatu dalam

00:07:41keadaan rusak yang hanya menimbulkan lebih banyak masalah. Dan akhirnya, Anda perlu mengelola status di seluruh giliran,

00:07:46pada dasarnya melacak di mana tugas tersebut berada saat percakapan tumbuh. Jendela konteks tidak dapat menampung

00:07:51segalanya selamanya, jadi Anda bersandar pada file eksternal yang melacak informasi untuk agen dan membiarkannya tetap

00:07:57bekerja tanpa kehilangan alur. Namun, satu hal yang perlu diingat, karena Anda menyerahkan tugas

00:08:01mencari tahu jalur ke model alih-alih melakukannya sendiri, loop menjadi mahal dalam hal token,

00:08:06jadi Anda harus berhati-hati mengenai kapan Anda benar-benar menggunakannya. Semakin banyak token yang bisa ditangani oleh loop,

00:08:11semakin baik ia cenderung menangani tugas tersebut. Namun sebelum kita lanjut, mari kita dengarkan pesan dari

00:08:15sponsor kita, Scrimba. Kebanyakan kursus Python hanya berisi seseorang yang berbicara di atas slide. Scrimba berbeda,

00:08:21pemutar video mereka adalah editor kode, jadi Anda bisa menjeda kapan saja, mengedit kode instruktur secara langsung,

00:08:26dan melihat apa yang terjadi. Tidak perlu pindah tab, tidak perlu copy-paste, hanya praktik coding sejak awal.

00:08:31Kursus 'Learn Python' baru mereka menarik perhatian saya karena alih-alih latihan acak, Anda benar-benar

00:08:37membangun sesuatu yang nyata. Sejak hari pertama, Anda membangun PayUp, aplikasi pembagi pengeluaran yang berfungsi penuh,

00:08:42dan setiap konsep langsung diterapkan. Anda mulai dari nol mutlak, tidak perlu pengetahuan Python sebelumnya,

00:08:47dan mengerjakan variabel, string, menangkap input pengguna, operator aritmatika, konversi tipe,

00:08:53pembersihan data, dan pemformatan angka, semuanya dengan membangun fitur untuk aplikasi tersebut. Pada akhirnya,

00:08:57Anda telah membangun proyek yang berfungsi dari nol yang membuktikan Anda benar-benar tahu Python. Ini hanya bagian

00:09:02satu dari beberapa bagian yang akan tersedia selama beberapa minggu mendatang, dan saat ini, semuanya benar-benar gratis untuk

00:09:07diakses. Mulailah hari ini dengan kursus gratis mereka, dan pengguna kami akan mendapatkan diskon tambahan 20% untuk paket pro mereka.

00:09:12Jadi klik tautan di komentar yang disematkan, atau pindai kode QR, dan mulai membangun hari ini.

00:09:18Seperti yang kami sebutkan, ada dua jenis loop. Yang pertama disebut loop deterministik. Anda menggunakannya

00:09:23untuk tugas-tugas yang memiliki definisi jelas tentang seperti apa bentuk 'selesai' itu, itu bisa berupa tes yang lulus,

00:09:28kode yang berhasil dikompilasi, atau apa pun semacam itu. Loop ini cukup mudah untuk dikerjakan

00:09:33menuju tujuan tersebut, karena tujuan akhirnya jelas, sehingga model tahu persis apa yang perlu dilakukannya sebelum bisa menyebut

00:09:38tugas tersebut selesai. Karena Hermes selalu berjalan, itu adalah agen yang sangat baik untuk mengimplementasikan loop ini. Kami

00:09:43telah membuat banyak alur kerja di atasnya sebelumnya, dan menunjukkan di video kami sebelumnya bagaimana ia menangani banyak pekerjaan kami

00:09:49sendiri. Inti dari loop deterministik adalah definisi yang jelas tentang tujuan akhir, dan untuk aplikasi

00:09:54yang telah Anda host, definisi itu adalah tes Anda. Jadi Anda bisa mengarahkan agen Hermes ke aplikasi apa pun yang telah Anda

00:09:59deploy dengan kasus tes dan memintanya untuk memantaunya untuk Anda. Sekarang jika perubahan atau commit berakhir merusak

00:10:04produksi, Anda bisa menyiapkan otomatisasi di Hermes untuk menangkapnya. Alasan mengapa ini paling baik di sini adalah karena ia

00:10:09dilengkapi dengan fitur keahlian yang berevolusi sendiri (self-evolving skills), sehingga ia secara otomatis membuat dan mengembangkan keahlian berdasarkan

00:10:14alur kerja yang menjaga kesehatan aplikasi tetap terkendali. Setelah Anda menyiapkan otomatisasi pemantauan tersebut, Anda

00:10:18bisa memintanya untuk menjalankan Claude Code dalam mode non-interaktif, pada dasarnya menjalankannya sendiri tanpa Anda

00:10:23harus menggerakkannya, dan memintanya memperbaiki masalah dalam loop hingga semua kasus tes lulus. Apa yang ia lakukan dari

00:10:28sana adalah menyiapkan alur kerja otomatisasi dan memuat keahlian seperti keahlian pengembangan berbasis sub-agen

00:10:34dan keahlian alur kerja GitHub PR yang memberitahunya cara mengelola aplikasi di GitHub. Ia pertama-tama mengidentifikasi

00:10:39masalah yang merusak produksi, kemudian meluncurkan Claude Code dalam mode non-interaktif, yang mengambil

00:10:44tes dan melakukan commit perubahan setelah semuanya lulus. Setelah ia menjalankan setiap tes dan memperbaiki apa pun

00:10:50yang menyebabkan kegagalan produksi, ia menggunakan CLI GitHub untuk melakukan commit perubahan. Aplikasi akhirnya berjalan

00:10:55tanpa kegagalan karena ia telah memastikan bahwa semua pemeriksaan untuk deployment yang sukses sudah ada.

00:11:00Jika Anda menyukai analisis ini, berlanggananlah ke saluran ini, klik lonceng notifikasi, dan tekan tombol hype

00:11:05juga. Di saluran ini, kami memposting konten yang membantu Anda mempelajari cara baru untuk mengoptimalkan berbagai

00:11:10proses di berbagai bisnis dengan AI. Dukungan Anda, baik itu berlangganan, lonceng notifikasi,

00:11:15atau tombol hype, membantu kami membuat lebih banyak konten seperti ini dan menjangkau lebih banyak orang. Itu sangat berarti bagi kami.

00:11:21Nah, jenis yang kedua adalah loop non-deterministik, dan ini adalah tugas di mana Anda tidak bisa begitu saja menetapkan aturan

00:11:26yang jelas untuk memeriksa apakah pekerjaan sudah selesai seperti yang Anda bisa lakukan dengan loop deterministik. Karena itu,

00:11:31tidak ada cara bersih untuk memverifikasi hasilnya. Ini adalah jenis hal yang bisa kita sebagai manusia

00:11:36lihat dan nilai sendiri, seperti membangun UI atau mengimplementasikan fitur yang membutuhkan penilaian.

00:11:41Jadi ketika Anda bekerja dengan loop non-deterministik, alur kerjanya berbeda. Jika Anda menerapkan

00:11:46AI pada UI, Anda sudah tahu bahwa AI cenderung kembali ke pola yang sama sepanjang waktu. Itulah mengapa kami

00:11:51membuat keahlian bernama 'AI Slop Detector' yang berisi semua instruksi tentang cara menghindari 'AI slop' dan mencantumkan

00:11:57pola-pola yang sebenarnya mengungkapnya. Dan alasan kami menggunakan Hermes lagi adalah keahlian yang berevolusi sendiri.

00:12:02Jika kami masih menemukan AI slop di UI setelah menjalankan keahlian tersebut, keahlian itu bisa diperbarui sendiri untuk

00:12:07memasukkan umpan balik tersebut secara langsung, dan itulah tepatnya mengapa kami mengatur alur kerja ini di Hermes. Jadi kami meminta

00:12:13Hermes untuk menggunakan keahlian tersebut dan memeriksa apakah UI memiliki pola-pola itu. Jika ada, ia memperbaikinya

00:12:18dan meluncurkan Claude Code dalam mode non-interaktif untuk menjalankan keahlian tersebut dan terus memperbaiki apa yang ditemukannya hingga

00:12:23tidak ada lagi yang perlu diperbaiki. Keuntungan lain yang kami dapatkan dari Hermes adalah model yang meninjau pekerjaan tersebut

00:12:28berbeda dari model yang membangunnya. Kami menggunakan model GPT yang dikenal sebagai salah satu yang terbaik untuk

00:12:33tinjauan kode, jadi model Claude menjadi pembangun dan agen lainnya menjadi verifikator. Itulah yang

00:12:38melengkapi loop adversarial di mana keduanya saling memeriksa pekerjaan satu sama lain. Setelah loop itu berjalan, ia menghasilkan

00:12:43UI yang jauh lebih baik daripada output umum yang dihasilkan model Opus saat ini. Dan jika Anda masih menemukan tanda-tanda AI

00:12:49slop di UI setelah loop agen berakhir, Anda bisa menyebutkannya dan itu akan memperbarui keahlian untuk

00:12:54Anda, memperkuat verifikator yang sudah Anda miliki. Kami telah meningkatkan keahlian ini untuk mencocokkan beberapa pola AI slop

00:12:59yang kami dan Hermes identifikasi secara kolektif. Jika Anda ingin menggunakan keahlian ini, Anda bisa mendapatkannya dari komunitas kami,

00:13:04AI Labs Pro. Tautannya akan ada di deskripsi. Itu membawa kita ke akhir video ini.

00:13:09Jika Anda ingin mendukung saluran ini dan membantu kami terus membuat video seperti ini, Anda bisa melakukannya dengan menggunakan

00:13:14tombol super thanks di bawah. Seperti biasa, terima kasih telah menonton dan sampai jumpa di video berikutnya.

Key Takeaway

Loop engineering mengubah peran manusia dari pengelola prompt menjadi arsitek sistem otonom yang memungkinkan agen AI seperti Hermes menyelesaikan tugas kompleks secara mandiri melalui iterasi diri.

Highlights

Loop engineering mengalihkan fokus dari penulisan prompt manual ke perancangan sistem otonom yang menggerakkan agen AI.
Sistem loop memungkinkan agen AI untuk memperbaiki kesalahan secara mandiri hingga mencapai tujuan akhir tanpa intervensi manusia.
Performa agen meningkat drastis saat menangani tugas kompleks dan berdurasi panjang dengan pendekatan otonom.
Loop deterministik menggunakan definisi keberhasilan yang jelas, seperti lulus pengujian kode atau kompilasi, untuk memantau aplikasi secara otomatis.
Loop non-deterministik memanfaatkan mekanisme verifikasi adversarial di mana satu model membangun hasil dan model lain bertindak sebagai verifikator.
Hermes dan Claude Code dapat diintegrasikan dalam mode non-interaktif untuk menjalankan alur kerja otomatisasi secara penuh.

Timeline

Konsep Loop Engineering

Loop engineering memindahkan tanggung jawab penulisan prompt dari manusia ke sistem.
Agen AI dalam sistem ini mampu mengoreksi diri sendiri dan mengatasi masalah tanpa panduan langkah demi langkah.
Metode ini menggantikan peran manusia yang sebelumnya harus memantau hasil dan memberikan prompt ulang di setiap langkah.

Pengembangan berbasis AI kini berfokus pada desain sistem loop di mana agen menentukan langkah-langkah untuk mencapai tujuan akhir secara otonom. Dibandingkan dengan prompt engineering tradisional yang memerlukan instruksi presisi, loop engineering menggunakan tujuan akhir sebagai pemicu utama. Model AI saat ini telah cukup mumpuni untuk menangani tugas panjang dan kompleks tanpa perlu campur tangan manual di antara setiap langkah.

Membangun Sistem Loop

Manajemen konteks yang efektif mencegah agen mengabaikan instruksi penting akibat tumpukan output alat.
Gerbang verifikasi dan kondisi terminasi eksplisit diperlukan agar agen tidak berhenti terlalu cepat atau terjebak dalam loop tanpa kemajuan.
Penanganan kesalahan yang terdefinisi dengan jelas memungkinkan sistem pulih dari kegagalan panggilan alat secara otomatis.

Membangun loop yang berfungsi memerlukan lima langkah: memeriksa keadaan proyek, menentukan tindakan, menjalankan alat, mengumpulkan umpan balik, dan melakukan verifikasi. Efisiensi loop sangat bergantung pada kualitas umpan balik dan manajemen status di luar jendela konteks utama. Karena sistem ini intensif token, penggunaan harus dilakukan secara strategis untuk efektivitas biaya.

Implementasi Deterministik dan Non-Deterministik

Loop deterministik menggunakan kasus tes yang jelas sebagai kriteria penyelesaian tugas.
Loop non-deterministik memanfaatkan verifikasi adversarial dengan menggunakan model yang berbeda untuk membangun dan memeriksa hasil.
Penggunaan keahlian yang berevolusi sendiri pada agen Hermes memungkinkan sistem memperbarui mekanisme perbaikan secara otomatis.

Loop deterministik sangat cocok untuk pemantauan aplikasi di mana tes produksi berfungsi sebagai acuan keberhasilan. Sebaliknya, tugas seperti pengembangan UI menggunakan loop non-deterministik yang membutuhkan penilaian manusiawi atau verifikasi oleh model kedua. Dengan menggabungkan model pembangun dan verifikator, sistem dapat menghasilkan output yang lebih berkualitas dan bebas dari pola-pola generik yang tidak diinginkan.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video