00:00:00Agen AI punya satu masalah besar. Saat Anda memberi mereka URL, mereka sering mengeklaim telah membaca halamannya,
00:00:06tapi penglihatan internal mereka sering kali terhalang. Ada sebuah alat baru di luar sana
00:00:11bernama Agent Reading Test, yang dirancang oleh Dakary Carey dan dimaksudkan untuk mengatasi
00:00:16masalah ini. Alat ini menggunakan serangkaian Canary token, yang merupakan string unik yang tersembunyi di 10 halaman
00:00:23web yang berbeda, untuk membuktikan secara tepat di mana kemampuan membaca agen terhenti. Dalam video ini,
00:00:28kita akan melihat Agent Reading Test, melihat cara kerjanya, dan mencobanya sendiri.
00:00:34Ini akan sangat menyenangkan, jadi mari kita mulai.
00:00:37Kebanyakan orang berasumsi bahwa saat agen mengunjungi sebuah URL, ia melihat apa yang dilihat manusia. Namun kenyataannya,
00:00:47agen mengandalkan alur pengambilan data yang bisa terhambat oleh praktik pengembangan web modern.
00:00:53Agent Reading Test menyasar kegagalan spesifik ini. Salah satu contohnya adalah penguburan
00:00:59kerangka kode (boilerplate), di mana konten sebenarnya ditempatkan setelah 80.000 karakter inline CSS. Jika sebuah agen memiliki
00:01:06jendela konteks yang kecil untuk pengambilan awal, ia mungkin hanya melihat kode gaya dan menyimpulkan
00:01:12bahwa halamannya kosong. Tes ini mencakup 10 tantangan berbeda seperti ini, yang membantu kita
00:01:17mengidentifikasi apakah agen tersebut benar-benar membaca seluruh halaman. Contohnya, ada tes pemotongan.
00:01:22Token Canary ditempatkan di berbagai interval, seperti 75 ribu dan 130 ribu karakter. Dan ini menguji apakah
00:01:30alur agen memutus dokumentasi yang panjang. Dan sebagai contoh, banyak situs modern menggunakan aplikasi
00:01:36halaman tunggal di mana konten baru muncul setelah JavaScript dijalankan. Dan banyak agen hanya melihat
00:01:43indikator pemuatan dan hanya melihat kerangka halamannya saja. Tapi tes ini membantu kita mengidentifikasi apakah itu benar-benar
00:01:49terjadi. Terkadang ada situasi di mana kode yang rusak bisa menjadi penyebabnya. Seperti contohnya,
00:01:54tag markdown yang tidak tertutup bisa menelan sisa konten halaman, membuatnya tidak terlihat oleh
00:02:00parser agen. Dan terkadang dokumentasi menyembunyikan informasi di balik tab bahasa, seperti beralih
00:02:06antara contoh Python dan contoh Java. Jika agen hanya mengambil tab pertama, ia akan melewatkan
00:02:12sisa informasinya. Jadi tes ini membahas tantangan-tantangan ini dan tantangan serupa lainnya untuk mengevaluasi
00:02:17kemampuan sebenarnya agen dalam membaca halaman dan memberikan skor akhir dari 20. Tapi kita juga harus
00:02:23ingat bahwa tes ini tidak sempurna. Beberapa agen sebenarnya berhasil melakukan kecurangan
00:02:28menggunakan taktik licik. Salah satu temuan paling menarik dari tes ini adalah inflasi skor. Selama
00:02:35pengujian awal dengan agen seperti Claude Code, agen-agen tersebut sering mengeklaim menemukan 17 atau 18 token
00:02:42padahal mereka sebenarnya hanya menemukan 15. Mereka melakukan ini melalui cara pintas. Contohnya, jika sebuah halaman
00:02:48menggunakan pengalihan yang tidak diikuti oleh alur agen, agen tersebut mungkin menyadari pengalihan tersebut di
00:02:54header, secara manual mengambil URL baru di langkah kedua dan mengeklaim kreditnya. Meskipun ini membantu,
00:03:00ini menutupi fakta bahwa alat pembaca otomatis agen tersebut sebenarnya rusak. Jadi dalam beberapa
00:03:05kasus, inflasi skor masih bisa terjadi. Jadi, gunakan tes ini sebagai referensi saja. Tapi meski begitu,
00:03:11mari kita coba sendiri. Dan menjalankan tes ini cukup mudah.
00:03:16Anda bisa menjalankannya dengan mengarahkan agen AI atau alat peramban favorit Anda ke agentreadingtest.com dan memintanya
00:03:23menemukan semua token canary di situs tersebut. Lalu Anda harus membandingkan daftarnya dengan kunci jawaban
00:03:29yang disediakan di situs tersebut. Saya akan menunjukkan caranya sebentar lagi. Jadi dalam kasus saya, saya meminta Kimi 2.5 untuk
00:03:35melakukan tes tersebut. Saya hanya memberinya perintah awal dan membiarkannya bekerja. Dibutuhkan waktu
00:03:40sekitar dua menit bagi Kimi untuk menyelesaikan seluruh tes. Dan pada akhirnya, kita mendapatkan output teks yang panjang ini,
00:03:46yang sebaiknya kita abaikan saja karena kita hanya tertarik pada penanda canary yang dikembalikan
00:03:52kepada kita. Jadi carilah bagian di mana agen mengeluarkan penanda itu sendiri. Dan ini adalah petunjuk
00:03:58yang akan benar-benar mengevaluasi seberapa baik agen melakukan tes tersebut. Jadi kita harus menyalin daftar itu lalu
00:04:04menempelkannya di bagian skor di situs web untuk mendapatkan hasil akhir yang sebenarnya. Dan seperti yang Anda lihat,
00:04:10Kimi 2.5 mendapat skor 13 dari 20 poin. Dan kita juga mendapatkan gambaran yang lebih detail tentang di mana
00:04:16agen tersebut berhasil dan di mana ia gagal. Dan seperti yang Anda lihat, Kimi kesulitan membaca konten bertab.
00:04:23Dan kita juga melihat bahwa ia kesulitan membaca konten markdown dengan benar. Jadi secara keseluruhan, saya pikir ini
00:04:28adalah tes yang cukup keren yang memberi Anda gambaran tentang bagaimana agen sebenarnya membaca web dan mengidentifikasi
00:04:33di mana mereka mengambil jalan pintas atau menghasilkan halusinasi. Dan saya juga berpikir bahwa ini adalah
00:04:38pengingat yang baik bahwa meskipun dengan semua kecerdasan agen modern, masih ada beberapa area spesifik
00:04:44di web di mana agen masih kesulitan untuk mengambil informasi secara akurat. Jadi itulah,
00:04:49teman-teman, Agent Reading Test secara singkat. Apa pendapat kalian tentang hal ini?
00:04:54Jika Anda mencoba menjalankan tes ini untuk agen AI lainnya, kirimkan hasil Anda di kolom komentar
00:04:59di bawah ini. Saya sangat penasaran ingin melihat agen mana yang memiliki skor terbaik. Dan teman-teman, jika Anda suka
00:05:04analisis teknis seperti ini, beri tahu saya dengan menekan tombol suka di bawah
00:05:08video ini. Dan juga jangan lupa untuk berlangganan saluran kami. Saya Andris dari Better Stack,
00:05:14dan sampai jumpa di video berikutnya.