Log in to leave a comment
No posts yet
Jika Anda hanya mengambil HTML dari halaman web sebagai teks biasa, agen AI akan kehilangan arah. Meskipun teksnya terlihat, hierarki dokumennya hilang. Menurut data penelitian yang dirilis pada tahun 2024, metode yang mempertahankan struktur hierarki dokumen meningkatkan akurasi pencarian lebih dari 30% dibandingkan dengan metode pemotongan teks biasa. Saya yakin kuncinya adalah membuat agen AI segera memahami bobot data dengan melihat informasi header.
Hal pertama yang harus dilakukan adalah membuang get_text() dari BeautifulSoup. Sebaliknya, gunakan pustaka Markdownify untuk memetakan tag HTML ke header Markdown. Anda harus menggunakan strategi chunking induk-anak yang membagi Markdown yang dikonversi berdasarkan unit header untuk menyediakan seluruh bagian atas sebagai konteks. Dengan menggunakan pustaka Trafilatura secara bersamaan, Anda dapat mengurangi konsumsi token hingga 67% sambil mengekstrak isi teks utama. Ini adalah cara paling pasti untuk menghemat biaya dan meningkatkan akurasi.
Crawler statis tidak akan pernah bisa membaca data yang tersembunyi di balik menu tab atau akordeon yang diimplementasikan dengan JavaScript. Saya berpendapat bahwa data yang tidak terlihat ini adalah penyebab utama yang merusak kualitas jawaban sistem RAG. Playwright terhubung langsung ke CDP, protokol dasar browser, sehingga mengontrol konten dinamis lebih cepat dan lebih kuat daripada Selenium. Melihat kasus penerapan nyata, sistem yang mengimplementasikan urutan klik otomatis mengamankan data 30% lebih banyak daripada pengumpulan manual.
Saat membangun logika otomatisasi berbasis Playwright, jalankan fungsi page.wait_for_selector dalam loop. Anda harus benar-benar menunggu hingga elemen yang dapat diklik muncul di layar. Kemudian, panggil metode scroll_into_view_if_needed() untuk memaksa terjadinya scroll tanpa batas atau permintaan AJAX. Klik setiap tab secara berurutan dan tangkap serta simpan status DOM yang berubah secara real-time. Hanya setelah melalui proses inilah database tanpa kehilangan data dapat diselesaikan.
Iklan, footer, dan bilah menu membuang-buang context window agen AI dan mencemari vektor embedding. Gangguan (noise) pada situs web lebih serius daripada yang dikira, sehingga data yang tidak dimurnikan tidak ada bedanya dengan racun bagi AI. Readability.js menganalisis kepadatan teks dan tautan untuk memilih hanya teks utama yang berisi informasi aktual. Dalam hasil benchmark, Readability mencatat nilai median performa sebesar 0.970 pada semua jenis halaman, yang secara akurat menghapus elemen di luar teks utama.
Masukkan algoritma ini ke dalam pipeline pemurnian data Anda. Masukkan HTML yang dikumpulkan ke dalam Readability.js untuk memfilter hanya judul dan teks utama, lalu hapus spasi yang tidak perlu dengan ekspresi reguler (regex). Jika teks yang dimurnikan ini dikonversi ke Markdown dan disimpan, jumlah data yang harus dibaca oleh agen AI akan berkurang hingga 90%. Relevansi pencarian meningkat 2.29 kali lipat. Jauh lebih efisien untuk memasukkan data yang bersih daripada memaksakan banyak data.
Sebagian besar situs web melihat flag navigator.webdriver untuk memblokir akses agen AI. Jika Anda tidak ingin menghadapi layar CAPTCHA, strategi siluman (stealth) sangat penting. Gerakan mekanis akan cepat ketahuan. Saya melihat cara meniru perilaku manusia secara matematis sebagai solusi yang paling cerdas.
Pertama, gunakan plugin playwright-stealth untuk menghapus flag webdriver dan memalsukan user-agent menjadi versi Chrome terbaru. Saat menggerakkan mouse, gunakan kurva Bezier, bukan garis lurus.
Saat mengetik, masukkan juga penundaan acak antara 50ms hingga 200ms untuk setiap karakter. Hanya dengan beristirahat secara acak selama 2 hingga 5 detik saat berpindah halaman, Anda dapat menghindari pengawasan sistem anti-bot. Ini mungkin terlihat sedikit lambat, tetapi jauh lebih cepat daripada diblokir dan tidak bisa mengumpulkan data sama sekali.