Otomatisasi Analisis PDF Berantakan dengan Claude Code dan RAG-Anything

Menganalisis ratusan halaman PDF dan tabel yang rumit secara lokal adalah pekerjaan yang sangat melelahkan. Masalah ini tidak selesai hanya dengan menginstal alat saja. Otomatisasi kerja yang nyata baru dimulai ketika data yang berantakan dimurnikan menjadi konteks kemurnian tinggi yang dapat langsung "dikunyah" dan ditelan oleh AI.

Isolasi Proyek Secara Fisik untuk Mencegah Halusinasi

Saat menggunakan Claude Code, terkadang muncul situasi di mana AI menjawab pertanyaan Proyek A menggunakan angka dari Proyek B. Fenomena ini terjadi ketika basis data vektor atau graf pengetahuan (knowledge graph) tercampur. Untuk mencegahnya, Anda harus merancang struktur folder standar di dalam root proyek dan menetapkan jalurnya.

Struktur yang paling rapi adalah menempatkan file asli di docs/raw/, hasil konversi MinerU di docs/output/, dan indeks graf pengetahuan RAG-Anything di docs/context_db/. Dengan pemisahan seperti ini, file status seperti kv_store_doc_status.json tidak akan tertukar.

Agar Claude Code hanya memantau jalur ini, diperlukan konfigurasi pada .claudecode/config.json.

Buat direktori .claudecode di root proyek.
Tambahkan rag-anything ke dalam item mcpServers di dalam config.json.
Tetapkan nilai RAG_STORAGE_DIR menjadi ./docs/context_db pada pengaturan env.

Setelah pengaturan ini selesai, AI hanya akan menggunakan data dari jalur yang telah ditentukan. Akurasi jawaban akan meningkat dan risiko tercampurnya data dengan klien lain akan hilang.

Teknik Penambahan Margin untuk Meningkatkan Akurasi Pengenalan Tabel MinerU

PDF hasil pemindaian (scan) atau tata letak multi-kolom sering kali menurunkan tingkat akurasi OCR. Jika tabel menempel pas di tepi halaman, model pendeteksi tata letak YOLO mungkin salah mengidentifikasinya sebagai bingkai dan menghapus seluruh tabel tersebut. Solusinya sederhana: tambahkan margin putih sekitar 40 piksel di sekeliling gambar.

Dalam praktiknya, tabel yang menempel pada bingkai hanya memiliki tingkat akurasi sekitar 3% tanpa margin, namun melonjak hingga 98% setelah ditambahkan margin 40px. Untuk dokumen hasil pemindaian yang buram, gunakan OpenCV untuk menyesuaikan kontrasnya. Gunakan rumus berikut untuk menyesuaikan nilai $\alpha$ (kontras) antara 1,0 hingga 3,0 agar batas karakter menjadi lebih tajam.

g(i,j) = \alpha \cdot f(i,j) + \beta

Setelah menerapkan teknik CLAHE melalui skrip Python dan memasukkannya ke MinerU, jumlah ekstraksi data tabel akan meningkat puluhan kali lipat. Memaksa AI untuk membaca dokumen yang secara visual pun buram hanya akan membuang-buang waktu.

Mencegah System Down Akibat Kurangnya VRAM

Hambatan terbesar saat memproses dokumen dalam jumlah besar secara lokal adalah memori GPU. Meskipun MinerU versi 2.5 telah menjadi lebih cepat, sistem sering kali berhenti (freeze) saat memproses PDF berukuran besar di lingkungan VRAM kurang dari 24GB. Untuk stabilitas, parameter num_batch harus diturunkan dari nilai default 512 menjadi 32 atau 64.

Ubah num_batch menjadi 32 dan gpu_memory_utilization menjadi 0.7 pada file konfigurasi MinerU.
Jika menggunakan lingkungan Linux, batasi memory overcommit di /etc/sysctl.conf.
Buat file swap minimal 8GB untuk mengantisipasi lonjakan penggunaan memori (memory peak).

Mengurangi ukuran batch mungkin sedikit memperlambat kecepatan pemrosesan, namun ini dapat mencegah kegagalan proses di tengah jalan. Penyelesaian tugas yang stabil jauh lebih penting daripada kecepatan.

Perancangan Prompt untuk Pembuatan Draf Laporan

Setelah pengindeksan data selesai, saatnya mengeluarkan hasil. Karena RAG-Anything menyusun hubungan antara tabel dan rumus secara terstruktur, Anda dapat mengajukan kueri kompleks di Claude Code. Perintah seperti "Bandingkan tabel penjualan kuartal ketiga dengan spesifikasi teknis saat ini" menjadi mungkin untuk dilakukan.

Gunakan templat yang jelas untuk mengurangi waktu penulisan laporan rutin mingguan.

Masukkan data yang akan dianalisis ke dalam tag <context> dan format output dipisahkan dengan tag <format>.
Berikan instruksi bertahap seperti, "Ekstrak angka penjualan dari setiap dokumen, bandingkan dengan indikator biaya pokok, lalu tarik kesimpulan."
Paksa AI untuk menampilkan 'Data tidak tersedia' atau 'Perlu konfirmasi' agar tidak mengarang angka yang tidak ada.

Dengan alur kerja ini, analis hanya perlu fokus meninjau draf yang dibuat oleh AI. Tidak ada alasan lagi untuk membuang waktu membandingkan data sumber satu per satu secara manual.

Otomatisasi Analisis PDF Berantakan dengan Claude Code dan RAG-Anything

Isolasi Proyek Secara Fisik untuk Mencegah Halusinasi

Agar Claude Code hanya memantau jalur ini, diperlukan konfigurasi pada .claudecode/config.json.

Buat direktori .claudecode di root proyek.
Tambahkan rag-anything ke dalam item mcpServers di dalam config.json.
Tetapkan nilai RAG_STORAGE_DIR menjadi ./docs/context_db pada pengaturan env.

Setelah pengaturan ini selesai, AI hanya akan menggunakan data dari jalur yang telah ditentukan. Akurasi jawaban akan meningkat dan risiko tercampurnya data dengan klien lain akan hilang.

Teknik Penambahan Margin untuk Meningkatkan Akurasi Pengenalan Tabel MinerU

g(i,j) = \alpha \cdot f(i,j) + \beta

Mencegah System Down Akibat Kurangnya VRAM

Ubah num_batch menjadi 32 dan gpu_memory_utilization menjadi 0.7 pada file konfigurasi MinerU.
Jika menggunakan lingkungan Linux, batasi memory overcommit di /etc/sysctl.conf.
Buat file swap minimal 8GB untuk mengantisipasi lonjakan penggunaan memori (memory peak).

Perancangan Prompt untuk Pembuatan Draf Laporan

Gunakan templat yang jelas untuk mengurangi waktu penulisan laporan rutin mingguan.

Masukkan data yang akan dianalisis ke dalam tag <context> dan format output dipisahkan dengan tag <format>.
Berikan instruksi bertahap seperti, "Ekstrak angka penjualan dari setiap dokumen, bandingkan dengan indikator biaya pokok, lalu tarik kesimpulan."
Paksa AI untuk menampilkan 'Data tidak tersedia' atau 'Perlu konfirmasi' agar tidak mengarang angka yang tidak ada.

Dengan alur kerja ini, analis hanya perlu fokus meninjau draf yang dibuat oleh AI. Tidak ada alasan lagi untuk membuang waktu membandingkan data sumber satu per satu secara manual.

Otomatisasi Analisis PDF Berantakan dengan Claude Code dan RAG-Anything

Related Video

Claude Code + RAG-Anything = TANPA BATAS

Otomatisasi Analisis PDF Berantakan dengan Claude Code dan RAG-Anything

Isolasi Proyek Secara Fisik untuk Mencegah Halusinasi

Teknik Penambahan Margin untuk Meningkatkan Akurasi Pengenalan Tabel MinerU

Mencegah System Down Akibat Kurangnya VRAM

Perancangan Prompt untuk Pembuatan Draf Laporan

Comments (0)

Otomatisasi Analisis PDF Berantakan dengan Claude Code dan RAG-Anything

Isolasi Proyek Secara Fisik untuk Mencegah Halusinasi

Teknik Penambahan Margin untuk Meningkatkan Akurasi Pengenalan Tabel MinerU

Mencegah System Down Akibat Kurangnya VRAM

Perancangan Prompt untuk Pembuatan Draf Laporan