Claude Code + RAG-Anything = TANPA BATAS

CChase AI
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Hampir setiap sistem RAG menderita masalah yang sama persis.
00:00:04Sistem tersebut hanya bisa menangani dokumen teks.
00:00:06Jadi, jika Anda mencoba memberinya gambar, bagan, grafik, atau apa pun,
00:00:10kebanyakan sistem RAG tidak bisa menanganinya.
00:00:12Dan ketika saya menunjukkan LightRAG kepada Anda kemarin,
00:00:13sistem itu pun mengalami masalah yang sama persis.
00:00:16Tapi hari ini, saya akan menunjukkan solusinya.
00:00:19Dan solusinya adalah RAG-Anything.
00:00:20RAG-Anything menyelesaikan masalah dokumen ini untuk kita.
00:00:23Ia bisa menangani gambar.
00:00:24Ia bisa menangani bagan.
00:00:25Ia bisa menangani grafik.
00:00:25Dan ini memungkinkan kita membuat sistem RAG
00:00:28yang benar-benar menangani dokumen yang Anda gunakan.
00:00:31RAG-Anything berasal dari tim yang sama yang membangun LightRAG.
00:00:34Ini terhubung langsung ke dalam sistem LightRAG
00:00:36yang sudah kita bangun kemarin.
00:00:37Jadi sangat mudah untuk memasukkannya ke dalam sistem kita.
00:00:40Hari ini saya akan menunjukkan cara pengaturannya
00:00:43dan bagaimana cara kerjanya di balik layar.
00:00:44Sehingga Anda bisa mulai menggunakan salah satu
00:00:46sistem RAG paling kuat yang ada.
00:00:48Jika pembukaan tadi kurang jelas,
00:00:50saya berasumsi Anda sudah menonton
00:00:52video LightRAG kemarin.
00:00:54Saya akan menaruh tautannya di atas jika belum,
00:00:56karena hari ini saya berasumsi Anda sudah menyiapkan
00:00:58server LightRAG Anda.
00:00:59Anda paham cara kerja RAG dan Anda mengerti
00:01:02tentang konsep graf pengetahuan ini.
00:01:03Karena RAG-Anything pada dasarnya adalah pembungkus
00:01:06di sekitar LightRAG.
00:01:07Kita tetap akan memiliki UI web LightRAG yang sama
00:01:10dengan beberapa perbedaan,
00:01:11tapi semua yang dimasukkan ke RAG-Anything,
00:01:13seperti dokumen non-teks ini,
00:01:15akhirnya akan masuk ke graf pengetahuan yang sama.
00:01:17Kita akan mengajukan pertanyaan yang sama.
00:01:19Kita akan menggunakan API yang sama untuk menanyakannya
00:01:22melalui Claude Code seperti kemarin.
00:01:24Dan fungsionalitas yang akan kita tambahkan hari ini
00:01:26sangatlah signifikan.
00:01:28Tidak cukup membangun sistem RAG yang murni teks.
00:01:30Kita tidak beroperasi di dunia yang murni teks.
00:01:32Berapa banyak dari Anda yang pernah diberi dokumen PDF
00:01:34yang secara teknis bukan teks, melainkan hanya hasil pindaian?
00:01:36LightRAG tidak bisa menanganinya, tapi RAG-Anything bisa.
00:01:39Sekarang kita akan sedikit teknis hari ini.
00:01:40Kita akan membedahnya dan saya akan menjelaskan tepatnya
00:01:43bagaimana seluruh sistem ini bekerja.
00:01:44Tapi secara garis besar, apa yang dilakukannya?
00:01:46RAG-Anything hanya melihat dokumen-dokumen
00:01:49yang bukan teks.
00:01:50Dasarnya ia melakukan persis apa yang dilakukan LightRAG,
00:01:52kecuali pada dokumen non-teks ini.
00:01:55Dan setelah ia membuat graf pengetahuannya sendiri
00:01:56dan basis data vektornya sendiri,
00:01:58ia menggabungkannya dengan milik LightRAG,
00:02:00itulah sebabnya semuanya berakhir di satu tempat yang
00:02:04rapi bagi kita untuk mengajukan pertanyaan.
00:02:06Satu-satunya kekurangan tentang RAG-Anything
00:02:08adalah sistem ini sedikit lebih berat.
00:02:09Kita harus mengunduh beberapa model yang tersimpan di komputer kita
00:02:12untuk membantu mengurai dokumen non-teks tersebut.
00:02:14Dan dalam hal memasukkan dokumen non-teks,
00:02:18kita tidak bisa melakukannya melalui UI LightRAG.
00:02:22Kita harus menggunakan skrip.
00:02:23Untungnya, di sinilah Claude Code berperan.
00:02:25Jadi bagi Anda pengguna, setelah menyiapkan semua ini,
00:02:28yang perlu Anda lakukan untuk memasukkan dokumen non-teks
00:02:31adalah memberi tahu Claude Code, "Hei, silakan,
00:02:33gunakan skill RAG-Anything dan masukkan dokumen ini."
00:02:36Sesederhana itu.
00:02:37Dan Anda bertanya dengan cara yang sama seperti sebelumnya.
00:02:39Jadi, benar-benar tidak terlalu buruk.
00:02:40Dan sekali lagi, Anda mendapatkan semua fungsi ini hanya dengan itu.
00:02:43Sekarang, sebelum kita membahas cara kerja RAG-Anything,
00:02:46saya ingin mempromosikan kursus master Claude Code saya
00:02:49yang baru saja rilis beberapa minggu lalu,
00:02:50dan ini tempat terbaik untuk belajar dari nol jadi pengembang AI,
00:02:53terutama jika Anda tidak memiliki latar belakang teknis.
00:02:55Saya memperbaruinya secara rutin setiap minggu.
00:02:57Akan ada pembaruan baru besok.
00:02:59Jadi jika Anda seseorang yang benar-benar ingin menguasai
00:03:01Claude Code dan tidak tahu harus mulai dari mana,
00:03:03kursus ini untuk Anda.
00:03:05Ada tautan untuk itu di kolom komentar.
00:03:07Itu ada di dalam Chase AI Plus.
00:03:09Saya juga punya komunitas Chase AI gratis.
00:03:11Jika ini terasa terlalu berat bagi Anda,
00:03:12dan Anda baru saja memulai.
00:03:14Tautannya ada di deskripsi.
00:03:15Di sana juga Anda akan menemukan prompt dan skill
00:03:19yang akan saya bicarakan hari ini.
00:03:20Jadi pastikan Anda memeriksanya apa pun pilihannya.
00:03:22Sekarang mari kita bicara tentang RAG-Anything
00:03:23dan bagaimana benda ini sebenarnya bekerja.
00:03:25Sejujurnya, ini cukup sederhana dan jelas.
00:03:28Agar tidak membuang waktu Anda,
00:03:29saya akan menampilkan gambar ini selama 10 detik,
00:03:32lalu kita akan lanjut ke hal berikutnya.
00:03:34Baiklah, cukup bagus.
00:03:39Oke, mari kita lanjut.
00:03:41Saya hanya bercanda.
00:03:42Sebenarnya ada cukup banyak yang terjadi.
00:03:44Gambar ini membuatnya terlihat lebih rumit dari aslinya.
00:03:46Dan jika Anda paham apa yang kita lakukan kemarin dengan LightRAG,
00:03:50ingat percakapan ini, Anda akan baik-baik saja.
00:03:52RAG-Anything beroperasi dengan cara yang serupa,
00:03:55hanya dengan beberapa langkah tambahan.
00:03:56Dan saya ingin menjelaskannya,
00:03:57karena saya pikir penting untuk memahami
00:03:58bagaimana hal-hal ini bekerja.
00:04:00Saya rasa di dunia AI secara umum,
00:04:01sangat mudah untuk hanya fokus pada hal praktis.
00:04:04Seperti, "Saya cuma mau tahu cara instalnya, Chase,"
00:04:05"lalu cara pakainya."
00:04:06Itu tidak apa-apa, Anda bisa melompat ke depan jika begitu.
00:04:08Tapi saya pikir jika Anda ingin jadi pengembang AI yang matang
00:04:11dan Anda ingin membedakan diri Anda
00:04:13dari orang yang bisa digantikan dengan mudah,
00:04:15yang cuma klik terima, terima, terima, dan menyalin
00:04:17prompt serta skill,
00:04:18maka saya rasa penting untuk memiliki beberapa,
00:04:21pemahaman tentang arsitektur,
00:04:22karena inilah yang akan membedakan Anda
00:04:23dari orang lain.
00:04:24Dan bukan hanya dalam hal menggunakan sistem RAG ini,
00:04:27tapi dalam proyek yang lebih besar dan level tinggi, kan?
00:04:30Inilah cara Anda mulai membuat skill Anda sendiri,
00:04:34seperti benar-benar menjadi ahli dalam hal ini.
00:04:35Jadi mari kita bicarakan.
00:04:37Tentang RAG-Anything.
00:04:38Mari kita bahas masalahnya, ya?
00:04:40Masalahnya adalah saya punya PDF hasil pindaian
00:04:44dan itu bukan benar-benar teks,
00:04:45namun saya perlu memasukkannya ke sistem RAG saya.
00:04:46LightRAG tidak bisa menanganinya.
00:04:48Maka hadirlah RAG-Anything, kan?
00:04:51Dengan logo llama keren yang memakai kacamata hitam.
00:04:53Hal pertama yang terjadi
00:04:56adalah saya akan memasukkan dokumen ini ke RAG-Anything.
00:05:00Dan hal pertama yang akan dilakukannya
00:05:02adalah menggunakan program bernama MinerU,
00:05:05yang berjalan di komputer Anda sepenuhnya secara lokal dan gratis.
00:05:08Dan ia pada dasarnya akan memecah dokumen ini
00:05:11menjadi bagian-bagian komponennya.
00:05:12MinerU adalah proyek sumber terbuka.
00:05:14Sekali lagi, ini pada dasarnya adalah pengurai dokumen
00:05:16yang mencakup sekumpulan model khusus berukuran kecil.
00:05:19Yang perlu Anda tahu jika Anda takut dengan ini,
00:05:21ini adalah sumber terbuka.
00:05:22Saya akan menaruh tautannya di bawah.
00:05:23Dan ini yang akan berjalan
00:05:25dan melakukan sebagian besar pekerjaan untuk kita hari ini.
00:05:26Jadi MinerU melihat dokumen ini dan berkata,
00:05:29"Oke, ini adalah header."
00:05:32Ia membuat kotak di sekitar header tersebut.
00:05:33Ia berkata, "Ini adalah teks."
00:05:36Ia berkata, "Ini adalah bagan."
00:05:39Ia berkata, "Ini adalah gambar grafik batang."
00:05:41Dan ia berkata, "Ini adalah persamaan yang ditulis dalam LaTeX."
00:05:44Apa yang dilakukannya adalah melihat dokumen
00:05:47dan menguraikannya ke dalam bagian-bagian khususnya.
00:05:50MinerU tidak mengerti apa yang ada di dalamnya.
00:05:52MinerU tidak sedang membaca teksnya.
00:05:53Ia tidak memahami teksnya.
00:05:55Ia tidak paham isi bagannya.
00:05:56Ia hanya tahu itu bagan, teks, gambar, oke?
00:06:01Dari sana, ia akan mengirim bagian-bagian komponen ini
00:06:05ke model-model khusus individu yang merupakan bagian dari MinerU.
00:06:10Jadi ini semua tidak terlihat oleh Anda.
00:06:12Ini semua terjadi secara otomatis di balik layar.
00:06:15Salah satu modelnya bernama seperti PaddleOCR.
00:06:20Itulah yang akan melihat teksnya.
00:06:21Jadi MinerU mengirim blok teks ini ke PaddleOCR
00:06:24di komputer Anda, dan ia akan mengekstrak teksnya, oke?
00:06:28Jadi sekarang alih-alih berupa teks hasil pindaian,
00:06:30itu adalah teks asli yang terbaca: Perusahaan X melaporkan Q323 yang kuat.
00:06:34Hasil dengan pertumbuhan pendapatan, bla bla bla bla bla.
00:06:36Benar? Sama untuk teks ini.
00:06:40Sama untuk bagannya, kan?
00:06:41Ia juga akan mengubahnya menjadi teks, kan?
00:06:43Sesuatu yang bisa ditangani oleh LLM.
00:06:45Hal yang sama dengan persamaan LaTeX.
00:06:47Ia punya model utuh yang menangani hal itu, kan?
00:06:48Ini sekarang bukan lagi LaTeX, melainkan teks.
00:06:52Kecuali untuk gambar.
00:06:54Jadi entah ini grafik batang atau cuma,
00:06:57apa pun yang tidak bisa diubahnya menjadi teks.
00:07:00Apa yang akan dilakukannya sebagai gantinya
00:07:01adalah mengambil tangkapan layar darinya,
00:07:03dan ini penting, oke?
00:07:05Jadi sekarang ini adalah tangkapan layar.
00:07:07Ini sebuah gambar, tangkapan layar. Saya suka itu.
00:07:11Jadi apa yang kita punya?
00:07:13Kita memasukkan dokumen non-teks.
00:07:16Sudah diidentifikasi bagian-bagian komponennya,
00:07:18dan kita telah mengambil komponen-komponen tersebut
00:07:20dan membaginya ke dalam dua kategori, kan?
00:07:22Kita punya wadah teks dan kita punya wadah gambar.
00:07:26Penting untuk menyadari hal ini.
00:07:28Ada dua jalur yang bisa dilalui, gambar atau teks.
00:07:31Baiklah, Anda mengerti?
00:07:32Jadi apa yang akan dilakukannya sekarang
00:07:34adalah kita selesai menggunakan model internal ini.
00:07:36Sekarang kita perlu mendatangkan model yang lebih besar.
00:07:37Sekarang kita butuh sesuatu seperti GPT 5.4 Mini.
00:07:40Sebagai catatan, hal itu tidak selalu diperlukan.
00:07:42Anda bisa menyimpan semuanya secara lokal jika mau.
00:07:44Anda bisa menggunakan sesuatu seperti Ollama.
00:07:45Jadi sekarang saya mengambil wadah teks dan mengirimnya ke GPT 5.4 Mini.
00:07:50Dan saya menyertakan perintah yang berbunyi,
00:07:52Saya ingin Anda membagi teks ini untuk dua hal.
00:07:55Saya ingin Anda mengambil teks itu
00:07:57dan membaginya menjadi entitas dan hubungan.
00:08:01Ingat entitas dan hubungan?
00:08:03Ingat grafik pengetahuan kita?
00:08:05Entitas, entitas, dan semacam hubungan di antara mereka.
00:08:09Oke, dan saya ingin Anda membaginya
00:08:13menjadi apa yang akan menjadi embedding untuk basis data vektor.
00:08:17Jadi embedding, embed,
00:08:21dan kemudian saya hanya akan mengatakan entitas plus hubungan.
00:08:26Sekarang, berpikir ke depan, apa yang akan terjadi di sana?
00:08:29Nah, embedding tersebut akan menjadi embedding
00:08:32dalam basis data vektor dan entitas serta hubungannya
00:08:35akan menjadi grafik pengetahuan,
00:08:37sama seperti yang kita lakukan dengan LightRag, kan?
00:08:39Hal yang sama, hal yang sama, kecuali sekarang,
00:08:42sekarang ini berasal dari wadah teks.
00:08:44Tapi bagaimana dengan gambar-gambar yang kita miliki tadi?
00:08:47Apa yang akan kita lakukan dengan ini?
00:08:48Sama saja, ini akan dikirim ke 5.4 juga,
00:08:52tapi sebagai tangkapan layar, sebagai OCR.
00:08:55Jadi kita memberi tahu GPT 5.4, lihat tangkapan layar ini
00:08:59dan bagi menjadi dua hal, kan?
00:09:02Embedding dan juga entitas plus hubungan.
00:09:06Nah, mengapa kita melakukan itu?
00:09:07Kenapa tidak masukkan saja semuanya ke dalam satu perintah yang sama
00:09:09dan biarkan ia melakukan OCR pada seluruh bagian ini?
00:09:12Kenapa tidak kita anggap seluruh bagian ini sebagai tangkapan layar?
00:09:14Karena itu mahal dan lambat.
00:09:16Apa yang diputuskan oleh RAG-anything,
00:09:17dan menurut saya ini cukup cerdas,
00:09:19adalah ia melakukan pembedahan pada komputer Anda
00:09:21di tingkat lokal, membaginya menjadi teks,
00:09:24dan membaginya menjadi tangkapan layar.
00:09:25Jadi ketika kita melewati kedua jalur ini,
00:09:27Anda menghemat banyak uang dan waktu.
00:09:29Karena bayangkan jika Anda mencoba menyuruh ChatGPT
00:09:31melihat 10.000 tangkapan layar lalu memisahkan semua teksnya
00:09:34dan dari teks tersebut, membaginya menjadi embedding
00:09:36serta entitas dan hubungan.
00:09:37Itu membutuhkan banyak waktu dan biaya.
00:09:38Ini lebih cerdas.
00:09:40Jadi entitas dan hubungan dari sisi gambar,
00:09:44sama persis.
00:09:45Ia juga mendapatkan basis data vektor
00:09:49dan ia juga mendapatkan grafik pengetahuan.
00:09:52Lalu apa artinya itu?
00:09:53Itu berarti dari satu dokumen,
00:09:55kita sekarang telah menciptakan empat hal, kan?
00:09:59Kita punya dua basis data vektor
00:10:02dan kita punya dua grafik pengetahuan
00:10:04dari satu dokumen non-teks kita.
00:10:08Anda paham?
00:10:09Sekarang, apa yang harus kita lakukan?
00:10:10Yah, sudah jelas.
00:10:11Kita perlu menggabungkan semuanya.
00:10:12Jadi sistem akan mengambil keempat hal ini
00:10:15dan menyatukannya, kan?
00:10:18Mereka akan saling menumpuk satu sama lain.
00:10:19Ia akan mencocokkannya berdasarkan entitas, pada dasarnya.
00:10:22Dan pada akhirnya Anda akan mendapatkan,
00:10:27satu basis data vektor dan satu grafik pengetahuan.
00:10:31Hampir sama persis dengan yang
00:10:32kita lakukan tadi dengan LightRag.
00:10:34Cukup sederhana.
00:10:35Jika kita hanya menggunakan RAG-anything,
00:10:38maka batasannya hanya sampai di situ.
00:10:40Namun, ingat kita mencoba menempatkan RAG-anything
00:10:44di atas LightRag.
00:10:46Saya ingin semua kekuatan LightRag
00:10:48dan saya ingin semua kekuatan RAG-anything.
00:10:50Jadi apa yang terjadi sekarang?
00:10:52Nah, yang terjadi hanyalah pengulangan dari apa yang baru saja Anda lihat.
00:10:54Jadi mari kita turunkan ini.
00:10:55Sekarang kita memiliki set RAG-anything kita
00:11:00dengan basis data vektor dan grafik pengetahuan
00:11:05dan kita memiliki set LightRag kita.
00:11:06Jadi apa yang kita lakukan?
00:11:07Kita tinggal menggabungkan keduanya.
00:11:09Maka yang terjadi adalah kita mendapatkan RAG-everything
00:11:13dan LightRag yang digabungkan,
00:11:15yang akhirnya memberi kita satu basis data vektor
00:11:20dan satu grafik pengetahuan.
00:11:21Dan dari sana, semuanya sama seperti sebelumnya
00:11:24saat LightRag berjalan sendiri, kan?
00:11:27Anda mengajukan pertanyaan tentang apa pun,
00:11:31pertanyaan itu diubah menjadi vektor di sini.
00:11:33Ia menarik vektor-vektor yang relevan
00:11:35dan kemudian juga turun ke sini,
00:11:37menemukan entitas yang tepat
00:11:39dan kemudian melihat apa yang ada di sekitarnya, oke?
00:11:43Mungkin itu sedikit membingungkan.
00:11:44Saya harap saya menjelaskannya dengan baik.
00:11:46Sebagai ringkasan agar Anda lebih bingung lagi.
00:11:51Apa yang terjadi saat saya menambahkan dokumen yang bukan teks?
00:11:54Itu masuk ke RAG-anything.
00:11:56RAG-anything memisahkan teks yang bisa diambil
00:11:58dan kemudian memisahkan gambar yang bisa diambil juga.
00:12:00Ia mengirim keduanya ke ChatGPT
00:12:02atau sistem AI apa pun yang Anda inginkan.
00:12:05Ia membaginya menjadi embedding,
00:12:07entitas, dan hubungan.
00:12:09Semua itu diubah menjadi grafik pengetahuan dan basis data vektor.
00:12:13Kita kemudian menggabungkan semuanya.
00:12:15Kita sekarang punya satu basis data vektor
00:12:17dan satu grafik pengetahuan untuk RAG-anything.
00:12:19Dan karena kita sudah menjalankannya di LightRag,
00:12:22atau jika Anda telah menambahkan dokumen lain di atasnya,
00:12:24Anda memiliki basis data vektor yang sudah ada
00:12:27dan grafik pengetahuan yang sudah ada.
00:12:29Untuk menyelesaikannya, kita cukup menggabungkannya.
00:12:32Dan pada akhirnya, Anda tidak akan menyadari apa pun.
00:12:35Sekali lagi, sebagai pengguna, semua ini tidak terlihat oleh Anda, oke?
00:12:39Semua ini tidak terlalu penting bagi Anda.
00:12:41Satu-satunya hal yang mungkin penting bagi Anda
00:12:42adalah apa yang terjadi di sini dengan GPT 5.4
00:12:45karena itu akan memakan biaya.
00:12:47Tetapi untuk tujuan edukasi,
00:12:50begitulah cara sistem RAG-anything
00:12:53berintegrasi dengan sistem LightRag.
00:12:55Dan pada akhirnya,
00:12:57itu berarti Anda memiliki sistem RAG
00:12:58yang dapat menangani dokumen non-teks.
00:13:00Dan jika Anda masih menyimak setelah semua itu,
00:13:03sekarang kita bisa masuk ke cara menginstal benda ini
00:13:07dan menggunakannya.
00:13:08Jadi sekarang mari kita bicara tentang penginstalan
00:13:09dan cara menggunakannya
00:13:10serta beberapa hal yang perlu Anda waspadai.
00:13:11Saya membuat perintah satu kali yang bisa Anda berikan ke Claude Code
00:13:14yang akan menginstal semuanya untuk Anda
00:13:17dan memperbarui model-model yang tepat dan sebagainya.
00:13:19Yang perlu Anda lakukan hanyalah memastikan
00:13:20Anda berada di direktori LightRag saat menjalankan ini.
00:13:23Jadi sebenarnya ada tiga hal yang akan dilakukannya.
00:13:25Pertama-tama, ia akan memastikan
00:13:27kita memperbarui jalur penyimpanan yang benar
00:13:29karena Anda sudah memiliki instans Docker LightRag yang berjalan.
00:13:32Kedua, kita ingin memperbarui modelnya
00:13:33karena berdasarkan GitHub,
00:13:34itu awalnya dibuat beberapa waktu yang lalu.
00:13:37Jadi semua skrip contoh dan semacamnya
00:13:39menggunakan hal-hal seperti GPT 4.0 mini.
00:13:41Jadi saya mengaturnya ke 5.4 Nano.
00:13:43Pahamilah bahwa Anda bisa mengubahnya jika mau.
00:13:45Tapi saya membuatnya menggunakan 5.4 Nano serta tetap menggunakan
00:13:48text-embedding-3-large agar kita bisa menggunakan OpenAI
00:13:51untuk semuanya.
00:13:51Itu membuatnya tetap sederhana, silakan mainkan sesuka Anda.
00:13:54Terakhir, karena kita menggunakan RAG-anything
00:13:55sebagai pembungkus di atas LightRag,
00:13:58beberapa skrip contoh yang diberikan di repositori GitHub
00:14:02agak salah.
00:14:03Jadi ada bug pembungkus ganda embedding ini,
00:14:05yang sekali lagi, kita tinggal menyuruh Claude Code untuk memperbaikinya
00:14:08dan ia akan memperbaikinya.
00:14:09Jadi Anda tinggal menggunakan perintah ini.
00:14:12Sekali lagi, ini ada di dalam komunitas sekolah gratis.
00:14:14Tautannya ada di deskripsi.
00:14:15Cari saja RAG-anything dan Anda akan menemukannya di sana.
00:14:18Dan begitu Anda menjalankan perintah itu,
00:14:19ia akan mulai mengunduh semuanya
00:14:21dan pahamilah ini sedikit berat
00:14:22karena perlu mengunduh MinerU
00:14:23dan semua dependensi tersebut juga.
00:14:25Sekarang mari kita bicara tentang memasukkan dokumen
00:14:26karena ini agak menjengkelkan dan merepotkan.
00:14:28Di dunia yang sempurna, situasi LightRag plus RAG-anything
00:14:33akan sangat efisien dan saya bisa memasukkan
00:14:35apa pun yang saya inginkan ke dalam LightRag/RAG-anything
00:14:40melalui antarmuka tunggal.
00:14:41Saya bisa masuk ke UI, pergi ke unggah,
00:14:44dan melakukan itu.
00:14:45Anda tidak benar-benar bisa melakukannya dengan RAG-anything bersama LightRag.
00:14:48Anda masih bisa melakukan ini untuk dokumen teks.
00:14:50Jadi Anda masih bisa melakukan alur kerja normal
00:14:52yang saya tunjukkan di video sebelumnya di mana Anda pergi ke UI
00:14:54atau menggunakan keahlian LightRag untuk mengunggah dokumen.
00:14:59Anda tidak bisa melakukan itu dengan RAG-anything.
00:15:01Ia harus melalui terowongan yang berbeda,
00:15:04jalur yang berbeda.
00:15:05Tapi jalur berbeda dengan RAG-anything tersebut
00:15:07adalah skrip Python.
00:15:09Tidak ada UI, tidak ada tombol untuk ditekan.
00:15:11Ini benar-benar sebuah skrip.
00:15:12Ini adalah kode yang harus Anda jalankan.
00:15:14Untungnya, di sinilah Claude Code berperan
00:15:16dan membuatnya sangat sederhana karena kita hanya akan mengubah
00:15:19skrip di dalam repo tersebut menjadi sebuah skill.
00:15:23Jadi bagi Anda, setelah skill tersebut dibuat,
00:15:25yang perlu Anda lakukan hanyalah mengatakan, Claude code,
00:15:28gunakan skill rag anything untuk mengunggah semua dokumen ini,
00:15:32semua dokumen non-teks ini.
00:15:33Dan ketika itu dilakukan,
00:15:34ia akan menjalankan proses minerU.
00:15:36Ini akan memakan waktu karena harus melakukan semua,
00:15:39Anda tahu, hal-hal seperti yang kami jelaskan
00:15:41di bagian teknis sebelumnya,
00:15:43tetapi ia akan mengunggahnya ke light rag
00:15:45dan akan muncul di dalam dokumen Anda
00:15:47serta di dalam knowledge graph Anda.
00:15:49Oke, itu satu-satunya bagian aneh yang perlu Anda ketahui.
00:15:51Bagian aneh lainnya, sejujurnya, adalah setelah Anda melakukannya,
00:15:54itu juga mengharuskan Anda memulai ulang kontainer docker,
00:15:58tetapi sebagai bagian dari skill, itu terjadi secara otomatis.
00:16:00Jadi sekali lagi, dari sudut pandang Anda sebagai pengguna,
00:16:03satu-satunya perbedaan adalah Anda hanya perlu memanggil skill tersebut.
00:16:06Sekarang skill ini, skill unggah rag anything
00:16:08juga ada di dalam komunitas gratis.
00:16:10Jadi cukup unduh dan masukkan ke folder .claude Anda
00:16:13dan itu akan berfungsi dengan baik.
00:16:14Sekarang, satu catatan tentang minerU yang memakan waktu lama,
00:16:17itu karena cara kerja rag anything
00:16:19saat Anda mengunduhnya, ia akan berjalan di CPU Anda.
00:16:22Jika Anda ingin menjalankannya di GPU Anda,
00:16:24Anda harus memiliki versi PyTorch yang berbeda.
00:16:27Jika semua itu terdengar terlalu teknis,
00:16:29jika itu terlalu lambat bagi Anda, beri tahu Claude code,
00:16:32hei, bisakah kita menjalankan PyTorch?
00:16:34Bisakah kita menjalankan minerU di GPU kita?
00:16:36Dan ia akan memandu Anda melewatinya.
00:16:37Atau bahkan, ia akan melakukan semuanya sendiri.
00:16:39Namun secara default, ia hanya akan berjalan di CPU Anda.
00:16:41Jadi ketahuilah hal itu.
00:16:42Mari kita lihat contoh aksinya.
00:16:44Salah satu dokumen yang kami masukkan adalah
00:16:48PDF dari Novatech ini, kan?
00:16:50Analisis pendapatan SaaS.
00:16:51Ini benar-benar palsu.
00:16:52Tetapi intinya adalah kita memasukkan sesuatu
00:16:55yang memiliki semacam diagram batang ini, kan?
00:16:57Jadi ini adalah sesuatu yang jelas akan ditarik
00:16:59sebagai gambar yang dikirim ke ChatGPT, dan sebagainya.
00:17:01Biasanya light rag tidak akan bisa menangani ini
00:17:03karena itu hanya sebuah gambar.
00:17:05Itu berupa bagan, sulit baginya untuk menguraikannya.
00:17:07Tetapi karena kita menjalankannya melalui rag anything,
00:17:10kita sekarang bisa mengajukan pertanyaan melalui Claude code tentang ini.
00:17:13Jadi saya bertanya kepada Claude code,
00:17:14bisakah kita menanyakan basis data light rag kita
00:17:15tentang tren pendapatan bulanan untuk Novatech Inc
00:17:18dari Januari hingga September 2025?
00:17:20Anda bisa lihat di sini, ia bahkan tidak menggunakan skill.
00:17:22Ia langsung melakukan permintaan API,
00:17:24yang juga tidak masalah dengan kueri tersebut.
00:17:26Apa tren pendapatan bulanan untuk Novatech Inc
00:17:29dari bla, bla, bla, bla, bla.
00:17:30Sekarang ia memberikan respons lengkap.
00:17:32Jadi saya bisa melihat respons mentahnya jika mau.
00:17:35Tetapi apa yang ia lakukan?
00:17:36Ia kembali dengan rincian bulanan yang lengkap.
00:17:39Kita melihat Januari 4,6, 4,6, Februari 4,9, 4,9,
00:17:43Maret 5,4, 5,4, dan seterusnya.
00:17:46Jadi dalam hal mengajukan pertanyaan tentang dokumen baru ini,
00:17:48sama saja seperti sebelumnya.
00:17:49Satu-satunya perbedaan adalah proses unggahnya.
00:17:51Yang perlu Anda lakukan hanyalah memanggil skill tersebut
00:17:53yang saya berikan kepada Anda dan beri tahu Claude code
00:17:55apa yang ingin Anda masukkan ke sana.
00:17:56Anda bisa mengarahkannya ke seluruh folder.
00:17:58Anda bisa mengarahkannya ke unduhan tertentu.
00:18:00Sama mudahnya.
00:18:01Ini satu-satunya hal aneh yang harus Anda biasakan
00:18:04yaitu dua jalur unggah ini.
00:18:05Tetapi untuk tanya jawab yang sebenarnya,
00:18:07itu hanya menggunakan bahasa biasa.
00:18:09Bahasa biasa, bahkan jika Anda memiliki skill juga,
00:18:11yang juga saya berikan di video terakhir,
00:18:13tetapi Claude code juga cukup pintar
00:18:14untuk memahami struktur API dari seluruh sistem ini.
00:18:17Karena ini lokal, ini ada di komputer Anda.
00:18:19Jadi itulah intinya jika menyangkut rag anything.
00:18:21Saya tahu sebagian besar video ini
00:18:22difokuskan pada aspek teknis,
00:18:24tetapi seperti yang Anda lihat, setelah kita membangun fondasi light rag,
00:18:28menambahkan rag anything di atasnya sebenarnya tidak terlalu sulit,
00:18:32terutama jika kita hanya menggunakan prompt one-shot yang saya berikan.
00:18:35Ada beberapa hal yang bisa Anda sesuaikan di sana-sini
00:18:37seperti hal lainnya dalam hal menanyakannya,
00:18:39tetapi sebenarnya dengan Claude code,
00:18:41ia semacam bertanggung jawab atas semua bobot
00:18:43yang bisa Anda sesuaikan di dalam light rag.
00:18:45Dan untuk itu, saya berbicara tentang
00:18:45jika kita pergi ke bagian pengambilan data,
00:18:47semua parameter di sini di sebelah kanan.
00:18:49Sekali lagi, Claude code tahu mana yang cenderung terbaik untuk Anda.
00:18:52Jadi secara keseluruhan, saya harap ini menjelaskan
00:18:56betapa mudahnya menyiapkan rag anything,
00:18:58dan juga betapa mudahnya menambahkan tingkat fungsionalitas ini
00:19:02ke sistem RAG Anda,
00:19:03yang di banyak sistem RAG lainnya tidak mungkin dilakukan
00:19:05atau sangat mahal harganya.
00:19:06Dan ini relatif murah,
00:19:08terutama dengan sistem penguraian lokal minerU
00:19:11yang berhasil kita siapkan.
00:19:12Jadi seperti biasa, beri tahu saya pendapat Anda.
00:19:14Pastikan untuk melihat Chase AI+
00:19:16jika Anda ingin mendapatkan Claude code masterclass itu,
00:19:18dan sampai jumpa lagi.

Key Takeaway

RAG-Anything memperluas batasan sistem LightRAG dengan menggunakan pengurai MinerU lokal untuk mengonversi elemen visual dan dokumen pindaian menjadi graf pengetahuan yang dapat dicari melalui API Claude Code.

Highlights

RAG-Anything mengintegrasikan model pengurai dokumen MinerU secara lokal untuk memproses gambar, bagan, dan grafik yang biasanya tidak terbaca oleh sistem RAG standar.

Sistem ini memisahkan dokumen non-teks menjadi dua jalur pemrosesan yaitu wadah teks untuk ekstraksi OCR dan wadah gambar untuk tangkapan layar guna menghemat biaya API.

Data hasil ekstraksi diubah menjadi empat komponen utama yang terdiri dari dua basis data vektor dan dua graf pengetahuan sebelum digabungkan ke dalam satu sistem utuh.

Integrasi RAG-Anything dilakukan sebagai pembungkus (wrapper) di atas LightRAG untuk menggabungkan kekuatan pencarian teks dengan kemampuan pemahaman visual.

Penggunaan model GPT 5.4 Nano dan text-embedding-3-large melalui Claude Code memungkinkan ekstraksi entitas serta hubungan dari dokumen pindaian secara otomatis.

Proses pengunggahan dokumen non-teks memerlukan skrip Python khusus atau skill Claude Code karena keterbatasan antarmuka pengguna (UI) LightRAG saat ini.

Timeline

Keterbatasan Sistem RAG Berbasis Teks

  • Mayoritas sistem RAG konvensional mengalami kegagalan saat harus menangani dokumen yang berisi bagan, grafik, atau PDF hasil pindaian.
  • RAG-Anything berfungsi sebagai solusi pelengkap untuk LightRAG agar mampu memproses dokumen non-teks secara efektif.
  • Integrasi sistem ini memungkinkan data dari berbagai format berakhir dalam satu graf pengetahuan yang sama untuk memudahkan kueri.

Banyak pengguna menghadapi masalah saat sistem AI mereka tidak bisa membaca dokumen PDF yang secara teknis adalah gambar hasil pindaian. LightRAG standar memiliki keterbatasan yang sama dalam menangani elemen visual. RAG-Anything hadir untuk menyelesaikan masalah ini dengan menghubungkan dokumen non-teks langsung ke dalam arsitektur graf pengetahuan yang sudah ada.

Arsitektur Pemrosesan Dokumen non-Teks

  • Sistem menggunakan model open-source MinerU untuk memecah dokumen menjadi komponen header, teks, bagan, dan persamaan LaTeX.
  • Komponen teks diproses melalui PaddleOCR untuk mengekstrak informasi mentah yang dapat dibaca oleh LLM.
  • Elemen yang tidak bisa dikonversi menjadi teks murni akan diambil tangkapan layarnya untuk diproses lebih lanjut sebagai data visual.

Pemahaman arsitektur sangat penting bagi pengembang AI untuk membedakan diri dari pengguna biasa. MinerU bekerja secara lokal di komputer pengguna untuk mengidentifikasi tata letak dokumen tanpa harus memahami isinya terlebih dahulu. Setelah komponen dipisahkan, sistem mengarahkan setiap bagian ke model khusus yang sesuai untuk ekstraksi data yang optimal.

Ekstraksi Entitas dan Penggabungan Data

  • Data dari wadah teks dan gambar dikirim ke model seperti GPT 5.4 Mini untuk dipecah menjadi entitas dan hubungan.
  • Metode pemisahan jalur antara teks dan gambar secara lokal bertujuan untuk mengurangi biaya API dan meningkatkan kecepatan pemrosesan.
  • Hasil akhir proses ini adalah penggabungan dua basis data vektor dan dua graf pengetahuan menjadi satu kesatuan sistem RAG-everything.

Mengirim seluruh dokumen sebagai gambar ke API AI sangat mahal dan lambat. RAG-Anything menggunakan strategi yang lebih cerdas dengan melakukan pra-pemrosesan lokal sehingga hanya data yang diperlukan yang dikirim ke model besar. Struktur data yang dihasilkan kemudian ditumpuk dan dicocokkan berdasarkan entitas untuk memastikan sinkronisasi antara informasi teks dan visual.

Implementasi Teknis dengan Claude Code

  • Instalasi sistem dilakukan melalui perintah satu kali di Claude Code yang secara otomatis memperbarui jalur penyimpanan dan memperbaiki bug pembungkus embedding.
  • Pengunggahan dokumen non-teks harus dilakukan melalui skrip Python atau skill khusus karena tidak tersedianya tombol unggah di UI.
  • MinerU berjalan pada CPU secara default, namun dapat dialihkan ke GPU dengan konfigurasi PyTorch yang tepat untuk meningkatkan kecepatan.

Proses instalasi mencakup pembaruan model ke GPT 5.4 Nano dan penggunaan text-embedding-3-large dari OpenAI agar sistem tetap sederhana. Karena RAG-Anything adalah pembungkus di atas LightRAG, terdapat jalur pengunggahan yang berbeda yang perlu diperhatikan pengguna. Claude Code mempermudah proses ini dengan mengubah skrip repositori menjadi keahlian yang dapat dipanggil melalui perintah suara atau teks biasa.

Validasi Performa dan Analisis Data Visual

  • Dokumen PDF palsu berisi diagram batang pendapatan SaaS berhasil dianalisis dengan akurasi tinggi oleh sistem.
  • Kueri dalam bahasa alami dapat menarik data spesifik seperti tren pendapatan bulanan dari Januari hingga September 2025 langsung dari gambar.
  • Claude Code secara otomatis menentukan parameter pengambilan data terbaik sehingga pengguna tidak perlu menyesuaikan bobot teknis secara manual.

Uji coba pada dokumen Novatech Inc membuktikan bahwa informasi yang terkunci di dalam gambar bagan kini dapat diakses melalui kueri API. Meskipun proses pengunggahan sedikit lebih kompleks, fungsionalitas tanya jawab tetap semudah menggunakan bahasa sehari-hari. Sistem ini menawarkan solusi RAG multimedia yang kompetitif dengan biaya yang relatif murah berkat penguraian lokal.

Community Posts

View all posts