00:00:00Anda mungkin pernah mencoba mengubah email, PDF, atau transkrip menjadi data terstruktur
00:00:04pada suatu waktu dan hasilnya langsung kacau balau.
00:00:07Semua orang mengira bagian tersulitnya adalah membangun aplikasinya.
00:00:09Padahal bukan.
00:00:10Bagian tersulitnya adalah teksnya, karena sebagian besar data dunia nyata sering kali tidak terstruktur dan kebanyakan alur kerja
00:00:15hancur tepat di titik ini.
00:00:16Sekarang, Anda mungkin berharap solusinya adalah menambah peran atau NLP, tapi beberapa pengembang justru melakukan
00:00:21hal yang sebaliknya.
00:00:22Inilah Lang Extract.
00:00:23Ini adalah alat sumber terbuka gratis dari Google yang berkembang diam-diam dan sangat cepat.
00:00:27Kami merilis video baru setiap saat.
00:00:29Pastikan untuk berlangganan.
00:00:32Oke, Lang Extract terdengar seperti pustaka ekstraksi lainnya, dan sekilas memang
00:00:40terlihat seperti itu, tapi inilah yang membuatnya berbeda.
00:00:43Lang Extract adalah pustaka Python yang menggunakan LLM seperti Gemini atau GPT untuk mengambil data
00:00:49terstruktur dari teks yang berantakan.
00:00:51Jadi ya, entitas, atribut, dan relasi diubah menjadi output yang bersih seperti JSON atau bahkan
00:00:57HTML interaktif.
00:00:58Alasan utama pengembang menyukainya adalah setiap ekstraksi dirujuk kembali ke rentang teks
00:01:02aslinya secara tepat.
00:01:04Artinya, alih-alih model berkata, “Percayalah padaku,” ia berkata, “Inilah kalimat tepat yang
00:01:09aku gunakan.”
00:01:10Itulah perubahan besar di sini.
00:01:11Alur kerjanya pada dasarnya adalah perintah dimasukkan, ekstraksi terjadi,
00:01:15lalu Anda mendapatkan output terstruktur yang benar-benar bisa diverifikasi.
00:01:19Sebelum saya menjawab pertanyaan besar tentang mengapa pengembang meninggalkan NLP konvensional demi alat ini,
00:01:24biarkan saya tunjukkan cara kerjanya agar Anda bisa mencobanya.
00:01:27Baiklah, inilah contoh sederhananya.
00:01:29Di layar, kita punya teks tidak terstruktur yang saya temukan dari beberapa catatan klinis, dan saat
00:01:33ini hanya berupa teks biasa.
00:01:34Tersimpan dalam file teks.
00:01:36Manusia bisa membacanya dan mengambil bagian penting, tapi komputer melihatnya sebagai omong kosong.
00:01:41Pertama, saya harus mengkloning repo Git dan menginstal persyaratannya, lalu saya juga perlu
00:01:45mendapatkan kunci API Gemini saya, yang saya simpan di file ENV.
00:01:49Kemudian saya mengetik skrip Python ini untuk menjalankannya dan mendeskripsikan apa yang ingin saya ekstrak
00:01:54dalam perintah saya.
00:01:56Inilah sebabnya Anda butuh sedikit pemahaman tentang Python.
00:01:58Semua entitas, atribut, dan relasi saya, semuanya ditulis sebagai perintah ini.
00:02:02Tidak ada data pelatihan, tidak ada penyetelan model.
00:02:05Lalu Lang Extract berjalan dan saya mendapatkan output JSON yang terstruktur.
00:02:09Nah, perhatikan bagian ini karena inilah intinya.
00:02:12Setiap kolom yang diekstrak di sini terhubung kembali ke kalimat yang sama persis di file
00:02:18JSON saya.
00:02:19Jadi, jika Anda meninjau, menelusuri bug, atau menjelaskannya kepada orang lain, tidak ada lagi tebak-tebakan.
00:02:23Tapi salah satu fitur terkeren yang saya temukan adalah halaman HTML interaktif yang dibuat secara otomatis.
00:02:29Di sini Anda bisa mengklik sebuah entitas dan melihatnya tersorot dalam teks asli serta
00:02:33memindainya secara visual untuk melihat semua kata target yang Anda cari.
00:02:38Itulah mengapa alat ini sangat berguna untuk penelusuran bug, audit, peninjauan, dan semacamnya.
00:02:42Dan jika Anda perlu melakukan ini dalam skala besar, mode batch memungkinkan Anda menjalankannya pada ribuan dokumen
00:02:46dengan lebih efisien.
00:02:48Jadi ya, ini terlihat bagus.
00:02:50Ini juga sangat keren, terutama bagian HTML-nya.
00:02:52Oke, sekarang mengapa pengembang meninggalkan NLP konvensional demi alat ini?
00:02:56Itu karena teks yang berantakan bukan sekadar menjengkelkan, kan?
00:02:59Memang menjengkelkan, tapi juga mahal.
00:03:01Ini memakan waktu dan merusak sistem.
00:03:03Itulah sebabnya kita melihat Lang Extract digunakan di tempat yang mementingkan akurasi dan ketelusuran.
00:03:08Seperti mengekstrak data terstruktur dari catatan klinis sambil tetap bisa mengaudit
00:03:12dari mana asalnya.
00:03:13Itu sangat luar biasa.
00:03:14Atau mungkin kita mengubah umpan balik dan tiket dukungan menjadi graf pengetahuan, alih-alih
00:03:18file CSV raksasa.
00:03:20Di balik semua kebaikan yang kita dapatkan dari alat gaya ini, ada juga kekurangannya.
00:03:24Hal ini akan memengaruhi cara Anda memutuskan untuk menggunakannya.
00:03:26Untuk sisi positifnya, ada banyak hal di sini.
00:03:27Pengaturannya sederhana, bukan?
00:03:29Instal via pip, tulis perintah, jalankan.
00:03:31Output yang didasarkan pada sumber mengurangi masalah kepercayaan pada LLM karena Anda bisa memverifikasi segalanya dan Anda tidak terpaku
00:03:36pada satu model saja.
00:03:37Ini berfungsi secara lokal maupun cloud.
00:03:39Keduanya bisa berjalan dan ia menangani dokumen panjang lebih baik daripada kebanyakan alat.
00:03:43Ini gratis, sumber terbuka, dan berkembang pesat.
00:03:45Ada beberapa kelemahan yang mungkin Anda rasakan karena Anda tetap membayar biaya LLM pada skala besar.
00:03:51Teks yang sangat berantakan dapat menyebabkan ekstraksi yang tidak lengkap.
00:03:53Ini berbasis Python, jadi jika Anda tidak tahu Python, mungkin akan ada sedikit kurva pembelajaran, tapi
00:03:57Python itu hebat.
00:03:58Ini tidak ideal untuk aplikasi real-time dengan latensi sangat rendah.
00:04:01Mengapa Anda harus peduli?
00:04:02Karena Lang Extract menurunkan hambatan untuk bekerja dengan data tidak terstruktur tanpa membangun
00:04:07model khusus atau alur kerja yang ringkih.
00:04:09Ini membuat output LLM menjadi sesuatu yang benar-benar bisa Anda percayai dalam produksi karena ia terikat kembali
00:04:14ke sumber asalnya, terutama di sektor seperti keuangan, kesehatan, kepatuhan,
00:04:19dan bidang sejenisnya yang mementingkan hal tersebut.
00:04:21Selain itu, ini cocok dengan tumpukan teknologi modern, RAG, pencarian, graf pengetahuan, analitik, apa pun
00:04:26yang sedang Anda bangun.
00:04:27Jika data tidak terstruktur menghambat Anda, alat ini bisa sangat meningkatkan kemampuan Anda.
00:04:31Jika data adalah bagian dari pekerjaan Anda—dan jujur saja, kemungkinan besar memang begitu—alat ini layak untuk dicoba.
00:04:35Sampai jumpa di video lainnya.