Alat Google Ini Mengubah Teks Berantakan Menjadi Data Rapi

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Anda mungkin pernah mencoba mengubah email, PDF, atau transkrip menjadi data terstruktur
00:00:04pada suatu waktu dan hasilnya langsung kacau balau.
00:00:07Semua orang mengira bagian tersulitnya adalah membangun aplikasinya.
00:00:09Padahal bukan.
00:00:10Bagian tersulitnya adalah teksnya, karena sebagian besar data dunia nyata sering kali tidak terstruktur dan kebanyakan alur kerja
00:00:15hancur tepat di titik ini.
00:00:16Sekarang, Anda mungkin berharap solusinya adalah menambah peran atau NLP, tapi beberapa pengembang justru melakukan
00:00:21hal yang sebaliknya.
00:00:22Inilah Lang Extract.
00:00:23Ini adalah alat sumber terbuka gratis dari Google yang berkembang diam-diam dan sangat cepat.
00:00:27Kami merilis video baru setiap saat.
00:00:29Pastikan untuk berlangganan.
00:00:32Oke, Lang Extract terdengar seperti pustaka ekstraksi lainnya, dan sekilas memang
00:00:40terlihat seperti itu, tapi inilah yang membuatnya berbeda.
00:00:43Lang Extract adalah pustaka Python yang menggunakan LLM seperti Gemini atau GPT untuk mengambil data
00:00:49terstruktur dari teks yang berantakan.
00:00:51Jadi ya, entitas, atribut, dan relasi diubah menjadi output yang bersih seperti JSON atau bahkan
00:00:57HTML interaktif.
00:00:58Alasan utama pengembang menyukainya adalah setiap ekstraksi dirujuk kembali ke rentang teks
00:01:02aslinya secara tepat.
00:01:04Artinya, alih-alih model berkata, “Percayalah padaku,” ia berkata, “Inilah kalimat tepat yang
00:01:09aku gunakan.”
00:01:10Itulah perubahan besar di sini.
00:01:11Alur kerjanya pada dasarnya adalah perintah dimasukkan, ekstraksi terjadi,
00:01:15lalu Anda mendapatkan output terstruktur yang benar-benar bisa diverifikasi.
00:01:19Sebelum saya menjawab pertanyaan besar tentang mengapa pengembang meninggalkan NLP konvensional demi alat ini,
00:01:24biarkan saya tunjukkan cara kerjanya agar Anda bisa mencobanya.
00:01:27Baiklah, inilah contoh sederhananya.
00:01:29Di layar, kita punya teks tidak terstruktur yang saya temukan dari beberapa catatan klinis, dan saat
00:01:33ini hanya berupa teks biasa.
00:01:34Tersimpan dalam file teks.
00:01:36Manusia bisa membacanya dan mengambil bagian penting, tapi komputer melihatnya sebagai omong kosong.
00:01:41Pertama, saya harus mengkloning repo Git dan menginstal persyaratannya, lalu saya juga perlu
00:01:45mendapatkan kunci API Gemini saya, yang saya simpan di file ENV.
00:01:49Kemudian saya mengetik skrip Python ini untuk menjalankannya dan mendeskripsikan apa yang ingin saya ekstrak
00:01:54dalam perintah saya.
00:01:56Inilah sebabnya Anda butuh sedikit pemahaman tentang Python.
00:01:58Semua entitas, atribut, dan relasi saya, semuanya ditulis sebagai perintah ini.
00:02:02Tidak ada data pelatihan, tidak ada penyetelan model.
00:02:05Lalu Lang Extract berjalan dan saya mendapatkan output JSON yang terstruktur.
00:02:09Nah, perhatikan bagian ini karena inilah intinya.
00:02:12Setiap kolom yang diekstrak di sini terhubung kembali ke kalimat yang sama persis di file
00:02:18JSON saya.
00:02:19Jadi, jika Anda meninjau, menelusuri bug, atau menjelaskannya kepada orang lain, tidak ada lagi tebak-tebakan.
00:02:23Tapi salah satu fitur terkeren yang saya temukan adalah halaman HTML interaktif yang dibuat secara otomatis.
00:02:29Di sini Anda bisa mengklik sebuah entitas dan melihatnya tersorot dalam teks asli serta
00:02:33memindainya secara visual untuk melihat semua kata target yang Anda cari.
00:02:38Itulah mengapa alat ini sangat berguna untuk penelusuran bug, audit, peninjauan, dan semacamnya.
00:02:42Dan jika Anda perlu melakukan ini dalam skala besar, mode batch memungkinkan Anda menjalankannya pada ribuan dokumen
00:02:46dengan lebih efisien.
00:02:48Jadi ya, ini terlihat bagus.
00:02:50Ini juga sangat keren, terutama bagian HTML-nya.
00:02:52Oke, sekarang mengapa pengembang meninggalkan NLP konvensional demi alat ini?
00:02:56Itu karena teks yang berantakan bukan sekadar menjengkelkan, kan?
00:02:59Memang menjengkelkan, tapi juga mahal.
00:03:01Ini memakan waktu dan merusak sistem.
00:03:03Itulah sebabnya kita melihat Lang Extract digunakan di tempat yang mementingkan akurasi dan ketelusuran.
00:03:08Seperti mengekstrak data terstruktur dari catatan klinis sambil tetap bisa mengaudit
00:03:12dari mana asalnya.
00:03:13Itu sangat luar biasa.
00:03:14Atau mungkin kita mengubah umpan balik dan tiket dukungan menjadi graf pengetahuan, alih-alih
00:03:18file CSV raksasa.
00:03:20Di balik semua kebaikan yang kita dapatkan dari alat gaya ini, ada juga kekurangannya.
00:03:24Hal ini akan memengaruhi cara Anda memutuskan untuk menggunakannya.
00:03:26Untuk sisi positifnya, ada banyak hal di sini.
00:03:27Pengaturannya sederhana, bukan?
00:03:29Instal via pip, tulis perintah, jalankan.
00:03:31Output yang didasarkan pada sumber mengurangi masalah kepercayaan pada LLM karena Anda bisa memverifikasi segalanya dan Anda tidak terpaku
00:03:36pada satu model saja.
00:03:37Ini berfungsi secara lokal maupun cloud.
00:03:39Keduanya bisa berjalan dan ia menangani dokumen panjang lebih baik daripada kebanyakan alat.
00:03:43Ini gratis, sumber terbuka, dan berkembang pesat.
00:03:45Ada beberapa kelemahan yang mungkin Anda rasakan karena Anda tetap membayar biaya LLM pada skala besar.
00:03:51Teks yang sangat berantakan dapat menyebabkan ekstraksi yang tidak lengkap.
00:03:53Ini berbasis Python, jadi jika Anda tidak tahu Python, mungkin akan ada sedikit kurva pembelajaran, tapi
00:03:57Python itu hebat.
00:03:58Ini tidak ideal untuk aplikasi real-time dengan latensi sangat rendah.
00:04:01Mengapa Anda harus peduli?
00:04:02Karena Lang Extract menurunkan hambatan untuk bekerja dengan data tidak terstruktur tanpa membangun
00:04:07model khusus atau alur kerja yang ringkih.
00:04:09Ini membuat output LLM menjadi sesuatu yang benar-benar bisa Anda percayai dalam produksi karena ia terikat kembali
00:04:14ke sumber asalnya, terutama di sektor seperti keuangan, kesehatan, kepatuhan,
00:04:19dan bidang sejenisnya yang mementingkan hal tersebut.
00:04:21Selain itu, ini cocok dengan tumpukan teknologi modern, RAG, pencarian, graf pengetahuan, analitik, apa pun
00:04:26yang sedang Anda bangun.
00:04:27Jika data tidak terstruktur menghambat Anda, alat ini bisa sangat meningkatkan kemampuan Anda.
00:04:31Jika data adalah bagian dari pekerjaan Anda—dan jujur saja, kemungkinan besar memang begitu—alat ini layak untuk dicoba.
00:04:35Sampai jumpa di video lainnya.

Key Takeaway

Lang Extract dari Google merevolusi ekstraksi data tidak terstruktur dengan menyediakan sistem yang dapat diverifikasi sepenuhnya melalui rujukan teks asli, menjembatani celah antara output AI dan kepercayaan data di tingkat produksi.

Highlights

Lang Extract adalah pustaka Python sumber terbuka dari Google yang mengubah teks tidak terstruktur menjadi data terstruktur.

Fitur utama yang membedakannya adalah kemampuan rujukan balik (grounding) yang menghubungkan data ekstraksi ke teks sumber aslinya.

Mendukung berbagai model bahasa besar (LLM) seperti Gemini dan GPT untuk menghasilkan output berupa JSON atau HTML interaktif.

Proses instalasi dan penggunaan sangat sederhana melalui pip tanpa memerlukan data pelatihan atau penyetelan model yang rumit.

Alat ini sangat berguna untuk industri yang memerlukan akurasi tinggi dan audit data seperti kesehatan

Timeline

Masalah Data Tidak Terstruktur dan Pengenalan Lang Extract

Banyak alur kerja pengembang hancur karena sulitnya mengelola teks yang tidak terstruktur dari email atau PDF. Masalah utamanya bukan pada pembangunan aplikasi, melainkan pada sifat data dunia nyata yang berantakan. Pembicara memperkenalkan Lang Extract sebagai solusi sumber terbuka gratis dari Google yang berkembang sangat cepat untuk mengatasi hambatan ini. Alat ini diposisikan sebagai alternatif modern bagi pengembang yang sebelumnya mengandalkan NLP konvensional. Bagian ini menekankan bahwa solusi ini bukan sekadar menambah peran manusia, melainkan pendekatan teknologi yang berbeda.

Cara Kerja dan Keunggulan Rujukan Balik

Lang Extract menggunakan LLM seperti Gemini atau GPT untuk mengekstrak entitas, atribut, dan relasi menjadi format JSON atau HTML. Perbedaan mencolok alat ini dibandingkan pustaka lain adalah setiap ekstraksi dirujuk kembali ke rentang teks aslinya secara tepat. Alih-alih hanya memberikan hasil, model memberikan bukti berupa kalimat tepat yang digunakan sebagai sumber data. Hal ini menciptakan alur kerja yang dapat diverifikasi dan meningkatkan kepercayaan pengguna terhadap output AI. Mekanisme ini disebut sebagai perubahan besar dalam cara kita mengandalkan hasil ekstraksi model bahasa.

Demonstrasi Teknis dan Implementasi Python

Pembicara mendemonstrasikan cara menggunakan Lang Extract pada catatan klinis yang awalnya dianggap sebagai "omong kosong" oleh komputer. Prosesnya dimulai dengan mengkloning repositori Git, menginstal dependensi, dan mengatur kunci API Gemini dalam file lingkungan. Pengguna hanya perlu menulis skrip Python sederhana dan mendeskripsikan kebutuhan ekstraksi melalui perintah teks (prompting). Tidak diperlukan data pelatihan atau penyetelan model yang rumit karena semuanya berbasis instruksi. Fitur halaman HTML interaktif juga diperlihatkan, di mana pengguna bisa mengklik entitas untuk melihat sorotan otomatis pada teks sumber aslinya.

Analisis Kelebihan, Kekurangan, dan Kasus Penggunaan

Alat ini sangat efektif untuk mengubah catatan klinis atau tiket dukungan menjadi graf pengetahuan yang mudah diurai. Kelebihannya mencakup pengaturan yang mudah melalui pip, kemampuan verifikasi data, serta fleksibilitas penggunaan di lokal maupun cloud. Namun, terdapat beberapa kekurangan seperti biaya API LLM yang tetap berjalan dan kurva pembelajaran bagi mereka yang tidak menguasai Python. Alat ini juga dianggap tidak ideal untuk aplikasi yang membutuhkan latensi sangat rendah atau respon real-time. Kesimpulannya, Lang Extract sangat layak dicoba bagi siapa saja yang bekerja di sektor kesehatan, keuangan, atau kepatuhan yang mengutamakan akurasi data.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video