00:00:00Wahrscheinlich haben Sie schon einmal versucht, E-Mails, PDFs oder Transkripte in strukturierte
00:00:04Daten umzuwandeln – und es ging ziemlich schnell schief.
00:00:07Alle denken, der schwierigste Teil sei die Entwicklung der App.
00:00:09Ist es aber nicht.
00:00:10Es liegt am Text, denn ein Großteil der realen Daten ist oft unstrukturiert und genau hier
00:00:15scheitern die meisten Pipelines.
00:00:16Man würde erwarten, dass die Lösung mehr Personal oder mehr NLP ist, aber einige Entwickler machen
00:00:21eigentlich das Gegenteil.
00:00:22Das hier ist Lang Extract.
00:00:23Es ist ein kostenloses Open-Source-Tool von Google, das im Stillen rasant wächst.
00:00:27Wir veröffentlichen ständig neue Videos.
00:00:29Abonnieren Sie uns also unbedingt.
00:00:32Okay, Lang Extract klingt erst mal wie eine gewöhnliche Bibliothek zur Extraktion, und auf
00:00:40den ersten Blick ist es das auch, aber das hier macht den Unterschied:
00:00:43Lang Extract ist eine Python-Bibliothek, die LLMs wie Gemini oder GPT nutzt, um strukturierte
00:00:49Daten aus unordentlichen Texten zu ziehen.
00:00:51Es wandelt Entitäten, Attribute und Beziehungen in saubere Ausgaben wie JSON oder sogar
00:00:57interaktives HTML um.
00:00:58Der entscheidende Grund für Entwickler ist: Jede einzelne Extraktion ist direkt mit dem exakten
00:01:02Textabschnitt verknüpft, aus dem sie stammt.
00:01:04Statt dass das Modell sagt: „Vertrau mir einfach“, sagt es: „Hier ist der genaue Satz,
00:01:09den ich verwendet habe.“
00:01:10Das ist die große Neuerung.
00:01:11Der Workflow sieht im Grunde so aus: Prompt rein, Extraktion erfolgt,
00:01:15und dann erhält man eine strukturierte Ausgabe, die man tatsächlich verifizieren kann.
00:01:19Bevor ich erkläre, warum Entwickler klassisches NLP dafür aufgeben,
00:01:24zeige ich Ihnen zuerst, wie das Ganze funktioniert, damit Sie es selbst ausprobieren können.
00:01:27Alles klar, hier ist ein einfaches Beispiel.
00:01:29Auf dem Bildschirm sehen wir unstrukturierten Text aus klinischen Notizen, die ich gefunden habe,
00:01:33und im Moment ist es eben nur reiner Text.
00:01:34Er liegt in einer Textdatei vor.
00:01:36Ein Mensch kann ihn lesen und die wichtigen Teile herausfiltern, aber ein Computer sieht darin nur Kauderwelsch.
00:01:41Zuerst musste ich das Git-Repo klonen und die Voraussetzungen installieren, dann brauchte ich
00:01:45noch meinen Gemini-API-Key, den ich einfach in einer ENV-Datei gespeichert habe.
00:01:49Dann habe ich dieses Python-Skript geschrieben, um es auszuführen und in meinem Prompt
00:01:54beschrieben, was ich extrahieren möchte.
00:01:56Deshalb braucht man ein gewisses Verständnis von Python.
00:01:58Alle meine Entitäten, Attribute und Beziehungen sind in diesem Prompt formuliert.
00:02:02Es gibt keine Trainingsdaten und kein Modell-Tuning.
00:02:05Dann läuft Lang Extract und ich erhalte eine strukturierte JSON-Ausgabe.
00:02:09Und hier kommt der Punkt, auf den es wirklich ankommt.
00:02:12Jedes extrahierte Feld ist im JSON direkt mit dem Satz verknüpft,
00:02:18aus dem es im Original stammt.
00:02:19Wenn man es also überprüft, debuggt oder anderen erklärt, muss man nicht mehr raten.
00:02:23Eines der coolsten Features ist die interaktive HTML-Seite, die automatisch generiert wird.
00:02:29Hier kann man eine Entität anklicken und sieht sie im Originaltext hervorgehoben.
00:02:33Man bekommt so einen schnellen visuellen Überblick über alle gesuchten Begriffe.
00:02:38Das ist enorm hilfreich für Debugging, Audits, Reviews und solche Dinge.
00:02:42Und falls man das im großen Stil braucht: Mit dem Batch-Modus lassen sich tausende Dokumente
00:02:46wesentlich effizienter verarbeiten.
00:02:48Das sieht also schon mal super aus.
00:02:50Das war wirklich cool, besonders die Sache mit dem HTML.
00:02:52Okay, aber warum verabschieden sich Entwickler für dieses Tool vom klassischen NLP?
00:02:56Weil unordentlicher Text nicht nur nervig ist, oder?
00:02:59Er ist zwar nervig, aber er ist vor allem teuer.
00:03:01Er kostet Zeit und führt zu Fehlern.
00:03:03Deshalb sehen wir Lang Extract dort, wo Genauigkeit und Rückverfolgbarkeit entscheidend sind.
00:03:08Zum Beispiel beim Extrahieren strukturierter Daten aus klinischen Notizen, bei denen man
00:03:12immer auditieren können muss, woher die Info stammt.
00:03:13Das ist eine große Sache.
00:03:14Oder wir verwandeln Feedback und Support-Tickets in Knowledge Graphs statt in
00:03:18riesige, unhandliche CSV-Dateien.
00:03:20Neben all den Vorteilen solcher Tools gibt es natürlich auch ein paar Kehrseiten.
00:03:24Diese werden beeinflussen, wie Sie sich für den Einsatz entscheiden.
00:03:26Auf der Habenseite steht eine Menge.
00:03:27Die Einrichtung ist simpel, oder?
00:03:29Pip-Installation, Prompt schreiben und los geht's.
00:03:31Fundierte Ergebnisse reduzieren Vertrauensprobleme gegenüber LLMs, da alles verifiziert werden kann,
00:03:36und man ist nicht an ein Modell gebunden.
00:03:37Es funktioniert lokal oder in der Cloud.
00:03:39Beides klappt, und es verarbeitet lange Dokumente besser als die meisten anderen Tools.
00:03:43Es ist kostenlos, Open Source und entwickelt sich rasant weiter.
00:03:45Es gibt jedoch auch Nachteile: Bei großen Mengen fallen weiterhin LLM-Kosten an.
00:03:51Sehr „rauschanfälliger“, unsauberer Text kann zu unvollständigen Extraktionen führen.
00:03:53Es ist auf Python ausgelegt. Wer also kein Python kann, hat eine gewisse Lernkurve – aber
00:03:57Python ist großartig.
00:03:58Für Echtzeit-Apps mit extrem niedriger Latenz ist es nicht ideal.
00:04:01Warum sollte Sie das also interessieren?
00:04:02Weil Lang Extract die Hürde für die Arbeit mit unstrukturierten Daten senkt, ohne dass man
00:04:07eigene Modelle oder anfällige Pipelines bauen muss.
00:04:09Es macht LLM-Outputs für die Produktion vertrauenswürdig, weil sie belegbar sind,
00:04:14besonders in Bereichen wie Finanzen, Gesundheitswesen oder Compliance, wo es
00:04:19wirklich darauf ankommt.
00:04:21Zudem passt es in moderne Stacks: RAG, Suche, Knowledge Graphs, Analytics – was auch immer Sie bauen.
00:04:26Wenn unstrukturierte Daten Sie ausbremsen, kann dieses Tool Sie echt weiterbringen.
00:04:27Wenn Daten zu Ihrem Job gehören – und seien wir ehrlich, das tun sie meistens – lohnt sich ein Blick darauf.
00:04:31Wir sehen uns im nächsten Video.
00:04:35We'll see you in another video.