00:00:00Vous avez probablement déjà essayé de transformer des e-mails, des PDF ou des transcriptions en données structurées,
00:00:04et ça a mal tourné très rapidement.
00:00:07Tout le monde pense que le plus dur est de construire l'application.
00:00:09C'est faux.
00:00:10La difficulté réside dans le texte, car une part énorme des données réelles est non structurée et la plupart des pipelines
00:00:15s'effondrent à ce stade.
00:00:16On s'attendrait à ce que la solution passe par plus de rôles ou de NLP, mais certains développeurs font exactement
00:00:21le contraire.
00:00:22Voici Lang Extract.
00:00:23C'est un outil open source gratuit de Google qui se développe discrètement, et vite.
00:00:27Nous publions des vidéos en permanence.
00:00:29N'oubliez pas de vous abonner.
00:00:32Alors, Lang Extract ressemble à une simple bibliothèque d'extraction de plus, et au premier abord,
00:00:40c'est un peu le cas, mais voici ce qui fait la différence.
00:00:43Lang Extract est une bibliothèque Python qui utilise des LLM comme Gemini ou GPT pour extraire des données
00:00:49structurées à partir de textes bruts.
00:00:51On parle d'entités, d'attributs et de relations transformés en JSON propre ou même en HTML
00:00:57interactif.
00:00:58La raison ultime pour laquelle les dev l'adorent, c'est que chaque extraction est reliée au segment de texte exact
00:01:02dont elle provient.
00:01:04Au lieu que le modèle dise « Croyez-moi sur parole », il dit : « Voici la phrase exacte que
00:01:09j'ai utilisée ».
00:01:10C'est là que tout change.
00:01:11Le flux de travail est simple : vous envoyez le prompt, l'extraction se fait,
00:01:15et vous obtenez un résultat structuré que vous pouvez réellement vérifier.
00:01:19Avant d'expliquer pourquoi les dev abandonnent le NLP classique pour ça,
00:01:24laissez-moi vous montrer comment ça marche pour que vous puissiez tester.
00:01:27Très bien, voici un exemple simple.
00:01:29À l'écran, nous avons du texte non structuré provenant de notes cliniques ; pour l'instant,
00:01:33ce n'est que du texte brut.
00:01:34C'est dans un fichier texte.
00:01:36Un humain peut le lire et en extraire l'essentiel, mais un ordinateur n'y voit que du charabia.
00:01:41D'abord, j'ai dû cloner le dépôt Git et installer les dépendances, puis j'ai dû
00:01:45récupérer ma clé API Gemini, que j'ai stockée dans un fichier .env.
00:01:49J'ai ensuite écrit ce script Python pour lancer l'exécution et décrire ce que je voulais extraire
00:01:54dans mon prompt.
00:01:56C'est pour cela qu'il faut avoir quelques bases en Python.
00:01:58Mes entités, attributs et relations sont tous définis dans ce prompt.
00:02:02Il n'y a pas de données d'entraînement, pas de réglage de modèle.
00:02:05Lang Extract s'exécute et j'obtiens une sortie JSON structurée.
00:02:09Regardez bien cet aspect, car c'est tout l'intérêt de l'outil.
00:02:12Chaque champ extrait dans mon JSON est lié à la phrase exacte dont il est
00:02:18issu.
00:02:19Pour la relecture, le débogage ou l'explication à un tiers, plus besoin de deviner.
00:02:23L'une des fonctionnalités les plus cool est la page HTML interactive générée automatiquement.
00:02:29Vous pouvez cliquer sur une entité pour la voir surlignée dans le texte original et
00:02:33parcourir rapidement tous les termes ciblés que vous recherchiez.
00:02:38C'est un atout majeur pour le débogage, les audits et les révisions.
00:02:42Et si vous devez passer à l'échelle, le mode batch permet de traiter des milliers de documents
00:02:46bien plus efficacement.
00:02:48Ça semble excellent.
00:02:50C'était vraiment impressionnant, surtout la partie HTML.
00:02:52Maintenant, pourquoi les dev délaissent-ils le NLP à l'ancienne pour ça ?
00:02:56C'est parce que le texte mal structuré n'est pas seulement agaçant, n'est-ce pas ?
00:02:59C'est pénible, certes, mais c'est aussi coûteux.
00:03:01Ça fait perdre du temps et ça cause des erreurs.
00:03:03C'est pourquoi Lang Extract apparaît là où la précision et la traçabilité sont cruciales.
00:03:08Comme extraire des données de notes cliniques tout en pouvant auditer précisément
00:03:12leur origine.
00:03:13C'est énorme.
00:03:14Ou transformer des retours clients et des tickets de support en graphes de connaissances plutôt qu'en
00:03:18fichiers CSV gigantesques.
00:03:20Avec tous les avantages de ce type d'outils, il y a aussi quelques inconvénients.
00:03:24Cela influencera votre décision de l'utiliser ou non.
00:03:26Côté points positifs, il y en a beaucoup.
00:03:27La configuration est simple, non ?
00:03:29Un « pip install », un prompt, et c'est parti.
00:03:31Les sorties sourcées réduisent les problèmes de confiance envers les LLM car on peut tout vérifier, et on n'est pas
00:03:36enfermé avec un seul modèle.
00:03:37Ça fonctionne en local ou dans le cloud.
00:03:39Les deux options marchent, et l'outil gère mieux les documents longs que la plupart des solutions.
00:03:43C'est gratuit, open source, et ça évolue très vite.
00:03:45Il y a quelques bémols à noter, car les coûts de LLM s'appliquent toujours à grande échelle.
00:03:51Un texte très bruité peut entraîner des extractions incomplètes.
00:03:53C'est conçu d'abord pour Python ; si vous ne connaissez pas le langage, la courbe d'apprentissage sera là, mais
00:03:57Python est génial.
00:03:58Ce n'est pas l'idéal pour les applications en temps réel à ultra-basse latence.
00:04:01Pourquoi devriez-vous vous y intéresser ?
00:04:02Parce que Lang Extract facilite le travail sur les données non structurées sans créer
00:04:07de modèles personnalisés ou de pipelines fragiles.
00:04:09Il rend les résultats des LLM exploitables en production car ils sont liés
00:04:14à leur source, surtout dans des secteurs comme la finance, la santé ou la conformité,
00:04:19où c'est vraiment primordial.
00:04:21De plus, il s'intègre parfaitement aux stacks modernes : RAG, recherche, graphes de connaissances, analytics...
00:04:26peu importe votre projet.
00:04:27Si les données non structurées vous freinent, cet outil peut vraiment vous faire passer un cap.
00:04:31Si la donnée fait partie de votre métier — et soyons honnêtes, c'est sûrement le cas — ça vaut le coup d'œil.
00:04:35On se retrouve dans une prochaine vidéo.