00:00:00Você provavelmente já tentou transformar e-mails, PDFs ou transcrições em dados estruturados
00:00:04em algum momento e a coisa desandou rápido.
00:00:07Todo mundo acha que a parte difícil é construir o app.
00:00:09Não é.
00:00:10O problema é o texto, porque boa parte dos dados reais costuma ser não estruturada e a maioria dos fluxos
00:00:15falha justamente aqui.
00:00:16Você esperaria que a solução fosse mais cargos, mais NLP, mas alguns devs estão fazendo
00:00:21exatamente o oposto.
00:00:22Este é o Lang Extract.
00:00:23É uma ferramenta gratuita de código aberto do Google que está crescendo discretamente e rápido.
00:00:27Lançamos vídeos o tempo todo.
00:00:29Não se esqueça de se inscrever.
00:00:32Ok, o Lang Extract parece apenas mais uma biblioteca de extração e, à primeira vista,
00:00:40até que é, mas aqui está o que o torna diferente.
00:00:43O Lang Extract é uma biblioteca Python que usa LLMs como Gemini ou GPT para extrair dados
00:00:49estruturados de textos bagunçados.
00:00:51Sim: entidades, atributos e relações em uma saída limpa, como JSON ou até
00:00:57HTML interativo.
00:00:58O motivo final pelo qual os devs se importam é que cada extração é vinculada ao trecho exato
00:01:02do texto original.
00:01:04Ou seja, em vez de o modelo dizer "Confia em mim
00:01:09que eu usei".
00:01:10Essa é a grande mudança aqui.
00:01:11Basicamente, o fluxo aqui é: o prompt entra, a extração acontece
00:01:15e você recebe essa saída estruturada que pode ser verificada.
00:01:19Antes de eu responder por que os devs estão abandonando o NLP das antigas, deixe-me
00:01:24mostrar como tudo funciona para você testar.
00:01:27Tudo bem, aqui está um exemplo simples.
00:01:29Na tela, temos o texto não estruturado de notas clínicas que encontrei e,
00:01:33por enquanto, é apenas texto.
00:01:34Está em um arquivo de texto.
00:01:36Um humano consegue ler e extrair as partes importantes, mas o computador vê tudo como ruído.
00:01:41Primeiro, precisei clonar o repo no Git e instalar os requisitos; depois,
00:01:45precisei da minha chave da API do Gemini, que guardei em um arquivo .env.
00:01:49Depois, escrevi este script Python para rodar e descrever o que eu queria extrair
00:01:54no meu prompt.
00:01:56É por isso que você precisa de algum conhecimento em Python.
00:01:58Minhas entidades, atributos e relações foram todos escritos nesse prompt.
00:02:02Não há dados de treinamento nem ajuste de modelo (fine-tuning).
00:02:05Aí o Lang Extract roda e eu recebo uma saída JSON estruturada.
00:02:09Agora reparem nesta parte, porque este é o ponto principal.
00:02:12Cada campo extraído aqui no JSON está linkado à frase exata
00:02:18de onde ele veio.
00:02:19Se você estiver revisando, depurando ou explicando para alguém, não há mais adivinhação.
00:02:23Mas um dos recursos mais legais que encontrei foi a página HTML interativa, gerada automaticamente.
00:02:29Nela, você pode clicar em uma entidade e vê-la destacada no texto original,
00:02:33passando por tudo visualmente para ver as palavras-alvo que você buscava.
00:02:38É por isso que é excelente para depuração, auditorias e revisões.
00:02:42E se precisar fazer isso em escala, o modo batch permite rodar em milhares de documentos
00:02:46com mais eficiência.
00:02:48Então sim, isso parece ótimo.
00:02:50Achei isso muito legal, especialmente a parte do HTML.
00:02:52Ok, agora por que os devs estão trocando o NLP tradicional por isso?
00:02:56É porque texto bagunçado não é só chato, né?
00:02:59É irritante, sim, mas também é caro.
00:03:01Custa tempo e quebra as coisas.
00:03:03É por isso que vemos o Lang Extract onde a precisão e a rastreabilidade realmente importam.
00:03:08Coisas como extrair dados estruturados de notas clínicas e ainda poder auditar
00:03:12de onde eles vieram.
00:03:13Isso é enorme.
00:03:14Ou quem sabe transformar feedbacks e tickets de suporte em grafos de conhecimento em vez daqueles
00:03:18arquivos CSV gigantes.
00:03:20Com tudo de bom que essas ferramentas trazem, também temos alguns pontos negativos.
00:03:24Eles vão influenciar sua decisão de como usá-lo.
00:03:26Do lado positivo, temos muita coisa.
00:03:27A configuração é simples, certo?
00:03:29Pip install, escreve um prompt e pronto.
00:03:31Saídas fundamentadas reduzem os problemas de confiança na LLM, pois você verifica tudo e não fica preso
00:03:36a um único modelo.
00:03:37Funciona localmente ou na nuvem.
00:03:39Ambas as opções funcionam e ele lida com documentos longos melhor que a maioria das ferramentas.
00:03:43É gratuito, de código aberto e está evoluindo rápido.
00:03:45Existem alguns inconvenientes, pois você ainda paga custos de LLM em escala.
00:03:51Textos com muito ruído podem causar extrações incompletas.
00:03:53É focado em Python, então, se você não conhece a linguagem, pode haver uma curva de aprendizado, mas
00:03:57Python é ótimo.
00:03:58Não é o ideal para apps em tempo real de ultrabaixa latência.
00:04:01Por que você deveria se importar?
00:04:02Porque o Lang Extract reduz a barreira para trabalhar com dados não estruturados sem precisar criar
00:04:07modelos customizados ou pipelines frágeis.
00:04:09Ele torna a saída da LLM algo em que você pode confiar em produção, pois está vinculada
00:04:14à origem, especialmente em setores como finanças, saúde e conformidade,
00:04:19onde isso realmente importa.
00:04:21Além disso, ele se encaixa em stacks modernas: RAG, busca, grafos de conhecimento, analytics, o que for.
00:04:26Se dados não estruturados estão te atrasando, essa ferramenta pode te elevar de nível.
00:04:27Se lidar com dados faz parte do seu trabalho — e vamos ser sinceros, provavelmente faz — vale a pena conferir.
00:04:31A gente se vê no próximo vídeo.
00:04:35We'll see you in another video.