Esta ferramenta do Google transforma textos bagunçados em dados limpos

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Você provavelmente já tentou transformar e-mails, PDFs ou transcrições em dados estruturados

00:00:04em algum momento e a coisa desandou rápido.

00:00:07Todo mundo acha que a parte difícil é construir o app.

00:00:09Não é.

00:00:10O problema é o texto, porque boa parte dos dados reais costuma ser não estruturada e a maioria dos fluxos

00:00:15falha justamente aqui.

00:00:16Você esperaria que a solução fosse mais cargos, mais NLP, mas alguns devs estão fazendo

00:00:21exatamente o oposto.

00:00:22Este é o Lang Extract.

00:00:23É uma ferramenta gratuita de código aberto do Google que está crescendo discretamente e rápido.

00:00:27Lançamos vídeos o tempo todo.

00:00:29Não se esqueça de se inscrever.

00:00:32Ok, o Lang Extract parece apenas mais uma biblioteca de extração e, à primeira vista,

00:00:40até que é, mas aqui está o que o torna diferente.

00:00:43O Lang Extract é uma biblioteca Python que usa LLMs como Gemini ou GPT para extrair dados

00:00:49estruturados de textos bagunçados.

00:00:51Sim: entidades, atributos e relações em uma saída limpa, como JSON ou até

00:00:57HTML interativo.

00:00:58O motivo final pelo qual os devs se importam é que cada extração é vinculada ao trecho exato

00:01:02do texto original.

00:01:04Ou seja, em vez de o modelo dizer "Confia em mim

00:01:09que eu usei".

00:01:10Essa é a grande mudança aqui.

00:01:11Basicamente, o fluxo aqui é: o prompt entra, a extração acontece

00:01:15e você recebe essa saída estruturada que pode ser verificada.

00:01:19Antes de eu responder por que os devs estão abandonando o NLP das antigas, deixe-me

00:01:24mostrar como tudo funciona para você testar.

00:01:27Tudo bem, aqui está um exemplo simples.

00:01:29Na tela, temos o texto não estruturado de notas clínicas que encontrei e,

00:01:33por enquanto, é apenas texto.

00:01:34Está em um arquivo de texto.

00:01:36Um humano consegue ler e extrair as partes importantes, mas o computador vê tudo como ruído.

00:01:41Primeiro, precisei clonar o repo no Git e instalar os requisitos; depois,

00:01:45precisei da minha chave da API do Gemini, que guardei em um arquivo .env.

00:01:49Depois, escrevi este script Python para rodar e descrever o que eu queria extrair

00:01:54no meu prompt.

00:01:56É por isso que você precisa de algum conhecimento em Python.

00:01:58Minhas entidades, atributos e relações foram todos escritos nesse prompt.

00:02:02Não há dados de treinamento nem ajuste de modelo (fine-tuning).

00:02:05Aí o Lang Extract roda e eu recebo uma saída JSON estruturada.

00:02:09Agora reparem nesta parte, porque este é o ponto principal.

00:02:12Cada campo extraído aqui no JSON está linkado à frase exata

00:02:18de onde ele veio.

00:02:19Se você estiver revisando, depurando ou explicando para alguém, não há mais adivinhação.

00:02:23Mas um dos recursos mais legais que encontrei foi a página HTML interativa, gerada automaticamente.

00:02:29Nela, você pode clicar em uma entidade e vê-la destacada no texto original,

00:02:33passando por tudo visualmente para ver as palavras-alvo que você buscava.

00:02:38É por isso que é excelente para depuração, auditorias e revisões.

00:02:42E se precisar fazer isso em escala, o modo batch permite rodar em milhares de documentos

00:02:46com mais eficiência.

00:02:48Então sim, isso parece ótimo.

00:02:50Achei isso muito legal, especialmente a parte do HTML.

00:02:52Ok, agora por que os devs estão trocando o NLP tradicional por isso?

00:02:56É porque texto bagunçado não é só chato, né?

00:02:59É irritante, sim, mas também é caro.

00:03:01Custa tempo e quebra as coisas.

00:03:03É por isso que vemos o Lang Extract onde a precisão e a rastreabilidade realmente importam.

00:03:08Coisas como extrair dados estruturados de notas clínicas e ainda poder auditar

00:03:12de onde eles vieram.

00:03:13Isso é enorme.

00:03:14Ou quem sabe transformar feedbacks e tickets de suporte em grafos de conhecimento em vez daqueles

00:03:18arquivos CSV gigantes.

00:03:20Com tudo de bom que essas ferramentas trazem, também temos alguns pontos negativos.

00:03:24Eles vão influenciar sua decisão de como usá-lo.

00:03:26Do lado positivo, temos muita coisa.

00:03:27A configuração é simples, certo?

00:03:29Pip install, escreve um prompt e pronto.

00:03:31Saídas fundamentadas reduzem os problemas de confiança na LLM, pois você verifica tudo e não fica preso

00:03:36a um único modelo.

00:03:37Funciona localmente ou na nuvem.

00:03:39Ambas as opções funcionam e ele lida com documentos longos melhor que a maioria das ferramentas.

00:03:43É gratuito, de código aberto e está evoluindo rápido.

00:03:45Existem alguns inconvenientes, pois você ainda paga custos de LLM em escala.

00:03:51Textos com muito ruído podem causar extrações incompletas.

00:03:53É focado em Python, então, se você não conhece a linguagem, pode haver uma curva de aprendizado, mas

00:03:57Python é ótimo.

00:03:58Não é o ideal para apps em tempo real de ultrabaixa latência.

00:04:01Por que você deveria se importar?

00:04:02Porque o Lang Extract reduz a barreira para trabalhar com dados não estruturados sem precisar criar

00:04:07modelos customizados ou pipelines frágeis.

00:04:09Ele torna a saída da LLM algo em que você pode confiar em produção, pois está vinculada

00:04:14à origem, especialmente em setores como finanças, saúde e conformidade,

00:04:19onde isso realmente importa.

00:04:21Além disso, ele se encaixa em stacks modernas: RAG, busca, grafos de conhecimento, analytics, o que for.

00:04:26Se dados não estruturados estão te atrasando, essa ferramenta pode te elevar de nível.

00:04:27Se lidar com dados faz parte do seu trabalho — e vamos ser sinceros, provavelmente faz — vale a pena conferir.

00:04:31A gente se vê no próximo vídeo.

00:04:35We'll see you in another video.

Key Takeaway

O Lang Extract revoluciona a extração de dados ao unir o poder das LLMs com a rastreabilidade total da origem da informação, eliminando a 'caixa-preta' do processamento de linguagem natural tradicional.

Highlights

O Lang Extract é uma ferramenta de código aberto do Google para transformar textos não estruturados em dados limpos.

Diferente do NLP tradicional, ele vincula cada dado extraído ao trecho exato do texto original.

A biblioteca Python utiliza LLMs como Gemini ou GPT para gerar saídas estruturadas em JSON ou HTML interativo.

O recurso de 'grounding' (fundamentação) permite auditar e verificar a origem das informações, aumentando a confiança.

A ferramenta facilita a criação de grafos de conhecimento e pipelines de dados sem necessidade de modelos customizados.

É especialmente útil para setores que exigem alta conformidade, como saúde, finanças e jurídico.

Timeline

O Problema dos Dados Não Estruturados

O palestrante introduz o desafio comum de lidar com e-mails, PDFs e transcrições que frequentemente quebram fluxos de trabalho automatizados. Ele argumenta que o verdadeiro obstáculo não é construir o aplicativo em si, mas sim lidar com a natureza bagunçada dos dados reais. O Lang Extract é apresentado como uma solução de código aberto do Google que está ganhando tração rapidamente entre desenvolvedores. Esta seção estabelece a necessidade de uma nova abordagem que substitua o NLP tradicional por algo mais eficiente. O vídeo enfatiza que a maioria dos projetos de dados falha justamente na etapa de estruturação do texto.

O que torna o Lang Extract Diferente

Nesta parte, o funcionamento técnico da biblioteca Python é detalhado, mostrando como ela utiliza modelos como Gemini e GPT. O grande diferencial apresentado é a capacidade de gerar saídas estruturadas, como JSON ou HTML, onde cada extração é vinculada à fonte original. Isso resolve o problema da 'alucinação' das LLMs, pois o desenvolvedor não precisa apenas 'confiar' no modelo. A rastreabilidade permite que entidades, atributos e relações sejam verificados visualmente. Este fluxo de trabalho transforma prompts em saídas auditáveis e extremamente limpas para uso em produção.

Demonstração Prática e Implementação

O vídeo exibe um tutorial prático utilizando notas clínicas não estruturadas para demonstrar a extração de dados. O processo envolve clonar o repositório, configurar chaves de API do Gemini em um arquivo .env e escrever scripts Python simples. O palestrante destaca que não é necessário realizar treinamento de modelos ou fine-tuning, apenas descrever as entidades no prompt. Um dos recursos mais impressionantes mostrados é a página HTML interativa que destaca as palavras-alvo no texto original ao clicar nos dados extraídos. Esta funcionalidade é descrita como essencial para processos de depuração, auditoria e revisões em escala.

NLP Tradicional vs. Lang Extract

A discussão foca no motivo pelo qual desenvolvedores estão abandonando métodos antigos de NLP em favor desta nova ferramenta. O texto bagunçado é descrito não apenas como um incômodo, mas como um custo financeiro e de tempo significativo para as empresas. O Lang Extract brilha em cenários onde a precisão e a rastreabilidade são críticas, como na transformação de tickets de suporte em grafos de conhecimento. Em vez de arquivos CSV gigantes e confusos, a ferramenta permite criar estruturas de dados inteligentes e organizadas. A mudança de paradigma foca na transparência do dado extraído em relação ao seu contexto original.

Prós, Contras e Veredito Final

O encerramento analisa as vantagens e limitações da ferramenta, citando a facilidade de instalação via 'pip install' e o suporte a documentos longos. Entre os pontos positivos estão a redução de problemas de confiança e a flexibilidade de rodar localmente ou na nuvem. Contudo, o palestrante alerta sobre custos de API em larga escala e a curva de aprendizado para quem não conhece Python. A ferramenta não é recomendada para aplicações de ultrabaixa latência em tempo real, mas é ideal para setores de conformidade. O vídeo conclui que o Lang Extract é um divisor de águas para quem trabalha com RAG e analytics modernos.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video