Esta ferramenta do Google transforma textos bagunçados em dados limpos

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Você provavelmente já tentou transformar e-mails, PDFs ou transcrições em dados estruturados
00:00:04em algum momento e a coisa desandou rápido.
00:00:07Todo mundo acha que a parte difícil é construir o app.
00:00:09Não é.
00:00:10O problema é o texto, porque boa parte dos dados reais costuma ser não estruturada e a maioria dos fluxos
00:00:15falha justamente aqui.
00:00:16Você esperaria que a solução fosse mais cargos, mais NLP, mas alguns devs estão fazendo
00:00:21exatamente o oposto.
00:00:22Este é o Lang Extract.
00:00:23É uma ferramenta gratuita de código aberto do Google que está crescendo discretamente e rápido.
00:00:27Lançamos vídeos o tempo todo.
00:00:29Não se esqueça de se inscrever.
00:00:32Ok, o Lang Extract parece apenas mais uma biblioteca de extração e, à primeira vista,
00:00:40até que é, mas aqui está o que o torna diferente.
00:00:43O Lang Extract é uma biblioteca Python que usa LLMs como Gemini ou GPT para extrair dados
00:00:49estruturados de textos bagunçados.
00:00:51Sim: entidades, atributos e relações em uma saída limpa, como JSON ou até
00:00:57HTML interativo.
00:00:58O motivo final pelo qual os devs se importam é que cada extração é vinculada ao trecho exato
00:01:02do texto original.
00:01:04Ou seja, em vez de o modelo dizer "Confia em mim
00:01:09que eu usei".
00:01:10Essa é a grande mudança aqui.
00:01:11Basicamente, o fluxo aqui é: o prompt entra, a extração acontece
00:01:15e você recebe essa saída estruturada que pode ser verificada.
00:01:19Antes de eu responder por que os devs estão abandonando o NLP das antigas, deixe-me
00:01:24mostrar como tudo funciona para você testar.
00:01:27Tudo bem, aqui está um exemplo simples.
00:01:29Na tela, temos o texto não estruturado de notas clínicas que encontrei e,
00:01:33por enquanto, é apenas texto.
00:01:34Está em um arquivo de texto.
00:01:36Um humano consegue ler e extrair as partes importantes, mas o computador vê tudo como ruído.
00:01:41Primeiro, precisei clonar o repo no Git e instalar os requisitos; depois,
00:01:45precisei da minha chave da API do Gemini, que guardei em um arquivo .env.
00:01:49Depois, escrevi este script Python para rodar e descrever o que eu queria extrair
00:01:54no meu prompt.
00:01:56É por isso que você precisa de algum conhecimento em Python.
00:01:58Minhas entidades, atributos e relações foram todos escritos nesse prompt.
00:02:02Não há dados de treinamento nem ajuste de modelo (fine-tuning).
00:02:05Aí o Lang Extract roda e eu recebo uma saída JSON estruturada.
00:02:09Agora reparem nesta parte, porque este é o ponto principal.
00:02:12Cada campo extraído aqui no JSON está linkado à frase exata
00:02:18de onde ele veio.
00:02:19Se você estiver revisando, depurando ou explicando para alguém, não há mais adivinhação.
00:02:23Mas um dos recursos mais legais que encontrei foi a página HTML interativa, gerada automaticamente.
00:02:29Nela, você pode clicar em uma entidade e vê-la destacada no texto original,
00:02:33passando por tudo visualmente para ver as palavras-alvo que você buscava.
00:02:38É por isso que é excelente para depuração, auditorias e revisões.
00:02:42E se precisar fazer isso em escala, o modo batch permite rodar em milhares de documentos
00:02:46com mais eficiência.
00:02:48Então sim, isso parece ótimo.
00:02:50Achei isso muito legal, especialmente a parte do HTML.
00:02:52Ok, agora por que os devs estão trocando o NLP tradicional por isso?
00:02:56É porque texto bagunçado não é só chato, né?
00:02:59É irritante, sim, mas também é caro.
00:03:01Custa tempo e quebra as coisas.
00:03:03É por isso que vemos o Lang Extract onde a precisão e a rastreabilidade realmente importam.
00:03:08Coisas como extrair dados estruturados de notas clínicas e ainda poder auditar
00:03:12de onde eles vieram.
00:03:13Isso é enorme.
00:03:14Ou quem sabe transformar feedbacks e tickets de suporte em grafos de conhecimento em vez daqueles
00:03:18arquivos CSV gigantes.
00:03:20Com tudo de bom que essas ferramentas trazem, também temos alguns pontos negativos.
00:03:24Eles vão influenciar sua decisão de como usá-lo.
00:03:26Do lado positivo, temos muita coisa.
00:03:27A configuração é simples, certo?
00:03:29Pip install, escreve um prompt e pronto.
00:03:31Saídas fundamentadas reduzem os problemas de confiança na LLM, pois você verifica tudo e não fica preso
00:03:36a um único modelo.
00:03:37Funciona localmente ou na nuvem.
00:03:39Ambas as opções funcionam e ele lida com documentos longos melhor que a maioria das ferramentas.
00:03:43É gratuito, de código aberto e está evoluindo rápido.
00:03:45Existem alguns inconvenientes, pois você ainda paga custos de LLM em escala.
00:03:51Textos com muito ruído podem causar extrações incompletas.
00:03:53É focado em Python, então, se você não conhece a linguagem, pode haver uma curva de aprendizado, mas
00:03:57Python é ótimo.
00:03:58Não é o ideal para apps em tempo real de ultrabaixa latência.
00:04:01Por que você deveria se importar?
00:04:02Porque o Lang Extract reduz a barreira para trabalhar com dados não estruturados sem precisar criar
00:04:07modelos customizados ou pipelines frágeis.
00:04:09Ele torna a saída da LLM algo em que você pode confiar em produção, pois está vinculada
00:04:14à origem, especialmente em setores como finanças, saúde e conformidade,
00:04:19onde isso realmente importa.
00:04:21Além disso, ele se encaixa em stacks modernas: RAG, busca, grafos de conhecimento, analytics, o que for.
00:04:26Se dados não estruturados estão te atrasando, essa ferramenta pode te elevar de nível.
00:04:27Se lidar com dados faz parte do seu trabalho — e vamos ser sinceros, provavelmente faz — vale a pena conferir.
00:04:31A gente se vê no próximo vídeo.
00:04:35We'll see you in another video.

Key Takeaway

O Lang Extract revoluciona a extração de dados ao unir o poder das LLMs com a rastreabilidade total da origem da informação, eliminando a 'caixa-preta' do processamento de linguagem natural tradicional.

Highlights

O Lang Extract é uma ferramenta de código aberto do Google para transformar textos não estruturados em dados limpos.

Diferente do NLP tradicional, ele vincula cada dado extraído ao trecho exato do texto original.

A biblioteca Python utiliza LLMs como Gemini ou GPT para gerar saídas estruturadas em JSON ou HTML interativo.

O recurso de 'grounding' (fundamentação) permite auditar e verificar a origem das informações, aumentando a confiança.

A ferramenta facilita a criação de grafos de conhecimento e pipelines de dados sem necessidade de modelos customizados.

É especialmente útil para setores que exigem alta conformidade, como saúde, finanças e jurídico.

Timeline

O Problema dos Dados Não Estruturados

O palestrante introduz o desafio comum de lidar com e-mails, PDFs e transcrições que frequentemente quebram fluxos de trabalho automatizados. Ele argumenta que o verdadeiro obstáculo não é construir o aplicativo em si, mas sim lidar com a natureza bagunçada dos dados reais. O Lang Extract é apresentado como uma solução de código aberto do Google que está ganhando tração rapidamente entre desenvolvedores. Esta seção estabelece a necessidade de uma nova abordagem que substitua o NLP tradicional por algo mais eficiente. O vídeo enfatiza que a maioria dos projetos de dados falha justamente na etapa de estruturação do texto.

O que torna o Lang Extract Diferente

Nesta parte, o funcionamento técnico da biblioteca Python é detalhado, mostrando como ela utiliza modelos como Gemini e GPT. O grande diferencial apresentado é a capacidade de gerar saídas estruturadas, como JSON ou HTML, onde cada extração é vinculada à fonte original. Isso resolve o problema da 'alucinação' das LLMs, pois o desenvolvedor não precisa apenas 'confiar' no modelo. A rastreabilidade permite que entidades, atributos e relações sejam verificados visualmente. Este fluxo de trabalho transforma prompts em saídas auditáveis e extremamente limpas para uso em produção.

Demonstração Prática e Implementação

O vídeo exibe um tutorial prático utilizando notas clínicas não estruturadas para demonstrar a extração de dados. O processo envolve clonar o repositório, configurar chaves de API do Gemini em um arquivo .env e escrever scripts Python simples. O palestrante destaca que não é necessário realizar treinamento de modelos ou fine-tuning, apenas descrever as entidades no prompt. Um dos recursos mais impressionantes mostrados é a página HTML interativa que destaca as palavras-alvo no texto original ao clicar nos dados extraídos. Esta funcionalidade é descrita como essencial para processos de depuração, auditoria e revisões em escala.

NLP Tradicional vs. Lang Extract

A discussão foca no motivo pelo qual desenvolvedores estão abandonando métodos antigos de NLP em favor desta nova ferramenta. O texto bagunçado é descrito não apenas como um incômodo, mas como um custo financeiro e de tempo significativo para as empresas. O Lang Extract brilha em cenários onde a precisão e a rastreabilidade são críticas, como na transformação de tickets de suporte em grafos de conhecimento. Em vez de arquivos CSV gigantes e confusos, a ferramenta permite criar estruturas de dados inteligentes e organizadas. A mudança de paradigma foca na transparência do dado extraído em relação ao seu contexto original.

Prós, Contras e Veredito Final

O encerramento analisa as vantagens e limitações da ferramenta, citando a facilidade de instalação via 'pip install' e o suporte a documentos longos. Entre os pontos positivos estão a redução de problemas de confiança e a flexibilidade de rodar localmente ou na nuvem. Contudo, o palestrante alerta sobre custos de API em larga escala e a curva de aprendizado para quem não conhece Python. A ferramenta não é recomendada para aplicações de ultrabaixa latência em tempo real, mas é ideal para setores de conformidade. O vídeo conclui que o Lang Extract é um divisor de águas para quem trabalha com RAG e analytics modernos.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video