Claude Code + LightRAG = IMBATÍVEL

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00a morte do RAG foi muito exagerada.

00:00:03Sim, eu sei que grandes modelos de linguagem como o Opus 4.6

00:00:05melhoraram muito ultimamente ao lidar com grandes contextos.

00:00:09Mas se você acha que isso significa que nunca precisará de RAG,

00:00:12você vai bater em um muro

00:00:14do qual não conseguirá sair apenas com prompts.

00:00:16Então hoje vou explicar quando você precisa de RAG,

00:00:19que tipo de RAG realmente funciona em 2026

00:00:22porque o cenário mudou muito no último ano,

00:00:25e vou te mostrar como conectar o Claude Code

00:00:28ao seu sistema RAG,

00:00:30além de te dar algumas habilidades que você pode levar para casa.

00:00:32O objetivo de hoje é te dar isto,

00:00:35um sistema Graph RAG construído sobre o Light RAG

00:00:38que podemos usar com o Claude Code.

00:00:40E mais importante, isso vai nos dar um sistema

00:00:43que podemos usar quando precisarmos usar IA

00:00:45com conjuntos gigantescos de documentos, certo?

00:00:49Não apenas cinco documentos, não apenas 10 documentos

00:00:51como você verá na demonstração,

00:00:52mas 500 documentos, 1.000 documentos,

00:00:55porque não basta apenas confiar

00:00:57na janela de contexto que vem com o Claude Code,

00:00:59ou qualquer outro LLM.

00:01:01Porque quando você começa a ter uma escala enorme,

00:01:03o que vemos em muitas empresas

00:01:05ou até mesmo em negócios menores,

00:01:06ter um sistema RAG como este é mais barato e rápido

00:01:10do que o seu "grep" agentico padrão.

00:01:12Com isso em mente,

00:01:13ter a habilidade de criar

00:01:14esses tipos de sistemas RAG é muito importante,

00:01:16mas felizmente é bem simples.

00:01:18E como acabei de aludir,

00:01:19usaremos o Light RAG hoje.

00:01:21Este é um repositório de código aberto que eu amo.

00:01:25Ele já existe há algum tempo,

00:01:26e é algo que tem sido atualizado repetidamente.

00:01:28Ele consegue competir com sistemas Graph RAG

00:01:30mais sofisticados, como o da Microsoft,

00:01:32por literalmente uma pequena fração do custo.

00:01:35Portanto, é o lugar perfeito para testar

00:01:37esses conceitos de Graph RAG se você nunca os usou.

00:01:40Mas para aproveitarmos ao máximo o Light RAG,

00:01:43precisamos entender como o RAG funciona em um nível básico,

00:01:46porque o cenário do RAG mudou.

00:01:48O que estávamos fazendo no final de 2024 e início de 2025

00:01:51era o chamado RAG ingênuo, o nível mais básico de RAG.

00:01:54Lembra de todas aquelas automações do n8n onde diziam,

00:01:56"ei, vamos para o Pinecone ou para o Supabase".

00:01:58Aquilo era RAG ingênuo.

00:02:00Isso não funciona mais.

00:02:02Isso não é mais suficiente.

00:02:03Temos que usar versões mais sofisticadas de RAG,

00:02:06mas precisamos entender os fundamentos primeiro.

00:02:08Então vamos fazer uma rápida recapitulação do que é RAG

00:02:12e como ele funciona antes de mergulharmos na configuração do Light RAG.

00:02:14RAG, Geração Aumentada por Recuperação.

00:02:18A forma como funciona é que começo primeiro

00:02:20com algum tipo de documento, certo?

00:02:22E vou ter milhares deles

00:02:25em um sistema RAG bem robusto.

00:02:27Mas o que acontece é que tenho este documento

00:02:29que quero colocar dentro do meu sistema RAG,

00:02:31dentro de um banco de dados vetorial.

00:02:34Bem, o que acontece não é que o documento

00:02:38simplesmente é jogado neste banco de dados,

00:02:40como se fosse algum tipo de Google Drive.

00:02:41O que ocorre é que o documento passa por um modelo de embedding

00:02:44e então é transformado em um vetor.

00:02:46Mas, mais do que isso,

00:02:47o documento não entra como uma peça gigante única.

00:02:50Ele é dividido em pedaços (chunks).

00:02:51Imagine que temos este documento de uma página

00:02:54e ele é dividido em pedaço um, pedaço dois e pedaço três.

00:02:59Cada um desses pedaços torna-se um vetor,

00:03:03que é apenas um ponto em um gráfico,

00:03:05um ponto em um banco de dados vetorial.

00:03:06O modelo de embedding é o que faz essa fragmentação por nós.

00:03:09Ele é responsável pelo processo de pegar este documento,

00:03:11descobrir do que se trata,

00:03:13e então transformá-lo em um ponto neste gráfico.

00:03:16Assim, o documento é fragmentado,

00:03:18passa pelo modelo de embedding,

00:03:20e então nosso documento torna-se um vetor neste gráfico.

00:03:24Agora, este é um gráfico tridimensional.

00:03:27Na realidade, ele tem milhares de dimensões,

00:03:30mas pense nele como um gráfico tridimensional por enquanto.

00:03:33Agora, imagine que este documento fosse sobre navios de guerra.

00:03:36Certo, e cada vetor se tornou algum tipo de pedaço

00:03:39sobre navios de guerra.

00:03:40Bem, para onde ele vai?

00:03:41Bem, ele vai para cá, perto de botes e barcos,

00:03:43obviamente, e se tornará seu próprio pequeno vetor.

00:03:45E por vetor, quero dizer,

00:03:46é apenas atribuída uma série de números que o representam.

00:03:50Você pode ver isso aqui com bananas.

00:03:53Então banana é 0.52, 5.12, e 9.31, e assim por diante.

00:03:57Isso continua por milhares de números.

00:04:00Então nosso barquinho aqui é tipo um, dois, três,

00:04:05ponto, ponto, ponto, para todo o sempre.

00:04:07Bem fácil.

00:04:08Obviamente, não ficará perto de bananas e maçãs,

00:04:10mas esse é o processo de documento para embedding,

00:04:14bem como a fragmentação.

00:04:15Agora, digamos que você esteja aqui, ok?

00:04:18Você é o nosso carinha feliz aqui,

00:04:20e você faz ao modelo de linguagem

00:04:21uma pergunta sobre navios de guerra.

00:04:24Bem, essa pergunta, neste cenário de sistema RAG,

00:04:27também será transformada em um vetor.

00:04:30Então sua pergunta, você sabe, o LLM olha para ela,

00:04:34e atribui a ela uma série de números

00:04:35que também correspondem a algum tipo de vetor

00:04:38neste banco de dados, ok?

00:04:41E o que ele vai fazer é comparar

00:04:43o vetor da sua pergunta

00:04:45com os outros vetores no gráfico.

00:04:49Ele está analisando o que se chama de similaridade de cosseno,

00:04:51mas tudo o que ele está fazendo é dizer,

00:04:53"ei, a pergunta foi sobre isso".

00:04:55Estamos atribuindo esses números.

00:04:56Quais vetores estão mais próximos?

00:04:58Quais números estão mais próximos dessa pergunta?

00:05:00Bem, será este sobre navios de guerra

00:05:02e provavelmente sobre botes e barcos.

00:05:04Então ele vai recuperar todos esses vetores

00:05:08com todas as suas informações,

00:05:10e vai aumentar a resposta que gera para você,

00:05:13por isso: Geração Aumentada por Recuperação.

00:05:16Então, em vez de o modelo de linguagem

00:05:17depender puramente de seus dados de treinamento,

00:05:19ele consegue entrar no banco de dados vetorial,

00:05:22pegar os vetores relevantes,

00:05:24trazê-los de volta e te dar a resposta sobre navios de guerra.

00:05:27É assim que o RAG funciona, certo?

00:05:29Ingestão de documentos, pedaços transformados em vetor.

00:05:32O vetor é comparado com a pergunta sendo feita,

00:05:35traz os mais próximos, e pronto, RAG.

00:05:39E isso é o RAG ingênuo,

00:05:40e isso, na verdade, não funciona muito bem.

00:05:44Então pessoas mais inteligentes do que você e eu

00:05:46criaram formas melhores de fazer isso,

00:05:49especialmente busca híbrida, Graph RAG e RAG agentico.

00:05:53O que vamos focar hoje é o Graph RAG.

00:05:55O Graph RAG passa pelo mesmo processo.

00:05:57Você ainda terá aquele documento.

00:05:58Ele ainda será fragmentado.

00:05:59Ele ainda será colocado neste banco de dados vetorial plano,

00:06:03mas ele fará mais uma coisa.

00:06:05Ele também criará este grafo de conhecimento.

00:06:07Ele criará essa coisa maluca.

00:06:08Então, o que é tudo isso?

00:06:09O que são todos esses vetores e linhas?

00:06:11O que isso realmente significa?

00:06:12Bem, todos esses vetores, esses círculos pequenos,

00:06:14são o que conhecemos como entidades.

00:06:17E as linhas que conectam duas entidades

00:06:21são uma aresta ou um relacionamento.

00:06:23Então voltando ao nosso exemplo do documento,

00:06:25imagine que este documento é sobre a Anthropic e o Claude Code.

00:06:28E o trecho inteiro que foi extraído dizia:

00:06:31"A Anthropic criou o Claude Code".

00:06:35Ele vai pegar isso e vai dividir

00:06:36em entidades e relacionamentos.

00:06:38Quais são as duas entidades?

00:06:39As entidades serão

00:06:41a Anthropic e o Claude Code.

00:06:44E o relacionamento é: Anthropic criou o Claude Code.

00:06:48Então você tem a Anthropic bem aqui

00:06:51e você tem o Claude Code logo ali.

00:06:54E você pode ver que esta é uma entidade, esta é outra,

00:06:58e elas têm um relacionamento.

00:06:59No grafo visual, é apenas uma linha,

00:07:03mas por baixo dos panos, em termos de código,

00:07:05essa linha entre essas duas entidades

00:07:08tem um monte de texto associado a ela

00:07:10explicando o seu relacionamento.

00:07:11E assim, em um sistema Graph RAG,

00:07:13ele faz isso para cada documento que você adiciona.

00:07:16Imagine isso vezes mil documentos.

00:07:19Isto é com 10 documentos,

00:07:21todos esses relacionamentos e todas essas entidades.

00:07:24E você pode imaginar o quanto isso é mais sofisticado

00:07:26do que um monte de vetores aleatórios

00:07:28apenas isolados em um banco de dados vetorial.

00:07:30E com um sistema como o Light RAG,

00:07:33temos a criação de um grafo de conhecimento

00:07:35além do banco de dados vetorial padrão.

00:07:38Ele faz as duas coisas em paralelo.

00:07:40E então, quando você faz uma pergunta

00:07:43sobre qualquer coisa para o modelo de linguagem,

00:07:45ele não apenas puxa aquele vetor específico

00:07:47que ele encontra como sendo o mais próximo,

00:07:49ele também virá aqui embaixo e analisará uma entidade.

00:07:54Então, digamos que você perguntou sobre a Anthropic.

00:07:56Bem, agora ele vai percorrer os relacionamentos,

00:07:59as arestas, e encontrar tudo o que considera relevante.

00:08:03O que isso significa para você, o usuário,

00:08:06com um sistema Graph RAG,

00:08:08posso agora fazer perguntas muito mais profundas,

00:08:11não apenas sobre um documento

00:08:13e essencialmente apenas fazer um "Control F"

00:08:15para todos os fins práticos.

00:08:17Agora posso perguntar como diferentes documentos, teorias

00:08:19e diferentes ideias se relacionam entre si

00:08:21porque essas relações estão mapeadas, certo?

00:08:24É disso que se trata.

00:08:25Trata-se de pegar informações díspares e conectá-las.

00:08:30Esse é o poder do GraphRAG.

00:08:32Esse é o poder do LightRAG.

00:08:33E é isso que vamos aprender hoje.

00:08:35Então, instalar e usar o LightRAG

00:08:37é tão fácil quanto você quiser que seja.

00:08:40Vou mostrar a maneira mais fácil,

00:08:42onde vamos apenas usar o Claude Code.

00:08:44Vamos fornecer a URL do LightRAG

00:08:48e diremos: "Ei, configure isso para nós".

00:08:50E ele fará essencialmente tudo.

00:08:52Nesse cenário, vamos precisar de apenas algumas coisas.

00:08:55Como você viu na explicação de como o RAG funciona,

00:08:58precisamos de um modelo de incorporação.

00:08:59Portanto, isso exigirá uma API.

00:09:02Sugiro usar a OpenAI.

00:09:04Eles têm um modelo de incorporação muito eficaz.

00:09:07Portanto, você precisará de uma chave da OpenAI.

00:09:09Você tem a capacidade, com o LightRAG,

00:09:11de tornar isso algo inteiramente local.

00:09:14Então você poderia ter um modelo local via Ollama

00:09:17fazendo todo o processamento das incorporações,

00:09:20assim como a parte de perguntas e respostas.

00:09:21Entenda que ir totalmente local também é uma opção.

00:09:24Nós vamos fazer meio a meio.

00:09:25Vamos configurar um modelo de incorporação da OpenAI

00:09:28bem como o modelo que está realmente fazendo o trabalho.

00:09:31E também precisamos do Docker.

00:09:34Se você nunca usou o Docker antes,

00:09:35é bem fácil de configurar.

00:09:36Você só vai precisar do Docker Desktop,

00:09:39basta baixá-lo, instalá-lo e deixá-lo rodando

00:09:41quando executar o LightRAG,

00:09:42porque ele vai precisar de um contêiner.

00:09:45O que você vai fazer agora

00:09:46é abrir o Claude Code

00:09:47e dizer: clone o repositório do LightRAG,

00:09:50escreva o arquivo .env configurado para a OpenAI

00:09:53com o GPT-4o mini e text-embedding-3-large,

00:09:56use todo o armazenamento local padrão

00:09:58e inicie com o Docker Compose,

00:10:00e então forneça o link para o LightRAG.

00:10:02Se fizer isso, ele fará tudo por você.

00:10:06Vou colocar este prompt dentro da comunidade gratuita do Skool,

00:10:10link para isso na descrição.

00:10:12Além disso, o que estará lá

00:10:13é que mostrarei daqui a pouco,

00:10:15algumas habilidades relacionadas ao Claude Code e LightRAG

00:10:17para facilitar o controle a partir do Claude Code.

00:10:19Então você poderá encontrar isso lá também.

00:10:22E você sabia que isso viria.

00:10:22Falando sobre o meu Skool,

00:10:24um rápido jabá para o Masterclass de Claude Code,

00:10:25que é a melhor maneira de ir do zero a desenvolvedor de IA,

00:10:28especialmente se você não tiver uma formação técnica,

00:10:31o link para ele está no comentário fixado.

00:10:33Eu atualizo isso literalmente toda semana;

00:10:35nas últimas duas semanas,

00:10:36já adicionei cerca de uma hora e meia

00:10:38de conteúdo adicional.

00:10:39Então, definitivamente dê uma olhada

00:10:40se você quer mesmo dominar o Claude Code

00:10:42e a IA em geral.

00:10:44Mas, novamente, se você é novo e isso for demais,

00:10:46confira a escola gratuita

00:10:47com muitos recursos excelentes para você

00:10:49se estiver apenas começando.

00:10:50E antes de rodar isso,

00:10:51certifique-se de ter o Docker Desktop rodando

00:10:53e tenha essa chave da OpenAI pronta,

00:10:55e deixe o Claude Code trabalhar.

00:10:56Agora, quando o Claude Code terminar a instalação

00:10:58e você adicionar sua chave da OpenAI ao arquivo .env,

00:11:01você deve ver algo assim.

00:11:02Primeiro de tudo, no seu Docker Desktop,

00:11:04você deve ver um contêiner chamado LightRag ativo.

00:11:07E então o Claude Code também deve fornecer um link

00:11:11para o seu localhost, que deve ser o 9621.

00:11:13E ele te levará a uma página parecida com esta.

00:11:15Esta é a interface web do LightRag.

00:11:18E é aqui que podemos enviar documentos,

00:11:21ver o grafo de conhecimento, recuperar coisas,

00:11:24e também podemos dar uma olhada

00:11:25em todos os diferentes endpoints da API,

00:11:28que serão úteis mais tarde.

00:11:30E o que você vê aqui são os documentos

00:11:31que eu enviei para este vídeo.

00:11:33Enviar documentos é muito, muito simples.

00:11:35Vamos apenas vir aqui para a direita

00:11:36onde diz "Upload" e soltá-los ali.

00:11:39Entenda que existem apenas certos tipos de documentos

00:11:42que podemos colocar aqui, certo?

00:11:43Documentos de texto, PDFs; essencialmente,

00:11:46você está limitado a documentos de texto.

00:11:49Agora, há uma maneira de contornar isso,

00:11:51especialmente com coisas como imagens, gráficos e tabelas

00:11:56e esse tipo de coisa.

00:11:57Falaremos sobre isso no final

00:11:59porque está um pouco fora do escopo,

00:12:00mas aprenderemos sobre isso.

00:12:02Então, solte os documentos que quiser aqui,

00:12:04e você poderá ver o status deles

00:12:07conforme são carregados.

00:12:08Vai levar um pouco de tempo porque, de novo,

00:12:10ele está construindo o grafo de conhecimento enquanto faz isso.

00:12:12Isso pode demorar um pouco.

00:12:14E se por acaso você estiver na página do grafo

00:12:16— pois isso pode acontecer — e disser algo como:

00:12:18"Ei, não carregou" ou algo assim,

00:12:19você apenas redefine clicando neste botão

00:12:21aqui no canto superior esquerdo.

00:12:23Se você vier para a aba de Recuperação (Retrieval),

00:12:25é onde você pode fazer perguntas

00:12:27sobre seu grafo de conhecimento para o modelo de linguagem,

00:12:30que neste caso é provavelmente a OpenAI

00:12:31se você usou a mesma chave para incorporação.

00:12:33E aqui na direita, temos alguns parâmetros.

00:12:36Sinceramente, de cara, não há muitos que precise mudar.

00:12:39E em um segundo, mostrarei como o Claude Code pode fazer isso.

00:12:42Mas conforme você faz suas perguntas, como por exemplo,

00:12:44eu tinha vários documentos sobre IA e RAG lá.

00:12:47Eu disse: "Ei, qual é o cenário completo de custos

00:12:48de rodar RAG em 2026?"

00:12:50Ele me dá uma resposta bem sofisticada.

00:12:53E, além disso, ele também fornece as referências

00:12:56para tudo o que está fazendo, certo?

00:12:57Veja o quatro, o três aqui, o dois,

00:13:00porque no final da página,

00:13:01ele realmente mostrará as referências

00:13:03dos documentos que ele utilizou.

00:13:05E obviamente dentro do nosso grafo de conhecimento, certo,

00:13:07explicamos entidades e relacionamentos.

00:13:09Se eu clicar em uma dessas entidades, como a OpenAI, por exemplo,

00:13:12posso ver algumas das propriedades.

00:13:14Portanto, ele faz mais do que apenas extrair relações e entidades

00:13:17no processo de incorporação com o LightRag.

00:13:19Ele realmente vai um pouco mais fundo e pensa:

00:13:20"Tudo bem, que tipo de entidade é esta, certo?

00:13:22É uma organização ou uma pessoa?"

00:13:25Ele tem os arquivos específicos que capturou

00:13:27bem como IDs de fragmentação (chunking).

00:13:29E então você pode ver os relacionamentos reais

00:13:31lá embaixo no canto inferior direito.

00:13:32Vou mover isso por um segundo.

00:13:33Aqui embaixo no canto inferior direito,

00:13:35se você não conseguir ver visualmente,

00:13:36porque pode ficar meio amontoado no grafo,

00:13:40você pode simplesmente clicar aqui

00:13:41e ele te levará até eles também.

00:13:43Esta API do servidor é o que vamos usar

00:13:46para realmente conectar isso ao Claude Code.

00:13:48Porque por melhor que isso seja,

00:13:50eu não vou ficar sentado aqui

00:13:51toda vez que quiser fazer uma pergunta

00:13:53ao meu grafo de conhecimento via aba de recuperação.

00:13:56Isso dá muito trabalho.

00:13:57Em vez disso, vamos apenas usar estas APIs.

00:14:00Agora, cada uma destas APIs,

00:14:03tem uma descrição, você pode ver os parâmetros e tal,

00:14:05cada uma destas APIs pode ser transformada em uma habilidade, certo?

00:14:08E é isso que estou prestes a fazer e mostrar hoje.

00:14:11Dessa forma, quando você quiser que o Claude Code use o LightRag,

00:14:15bem, basta entrar no Claude Code, onde quer que estejamos,

00:14:17e dizer: "Ei, quero usar a habilidade de consulta do LightRag

00:14:19e perguntar 'blá, blá, blá, blá, blá'".

00:14:22É a mesma coisa que se você estivesse aqui

00:14:23na aba de recuperação e fizesse sua pergunta.

00:14:26E melhor ainda, o Claude Code vai meio que pegar a resposta

00:14:28que ele te der e resumi-la

00:14:30porque essas respostas podem ser bem detalhadas

00:14:32logo de cara quando se trata do LightRag.

00:14:34Mas se você quiser apenas a resposta bruta,

00:14:36você pode configurar isso também.

00:14:37O ponto é, embora isso tenha uma interface web,

00:14:40você nunca precisa realmente interagir com ela

00:14:41se não quiser.

00:14:42E é muito fácil trazê-lo

00:14:44para o nosso ecossistema do Claude Code.

00:14:46As quatro grandes habilidades que acho que você mais usará

00:14:48são consulta, envio, exploração e status.

00:14:51Todas as quatro estarão dentro da escola gratuita também.

00:14:55Mas o que você fará na maior parte do tempo?

00:14:56Você estará adicionando novos documentos

00:14:58e fazendo perguntas sobre esses documentos.

00:15:01E você provavelmente vai querer saber:

00:15:02"Ei, o que eu realmente coloquei lá?"

00:15:04Porque depois de ter uma tonelada de documentos,

00:15:05você quer evitar colocar os mesmos

00:15:07repetidamente.

00:15:08E se eu fizer a mesma pergunta dentro do Claude Code,

00:15:12eu acabei de invocar a habilidade de consulta do LightRag,

00:15:14ela está enviando essa solicitação ao LightRag,

00:15:18que, novamente, está hospedado em nosso computador,

00:15:21está rodando dentro daquele contêiner Docker,

00:15:22e vai trazer a resposta de volta.

00:15:24Agora, você não está limitado a este sistema semi-local.

00:15:28Se você é alguém que está escalando muito, muito pesado

00:15:30com o LightRAG, você pode hospedar isso

00:15:33em um servidor Postgres padrão.

00:15:36Você tem muitas opções, pode usar algo como o Neon.

00:15:38Então, ele cobre todo o espectro.

00:15:40Você pode ir totalmente local ou pode enviar tudo isso

00:15:43para a nuvem se você quiser também.

00:15:44O LightRAG é muito, muito personalizável.

00:15:46E aqui está a resposta que o Claude Code trouxe,

00:15:48que novamente, é um resumo da resposta bruta

00:15:52que o LightRAG nos deu, e ele também cita suas fontes.

00:15:55Eu também pedi a resposta bruta para ele,

00:15:57porque você também pode obter isso,

00:15:58pois ele apenas traz de volta para o Claude Code

00:16:00em uma resposta JSON.

00:16:02Então é só isso.

00:16:04E então, novamente, ele também tem as referências, se você quiser.

00:16:07Então, como você acabou de ver, é super fácil instalar o LightRAG

00:16:10e muito simples integrá-lo ao seu fluxo de trabalho no Claude Code.

00:16:14Agora a questão passa a ser: "Ok, Chase, parece ótimo."

00:16:18"Eu entendo conceitualmente que se eu tiver um monte de documentos,"

00:16:20"eu talvez devesse estar usando isso."

00:16:22Bem, onde está o limite?

00:16:23Quando devo começar a integrar o LightRAG?

00:16:26Bem, não há um número exato para isso.

00:16:28A zona cinzenta é, eu diria, algo entre

00:16:33500 e 2.000 páginas de documentos.

00:16:36Eu não quero dizer apenas "documentos"

00:16:37porque ninguém sabe o quão grandes eles serão,

00:16:39mas algo como 500 a 2.000 páginas de texto.

00:16:42Nesse ponto, com 2.000, você está começando a chegar

00:16:44perto de um milhão de tokens.

00:16:47Além disso, provavelmente faz sentido, com certeza,

00:16:50começar a integrar o LightRAG,

00:16:52porque o fato é que, pela forma como o RAG é configurado,

00:16:54será mais barato e rápido fazer isso

00:16:57do que apenas confiar no grep padrão do Claude Code.

00:17:00O grep agentado, a forma como o Claude Code já pesquisa arquivos,

00:17:03é excelente.

00:17:04Tipo, existe um motivo para o Claude Code ter escolhido fazer assim.

00:17:07No entanto, não foi sob a suposição de que você teria 2.000 páginas

00:17:12de documentos, ou 4.000 ou 5.000, certo?

00:17:14Existe um limite superior.

00:17:16O bom é que você não precisa necessariamente ter

00:17:19essa decisão escrita em pedra, como você viu,

00:17:22é muito fácil implementar isso.

00:17:24Então, apenas experimente.

00:17:26Se você sente que tem um monte de documentos e pensa:

00:17:28"Ei, deveríamos estar usando RAG a esta altura?"

00:17:30Bem, eu não sei, teste.

00:17:32Não leva muito tempo para fazer.

00:17:34A parte mais dolorosa é o processo de embedding.

00:17:36Isso pode levar um tempinho, com certeza, mas não é debilitante.

00:17:40E o custo não é insano, especialmente com o LightRAG.

00:17:43Se você comparar isso novamente com outros sistemas de GraphRAG

00:17:45como o GraphRAG da Microsoft, isto é uma pequena,

00:17:48pequena porcentagem do custo.

00:17:49E em tamanhos de documentos muito grandes,

00:17:52o custo com RAG versus o custo com algo como grep

00:17:56chega a ser mil vezes mais barato.

00:17:58Houve um estudo feito no verão passado

00:18:04mostrando que era 1.250 vezes mais barato usar RAG

00:18:07nesses tipos de situações.

00:18:08Você pode ver isso bem aqui com RAG textual

00:18:10versus LLM textual, assim como o tempo de resposta real.

00:18:14Agora, total transparência, isso foi em julho do ano passado.

00:18:19Portanto, os modelos mudaram.

00:18:20Duvido muito que ainda seja uma diferença tão insana

00:18:23quando comparamos RAG versus situações técnicas padrão.

00:18:26E isso também foi com o Gemini 2.0.

00:18:28Não estávamos falando de um Harness.

00:18:29Então, muitas coisas mudaram,

00:18:31mas será que mudaram a ponto de fechar a lacuna de 1.250x?

00:18:36Talvez, talvez não.

00:18:39Eu acho que não.

00:18:40De qualquer forma, apenas tente.

00:18:42Não acho que haja muito a perder.

00:18:44A outra coisa com o LightRAG é a ideia de que,

00:18:46"ei, se eu quiser fazer upload de documentos,"

00:18:48nós falamos um pouco sobre isso mais cedo.

00:18:49O que fazemos se tivermos, de novo, tabelas, gráficos,

00:18:53coisas que não são texto?

00:18:54O LightRAG consegue lidar com isso?

00:18:57Não exatamente, mas podemos resolver isso.

00:18:59E a resposta é o "RAG Anything",

00:19:02dos mesmos criadores do LightRAG.

00:19:04E isso é algo que pode essencialmente ser multimodal.

00:19:07E é algo que podemos praticamente plugar

00:19:09diretamente sobre o LightRAG.

00:19:10Agora, odeio te decepcionar,

00:19:13mas isso vai ficar fora de hoje,

00:19:15fora do escopo do vídeo de hoje.

00:19:17No entanto, no vídeo de amanhã,

00:19:18o que você acha que vamos fazer?

00:19:19Amanhã, vamos passar pelo RAG Anything

00:19:22e mostrar essencialmente como você pode integrá-lo

00:19:25ao que construímos com o LightRAG.

00:19:27Então será um belo combo de dois passos.

00:19:28Então, se isso é algo que te interessa,

00:19:31curta e se inscreva,

00:19:32porque vamos abordar isso amanhã.

00:19:34E, nesse sentido,

00:19:35é por aqui que vamos meio que encerrar.

00:19:39Espero que tenham gostado.

00:19:41Este é meu primeiro vídeo também com esta nova configuração de câmera.

00:19:43A iluminação, já consigo notar que não está,

00:19:46não está exatamente onde eu queria que estivesse.

00:19:48Então peço desculpas por tudo isso.

00:19:49Ainda estou resolvendo os detalhes,

00:19:50só estou feliz que funcionou e que

00:19:52a câmera não superaqueceu no meio disso tudo.

00:19:55Mas sim, todas as habilidades estão dentro da escola gratuita.

00:19:58As coisas de RAG são super interessantes, especialmente o LightRAG.

00:20:01Tem sido um ótimo produto.

00:20:02Eu o uso há bastante tempo.

00:20:03Então, 100%, 100% dê uma olhada nisso.

00:20:06E é tão fácil de integrar

00:20:07dentro do Claude Code como você viu.

00:20:08Então confira a escola gratuita para as habilidades,

00:20:12assim como o prompt, se precisar.

00:20:14Para ser totalmente sincero,

00:20:15se você apenas apontar o Claude Code para o LightRAG,

00:20:16ele vai configurar tudo perfeitamente sozinho.

00:20:19Mas fora isso,

00:20:20não esqueça de conferir o Chase AI Plus

00:20:21se você quiser colocar as mãos naquela masterclass.

00:20:24E a gente se vê por aí.

Key Takeaway

A integração do Claude Code com o LightRAG supera as limitações de contexto dos LLMs ao criar um grafo de conhecimento que torna a recuperação de informações em milhares de documentos 1.250 vezes mais barata e semanticamente superior ao RAG convencional.

Highlights

O LightRAG permite competir com sistemas GraphRAG corporativos da Microsoft por uma pequena fração do custo operacional.

Sistemas RAG podem ser até 1.250 vezes mais baratos que o uso de agentes baseados em pesquisa de texto simples (grep) em contextos de larga escala.

O limite recomendado para iniciar a integração do LightRAG situa-se entre 500 e 2.000 páginas de documentos ou cerca de um milhão de tokens.

A estrutura do GraphRAG utiliza entidades (nós) e relacionamentos (arestas) para conectar informações entre múltiplos documentos distintos.

A configuração do LightRAG via Claude Code exige apenas um contêiner Docker e chaves de API da OpenAI para modelos de embedding e processamento.

Timeline

A evolução do RAG e a obsolescência do modelo ingênuo

Janelas de contexto expandidas em modelos como Opus 4.6 não eliminam a necessidade de sistemas RAG em escala empresarial.
O RAG ingênuo baseado apenas em bancos de dados vetoriais simples como Pinecone ou Supabase é insuficiente para as demandas de 2026.
Sistemas RAG robustos superam agentes de busca tradicionais em velocidade e custo ao lidar com mais de 500 documentos.

O cenário de Inteligência Artificial mudou drasticamente nos últimos anos, exigindo métodos mais sofisticados de recuperação. Embora os modelos de linguagem lidem melhor com contextos longos, o crescimento do volume de dados em negócios cria barreiras que apenas prompts não conseguem superar. A transição para sistemas como o LightRAG foca em eficiência operacional e redução de custos.

Mecânica técnica: Do documento ao vetor

Modelos de embedding transformam fragmentos de texto (chunks) em vetores numéricos de milhares de dimensões.
A similaridade de cosseno permite que o sistema compare a pergunta do usuário com os vetores armazenados para encontrar informações próximas.
O processo de Geração Aumentada por Recuperação (RAG) utiliza dados externos em vez de depender apenas do treinamento original do modelo.

A ingestão de dados começa com a divisão de documentos em pedaços menores que são processados por modelos de incorporação. Cada fragmento recebe uma identidade numérica, como o exemplo de coordenadas para conceitos distintos como 'bananas' ou 'navios de guerra'. Quando uma pergunta é feita, o sistema recupera os vetores mais relevantes para aumentar a precisão da resposta gerada pelo LLM.

Arquitetura e vantagens do GraphRAG

O GraphRAG cria um grafo de conhecimento composto por entidades e relacionamentos em paralelo ao banco de dados vetorial.
As arestas entre círculos no grafo representam descrições textuais detalhadas sobre como duas entidades se conectam.
A estrutura de grafos permite realizar consultas complexas sobre como diferentes teorias e ideias se relacionam entre múltiplos arquivos.

Diferente do RAG tradicional que isola vetores, o LightRAG mapeia conexões lógicas. Por exemplo, se um documento cita que a Anthropic criou o Claude Code, o sistema estabelece essas duas entidades e vincula a ação de criação como um relacionamento. Isso transforma uma busca simples de palavras-chave em uma análise profunda de contexto interconectado.

Instalação e integração com Claude Code

O Claude Code pode automatizar a clonagem do repositório LightRAG e a configuração do ambiente Docker.
A configuração recomendada utiliza o modelo GPT-4o mini para processamento e text-embedding-3-large para vetores.
O sistema suporta operação totalmente local através de modelos via Ollama para garantir privacidade e reduzir custos de API.

A implementação é simplificada pelo uso de prompts diretos no Claude Code que geram arquivos .env e iniciam o Docker Compose. É necessário ter o Docker Desktop ativo para que o contêiner do LightRAG funcione corretamente. O usuário tem a flexibilidade de escolher entre uma infraestrutura baseada em nuvem ou uma solução 100% local.

Interface web e automação de habilidades

A interface visual no localhost:9621 permite o upload de PDFs e a visualização em tempo real do grafo de conhecimento.
Endpoints de API do servidor LightRAG podem ser convertidos em 'habilidades' (skills) dentro do Claude Code.
As funções principais de automação incluem consulta, envio de arquivos, exploração de dados e verificação de status.

Embora exista uma interface web para gerenciar documentos, a integração via API permite que o Claude Code consulte o grafo sem intervenção manual. O sistema retorna respostas em JSON que podem ser resumidas ou entregues de forma bruta. Essa conexão elimina a necessidade de alternar entre janelas de navegador, centralizando o fluxo de trabalho no terminal.

Viabilidade econômica e suporte multimodal

O uso de RAG torna-se financeiramente superior ao atingir o volume de 1 milhão de tokens (aprox. 2.000 páginas).
Estudos de mercado indicam que o RAG pode ser 1.250 vezes mais barato que o processamento direto de LLM em grandes escalas de dados.
O projeto 'RAG Anything' estende as capacidades do LightRAG para suportar tabelas, imagens e gráficos multimodais.

A decisão de implementar o LightRAG baseia-se no equilíbrio entre custo e desempenho. Para conjuntos de dados massivos, o método de pesquisa 'grep' padrão do Claude Code torna-se caro e lento. O ecossistema LightRAG oferece escalabilidade através de servidores Postgres como o Neon, preparando o terreno para fluxos de trabalho que envolvem não apenas texto, mas também dados visuais complexos.

Community Posts

Construindo um motor de conhecimento prático para desenvolvedores solo com Claude Code e LightRAG

makedream20天前8110

Write about this video