Claude Code + LightRAG = IMBATTABLE

CChase AI
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00la mort du RAG a été grandement exagérée.
00:00:03Oui, je sais que les grands modèles de langage comme Opus 4.6
00:00:05se sont beaucoup améliorés ces derniers temps pour gérer de longs contextes.
00:00:09Mais si vous pensez que cela signifie que vous n'aurez plus jamais besoin du RAG,
00:00:12vous allez vous heurter à un mur
00:00:14dont vous ne pourrez pas vous sortir juste avec des prompts.
00:00:16Aujourd'hui, je vais donc expliquer quand vous avez besoin du RAG,
00:00:19quel type de RAG fonctionne réellement en 2026
00:00:22car le paysage a énormément évolué au cours de l'année écoulée,
00:00:25et je vais vous montrer comment connecter Cloud Code
00:00:28à votre système RAG,
00:00:30tout en vous donnant des compétences que vous pourrez réutiliser.
00:00:32L'objectif d'aujourd'hui est de vous fournir ceci,
00:00:35un système de graph RAG construit sur Light RAG
00:00:38que nous pouvons utiliser avec Cloud Code.
00:00:40Et plus important encore, cela va nous donner un système
00:00:43que nous pourrons utiliser quand nous aurons besoin de l'IA
00:00:45avec d'immenses corpus de documents, n'est-ce pas ?
00:00:49Pas seulement cinq ou dix documents
00:00:51comme vous le verrez dans la démo,
00:00:52mais 500 ou 1 000 documents,
00:00:55car il ne suffit pas de se reposer uniquement
00:00:57sur la fenêtre de contexte fournie par Cloud Code,
00:00:59ou tout autre LLM.
00:01:01Parce que lorsque vous atteignez une échelle massive,
00:01:03ce que l'on voit dans beaucoup d'entreprises
00:01:05ou même dans de plus petites structures,
00:01:06avoir un système RAG comme celui-ci est en fait moins cher et plus rapide
00:01:10qu'un grep agentique standard.
00:01:12Dans cette optique,
00:01:13maîtriser la création
00:01:14de ce genre de systèmes RAG est très important,
00:01:16mais heureusement, c'est assez simple.
00:01:18Et comme je viens de l'évoquer,
00:01:19nous allons utiliser Light RAG aujourd'hui.
00:01:21C'est un dépôt open source que j'adore absolument.
00:01:25Il existe depuis un certain temps,
00:01:26et il a été mis à jour à maintes reprises.
00:01:28Il est capable de rivaliser avec des systèmes
00:01:30de graph RAG plus sophistiqués comme celui de Microsoft
00:01:32pour littéralement une fraction du coût.
00:01:35C'est donc l'endroit idéal pour tester
00:01:37ces concepts de graph RAG si vous ne les avez jamais utilisés.
00:01:40Mais pour tirer le meilleur parti de Light RAG,
00:01:43nous devons comprendre comment le RAG fonctionne fondamentalement,
00:01:46car le paysage du RAG a changé.
00:01:48Ce que nous faisions fin 2024 et début 2025,
00:01:51c'était ce qu'on appelle le RAG naïf, le niveau le plus basique.
00:01:54Vous vous souvenez de toutes ces automatisations n8n où on se disait :
00:01:56« Hé, allons sur Pinecone et allons sur Supabase » ?
00:01:58C'était du RAG naïf.
00:02:00Ça ne marche plus aujourd'hui.
00:02:02Ça ne suffit plus.
00:02:03Nous devons utiliser des versions plus sophistiquées du RAG,
00:02:06mais nous devons d'abord en comprendre les principes de base.
00:02:08Faisons donc un rappel rapide de ce qu'est le RAG
00:02:12et de son fonctionnement avant de passer à la configuration de Light RAG.
00:02:14Alors le RAG : génération augmentée par récupération.
00:02:18La manière dont cela fonctionne, c'est que je commence d'abord
00:02:20avec un document quelconque, d'accord ?
00:02:22Et je vais en avoir des milliers
00:02:25dans un système RAG robuste.
00:02:27Mais ce qui se passe, c'est que j'ai ce document
00:02:29que je veux intégrer dans mon système RAG,
00:02:31à l'intérieur d'une base de données vectorielle.
00:02:34Eh bien, ce qui se passe,
00:02:38ce n'est pas que le document est simplement jeté dans cette base,
00:02:40comme s'il s'agissait d'un système à la Google Drive.
00:02:41Ce qui se passe, c'est que le document passe par un modèle d'intégration
00:02:44et il est ensuite transformé en vecteur.
00:02:46Mais plus encore que cela,
00:02:47le document n'y va pas d'un seul bloc.
00:02:50Il est découpé en morceaux (chunks).
00:02:51Imaginez que nous ayons ce document d'une page
00:02:54et qu'il soit divisé en morceau un, morceau deux et morceau trois.
00:02:59Chacun de ces morceaux devient alors un vecteur,
00:03:03ce qui est juste un point sur un graphique,
00:03:05un point dans une base de données vectorielle.
00:03:06C'est le modèle d'intégration qui se charge de ce découpage pour nous.
00:03:09Il est responsable du processus consistant à prendre ce document,
00:03:11à comprendre de quoi il retourne,
00:03:13puis à le transformer en un point sur ce graphique.
00:03:16Ainsi, le document est découpé,
00:03:18il passe par le modèle d'intégration,
00:03:20et notre document devient un vecteur sur ce graphique.
00:03:24Ici, c'est un graphique en trois dimensions.
00:03:27En réalité, il y a des milliers de dimensions,
00:03:30mais imaginez-le simplement comme un graphique 3D pour l'instant.
00:03:33Maintenant, imaginez que ce document traite de navires de guerre.
00:03:36D'accord, et chaque vecteur a été transformé en un morceau
00:03:39parlant de navires de guerre.
00:03:40Eh bien, où va-t-il aller ?
00:03:41Il va aller ici, à côté des bateaux et des navires,
00:03:43évidemment, et il va devenir son propre petit vecteur.
00:03:45Et par vecteur, je veux dire
00:03:46qu'on lui attribue simplement une série de chiffres qui le représentent.
00:03:50Vous pouvez voir cela ici avec les bananes.
00:03:53Donc banane, c'est 0.52, 5.12, 9.31, et ainsi de suite.
00:03:57Cela continue sur des milliers de chiffres.
00:04:00Donc notre petit bateau ici, c'est comme un, deux, trois,
00:04:05et cetera, encore et encore.
00:04:07C'est assez simple.
00:04:08Évidemment, il ne sera pas à côté des bananes et des pommes,
00:04:10mais c'est le processus du document vers l'intégration,
00:04:14ainsi que le découpage en morceaux.
00:04:15Maintenant, disons que vous êtes ici, d'accord ?
00:04:18Vous êtes notre joyeux petit bonhomme ici,
00:04:20et vous posez au grand modèle de langage
00:04:21une question sur les navires de guerre.
00:04:24Eh bien, dans ce scénario de système RAG,
00:04:27cette question va également être transformée en vecteur.
00:04:30Donc votre question, vous savez, le LLM l'examine,
00:04:34et il lui assigne une série de chiffres
00:04:35qui correspondent également à un certain vecteur
00:04:38dans cette base de données, d'accord ?
00:04:41Et ce qu'il va faire, c'est comparer
00:04:43le vecteur de votre question
00:04:45aux autres vecteurs du graphique.
00:04:49Il examine ce qu'on appelle la similitude cosinus,
00:04:51mais tout ce qu'il fait réellement, c'est dire :
00:04:53« Hé, la question portait là-dessus. »
00:04:55« Nous attribuons ces chiffres. »
00:04:56« Quels vecteurs en sont les plus proches ? »
00:04:58« Quels chiffres sont les plus proches de cette question ? »
00:05:00Eh bien, ce sera celui sur les navires de guerre
00:05:02et probablement ceux sur les bateaux et les navires.
00:05:04Il va donc maintenant récupérer tous ces vecteurs
00:05:08avec toutes leurs informations,
00:05:10et il va augmenter la réponse qu'il génère pour vous,
00:05:13d'où le nom « génération augmentée par récupération ».
00:05:16Ainsi, au lieu que le grand modèle de langage
00:05:17se repose purement sur ses données d'entraînement,
00:05:19il est capable d'aller dans la base de données vectorielle,
00:05:22de saisir les vecteurs pertinents,
00:05:24de les rapporter et de vous donner votre réponse sur les navires de guerre.
00:05:27C'est comme ça que le RAG fonctionne, d'accord ?
00:05:29Ingestion du document, morceaux transformés en vecteur.
00:05:32Le vecteur est comparé à la question posée,
00:05:35on récupère les plus proches, et voilà, c'est le RAG.
00:05:39Et ça, c'est le RAG naïf,
00:05:40et en fait, ça ne marche pas très bien du tout.
00:05:44Alors, des gens plus intelligents que vous et moi
00:05:46ont trouvé de meilleures façons de faire,
00:05:49notamment la recherche hybride, le graph RAG et le RAG agentique.
00:05:53Aujourd'hui, nous allons nous concentrer sur le graph RAG.
00:05:55Le graph RAG suit le même processus.
00:05:57Vous aurez toujours ce document.
00:05:58Il sera toujours découpé en morceaux.
00:05:59Il sera toujours placé dans cette base de données vectorielle plate,
00:06:03mais il va faire une chose de plus.
00:06:05Il va également créer ce graphe de connaissances.
00:06:07Il va créer ce truc incroyable.
00:06:08Alors, qu'est-ce que tout cela ?
00:06:09Que sont tous ces vecteurs et ces lignes ?
00:06:11Qu'est-ce que cela signifie réellement ?
00:06:12Eh bien, tous ces vecteurs, ces petits cercles,
00:06:14c'est ce qu'on appelle des entités.
00:06:17Et les lignes qui relient deux entités
00:06:21sont un lien ou une relation.
00:06:23Pour en revenir à notre exemple de document,
00:06:25imaginez que ce document traite d'Anthropic et de Cloud Code.
00:06:28Et que tout le morceau qui a été extrait dise :
00:06:31« Anthropic a créé Cloud Code. »
00:06:35Il va prendre cela et le décomposer
00:06:36en entités et en relations.
00:06:38Quelles sont les deux entités ?
00:06:39Les entités seront
00:06:41Anthropic et Cloud Code.
00:06:44Et la relation est « Anthropic a créé Cloud Code ».
00:06:48Vous avez donc Anthropic juste ici
00:06:51et vous avez Cloud Code par là.
00:06:54Et vous voyez que ceci est une entité, cela en est une autre,
00:06:58et elles ont une relation.
00:06:59Sur le graphique visuel, c'est juste une ligne,
00:07:03mais sous le capot, au niveau du code,
00:07:05cette ligne entre ces deux entités
00:07:08est associée à un tas de textes
00:07:10expliquant leur relation.
00:07:11Et donc, dans un système de graph RAG,
00:07:13il fait cela pour chaque document que vous y ajoutez.
00:07:16Imaginez cela multiplié par mille documents.
00:07:19Ici, c'est avec 10 documents," : "Ici, c'est avec seulement 10 documents,
00:07:21toutes ces relations et toutes ces entités.
00:07:24Et vous pouvez imaginer à quel point c'est plus sophistiqué
00:07:26qu'un tas de vecteurs aléatoires
00:07:28simplement isolés dans une base de données vectorielle.
00:07:30Et donc, avec un système comme Light RAG,
00:07:33on obtient la création d'un graphe de connaissances
00:07:35en plus de votre base de données vectorielle standard.
00:07:38Il fait ces deux choses en parallèle.
00:07:40Et ainsi, quand vous posez maintenant une question
00:07:43sur n'importe quel sujet au grand modèle de langage,
00:07:45il ne se contente pas d'extraire le vecteur spécifique
00:07:47qu'il trouve être le plus proche,
00:07:49il va aussi aller voir ici une entité.
00:07:54Disons que vous avez posé une question sur Anthropic.
00:07:56Eh bien, il va maintenant parcourir les relations,
00:07:59les liens, et trouver tout ce qu'il juge pertinent.
00:08:03Ce que cela signifie pour vous, l'utilisateur,
00:08:06avec un système de graph RAG,
00:08:08je peux désormais poser des questions bien plus profondes,
00:08:11pas seulement sur un document
00:08:13et faire essentiellement un "Control F"
00:08:15à toutes fins utiles.
00:08:17Je peux maintenant demander comment différents documents,
00:08:19théories et idées sont liés entre eux
00:08:21car ces relations sont cartographiées, n'est-ce pas ?
00:08:24C'est de cela qu'il s'agit.
00:08:25Il s'agit de prendre des informations disparates et de les connecter.
00:08:30C'est là toute la puissance de Graph RAG.
00:08:32C'est là toute la puissance de LightRAG.
00:08:33Et c'est ce que nous allons apprendre aujourd'hui.
00:08:35Installer et utiliser LightRAG
00:08:37est aussi simple que vous le souhaitez.
00:08:40Je vais vous montrer la méthode la plus simple
00:08:42où nous allons simplement utiliser Claude Code.
00:08:44Nous allons lui donner l'URL de LightRAG,
00:08:48et nous allons dire : "Hé, configure ça pour nous."
00:08:50Et il va faire pratiquement tout le travail.
00:08:52Dans ce scénario, nous aurons juste besoin de quelques éléments.
00:08:55Comme vous l'avez vu dans l'explication du RAG,
00:08:58nous avons besoin d'un modèle d'embedding.
00:08:59Cela va donc nécessiter une API.
00:09:02Je suggère d'utiliser OpenAI.
00:09:04Ils ont un modèle d'embedding très efficace.
00:09:07Vous aurez donc besoin d'une clé OpenAI.
00:09:09Vous avez la possibilité avec LightRAG
00:09:11de rendre tout cela entièrement local.
00:09:14Vous pourriez donc avoir un modèle local via Ollama
00:09:17qui s'occupe de toutes les analyses avec les embeddings,
00:09:20ainsi que de la partie questions-réponses.
00:09:21Comprenez que c'est aussi une option, le tout en local.
00:09:24Nous allons faire un mélange des deux.
00:09:25Nous allons configurer un modèle d'embedding OpenAI
00:09:28ainsi que le modèle qui fait tout le travail.
00:09:31Et puis nous avons aussi besoin de Docker.
00:09:34Si vous n'avez jamais utilisé Docker auparavant,
00:09:35c'est assez facile à mettre en place.
00:09:36Il vous faut juste Docker Desktop,
00:09:39téléchargez-le, installez-le et laissez-le tourner
00:09:41quand vous lancez LightRAG,
00:09:42car il aura besoin d'un conteneur.
00:09:45Ce que vous allez faire maintenant,
00:09:46c'est ouvrir Claude Code
00:09:47et dire : "Clone le dépôt LightRAG,
00:09:50écris le fichier .env configuré pour OpenAI
00:09:53avec GPT-4o mini et text-embedding-3-large,
00:09:56utilise le stockage local par défaut
00:09:58et démarre avec Docker Compose,"
00:10:00puis donnez-lui le lien vers LightRAG.
00:10:02Si vous faites cela, il fera tout pour vous.
00:10:06Je mettrai ce prompt dans la communauté School gratuite,
00:10:10le lien est dans la description.
00:10:12De plus, ce que vous y trouverez,
00:10:13je vous montrerai dans un instant,
00:10:15ce sont des compétences liées à Claude Code et LightRAG
00:10:17pour faciliter le contrôle depuis Claude Code.
00:10:19Vous pourrez donc trouver cela là-bas également.
00:10:22Et vous le sentiez venir.
00:10:22En parlant de ma School,
00:10:24petite parenthèse pour la Masterclass Claude Code,
00:10:25qui est le meilleur moyen de passer de zéro à développeur IA,
00:10:28surtout si vous n'avez pas de profil technique,
00:10:31le lien est dans le commentaire épinglé.
00:10:33Je la mets à jour littéralement chaque semaine ;
00:10:35ces deux dernières semaines,
00:10:36j'ai déjà ajouté environ une heure et demie
00:10:38de contenu supplémentaire.
00:10:39Alors n'hésitez pas à y jeter un œil
00:10:40si vous voulez vraiment maîtriser Claude Code
00:10:42et l'IA en général.
00:10:44Mais encore une fois, si vous débutez et que c'est trop,
00:10:46allez voir la School gratuite
00:10:47avec des tonnes de ressources géniales
00:10:49si vous commencez tout juste.
00:10:50Et avant de lancer ceci,
00:10:51vérifiez que Docker Desktop est bien en cours d'exécution,
00:10:53ayez votre clé OpenAI prête
00:10:55et laissez Claude Code se mettre au travail.
00:10:56Une fois que Claude Code a fini l'installation
00:10:58et que vous avez ajouté votre clé OpenAI au fichier .env,
00:11:01vous devriez voir quelque chose comme ceci.
00:11:02Tout d'abord, sur votre Docker Desktop,
00:11:04vous devriez voir un conteneur nommé LightRag actif.
00:11:07Ensuite, Claude Code devrait aussi vous donner un lien
00:11:11vers votre localhost, ce devrait être le port 9621.
00:11:13Et cela vous mènera à une page comme celle-ci.
00:11:15ce qui nous sera très utile plus tard.
00:11:18C'est ici que nous pouvons uploader des documents,
00:11:21consulter le graphe de connaissances, récupérer des infos,
00:11:24et nous pouvons également examiner
00:11:25tous les différents points de terminaison de l'API (endpoints),
00:11:28ce qui sera utile plus tard.
00:11:30Et ce que vous voyez ici sont les documents
00:11:31que j'ai uploadés pour cette vidéo.
00:11:33Uploader des documents est très, très simple.
00:11:35Il suffit de venir ici à droite
00:11:36sur "Upload", puis vous les déposez.
00:11:39Sachez qu'on ne peut mettre que certains types de documents,
00:11:42n'est-ce pas ?
00:11:43Des documents texte, des PDF... en gros,
00:11:46vous êtes limité aux documents textuels.
00:11:49Il existe un moyen de contourner cela,
00:11:51notamment pour les images, les graphiques et les tableaux,
00:11:56ce genre de choses.
00:11:57Nous en parlerons à la fin
00:11:59car c'est un peu hors sujet,
00:12:00mais nous allons l'aborder.
00:12:02Déposez donc les documents que vous voulez ici,
00:12:04et vous pourrez voir leur statut
00:12:07au fur et à mesure de l'upload.
00:12:08Cela prendra un peu de temps car,
00:12:10encore une fois, il construit le graphe de connaissances en même temps.
00:12:12Cela peut donc être assez long.
00:12:14Et si pour une raison quelconque vous êtes sur la page du graphe
00:12:16car cela peut arriver et qu'il est écrit :
00:12:18"Hé, ça n'a pas chargé" ou autre,
00:12:19vous le réinitialisez simplement en cliquant sur ce bouton
00:12:21ici, en haut à gauche.
00:12:23Si vous allez dans l'onglet "Retrieval",
00:12:25c'est là que vous pouvez poser des questions
00:12:27sur votre graphe de connaissances au modèle de langage,
00:12:30qui dans ce cas est probablement OpenAI
00:12:31si vous avez utilisé la même clé pour l'embedding.
00:12:33Et ici à droite, nous avons quelques paramètres.
00:12:36Honnêtement, au début, il n'y en a pas beaucoup à changer.
00:12:39Et dans un instant, je vous montrerai comment Claude Code peut le faire.
00:12:42Mais quand vous posez vos questions, par exemple,
00:12:44j'avais un tas de documents sur l'IA et le RAG là-dedans.
00:12:47J'ai demandé : "Quel est le coût global
00:12:48pour faire tourner du RAG en 2026 ?"
00:12:50Il me donne une réponse assez sophistiquée.
00:12:53Et en plus de cela, il vous donne aussi les références
00:12:56pour tout ce qu'il fait, d'accord ?
00:12:57Voyez ici 4, 3, 2...
00:13:00car au bas de la page,
00:13:01il vous donnera réellement les références
00:13:03des documents qu'il a récupérés.
00:13:05Et évidemment, dans notre graphe de connaissances,
00:13:07on explique les entités et les relations.
00:13:09Si je clique sur l'une de ces entités, comme OpenAI par exemple,
00:13:12je peux voir certaines de ses propriétés.
00:13:14Il fait donc plus que simplement extraire des relations et des entités
00:13:17ainsi que les ID de segmentation.
00:13:19Il va en fait un peu plus loin et détermine :
00:13:20"D'accord, quel est le type de cette entité ?
00:13:22Est-ce une organisation ou une personne ?"
00:13:25Il contient les fichiers spécifiques qu'il a récupérés
00:13:27ainsi que les identifiants des fragments (chunk IDs).
00:13:29Et vous pouvez voir les relations réelles
00:13:31tout en bas à droite.
00:13:32Je vais déplacer ça une seconde.
00:13:33Donc ici en bas à droite,
00:13:35si vous ne pouvez pas le voir visuellement,
00:13:36car ça peut devenir un peu encombré sur le graphe,
00:13:40vous pouvez simplement cliquer ici
00:13:41et cela vous y mènera également.
00:13:43Cette API serveur est ce que nous allons utiliser
00:13:46pour connecter cet outil à Claude Code.
00:13:48Parce que même si c'est génial,
00:13:50je ne vais pas rester assis ici
00:13:51chaque fois que je veux poser une question
00:13:53à mon graphe de connaissances via l'onglet de récupération.
00:13:56C'est trop pénible.
00:13:57À la place, nous allons simplement utiliser ces API.
00:14:00Chacune de ces API,
00:14:03a une description, vous pouvez voir les paramètres, etc.
00:14:05chacune d'elles peut être transformée en "compétence" (skill).
00:14:08C'est ce que je m'apprête à faire et à vous montrer aujourd'hui.
00:14:11De cette façon, quand vous voulez que Claude Code utilise LightRAG,
00:14:15eh bien, on va juste dans Claude Code, où qu'on soit,
00:14:17et on dit : "Hé, je veux utiliser la compétence de requête LightRAG
00:14:19et poser la question : bla bla bla bla bla."
00:14:22C'est la même chose que si vous étiez ici
00:14:23dans l'onglet de récupération pour poser votre question.
00:14:26Mieux encore, Claude Code prendra la réponse
00:14:28qu'il vous donne et la résumera,
00:14:30car ces réponses peuvent être très détaillées
00:14:32dès le départ avec LightRAG.
00:14:34Mais si vous voulez juste la réponse brute,
00:14:36vous pouvez aussi configurer cela.
00:14:37Le point est que, même si cela a une interface web,
00:14:40vous n'avez jamais vraiment besoin d'interagir avec
00:14:41si vous ne le souhaitez pas.
00:14:42Et c'est très facile de l'intégrer
00:14:44dans notre écosystème Claude Code.
00:14:46Les quatre compétences majeures que vous utiliserez le plus
00:14:48sont query, upload, explore et status.
00:14:51Ces quatre-là seront aussi dans la School gratuite.
00:14:55Mais qu'allez-vous faire principalement ?
00:14:56Vous allez ajouter de nouveaux documents
00:14:58et poser des questions sur ces documents.
00:15:01Et vous voudrez probablement savoir :
00:15:02"Hé, qu'est-ce que j'ai mis là-dedans exactement ?"
00:15:04Car après avoir accumulé des tonnes de documents,
00:15:05on veut éviter de remettre les mêmes
00:15:07encore et encore et encore.
00:15:08Et donc si je pose la même question dans Claude Code,
00:15:12je viens d'invoquer la compétence de requête LightRAG,
00:15:14elle envoie cette demande à LightRAG,
00:15:18qui, encore une fois, est hébergé sur notre ordinateur,
00:15:21il s'exécute à l'intérieur de ce conteneur Docker,
00:15:22et il va rapporter la réponse.
00:15:24Maintenant, vous n'êtes pas limité à ce système semi-local.
00:15:28Si vous êtes quelqu'un qui monte vraiment en charge
00:15:30avec LightRAG, vous pouvez l'héberger
00:15:33sur un serveur Postgres standard.
00:15:36Vous avez beaucoup d'options, vous pourriez utiliser quelque chose comme Neon.
00:15:38Ça couvre donc tout l'éventail.
00:15:40Vous pouvez opter pour le tout local ou tout envoyer
00:15:43vers le cloud si vous le souhaitez également.
00:15:44LightRAG est très, très personnalisable.
00:15:46Et voici la réponse renvoyée par Clod code,
00:15:48qui, encore une fois, est un résumé de la réponse brute
00:15:52que LightRAG nous a donnée, et il cite aussi ses sources.
00:15:55Je lui ai également demandé la réponse brute
00:15:57car vous pouvez l'obtenir aussi,
00:15:58parce qu'elle est simplement renvoyée à Clod code
00:16:00dans une réponse JSON.
00:16:02C'est donc tout ce que c'est.
00:16:04Et puis, encore une fois, il y a aussi les références si vous les voulez.
00:16:07Donc comme vous venez de le voir, LightRAG est super facile à installer
00:16:10et très simple à intégrer dans votre flux de travail Clod code.
00:16:14Maintenant, la question devient : « D'accord Chase, ça a l'air génial ».
00:16:18« Je comprends le concept : si j'ai énormément de documents, »
00:16:20« je devrais peut-être utiliser ceci. »
00:16:22Eh bien, où est la limite ?
00:16:23Quand devrais-je commencer à intégrer LightRAG ?
00:16:26Eh bien, il n'y a pas de chiffre exact.
00:16:28La zone grise, je dirais, se situe quelque part entre 500
00:16:33et 2000 pages de documents.
00:16:36Je ne veux pas juste dire « documents »
00:16:37car on ne sait pas quelle sera leur taille,
00:16:39mais disons 500 à 2000 pages de texte.
00:16:42À ce stade, à 2000, vous commencez à atteindre
00:16:44environ un million de tokens.
00:16:47Au-delà, il est probablement judicieux,
00:16:50c'est certain, d'intégrer LightRAG,
00:16:52car vu la façon dont le RAG est conçu,
00:16:54ce sera moins cher et plus rapide
00:16:57que de compter sur le grep standard de Clod code.
00:17:00Le grep augmenté, la façon dont Clod code cherche des fichiers
00:17:03actuellement, est déjà excellent.
00:17:04Il y a une raison pour laquelle Clod code a choisi cette voie.
00:17:07Cependant, ce n'était pas avec l'idée que vous auriez 2000 pages
00:17:12de documents, ou 4000 ou 5000, n'est-ce pas ?
00:17:14Il y a une limite supérieure.
00:17:16L'avantage, c'est que cette décision n'a pas besoin d'être
00:17:19gravée dans le marbre car, comme vous l'avez vu,
00:17:22c'est très facile à mettre en œuvre.
00:17:24Alors, expérimentez simplement.
00:17:26Si vous avez l'impression d'avoir trop de documents et que vous vous dites :
00:17:28« Hé, devrions-nous utiliser le RAG à ce stade ? »
00:17:30Eh bien, je ne sais pas, essayez-le.
00:17:32Ça ne prend pas longtemps.
00:17:34La partie la plus pénible est le processus d'indexation (embedding).
00:17:36Cela peut prendre un moment, certes, mais ce n'est pas insurmontable.
00:17:40Et le coût n'est pas délirant, surtout avec LightRAG.
00:17:43Si vous comparez cela à d'autres systèmes de GraphRAG
00:17:45comme celui de Microsoft, c'est un infime,
00:17:48infime pourcentage du coût.
00:17:49Et pour de très grandes quantités de documents,
00:17:52le coût avec le RAG par rapport au coût avec un simple grep
00:17:56est environ mille fois moins élevé.
00:17:58Une étude a été réalisée l'été dernier
00:18:04montrant que c'était 1250 fois moins cher d'utiliser le RAG
00:18:07dans ce genre de situations.
00:18:08Vous pouvez le voir ici avec le RAG textuel
00:18:10par rapport au LLM textuel, ainsi que le temps de réponse réel.
00:18:14Maintenant, pour être honnête, cela date de juillet dernier.
00:18:19Les modèles ont donc évolué.
00:18:20Je doute fort que la différence soit aussi folle
00:18:23quand on compare le RAG aux situations textuelles standards.
00:18:26Et c'était aussi avant Gemini 2.0.
00:18:28On ne parlait pas encore de Harness.
00:18:29Beaucoup de choses ont donc changé,
00:18:31mais est-ce au point de combler un écart de 1250 fois ?
00:18:36Peut-être, peut-être pas.
00:18:39Je ne pense pas.
00:18:40Quoi qu'il en soit, essayez-le.
00:18:42Je pense qu'il n'y a pas grand-chose à perdre.
00:18:44L'autre aspect avec LightRAG est l'idée que,
00:18:46« Hé, si je veux téléverser des documents, »
00:18:48nous en avons parlé un peu plus tôt.
00:18:49Que faire si nous avons encore des tableaux, des graphiques,
00:18:53des éléments qui ne sont pas du texte ?
00:18:54LightRAG peut-il gérer cela ?
00:18:57Pas exactement, mais nous pouvons y remédier.
00:18:59Et la réponse est « RAG Anything »,
00:19:02des mêmes créateurs que LightRAG.
00:19:04C'est un outil qui peut être essentiellement multimodal.
00:19:07Et c'est quelque chose que l'on peut pratiquement greffer
00:19:09directement par-dessus LightRAG.
00:19:10Maintenant, je regrette de vous décevoir,
00:19:13mais cela sortira du cadre
00:19:15de la vidéo d'aujourd'hui.
00:19:17Cependant, dans la vidéo de demain,
00:19:18que pensez-vous que nous allons faire ?
00:19:19Demain, nous allons examiner « RAG Anything »
00:19:22et montrer concrètement comment l'intégrer
00:19:25à ce que nous avons construit avec LightRAG.
00:19:27Ce sera un excellent enchaînement.
00:19:28Donc si c'est quelque chose qui vous intéresse,
00:19:31aimez et abonnez-vous,
00:19:32car nous allons en parler demain.
00:19:34Et sur ce point,
00:19:35c'est ici que nous allons conclure.
00:19:39J'espère que vous avez apprécié.
00:19:41C'est aussi ma première vidéo avec cette nouvelle installation caméra.
00:19:43L'éclairage, je peux déjà dire qu'il n'est pas,
00:19:46pas exactement là où je voulais qu'il soit.
00:19:48Je m'en excuse donc.
00:19:49Je peaufine encore les derniers détails,
00:19:50je suis juste content que ça ait fonctionné tout court
00:19:52et que la caméra n'ait pas surchauffé au milieu de tout ça.
00:19:55Mais oui, toutes les compétences sont dans la School gratuite.
00:19:58Le RAG est super intéressant, surtout LightRAG.
00:20:01C'est un excellent produit.
00:20:02Je l'utilise depuis un bon moment déjà.
00:20:03Alors à 100 %, allez vraiment voir ça.
00:20:06Et c'est tellement facile à intégrer
00:20:07dans Clod code comme vous l'avez vu.
00:20:08Alors allez sur la School gratuite pour les compétences,
00:20:12ainsi que pour le prompt si vous en avez besoin.
00:20:14Pour être totalement honnête,
00:20:15si vous dirigez Clod code vers LightRAG,
00:20:16il le configurera très bien tout seul.
00:20:19Mais à part ça,
00:20:20n'oubliez pas de jeter un œil à Chase AI Plus
00:20:21si vous voulez accéder à cette masterclass.
00:20:24Et on se voit bientôt.

Key Takeaway

L'implémentation de LightRAG via Claude Code permet de gérer des corpus dépassant le million de tokens avec une efficacité de coût et de précision nettement supérieure aux méthodes de contexte long natives des LLM.

Highlights

L'utilisation d'un système RAG devient économiquement et techniquement supérieure au balayage standard (grep) à partir d'un seuil situé entre 500 et 2000 pages de texte.

LightRAG réduit drastiquement les coûts opérationnels par rapport à des solutions concurrentes comme Microsoft GraphRAG tout en maintenant des performances élevées.

Le GraphRAG surpasse le RAG naïf de 2024 en transformant les documents en entités et en relations interconnectées au sein d'un graphe de connaissances.

L'intégration avec Claude Code s'effectue via Docker Desktop et une configuration API utilisant GPT-4o mini et le modèle text-embedding-3-large d'OpenAI.

Une étude de juillet 2024 indique que l'utilisation du RAG peut s'avérer jusqu'à 1250 fois moins coûteuse que le traitement direct par LLM pour d'immenses corpus.

Le système permet une recherche hybride combinant une base de données vectorielle classique et une structure de graphe pour répondre à des questions conceptuelles profondes.

Timeline

Limites de la fenêtre de contexte et nécessité du RAG en 2026

  • L'augmentation de la taille du contexte des modèles comme Opus 4.6 ne remplace pas le besoin de systèmes de récupération structurés.
  • Le passage à une échelle massive de 500 à 1000 documents rend le RAG plus rapide et moins onéreux qu'un agent utilisant uniquement la commande grep.
  • LightRAG offre une alternative open source performante aux solutions propriétaires coûteuses.

Malgré les progrès des LLM dans la gestion de longs contextes, les limites techniques persistent lors du traitement de volumes de données d'entreprise. Un système de GraphRAG est indispensable pour maintenir la pertinence des réponses tout en maîtrisant les coûts de calcul. LightRAG se distingue par sa capacité à rivaliser avec les outils de Microsoft pour une fraction du prix initial.

Fonctionnement technique du RAG naïf versus GraphRAG

  • Le processus de base fragmente les documents en morceaux (chunks) convertis en vecteurs numériques par un modèle d'intégration.
  • La récupération repose sur la similitude cosinus pour identifier les vecteurs les plus proches de la requête de l'utilisateur.
  • Le RAG naïf utilisé en 2024 ne suffit plus pour les besoins complexes de 2026.

Le document d'origine subit une transformation en points dans un espace multidimensionnel, où chaque coordonnée représente une signification sémantique. Par exemple, des termes liés aux navires de guerre seront regroupés géographiquement loin de termes comme les fruits. Lors d'une question, le système compare les chiffres du vecteur de la question à ceux de la base de données pour extraire les informations pertinentes.

Architecture et avantages du graphe de connaissances

  • Le GraphRAG extrait des entités et définit les relations textuelles qui les lient pour structurer l'information.
  • Cette méthode permet de connecter des idées disparates provenant de plusieurs milliers de documents différents.
  • Les recherches ne se limitent plus à une simple fonction de recherche textuelle mais explorent les liens conceptuels.

Contrairement à une base de données plate, le graphe identifie des entités comme "Anthropic" et "Claude Code" et enregistre explicitement leur relation de création. Cette structure permet de naviguer à travers les documents pour répondre à des questions de synthèse profonde. L'utilisateur peut ainsi découvrir comment différentes théories ou données interagissent entre elles au lieu de simplement retrouver un passage spécifique.

Installation et intégration avec Claude Code et Docker

  • L'automatisation de l'installation s'effectue en fournissant l'URL du dépôt LightRAG directement à Claude Code.
  • Le système nécessite Docker Desktop en arrière-plan et une clé API OpenAI pour les modèles d'embedding et de chat.
  • Les points de terminaison de l'API LightRAG se transforment en compétences (skills) utilisables directement dans l'interface de commande.

La configuration repose sur un fichier .env paramétré pour GPT-4o mini et le stockage local, bien que des options comme Ollama permettent un fonctionnement 100% local. Une fois le conteneur Docker actif sur le port 9621, une interface web permet de téléverser des PDF ou du texte et de visualiser le graphe en temps réel. L'utilisation de compétences personnalisées permet à Claude Code de résumer les réponses brutes JSON pour l'utilisateur.

Analyse comparative des coûts et perspectives multimodales

  • Le seuil de rentabilité du RAG se situe autour de 2000 pages, soit environ un million de tokens.
  • L'écart de coût entre le traitement direct par LLM et le RAG peut atteindre un facteur de 1250 selon les données de 2024.
  • L'extension RAG Anything permet d'ajouter des capacités multimodales pour traiter les tableaux et graphiques.

Le choix d'implémenter LightRAG dépend de la densité de données ; au-delà de 2000 pages, la vitesse et l'économie deviennent les facteurs décisifs. Bien que les modèles récents comme Gemini 2.0 réduisent cet écart, le RAG reste la solution la plus stable pour les volumes massifs. Les futures intégrations prévoient la gestion d'images et de schémas complexes pour compléter l'analyse textuelle actuelle.

Community Posts

View all posts