Claude Code + LightRAG = UNSTOPPBAR

CChase AI
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Die Nachricht vom Tod von RAG wurde maßlos übertrieben.
00:00:03Ja, ich weiß, große Sprachmodelle wie Opus 4.6
00:00:05sind in letzter Zeit viel besser darin geworden, große Kontexte zu verarbeiten.
00:00:09Aber wenn Sie glauben, dass Sie RAG deshalb nie brauchen werden,
00:00:12werden Sie gegen eine Wand laufen,
00:00:14aus der Sie sich nicht einfach heraus-prompten können.
00:00:16Deshalb werde ich heute erklären, wann man RAG braucht,
00:00:19welche Art von RAG im Jahr 2026 tatsächlich funktioniert,
00:00:22denn die Landschaft hat sich im letzten Jahr extrem verändert,
00:00:25und ich zeige Ihnen, wie Sie Cloud Code
00:00:28mit Ihrem RAG-System verbinden,
00:00:30und vermittle Ihnen Fähigkeiten, die Sie direkt anwenden können.
00:00:32Das heutige Ziel ist es, Ihnen dies zu ermöglichen:
00:00:35ein Graph-RAG-System auf Basis von Light RAG,
00:00:38das wir mit Cloud Code nutzen können.
00:00:40Und was noch wichtiger ist: Dies wird uns ein System liefern,
00:00:43das wir verwenden können, wenn wir KI
00:00:45mit riesigen Dokumentenbeständen nutzen müssen, richtig?
00:00:49Nicht nur fünf oder zehn Dokumente,
00:00:51wie Sie es in der Demo sehen werden,
00:00:52sondern 500 oder 1.000 Dokumente,
00:00:55denn es reicht nicht aus, sich nur auf das
00:00:57Kontextfenster von Cloud Code zu verlassen,
00:00:59oder auf irgendein anderes LLM.
00:01:01Denn wenn die Skalierung enorm wird,
00:01:03was in vielen Unternehmen vorkommt,
00:01:05oder sogar in kleineren Betrieben,
00:01:06ist ein RAG-System wie dieses tatsächlich günstiger und schneller
00:01:10als Ihr standardmäßiges agentisches Grep.
00:01:12In diesem Sinne ist die Fähigkeit,
00:01:13solche RAG-Systeme zu erstellen,
00:01:14sehr wichtig,
00:01:16aber glücklicherweise ist es ziemlich einfach.
00:01:18Und wie ich gerade schon angedeutet habe,
00:01:19werden wir heute Light RAG verwenden.
00:01:21Dies ist ein Open-Source-Repo, das ich absolut liebe.
00:01:25Es existiert schon eine Weile
00:01:26und wurde immer wieder aktualisiert.
00:01:28Es kann mit anspruchsvolleren
00:01:30Graph-RAG-Systemen wie dem von Microsoft mithalten,” und zwar
00:01:32zu einem winzigen Bruchteil der Kosten.
00:01:35Es ist also der perfekte Ort, um diese
00:01:37Graph-RAG-Konzepte zu testen, falls Sie sie noch nie genutzt haben.
00:01:40Damit wir das Beste aus Light RAG herausholen,
00:01:43müssen wir verstehen, wie RAG im Kern funktioniert,
00:01:46denn die RAG-Landschaft hat sich gewandelt.
00:01:48Was wir Ende 2024 und Anfang 2025 gemacht haben,
00:01:51war sogenanntes "Naives RAG", die einfachste Form.
00:01:54Erinnern Sie sich an all die N8N-Automatisierungen nach dem Motto:
00:01:56"Hey, lass uns zu Pinecone gehen, lass uns zu Supabase gehen".
00:01:58Das war naives RAG.
00:02:00Das funktioniert heute nicht mehr.
00:02:02Das reicht nicht mehr aus.
00:02:03Wir müssen anspruchsvollere RAG-Versionen nutzen,
00:02:06aber wir müssen zuerst die Grundlagen verstehen.
00:02:08Lassen Sie uns also kurz auffrischen, was RAG ist
00:02:12und wie es funktioniert, bevor wir zum Light RAG-Setup kommen.
00:02:14Also: RAG, Retrieval Augmented Generation.
00:02:18Die Funktionsweise ist so: Ich beginne zuerst
00:02:20mit einer Art von Dokument, richtig?
00:02:22In einem robusten RAG-System werde ich
00:02:25Tausende davon haben.
00:02:27Was nun passiert: Ich habe dieses Dokument,
00:02:29das in mein RAG-System soll,
00:02:31in eine Vektordatenbank.
00:02:34Nun, es ist nicht so, dass das Dokument
00:02:38einfach so in diese Datenbank geworfen wird,
00:02:40als wäre es eine Art Google-Drive-System.
00:02:41Das Dokument durchläuft ein Embedding-Modell
00:02:44und wird dann in einen Vektor umgewandelt.
00:02:46Aber noch mehr als das:
00:02:47Das Dokument wird nicht als ein riesiges Stück verarbeitet.
00:02:50Es wird in Stücke zerlegt, sogenannte Chunks.
00:02:51Stellen Sie sich vor, wir haben ein einseitiges Dokument,
00:02:54das in Chunk 1, Chunk 2 und Chunk 3 unterteilt wird.
00:02:59Jeder dieser Chunks wird dann zu einem Vektor,
00:03:03was im Grunde nur ein Punkt in einem Diagramm ist,
00:03:05ein Punkt in einer Vektordatenbank.
00:03:06Das Embedding-Modell übernimmt dieses Chunking für uns.
00:03:09Es ist zuständig für den Prozess, das Dokument zu nehmen,
00:03:11herauszufinden, worum es geht,
00:03:13und es in einen Punkt auf diesem Diagramm zu verwandeln.
00:03:16Das Dokument wird also zerteilt,
00:03:18geht durch das Embedding-Modell,
00:03:20und dann wird unser Dokument zu einem Vektor auf diesem Diagramm.
00:03:24Dies hier ist ein dreidimensionales Diagramm.
00:03:27In der Realität sind es Tausende von Dimensionen,
00:03:30aber stellen Sie es sich vorerst als 3D-Diagramm vor.
00:03:33Stellen Sie sich vor, dieses Dokument handelte von Kriegsschiffen.
00:03:36Okay, und jeder Vektor wurde in eine Art Chunk
00:03:39über Kriegsschiffe umgewandelt.
00:03:40Wo wird es landen?
00:03:41Nun, es wird hier drüben bei Booten und Schiffen landen,
00:03:43offensichtlich, und zu seinem eigenen kleinen Vektor werden.
00:03:45Und mit Vektor meine ich,
00:03:46dass es einfach durch eine Reihe von Zahlen repräsentiert wird.
00:03:50Das können Sie hier drüben bei den Bananen sehen.
00:03:53Banane ist 0.52, 5.12, 9.31, und so weiter.
00:03:57Das geht über Tausende von Zahlen so weiter.
00:04:00Unser kleiner Boots-Typ hier ist also wie eins, zwei, drei,
00:04:05Punkt, Punkt, Punkt, immer so weiter.
00:04:07Ganz einfach.
00:04:08Natürlich wird es nicht neben Bananen und Äpfeln liegen,
00:04:10aber das ist der Prozess vom Dokument zum Embedding
00:04:14sowie das Chunking.
00:04:15Jetzt stellen Sie sich vor, Sie sind hier, okay?
00:04:18Sie sind unser glücklicher kleiner Typ hier drüben,
00:04:20und Sie stellen dem Sprachmodell
00:04:21eine Frage zu Kriegsschiffen.
00:04:24Nun, diese Frage wird in diesem RAG-System-Szenario
00:04:27ebenfalls in einen Vektor umgewandelt.
00:04:30Das LLM schaut sich also Ihre Frage an,
00:04:34weist ihr eine Reihe von Zahlen zu,
00:04:35die ebenfalls einem bestimmten Vektor
00:04:38in dieser Datenbank entsprechen, okay?
00:04:41Und was es dann tut: Es vergleicht,
00:04:43was der Vektor Ihrer Frage ist,
00:04:45mit den anderen Vektoren im Diagramm.
00:04:49Es schaut auf die sogenannte Kosinus-Ähnlichkeit,
00:04:51aber im Grunde sagt es nur:
00:04:53"Hey, in der Frage ging es darum."
00:04:55Wir weisen diese Zahlen zu.
00:04:56Welche Vektoren liegen am nächsten?
00:04:58Welche Zahlen sind am nächsten an dieser Frage?
00:05:00Das wird der über Kriegsschiffe sein
00:05:02und wahrscheinlich Boote und Schiffe.
00:05:04Es wird nun also all diese Vektoren abrufen,
00:05:08mit all ihren Informationen,
00:05:10und es wird die Antwort, die es für Sie generiert, ergänzen –
00:05:13daher: Retrieval Augmented Generation (abrufergänzte Generierung).
00:05:16Anstatt dass sich das Sprachmodell
00:05:17rein auf seine Trainingsdaten verlässt,
00:05:19kann es in die Vektordatenbank gehen,
00:05:22die relevanten Vektoren herausholen,
00:05:24sie zurückbringen und Ihnen die Antwort über Kriegsschiffe geben.
00:05:27So funktioniert RAG, okay?
00:05:29Dokumentenaufnahme, Chunks werden in Vektoren umgewandelt.
00:05:32Der Vektor wird mit der gestellten Frage verglichen,
00:05:35die ähnlichsten werden geholt – fertig: RAG.
00:05:39Und das ist naives RAG,
00:05:40und das funktioniert eigentlich nicht besonders gut.
00:05:44Klugere Leute als Sie und ich
00:05:46haben bessere Wege dafür gefunden,
00:05:49namentlich Hybrid Search, Graph RAG und Agentic RAG.
00:05:53Wir konzentrieren uns heute auf Graph RAG.
00:05:55Graph RAG durchläuft denselben Prozess.
00:05:57Sie haben immer noch dieses Dokument.
00:05:58Es wird immer noch in Chunks zerlegt.
00:05:59Es wird immer noch in diese flache Vektordatenbank geladen,
00:06:03aber es macht noch eine weitere Sache.
00:06:05Es erstellt zusätzlich diesen Wissensgraphen.
00:06:07Es erschafft dieses verrückte Ding hier.
00:06:08Was ist das alles?
00:06:09Was bedeuten all diese Vektoren und Linien?
00:06:11Was bedeutet das eigentlich?
00:06:12Nun, all diese Vektoren, diese kleinen Kreise,
00:06:14das ist das, was man als Entitäten bezeichnet.
00:06:17Und die Linien, die zwei Entitäten verbinden,
00:06:21sind eine Kante oder eine Beziehung.
00:06:23Um auf unser Dokument-Beispiel zurückzukommen:
00:06:25Stellen Sie sich vor, dieses Dokument handelt von Anthropic und Cloud Code.
00:06:28Und der gesamte Chunk, der extrahiert wurde, besagt:
00:06:31"Anthropic hat Cloud Code erschaffen."
00:06:35Das System nimmt das und zerlegt es
00:06:36in Entitäten und Beziehungen.
00:06:38Was sind die zwei Entitäten?
00:06:39Die Entitäten werden Anthropic
00:06:41und Cloud Code sein.
00:06:44Und die Beziehung ist: Anthropic hat Cloud Code erschaffen.
00:06:48Sie haben also Anthropic genau hier
00:06:51und Sie haben Cloud Code hier drüben.
00:06:54Und Sie sehen: Das ist eine Entität, das ist eine Entität,
00:06:58und sie haben eine Beziehung.
00:06:59Im visuellen Graphen ist es nur eine Linie,
00:07:03aber unter der Haube, programmiertechnisch,
00:07:05ist diese Linie zwischen diesen beiden Entitäten
00:07:08mit einer Menge Text verknüpft,
00:07:10der ihre Beziehung erklärt.
00:07:11In einem Graph-RAG-System
00:07:13geschieht das für jedes einzelne Dokument, das Sie hinzufügen.
00:07:16Stellen Sie sich das mal 1.000 Dokumente vor.
00:07:19Das hier sind nur 10 Dokumente,
00:07:21all diese Beziehungen und all diese Entitäten.
00:07:24Sie können sich vorstellen, wie viel anspruchsvoller das ist
00:07:26als ein Haufen zufälliger Vektoren,
00:07:28die einfach isoliert in einer Vektordatenbank liegen.
00:07:30Mit einem System wie Light RAG
00:07:33erhalten wir also die Erstellung eines Wissensgraphen
00:07:35zusätzlich zur Standard-Vektordatenbank.
00:07:38Es macht beides parallel.
00:07:40Wenn Sie dem Sprachmodell nun also eine Frage
00:07:43zu was auch immer stellen,
00:07:45zieht es nicht nur den spezifischen Vektor,
00:07:47den es als am ähnlichsten findet,
00:07:49es geht auch hier runter und schaut sich eine Entität an.
00:07:54Sagen wir, Sie fragen nach Anthropic.
00:07:56Nun wird es die Beziehungen – die Kanten – durchlaufen,
00:07:59und alles finden, was es für relevant hält.
00:08:03Was bedeutet das für Sie als Nutzer?
00:08:06Mit einem Graph-RAG-System
00:08:08kann ich jetzt viel tiefere Fragen stellen,
00:08:11nicht nur über ein Dokument,
00:08:13was im Grunde nur einer "Strg+F"-Suche
00:08:15für alle möglichen Zwecke entspricht.
00:08:17Ich kann nun fragen, wie verschiedene Dokumente, Theorien
00:08:19und Ideen miteinander in Beziehung stehen,
00:08:21weil diese Beziehungen kartiert sind, richtig?
00:08:24Darum geht es im Kern.
00:08:25Es geht darum, disparate Informationen zu verknüpfen.
00:08:30Das ist die Stärke von Graph RAG.
00:08:32Das ist die Stärke von LightRag.
00:08:33Und genau das werden wir heute lernen.
00:08:35Die Installation und Nutzung von LightRag
00:08:37ist so einfach, wie man es sich nur wünschen kann.
00:08:40Ich werde Ihnen den einfachsten Weg zeigen,
00:08:42bei dem wir einfach Cloud-Code verwenden.
00:08:44Wir geben ihm die URL von LightRag
00:08:48und sagen: "Hey, richte das für uns ein."
00:08:50Und es wird im Grunde alles erledigen.
00:08:52In diesem Szenario benötigen wir nur ein paar Dinge.
00:08:55Wie Sie in der Analyse der Funktionsweise von RAG gesehen haben,
00:08:58benötigen wir ein Embedding-Modell.
00:08:59Das erfordert also eine API.
00:09:02Ich empfehle die Nutzung von OpenAI.
00:09:04Sie haben ein sehr effektives Embedding-Modell.
00:09:07Sie benötigen also einen OpenAI-Key.
00:09:09Sie haben mit LightRag jedoch die Möglichkeit,
00:09:11das Ganze komplett lokal zu betreiben.
00:09:14Sie könnten also ein lokales Modell via Ollama nutzen,
00:09:17das die gesamte Analyse mit den Embeddings übernimmt,
00:09:20ebenso wie die Beantwortung der Fragen.
00:09:21Verstehen Sie also, dass auch ein komplett lokaler Weg möglich ist.
00:09:24Wir werden eine Mischform wählen.
00:09:25Wir werden ein OpenAI-Embedding-Modell einrichten
00:09:28sowie das Modell, das die eigentliche Arbeit verrichtet.
00:09:31Zusätzlich benötigen wir Docker.
00:09:34Falls Sie Docker noch nie benutzt haben:
00:09:35Es ist ziemlich einfach einzurichten.
00:09:36Sie brauchen nur Docker Desktop,
00:09:39einfach herunterladen, installieren und laufen lassen,
00:09:41wenn Sie LightRag ausführen,
00:09:42da es einen Container benötigt.
00:09:45Was Sie nun tun werden,
00:09:46ist Cloud-Code zu öffnen
00:09:47und zu sagen: Klon das LightRag-Repo,
00:09:50erstell die .env-Datei konfiguriert für OpenAI
00:09:53mit GPT-4o mini und text-embedding-3-large,
00:09:56nutze den standardmäßigen lokalen Speicher
00:09:58und starte es mit Docker Compose,
00:10:00und gib ihm den Link zu LightRag.
00:10:02Wenn Sie das tun, wird es alles für Sie erledigen.
00:10:06Ich werde diesen Prompt in die kostenlose School-Community stellen,
00:10:10Link dazu in der Beschreibung.
00:10:12Außerdem wird es dort,
00:10:13wie ich gleich zeigen werde,
00:10:15einige Skills für Cloud-Code und LightRag geben,
00:10:17um die Steuerung über Cloud-Code zu erleichtern.
00:10:19Das werden Sie dort ebenfalls finden.
00:10:22Und Sie wussten, dass es kommt.
00:10:22Wo wir gerade von meiner School sprechen,
00:10:24ein kurzer Hinweis auf die Cloud-Code Masterclass,
00:10:25der beste Weg, um vom Anfänger zum KI-Entwickler zu werden,
00:10:28besonders wenn man keinen technischen Hintergrund hat.
00:10:31Den Link dazu finden Sie im angepinnten Kommentar.
00:10:33Ich aktualisiere sie buchstäblich jede Woche.
00:10:35In den letzten zwei Wochen
00:10:36habe ich bereits etwa anderthalb Stunden
00:10:38an zusätzlichem Inhalt hinzugefügt.
00:10:39Schauen Sie also definitiv mal rein,
00:10:40wenn Sie Cloud-Code und KI im Allgemeinen
00:10:42wirklich meistern wollen.
00:10:44Aber für Neulinge, denen das zu viel ist,
00:10:46empfehle ich die kostenlose School
00:10:47mit Tonnen an großartigen Ressourcen
00:10:49für den Einstieg.
00:10:50Und bevor Sie das ausführen,
00:10:51stellen Sie sicher, dass Docker Desktop läuft,
00:10:53halten Sie den OpenAI-Key bereit
00:10:55und lassen Sie Cloud-Code die Arbeit machen.
00:10:56Sobald Cloud-Code die Installation beendet
00:10:58und Sie den OpenAI-Key in die .env-Datei eingetragen haben,
00:11:01sollten Sie so etwas hier sehen.
00:11:02Zuerst einmal sollten Sie in Docker Desktop
00:11:04einen laufenden Container namens LightRag sehen.
00:11:07Und Cloud-Code sollte Ihnen auch einen Link
00:11:11zu Ihrem Localhost geben, wahrscheinlich Port 9621.
00:11:13Das führt Sie auf eine Seite, die so aussieht.
00:11:15Dies ist das Web-UI für LightRag.
00:11:18Hier können wir Dokumente hochladen,
00:11:21den Knowledge Graph ansehen, Daten abrufen
00:11:24und wir können auch einen Blick
00:11:25auf die verschiedenen API-Endpunkte werfen,
00:11:28was später noch nützlich sein wird.
00:11:30Was Sie hier sehen, sind die Dokumente,
00:11:31die ich für dieses Video hochgeladen habe.
00:11:33Dokumente hochzuladen ist sehr, sehr einfach.
00:11:35Wir gehen einfach hier rüber nach rechts,
00:11:36wo "Upload" steht, und ziehen sie hinein.
00:11:39Beachten Sie aber, dass nur bestimmte Dokumenttypen
00:11:42unterstützt werden, richtig?
00:11:43Textdokumente, PDFs – im Grunde
00:11:46ist man auf Textformate beschränkt.
00:11:49Es gibt jedoch Wege, dies zu umgehen,
00:11:51namentlich für Dinge wie Bilder, Diagramme und Tabellen.
00:11:56Darüber sprechen wir am Ende,
00:11:57da es den Rahmen hier etwas sprengt,
00:11:59aber wir werden es uns ansehen.
00:12:00Laden Sie also beliebige Dokumente hier hoch
00:12:02und Sie können deren Status
00:12:04während des Uploads verfolgen.
00:12:07Das dauert einen Moment, denn wie gesagt,
00:12:08wird dabei gleichzeitig der Knowledge Graph aufgebaut.
00:12:10Das kann also eine Weile dauern.
00:12:12Und falls Sie auf der Knowledge-Graph-Seite sind
00:12:14und es mal vorkommt, dass dort steht:
00:12:16"Hey, es konnte nicht geladen werden" oder so,
00:12:18können Sie es einfach mit diesem Button hier
00:12:19oben links zurücksetzen.
00:12:21Wenn Sie zum Tab "Retrieval" wechseln,
00:12:23können Sie dort Fragen
00:12:25zu Ihrem Knowledge Graph an das LLM stellen,
00:12:27was in diesem Fall wahrscheinlich OpenAI ist,
00:12:30wenn Sie denselben Key für das Embedding nutzen.
00:12:31Hier rechts haben wir einige Parameter.
00:12:33Ehrlich gesagt muss man zu Beginn nicht viele davon ändern.
00:12:36Gleich zeige ich Ihnen, wie Cloud-Code das übernimmt.
00:12:39Aber wenn Sie Fragen stellen – zum Beispiel
00:12:42hatte ich einen Haufen KI- und RAG-Dokumente hochgeladen.
00:12:44Ich fragte: "Wie sieht die Kostenstruktur
00:12:47für den Betrieb von RAG im Jahr 2026 aus?"
00:12:48Es liefert mir eine ziemlich differenzierte Antwort.
00:12:50Zusätzlich werden auch die Referenzen
00:12:53für alles ausgegeben, was es heranzieht, richtig?
00:12:56Hier sieht man die Ziffern vier, drei, zwei,
00:12:57denn am Ende der Seite
00:13:00werden die Quellen der Dokumente aufgelistet,
00:13:01die es abgerufen hat.
00:13:03Und natürlich erklären wir in unserem Knowledge Graph
00:13:05Entitäten und Beziehungen.
00:13:07Wenn ich auf eine Entität klicke, etwa OpenAI,
00:13:09kann ich einige der Eigenschaften sehen.
00:13:12Es macht also mehr, als nur Beziehungen und Entitäten
00:13:14während des Embedding-Prozesses mit LightRag zu extrahieren.
00:13:17Es geht ein bisschen tiefer und prüft:
00:13:19"Okay, was für ein Entitätstyp ist das überhaupt?
00:13:20Ist es eine Organisation oder eine Person?"
00:13:22Es zeigt die spezifischen Dateien an,
00:13:25ebenso wie Chunking-IDs.
00:13:27Und dann sieht man die tatsächlichen Beziehungen
00:13:29unten rechts.
00:13:31Ich schiebe das mal kurz beiseite.
00:13:32Hier unten rechts,
00:13:33falls man es visuell nicht direkt erkennt,
00:13:35weil es auf dem Graph manchmal etwas gedrängt wirkt,
00:13:36kann man einfach hier klicken,
00:13:40um direkt dorthin zu gelangen.
00:13:41Diese Server-API werden wir nun nutzen,
00:13:43um das Ganze mit Cloud-Code zu verbinden.
00:13:46Denn so toll das hier auch ist,
00:13:48ich werde mich nicht jedes Mal hierhin setzen,
00:13:50wenn ich eine Frage an meinen Knowledge Graph
00:13:51über den Retrieval-Tab stellen möchte.
00:13:53Das wäre viel zu umständlich.
00:13:56Stattdessen nutzen wir einfach diese APIs.
00:13:57Jede dieser APIs hat eine Beschreibung,
00:14:00man sieht die Parameter und so weiter –
00:14:03jede davon kann in einen Skill verwandelt werden.
00:14:05Und genau das werde ich Ihnen heute zeigen.
00:14:08Wenn Sie also möchten, dass Cloud-Code LightRag nutzt,
00:14:11gehen wir einfach in Cloud-Code und sagen:
00:14:15"Hey, ich möchte den LightRag-Abfrage-Skill nutzen
00:14:17und folgende Frage stellen: ..."
00:14:19Das ist genau dasselbe, als wenn Sie hier
00:14:22im Retrieval-Tab Ihre Frage eingeben würden.
00:14:23Und noch besser: Cloud-Code wird die Antwort
00:14:26direkt für Sie zusammenfassen,
00:14:28denn diese Antworten können bei LightRag
00:14:30von Haus aus sehr ausführlich sein.
00:14:32Wenn Sie aber nur die Rohdaten wollen,
00:14:34können Sie das natürlich auch einstellen.
00:14:36Der Punkt ist: Auch wenn es ein Web-UI gibt,
00:14:37müssen Sie nie wirklich damit interagieren,
00:14:40wenn Sie nicht möchten.
00:14:41Es lässt sich ganz einfach
00:14:42in unser Cloud-Code-Ökosystem integrieren.
00:14:44Die vier wichtigsten Skills sind meiner Meinung nach:
00:14:46Abfrage, Upload, Erkunden und Status.
00:14:48Alle vier werden auch in der kostenlosen School verfügbar sein.
00:14:51Aber was werden Sie hauptsächlich tun?
00:14:55Sie werden neue Dokumente hinzufügen
00:14:56und Fragen zu diesen Dokumenten stellen.
00:14:58Und Sie werden wahrscheinlich wissen wollen:
00:15:01"Hey, was habe ich da eigentlich schon drin?"
00:15:02Denn wenn man erst mal Tonnen an Dokumenten hat,
00:15:04möchte man es vermeiden, dieselben
00:15:05immer und immer wieder hochzuladen.
00:15:07Wenn ich also dieselbe Frage in Cloud-Code stelle,
00:15:08habe ich gerade den LightRag-Abfrage-Skill aufgerufen.” Er sendet die Anfrage an LightRag,
00:15:12das – wie gesagt – auf unserem Computer gehostet ist,
00:15:14in diesem Docker-Container läuft und die Antwort liefert.
00:15:18der wiederum auf unserem Computer gehostet wird,
00:15:21er läuft innerhalb dieses Docker-Containers,
00:15:22und er wird die Antwort zurückbringen.
00:15:24Nun sind Sie nicht auf dieses semi-lokale System beschränkt.
00:15:28Wenn Sie jemand sind, der mit LightRAG
00:15:30richtig hart skaliert, können Sie dies
00:15:33auf einem Standard-Postgres-Server hosten.
00:15:36Sie haben viele Optionen, Sie könnten so etwas wie Neon nutzen.
00:15:38Es deckt also die gesamte Palette ab.
00:15:40Sie können vollständig lokal bleiben oder das Ganze
00:15:43bei Bedarf auch in die Cloud verlagern.
00:15:44LightRAG ist sehr, sehr anpassbar.
00:15:46Und hier ist die Antwort, die von Claude Code kam,
00:15:48was wiederum eine Zusammenfassung der Rohantwort ist,
00:15:52die LightRAG uns gab, und es zitiert auch seine Quellen.
00:15:55Ich habe es auch nach der Rohantwort gefragt,
00:15:57weil man diese ebenfalls erhalten kann,
00:15:58da sie einfach als JSON-Antwort
00:16:00zurück an Claude Code übermittelt wird.
00:16:02Das ist also alles, was dahintersteckt.
00:16:04Und dann sind da noch die Referenzen, falls Sie diese benötigen.
00:16:07Wie Sie gerade gesehen haben: LightRAG ist superleicht zu installieren
00:16:10und sehr einfach in Ihren Claude Code Workflow zu integrieren.
00:16:14Jetzt stellt sich die Frage: "Okay, Chase, klingt toll."
00:16:18Ich verstehe das Konzept, dass ich bei vielen Dokumenten
00:16:20vielleicht genau das hier nutzen sollte.
00:16:22Aber wo ziehe ich die Grenze?
00:16:23Wann sollte ich anfangen, LightRAG zu integrieren?
00:16:26Nun, dafür gibt es keine exakte Zahl.
00:16:28Die Grauzone liegt meiner Meinung nach irgendwo zwischen 500
00:16:33und 2000 Seiten an Dokumenten.
00:16:36Ich möchte nicht nur von "Dokumenten" sprechen,
00:16:37weil man nie weiß, wie groß diese sein werden,
00:16:39sondern von etwa 500 bis 2000 Textseiten.
00:16:42Ab diesem Punkt, bei 2000 Seiten, erreichen Sie
00:16:44langsam den Bereich von einer Million Token.
00:16:47Darüber hinaus ist es mit Sicherheit sinnvoll,
00:16:50mit der Integration von LightRAG zu beginnen,
00:16:52denn so wie RAG aufgebaut ist,
00:16:54wird es günstiger und schneller sein,
00:16:57als sich nur auf das Standard-Grep von Claude Code zu verlassen.
00:17:00Agentic Grep, die Art, wie Claude Code Dateien durchsucht,
00:17:03ist bereits großartig.
00:17:04Es gibt einen Grund, warum Claude Code diesen Weg gewählt hat.
00:17:07Es geschah jedoch nicht unter der Annahme, dass man 2000
00:17:12oder 4000 oder 5000 Seiten an Dokumenten hat, richtig?
00:17:14Es gibt eine Obergrenze.
00:17:16Das Schöne ist, dass diese Entscheidung
00:17:19nicht unbedingt in Stein gemeißelt sein muss, da es,
00:17:22wie Sie gesehen haben, sehr einfach zu implementieren ist.
00:17:24Experimentieren Sie also einfach.
00:17:26Wenn Sie das Gefühl haben, tonnenweise Dokumente zu haben:
00:17:28"Hey, sollten wir an diesem Punkt RAG nutzen?"
00:17:30Nun, ich weiß es nicht – probieren Sie es aus.
00:17:32Es dauert nicht lange.
00:17:34Der mühsamste Teil ist der Embedding-Prozess.
00:17:36Das kann durchaus einen Moment dauern, ist aber nicht lähmend.
00:17:40Und die Kosten sind nicht wahnsinnig hoch, besonders mit LightRAG.
00:17:43Vergleicht man dies mit anderen Graph-RAG-Systemen
00:17:45wie Microsoft GraphRAG, ist dies nur ein winziger,
00:17:48ganz kleiner Bruchteil der Kosten.
00:17:49Und bei sehr großen Dokumentenmengen
00:17:52liegen die Kosten von RAG gegenüber Methoden wie Grep
00:17:56in einem Bereich, der tausendmal günstiger ist.
00:17:58Es gab letzten Sommer eine Studie,
00:18:04die zeigte, dass es 1250-mal günstiger war,
00:18:07RAG in solchen Situationen einzusetzen.
00:18:08Das können Sie hier sehen: Text-RAG
00:18:10gegenüber Text-LLM sowie die tatsächliche Antwortzeit.
00:18:14Vollständige Transparenz: Das war vom Juli letzten Jahres.
00:18:19Die Modelle haben sich also verändert.
00:18:20Ich bezweifle stark, dass der Unterschied heute
00:18:23noch so extrem ist, wenn wir RAG mit Standard-Szenarien vergleichen.
00:18:26Und das war auch noch mit Gemini 2.0.
00:18:28Wir sprachen nicht über ein Harness-System.
00:18:29Es hat sich also vieles geändert,
00:18:31aber hat es sich so weit geändert, dass die 1250-fache Lücke geschlossen wurde?
00:18:36Vielleicht, vielleicht auch nicht.
00:18:39Ich glaube eher nicht.
00:18:40Wie auch immer, probieren Sie es einfach aus.
00:18:42Ich denke, man hat nicht viel zu verlieren.
00:18:44Die andere Sache bei LightRAG ist die Idee:
00:18:46"Hey, wenn ich Dokumente hochladen möchte..."
00:18:48Wir haben vorhin schon kurz darüber gesprochen.
00:18:49Was machen wir, wenn wir Tabellen, Grafiken
00:18:53oder Dinge haben, die kein Text sind?
00:18:54Kann LightRAG das handhaben?
00:18:57Nicht direkt, aber wir können das lösen.
00:18:59Die Antwort lautet "RAG Anything",
00:19:02von denselben Entwicklern wie LightRAG.
00:19:04Und das ist etwas, das im Grunde multimodal sein kann.
00:19:07Es ist etwas, das wir quasi direkt oben
00:19:09auf LightRAG aufsetzen können.
00:19:10Nun, ich möchte Sie ungern enttäuschen,
00:19:13aber das würde den heutigen Rahmen,
00:19:15den Rahmen des heutigen Videos, sprengen.
00:19:17Aber im morgigen Video,
00:19:18was glauben Sie, was wir da machen werden?
00:19:19Morgen werden wir RAG Anything durchgehen
00:19:22und zeigen, wie man es im Grunde in das,
00:19:25was wir mit LightRAG gebaut haben, integrieren kann.
00:19:27Das wird eine großartige Kombination.
00:19:28Wenn Sie also daran interessiert sind,
00:19:31liken und abonnieren Sie,
00:19:32denn wir werden es morgen behandeln.
00:19:34Und in diesem Sinne
00:19:35werden wir hier langsam zum Ende kommen.
00:19:39Ich hoffe, es hat Ihnen gefallen.
00:19:41Dies ist auch mein erstes Video mit diesem neuen Kamera-Setup.
00:19:43Bei der Beleuchtung merke ich jetzt schon,
00:19:46dass sie noch nicht ganz da ist, wo ich sie haben wollte.
00:19:48Dafür entschuldige ich mich.
00:19:49Ich arbeite noch an den Feinheiten,
00:19:50ich bin froh, dass es überhaupt funktioniert hat
00:19:52und die Kamera mittendrin nicht überhitzt ist.
00:19:55Aber ja, alle Skills sind in der Free School verfügbar.
00:19:58Die RAG-Themen sind super interessant, besonders LightRAG.
00:20:01Es ist ein tolles Produkt.
00:20:02Ich benutze es schon seit einer ganzen Weile.
00:20:03Schauen Sie es sich also unbedingt an.
00:20:06Und es ist so einfach zu integrieren
00:20:07in Claude Code, wie Sie gesehen haben.
00:20:08Schauen Sie in der Free School nach den Skills
00:20:12und auch nach dem Prompt, falls Sie ihn brauchen.
00:20:14Um ehrlich zu sein:
00:20:15Wenn Sie Claude Code einfach auf LightRAG hinweisen,
00:20:16wird es das ganz von alleine richtig einrichten.
00:20:19Aber ansonsten,
00:20:20schauen Sie sich unbedingt Chase AI Plus an,
00:20:21wenn Sie diese Masterclass in die Hände bekommen wollen.
00:20:24Man sieht sich!

Key Takeaway

Die Kombination von Claude Code mit LightRAG ermöglicht die hocheffiziente Analyse von über 2000 Dokumentenseiten durch einen dynamischen Wissensgraphen, der 1250-mal kostengünstiger ist als rein agentische Suchmethoden.

Highlights

Graph-RAG-Systeme wie LightRAG erreichen die Leistungsfähigkeit von Microsofts GraphRAG zu einem Bruchteil der Kosten.

Ab einer Menge von 500 bis 2000 Textseiten (ca. 1 Million Token) arbeitet RAG effizienter und kostengünstiger als standardmäßige Suchmethoden wie Grep.

LightRAG erstellt zusätzlich zur Vektordatenbank einen Wissensgraphen aus Entitäten und deren Beziehungen.

Eine Studie vom Juli 2024 belegt eine Kostenersparnis durch RAG gegenüber reinen LLM-Abfragen um den Faktor 1250 bei großen Datenmengen.

Die Integration von LightRAG in Claude Code erfolgt über Docker und spezifische API-Skills für Abfrage, Upload und Statusprüfung.

Timeline

Notwendigkeit von RAG im Zeitalter großer Kontextfenster

  • Große Kontextfenster moderner Sprachmodelle ersetzen RAG bei massiven Datenbeständen nicht.
  • Ein spezialisiertes RAG-System arbeitet bei 500 bis 1000 Dokumenten schneller und preiswerter als Standard-KI-Suchen.
  • Unternehmen benötigen skalierbare Lösungen, die über die Grenzen einfacher Prompts hinausgehen.

Trotz verbesserter Modelle wie Opus 4.6 bleibt RAG für die Skalierung in Unternehmen unverzichtbar. Wenn die Dokumentenmenge massiv ansteigt, stoßen reine LLM-Kontextfenster an ihre wirtschaftlichen und technischen Grenzen. Ein dediziertes System bietet hier eine robustere Struktur für den Datenabruf.

Funktionsweise von Naivem RAG und Vektordatenbanken

  • Dokumente werden beim Embedding in kleine Segmente, sogenannte Chunks, zerlegt.
  • Embedding-Modelle wandeln Textinhalte in mehrdimensionale numerische Vektoren um.
  • Der Abruf erfolgt durch den Vergleich der Kosinus-Ähnlichkeit zwischen der Nutzerfrage und den gespeicherten Vektoren.

Das klassische oder naive RAG basiert auf der Umwandlung von Text in mathematische Punkte in einem Koordinatensystem. Bei einer Anfrage sucht das System nach den am nächsten liegenden Datenpunkten, um die Antwort zu generieren. Dieser Prozess stößt jedoch bei komplexen Zusammenhängen zwischen verschiedenen Dokumenten an seine Grenzen.

Vorteile von Graph RAG und Wissensgraphen

  • Graph RAG extrahiert Entitäten und definiert deren Beziehungen als Kanten im System.
  • Zusammenhänge zwischen verschiedenen Ideen und Dokumenten werden explizit kartiert.
  • Abfragen ermöglichen tiefe Einblicke in die Korrelation disparater Informationen.

Im Gegensatz zum naiven RAG erstellt Graph RAG ein Netzwerk aus Informationen. Wenn beispielsweise Anthropic und Claude Code als Entitäten erkannt werden, speichert das System die spezifische Beziehung zwischen ihnen. Dies erlaubt es dem Nutzer, komplexe Fragen über die Verbindung verschiedener Theorien oder Dokumente zu stellen, die eine einfache Schlagwortsuche nicht beantworten könnte.

Technische Implementierung mit LightRAG und Claude Code

  • LightRAG lässt sich lokal über Docker Desktop und OpenAI-APIs oder Ollama betreiben.
  • Die Steuerung erfolgt nahtlos über Claude Code mittels spezifischer API-Skills.
  • Unterstützte Formate beschränken sich primär auf Textdokumente und PDFs.

Die Installation erfordert lediglich Docker und einen API-Key für das Embedding-Modell, wobei GPT-4o mini und text-embedding-3-large empfohlen werden. Durch die Verbindung der LightRAG-API mit Claude Code entfällt die manuelle Nutzung eines Web-Interfaces. Nutzer können Dokumente direkt über Befehle hochladen und den Status des Knowledge Graphs überwachen.

Wirtschaftlichkeit und Erweiterung durch RAG Anything

  • Die Kosteneffizienz von RAG steigt drastisch ab einer Menge von ca. 2000 Seiten.
  • Multimodale Daten wie Tabellen und Grafiken erfordern die Erweiterung RAG Anything.
  • LightRAG ist im Vergleich zu Microsofts Lösungen signifikant günstiger bei ähnlicher Leistung.

Untersuchungen zeigen, dass RAG bei extrem großen Datenmengen bis zu 1250-mal günstiger sein kann als Methoden, die das gesamte Dokument jedes Mal neu an das LLM senden. Für nicht-textuelle Daten wie Bilder oder Diagramme wird das Zusatzmodul RAG Anything benötigt. Das System bietet zudem Flexibilität beim Hosting, von lokalen Lösungen bis hin zu Cloud-Datenbanken wie Neon.

Community Posts

View all posts