Automatisierung der Analyse unübersichtlicher PDFs mit Claude Code und RAG-Anything

Die lokale Analyse von hunderten PDF-Seiten und komplexen Tabellen ist mühsam. Die bloße Installation von Tools löst das Problem nicht. Eine echte Arbeitsautomatisierung beginnt erst dann, wenn unordentliche Daten in hochreinen Kontext raffiniert werden, den die KI sofort verarbeiten kann.

Physische Isolierung von Projekten zur Vermeidung von Halluzinationen

Bei der Nutzung von Claude Code kann es vorkommen, dass die KI Fragen zu Projekt A mit Zahlen aus Projekt B beantwortet. Dieses Phänomen tritt auf, wenn Vektordatenbanken oder Knowledge Graphs vermischt werden. Um dies zu verhindern, muss eine standardisierte Ordnerstruktur innerhalb des Projekt-Roots entworfen und die Pfade fixiert werden.

Die sauberste Struktur besteht darin, Quelldateien in docs/raw/, die MinerU-Konvertierungsergebnisse in docs/output/ und den Knowledge-Graph-Index von RAG-Anything in docs/context_db/ abzulegen. Durch diese Trennung kommen Statusdateien wie kv_store_doc_status.json nicht durcheinander.

Damit Claude Code nur diesen Pfad berücksichtigt, ist eine Konfiguration in .claudecode/config.json erforderlich.

Erstellen Sie das Verzeichnis .claudecode im Projekt-Root.
Fügen Sie rag-anything unter dem Punkt mcpServers in der config.json hinzu.
Setzen Sie in den env-Einstellungen den Wert RAG_STORAGE_DIR auf ./docs/context_db.

Nach Abschluss dieser Einstellungen nutzt die KI nur noch die Daten im angegebenen Pfad. Die Genauigkeit der Antworten steigt, und das Risiko einer Vermischung mit Daten anderer Clients wird eliminiert.

Padding-Technik zur Verbesserung der Tabellenerkennung in MinerU

Gescannte PDFs oder mehrspaltige Layouts beeinträchtigen die OCR-Erkennungsrate. Wenn Tabellen direkt am Seitenrand anliegen, kann das YOLO-Layout-Erkennungsmodell diese fälschlicherweise als Rand interpretieren und komplett verwerfen. Die Lösung ist einfach: Fügen Sie einen weißen Rand (Padding) von etwa 40 Pixeln um das Bild hinzu.

In der Praxis liegt die Erkennungsrate von Tabellen, die direkt am Rand kleben, ohne Padding bei etwa 3 %, steigt aber mit einem 40px-Padding auf 98 % an. Bei unscharfen Scans sollten Sie OpenCV verwenden, um den Kontrast anzupassen. Wenden Sie die folgende Formel an, um den $\alpha$ -Wert (Kontrast) zwischen 1,0 und 3,0 zu justieren, wodurch die Zeichengrenzen schärfer werden:

g(i,j) = \alpha \cdot f(i,j) + eta

Wenn Sie die CLAHE-Technik über ein Python-Skript anwenden und die Dateien dann in MinerU einspeisen, erhöht sich die Menge der extrahierten Tabellendaten um das Vielfache. Es ist Zeitverschwendung, eine KI zu zwingen, Dokumente zu lesen, die schon für das menschliche Auge unscharf sind.

Systemabstürze durch VRAM-Mangel verhindern

Die größte Hürde bei der lokalen Verarbeitung großer Dokumentenmengen ist der GPU-Speicher. MinerU Version 2.5 ist zwar schneller geworden, neigt aber in Umgebungen mit weniger als 24 GB VRAM dazu, bei der Verarbeitung großer PDFs das System einzufrieren. Zur Stabilität sollten Sie den Parameter num_batch vom Standardwert 512 auf 32 oder 64 senken.

Ändern Sie in der MinerU-Konfigurationsdatei num_batch auf 32 und gpu_memory_utilization auf 0.7.
Begrenzen Sie in einer Linux-Umgebung das Memory Overcommitting in der /etc/sysctl.conf.
Erstellen Sie eine Swap-Datei von mindestens 8 GB, um für Speicherpeaks gewappnet zu sein.

Durch die Reduzierung der Batch-Größe mag die Verarbeitungsgeschwindigkeit zwar etwas sinken, aber Sie verhindern, dass Prozesse mitten in der Arbeit zwangsbeendet werden. Ein stabiler Abschluss ist wichtiger als pure Geschwindigkeit.

Prompt-Design für die Erstellung von Berichtsentwürfen

Sobald die Datenindizierung abgeschlossen ist, ist es an der Zeit, Ergebnisse zu generieren. Da RAG-Anything die Beziehungen zwischen Tabellen und Formeln strukturiert, können Sie in Claude Code komplexe Abfragen stellen. Befehle wie "Vergleiche die Umsatztabellen des 3. Quartals mit den aktuellen technischen Spezifikationen" werden möglich.

Um die Zeit für wöchentlich wiederkehrende Berichte zu verkürzen, nutzen Sie klare Templates:

Platzieren Sie die zu analysierenden Daten in <context>-Tags und trennen Sie das Ausgabeformat mit <format>-Tags.
Geben Sie schrittweise Anweisungen wie: "Extrahiere die Umsatzzahlen aus jedem Dokument, vergleiche sie mit den Kostenindikatoren und ziehe daraus einen Schluss."
Zwingen Sie die KI, fehlende Werte als "Keine Daten" oder "Prüfung erforderlich" zu markieren, anstatt Zahlen zu erfinden.

Mit diesem Workflow kann sich der Analyst darauf konzentrieren, lediglich den von der KI erstellten Entwurf zu prüfen. Es gibt keinen Grund mehr, Zeit mit dem mühsamen Abgleichen von Quelldaten zu verschwenden.

Automatisierung der Analyse unübersichtlicher PDFs mit Claude Code und RAG-Anything

Physische Isolierung von Projekten zur Vermeidung von Halluzinationen

Damit Claude Code nur diesen Pfad berücksichtigt, ist eine Konfiguration in .claudecode/config.json erforderlich.

Erstellen Sie das Verzeichnis .claudecode im Projekt-Root.
Fügen Sie rag-anything unter dem Punkt mcpServers in der config.json hinzu.
Setzen Sie in den env-Einstellungen den Wert RAG_STORAGE_DIR auf ./docs/context_db.

Padding-Technik zur Verbesserung der Tabellenerkennung in MinerU

g(i,j) = \alpha \cdot f(i,j) + eta

Systemabstürze durch VRAM-Mangel verhindern

Ändern Sie in der MinerU-Konfigurationsdatei num_batch auf 32 und gpu_memory_utilization auf 0.7.
Begrenzen Sie in einer Linux-Umgebung das Memory Overcommitting in der /etc/sysctl.conf.
Erstellen Sie eine Swap-Datei von mindestens 8 GB, um für Speicherpeaks gewappnet zu sein.

Prompt-Design für die Erstellung von Berichtsentwürfen

Um die Zeit für wöchentlich wiederkehrende Berichte zu verkürzen, nutzen Sie klare Templates:

Platzieren Sie die zu analysierenden Daten in <context>-Tags und trennen Sie das Ausgabeformat mit <format>-Tags.
Geben Sie schrittweise Anweisungen wie: "Extrahiere die Umsatzzahlen aus jedem Dokument, vergleiche sie mit den Kostenindikatoren und ziehe daraus einen Schluss."
Zwingen Sie die KI, fehlende Werte als "Keine Daten" oder "Prüfung erforderlich" zu markieren, anstatt Zahlen zu erfinden.

Automatisierung der Analyse unübersichtlicher PDFs mit Claude Code und RAG-Anything

Related Video

Claude Code + RAG-Anything = GRENZENLOS

Automatisierung der Analyse unübersichtlicher PDFs mit Claude Code und RAG-Anything

Physische Isolierung von Projekten zur Vermeidung von Halluzinationen

Padding-Technik zur Verbesserung der Tabellenerkennung in MinerU

Systemabstürze durch VRAM-Mangel verhindern

Prompt-Design für die Erstellung von Berichtsentwürfen

Comments (0)

Automatisierung der Analyse unübersichtlicher PDFs mit Claude Code und RAG-Anything

Physische Isolierung von Projekten zur Vermeidung von Halluzinationen

Padding-Technik zur Verbesserung der Tabellenerkennung in MinerU

Systemabstürze durch VRAM-Mangel verhindern

Prompt-Design für die Erstellung von Berichtsentwürfen