19:20Chase AI
Log in to leave a comment
No posts yet
Die lokale Analyse von hunderten PDF-Seiten und komplexen Tabellen ist mühsam. Die bloße Installation von Tools löst das Problem nicht. Eine echte Arbeitsautomatisierung beginnt erst dann, wenn unordentliche Daten in hochreinen Kontext raffiniert werden, den die KI sofort verarbeiten kann.
Bei der Nutzung von Claude Code kann es vorkommen, dass die KI Fragen zu Projekt A mit Zahlen aus Projekt B beantwortet. Dieses Phänomen tritt auf, wenn Vektordatenbanken oder Knowledge Graphs vermischt werden. Um dies zu verhindern, muss eine standardisierte Ordnerstruktur innerhalb des Projekt-Roots entworfen und die Pfade fixiert werden.
Die sauberste Struktur besteht darin, Quelldateien in docs/raw/, die MinerU-Konvertierungsergebnisse in docs/output/ und den Knowledge-Graph-Index von RAG-Anything in docs/context_db/ abzulegen. Durch diese Trennung kommen Statusdateien wie kv_store_doc_status.json nicht durcheinander.
Damit Claude Code nur diesen Pfad berücksichtigt, ist eine Konfiguration in .claudecode/config.json erforderlich.
.claudecode im Projekt-Root.rag-anything unter dem Punkt mcpServers in der config.json hinzu.env-Einstellungen den Wert RAG_STORAGE_DIR auf ./docs/context_db.Nach Abschluss dieser Einstellungen nutzt die KI nur noch die Daten im angegebenen Pfad. Die Genauigkeit der Antworten steigt, und das Risiko einer Vermischung mit Daten anderer Clients wird eliminiert.
Gescannte PDFs oder mehrspaltige Layouts beeinträchtigen die OCR-Erkennungsrate. Wenn Tabellen direkt am Seitenrand anliegen, kann das YOLO-Layout-Erkennungsmodell diese fälschlicherweise als Rand interpretieren und komplett verwerfen. Die Lösung ist einfach: Fügen Sie einen weißen Rand (Padding) von etwa 40 Pixeln um das Bild hinzu.
In der Praxis liegt die Erkennungsrate von Tabellen, die direkt am Rand kleben, ohne Padding bei etwa 3 %, steigt aber mit einem 40px-Padding auf 98 % an. Bei unscharfen Scans sollten Sie OpenCV verwenden, um den Kontrast anzupassen. Wenden Sie die folgende Formel an, um den -Wert (Kontrast) zwischen 1,0 und 3,0 zu justieren, wodurch die Zeichengrenzen schärfer werden:
g(i,j) = \alpha \cdot f(i,j) + etaWenn Sie die CLAHE-Technik über ein Python-Skript anwenden und die Dateien dann in MinerU einspeisen, erhöht sich die Menge der extrahierten Tabellendaten um das Vielfache. Es ist Zeitverschwendung, eine KI zu zwingen, Dokumente zu lesen, die schon für das menschliche Auge unscharf sind.
Die größte Hürde bei der lokalen Verarbeitung großer Dokumentenmengen ist der GPU-Speicher. MinerU Version 2.5 ist zwar schneller geworden, neigt aber in Umgebungen mit weniger als 24 GB VRAM dazu, bei der Verarbeitung großer PDFs das System einzufrieren. Zur Stabilität sollten Sie den Parameter num_batch vom Standardwert 512 auf 32 oder 64 senken.
num_batch auf 32 und gpu_memory_utilization auf 0.7./etc/sysctl.conf.Durch die Reduzierung der Batch-Größe mag die Verarbeitungsgeschwindigkeit zwar etwas sinken, aber Sie verhindern, dass Prozesse mitten in der Arbeit zwangsbeendet werden. Ein stabiler Abschluss ist wichtiger als pure Geschwindigkeit.
Sobald die Datenindizierung abgeschlossen ist, ist es an der Zeit, Ergebnisse zu generieren. Da RAG-Anything die Beziehungen zwischen Tabellen und Formeln strukturiert, können Sie in Claude Code komplexe Abfragen stellen. Befehle wie "Vergleiche die Umsatztabellen des 3. Quartals mit den aktuellen technischen Spezifikationen" werden möglich.
Um die Zeit für wöchentlich wiederkehrende Berichte zu verkürzen, nutzen Sie klare Templates:
<context>-Tags und trennen Sie das Ausgabeformat mit <format>-Tags.Mit diesem Workflow kann sich der Analyst darauf konzentrieren, lediglich den von der KI erstellten Entwurf zu prüfen. Es gibt keinen Grund mehr, Zeit mit dem mühsamen Abgleichen von Quelldaten zu verschwenden.