Log in to leave a comment
No posts yet
L'analyse locale de centaines de pages PDF et de tableaux complexes est une corvée. L'installation de simples outils ne suffit pas. L'automatisation réelle du travail commence par le raffinage des données brutes en un contexte de haute pureté que l'IA peut assimiler instantanément.
En utilisant Claude Code, il arrive qu'une question sur le projet A reçoive une réponse basée sur les chiffres du projet B. Ce phénomène se produit lorsque les bases de données vectorielles ou les graphes de connaissances s'entremêlent. Pour éviter cela, il est crucial de concevoir une structure de dossiers standardisée à la racine du projet et de fixer les chemins d'accès.
La structure la plus propre consiste à placer les fichiers originaux dans docs/raw/, les résultats de la conversion MinerU dans docs/output/ et les index du graphe de connaissances de RAG-Anything dans docs/context_db/. Cette séparation évite les conflits entre les fichiers d'état comme kv_store_doc_status.json.
Pour que Claude Code ne consulte que ce chemin, une configuration dans .claudecode/config.json est nécessaire.
.claudecode à la racine du projet.rag-anything dans la section mcpServers du fichier config.json.env, définissez la valeur de RAG_STORAGE_DIR sur ./docs/context_db.Une fois cette configuration terminée, l'IA n'utilisera que les données du chemin spécifié. La précision des réponses augmente et le risque de mélange avec les données d'autres clients disparaît.
Les PDF scannés ou les mises en page à colonnes multiples dégradent le taux de reconnaissance OCR. Si un tableau est collé au bord de la page, le modèle de détection de mise en page YOLO peut l'interpréter à tort comme une bordure et l'ignorer complètement. La solution est simple : il suffit d'ajouter une marge blanche d'environ 40 pixels autour de l'image.
En pratique, un tableau collé au bord a un taux de reconnaissance d'environ 3 % sans marge, mais ce chiffre grimpe à 98 % après l'ajout de 40 px de marge. Pour les scans flous, utilisez OpenCV pour ajuster le contraste. En appliquant la formule suivante pour ajuster la valeur de (contraste) entre 1.0 et 3.0, les contours des caractères deviennent plus nets :
Après avoir appliqué la technique CLAHE via un script Python et l'avoir soumis à MinerU, la quantité de données extraites des tableaux est multipliée par dix. Forcer une IA à lire un document visiblement flou est une perte de temps.
Le principal obstacle au traitement de gros volumes de documents en local est la mémoire GPU. Bien que la version 2.5 de MinerU soit plus rapide, elle a tendance à figer le système lors du traitement de gros PDF dans des environnements disposant de moins de 24 Go de VRAM. Pour plus de stabilité, il est recommandé de réduire le paramètre num_batch de sa valeur par défaut de 512 à 32 ou 64.
num_batch à 32 et gpu_memory_utilization à 0.7./etc/sysctl.conf.Réduire la taille du lot peut ralentir légèrement le traitement, mais cela évite l'arrêt forcé du processus en plein milieu du travail. Une exécution stable est plus importante que la vitesse.
Une fois l'indexation des données terminée, il est temps d'extraire les résultats. Comme RAG-Anything structure les relations entre les tableaux et les formules, vous pouvez soumettre des requêtes complexes à Claude Code. Des commandes telles que "Compare le tableau des ventes du troisième trimestre avec les spécifications techniques actuelles" deviennent possibles.
Pour réduire le temps consacré à la rédaction de rapports hebdomadaires récurrents, utilisez des modèles clairs :
<context> et distinguez le format de sortie avec les balises <format>.En suivant ce flux de travail, l'analyste peut se concentrer uniquement sur la révision de l'ébauche créée par l'IA. Il n'y a plus de raison de perdre du temps à comparer manuellement les données sources.