19:20Chase AI
Log in to leave a comment
No posts yet
Analizar localmente cientos de páginas de PDF y tablas complejas es una tarea ardua. No basta con instalar herramientas para solucionarlo. La verdadera automatización del trabajo comienza cuando los datos desordenados se purifican en un contexto de alta fidelidad que la IA pueda procesar de inmediato.
Al usar Claude Code, a veces ocurre que la IA responde con cifras del proyecto B a una pregunta sobre el proyecto A. Este fenómeno sucede cuando las bases de datos vectoriales o los grafos de conocimiento se mezclan. Para evitarlo, es necesario diseñar una estructura de carpetas estandarizada dentro de la raíz del proyecto y fijar las rutas.
La estructura más limpia consiste en colocar los archivos originales en docs/raw/, los resultados de la conversión de MinerU en docs/output/, y los índices del grafo de conocimiento de RAG-Anything en docs/context_db/. Al separar las rutas de esta manera, los archivos de estado como kv_store_doc_status.json no se corrompen.
Para que Claude Code apunte solo a esta ruta, es necesaria la configuración en .claudecode/config.json.
.claudecode en la raíz del proyecto.rag-anything en la sección mcpServers dentro de config.json.env, asigne el valor ./docs/context_db a RAG_STORAGE_DIR.Una vez finalizada esta configuración, la IA solo utilizará los datos de la ruta especificada. La precisión de las respuestas aumentará y desaparecerá el riesgo de mezclar datos con los de otros clientes.
Los PDFs escaneados o los diseños de múltiples columnas degradan la tasa de reconocimiento OCR. Si una tabla está pegada al borde de la página, el modelo de detección de diseño YOLO puede confundirla con un borde y eliminarla por completo. La solución es sencilla: basta con añadir un margen blanco de unos 40 píxeles alrededor de la imagen.
En la práctica, las tablas pegadas a los bordes tienen una tasa de reconocimiento de apenas el 3% cuando no hay margen, pero esta cifra sube hasta el 98% al añadir un margen de 40px. Para documentos escaneados borrosos, utilice OpenCV para ajustar el contraste. Aplique la siguiente fórmula ajustando el valor de (contraste) entre 1.0 y 3.0 para que los bordes de las letras sean más nítidos.
Aplicar la técnica CLAHE mediante un script de Python antes de ingresarlo a MinerU aumenta drásticamente la extracción de datos de tablas. Obligar a una IA a leer un documento que es borroso incluso para el ojo humano es una pérdida de tiempo.
El mayor obstáculo al procesar grandes volúmenes de documentos localmente es la memoria GPU. Aunque la versión 2.5 de MinerU es más rápida, en entornos con menos de 24GB de VRAM, el sistema suele detenerse al procesar PDFs de gran tamaño. Para garantizar la estabilidad, debe reducir el parámetro num_batch de su valor predeterminado de 512 a 32 o 64.
num_batch a 32 y gpu_memory_utilization a 0.7./etc/sysctl.conf.Reducir el tamaño del lote puede ralentizar un poco el procesamiento, pero evita que el proceso se cierre forzosamente a mitad del trabajo. Completar la tarea de forma estable es más importante que la velocidad.
Una vez terminada la indexación de datos, es hora de obtener resultados. Dado que RAG-Anything estructura las relaciones entre tablas y fórmulas, puede realizar consultas complejas en Claude Code. Comandos como "Compara la tabla de ventas del tercer trimestre con las especificaciones técnicas actuales" se vuelven posibles.
Para reducir el tiempo dedicado a redactar informes recurrentes, utilice una plantilla clara:
<context> y separe el formato de salida con etiquetas <format>.Siguiendo este flujo de trabajo, el analista solo necesita concentrarse en revisar el borrador generado por la IA. No hay razón para desperdiciar tiempo comparando datos de origen uno por uno.