19:20Chase AI
Log in to leave a comment
No posts yet
수백 장의 PDF와 복잡한 표를 로컬에서 분석하는 일은 고역입니다. 단순히 도구를 설치한다고 해결되지 않습니다. 지저분한 데이터를 AI가 즉시 씹어 삼킬 수 있는 고순도 컨텍스트로 정제해야 실질적인 업무 자동화가 시작됩니다.
Claude Code를 쓰다 보면 A 프로젝트 질문에 B 프로젝트 수치를 답하는 상황이 생깁니다. 벡터 데이터베이스나 지식 그래프가 섞이면 발생하는 현상입니다. 이를 막으려면 프로젝트 루트 안에 표준화된 폴더 구조를 설계하고 경로를 고정해야 합니다.
가장 깔끔한 구조는 원본 파일을 docs/raw/에, MinerU 변환 결과물은 docs/output/에, RAG-Anything의 지식 그래프 인덱스는 docs/context_db/에 두는 방식입니다. 이렇게 분리하면 kv_store_doc_status.json 같은 상태 파일이 꼬이지 않습니다.
Claude Code가 이 경로만 바라보게 하려면 .claudecode/config.json 설정이 필요합니다.
.claudecode 디렉토리를 만듭니다.config.json 내 mcpServers 항목에 rag-anything을 추가합니다.env 설정에서 RAG_STORAGE_DIR 값을 ./docs/context_db로 지정합니다.이 설정을 마치면 AI는 지정된 경로의 데이터만 활용합니다. 답변의 정확도가 올라가고 다른 클라이언트 데이터와 뒤섞일 위험이 사라집니다.
스캔된 PDF나 다중 열 레이아웃은 OCR 인식률을 갉아먹습니다. 표가 페이지 가장자리에 딱 붙어 있으면 YOLO 레이아웃 감지 모델이 이를 테두리로 오인해 통째로 날려버리기도 합니다. 해결책은 단순합니다. 이미지 주변에 약 40픽셀의 흰색 여백을 넣으면 됩니다.
실제로 테두리에 밀착된 표는 여백이 없을 때 인식률이 3% 수준에 머물지만, 40px 여백을 추가하면 98%까지 올라갑니다. 흐릿한 스캔본은 OpenCV를 써서 명암비를 조절하십시오. 다음 수식을 적용해 (대조) 값을 1.0에서 3.0 사이로 조정하면 글자 경계가 선명해집니다.
파이썬 스크립트로 CLAHE 기법을 적용한 뒤 MinerU에 입력하면 표 데이터 추출량이 수십 배 이상 늘어납니다. 눈으로 봐도 흐릿한 문서를 AI에게 그냥 읽으라고 강요하는 건 시간 낭비입니다.
로컬에서 대량의 문서를 처리할 때 가장 큰 벽은 GPU 메모리입니다. MinerU 2.5 버전은 속도가 빨라졌지만 24GB 미만 VRAM 환경에서는 대형 PDF를 처리하다가 시스템이 멈추기 일쑤입니다. 안정성을 위해 num_batch 파라미터를 기본값 512에서 32나 64로 낮춰야 합니다.
num_batch를 32로, gpu_memory_utilization을 0.7로 수정합니다./etc/sysctl.conf에서 메모리 오버커밋을 제한하십시오.배치 사이즈를 줄이면 처리 속도는 조금 느려질지 몰라도 작업 중간에 프로세스가 강제 종료되는 사태를 막을 수 있습니다. 안정적인 완주가 속도보다 중요합니다.
데이터 인덱싱이 끝났다면 이제 결과물을 뽑아낼 차례입니다. RAG-Anything은 표와 수식 사이의 관계를 구조화하므로 Claude Code에서 복합 질의를 던질 수 있습니다. "3분기 매출 표와 현재 기술 사양서를 대조해줘" 같은 명령이 가능해집니다.
매주 반복되는 보고서 작성 시간을 줄이려면 명확한 템플릿을 쓰십시오.
<context> 태그에 넣고 출력 형식은 <format> 태그로 구분합니다.이 워크플로우를 타면 분석가는 AI가 만든 초안을 검토하는 데만 집중하면 됩니다. 원천 데이터를 일일이 대조하며 시간을 버릴 이유가 없습니다.