Log in to leave a comment
No posts yet
Анализ сотен страниц PDF и сложных таблиц локально — это сущий ад. Простая установка инструментов не решит проблему. Настоящая автоматизация рабочих процессов начинается только тогда, когда вы очищаете «грязные» данные до состояния высокочистого контекста, который ИИ может мгновенно поглотить и обработать.
При использовании Claude Code может возникнуть ситуация, когда на вопрос по проекту А ИИ выдает цифры из проекта Б. Это происходит при смешивании векторных баз данных или графов знаний. Чтобы предотвратить это, необходимо разработать стандартизированную структуру папок внутри корня проекта и жестко зафиксировать пути.
Самая чистая структура — размещать исходные файлы в docs/raw/, результаты конвертации MinerU в docs/output/, а индекс графа знаний RAG-Anything в docs/context_db/. Такое разделение гарантирует, что файлы состояния, такие как kv_store_doc_status.json, не перепутаются.
Чтобы Claude Code смотрел только на эти пути, требуется настройка .claudecode/config.json.
.claudecode в корне проекта.rag-anything в раздел mcpServers внутри config.json.env установите значение RAG_STORAGE_DIR как ./docs/context_db.После завершения этой настройки ИИ будет использовать данные только из указанного пути. Точность ответов повысится, а риск смешивания данных разных клиентов исчезнет.
Сканированные PDF или многоколонные макеты снижают точность OCR. Если таблица вплотную прилегает к краю страницы, модель детекции макетов YOLO может ошибочно принять её за границу и полностью удалить. Решение простое: добавьте белое поле шириной около 40 пикселей вокруг изображения.
На практике точность распознавания таблиц, прижатых к краям, составляет всего около 3% без полей, но возрастает до 98% при добавлении 40px полей. Для размытых сканов используйте OpenCV для регулировки контрастности. Примените следующую формулу, чтобы настроить значение (контраст) в диапазоне от 1.0 до 3.0, что сделает границы символов более четкими.
Применение метода CLAHE с помощью Python-скрипта перед подачей в MinerU увеличивает объем извлекаемых данных таблиц в десятки раз. Заставлять ИИ читать документы, которые даже человеческому глазу кажутся размытыми — это пустая трата времени.
При обработке больших объемов документов локально главным препятствием становится память GPU. Хотя MinerU версии 2.5 стал быстрее, в средах с VRAM менее 24 ГБ система часто зависает при обработке крупных PDF. Для стабильности необходимо снизить параметр num_batch со значения по умолчанию 512 до 32 или 64.
num_batch на 32, а gpu_memory_utilization на 0.7./etc/sysctl.conf.Уменьшение размера пакета (batch size) может немного замедлить скорость обработки, но это предотвратит принудительное завершение процесса в середине работы. Стабильное завершение задачи важнее, чем скорость.
После завершения индексации данных пришло время извлечь результат. Поскольку RAG-Anything структурирует связи между таблицами и формулами, вы можете отправлять сложные запросы в Claude Code. Становятся возможными команды вроде "Сравни таблицу продаж за 3-й квартал с текущими техническими спецификациями".
Чтобы сократить время на написание еженедельных отчетов, используйте четкие шаблоны:
<context>, а формат вывода разделяйте тегами <format>.При таком рабочем процессе аналитику остается только сосредоточиться на проверке черновика, созданного ИИ. Нет причин тратить время на ручное сопоставление исходных данных.