Сбор Markdown вместо HTML повышает точность ответов RAG

Преобразование в Markdown: открываем глаза агенту

Если просто извлекать HTML веб-страницы в виде обычного текста, ИИ-агент теряется. Текст виден, но иерархия документа исчезает. Согласно исследовательским данным, опубликованным в 2024 году, метод сохранения иерархической структуры документа повышает точность поиска более чем на 30% по сравнению с простой нарезкой текста. Я убежден, что ключевым моментом является предоставление агенту возможности видеть информацию в заголовках и мгновенно определять значимость данных.

Первое, что нужно сделать, — это отказаться от get_text() в BeautifulSoup. Вместо этого используйте библиотеку Markdownify для сопоставления HTML-тегов с заголовками Markdown. Необходимо применять стратегию «родительско-дочернего чанкинга», разделяя преобразованный Markdown по заголовкам и предоставляя весь верхний раздел в качестве контекста. Совместное использование библиотеки Trafilatura позволяет извлекать основной текст и одновременно сокращать потребление токенов до 67%. Это самый надежный способ сэкономить средства и повысить точность.

Пробуждение данных, скрытых за вкладками и кнопками «Подробнее»

Статические парсеры никогда не смогут прочитать данные, скрытые за меню вкладок или аккордеонами, реализованными на JavaScript. Я считаю, что такие невидимые данные являются главными виновниками ухудшения качества ответов в системах RAG. Playwright подключается напрямую к CDP (протоколу отладки браузера), поэтому он быстрее и мощнее управляет динамическим контентом, чем Selenium. Практические примеры показывают, что системы с внедренной последовательностью автокликов собирают на 30% больше данных, чем при ручном сборе.

При построении логики автоматизации на базе Playwright используйте функцию page.wait_for_selector в цикле. Нужно обязательно дождаться появления кликабельного элемента на экране. Затем вызовите метод scroll_into_view_if_needed(), чтобы принудительно инициировать бесконечную прокрутку или AJAX-запросы. Поочередно кликайте на каждую вкладку и фиксируйте измененное состояние DOM в реальном времени. Только после этого процесса база данных будет считаться полной, без пропусков.

Отсеивание мусорных данных с помощью алгоритмов извлечения контента

Реклама, футеры и панели меню тратят впустую контекстное окно агента и загрязняют векторы эмбеддингов. Шум на веб-сайтах серьезнее, чем кажется, и неочищенные данные для ИИ подобны яду. Readability.js анализирует плотность текста и ссылок, выбирая только тот контент, который содержит реальную информацию. В результатах бенчмарков Readability показала медианную производительность 0,970 для всех типов страниц, точно удаляя посторонние элементы.

Включите этот алгоритм в свой конвейер обработки данных. Пропустите собранный HTML через Readability.js, чтобы отфильтровать только заголовок и основной текст, а затем удалите лишние пробелы с помощью регулярных выражений. Сохранение такого очищенного текста в формате Markdown сокращает объем данных для чтения агентом на 90%. Релевантность поиска при этом возрастает в 2,29 раза. Гораздо эффективнее подавать чистые данные, чем пытаться впихнуть их в огромном количестве.

Технологии имитации человеческого поведения для обхода блокировок

Большинство веб-сайтов блокируют доступ ИИ-агентам, проверяя флаг navigator.webdriver. Если вы не хотите столкнуться с капчей, необходима стратегия скрытности. Механические движения быстро распознаются. Я считаю, что математическая имитация человеческого поведения — самое умное решение.

Во-первых, используйте плагин playwright-stealth, чтобы скрыть флаги веб-драйвера и подменить User-Agent на последнюю версию Chrome. При перемещении мыши используйте кривые Безье вместо прямых линий:

\mathbf{B}(t) = (1-t)^3 \mathbf{P}_0 + 3(1-t)^2 t \mathbf{P}_1 + 3(1-t) t^2 \mathbf{P}_2 + t^3 \mathbf{P}_3, \quad t \in [0,1]

При наборе текста добавляйте случайную задержку от 50 до 200 мс между символами. Даже простая случайная пауза в 2–5 секунд при переходе между страницами поможет избежать обнаружения антибот-системами. Это может показаться медленным, но это гораздо быстрее, чем получить блокировку и не собрать данные вовсе.

Преобразование в Markdown: открываем глаза агенту

Пробуждение данных, скрытых за вкладками и кнопками «Подробнее»

Отсеивание мусорных данных с помощью алгоритмов извлечения контента

Технологии имитации человеческого поведения для обхода блокировок

\mathbf{B}(t) = (1-t)^3 \mathbf{P}_0 + 3(1-t)^2 t \mathbf{P}_1 + 3(1-t) t^2 \mathbf{P}_2 + t^3 \mathbf{P}_3, \quad t \in [0,1]

Сбор Markdown вместо HTML повышает точность ответов RAG

Related Video

Сможет ли ХОТЬ ОДИН ИИ пройти этот тест на чтение веб-страниц?

Сбор Markdown вместо HTML повышает точность ответов RAG

Преобразование в Markdown: открываем глаза агенту

Пробуждение данных, скрытых за вкладками и кнопками «Подробнее»

Отсеивание мусорных данных с помощью алгоритмов извлечения контента

Технологии имитации человеческого поведения для обхода блокировок

Comments (0)

Сбор Markdown вместо HTML повышает точность ответов RAG

Преобразование в Markdown: открываем глаза агенту

Пробуждение данных, скрытых за вкладками и кнопками «Подробнее»

Отсеивание мусорных данных с помощью алгоритмов извлечения контента

Технологии имитации человеческого поведения для обхода блокировок