Pipeline de Clean Room para IA Construído Apenas com Literatura Anterior a 1931
8 मई 2026
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
Os LLMs modernos já estão mordendo a própria cauda. As respostas dadas por modelos que engoliram dados de avaliação espalhados por toda a internet têm maior probabilidade de serem frutos de memorização do que de inteligência. Se você deseja observar a verdadeira capacidade de raciocínio, deve trazer dados de uma época em que o conhecimento moderno sequer existia. Organizamos o processo específico para criar um ambiente de treinamento livre de contaminação utilizando dados de domínio público anteriores a 1931.
Antes de gastar o orçamento na coleta de dados, é preciso vasculhar os repositórios cujos direitos autorais já expiraram. O Project Gutenberg abriga mais de 75.000 obras, e a Sonny Bono Memorial Collection do Internet Archive oferece dados acadêmicos entre 1923 e 1941 gratuitamente.
gutendex do Python, mantenha apenas os materiais anteriores a 1931 com base no ano de falecimento do autor e na data da primeira edição, em vez do campo Issued dos metadados.LCC dos metadados para baixar com prioridade máxima textos relacionados a Filosofia (B), Matemática (QA) e Lógica Clássica.O papel de 100 anos atrás está desgastado e os layouts de jornais são complexos. Rodar um OCR comum resultará em uma enxurrada de erros de digitação. É necessário um processo que desmonte o layout antes de simplesmente raspar o texto.
LayoutParser para distinguir áreas de títulos e tabelas no documento. Particularmente para colunas de jornais, o modelo Newspaper Navigator deve ser usado para corrigir a ordem de leitura.LayoutLM para determinar a ordem lógica dos blocos de texto antes de executar o OCR por região.REVISE. Atribua ao LLM o papel de um revisor de literatura histórica especializada para corrigir palavras mal identificadas, mantendo a ortografia da época. Com esse processo, a taxa de reconhecimento, que antes ficava na casa dos 30%, sobe para um nível treinável, reduzindo o tempo de refinamento pela metade.É preciso impedir que o modelo finja ser inteligente roubando conhecimento moderno. Construa um sistema que monitore o conjunto de dados de treinamento criando uma lista de termos nascidos após 1931.
Só porque os dados são antigos, não significa que a inteligência seja obsoleta. Pelo contrário, obras como o Principia Mathematica (1910) de Bertrand Russell são materiais didáticos superiores aos dados da web moderna para ensinar o pensamento dedutivo.
Para a avaliação, utilize cadernos de provas do passado cujas respostas não inundaram a internet moderna. Use as questões de linguagem artificial e raciocínio lógico do primeiro SAT aplicado em 1926 como dados de avaliação. Medir a capacidade de raciocínio zero-shot com perguntas do teste de QI Stanford-Binet revisado em 1916 revelará claramente se o modelo decorou a resposta ou se compreendeu e aplicou as regras fornecidas instantaneamente. Um modelo que responde corretamente a perguntas de 100 anos atrás é a verdadeira inteligência, livre de qualquer suspeita de contaminação de dados.