Pipeline de Clean Room para IA Construído Apenas com Literatura Anterior a 1931

Os LLMs modernos já estão mordendo a própria cauda. As respostas dadas por modelos que engoliram dados de avaliação espalhados por toda a internet têm maior probabilidade de serem frutos de memorização do que de inteligência. Se você deseja observar a verdadeira capacidade de raciocínio, deve trazer dados de uma época em que o conhecimento moderno sequer existia. Organizamos o processo específico para criar um ambiente de treinamento livre de contaminação utilizando dados de domínio público anteriores a 1931.

Aquisição de Repositórios de Textos Históricos Isentos de Royalties

Antes de gastar o orçamento na coleta de dados, é preciso vasculhar os repositórios cujos direitos autorais já expiraram. O Project Gutenberg abriga mais de 75.000 obras, e a Sonny Bono Memorial Collection do Internet Archive oferece dados acadêmicos entre 1923 e 1941 gratuitamente.

Filtragem por Data de Publicação: Ao chamar a API gutendex do Python, mantenha apenas os materiais anteriores a 1931 com base no ano de falecimento do autor e na data da primeira edição, em vez do campo Issued dos metadados.
Verificação de Integridade: Cruzar o ID do Gutenberg com o Número de Controle da Biblioteca do Congresso (LCCN) pode evitar acidentes onde as datas de publicação se misturam.
Extração Prioritária de Lógica: Analise o campo LCC dos metadados para baixar com prioridade máxima textos relacionados a Filosofia (B), Matemática (QA) e Lógica Clássica.

Restauração Híbrida para Elevar a Taxa de Reconhecimento de OCR

O papel de 100 anos atrás está desgastado e os layouts de jornais são complexos. Rodar um OCR comum resultará em uma enxurrada de erros de digitação. É necessário um processo que desmonte o layout antes de simplesmente raspar o texto.

Análise de Layout: Utilize o framework LayoutParser para distinguir áreas de títulos e tabelas no documento. Particularmente para colunas de jornais, o modelo Newspaper Navigator deve ser usado para corrigir a ordem de leitura.
Extração Estrutural: Identifique as coordenadas visuais com LayoutLM para determinar a ordem lógica dos blocos de texto antes de executar o OCR por região.
Pós-correção Baseada em LLM: Utilize o framework REVISE. Atribua ao LLM o papel de um revisor de literatura histórica especializada para corrigir palavras mal identificadas, mantendo a ortografia da época. Com esse processo, a taxa de reconhecimento, que antes ficava na casa dos 30%, sobe para um nível treinável, reduzindo o tempo de refinamento pela metade.

Bloqueio de Vazamento de Conhecimento Moderno com Filtro de 5.000 Palavras Proibidas

É preciso impedir que o modelo finja ser inteligente roubando conhecimento moderno. Construa um sistema que monitore o conjunto de dados de treinamento criando uma lista de termos nascidos após 1931.

Escaneamento N-gram: Com base nos dados de primeira citação do Oxford English Dictionary (OED), defina 5.000 conceitos modernos como "computador", "DNA" e "internet" como palavras proibidas e escaneie todo o texto de treinamento em unidades de unigrama.
Descarte por Unidade de Documento: Se uma única palavra proibida for detectada, não apague apenas a frase, mas o documento inteiro. Isso elimina pela raiz a possibilidade de anotações modernas ou falsificações estarem misturadas.
Validação de Anacronismo: Use modelos como o Claude Sonnet como validadores para quantificar se conceitos anacrônicos estão misturados nas respostas geradas pelo modelo.

Medição da Real Capacidade Através do Benchmark SAT de 1926

Só porque os dados são antigos, não significa que a inteligência seja obsoleta. Pelo contrário, obras como o Principia Mathematica (1910) de Bertrand Russell são materiais didáticos superiores aos dados da web moderna para ensinar o pensamento dedutivo.

Para a avaliação, utilize cadernos de provas do passado cujas respostas não inundaram a internet moderna. Use as questões de linguagem artificial e raciocínio lógico do primeiro SAT aplicado em 1926 como dados de avaliação. Medir a capacidade de raciocínio zero-shot com perguntas do teste de QI Stanford-Binet revisado em 1916 revelará claramente se o modelo decorou a resposta ou se compreendeu e aplicou as regras fornecidas instantaneamente. Um modelo que responde corretamente a perguntas de 100 anos atrás é a verdadeira inteligência, livre de qualquer suspeita de contaminação de dados.

Pipeline de Clean Room para IA Construído Apenas com Literatura Anterior a 1931

Aquisição de Repositórios de Textos Históricos Isentos de Royalties

Filtragem por Data de Publicação: Ao chamar a API gutendex do Python, mantenha apenas os materiais anteriores a 1931 com base no ano de falecimento do autor e na data da primeira edição, em vez do campo Issued dos metadados.

Verificação de Integridade: Cruzar o ID do Gutenberg com o Número de Controle da Biblioteca do Congresso (LCCN) pode evitar acidentes onde as datas de publicação se misturam.

Extração Prioritária de Lógica: Analise o campo LCC dos metadados para baixar com prioridade máxima textos relacionados a Filosofia (B), Matemática (QA) e Lógica Clássica.

Restauração Híbrida para Elevar a Taxa de Reconhecimento de OCR

Análise de Layout: Utilize o framework LayoutParser para distinguir áreas de títulos e tabelas no documento. Particularmente para colunas de jornais, o modelo Newspaper Navigator deve ser usado para corrigir a ordem de leitura.

Extração Estrutural: Identifique as coordenadas visuais com LayoutLM para determinar a ordem lógica dos blocos de texto antes de executar o OCR por região.

Pós-correção Baseada em LLM: Utilize o framework REVISE. Atribua ao LLM o papel de um revisor de literatura histórica especializada para corrigir palavras mal identificadas, mantendo a ortografia da época. Com esse processo, a taxa de reconhecimento, que antes ficava na casa dos 30%, sobe para um nível treinável, reduzindo o tempo de refinamento pela metade.

Bloqueio de Vazamento de Conhecimento Moderno com Filtro de 5.000 Palavras Proibidas

Escaneamento N-gram: Com base nos dados de primeira citação do Oxford English Dictionary (OED), defina 5.000 conceitos modernos como "computador", "DNA" e "internet" como palavras proibidas e escaneie todo o texto de treinamento em unidades de unigrama.

Descarte por Unidade de Documento: Se uma única palavra proibida for detectada, não apague apenas a frase, mas o documento inteiro. Isso elimina pela raiz a possibilidade de anotações modernas ou falsificações estarem misturadas.

Validação de Anacronismo: Use modelos como o Claude Sonnet como validadores para quantificar se conceitos anacrônicos estão misturados nas respostas geradas pelo modelo.

Medição da Real Capacidade Através do Benchmark SAT de 1926

Pipeline de Clean Room para IA Construído Apenas com Literatura Anterior a 1931

Related Video

Esta IA Ficou Presa em 1930 (E é Fascinante)

Pipeline de Clean Room para IA Construído Apenas com Literatura Anterior a 1931

Aquisição de Repositórios de Textos Históricos Isentos de Royalties

Restauração Híbrida para Elevar a Taxa de Reconhecimento de OCR

Bloqueio de Vazamento de Conhecimento Moderno com Filtro de 5.000 Palavras Proibidas

Medição da Real Capacidade Através do Benchmark SAT de 1926

Comments (0)

Pipeline de Clean Room para IA Construído Apenas com Literatura Anterior a 1931

Aquisição de Repositórios de Textos Históricos Isentos de Royalties

Restauração Híbrida para Elevar a Taxa de Reconhecimento de OCR

Bloqueio de Vazamento de Conhecimento Moderno com Filtro de 5.000 Palavras Proibidas

Medição da Real Capacidade Através do Benchmark SAT de 1926