Esta IA Ficou Presa em 1930 (E é Fascinante)

BBetter Stack
컴퓨터/소프트웨어도서/문학AI/미래기술

Transcript

00:00:00E se você pudesse falar com alguém da década de 1930? Tipo, viagem no tempo? Bem, eu falei e
00:00:05pedi a eles que previssem como seria a vida em 2026.
00:00:08Eu acho que, no ano de 2026, a vida será agradável e fácil. Em primeiro lugar,
00:00:13o mundo será habitado por toda parte. Pois, a essa altura, as pessoas terão descoberto a
00:00:17arte de voar. Em seguida, todas as guerras terão cessado, pois as nações terão aprendido
00:00:21a viver em paz e amizade umas com as outras. Teremos adquirido conhecimento em todos os tipos
00:00:25de ciências e seremos perfeitamente qualificados na arte de curar. Seremos vizinhos honestos e bons,
00:00:29e os ladrões serão desconhecidos. Em suma, acho que o mundo será, no ano
00:00:342026, um lugar muito agradável para se viver.
00:00:36Acho que foram previsões muito legais, então é uma pena que apenas algumas delas
00:00:40tenham se tornado realidade, e falando em ser verdadeiro, talvez eu tenha mentido um pouco. Desculpe, mas eu
00:00:45não inventei a viagem no tempo. Em vez disso, este era na verdade o Torquay, que é um modelo de linguagem de
00:00:4913 bilhões de parâmetros treinado em textos anteriores a 1931, então ele nem sabe que houve
00:00:54uma Segunda Guerra Mundial, e ele dá algumas respostas verdadeiramente fascinantes, selvagens e ofensivas, e
00:00:59pode até ser ensinado a programar.
00:01:02Então, o Torquay aqui é o que se conhece como um modelo vintage, e o Torquay parece ser o maior
00:01:10desse tipo. Um dos pesquisadores nisso foi, na verdade, o autor principal da
00:01:14pesquisa GPT da OpenAI em 2018, que formou a base do ChatGPT. Ele também trabalhou no
00:01:19Dall-E e no Whisper, então é um currículo seriamente impressionante. O que eles fizeram foi uma rede de
00:01:2413 bilhões de parâmetros treinada exclusivamente em 260 bilhões de tokens de textos históricos em inglês,
00:01:30como jornais antigos, patentes, revistas científicas e livros. 1931 é o limite, aliás,
00:01:36porque o limite de direitos autorais dos EUA é o final de 1930, então eles não serão processados
00:01:40pelo “Rato Grande” por fazer isso. E além de serem divertidos de conversar, esses modelos vintage
00:01:44também servem a um propósito de pesquisa. Hoje, todos os grandes modelos como ChatGPT, Claude e Gemini,
00:01:49são todos treinados na web moderna, o que torna quase impossível saber se
00:01:53uma IA está realmente pensando e raciocinando, ou se apenas memorizou uma resposta de uma
00:01:57thread aleatória do Reddit, e essa thread provavelmente foi gerada por IA. Portanto, se usarmos um modelo que só
00:02:02conhece textos anteriores a 1931, ele não terá nada dessa contaminação. Vamos
00:02:07testar isso e perguntar algo como “o que é a internet?”. Aqui podemos ver que ele aparentemente
00:02:11confundiu a internet com o imposto de receita interna cobrado sobre artigos de consumo,
00:02:16então ele não tem ideia do que é a internet moderna. Outra coisa divertida é perguntar quais
00:02:20são as gírias populares. Aparentemente, em 1930 eram bosh, rot, bosh de novo, stuff, nonsense, fudge,
00:02:25gammon, humbug, brack, fla e ribaldry. Espero não ter dito nada rude. E
00:02:30o motivo pelo qual não ter contaminação é útil é porque permite que os pesquisadores entendam
00:02:33se a IA pode realmente aprender coisas novas, como aprender a programar. Este modelo nem sabe o que
00:02:38é um computador; para ele, é um humano que faz cálculos. Por isso é
00:02:43muito impressionante que, ao receber alguns exemplos de programas em Python, ele tenha conseguido aprender
00:02:47a escrever novos, mesmo que fossem apenas programas simples de uma linha. Ao usar alguns testes
00:02:52básicos de Python do HumanEval e fornecer funções aleatórias de Python em seu contexto, ele
00:02:56realmente conseguiu passar nesses testes algumas vezes em 100 tentativas. Neste caso,
00:03:01o Torquay entendeu corretamente que, para fazer a função de decodificação, ele simplesmente precisava trocar uma
00:03:05adição por uma subtração. Embora seja simples, isso mostra uma compreensão de funções inversas
00:03:09e isso é um conhecimento novo. Ele não tinha visto nada disso antes. Se você tentar a mesma coisa
00:03:13em um LLM moderno de tamanho semelhante, ele superará massivamente o Torquay, mas isso era
00:03:18bem óbvio. Outra coisa que os pesquisadores podem testar com esses modelos vintage é a capacidade
00:03:22de prever o futuro. Agora isso pode ficar um pouco desequilibrado, mas vamos perguntar: haverá
00:03:26outra guerra? Ele diz que não acha que haverá outra guerra na Europa e eu não
00:03:31tenho coragem de dizer a ele o quão errado ele está. Também estou curioso agora sobre o que ele pensa de
00:03:35um certo homem austríaco. É, esta resposta é terrível. Diz que ele será uma personalidade
00:03:39extraordinária e também, aqui embaixo, que a Alemanha terá uma administração muito mais eficiente
00:03:44quando ele estiver liderando. Sinceramente, sem palavras, não. Agora, os pesquisadores obviamente fazem isso de uma forma
00:03:50muito mais científica do que eu acabei de fazer. Eles realmente calcularam o nível de surpresa
00:03:54de descrições curtas de eventos históricos tiradas da seção “Neste Dia” do New York Times.
00:03:59Durante isso, você pode ver um aumento na surpresa após o limite de conhecimento de 1931 e ela atinge o pico
00:04:04nas décadas de 50 e 60. Então, ele descobriu que esses eventos são bem inacreditáveis.
00:04:09Pesquisas como esta permitem que eles vejam como o desempenho de previsão melhora com o tamanho do modelo e também
00:04:13como decai ao longo dos horizontes. Você também pode usar isso para testar se os modelos são capazes de criar
00:04:17novas ideias, porque você pode perguntar sobre patentes ou artigos que foram criados após 1931
00:04:22e ver se ele consegue descobri-los por conta própria. No geral, esses modelos vintage podem permitir que os pesquisadores
00:04:26distingam quanto do comportamento de um modelo vem realmente do conjunto de dados em que foi treinado,
00:04:30e falando em treinamento, criar um modelo puro de 1931 não é tarefa fácil. Um dos problemas
00:04:36mais difíceis é o vazamento temporal, ou seja, você não quer que informações de depois de 1931 sejam incluídas.
00:04:41O Torquay, por exemplo, parece ter alguns casos disso, onde ele sabe quem era o presidente
00:04:45em 1936 e também algumas das políticas que ele criou. Existem várias maneiras
00:04:50disso ter acontecido. Por exemplo, ao lidar com documentos modernos, as digitalizações dos
00:04:54documentos mais antigos podem simplesmente ter os metadados errados anexados, apresentando a
00:04:58data errada. Também pode haver adições posteriores, como introduções editoriais e notas de rodapé.
00:05:03Essa filtragem de dados é algo em que ainda estão trabalhando e refinando para tentar
00:05:07eliminar o problema. O outro problema que tiveram é que os documentos de 1931 se parecem com isto,
00:05:11e embora o OCR seja muito bom hoje em dia, eles só atingiram 30% do desempenho de
00:05:16um modelo treinado em versões transcritas por humanos do mesmo texto. Então, isso exigirá
00:05:21muito trabalho manual e, embora tenham usado regex para limpar alguns dos erros comuns,
00:05:25isso só elevou o desempenho para 70%. Então, eles estão trabalhando em um novo sistema
00:05:30de OCR vintage. Por fim, também é um desafio enorme fazer o pós-treinamento de um modelo vintage porque
00:05:35não existem dados de pós-treinamento prontos para eles e, se usarem um moderno, acabarão
00:05:39incorporando um pouco do conhecimento, estilo e expressões de como um assistente de chat moderno
00:05:43deveria ser. Portanto, os pesquisadores tiveram que criar os seus próprios a partir de manuais de etiqueta antigos,
00:05:48manuais de redação de cartas, livros de receitas, dicionários, enciclopédias e até poesia e fábulas. Uma vez
00:05:53feito isso, no entanto, você também precisa treinar o modelo para seguir instruções e
00:05:56realmente conversar. Portanto, é preciso usar um pouco de aprendizagem por reforço. Mas o problema com
00:06:00isso é que o modelo começa a ajustar sua saída ao que o juiz deseja e nós não
00:06:04temos um juiz da década de 1930. Então, eles usaram o Claude Sonnet 4.6. O problema, porém,
00:06:10é que um modelo moderno gosta de suas respostas no formato de um chatbot de 2026. Então, os estilos aparentemente
00:06:15começaram a vazar para o modelo de 1931, como as listicles. Isso é quase inevitável, mas eles
00:06:21esperam que, no futuro, possam usar modelos baseados em vintage como juízes para corrigir isso. Eles
00:06:25já estão treinando um modelo vintage de nível GPT-3 e dizem que um trilhão de tokens de
00:06:29textos históricos é realmente alcançável, o que os colocaria na capacidade original do ChatGPT,
00:06:35apenas com o conhecimento da década de 1930. Então, vá testar o Torquay e me conte nos comentários se
00:06:39você obtiver alguma resposta estranha ou insana; aproveite para se inscrever e, como sempre, nos vemos
00:06:43no próximo vídeo.
00:06:45[Música]

Key Takeaway

O desenvolvimento do modelo Torquay de 13 bilhões de parâmetros prova que IAs treinadas com dados isolados pré-1931 conseguem aprender habilidades modernas como programação, servindo como uma ferramenta pura para medir a capacidade de raciocínio real sem a contaminação da internet atual.

Highlights

  • O Torquay é um modelo de linguagem de 13 bilhões de parâmetros treinado exclusivamente em 260 bilhões de tokens de textos anteriores a 1931.

  • Modelos vintage evitam a contaminação de dados da web moderna, permitindo testar se uma IA realmente raciocina ou apenas memoriza respostas do Reddit.

  • A IA demonstrou capacidade de aprender lógica de programação em Python, apesar de seu conjunto de dados original definir computador apenas como um humano que faz cálculos.

  • O desempenho de modelos treinados em documentos digitalizados antigos (OCR) atinge apenas 30% da eficácia de modelos baseados em transcrições humanas.

  • Pesquisadores utilizam manuais de etiqueta e livros de receitas da década de 1930 para realizar o pós-treinamento sem inserir gírias ou estilos de escrita modernos.

Timeline

A vida em 2026 sob a perspectiva de 1930

  • Previsões de 1930 imaginam um ano de 2026 marcado pela paz global e pelo fim total de crimes e roubos.
  • A arte de voar é vista como o motor para a ocupação de todas as partes habitáveis do planeta.
  • O domínio completo da ciência e da arte de curar garante uma vida agradável e fácil para a humanidade.

As previsões baseadas no conhecimento da época projetam um mundo utópico onde o conflito entre nações deixou de existir. A expectativa era de que o progresso tecnológico e científico transformaria os seres humanos em vizinhos honestos. Esse cenário reflete o otimismo tecnológico do início do século XX antes de grandes conflitos mundiais posteriores.

Arquitetura e propósito da IA Torquay

  • O conjunto de dados é limitado ao final de 1930 para respeitar as leis de direitos autorais dos EUA.
  • O treinamento utiliza jornais, patentes e revistas científicas históricos para garantir o isolamento temporal.
  • Modelos vintage servem como controle científico para identificar se o comportamento da IA vem do raciocínio ou da memorização de dados modernos.

Desenvolvido por pesquisadores envolvidos em projetos como GPT e Dall-E, o Torquay opera com 13 bilhões de parâmetros. Ele ignora eventos fundamentais da história moderna, como a Segunda Guerra Mundial, por ter 1931 como data de corte. Esse isolamento é intencional para verificar como a IA processa informações sem o viés de discussões online atuais ou conteúdos gerados por outras máquinas.

Capacidade de aprendizado e testes de lógica

  • O modelo confunde termos modernos como internet com impostos de receita interna (Internal Revenue) da época.
  • A IA aprendeu a inverter funções lógicas em Python após receber poucos exemplos no contexto.
  • O Torquay entende que decodificar uma função de adição exige a aplicação de uma subtração.

Embora o modelo defina computador como um cargo humano, ele demonstra flexibilidade cognitiva ao lidar com linguagens de programação inexistentes em seu tempo. Em testes do HumanEval, ele obteve sucesso em tarefas simples de uma linha de código. O resultado prova que a base de conhecimento histórica é suficiente para que o modelo desenvolva compreensão de funções inversas e lógica estruturada.

Previsões históricas e métricas de surpresa

  • A IA falha ao prever a estabilidade política europeia e elogia figuras históricas que se tornariam ditadores.
  • O nível de surpresa do modelo atinge o pico com eventos das décadas de 1950 e 1960.
  • Pesquisadores testam a criação de novas ideias pedindo que a IA deduza patentes registradas após seu limite de conhecimento.

Ao ser questionada sobre o futuro, a IA expressa opiniões baseadas na geopolítica de 1930, muitas vezes com resultados imprecisos ou ofensivos para os padrões atuais. A análise científica utiliza descrições do New York Times para medir a perplexidade do modelo diante de fatos reais. Esse método quantifica quão inacreditável o futuro se tornou em relação às expectativas baseadas apenas em dados históricos.

Desafios técnicos na construção de modelos puros

  • O vazamento temporal ocorre devido a metadados errados em documentos digitalizados ou notas editoriais modernas.
  • O uso de Regex e limpeza de dados manual elevou o desempenho de OCR de 30% para 70%.
  • O treinamento de reforço corre o risco de introduzir o estilo de escrita de chatbots modernos nas respostas vintage.

Garantir que nenhuma informação pós-1931 entre no sistema exige uma filtragem rigorosa de digitalizações e transcrições. O uso de modelos modernos como o Claude para julgar as respostas do Torquay acabou vazando estilos atuais, como a criação de listas. O objetivo futuro é utilizar versões de nível GPT-3 treinadas com um trilhão de tokens históricos para alcançar a capacidade de conversação do ChatGPT original sem sair da década de 1930.

Community Posts

View all posts