Transcript
00:00:00E se você pudesse falar com alguém da década de 1930? Tipo, viagem no tempo? Bem, eu falei e
00:00:05pedi a eles que previssem como seria a vida em 2026.
00:00:08Eu acho que, no ano de 2026, a vida será agradável e fácil. Em primeiro lugar,
00:00:13o mundo será habitado por toda parte. Pois, a essa altura, as pessoas terão descoberto a
00:00:17arte de voar. Em seguida, todas as guerras terão cessado, pois as nações terão aprendido
00:00:21a viver em paz e amizade umas com as outras. Teremos adquirido conhecimento em todos os tipos
00:00:25de ciências e seremos perfeitamente qualificados na arte de curar. Seremos vizinhos honestos e bons,
00:00:29e os ladrões serão desconhecidos. Em suma, acho que o mundo será, no ano
00:00:342026, um lugar muito agradável para se viver.
00:00:36Acho que foram previsões muito legais, então é uma pena que apenas algumas delas
00:00:40tenham se tornado realidade, e falando em ser verdadeiro, talvez eu tenha mentido um pouco. Desculpe, mas eu
00:00:45não inventei a viagem no tempo. Em vez disso, este era na verdade o Torquay, que é um modelo de linguagem de
00:00:4913 bilhões de parâmetros treinado em textos anteriores a 1931, então ele nem sabe que houve
00:00:54uma Segunda Guerra Mundial, e ele dá algumas respostas verdadeiramente fascinantes, selvagens e ofensivas, e
00:00:59pode até ser ensinado a programar.
00:01:02Então, o Torquay aqui é o que se conhece como um modelo vintage, e o Torquay parece ser o maior
00:01:10desse tipo. Um dos pesquisadores nisso foi, na verdade, o autor principal da
00:01:14pesquisa GPT da OpenAI em 2018, que formou a base do ChatGPT. Ele também trabalhou no
00:01:19Dall-E e no Whisper, então é um currículo seriamente impressionante. O que eles fizeram foi uma rede de
00:01:2413 bilhões de parâmetros treinada exclusivamente em 260 bilhões de tokens de textos históricos em inglês,
00:01:30como jornais antigos, patentes, revistas científicas e livros. 1931 é o limite, aliás,
00:01:36porque o limite de direitos autorais dos EUA é o final de 1930, então eles não serão processados
00:01:40pelo “Rato Grande” por fazer isso. E além de serem divertidos de conversar, esses modelos vintage
00:01:44também servem a um propósito de pesquisa. Hoje, todos os grandes modelos como ChatGPT, Claude e Gemini,
00:01:49são todos treinados na web moderna, o que torna quase impossível saber se
00:01:53uma IA está realmente pensando e raciocinando, ou se apenas memorizou uma resposta de uma
00:01:57thread aleatória do Reddit, e essa thread provavelmente foi gerada por IA. Portanto, se usarmos um modelo que só
00:02:02conhece textos anteriores a 1931, ele não terá nada dessa contaminação. Vamos
00:02:07testar isso e perguntar algo como “o que é a internet?”. Aqui podemos ver que ele aparentemente
00:02:11confundiu a internet com o imposto de receita interna cobrado sobre artigos de consumo,
00:02:16então ele não tem ideia do que é a internet moderna. Outra coisa divertida é perguntar quais
00:02:20são as gírias populares. Aparentemente, em 1930 eram bosh, rot, bosh de novo, stuff, nonsense, fudge,
00:02:25gammon, humbug, brack, fla e ribaldry. Espero não ter dito nada rude. E
00:02:30o motivo pelo qual não ter contaminação é útil é porque permite que os pesquisadores entendam
00:02:33se a IA pode realmente aprender coisas novas, como aprender a programar. Este modelo nem sabe o que
00:02:38é um computador; para ele, é um humano que faz cálculos. Por isso é
00:02:43muito impressionante que, ao receber alguns exemplos de programas em Python, ele tenha conseguido aprender
00:02:47a escrever novos, mesmo que fossem apenas programas simples de uma linha. Ao usar alguns testes
00:02:52básicos de Python do HumanEval e fornecer funções aleatórias de Python em seu contexto, ele
00:02:56realmente conseguiu passar nesses testes algumas vezes em 100 tentativas. Neste caso,
00:03:01o Torquay entendeu corretamente que, para fazer a função de decodificação, ele simplesmente precisava trocar uma
00:03:05adição por uma subtração. Embora seja simples, isso mostra uma compreensão de funções inversas
00:03:09e isso é um conhecimento novo. Ele não tinha visto nada disso antes. Se você tentar a mesma coisa
00:03:13em um LLM moderno de tamanho semelhante, ele superará massivamente o Torquay, mas isso era
00:03:18bem óbvio. Outra coisa que os pesquisadores podem testar com esses modelos vintage é a capacidade
00:03:22de prever o futuro. Agora isso pode ficar um pouco desequilibrado, mas vamos perguntar: haverá
00:03:26outra guerra? Ele diz que não acha que haverá outra guerra na Europa e eu não
00:03:31tenho coragem de dizer a ele o quão errado ele está. Também estou curioso agora sobre o que ele pensa de
00:03:35um certo homem austríaco. É, esta resposta é terrível. Diz que ele será uma personalidade
00:03:39extraordinária e também, aqui embaixo, que a Alemanha terá uma administração muito mais eficiente
00:03:44quando ele estiver liderando. Sinceramente, sem palavras, não. Agora, os pesquisadores obviamente fazem isso de uma forma
00:03:50muito mais científica do que eu acabei de fazer. Eles realmente calcularam o nível de surpresa
00:03:54de descrições curtas de eventos históricos tiradas da seção “Neste Dia” do New York Times.
00:03:59Durante isso, você pode ver um aumento na surpresa após o limite de conhecimento de 1931 e ela atinge o pico
00:04:04nas décadas de 50 e 60. Então, ele descobriu que esses eventos são bem inacreditáveis.
00:04:09Pesquisas como esta permitem que eles vejam como o desempenho de previsão melhora com o tamanho do modelo e também
00:04:13como decai ao longo dos horizontes. Você também pode usar isso para testar se os modelos são capazes de criar
00:04:17novas ideias, porque você pode perguntar sobre patentes ou artigos que foram criados após 1931
00:04:22e ver se ele consegue descobri-los por conta própria. No geral, esses modelos vintage podem permitir que os pesquisadores
00:04:26distingam quanto do comportamento de um modelo vem realmente do conjunto de dados em que foi treinado,
00:04:30e falando em treinamento, criar um modelo puro de 1931 não é tarefa fácil. Um dos problemas
00:04:36mais difíceis é o vazamento temporal, ou seja, você não quer que informações de depois de 1931 sejam incluídas.
00:04:41O Torquay, por exemplo, parece ter alguns casos disso, onde ele sabe quem era o presidente
00:04:45em 1936 e também algumas das políticas que ele criou. Existem várias maneiras
00:04:50disso ter acontecido. Por exemplo, ao lidar com documentos modernos, as digitalizações dos
00:04:54documentos mais antigos podem simplesmente ter os metadados errados anexados, apresentando a
00:04:58data errada. Também pode haver adições posteriores, como introduções editoriais e notas de rodapé.
00:05:03Essa filtragem de dados é algo em que ainda estão trabalhando e refinando para tentar
00:05:07eliminar o problema. O outro problema que tiveram é que os documentos de 1931 se parecem com isto,
00:05:11e embora o OCR seja muito bom hoje em dia, eles só atingiram 30% do desempenho de
00:05:16um modelo treinado em versões transcritas por humanos do mesmo texto. Então, isso exigirá
00:05:21muito trabalho manual e, embora tenham usado regex para limpar alguns dos erros comuns,
00:05:25isso só elevou o desempenho para 70%. Então, eles estão trabalhando em um novo sistema
00:05:30de OCR vintage. Por fim, também é um desafio enorme fazer o pós-treinamento de um modelo vintage porque
00:05:35não existem dados de pós-treinamento prontos para eles e, se usarem um moderno, acabarão
00:05:39incorporando um pouco do conhecimento, estilo e expressões de como um assistente de chat moderno
00:05:43deveria ser. Portanto, os pesquisadores tiveram que criar os seus próprios a partir de manuais de etiqueta antigos,
00:05:48manuais de redação de cartas, livros de receitas, dicionários, enciclopédias e até poesia e fábulas. Uma vez
00:05:53feito isso, no entanto, você também precisa treinar o modelo para seguir instruções e
00:05:56realmente conversar. Portanto, é preciso usar um pouco de aprendizagem por reforço. Mas o problema com
00:06:00isso é que o modelo começa a ajustar sua saída ao que o juiz deseja e nós não
00:06:04temos um juiz da década de 1930. Então, eles usaram o Claude Sonnet 4.6. O problema, porém,
00:06:10é que um modelo moderno gosta de suas respostas no formato de um chatbot de 2026. Então, os estilos aparentemente
00:06:15começaram a vazar para o modelo de 1931, como as listicles. Isso é quase inevitável, mas eles
00:06:21esperam que, no futuro, possam usar modelos baseados em vintage como juízes para corrigir isso. Eles
00:06:25já estão treinando um modelo vintage de nível GPT-3 e dizem que um trilhão de tokens de
00:06:29textos históricos é realmente alcançável, o que os colocaria na capacidade original do ChatGPT,
00:06:35apenas com o conhecimento da década de 1930. Então, vá testar o Torquay e me conte nos comentários se
00:06:39você obtiver alguma resposta estranha ou insana; aproveite para se inscrever e, como sempre, nos vemos
00:06:43no próximo vídeo.
00:06:45[Música]