Transcript
00:00:00Algumas horas atrás, houve um anúncio bem grande. Ou um hype bem grande. Nós ainda
00:00:06não sabemos e eu com certeza não descartaria a parte do hype. A parte do hype sem sentido. Mas se for
00:00:13verdade, é de fato um grande anúncio. Porque Alexander Wedin, que eu não conhecia e você provavelmente
00:00:20também não, anunciou o sub-q, que significa sub-quadrático, um grande avanço na inteligência
00:00:28dos LLMs. E o que ele anunciou aqui é um tipo totalmente novo de modelo de linguagem gigante que se destaca em
00:00:36tarefas de contexto longo sem perder — pelo menos é o que ele afirma — sem perder a "inteligência"
00:00:45— entre aspas, os modelos estão gerando tokens, mas é isso que lhes dá inteligência no final — então
00:00:52sem perder a inteligência com a qual você está acostumado nos modelos de ponta atuais, como o Opus 4.7,
00:00:59GPT 5.5 e assim por diante. Agora, o que ele menciona na publicação de anúncio no X — e também
00:01:04há uma publicação de anúncio no blog com mais detalhes técnicos, que nós vamos analisar
00:01:08porque vamos nos aprofundar neste episódio e vídeo aqui — o que ele anuncia aqui é um modelo que é
00:01:16muito mais rápido ao fazer inferência em tarefas com contexto de um milhão de tokens e custa muito menos. Cinco por cento
00:01:26do que o Opus custa. Ele também promete que o modelo inicial deles terá uma janela de contexto
00:01:35de 12 milhões de tokens, o que, só para colocar esse número em perspectiva, significa que você pode colocar bases de código inteiras,
00:01:42bases de código enormes dentro dessa janela de contexto. Você pode colocar vários documentos jurídicos grandes lá dentro e
00:01:49é por isso, é claro, que modelos como este, se existirem e funcionarem, podem ser super úteis e totalmente
00:01:57revolucionários. Não há outra forma de dizer. Se funcionarem — ainda não temos muitos detalhes,
00:02:02voltarei a isso — mas se funcionarem, isso significa, claro, que todas as soluções alternativas que estamos
00:02:08usando agora, como subagentes, RAG e assim por diante, que são apenas contornos para o problema de que
00:02:15o modelo só vê uma pequena parte daquilo que deveria ver. Portanto, se você estiver trabalhando em uma base de código,
00:02:22os modelos de ponta existentes, dependendo do tamanho da sua base de código, não conseguem ver toda a base de código.
00:02:28Eles não conseguem carregar toda a base de código. Então, se você pedir para ele alterar algo, precisa torcer
00:02:33para que o modelo encontre as partes certas na sua base de código para fazer a alteração que você pediu.
00:02:40E isso, claro, se torna cada vez mais um problema quanto maior for a base de código ou maior
00:02:45for a quantidade de documentos em que você deseja que o modelo trabalhe. Portanto, se você tiver um modelo que possa usar
00:02:52com segurança uma janela de contexto de 12 milhões de tokens com boa qualidade, isso naturalmente seria um divisor de águas.
00:02:59Falando em revolucionário, nós vamos nos aprofundar neste vídeo e eu vou me aprofundar em todos os meus cursos. Então,
00:03:06se você estiver interessado em aprender como usar na prática ferramentas como Claude Code, Codex, outras tarefas de IA
00:03:13ou programação, ou a combinação de tudo isso, talvez valha a pena dar uma olhada nos meus cursos. Eles são práticos,
00:03:19são interativos, são aprofundados, e você pode adquirir os cursos individuais ou a assinatura,
00:03:24que lhe dá acesso a todos os cursos por um preço mensal ou anual. Links abaixo.
00:03:31Então, vamos nos aprofundar um pouco mais agora. E, como mencionado, há uma publicação de anúncio no blog com
00:03:36alguns detalhes técnicos, mas não muitos, para sermos bem claros aqui. Há muitas informações faltando,
00:03:43e também não temos muitos benchmarks. Especificamente, eles só publicaram três
00:03:49benchmarks. O benchmark Ruler, que testa comportamentos de recuperação e raciocínio além da simples
00:03:56busca direta, incluindo recuperação multi-hop, agregação, rastreamento de variáveis e filtragem
00:04:01seletiva. Portanto, esse é um benchmark que, no fim das contas, serve para verificar se um modelo encontra várias partes
00:04:06de informações relevantes em uma janela de contexto relativamente grande. 128.000 tokens. Ou seja, não é uma janela de contexto
00:04:15super grande, não chega nem perto dos 12 milhões que prometeram, mas também não é de apenas 5K.
00:04:22Então, este é um benchmark que testa o quão bem um modelo consegue encontrar e juntar diferentes partes de uma
00:04:28janela de contexto ou base de documentos mais ou menos grande. E aqui o modelo deles está no mesmo nível que o
00:04:36OPUS 4.6. Naquela publicação, eles também mencionaram outro benchmark, o benchmark MRCRv2, que também é sobre tarefas
00:04:45de recuperação de contexto longo, onde o modelo deles está na faixa, como afirmaram, do OPUS 4.6. Embora,
00:04:53sim, esteja na faixa se você olhar para todos os outros resultados aqui, mas é definitivamente pior.
00:05:00O que, claro, é interessante, já que toda a proposta deles é a recuperação de contexto longo aqui. Mas,
00:05:07por outro lado, claro, você também poderia argumentar que para casos de uso de janelas de contexto super longas, os outros
00:05:15modelos nem sequer são utilizáveis, enquanto o deles ainda pode apresentar resultados muito bons, o que pode ser
00:05:22melhor do que nada. E, claro, os modelos deles também podem melhorar com o tempo. Então, eu não
00:05:29consideraria isso um sinal super ruim para o modelo inicial. É apenas algo que vale a pena notar. E, de
00:05:35fato, também vale notar que é muito melhor do que o Gemini 3.1 Pro, por exemplo, ou o OPUS 4.7 naquela tabela.
00:05:43E eles também divulgaram um benchmark, que achei interessante, focado em tarefas relacionadas à programação.
00:05:49Agora, devo dizer que todos esses benchmarks... eu não sou um grande fã deles. Todos nós sabemos
00:05:56que eles podem ser manipulados, pelo menos muitos deles podem, e que os modelos podem ser deliberada ou involuntariamente
00:06:05ajustados ou otimizados para ter um bom desempenho em benchmarks. Tivemos muitos casos assim no passado,
00:06:12mas, ainda assim, eles nos dão algo para analisar. E eu acho este benchmark de engenharia de software
00:06:20interessante, porque aqui podemos ver que o modelo deles está bem na faixa dos modelos
00:06:27OPUS. E isso, claro, mostra que ele não é apenas capaz de encontrar informações em janelas de contexto
00:06:36longo, em muitos documentos e grandes bases de código, mas que também é capaz de fazer algo útil com isso,
00:06:42que é capaz de gerar códigos bons e significativos como resultado de sua inteligência e dos dados que ele
00:06:50consegue recuperar nessas janelas de contexto longo, por assim dizer. Então não se trata apenas de recuperar,
00:06:54trata-se também de fazer coisas úteis. E ele parece ser bom nisso. Mas, como mencionado, é basicamente isso.
00:07:00Não temos outras análises profundas ou detalhes técnicos. Ainda não há um model card. E, portanto,
00:07:09tudo o que temos é uma descrição, essencialmente, de como o modelo deles usa atenção esparsa em vez de atenção
00:07:16densa para fazer com que essas tarefas de contexto longo funcionem ou para fazer o modelo funcionar de forma eficiente
00:07:22em cenários de janelas de contexto longo, e como o modelo alcança seu aumento de velocidade e sua eficiência de custo,
00:07:29já que ele é mais rápido e mais barato, certo? Foi isso que eles anunciaram. Então, vamos dar uma olhada na
00:07:37atenção densa versus a atenção esparsa para entender o que está acontecendo aqui. Bem, a atenção densa
00:07:45é o que você tem nos modelos de ponta atuais. Então, seu GPT 5.5, Opus 4.7, todos os outros modelos,
00:07:52todos esses são modelos densos, o que essencialmente significa que para cada novo token, digamos o token D,
00:07:58para gerar esse token, todos os outros tokens precisam ser avaliados e as conexões entre
00:08:08esses tokens precisam ser avaliadas, porque toda a ideia em grandes modelos de linguagem é que você
00:08:13deriva um token futuro, que pode ser uma palavra inteira ou parte de uma palavra, com base no que veio antes
00:08:20daquele token. Então, se você tiver, por exemplo, uma frase como "um contrato pode ser rescindido a qualquer..."
00:08:28então a próxima palavra depois disso é o que você quer prever. Você pode ter perguntado a um modelo: "Ei,
00:08:35quando posso rescindir meu contrato?" E você pode ter fornecido esse contrato como um documento PDF ou como texto
00:08:42puro no seu prompt também. Portanto, o prompt antes dessa frase, que o modelo está
00:08:48gerando como resposta, é a sua pergunta e talvez algum outro contexto. O contrato, por
00:08:57exemplo, certo? É assim que usamos os modelos atualmente. E para produzir este token aqui,
00:09:03e para produzir cada token que veio antes dele, o modelo basicamente deu uma olhada em toda a
00:09:10conversa, em todos os tokens nela. Ou seja, a sua pergunta e qualquer contexto adicional
00:09:16que você tenha colocado lá. E ele dividiu isso em múltiplos tokens e depois combinou todos esses tokens ou
00:09:23calculou pesos no final com base em todas as combinações dos tokens anteriores. Então, por exemplo,
00:09:30se essa fosse toda a nossa conversa, obviamente curta de propósito, é um exemplo, então seria assim
00:09:38que ela teria sido dividida em tokens para os modelos GPT-5, por exemplo. Alguns tokens são
00:09:46apenas uma palavra, ou uma palavra com um espaço em branco na frente. Alguns tokens são apenas caracteres especiais.
00:09:51E para gerar o próximo token, todos os tokens anteriores são, no final, combinados uns com
00:09:58os outros para entender o significado no fim das contas. Porque, claro, um ponto de interrogação tem um significado
00:10:05e uma implicação muito diferente para um token futuro, dependendo do que veio antes desse
00:10:11ponto de interrogação. Portanto, esse ponto de interrogação é combinado com todos os tokens anteriores. E é a combinação
00:10:17de todas essas combinações, no final, que é usada para derivar aquele token final. Isso é, em um
00:10:22nível muito alto, como você pode pensar sobre a atenção densa e como ela funciona. Agora, naturalmente,
00:10:29isso é muito ineficiente, mas é meio que o melhor que temos no momento, pelo menos no que diz respeito à
00:10:36inteligência e à qualidade da resposta. Mas é quadrático porque é N vezes N,
00:10:44o que significa que, para derivar um novo token, temos que combinar todos os tokens anteriores. Existem
00:10:49mecanismos de otimização como o KV caching, que no final armazena em cache os resultados dos pesos calculados
00:10:56no passado. De modo que, para um novo token, você não precisa recalcular
00:11:01todas as combinações anteriores, mas ainda precisa calcular esse novo token comparando-o com todos
00:11:08os pesos anteriores armazenados no cache. Então você ainda acaba nessa situação quadrática aqui. E isso, claro,
00:11:16é ineficiente e lento, e é por isso que esses modelos de ponta que temos agora consomem muita computação e são
00:11:24lentos, especialmente quando você entra em áreas de janela de contexto maiores, e é por isso que existem limites
00:11:31de tamanho de janela de contexto bastante rigorosos. Como é quadrático, é claro que um tamanho de janela de contexto
00:11:38de 12 milhões é praticamente impossível de computar. Levaria uma eternidade, e o tempo de computação é apenas uma
00:11:46dimensão, a memória que deve ser reservada é outra. Então é assim que os modelos densos funcionam em resumo
00:11:54e quais são as suas limitações. Agora, a abordagem oposta ou alternativa que é usada por esse
00:12:00novo modelo, o modelo sub-q anunciado ontem, é usar atenção esparsa. E
00:12:06como funciona a atenção esparsa? A ideia com a atenção esparsa é que, para calcular um novo
00:12:14token, você não olha para todos os tokens anteriores, você não faz as combinações de todos os tokens
00:12:20anteriores, mas apenas de alguns tokens selecionados. Então, por exemplo, se você quiser derivar o token D aqui,
00:12:28você pode estar olhando apenas para B e C, mas não para A. Agora, claro, a grande questão então é:
00:12:33como você decide para quais tokens anteriores olhar ou quais tokens anteriores são interessantes para
00:12:40produzir esse novo token. E existem diferentes abordagens que foram usadas no passado, porque
00:12:46este novo modelo não é o primeiro modelo de atenção esparsa. Mas a razão pela qual eles realmente não
00:12:52decolaram até aqui é que eles têm limitações sérias. Por exemplo, uma maneira é usar uma
00:12:59abordagem de janela local. E o que isso significa? Significa que, para produzir um novo token,
00:13:06digamos o token número cinco, o quinto token em uma sequência, nós damos uma olhada em, digamos,
00:13:13apenas os dois tokens anteriores a ele. Ou seja, três mais quatro, por exemplo. Então você tem uma janela deslizante de tokens
00:13:22e sempre olha apenas para os tokens que estão imediatamente antes do token que você está prestes a gerar. Agora,
00:13:27como você pode imaginar, isso tem algumas limitações sérias porque, se eu estiver olhando apenas para os últimos
00:13:33poucos tokens, se eu, por exemplo, quiser saber quando um contrato pode ser rescindido, a informação
00:13:39pode estar aqui no contexto extra que passei no prompt, mas não fará parte daquela janela local
00:13:45se a janela local for apenas os últimos poucos tokens, por exemplo. Portanto, o próximo token que está prestes a ser
00:13:50previsto não tem ideia do que estava antes naquele contexto. Então, isso não é útil. Você pode ter um tamanho
00:13:55de janela de contexto ilimitado com essa abordagem, mas todo o resto do contexto não importa. Essa é uma limitação óbvia.
00:14:01Outra abordagem é a chamada abordagem de token global. Aqui, a ideia é que você
00:14:09tenha um token de resumo global. Em um nível geral, você pode pensar nisso como um token especial que vem
00:14:16no início da sequência de tokens, que é inserido no início da sequência de tokens
00:14:20pelo modelo, por assim dizer, e que resume os tokens que vêm depois dele. É mais ou menos assim que você pode pensar.
00:14:27E então, para prever o próximo token, esse token global é levado em consideração. Bem, isso pode funcionar
00:14:34muito bem se voltarmos a este exemplo aqui com o texto jurídico que você pode ter passado para um modelo
00:14:40no seu prompt. Se aquele resumo que foi gerado aqui para a sua conversa incluir os
00:14:46termos de rescisão do contrato, por exemplo, então, claro, este próximo token pode ser previsto muito bem
00:14:53com base nesse resumo. Mas se você não tiver sorte e o resumo não incluir esses detalhes,
00:15:00bem, então você está sem sorte e volta ao estado em que a informação está totalmente ausente.
00:15:04Portanto, uma abordagem de token global pode funcionar, mas, claro, quanto mais longa for a sua janela de contexto,
00:15:12mais genérico o resumo se torna. Quero dizer, é fácil de imaginar. Se você tiver um
00:15:16documento PDF de cem páginas e fosse resumir isso em uma frase ou duas, seria muito
00:15:22vago, certo? Então, claro, prever o próximo token com base nesse resumo não vai funcionar muito bem.
00:15:29Agora, outra abordagem seria usar um roteador, que consiste em ter uma rede neural
00:15:37adicional. Você tem dois modelos, essencialmente: seu modelo de linguagem gigante e, depois, um modelo
00:15:43de roteamento extra. E esse modelo de roteamento dá uma olhada no prompt do usuário ou no contexto do
00:15:51próximo token a ser gerado e então encaminha esse token, por assim dizer, para os outros tokens que ele considera
00:15:59relevantes. Mas isso, claro, significa que agora você tem um modelo de roteamento que de alguma forma precisa
00:16:04acompanhar todos os outros tokens que vêm depois dele. Então isso provavelmente volta para a área da atenção
00:16:10quadrática ou é muito impreciso e você fica dependente disso. Então, ou você volta para
00:16:17a complexidade quadrática e não ganha tanto em comparação com um modelo denso, ou não faz
00:16:23isso e provavelmente terá alguma perda porque o roteador não é muito bom. Portanto, assim como no
00:16:30caso do resumo, você estaria esperando que o roteador faça um bom trabalho e ative os tokens certos para
00:16:37prever o próximo token. E é por isso que a atenção esparsa é interessante, mas não decolou
00:16:46muito até agora, porque todas essas diferentes abordagens têm compensações significativas e, até o momento,
00:16:54pelo que sei, não houve um modelo de atenção esparsa que tenha produzido
00:17:00qualidade igual ou comparável aos modelos densos de ponta atuais e que fosse capaz de atuar em uma grande
00:17:07janela de contexto. E eles prometem mudar isso com o novo modelo deles. Naquela publicação de anúncio no blog,
00:17:14eles mencionam que o modelo deles faz seleção dependente de conteúdo. Para cada consulta, o modelo seleciona quais
00:17:22partes da sequência valem a pena receber atenção e calcula a atenção exatamente sobre essas posições. Então,
00:17:28no final das contas, voltamos a essa abordagem de roteamento, mas eles meio que prometem aqui, mencionam aqui,
00:17:35que o mecanismo deles parece ser muito eficiente para ativar os tokens corretos para prever
00:17:43o próximo token. Eles mencionam que a atenção densa assume que todo par pode importar, então avalia
00:17:49todos eles. Na prática, quase nenhum importa. SSA, que significa atenção seletiva sub-quadrática
00:17:55(sub-quadratic selective attention), que é a abordagem deles, remove essa suposição. Ela não faz uma aproximação da atenção. Ela restringe
00:18:01a atenção às posições que realmente carregam sinal e ignora o resto. Essa é a abordagem deles.
00:18:08Eles estão fazendo um roteamento dependente de conteúdo para ativar os tokens corretos ou para usar os tokens corretos para
00:18:14prever o próximo token, e é isso que lhes dá esse aumento de eficiência. E ainda precisamos ver
00:18:21o quão bem isso realmente funciona porque, como mencionado, temos um subconjunto muito limitado de benchmarks aqui.
00:18:30Não há muitos outros ou nenhum outro benchmark. Não temos um model card. Não temos detalhes sobre como exatamente
00:18:36funciona a seleção dependente de conteúdo deles e, portanto, temos muitos pontos de interrogação aqui.
00:18:42E se há uma coisa que definitivamente aprendemos ao longo dos últimos meses e anos é que
00:18:49a IA é obviamente uma ferramenta útil e eu a utilizo todos os dias. Você provavelmente a utiliza todos os dias e
00:18:57ferramentas como Codex ou Claude Code são muito úteis. Não tenho dúvidas sobre isso e, bem, essa é a minha
00:19:04experiência com elas, mas também aprendemos que estamos em uma indústria com muito hype. Estamos em um
00:19:10período de transição. Tudo está mudando ou muita coisa está mudando no momento e, por isso, é claro que
00:19:16existem muitas promessas por toda parte e nem todas as promessas se realizam ou se materializam em
00:19:26algo realmente útil. Quero dizer, pegue os modelos da Meta, por exemplo, que eram modelos densos. Os modelos Llama 4
00:19:35tinham números de benchmark incríveis, mas não eram tão fantásticos na prática. Portanto, há muitos exemplos cheios de hype
00:19:42e esse é apenas um exemplo, é claro. Há muitos exemplos por aí. Com certeza vale a pena
00:19:49ser cauteloso, mas se eles publicarem esses modelos — e você pode solicitar acesso antecipado agora mesmo,
00:19:56eu solicitei, mas ainda não obtive acesso. Se esses modelos de fato cumprirem suas promessas, se forem úteis e
00:20:05inteligentes em tamanhos de janela de contexto grandes, isso, claro, vai mudar muita coisa. Isso vai ajudar com
00:20:13as restrições de computação que temos agora, porque não há nem de perto computação suficiente por aí
00:20:19no mundo. Precisamos de muito mais data centers, chips, eletricidade e tudo mais. Portanto, ter um modelo que
00:20:25é muito mais eficiente ajudaria com isso. Bem, talvez nós fôssemos usá-lo tanto a mais que o
00:20:33problema continuaria o mesmo, mas ainda assim ele definitivamente permitiria um maior uso no momento. E, claro, ele
00:20:40desbloquearia casos de uso totalmente novos. Tornaria possível simplesmente colocar uma base de código inteira
00:20:45lá dentro e agir sobre ela. Assim, todas essas soluções alternativas que estamos usando agora desapareceriam. Nós não
00:20:52precisaríamos necessariamente de subagentes. Não precisaríamos de sistemas RAG se isso funcionasse. Mas esse é um "se",
00:21:00é claro, e ainda precisamos ver se isso cumpre as grandes promessas que eles estão fazendo. Se cumprir,
00:21:07eles definitivamente fundaram uma empresa de bilhões, múltiplos bilhões ou trilhões de dólares ali.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video