Hype ou divisor de águas? | Análise Profunda

MMaximilian Schwarzmüller
컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00Algumas horas atrás, houve um anúncio bem grande. Ou um hype bem grande. Nós ainda
00:00:06não sabemos e eu com certeza não descartaria a parte do hype. A parte do hype sem sentido. Mas se for
00:00:13verdade, é de fato um grande anúncio. Porque Alexander Wedin, que eu não conhecia e você provavelmente
00:00:20também não, anunciou o sub-q, que significa sub-quadrático, um grande avanço na inteligência
00:00:28dos LLMs. E o que ele anunciou aqui é um tipo totalmente novo de modelo de linguagem gigante que se destaca em
00:00:36tarefas de contexto longo sem perder — pelo menos é o que ele afirma — sem perder a "inteligência"
00:00:45— entre aspas, os modelos estão gerando tokens, mas é isso que lhes dá inteligência no final — então
00:00:52sem perder a inteligência com a qual você está acostumado nos modelos de ponta atuais, como o Opus 4.7,
00:00:59GPT 5.5 e assim por diante. Agora, o que ele menciona na publicação de anúncio no X — e também
00:01:04há uma publicação de anúncio no blog com mais detalhes técnicos, que nós vamos analisar
00:01:08porque vamos nos aprofundar neste episódio e vídeo aqui — o que ele anuncia aqui é um modelo que é
00:01:16muito mais rápido ao fazer inferência em tarefas com contexto de um milhão de tokens e custa muito menos. Cinco por cento
00:01:26do que o Opus custa. Ele também promete que o modelo inicial deles terá uma janela de contexto
00:01:35de 12 milhões de tokens, o que, só para colocar esse número em perspectiva, significa que você pode colocar bases de código inteiras,
00:01:42bases de código enormes dentro dessa janela de contexto. Você pode colocar vários documentos jurídicos grandes lá dentro e
00:01:49é por isso, é claro, que modelos como este, se existirem e funcionarem, podem ser super úteis e totalmente
00:01:57revolucionários. Não há outra forma de dizer. Se funcionarem — ainda não temos muitos detalhes,
00:02:02voltarei a isso — mas se funcionarem, isso significa, claro, que todas as soluções alternativas que estamos
00:02:08usando agora, como subagentes, RAG e assim por diante, que são apenas contornos para o problema de que
00:02:15o modelo só vê uma pequena parte daquilo que deveria ver. Portanto, se você estiver trabalhando em uma base de código,
00:02:22os modelos de ponta existentes, dependendo do tamanho da sua base de código, não conseguem ver toda a base de código.
00:02:28Eles não conseguem carregar toda a base de código. Então, se você pedir para ele alterar algo, precisa torcer
00:02:33para que o modelo encontre as partes certas na sua base de código para fazer a alteração que você pediu.
00:02:40E isso, claro, se torna cada vez mais um problema quanto maior for a base de código ou maior
00:02:45for a quantidade de documentos em que você deseja que o modelo trabalhe. Portanto, se você tiver um modelo que possa usar
00:02:52com segurança uma janela de contexto de 12 milhões de tokens com boa qualidade, isso naturalmente seria um divisor de águas.
00:02:59Falando em revolucionário, nós vamos nos aprofundar neste vídeo e eu vou me aprofundar em todos os meus cursos. Então,
00:03:06se você estiver interessado em aprender como usar na prática ferramentas como Claude Code, Codex, outras tarefas de IA
00:03:13ou programação, ou a combinação de tudo isso, talvez valha a pena dar uma olhada nos meus cursos. Eles são práticos,
00:03:19são interativos, são aprofundados, e você pode adquirir os cursos individuais ou a assinatura,
00:03:24que lhe dá acesso a todos os cursos por um preço mensal ou anual. Links abaixo.
00:03:31Então, vamos nos aprofundar um pouco mais agora. E, como mencionado, há uma publicação de anúncio no blog com
00:03:36alguns detalhes técnicos, mas não muitos, para sermos bem claros aqui. Há muitas informações faltando,
00:03:43e também não temos muitos benchmarks. Especificamente, eles só publicaram três
00:03:49benchmarks. O benchmark Ruler, que testa comportamentos de recuperação e raciocínio além da simples
00:03:56busca direta, incluindo recuperação multi-hop, agregação, rastreamento de variáveis e filtragem
00:04:01seletiva. Portanto, esse é um benchmark que, no fim das contas, serve para verificar se um modelo encontra várias partes
00:04:06de informações relevantes em uma janela de contexto relativamente grande. 128.000 tokens. Ou seja, não é uma janela de contexto
00:04:15super grande, não chega nem perto dos 12 milhões que prometeram, mas também não é de apenas 5K.
00:04:22Então, este é um benchmark que testa o quão bem um modelo consegue encontrar e juntar diferentes partes de uma
00:04:28janela de contexto ou base de documentos mais ou menos grande. E aqui o modelo deles está no mesmo nível que o
00:04:36OPUS 4.6. Naquela publicação, eles também mencionaram outro benchmark, o benchmark MRCRv2, que também é sobre tarefas
00:04:45de recuperação de contexto longo, onde o modelo deles está na faixa, como afirmaram, do OPUS 4.6. Embora,
00:04:53sim, esteja na faixa se você olhar para todos os outros resultados aqui, mas é definitivamente pior.
00:05:00O que, claro, é interessante, já que toda a proposta deles é a recuperação de contexto longo aqui. Mas,
00:05:07por outro lado, claro, você também poderia argumentar que para casos de uso de janelas de contexto super longas, os outros
00:05:15modelos nem sequer são utilizáveis, enquanto o deles ainda pode apresentar resultados muito bons, o que pode ser
00:05:22melhor do que nada. E, claro, os modelos deles também podem melhorar com o tempo. Então, eu não
00:05:29consideraria isso um sinal super ruim para o modelo inicial. É apenas algo que vale a pena notar. E, de
00:05:35fato, também vale notar que é muito melhor do que o Gemini 3.1 Pro, por exemplo, ou o OPUS 4.7 naquela tabela.
00:05:43E eles também divulgaram um benchmark, que achei interessante, focado em tarefas relacionadas à programação.
00:05:49Agora, devo dizer que todos esses benchmarks... eu não sou um grande fã deles. Todos nós sabemos
00:05:56que eles podem ser manipulados, pelo menos muitos deles podem, e que os modelos podem ser deliberada ou involuntariamente
00:06:05ajustados ou otimizados para ter um bom desempenho em benchmarks. Tivemos muitos casos assim no passado,
00:06:12mas, ainda assim, eles nos dão algo para analisar. E eu acho este benchmark de engenharia de software
00:06:20interessante, porque aqui podemos ver que o modelo deles está bem na faixa dos modelos
00:06:27OPUS. E isso, claro, mostra que ele não é apenas capaz de encontrar informações em janelas de contexto
00:06:36longo, em muitos documentos e grandes bases de código, mas que também é capaz de fazer algo útil com isso,
00:06:42que é capaz de gerar códigos bons e significativos como resultado de sua inteligência e dos dados que ele
00:06:50consegue recuperar nessas janelas de contexto longo, por assim dizer. Então não se trata apenas de recuperar,
00:06:54trata-se também de fazer coisas úteis. E ele parece ser bom nisso. Mas, como mencionado, é basicamente isso.
00:07:00Não temos outras análises profundas ou detalhes técnicos. Ainda não há um model card. E, portanto,
00:07:09tudo o que temos é uma descrição, essencialmente, de como o modelo deles usa atenção esparsa em vez de atenção
00:07:16densa para fazer com que essas tarefas de contexto longo funcionem ou para fazer o modelo funcionar de forma eficiente
00:07:22em cenários de janelas de contexto longo, e como o modelo alcança seu aumento de velocidade e sua eficiência de custo,
00:07:29já que ele é mais rápido e mais barato, certo? Foi isso que eles anunciaram. Então, vamos dar uma olhada na
00:07:37atenção densa versus a atenção esparsa para entender o que está acontecendo aqui. Bem, a atenção densa
00:07:45é o que você tem nos modelos de ponta atuais. Então, seu GPT 5.5, Opus 4.7, todos os outros modelos,
00:07:52todos esses são modelos densos, o que essencialmente significa que para cada novo token, digamos o token D,
00:07:58para gerar esse token, todos os outros tokens precisam ser avaliados e as conexões entre
00:08:08esses tokens precisam ser avaliadas, porque toda a ideia em grandes modelos de linguagem é que você
00:08:13deriva um token futuro, que pode ser uma palavra inteira ou parte de uma palavra, com base no que veio antes
00:08:20daquele token. Então, se você tiver, por exemplo, uma frase como "um contrato pode ser rescindido a qualquer..."
00:08:28então a próxima palavra depois disso é o que você quer prever. Você pode ter perguntado a um modelo: "Ei,
00:08:35quando posso rescindir meu contrato?" E você pode ter fornecido esse contrato como um documento PDF ou como texto
00:08:42puro no seu prompt também. Portanto, o prompt antes dessa frase, que o modelo está
00:08:48gerando como resposta, é a sua pergunta e talvez algum outro contexto. O contrato, por
00:08:57exemplo, certo? É assim que usamos os modelos atualmente. E para produzir este token aqui,
00:09:03e para produzir cada token que veio antes dele, o modelo basicamente deu uma olhada em toda a
00:09:10conversa, em todos os tokens nela. Ou seja, a sua pergunta e qualquer contexto adicional
00:09:16que você tenha colocado lá. E ele dividiu isso em múltiplos tokens e depois combinou todos esses tokens ou
00:09:23calculou pesos no final com base em todas as combinações dos tokens anteriores. Então, por exemplo,
00:09:30se essa fosse toda a nossa conversa, obviamente curta de propósito, é um exemplo, então seria assim
00:09:38que ela teria sido dividida em tokens para os modelos GPT-5, por exemplo. Alguns tokens são
00:09:46apenas uma palavra, ou uma palavra com um espaço em branco na frente. Alguns tokens são apenas caracteres especiais.
00:09:51E para gerar o próximo token, todos os tokens anteriores são, no final, combinados uns com
00:09:58os outros para entender o significado no fim das contas. Porque, claro, um ponto de interrogação tem um significado
00:10:05e uma implicação muito diferente para um token futuro, dependendo do que veio antes desse
00:10:11ponto de interrogação. Portanto, esse ponto de interrogação é combinado com todos os tokens anteriores. E é a combinação
00:10:17de todas essas combinações, no final, que é usada para derivar aquele token final. Isso é, em um
00:10:22nível muito alto, como você pode pensar sobre a atenção densa e como ela funciona. Agora, naturalmente,
00:10:29isso é muito ineficiente, mas é meio que o melhor que temos no momento, pelo menos no que diz respeito à
00:10:36inteligência e à qualidade da resposta. Mas é quadrático porque é N vezes N,
00:10:44o que significa que, para derivar um novo token, temos que combinar todos os tokens anteriores. Existem
00:10:49mecanismos de otimização como o KV caching, que no final armazena em cache os resultados dos pesos calculados
00:10:56no passado. De modo que, para um novo token, você não precisa recalcular
00:11:01todas as combinações anteriores, mas ainda precisa calcular esse novo token comparando-o com todos
00:11:08os pesos anteriores armazenados no cache. Então você ainda acaba nessa situação quadrática aqui. E isso, claro,
00:11:16é ineficiente e lento, e é por isso que esses modelos de ponta que temos agora consomem muita computação e são
00:11:24lentos, especialmente quando você entra em áreas de janela de contexto maiores, e é por isso que existem limites
00:11:31de tamanho de janela de contexto bastante rigorosos. Como é quadrático, é claro que um tamanho de janela de contexto
00:11:38de 12 milhões é praticamente impossível de computar. Levaria uma eternidade, e o tempo de computação é apenas uma
00:11:46dimensão, a memória que deve ser reservada é outra. Então é assim que os modelos densos funcionam em resumo
00:11:54e quais são as suas limitações. Agora, a abordagem oposta ou alternativa que é usada por esse
00:12:00novo modelo, o modelo sub-q anunciado ontem, é usar atenção esparsa. E
00:12:06como funciona a atenção esparsa? A ideia com a atenção esparsa é que, para calcular um novo
00:12:14token, você não olha para todos os tokens anteriores, você não faz as combinações de todos os tokens
00:12:20anteriores, mas apenas de alguns tokens selecionados. Então, por exemplo, se você quiser derivar o token D aqui,
00:12:28você pode estar olhando apenas para B e C, mas não para A. Agora, claro, a grande questão então é:
00:12:33como você decide para quais tokens anteriores olhar ou quais tokens anteriores são interessantes para
00:12:40produzir esse novo token. E existem diferentes abordagens que foram usadas no passado, porque
00:12:46este novo modelo não é o primeiro modelo de atenção esparsa. Mas a razão pela qual eles realmente não
00:12:52decolaram até aqui é que eles têm limitações sérias. Por exemplo, uma maneira é usar uma
00:12:59abordagem de janela local. E o que isso significa? Significa que, para produzir um novo token,
00:13:06digamos o token número cinco, o quinto token em uma sequência, nós damos uma olhada em, digamos,
00:13:13apenas os dois tokens anteriores a ele. Ou seja, três mais quatro, por exemplo. Então você tem uma janela deslizante de tokens
00:13:22e sempre olha apenas para os tokens que estão imediatamente antes do token que você está prestes a gerar. Agora,
00:13:27como você pode imaginar, isso tem algumas limitações sérias porque, se eu estiver olhando apenas para os últimos
00:13:33poucos tokens, se eu, por exemplo, quiser saber quando um contrato pode ser rescindido, a informação
00:13:39pode estar aqui no contexto extra que passei no prompt, mas não fará parte daquela janela local
00:13:45se a janela local for apenas os últimos poucos tokens, por exemplo. Portanto, o próximo token que está prestes a ser
00:13:50previsto não tem ideia do que estava antes naquele contexto. Então, isso não é útil. Você pode ter um tamanho
00:13:55de janela de contexto ilimitado com essa abordagem, mas todo o resto do contexto não importa. Essa é uma limitação óbvia.
00:14:01Outra abordagem é a chamada abordagem de token global. Aqui, a ideia é que você
00:14:09tenha um token de resumo global. Em um nível geral, você pode pensar nisso como um token especial que vem
00:14:16no início da sequência de tokens, que é inserido no início da sequência de tokens
00:14:20pelo modelo, por assim dizer, e que resume os tokens que vêm depois dele. É mais ou menos assim que você pode pensar.
00:14:27E então, para prever o próximo token, esse token global é levado em consideração. Bem, isso pode funcionar
00:14:34muito bem se voltarmos a este exemplo aqui com o texto jurídico que você pode ter passado para um modelo
00:14:40no seu prompt. Se aquele resumo que foi gerado aqui para a sua conversa incluir os
00:14:46termos de rescisão do contrato, por exemplo, então, claro, este próximo token pode ser previsto muito bem
00:14:53com base nesse resumo. Mas se você não tiver sorte e o resumo não incluir esses detalhes,
00:15:00bem, então você está sem sorte e volta ao estado em que a informação está totalmente ausente.
00:15:04Portanto, uma abordagem de token global pode funcionar, mas, claro, quanto mais longa for a sua janela de contexto,
00:15:12mais genérico o resumo se torna. Quero dizer, é fácil de imaginar. Se você tiver um
00:15:16documento PDF de cem páginas e fosse resumir isso em uma frase ou duas, seria muito
00:15:22vago, certo? Então, claro, prever o próximo token com base nesse resumo não vai funcionar muito bem.
00:15:29Agora, outra abordagem seria usar um roteador, que consiste em ter uma rede neural
00:15:37adicional. Você tem dois modelos, essencialmente: seu modelo de linguagem gigante e, depois, um modelo
00:15:43de roteamento extra. E esse modelo de roteamento dá uma olhada no prompt do usuário ou no contexto do
00:15:51próximo token a ser gerado e então encaminha esse token, por assim dizer, para os outros tokens que ele considera
00:15:59relevantes. Mas isso, claro, significa que agora você tem um modelo de roteamento que de alguma forma precisa
00:16:04acompanhar todos os outros tokens que vêm depois dele. Então isso provavelmente volta para a área da atenção
00:16:10quadrática ou é muito impreciso e você fica dependente disso. Então, ou você volta para
00:16:17a complexidade quadrática e não ganha tanto em comparação com um modelo denso, ou não faz
00:16:23isso e provavelmente terá alguma perda porque o roteador não é muito bom. Portanto, assim como no
00:16:30caso do resumo, você estaria esperando que o roteador faça um bom trabalho e ative os tokens certos para
00:16:37prever o próximo token. E é por isso que a atenção esparsa é interessante, mas não decolou
00:16:46muito até agora, porque todas essas diferentes abordagens têm compensações significativas e, até o momento,
00:16:54pelo que sei, não houve um modelo de atenção esparsa que tenha produzido
00:17:00qualidade igual ou comparável aos modelos densos de ponta atuais e que fosse capaz de atuar em uma grande
00:17:07janela de contexto. E eles prometem mudar isso com o novo modelo deles. Naquela publicação de anúncio no blog,
00:17:14eles mencionam que o modelo deles faz seleção dependente de conteúdo. Para cada consulta, o modelo seleciona quais
00:17:22partes da sequência valem a pena receber atenção e calcula a atenção exatamente sobre essas posições. Então,
00:17:28no final das contas, voltamos a essa abordagem de roteamento, mas eles meio que prometem aqui, mencionam aqui,
00:17:35que o mecanismo deles parece ser muito eficiente para ativar os tokens corretos para prever
00:17:43o próximo token. Eles mencionam que a atenção densa assume que todo par pode importar, então avalia
00:17:49todos eles. Na prática, quase nenhum importa. SSA, que significa atenção seletiva sub-quadrática
00:17:55(sub-quadratic selective attention), que é a abordagem deles, remove essa suposição. Ela não faz uma aproximação da atenção. Ela restringe
00:18:01a atenção às posições que realmente carregam sinal e ignora o resto. Essa é a abordagem deles.
00:18:08Eles estão fazendo um roteamento dependente de conteúdo para ativar os tokens corretos ou para usar os tokens corretos para
00:18:14prever o próximo token, e é isso que lhes dá esse aumento de eficiência. E ainda precisamos ver
00:18:21o quão bem isso realmente funciona porque, como mencionado, temos um subconjunto muito limitado de benchmarks aqui.
00:18:30Não há muitos outros ou nenhum outro benchmark. Não temos um model card. Não temos detalhes sobre como exatamente
00:18:36funciona a seleção dependente de conteúdo deles e, portanto, temos muitos pontos de interrogação aqui.
00:18:42E se há uma coisa que definitivamente aprendemos ao longo dos últimos meses e anos é que
00:18:49a IA é obviamente uma ferramenta útil e eu a utilizo todos os dias. Você provavelmente a utiliza todos os dias e
00:18:57ferramentas como Codex ou Claude Code são muito úteis. Não tenho dúvidas sobre isso e, bem, essa é a minha
00:19:04experiência com elas, mas também aprendemos que estamos em uma indústria com muito hype. Estamos em um
00:19:10período de transição. Tudo está mudando ou muita coisa está mudando no momento e, por isso, é claro que
00:19:16existem muitas promessas por toda parte e nem todas as promessas se realizam ou se materializam em
00:19:26algo realmente útil. Quero dizer, pegue os modelos da Meta, por exemplo, que eram modelos densos. Os modelos Llama 4
00:19:35tinham números de benchmark incríveis, mas não eram tão fantásticos na prática. Portanto, há muitos exemplos cheios de hype
00:19:42e esse é apenas um exemplo, é claro. Há muitos exemplos por aí. Com certeza vale a pena
00:19:49ser cauteloso, mas se eles publicarem esses modelos — e você pode solicitar acesso antecipado agora mesmo,
00:19:56eu solicitei, mas ainda não obtive acesso. Se esses modelos de fato cumprirem suas promessas, se forem úteis e
00:20:05inteligentes em tamanhos de janela de contexto grandes, isso, claro, vai mudar muita coisa. Isso vai ajudar com
00:20:13as restrições de computação que temos agora, porque não há nem de perto computação suficiente por aí
00:20:19no mundo. Precisamos de muito mais data centers, chips, eletricidade e tudo mais. Portanto, ter um modelo que
00:20:25é muito mais eficiente ajudaria com isso. Bem, talvez nós fôssemos usá-lo tanto a mais que o
00:20:33problema continuaria o mesmo, mas ainda assim ele definitivamente permitiria um maior uso no momento. E, claro, ele
00:20:40desbloquearia casos de uso totalmente novos. Tornaria possível simplesmente colocar uma base de código inteira
00:20:45lá dentro e agir sobre ela. Assim, todas essas soluções alternativas que estamos usando agora desapareceriam. Nós não
00:20:52precisaríamos necessariamente de subagentes. Não precisaríamos de sistemas RAG se isso funcionasse. Mas esse é um "se",
00:21:00é claro, e ainda precisamos ver se isso cumpre as grandes promessas que eles estão fazendo. Se cumprir,
00:21:07eles definitivamente fundaram uma empresa de bilhões, múltiplos bilhões ou trilhões de dólares ali.

Key Takeaway

O novo modelo sub-q introduz a atenção seletiva sub-quadrática para permitir janelas de contexto de 12 milhões de tokens com apenas 5% do custo dos modelos densos atuais, caso suas promessas de desempenho técnico se confirmem.

Highlights

  • O modelo sub-q (sub-quadrático) promete uma janela de contexto de 12 milhões de tokens.

  • O custo operacional do modelo sub-q é de 5% do valor cobrado pelo modelo Opus 4.7.

  • O mecanismo de atenção seletiva sub-quadrática (SSA) remove a necessidade de avaliar todos os pares de tokens, focando apenas naqueles que carregam sinal.

  • O modelo apresenta desempenho comparável ao Opus 4.6 nos benchmarks Ruler e MRCRv2.

  • A adoção de uma janela de contexto de 12 milhões de tokens elimina a necessidade de soluções como subagentes e RAG ao permitir o processamento de bases de código inteiras diretamente.

Timeline

Anúncio do modelo sub-q e suas promessas

  • Alexander Wedin anunciou o sub-q, um modelo de linguagem com foco em contexto longo.
  • O modelo promete operar com 12 milhões de tokens a 5% do custo do Opus 4.7.
  • Esta arquitetura visa substituir estratégias como RAG e subagentes que tentam contornar limitações de contexto.

O anúncio foca em um avanço que mantém a inteligência de modelos de ponta enquanto expande drasticamente a capacidade de processamento de documentos jurídicos ou bases de código completas. A viabilidade da tecnologia depende de sua capacidade de manter a qualidade em tarefas de raciocínio complexo dentro de uma janela massiva.

Análise dos benchmarks

  • Os testes Ruler e MRCRv2 situam o desempenho do sub-q na faixa do Opus 4.6.
  • O modelo demonstra competência em tarefas de engenharia de software comparável aos modelos Opus.
  • A ausência de um model card detalhado e o número limitado de testes impedem uma avaliação exaustiva.

Os dados disponíveis indicam que, apesar de focar em janelas de contexto longas, o desempenho inicial é competitivo com os modelos densos atuais. O benchmark de engenharia de software sugere que o modelo não apenas recupera informações, mas gera código útil a partir do contexto recuperado.

A arquitetura de atenção esparsa vs. densa

  • Modelos densos atuais utilizam processamento quadrático N por N, tornando janelas longas computacionalmente inviáveis.
  • A atenção esparsa utiliza janelas locais, tokens globais ou roteadores para reduzir o custo computacional.
  • O sub-q utiliza atenção seletiva sub-quadrática (SSA) baseada em roteamento dependente de conteúdo.

A atenção densa avalia conexões entre todos os tokens para gerar o próximo, o que exige recursos massivos. O método do sub-q, SSA, restringe a atenção às posições que realmente carregam sinal, evitando a ineficiência de aproximar a atenção através de resumos vagos ou janelas locais limitadas.

Impacto no mercado e cautela

  • O sucesso da tecnologia depende de sua eficácia prática além das promessas de marketing.
  • Um modelo eficiente pode aliviar gargalos críticos de infraestrutura como chips e eletricidade.
  • A viabilidade comercial depende de resultados reais em aplicações de larga escala após o lançamento.

Historicamente, o setor de IA apresenta modelos com métricas de benchmark impressionantes que falham na prática. Se o sub-q atingir as metas de desempenho, ele tem potencial para redefinir o uso de LLMs ao eliminar restrições severas de computação e memória, consolidando uma mudança estrutural na indústria.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video