Hype ou divisor de águas? | Análise Profunda

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

MMaximilian Schwarzmüller

컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00Algumas horas atrás, houve um anúncio bem grande. Ou um hype bem grande. Nós ainda

00:00:06não sabemos e eu com certeza não descartaria a parte do hype. A parte do hype sem sentido. Mas se for

00:00:13verdade, é de fato um grande anúncio. Porque Alexander Wedin, que eu não conhecia e você provavelmente

00:00:20também não, anunciou o sub-q, que significa sub-quadrático, um grande avanço na inteligência

00:00:28dos LLMs. E o que ele anunciou aqui é um tipo totalmente novo de modelo de linguagem gigante que se destaca em

00:00:36tarefas de contexto longo sem perder — pelo menos é o que ele afirma — sem perder a "inteligência"

00:00:45— entre aspas, os modelos estão gerando tokens, mas é isso que lhes dá inteligência no final — então

00:00:52sem perder a inteligência com a qual você está acostumado nos modelos de ponta atuais, como o Opus 4.7,

00:00:59GPT 5.5 e assim por diante. Agora, o que ele menciona na publicação de anúncio no X — e também

00:01:04há uma publicação de anúncio no blog com mais detalhes técnicos, que nós vamos analisar

00:01:08porque vamos nos aprofundar neste episódio e vídeo aqui — o que ele anuncia aqui é um modelo que é

00:01:16muito mais rápido ao fazer inferência em tarefas com contexto de um milhão de tokens e custa muito menos. Cinco por cento

00:01:26do que o Opus custa. Ele também promete que o modelo inicial deles terá uma janela de contexto

00:01:35de 12 milhões de tokens, o que, só para colocar esse número em perspectiva, significa que você pode colocar bases de código inteiras,

00:01:42bases de código enormes dentro dessa janela de contexto. Você pode colocar vários documentos jurídicos grandes lá dentro e

00:01:49é por isso, é claro, que modelos como este, se existirem e funcionarem, podem ser super úteis e totalmente

00:01:57revolucionários. Não há outra forma de dizer. Se funcionarem — ainda não temos muitos detalhes,

00:02:02voltarei a isso — mas se funcionarem, isso significa, claro, que todas as soluções alternativas que estamos

00:02:08usando agora, como subagentes, RAG e assim por diante, que são apenas contornos para o problema de que

00:02:15o modelo só vê uma pequena parte daquilo que deveria ver. Portanto, se você estiver trabalhando em uma base de código,

00:02:22os modelos de ponta existentes, dependendo do tamanho da sua base de código, não conseguem ver toda a base de código.

00:02:28Eles não conseguem carregar toda a base de código. Então, se você pedir para ele alterar algo, precisa torcer

00:02:33para que o modelo encontre as partes certas na sua base de código para fazer a alteração que você pediu.

00:02:40E isso, claro, se torna cada vez mais um problema quanto maior for a base de código ou maior

00:02:45for a quantidade de documentos em que você deseja que o modelo trabalhe. Portanto, se você tiver um modelo que possa usar

00:02:52com segurança uma janela de contexto de 12 milhões de tokens com boa qualidade, isso naturalmente seria um divisor de águas.

00:02:59Falando em revolucionário, nós vamos nos aprofundar neste vídeo e eu vou me aprofundar em todos os meus cursos. Então,

00:03:06se você estiver interessado em aprender como usar na prática ferramentas como Claude Code, Codex, outras tarefas de IA

00:03:13ou programação, ou a combinação de tudo isso, talvez valha a pena dar uma olhada nos meus cursos. Eles são práticos,

00:03:19são interativos, são aprofundados, e você pode adquirir os cursos individuais ou a assinatura,

00:03:24que lhe dá acesso a todos os cursos por um preço mensal ou anual. Links abaixo.

00:03:31Então, vamos nos aprofundar um pouco mais agora. E, como mencionado, há uma publicação de anúncio no blog com

00:03:36alguns detalhes técnicos, mas não muitos, para sermos bem claros aqui. Há muitas informações faltando,

00:03:43e também não temos muitos benchmarks. Especificamente, eles só publicaram três

00:03:49benchmarks. O benchmark Ruler, que testa comportamentos de recuperação e raciocínio além da simples

00:03:56busca direta, incluindo recuperação multi-hop, agregação, rastreamento de variáveis e filtragem

00:04:01seletiva. Portanto, esse é um benchmark que, no fim das contas, serve para verificar se um modelo encontra várias partes

00:04:06de informações relevantes em uma janela de contexto relativamente grande. 128.000 tokens. Ou seja, não é uma janela de contexto

00:04:15super grande, não chega nem perto dos 12 milhões que prometeram, mas também não é de apenas 5K.

00:04:22Então, este é um benchmark que testa o quão bem um modelo consegue encontrar e juntar diferentes partes de uma

00:04:28janela de contexto ou base de documentos mais ou menos grande. E aqui o modelo deles está no mesmo nível que o

00:04:36OPUS 4.6. Naquela publicação, eles também mencionaram outro benchmark, o benchmark MRCRv2, que também é sobre tarefas

00:04:45de recuperação de contexto longo, onde o modelo deles está na faixa, como afirmaram, do OPUS 4.6. Embora,

00:04:53sim, esteja na faixa se você olhar para todos os outros resultados aqui, mas é definitivamente pior.

00:05:00O que, claro, é interessante, já que toda a proposta deles é a recuperação de contexto longo aqui. Mas,

00:05:07por outro lado, claro, você também poderia argumentar que para casos de uso de janelas de contexto super longas, os outros

00:05:15modelos nem sequer são utilizáveis, enquanto o deles ainda pode apresentar resultados muito bons, o que pode ser

00:05:22melhor do que nada. E, claro, os modelos deles também podem melhorar com o tempo. Então, eu não

00:05:29consideraria isso um sinal super ruim para o modelo inicial. É apenas algo que vale a pena notar. E, de

00:05:35fato, também vale notar que é muito melhor do que o Gemini 3.1 Pro, por exemplo, ou o OPUS 4.7 naquela tabela.

00:05:43E eles também divulgaram um benchmark, que achei interessante, focado em tarefas relacionadas à programação.

00:05:49Agora, devo dizer que todos esses benchmarks... eu não sou um grande fã deles. Todos nós sabemos

00:05:56que eles podem ser manipulados, pelo menos muitos deles podem, e que os modelos podem ser deliberada ou involuntariamente

00:06:05ajustados ou otimizados para ter um bom desempenho em benchmarks. Tivemos muitos casos assim no passado,

00:06:12mas, ainda assim, eles nos dão algo para analisar. E eu acho este benchmark de engenharia de software

00:06:20interessante, porque aqui podemos ver que o modelo deles está bem na faixa dos modelos

00:06:27OPUS. E isso, claro, mostra que ele não é apenas capaz de encontrar informações em janelas de contexto

00:06:36longo, em muitos documentos e grandes bases de código, mas que também é capaz de fazer algo útil com isso,

00:06:42que é capaz de gerar códigos bons e significativos como resultado de sua inteligência e dos dados que ele

00:06:50consegue recuperar nessas janelas de contexto longo, por assim dizer. Então não se trata apenas de recuperar,

00:06:54trata-se também de fazer coisas úteis. E ele parece ser bom nisso. Mas, como mencionado, é basicamente isso.

00:07:00Não temos outras análises profundas ou detalhes técnicos. Ainda não há um model card. E, portanto,

00:07:09tudo o que temos é uma descrição, essencialmente, de como o modelo deles usa atenção esparsa em vez de atenção

00:07:16densa para fazer com que essas tarefas de contexto longo funcionem ou para fazer o modelo funcionar de forma eficiente

00:07:22em cenários de janelas de contexto longo, e como o modelo alcança seu aumento de velocidade e sua eficiência de custo,

00:07:29já que ele é mais rápido e mais barato, certo? Foi isso que eles anunciaram. Então, vamos dar uma olhada na

00:07:37atenção densa versus a atenção esparsa para entender o que está acontecendo aqui. Bem, a atenção densa

00:07:45é o que você tem nos modelos de ponta atuais. Então, seu GPT 5.5, Opus 4.7, todos os outros modelos,

00:07:52todos esses são modelos densos, o que essencialmente significa que para cada novo token, digamos o token D,

00:07:58para gerar esse token, todos os outros tokens precisam ser avaliados e as conexões entre

00:08:08esses tokens precisam ser avaliadas, porque toda a ideia em grandes modelos de linguagem é que você

00:08:13deriva um token futuro, que pode ser uma palavra inteira ou parte de uma palavra, com base no que veio antes

00:08:20daquele token. Então, se você tiver, por exemplo, uma frase como "um contrato pode ser rescindido a qualquer..."

00:08:28então a próxima palavra depois disso é o que você quer prever. Você pode ter perguntado a um modelo: "Ei,

00:08:35quando posso rescindir meu contrato?" E você pode ter fornecido esse contrato como um documento PDF ou como texto

00:08:42puro no seu prompt também. Portanto, o prompt antes dessa frase, que o modelo está

00:08:48gerando como resposta, é a sua pergunta e talvez algum outro contexto. O contrato, por

00:08:57exemplo, certo? É assim que usamos os modelos atualmente. E para produzir este token aqui,

00:09:03e para produzir cada token que veio antes dele, o modelo basicamente deu uma olhada em toda a

00:09:10conversa, em todos os tokens nela. Ou seja, a sua pergunta e qualquer contexto adicional

00:09:16que você tenha colocado lá. E ele dividiu isso em múltiplos tokens e depois combinou todos esses tokens ou

00:09:23calculou pesos no final com base em todas as combinações dos tokens anteriores. Então, por exemplo,

00:09:30se essa fosse toda a nossa conversa, obviamente curta de propósito, é um exemplo, então seria assim

00:09:38que ela teria sido dividida em tokens para os modelos GPT-5, por exemplo. Alguns tokens são

00:09:46apenas uma palavra, ou uma palavra com um espaço em branco na frente. Alguns tokens são apenas caracteres especiais.

00:09:51E para gerar o próximo token, todos os tokens anteriores são, no final, combinados uns com

00:09:58os outros para entender o significado no fim das contas. Porque, claro, um ponto de interrogação tem um significado

00:10:05e uma implicação muito diferente para um token futuro, dependendo do que veio antes desse

00:10:11ponto de interrogação. Portanto, esse ponto de interrogação é combinado com todos os tokens anteriores. E é a combinação

00:10:17de todas essas combinações, no final, que é usada para derivar aquele token final. Isso é, em um

00:10:22nível muito alto, como você pode pensar sobre a atenção densa e como ela funciona. Agora, naturalmente,

00:10:29isso é muito ineficiente, mas é meio que o melhor que temos no momento, pelo menos no que diz respeito à

00:10:36inteligência e à qualidade da resposta. Mas é quadrático porque é N vezes N,

00:10:44o que significa que, para derivar um novo token, temos que combinar todos os tokens anteriores. Existem

00:10:49mecanismos de otimização como o KV caching, que no final armazena em cache os resultados dos pesos calculados

00:10:56no passado. De modo que, para um novo token, você não precisa recalcular

00:11:01todas as combinações anteriores, mas ainda precisa calcular esse novo token comparando-o com todos

00:11:08os pesos anteriores armazenados no cache. Então você ainda acaba nessa situação quadrática aqui. E isso, claro,

00:11:16é ineficiente e lento, e é por isso que esses modelos de ponta que temos agora consomem muita computação e são

00:11:24lentos, especialmente quando você entra em áreas de janela de contexto maiores, e é por isso que existem limites

00:11:31de tamanho de janela de contexto bastante rigorosos. Como é quadrático, é claro que um tamanho de janela de contexto

00:11:38de 12 milhões é praticamente impossível de computar. Levaria uma eternidade, e o tempo de computação é apenas uma

00:11:46dimensão, a memória que deve ser reservada é outra. Então é assim que os modelos densos funcionam em resumo

00:11:54e quais são as suas limitações. Agora, a abordagem oposta ou alternativa que é usada por esse

00:12:00novo modelo, o modelo sub-q anunciado ontem, é usar atenção esparsa. E

00:12:06como funciona a atenção esparsa? A ideia com a atenção esparsa é que, para calcular um novo

00:12:14token, você não olha para todos os tokens anteriores, você não faz as combinações de todos os tokens

00:12:20anteriores, mas apenas de alguns tokens selecionados. Então, por exemplo, se você quiser derivar o token D aqui,

00:12:28você pode estar olhando apenas para B e C, mas não para A. Agora, claro, a grande questão então é:

00:12:33como você decide para quais tokens anteriores olhar ou quais tokens anteriores são interessantes para

00:12:40produzir esse novo token. E existem diferentes abordagens que foram usadas no passado, porque

00:12:46este novo modelo não é o primeiro modelo de atenção esparsa. Mas a razão pela qual eles realmente não

00:12:52decolaram até aqui é que eles têm limitações sérias. Por exemplo, uma maneira é usar uma

00:12:59abordagem de janela local. E o que isso significa? Significa que, para produzir um novo token,

00:13:06digamos o token número cinco, o quinto token em uma sequência, nós damos uma olhada em, digamos,

00:13:13apenas os dois tokens anteriores a ele. Ou seja, três mais quatro, por exemplo. Então você tem uma janela deslizante de tokens

00:13:22e sempre olha apenas para os tokens que estão imediatamente antes do token que você está prestes a gerar. Agora,

00:13:27como você pode imaginar, isso tem algumas limitações sérias porque, se eu estiver olhando apenas para os últimos

00:13:33poucos tokens, se eu, por exemplo, quiser saber quando um contrato pode ser rescindido, a informação

00:13:39pode estar aqui no contexto extra que passei no prompt, mas não fará parte daquela janela local

00:13:45se a janela local for apenas os últimos poucos tokens, por exemplo. Portanto, o próximo token que está prestes a ser

00:13:50previsto não tem ideia do que estava antes naquele contexto. Então, isso não é útil. Você pode ter um tamanho

00:13:55de janela de contexto ilimitado com essa abordagem, mas todo o resto do contexto não importa. Essa é uma limitação óbvia.

00:14:01Outra abordagem é a chamada abordagem de token global. Aqui, a ideia é que você

00:14:09tenha um token de resumo global. Em um nível geral, você pode pensar nisso como um token especial que vem

00:14:16no início da sequência de tokens, que é inserido no início da sequência de tokens

00:14:20pelo modelo, por assim dizer, e que resume os tokens que vêm depois dele. É mais ou menos assim que você pode pensar.

00:14:27E então, para prever o próximo token, esse token global é levado em consideração. Bem, isso pode funcionar

00:14:34muito bem se voltarmos a este exemplo aqui com o texto jurídico que você pode ter passado para um modelo

00:14:40no seu prompt. Se aquele resumo que foi gerado aqui para a sua conversa incluir os

00:14:46termos de rescisão do contrato, por exemplo, então, claro, este próximo token pode ser previsto muito bem

00:14:53com base nesse resumo. Mas se você não tiver sorte e o resumo não incluir esses detalhes,

00:15:00bem, então você está sem sorte e volta ao estado em que a informação está totalmente ausente.

00:15:04Portanto, uma abordagem de token global pode funcionar, mas, claro, quanto mais longa for a sua janela de contexto,

00:15:12mais genérico o resumo se torna. Quero dizer, é fácil de imaginar. Se você tiver um

00:15:16documento PDF de cem páginas e fosse resumir isso em uma frase ou duas, seria muito

00:15:22vago, certo? Então, claro, prever o próximo token com base nesse resumo não vai funcionar muito bem.

00:15:29Agora, outra abordagem seria usar um roteador, que consiste em ter uma rede neural

00:15:37adicional. Você tem dois modelos, essencialmente: seu modelo de linguagem gigante e, depois, um modelo

00:15:43de roteamento extra. E esse modelo de roteamento dá uma olhada no prompt do usuário ou no contexto do

00:15:51próximo token a ser gerado e então encaminha esse token, por assim dizer, para os outros tokens que ele considera

00:15:59relevantes. Mas isso, claro, significa que agora você tem um modelo de roteamento que de alguma forma precisa

00:16:04acompanhar todos os outros tokens que vêm depois dele. Então isso provavelmente volta para a área da atenção

00:16:10quadrática ou é muito impreciso e você fica dependente disso. Então, ou você volta para

00:16:17a complexidade quadrática e não ganha tanto em comparação com um modelo denso, ou não faz

00:16:23isso e provavelmente terá alguma perda porque o roteador não é muito bom. Portanto, assim como no

00:16:30caso do resumo, você estaria esperando que o roteador faça um bom trabalho e ative os tokens certos para

00:16:37prever o próximo token. E é por isso que a atenção esparsa é interessante, mas não decolou

00:16:46muito até agora, porque todas essas diferentes abordagens têm compensações significativas e, até o momento,

00:16:54pelo que sei, não houve um modelo de atenção esparsa que tenha produzido

00:17:00qualidade igual ou comparável aos modelos densos de ponta atuais e que fosse capaz de atuar em uma grande

00:17:07janela de contexto. E eles prometem mudar isso com o novo modelo deles. Naquela publicação de anúncio no blog,

00:17:14eles mencionam que o modelo deles faz seleção dependente de conteúdo. Para cada consulta, o modelo seleciona quais

00:17:22partes da sequência valem a pena receber atenção e calcula a atenção exatamente sobre essas posições. Então,

00:17:28no final das contas, voltamos a essa abordagem de roteamento, mas eles meio que prometem aqui, mencionam aqui,

00:17:35que o mecanismo deles parece ser muito eficiente para ativar os tokens corretos para prever

00:17:43o próximo token. Eles mencionam que a atenção densa assume que todo par pode importar, então avalia

00:17:49todos eles. Na prática, quase nenhum importa. SSA, que significa atenção seletiva sub-quadrática

00:17:55(sub-quadratic selective attention), que é a abordagem deles, remove essa suposição. Ela não faz uma aproximação da atenção. Ela restringe

00:18:01a atenção às posições que realmente carregam sinal e ignora o resto. Essa é a abordagem deles.

00:18:08Eles estão fazendo um roteamento dependente de conteúdo para ativar os tokens corretos ou para usar os tokens corretos para

00:18:14prever o próximo token, e é isso que lhes dá esse aumento de eficiência. E ainda precisamos ver

00:18:21o quão bem isso realmente funciona porque, como mencionado, temos um subconjunto muito limitado de benchmarks aqui.

00:18:30Não há muitos outros ou nenhum outro benchmark. Não temos um model card. Não temos detalhes sobre como exatamente

00:18:36funciona a seleção dependente de conteúdo deles e, portanto, temos muitos pontos de interrogação aqui.

00:18:42E se há uma coisa que definitivamente aprendemos ao longo dos últimos meses e anos é que

00:18:49a IA é obviamente uma ferramenta útil e eu a utilizo todos os dias. Você provavelmente a utiliza todos os dias e

00:18:57ferramentas como Codex ou Claude Code são muito úteis. Não tenho dúvidas sobre isso e, bem, essa é a minha

00:19:04experiência com elas, mas também aprendemos que estamos em uma indústria com muito hype. Estamos em um

00:19:10período de transição. Tudo está mudando ou muita coisa está mudando no momento e, por isso, é claro que

00:19:16existem muitas promessas por toda parte e nem todas as promessas se realizam ou se materializam em

00:19:26algo realmente útil. Quero dizer, pegue os modelos da Meta, por exemplo, que eram modelos densos. Os modelos Llama 4

00:19:35tinham números de benchmark incríveis, mas não eram tão fantásticos na prática. Portanto, há muitos exemplos cheios de hype

00:19:42e esse é apenas um exemplo, é claro. Há muitos exemplos por aí. Com certeza vale a pena

00:19:49ser cauteloso, mas se eles publicarem esses modelos — e você pode solicitar acesso antecipado agora mesmo,

00:19:56eu solicitei, mas ainda não obtive acesso. Se esses modelos de fato cumprirem suas promessas, se forem úteis e

00:20:05inteligentes em tamanhos de janela de contexto grandes, isso, claro, vai mudar muita coisa. Isso vai ajudar com

00:20:13as restrições de computação que temos agora, porque não há nem de perto computação suficiente por aí

00:20:19no mundo. Precisamos de muito mais data centers, chips, eletricidade e tudo mais. Portanto, ter um modelo que

00:20:25é muito mais eficiente ajudaria com isso. Bem, talvez nós fôssemos usá-lo tanto a mais que o

00:20:33problema continuaria o mesmo, mas ainda assim ele definitivamente permitiria um maior uso no momento. E, claro, ele

00:20:40desbloquearia casos de uso totalmente novos. Tornaria possível simplesmente colocar uma base de código inteira

00:20:45lá dentro e agir sobre ela. Assim, todas essas soluções alternativas que estamos usando agora desapareceriam. Nós não

00:20:52precisaríamos necessariamente de subagentes. Não precisaríamos de sistemas RAG se isso funcionasse. Mas esse é um "se",

00:21:00é claro, e ainda precisamos ver se isso cumpre as grandes promessas que eles estão fazendo. Se cumprir,

00:21:07eles definitivamente fundaram uma empresa de bilhões, múltiplos bilhões ou trilhões de dólares ali.

Key Takeaway

O novo modelo sub-q introduz a atenção seletiva sub-quadrática para permitir janelas de contexto de 12 milhões de tokens com apenas 5% do custo dos modelos densos atuais, caso suas promessas de desempenho técnico se confirmem.

Highlights

O modelo sub-q (sub-quadrático) promete uma janela de contexto de 12 milhões de tokens.
O custo operacional do modelo sub-q é de 5% do valor cobrado pelo modelo Opus 4.7.
O mecanismo de atenção seletiva sub-quadrática (SSA) remove a necessidade de avaliar todos os pares de tokens, focando apenas naqueles que carregam sinal.
O modelo apresenta desempenho comparável ao Opus 4.6 nos benchmarks Ruler e MRCRv2.
A adoção de uma janela de contexto de 12 milhões de tokens elimina a necessidade de soluções como subagentes e RAG ao permitir o processamento de bases de código inteiras diretamente.

Timeline

Anúncio do modelo sub-q e suas promessas

Alexander Wedin anunciou o sub-q, um modelo de linguagem com foco em contexto longo.
O modelo promete operar com 12 milhões de tokens a 5% do custo do Opus 4.7.
Esta arquitetura visa substituir estratégias como RAG e subagentes que tentam contornar limitações de contexto.

O anúncio foca em um avanço que mantém a inteligência de modelos de ponta enquanto expande drasticamente a capacidade de processamento de documentos jurídicos ou bases de código completas. A viabilidade da tecnologia depende de sua capacidade de manter a qualidade em tarefas de raciocínio complexo dentro de uma janela massiva.

Análise dos benchmarks

Os testes Ruler e MRCRv2 situam o desempenho do sub-q na faixa do Opus 4.6.
O modelo demonstra competência em tarefas de engenharia de software comparável aos modelos Opus.
A ausência de um model card detalhado e o número limitado de testes impedem uma avaliação exaustiva.

Os dados disponíveis indicam que, apesar de focar em janelas de contexto longas, o desempenho inicial é competitivo com os modelos densos atuais. O benchmark de engenharia de software sugere que o modelo não apenas recupera informações, mas gera código útil a partir do contexto recuperado.

A arquitetura de atenção esparsa vs. densa

Modelos densos atuais utilizam processamento quadrático N por N, tornando janelas longas computacionalmente inviáveis.
A atenção esparsa utiliza janelas locais, tokens globais ou roteadores para reduzir o custo computacional.
O sub-q utiliza atenção seletiva sub-quadrática (SSA) baseada em roteamento dependente de conteúdo.

A atenção densa avalia conexões entre todos os tokens para gerar o próximo, o que exige recursos massivos. O método do sub-q, SSA, restringe a atenção às posições que realmente carregam sinal, evitando a ineficiência de aproximar a atenção através de resumos vagos ou janelas locais limitadas.

Impacto no mercado e cautela

O sucesso da tecnologia depende de sua eficácia prática além das promessas de marketing.
Um modelo eficiente pode aliviar gargalos críticos de infraestrutura como chips e eletricidade.
A viabilidade comercial depende de resultados reais em aplicações de larga escala após o lançamento.

Historicamente, o setor de IA apresenta modelos com métricas de benchmark impressionantes que falham na prática. Se o sub-q atingir as metas de desempenho, ele tem potencial para redefinir o uso de LLMs ao eliminar restrições severas de computação e memória, consolidando uma mudança estrutural na indústria.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video