As assinaturas de IA estão se tornando menos atraentes

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

MMaximilian Schwarzmüller

Computing/SoftwareSmall Business/StartupsBusiness News

Transcript

00:00:00Esta manhã acordei vendo esta postagem aqui no X, que menciona que a Anthropic aparentemente removeu o

00:00:09o plugin de código do Claude do plano Pro, de modo que você precisa dos planos de assinatura

00:00:17mais caros para poder usar o Claude Code ou usar sua assinatura no Claude Code.

00:00:22Bem, a Anthropic foi rápida ao comentar sobre isso, mencionando que este é apenas um pequeno

00:00:27teste que eles estão realizando em apenas 2% das novas assinaturas prosumer.

00:00:32Acho meio estranho realizar esse tipo de teste, e também penso que a Anthropic poderia ter

00:00:40previsto o que viria pela frente ao realizar um teste como este, o impacto que um teste como este teria

00:00:47na sua imagem e no que as pessoas pensariam, porque, claro, isso se encaixa claramente na narrativa

00:00:53do que já estamos vendo, onde estamos obtendo menos uso de nossas assinaturas, vemos

00:00:59limites mais fortes ou mais rígidos, vemos a degradação do desempenho do modelo, pois parece que todas essas

00:01:08coisas estavam acontecendo nas últimas semanas. Quero dizer, a Anthropic reprimiu agressivamente

00:01:14o uso de sua assinatura fora do Claude Code. Se você quisesse usá-la com o Open Cloud,

00:01:21por exemplo, eles reprimiram isso, então tudo isso nos dá uma imagem clara e mais ampla.

00:01:28E o que se encaixa nessa imagem ou narrativa é este artigo de notícias que o GitHub publicou há alguns

00:01:37dias, onde deixaram claro que pausariam novas assinaturas para o GitHub Copilot Pro,

00:01:43Pro Plus e planos de estudante, e que estão apertando os limites de uso para planos individuais

00:01:49e, mais importante, que os modelos Opus não estão mais disponíveis nos planos Pro, e isso,

00:01:56claro, faz todo sentido, mas precisamos mergulhar um pouco mais na economia do que está acontecendo

00:02:02para entender por que isso está acontecendo e, mais importante, o que isso significa para nós também no

00:02:07futuro. Significa claramente que os dias de uso ilimitado e grandes subsídios acabaram, e para entender

00:02:17isso, temos que entender a economia dessas assinaturas e do uso de tokens, você poderia dizer, ou

00:02:25consumo de tokens, porque, claro, esses modelos de assinatura oferecidos pela Anthropic, pela

00:02:34OpenAI, pelo GitHub, eles realmente só funcionam se a maioria dos usuários não estiver realmente usando todo

00:02:43o uso disponível que eles têm. Esse é praticamente o caso para qualquer oferta de assinatura existente,

00:02:49não apenas para essas assinaturas de IA. Se você tem uma assinatura da Netflix e passa 24 horas por dia, 7 dias por semana, assistindo

00:02:56Netflix, você provavelmente, muito provavelmente, não será um cliente super lucrativo para eles, mas a maioria das pessoas

00:03:02não faz isso, e é assim que essas empresas podem obter lucro. Isso vale para todas as assinaturas,

00:03:10obviamente. Agora podemos ver o preço real, ou um preço que está mais próximo do preço real de nossas solicitações de IA

00:03:19se dermos uma olhada nas páginas de preços da API dessas empresas. Lá, por exemplo, podemos ver

00:03:26que o modelo mais recente da Anthropic, o Claude Opus 4.7, tem um preço de token de entrada de cinco dólares por

00:03:35um milhão de tokens, e um preço de token de saída de 25 dólares por um milhão de tokens. E podemos colocar isso

00:03:42em relação a outros modelos que eles têm, podemos, é claro, também colocá-lo em relação ao que a OpenAI tem

00:03:47a oferecer, por exemplo. Lá vemos que o GPT 5.4, que a maioria dos usuários do Codex provavelmente está usando agora, tem

00:03:54um preço de entrada de dois dólares e cinquenta por um milhão de tokens, ou seja, apenas metade do que tínhamos para o Opus 4.7

00:04:03e que temos um preço de saída de 22,50, um pouco menos do que vimos para o Opus. Agora,

00:04:11provavelmente é justo assumir que esses preços de API são preços que deixam essas empresas

00:04:20em um ponto de equilíbrio ou com um pequeno lucro em relação à sua margem bruta; portanto, se olharmos apenas para o

00:04:29custo de inferência especificamente, provavelmente podemos assumir que eles obterão lucro se você usar suas

00:04:36APIs. Agora, é claro, para isso é importante entender que o custo de execução dos modelos de IA

00:04:43depende, no final, de dois fatores principais: o treinamento dos modelos de IA, que custa dinheiro, e

00:04:53a inferência, é claro. Então, temos esses dois fatores aqui que entram em jogo para essas

00:04:59empresas de IA. Agora, é claro, o custo de treinamento é algo único, certo? Então você treina um modelo uma vez,

00:05:06e isso é super caro, mas obviamente é algo único. É claro que essas empresas então

00:05:12treinam mais e mais modelos, e é um novo custo único para cada modelo, mas uma vez que um modelo foi treinado,

00:05:18ele não incorre mais em nenhum custo de treinamento, exceto talvez para novas execuções de ajuste fino ou modelos derivados

00:05:25daquele modelo base, mas sim, a grande parte do custo ocorre apenas uma vez. Agora, para inferência,

00:05:33naturalmente é diferente. Este é um custo contínuo, é por solicitação no final, porque, é claro,

00:05:41inferência é o processo de produzir a saída concreta para seu prompt, para sua tarefa que você envia

00:05:48para um provedor de modelo, e inferência é, é claro, o que está acontecendo o tempo todo quando você está usando

00:05:53o Claude Code, quando você está usando o Codex, mas também, é claro, quando você envia um prompt no ChatGPT ou

00:05:58de qualquer outra forma. Agora, é claro, é onde você quer pelo menos empatar com o preço de sua API,

00:06:07porque, caso contrário, significa que você perde dinheiro em cada solicitação que recebe, e embora você pudesse, é claro,

00:06:13estar fazendo isso para aumentar sua participação de mercado, e embora eu não descartasse que empresas

00:06:19estejam ocasionalmente fazendo isso, fazer isso a longo prazo, é claro, não será viável, porque você vai

00:06:25falir. Agora, naturalmente, você também precisa ganhar seu custo de treinamento em algum momento, então, idealmente,

00:06:34essas solicitações recebidas que seus usuários estão enviando para você dão a você uma margem bruta suficiente sobre seu

00:06:41custo de inferência, para que essa margem também cubra seu custo de treinamento, custo de pessoal e assim por diante. Então, é claro,

00:06:48essa é a economia de como você pode executar e usar esses modelos de IA. Agora, como mencionado, a

00:06:57precificação da API é provavelmente a parte em que essas empresas não estão perdendo enormes quantidades de

00:07:02dinheiro, mas, é claro, como consumidor, como cliente, você perde. Se você fosse alimentar o Claude Code com esses

00:07:10preços sob demanda do Opus, você estaria pagando muito, muito mais do que se estivesse usando suas assinaturas,

00:07:18porque, claro, com a assinatura máxima, por exemplo, por apenas 200 dólares, você está obtendo

00:07:26muito uso deste plano, você obterá muitos milhões de tokens deste plano, e se você

00:07:34der uma olhada no que os tokens de saída normalmente custariam por um milhão de tokens, você pode ver que

00:07:39normalmente, se você ignorar os tokens de entrada, o que você não deveria, mas se você ignorá-los por esses dois

00:07:44cem dólares aqui, não deveríamos nem conseguir 10 milhões de tokens de saída, certo? Porque um milhão

00:07:51nos custa 25 dólares, então deveríamos conseguir apenas oito milhões de tokens de saída, e então, se você considerar

00:07:56tokens de entrada, seria menos do que isso, e claramente, se você tivesse alguma sessão de longa duração, se você esteve

00:08:02usando o Claude Code, por exemplo, por uma semana, e você rastreia seu uso de tokens, você verá que você

00:08:08pode ultrapassar esse limite, e você definitivamente poderia no passado, e isso torna óbvio por que as

00:08:14empresas estão tentando limitar quanto uso você pode obter de suas assinaturas

00:08:19e por que acho que veremos preços de assinatura mais altos, definitivamente no futuro, talvez já

00:08:25no futuro próximo. Agora, é claro, não é super fácil para essas empresas aumentarem seus preços,

00:08:30no entanto, porque participação de mercado, obviamente todas essas empresas querem capturar agressivamente a participação de mercado,

00:08:37o raciocínio sendo que, se você é a principal empresa estabelecida como o provedor de agentes de codificação em

00:08:45muitas empresas por aí, em muitas empresas por aí, elas provavelmente pagarão preços de assinatura mais altos

00:08:51no futuro, então você não quer começar a aumentar seus preços muito cedo, porque isso poderia

00:08:57levar alguns de seus clientes para sua concorrência, o que você não quer, é claro. Por outro lado,

00:09:02você não quer ir à falência. Quero dizer, por exemplo, a OpenAI levantou recentemente 122 bilhões de dólares

00:09:09para acelerar a próxima fase da IA, e você poderia ler que isso só lhes daria

00:09:17cerca de 18 meses de margem de manobra, ou seja, 18 meses até que precisem levantar fundos novamente. Então, claramente, você não pode

00:09:26continuar subsidiando todo esse uso para sempre, porque se você falir, então todos os seus clientes

00:09:32vão para a concorrência de qualquer maneira, então há um compromisso aqui, e é claro, exatamente o

00:09:39ponto difícil que essas empresas estão enfrentando agora. Essa é a economia aqui. Agora, é claro, como você

00:09:44provavelmente leu e também sentiu, se você é um jogador, por exemplo, estamos em um momento em que, por causa

00:09:52de todas as coisas de IA que estão acontecendo, estamos enfrentando uma grande escassez e crise de computação e preços altos para

00:10:01memória e tudo relacionado ao que esses modelos de IA e esses data centers de IA precisam, então

00:10:08memória é cara porque a inferência precisa de muita memória. Se você tentou executar modelos

00:10:13localmente no seu sistema, você sabe que precisa de muita memória para isso, então os preços da memória subiram,

00:10:19mas não é apenas memória, é também equipamento de rede, porque, é claro, você está executando tanto o treinamento

00:10:25quanto a inferência, não em um único chip, mas em enormes racks e clusters de chips, e todos esses

00:10:31clusters precisam de conexões entre os clusters, entre os chips, para que você possa construir super

00:10:36GPUs, por assim dizer, e esse equipamento de rede está em alta demanda e, portanto, é caro. E então, é claro,

00:10:43também temos energia e data centers, precisamos de ambos. Precisamos de data centers para colocar esses chips, e é por isso que

00:10:52muita construção está acontecendo lá, mas então esses data centers precisam de energia, certo? E você

00:10:58ouviu sobre isso também, energia é outro grande problema. Você não pode obtê-la da rede, ela simplesmente não

00:11:05foi construída para isso. Não há energia suficiente disponível lá, é por isso que todos esses novos data centers estão

00:11:12mudando para soluções fora da rede, onde a energia é produzida ao lado do data center com turbinas a gás

00:11:21ou energia nuclear, mas isso, é claro, leva tempo e também leva componentes, e não há uma

00:11:28quantidade infinita de empresas que podem construir essas usinas de energia, não há uma quantidade infinita de

00:11:35componentes necessários para construir essas usinas de energia, então isso está limitando a quantidade de

00:11:42computação que pode ficar online, o que, por sua vez, falta para a inferência e, é claro, também para o

00:11:48treinamento. Agora, historicamente, e com isso quero dizer apenas um ou dois anos atrás, o incentivo para

00:11:54essas empresas era dedicar muitos recursos de computação ao treinamento, porque isso lhe dá

00:12:00modelos melhores que permitem que você fique à frente ou saia na frente na corrida da IA, e esse incentivo ainda existe, mas

00:12:07é claro, hoje em dia também há um incentivo maior e maior importância aqui na parte de inferência,

00:12:14porque é a parte de inferência que lhe dá clientes, que lhe dá visibilidade no mercado,

00:12:19porque se ninguém pode usar seus modelos, então é ótimo que você tenha bons modelos, mas você não

00:12:25está ganhando nenhuma participação de mercado, então você precisa de inferência, isso se tornou muito mais importante, então as empresas têm

00:12:30que dividir os recursos de computação escassos e as capacidades dos data centers entre esses dois fins, e é claro,

00:12:38especialmente desde o início deste ano, também estamos vendo mudanças no comportamento de uso dos clientes,

00:12:45eles, o artigo de notícias do GitHub aqui, na verdade, é bem aberto sobre isso, fluxos de trabalho agenticos

00:12:51mudaram fundamentalmente as demandas de computação dos copiltos. Sessões longas e paralisadas agora regularmente

00:12:57consomem muito mais recursos do que a estrutura original do plano foi construída para suportar, e é o mesmo, é

00:13:04claro, para a Anthropic e a OpenAI. No passado, e novamente, isso significa apenas um ano atrás ou mais,

00:13:10essas empresas não principalmente, mas em grande parte, realmente só se concentravam em sessões de chat ocasionais. Um

00:13:20usuário, um cliente, ocasionalmente aparecia e fazia ao ChatGPT ou Claude uma pergunta, e é claro que

00:13:27isso poderia ter sido várias vezes ao dia, mas eram apenas algumas perguntas, apenas algumas respostas,

00:13:33algumas perguntas de acompanhamento, é claro, muito menos tokens do que todos esses fluxos de trabalho agenticos

00:13:39de longa duração e sessões de codificação. Nessas sessões de codificação, ou quaisquer fluxos de trabalho agenticos que você

00:13:44esteja executando, você está consumindo centenas de milhares e milhões de tokens rapidamente, muito rapidamente, muito

00:13:51mais rápido do que você poderia com apenas sua sessão de chat ocasional. Agora, dado o fato de que todos esses

00:13:58modelos modernos com os quais estamos lidando são modelos de pensamento, normalmente, a quantidade de tokens também ficou

00:14:05maior em comparação com um ano ou dois atrás, porque uma resposta simplesmente leva mais tokens devido a esse

00:14:12processo de pensamento, que, é claro, ainda são tokens, mesmo que você não os veja na resposta final,

00:14:17talvez. Portanto, a quantidade de tokens consumidos tornou-se muito, muito maior do que era um ano ou dois

00:14:24atrás, trazendo-nos novamente ao ponto de que a inferência está se tornando mais importante porque você precisa de muito

00:14:29mais inferência para lidar com toda essa geração de tokens que está acontecendo, e essa é a razão pela qual todos

00:14:37esses novos modelos são bem caros quando usados através da API, mas, ainda mais importante, por que

00:14:43essas assinaturas são tão difíceis para essas empresas agora. Elas introduziram essas

00:14:49assinaturas no passado, quando havia muito menos tokens sendo consumidos, e agora elas estão em um ponto

00:14:56onde, pelo mesmo preço de assinatura, as pessoas estão usando muito mais tokens. Essa é a dificuldade,

00:15:03agora, especialmente para a Anthropic, por exemplo, eu poderia imaginar que eles estão sentindo a dor um pouco mais

00:15:09do que a OpenAI, não apenas porque seus modelos parecem ser mais caros de executar se você apenas der uma olhada

00:15:16na precificação da API, mas também, é claro, porque historicamente, já um ano atrás, a Anthropic

00:15:22tinha mais clientes corporativos e de negócios, o que é bom para eles até certo ponto, é uma base de receita

00:15:29estável. E o ChatGPT ou a OpenAI tem sido mais baseada em consumidores, eles tinham mais pessoas normais, consumidores

00:15:38como clientes, e agora eles também estão se movendo mais para os negócios, mas historicamente, porque eles

00:15:43tiveram o momento ChatGPT, eles tinham mais pessoas normais como clientes. A desvantagem para a Anthropic agora,

00:15:50é claro, é que esses clientes de negócios são exatamente os clientes que estão executando esses fluxos de trabalho agenticos,

00:15:55ou que tendem a executar esses fluxos de trabalho agenticos. Quero dizer, seu pai e sua mãe, se eles estiverem

00:16:00pagando pelo ChatGPT, o que provavelmente não fazem, eles não estão executando fluxos de trabalho agenticos,

00:16:06mas você está, sua empresa está, e isso, é claro, torna a assinatura ainda mais difícil para

00:16:11a Anthropic, eu imaginaria, do que para a OpenAI, onde ainda há muitos "normies" na assinatura,

00:16:18eu acho, ainda assim eles definitivamente estão sentindo a dor também. E o que tudo isso significa agora? O que

00:16:24mudanças como essa, ou mudanças como nesta postagem no X onde a Anthropic está realizando testes para remover o Claude Code

00:16:32dos planos mais baratos, o que tudo isso significa para nós? Acho que é bem óbvio, veremos ainda

00:16:38limites mais rígidos no futuro e, portanto, é claro, podemos chegar a um ponto em que as assinaturas

00:16:42não pareçam mais valer a pena, e acho que esse será o ponto em que veremos

00:16:48preços mais altos. Não é irracional, acho, acreditar que essas assinaturas de codificação, ou geralmente

00:16:55essas assinaturas de uso agentico, custarão muitos milhares de dólares por mês em algum momento. Não

00:17:03este ano, muito provavelmente, mas em algum momento, porque, é claro, as empresas podem começar a comparar o custo de

00:17:10essas assinaturas com o custo dos funcionários, sim, e isso, é claro, não são ótimas notícias, e pode

00:17:17estar totalmente errado, mas é definitivamente o que eu acho que acontecerá. E, claro, quando você faz

00:17:23essa comparação, há muito espaço para que essas assinaturas fiquem muito, muito mais caras,

00:17:30obviamente. As assinaturas, então, não serão mais para as pessoas normais, então acho que também veremos

00:17:35novas ofertas de assinatura para eles, que simplesmente têm limites de uso muito mais rígidos, que são suficientes

00:17:41para o ChatGPT, mas não o suficiente para fluxos de trabalho agenticos. Mas, para o uso profissional, para os fluxos de trabalho

00:17:47agenticos, veremos limites mais rígidos e preços mais altos. Não tenho certeza de quando, porque você sabe, participação de mercado,

00:17:52então o que mencionei antes, mas eventualmente veremos isso, porque, em última análise,

00:17:58como mencionado, a OpenAI tem cerca de 18 meses de margem de manobra, eles provavelmente querem permanecer no negócio,

00:18:03o mesmo para a Anthropic, e, portanto, é isso que eu acho que veremos aqui em um ano ou mais, não sei.

Key Takeaway

O modelo de assinaturas ilimitadas de IA está se tornando economicamente insustentável devido ao alto consumo de tokens em fluxos de trabalho agenticos, forçando as empresas a restringir limites de uso e aumentar os preços para evitar prejuízos operacionais.

Highlights

A Anthropic testou a remoção do plugin Claude Code dos planos Pro para limitar o acesso a usuários de assinaturas mais caras.

O GitHub pausou novas assinaturas para os planos Copilot Pro e Pro Plus, além de remover modelos Opus dos níveis de entrada.

O custo de inferência do modelo Claude Opus 4.7 é de 5 dólares por milhão de tokens de entrada e 25 dólares por milhão de tokens de saída via API.

Fluxos de trabalho agenticos de longa duração consomem significativamente mais recursos de computação do que as sessões de chat ocasionais que fundamentaram as estruturas de assinatura originais.

A OpenAI levantou 122 bilhões de dólares, mas projeta uma margem de manobra operacional de apenas 18 meses antes de precisar de novos aportes.

A escassez de componentes de rede, memória de alta performance e disponibilidade de energia local para data centers limita a expansão da capacidade de inferência global.

Timeline

A desvalorização das assinaturas Pro

A Anthropic iniciou testes para limitar o uso do Claude Code apenas a planos de assinatura mais caros.
O GitHub restringiu novos acessos aos planos Copilot Pro e removeu modelos Opus dos pacotes individuais.
As empresas estão implementando limites de uso mais rígidos e reduzindo o desempenho dos modelos nos planos de assinatura padrão.

Mudanças recentes indicam uma tendência de restringir o acesso a recursos avançados de IA para assinantes individuais. A narrativa observada em diversas plataformas de IA aponta para uma redução deliberada no valor percebido das assinaturas mensais, com limites de uso cada vez mais agressivos para proteger a infraestrutura das empresas.

Economia de tokens e custos operacionais

O custo de execução de modelos IA divide-se em treinamento pontual e inferência contínua por solicitação.
O Claude Opus 4.7 cobra 25 dólares por um milhão de tokens de saída, enquanto o GPT 5.4 cobra 22,50 dólares.
Assinaturas de 200 dólares tornam-se deficitárias se o volume de tokens consumidos superar a margem bruta sobre o custo de inferência da API.

As empresas de IA dependem de usuários que consomem menos recursos do que o limite permitido para manter a lucratividade, modelo semelhante a assinaturas de streaming. O custo real do consumo de tokens supera frequentemente o valor fixo da assinatura, criando um desequilíbrio financeiro insustentável a longo prazo.

Escassez de infraestrutura e crise de computação

A demanda por memória de alta performance e equipamentos de rede para clusters de chips inflaciona os custos de operação.
A falta de energia disponível na rede convencional força a construção de data centers com soluções independentes como turbinas a gás ou energia nuclear.
A alocação de recursos escassos entre treinamento de novos modelos e inferência de modelos existentes é um desafio estratégico para o crescimento no mercado.

A expansão da IA enfrenta limitações físicas reais, incluindo o custo elevado de memória para inferência e a escassez de energia. Construir a infraestrutura necessária para suportar modelos de grande escala é um processo lento que depende de componentes limitados, o que restringe a quantidade de computação disponível para o mercado.

Impacto dos fluxos de trabalho agenticos

Fluxos de trabalho agenticos modernos consomem ordens de magnitude a mais de tokens do que as sessões de chat anteriores.
Modelos atuais de pensamento utilizam mais tokens por solicitação devido ao processo de raciocínio interno.
A transição de clientes consumidores para uso corporativo agrava o prejuízo das empresas com assinaturas fixas.

O uso de ferramentas como o Claude Code para tarefas longas e autônomas alterou o perfil de consumo de recursos. Enquanto assinaturas foram desenhadas para chats ocasionais, o uso atual por empresas e profissionais sobrecarrega a infraestrutura, tornando inevitável a migração para planos com preços baseados em uso real ou assinaturas significativamente mais caras.

Community Posts

Como reduzir pela metade as assinaturas de IA que consomem seu orçamento mensal

makedreamhace 12 horas4550

Write about this video