As assinaturas de IA estão se tornando menos atraentes

MMaximilian Schwarzmüller
Computing/SoftwareSmall Business/StartupsBusiness News

Transcript

00:00:00Esta manhã acordei vendo esta postagem aqui no X, que menciona que a Anthropic aparentemente removeu o
00:00:09o plugin de código do Claude do plano Pro, de modo que você precisa dos planos de assinatura
00:00:17mais caros para poder usar o Claude Code ou usar sua assinatura no Claude Code.
00:00:22Bem, a Anthropic foi rápida ao comentar sobre isso, mencionando que este é apenas um pequeno
00:00:27teste que eles estão realizando em apenas 2% das novas assinaturas prosumer.
00:00:32Acho meio estranho realizar esse tipo de teste, e também penso que a Anthropic poderia ter
00:00:40previsto o que viria pela frente ao realizar um teste como este, o impacto que um teste como este teria
00:00:47na sua imagem e no que as pessoas pensariam, porque, claro, isso se encaixa claramente na narrativa
00:00:53do que já estamos vendo, onde estamos obtendo menos uso de nossas assinaturas, vemos
00:00:59limites mais fortes ou mais rígidos, vemos a degradação do desempenho do modelo, pois parece que todas essas
00:01:08coisas estavam acontecendo nas últimas semanas. Quero dizer, a Anthropic reprimiu agressivamente
00:01:14o uso de sua assinatura fora do Claude Code. Se você quisesse usá-la com o Open Cloud,
00:01:21por exemplo, eles reprimiram isso, então tudo isso nos dá uma imagem clara e mais ampla.
00:01:28E o que se encaixa nessa imagem ou narrativa é este artigo de notícias que o GitHub publicou há alguns
00:01:37dias, onde deixaram claro que pausariam novas assinaturas para o GitHub Copilot Pro,
00:01:43Pro Plus e planos de estudante, e que estão apertando os limites de uso para planos individuais
00:01:49e, mais importante, que os modelos Opus não estão mais disponíveis nos planos Pro, e isso,
00:01:56claro, faz todo sentido, mas precisamos mergulhar um pouco mais na economia do que está acontecendo
00:02:02para entender por que isso está acontecendo e, mais importante, o que isso significa para nós também no
00:02:07futuro. Significa claramente que os dias de uso ilimitado e grandes subsídios acabaram, e para entender
00:02:17isso, temos que entender a economia dessas assinaturas e do uso de tokens, você poderia dizer, ou
00:02:25consumo de tokens, porque, claro, esses modelos de assinatura oferecidos pela Anthropic, pela
00:02:34OpenAI, pelo GitHub, eles realmente só funcionam se a maioria dos usuários não estiver realmente usando todo
00:02:43o uso disponível que eles têm. Esse é praticamente o caso para qualquer oferta de assinatura existente,
00:02:49não apenas para essas assinaturas de IA. Se você tem uma assinatura da Netflix e passa 24 horas por dia, 7 dias por semana, assistindo
00:02:56Netflix, você provavelmente, muito provavelmente, não será um cliente super lucrativo para eles, mas a maioria das pessoas
00:03:02não faz isso, e é assim que essas empresas podem obter lucro. Isso vale para todas as assinaturas,
00:03:10obviamente. Agora podemos ver o preço real, ou um preço que está mais próximo do preço real de nossas solicitações de IA
00:03:19se dermos uma olhada nas páginas de preços da API dessas empresas. Lá, por exemplo, podemos ver
00:03:26que o modelo mais recente da Anthropic, o Claude Opus 4.7, tem um preço de token de entrada de cinco dólares por
00:03:35um milhão de tokens, e um preço de token de saída de 25 dólares por um milhão de tokens. E podemos colocar isso
00:03:42em relação a outros modelos que eles têm, podemos, é claro, também colocá-lo em relação ao que a OpenAI tem
00:03:47a oferecer, por exemplo. Lá vemos que o GPT 5.4, que a maioria dos usuários do Codex provavelmente está usando agora, tem
00:03:54um preço de entrada de dois dólares e cinquenta por um milhão de tokens, ou seja, apenas metade do que tínhamos para o Opus 4.7
00:04:03e que temos um preço de saída de 22,50, um pouco menos do que vimos para o Opus. Agora,
00:04:11provavelmente é justo assumir que esses preços de API são preços que deixam essas empresas
00:04:20em um ponto de equilíbrio ou com um pequeno lucro em relação à sua margem bruta; portanto, se olharmos apenas para o
00:04:29custo de inferência especificamente, provavelmente podemos assumir que eles obterão lucro se você usar suas
00:04:36APIs. Agora, é claro, para isso é importante entender que o custo de execução dos modelos de IA
00:04:43depende, no final, de dois fatores principais: o treinamento dos modelos de IA, que custa dinheiro, e
00:04:53a inferência, é claro. Então, temos esses dois fatores aqui que entram em jogo para essas
00:04:59empresas de IA. Agora, é claro, o custo de treinamento é algo único, certo? Então você treina um modelo uma vez,
00:05:06e isso é super caro, mas obviamente é algo único. É claro que essas empresas então
00:05:12treinam mais e mais modelos, e é um novo custo único para cada modelo, mas uma vez que um modelo foi treinado,
00:05:18ele não incorre mais em nenhum custo de treinamento, exceto talvez para novas execuções de ajuste fino ou modelos derivados
00:05:25daquele modelo base, mas sim, a grande parte do custo ocorre apenas uma vez. Agora, para inferência,
00:05:33naturalmente é diferente. Este é um custo contínuo, é por solicitação no final, porque, é claro,
00:05:41inferência é o processo de produzir a saída concreta para seu prompt, para sua tarefa que você envia
00:05:48para um provedor de modelo, e inferência é, é claro, o que está acontecendo o tempo todo quando você está usando
00:05:53o Claude Code, quando você está usando o Codex, mas também, é claro, quando você envia um prompt no ChatGPT ou
00:05:58de qualquer outra forma. Agora, é claro, é onde você quer pelo menos empatar com o preço de sua API,
00:06:07porque, caso contrário, significa que você perde dinheiro em cada solicitação que recebe, e embora você pudesse, é claro,
00:06:13estar fazendo isso para aumentar sua participação de mercado, e embora eu não descartasse que empresas
00:06:19estejam ocasionalmente fazendo isso, fazer isso a longo prazo, é claro, não será viável, porque você vai
00:06:25falir. Agora, naturalmente, você também precisa ganhar seu custo de treinamento em algum momento, então, idealmente,
00:06:34essas solicitações recebidas que seus usuários estão enviando para você dão a você uma margem bruta suficiente sobre seu
00:06:41custo de inferência, para que essa margem também cubra seu custo de treinamento, custo de pessoal e assim por diante. Então, é claro,
00:06:48essa é a economia de como você pode executar e usar esses modelos de IA. Agora, como mencionado, a
00:06:57precificação da API é provavelmente a parte em que essas empresas não estão perdendo enormes quantidades de
00:07:02dinheiro, mas, é claro, como consumidor, como cliente, você perde. Se você fosse alimentar o Claude Code com esses
00:07:10preços sob demanda do Opus, você estaria pagando muito, muito mais do que se estivesse usando suas assinaturas,
00:07:18porque, claro, com a assinatura máxima, por exemplo, por apenas 200 dólares, você está obtendo
00:07:26muito uso deste plano, você obterá muitos milhões de tokens deste plano, e se você
00:07:34der uma olhada no que os tokens de saída normalmente custariam por um milhão de tokens, você pode ver que
00:07:39normalmente, se você ignorar os tokens de entrada, o que você não deveria, mas se você ignorá-los por esses dois
00:07:44cem dólares aqui, não deveríamos nem conseguir 10 milhões de tokens de saída, certo? Porque um milhão
00:07:51nos custa 25 dólares, então deveríamos conseguir apenas oito milhões de tokens de saída, e então, se você considerar
00:07:56tokens de entrada, seria menos do que isso, e claramente, se você tivesse alguma sessão de longa duração, se você esteve
00:08:02usando o Claude Code, por exemplo, por uma semana, e você rastreia seu uso de tokens, você verá que você
00:08:08pode ultrapassar esse limite, e você definitivamente poderia no passado, e isso torna óbvio por que as
00:08:14empresas estão tentando limitar quanto uso você pode obter de suas assinaturas
00:08:19e por que acho que veremos preços de assinatura mais altos, definitivamente no futuro, talvez já
00:08:25no futuro próximo. Agora, é claro, não é super fácil para essas empresas aumentarem seus preços,
00:08:30no entanto, porque participação de mercado, obviamente todas essas empresas querem capturar agressivamente a participação de mercado,
00:08:37o raciocínio sendo que, se você é a principal empresa estabelecida como o provedor de agentes de codificação em
00:08:45muitas empresas por aí, em muitas empresas por aí, elas provavelmente pagarão preços de assinatura mais altos
00:08:51no futuro, então você não quer começar a aumentar seus preços muito cedo, porque isso poderia
00:08:57levar alguns de seus clientes para sua concorrência, o que você não quer, é claro. Por outro lado,
00:09:02você não quer ir à falência. Quero dizer, por exemplo, a OpenAI levantou recentemente 122 bilhões de dólares
00:09:09para acelerar a próxima fase da IA, e você poderia ler que isso só lhes daria
00:09:17cerca de 18 meses de margem de manobra, ou seja, 18 meses até que precisem levantar fundos novamente. Então, claramente, você não pode
00:09:26continuar subsidiando todo esse uso para sempre, porque se você falir, então todos os seus clientes
00:09:32vão para a concorrência de qualquer maneira, então há um compromisso aqui, e é claro, exatamente o
00:09:39ponto difícil que essas empresas estão enfrentando agora. Essa é a economia aqui. Agora, é claro, como você
00:09:44provavelmente leu e também sentiu, se você é um jogador, por exemplo, estamos em um momento em que, por causa
00:09:52de todas as coisas de IA que estão acontecendo, estamos enfrentando uma grande escassez e crise de computação e preços altos para
00:10:01memória e tudo relacionado ao que esses modelos de IA e esses data centers de IA precisam, então
00:10:08memória é cara porque a inferência precisa de muita memória. Se você tentou executar modelos
00:10:13localmente no seu sistema, você sabe que precisa de muita memória para isso, então os preços da memória subiram,
00:10:19mas não é apenas memória, é também equipamento de rede, porque, é claro, você está executando tanto o treinamento
00:10:25quanto a inferência, não em um único chip, mas em enormes racks e clusters de chips, e todos esses
00:10:31clusters precisam de conexões entre os clusters, entre os chips, para que você possa construir super
00:10:36GPUs, por assim dizer, e esse equipamento de rede está em alta demanda e, portanto, é caro. E então, é claro,
00:10:43também temos energia e data centers, precisamos de ambos. Precisamos de data centers para colocar esses chips, e é por isso que
00:10:52muita construção está acontecendo lá, mas então esses data centers precisam de energia, certo? E você
00:10:58ouviu sobre isso também, energia é outro grande problema. Você não pode obtê-la da rede, ela simplesmente não
00:11:05foi construída para isso. Não há energia suficiente disponível lá, é por isso que todos esses novos data centers estão
00:11:12mudando para soluções fora da rede, onde a energia é produzida ao lado do data center com turbinas a gás
00:11:21ou energia nuclear, mas isso, é claro, leva tempo e também leva componentes, e não há uma
00:11:28quantidade infinita de empresas que podem construir essas usinas de energia, não há uma quantidade infinita de
00:11:35componentes necessários para construir essas usinas de energia, então isso está limitando a quantidade de
00:11:42computação que pode ficar online, o que, por sua vez, falta para a inferência e, é claro, também para o
00:11:48treinamento. Agora, historicamente, e com isso quero dizer apenas um ou dois anos atrás, o incentivo para
00:11:54essas empresas era dedicar muitos recursos de computação ao treinamento, porque isso lhe dá
00:12:00modelos melhores que permitem que você fique à frente ou saia na frente na corrida da IA, e esse incentivo ainda existe, mas
00:12:07é claro, hoje em dia também há um incentivo maior e maior importância aqui na parte de inferência,
00:12:14porque é a parte de inferência que lhe dá clientes, que lhe dá visibilidade no mercado,
00:12:19porque se ninguém pode usar seus modelos, então é ótimo que você tenha bons modelos, mas você não
00:12:25está ganhando nenhuma participação de mercado, então você precisa de inferência, isso se tornou muito mais importante, então as empresas têm
00:12:30que dividir os recursos de computação escassos e as capacidades dos data centers entre esses dois fins, e é claro,
00:12:38especialmente desde o início deste ano, também estamos vendo mudanças no comportamento de uso dos clientes,
00:12:45eles, o artigo de notícias do GitHub aqui, na verdade, é bem aberto sobre isso, fluxos de trabalho agenticos
00:12:51mudaram fundamentalmente as demandas de computação dos copiltos. Sessões longas e paralisadas agora regularmente
00:12:57consomem muito mais recursos do que a estrutura original do plano foi construída para suportar, e é o mesmo, é
00:13:04claro, para a Anthropic e a OpenAI. No passado, e novamente, isso significa apenas um ano atrás ou mais,
00:13:10essas empresas não principalmente, mas em grande parte, realmente só se concentravam em sessões de chat ocasionais. Um
00:13:20usuário, um cliente, ocasionalmente aparecia e fazia ao ChatGPT ou Claude uma pergunta, e é claro que
00:13:27isso poderia ter sido várias vezes ao dia, mas eram apenas algumas perguntas, apenas algumas respostas,
00:13:33algumas perguntas de acompanhamento, é claro, muito menos tokens do que todos esses fluxos de trabalho agenticos
00:13:39de longa duração e sessões de codificação. Nessas sessões de codificação, ou quaisquer fluxos de trabalho agenticos que você
00:13:44esteja executando, você está consumindo centenas de milhares e milhões de tokens rapidamente, muito rapidamente, muito
00:13:51mais rápido do que você poderia com apenas sua sessão de chat ocasional. Agora, dado o fato de que todos esses
00:13:58modelos modernos com os quais estamos lidando são modelos de pensamento, normalmente, a quantidade de tokens também ficou
00:14:05maior em comparação com um ano ou dois atrás, porque uma resposta simplesmente leva mais tokens devido a esse
00:14:12processo de pensamento, que, é claro, ainda são tokens, mesmo que você não os veja na resposta final,
00:14:17talvez. Portanto, a quantidade de tokens consumidos tornou-se muito, muito maior do que era um ano ou dois
00:14:24atrás, trazendo-nos novamente ao ponto de que a inferência está se tornando mais importante porque você precisa de muito
00:14:29mais inferência para lidar com toda essa geração de tokens que está acontecendo, e essa é a razão pela qual todos
00:14:37esses novos modelos são bem caros quando usados através da API, mas, ainda mais importante, por que
00:14:43essas assinaturas são tão difíceis para essas empresas agora. Elas introduziram essas
00:14:49assinaturas no passado, quando havia muito menos tokens sendo consumidos, e agora elas estão em um ponto
00:14:56onde, pelo mesmo preço de assinatura, as pessoas estão usando muito mais tokens. Essa é a dificuldade,
00:15:03agora, especialmente para a Anthropic, por exemplo, eu poderia imaginar que eles estão sentindo a dor um pouco mais
00:15:09do que a OpenAI, não apenas porque seus modelos parecem ser mais caros de executar se você apenas der uma olhada
00:15:16na precificação da API, mas também, é claro, porque historicamente, já um ano atrás, a Anthropic
00:15:22tinha mais clientes corporativos e de negócios, o que é bom para eles até certo ponto, é uma base de receita
00:15:29estável. E o ChatGPT ou a OpenAI tem sido mais baseada em consumidores, eles tinham mais pessoas normais, consumidores
00:15:38como clientes, e agora eles também estão se movendo mais para os negócios, mas historicamente, porque eles
00:15:43tiveram o momento ChatGPT, eles tinham mais pessoas normais como clientes. A desvantagem para a Anthropic agora,
00:15:50é claro, é que esses clientes de negócios são exatamente os clientes que estão executando esses fluxos de trabalho agenticos,
00:15:55ou que tendem a executar esses fluxos de trabalho agenticos. Quero dizer, seu pai e sua mãe, se eles estiverem
00:16:00pagando pelo ChatGPT, o que provavelmente não fazem, eles não estão executando fluxos de trabalho agenticos,
00:16:06mas você está, sua empresa está, e isso, é claro, torna a assinatura ainda mais difícil para
00:16:11a Anthropic, eu imaginaria, do que para a OpenAI, onde ainda há muitos "normies" na assinatura,
00:16:18eu acho, ainda assim eles definitivamente estão sentindo a dor também. E o que tudo isso significa agora? O que
00:16:24mudanças como essa, ou mudanças como nesta postagem no X onde a Anthropic está realizando testes para remover o Claude Code
00:16:32dos planos mais baratos, o que tudo isso significa para nós? Acho que é bem óbvio, veremos ainda
00:16:38limites mais rígidos no futuro e, portanto, é claro, podemos chegar a um ponto em que as assinaturas
00:16:42não pareçam mais valer a pena, e acho que esse será o ponto em que veremos
00:16:48preços mais altos. Não é irracional, acho, acreditar que essas assinaturas de codificação, ou geralmente
00:16:55essas assinaturas de uso agentico, custarão muitos milhares de dólares por mês em algum momento. Não
00:17:03este ano, muito provavelmente, mas em algum momento, porque, é claro, as empresas podem começar a comparar o custo de
00:17:10essas assinaturas com o custo dos funcionários, sim, e isso, é claro, não são ótimas notícias, e pode
00:17:17estar totalmente errado, mas é definitivamente o que eu acho que acontecerá. E, claro, quando você faz
00:17:23essa comparação, há muito espaço para que essas assinaturas fiquem muito, muito mais caras,
00:17:30obviamente. As assinaturas, então, não serão mais para as pessoas normais, então acho que também veremos
00:17:35novas ofertas de assinatura para eles, que simplesmente têm limites de uso muito mais rígidos, que são suficientes
00:17:41para o ChatGPT, mas não o suficiente para fluxos de trabalho agenticos. Mas, para o uso profissional, para os fluxos de trabalho
00:17:47agenticos, veremos limites mais rígidos e preços mais altos. Não tenho certeza de quando, porque você sabe, participação de mercado,
00:17:52então o que mencionei antes, mas eventualmente veremos isso, porque, em última análise,
00:17:58como mencionado, a OpenAI tem cerca de 18 meses de margem de manobra, eles provavelmente querem permanecer no negócio,
00:18:03o mesmo para a Anthropic, e, portanto, é isso que eu acho que veremos aqui em um ano ou mais, não sei.

Key Takeaway

O modelo de assinaturas ilimitadas de IA está se tornando economicamente insustentável devido ao alto consumo de tokens em fluxos de trabalho agenticos, forçando as empresas a restringir limites de uso e aumentar os preços para evitar prejuízos operacionais.

Highlights

A Anthropic testou a remoção do plugin Claude Code dos planos Pro para limitar o acesso a usuários de assinaturas mais caras.

O GitHub pausou novas assinaturas para os planos Copilot Pro e Pro Plus, além de remover modelos Opus dos níveis de entrada.

O custo de inferência do modelo Claude Opus 4.7 é de 5 dólares por milhão de tokens de entrada e 25 dólares por milhão de tokens de saída via API.

Fluxos de trabalho agenticos de longa duração consomem significativamente mais recursos de computação do que as sessões de chat ocasionais que fundamentaram as estruturas de assinatura originais.

A OpenAI levantou 122 bilhões de dólares, mas projeta uma margem de manobra operacional de apenas 18 meses antes de precisar de novos aportes.

A escassez de componentes de rede, memória de alta performance e disponibilidade de energia local para data centers limita a expansão da capacidade de inferência global.

Timeline

A desvalorização das assinaturas Pro

  • A Anthropic iniciou testes para limitar o uso do Claude Code apenas a planos de assinatura mais caros.
  • O GitHub restringiu novos acessos aos planos Copilot Pro e removeu modelos Opus dos pacotes individuais.
  • As empresas estão implementando limites de uso mais rígidos e reduzindo o desempenho dos modelos nos planos de assinatura padrão.

Mudanças recentes indicam uma tendência de restringir o acesso a recursos avançados de IA para assinantes individuais. A narrativa observada em diversas plataformas de IA aponta para uma redução deliberada no valor percebido das assinaturas mensais, com limites de uso cada vez mais agressivos para proteger a infraestrutura das empresas.

Economia de tokens e custos operacionais

  • O custo de execução de modelos IA divide-se em treinamento pontual e inferência contínua por solicitação.
  • O Claude Opus 4.7 cobra 25 dólares por um milhão de tokens de saída, enquanto o GPT 5.4 cobra 22,50 dólares.
  • Assinaturas de 200 dólares tornam-se deficitárias se o volume de tokens consumidos superar a margem bruta sobre o custo de inferência da API.

As empresas de IA dependem de usuários que consomem menos recursos do que o limite permitido para manter a lucratividade, modelo semelhante a assinaturas de streaming. O custo real do consumo de tokens supera frequentemente o valor fixo da assinatura, criando um desequilíbrio financeiro insustentável a longo prazo.

Escassez de infraestrutura e crise de computação

  • A demanda por memória de alta performance e equipamentos de rede para clusters de chips inflaciona os custos de operação.
  • A falta de energia disponível na rede convencional força a construção de data centers com soluções independentes como turbinas a gás ou energia nuclear.
  • A alocação de recursos escassos entre treinamento de novos modelos e inferência de modelos existentes é um desafio estratégico para o crescimento no mercado.

A expansão da IA enfrenta limitações físicas reais, incluindo o custo elevado de memória para inferência e a escassez de energia. Construir a infraestrutura necessária para suportar modelos de grande escala é um processo lento que depende de componentes limitados, o que restringe a quantidade de computação disponível para o mercado.

Impacto dos fluxos de trabalho agenticos

  • Fluxos de trabalho agenticos modernos consomem ordens de magnitude a mais de tokens do que as sessões de chat anteriores.
  • Modelos atuais de pensamento utilizam mais tokens por solicitação devido ao processo de raciocínio interno.
  • A transição de clientes consumidores para uso corporativo agrava o prejuízo das empresas com assinaturas fixas.

O uso de ferramentas como o Claude Code para tarefas longas e autônomas alterou o perfil de consumo de recursos. Enquanto assinaturas foram desenhadas para chats ocasionais, o uso atual por empresas e profissionais sobrecarrega a infraestrutura, tornando inevitável a migração para planos com preços baseados em uso real ou assinaturas significativamente mais caras.

Community Posts

View all posts