00:00:00Esta manhã acordei vendo esta postagem aqui no X, que menciona que a Anthropic aparentemente removeu o
00:00:09o plugin de código do Claude do plano Pro, de modo que você precisa dos planos de assinatura
00:00:17mais caros para poder usar o Claude Code ou usar sua assinatura no Claude Code.
00:00:22Bem, a Anthropic foi rápida ao comentar sobre isso, mencionando que este é apenas um pequeno
00:00:27teste que eles estão realizando em apenas 2% das novas assinaturas prosumer.
00:00:32Acho meio estranho realizar esse tipo de teste, e também penso que a Anthropic poderia ter
00:00:40previsto o que viria pela frente ao realizar um teste como este, o impacto que um teste como este teria
00:00:47na sua imagem e no que as pessoas pensariam, porque, claro, isso se encaixa claramente na narrativa
00:00:53do que já estamos vendo, onde estamos obtendo menos uso de nossas assinaturas, vemos
00:00:59limites mais fortes ou mais rígidos, vemos a degradação do desempenho do modelo, pois parece que todas essas
00:01:08coisas estavam acontecendo nas últimas semanas. Quero dizer, a Anthropic reprimiu agressivamente
00:01:14o uso de sua assinatura fora do Claude Code. Se você quisesse usá-la com o Open Cloud,
00:01:21por exemplo, eles reprimiram isso, então tudo isso nos dá uma imagem clara e mais ampla.
00:01:28E o que se encaixa nessa imagem ou narrativa é este artigo de notícias que o GitHub publicou há alguns
00:01:37dias, onde deixaram claro que pausariam novas assinaturas para o GitHub Copilot Pro,
00:01:43Pro Plus e planos de estudante, e que estão apertando os limites de uso para planos individuais
00:01:49e, mais importante, que os modelos Opus não estão mais disponíveis nos planos Pro, e isso,
00:01:56claro, faz todo sentido, mas precisamos mergulhar um pouco mais na economia do que está acontecendo
00:02:02para entender por que isso está acontecendo e, mais importante, o que isso significa para nós também no
00:02:07futuro. Significa claramente que os dias de uso ilimitado e grandes subsídios acabaram, e para entender
00:02:17isso, temos que entender a economia dessas assinaturas e do uso de tokens, você poderia dizer, ou
00:02:25consumo de tokens, porque, claro, esses modelos de assinatura oferecidos pela Anthropic, pela
00:02:34OpenAI, pelo GitHub, eles realmente só funcionam se a maioria dos usuários não estiver realmente usando todo
00:02:43o uso disponível que eles têm. Esse é praticamente o caso para qualquer oferta de assinatura existente,
00:02:49não apenas para essas assinaturas de IA. Se você tem uma assinatura da Netflix e passa 24 horas por dia, 7 dias por semana, assistindo
00:02:56Netflix, você provavelmente, muito provavelmente, não será um cliente super lucrativo para eles, mas a maioria das pessoas
00:03:02não faz isso, e é assim que essas empresas podem obter lucro. Isso vale para todas as assinaturas,
00:03:10obviamente. Agora podemos ver o preço real, ou um preço que está mais próximo do preço real de nossas solicitações de IA
00:03:19se dermos uma olhada nas páginas de preços da API dessas empresas. Lá, por exemplo, podemos ver
00:03:26que o modelo mais recente da Anthropic, o Claude Opus 4.7, tem um preço de token de entrada de cinco dólares por
00:03:35um milhão de tokens, e um preço de token de saída de 25 dólares por um milhão de tokens. E podemos colocar isso
00:03:42em relação a outros modelos que eles têm, podemos, é claro, também colocá-lo em relação ao que a OpenAI tem
00:03:47a oferecer, por exemplo. Lá vemos que o GPT 5.4, que a maioria dos usuários do Codex provavelmente está usando agora, tem
00:03:54um preço de entrada de dois dólares e cinquenta por um milhão de tokens, ou seja, apenas metade do que tínhamos para o Opus 4.7
00:04:03e que temos um preço de saída de 22,50, um pouco menos do que vimos para o Opus. Agora,
00:04:11provavelmente é justo assumir que esses preços de API são preços que deixam essas empresas
00:04:20em um ponto de equilíbrio ou com um pequeno lucro em relação à sua margem bruta; portanto, se olharmos apenas para o
00:04:29custo de inferência especificamente, provavelmente podemos assumir que eles obterão lucro se você usar suas
00:04:36APIs. Agora, é claro, para isso é importante entender que o custo de execução dos modelos de IA
00:04:43depende, no final, de dois fatores principais: o treinamento dos modelos de IA, que custa dinheiro, e
00:04:53a inferência, é claro. Então, temos esses dois fatores aqui que entram em jogo para essas
00:04:59empresas de IA. Agora, é claro, o custo de treinamento é algo único, certo? Então você treina um modelo uma vez,
00:05:06e isso é super caro, mas obviamente é algo único. É claro que essas empresas então
00:05:12treinam mais e mais modelos, e é um novo custo único para cada modelo, mas uma vez que um modelo foi treinado,
00:05:18ele não incorre mais em nenhum custo de treinamento, exceto talvez para novas execuções de ajuste fino ou modelos derivados
00:05:25daquele modelo base, mas sim, a grande parte do custo ocorre apenas uma vez. Agora, para inferência,
00:05:33naturalmente é diferente. Este é um custo contínuo, é por solicitação no final, porque, é claro,
00:05:41inferência é o processo de produzir a saída concreta para seu prompt, para sua tarefa que você envia
00:05:48para um provedor de modelo, e inferência é, é claro, o que está acontecendo o tempo todo quando você está usando
00:05:53o Claude Code, quando você está usando o Codex, mas também, é claro, quando você envia um prompt no ChatGPT ou
00:05:58de qualquer outra forma. Agora, é claro, é onde você quer pelo menos empatar com o preço de sua API,
00:06:07porque, caso contrário, significa que você perde dinheiro em cada solicitação que recebe, e embora você pudesse, é claro,
00:06:13estar fazendo isso para aumentar sua participação de mercado, e embora eu não descartasse que empresas
00:06:19estejam ocasionalmente fazendo isso, fazer isso a longo prazo, é claro, não será viável, porque você vai
00:06:25falir. Agora, naturalmente, você também precisa ganhar seu custo de treinamento em algum momento, então, idealmente,
00:06:34essas solicitações recebidas que seus usuários estão enviando para você dão a você uma margem bruta suficiente sobre seu
00:06:41custo de inferência, para que essa margem também cubra seu custo de treinamento, custo de pessoal e assim por diante. Então, é claro,
00:06:48essa é a economia de como você pode executar e usar esses modelos de IA. Agora, como mencionado, a
00:06:57precificação da API é provavelmente a parte em que essas empresas não estão perdendo enormes quantidades de
00:07:02dinheiro, mas, é claro, como consumidor, como cliente, você perde. Se você fosse alimentar o Claude Code com esses
00:07:10preços sob demanda do Opus, você estaria pagando muito, muito mais do que se estivesse usando suas assinaturas,
00:07:18porque, claro, com a assinatura máxima, por exemplo, por apenas 200 dólares, você está obtendo
00:07:26muito uso deste plano, você obterá muitos milhões de tokens deste plano, e se você
00:07:34der uma olhada no que os tokens de saída normalmente custariam por um milhão de tokens, você pode ver que
00:07:39normalmente, se você ignorar os tokens de entrada, o que você não deveria, mas se você ignorá-los por esses dois
00:07:44cem dólares aqui, não deveríamos nem conseguir 10 milhões de tokens de saída, certo? Porque um milhão
00:07:51nos custa 25 dólares, então deveríamos conseguir apenas oito milhões de tokens de saída, e então, se você considerar
00:07:56tokens de entrada, seria menos do que isso, e claramente, se você tivesse alguma sessão de longa duração, se você esteve
00:08:02usando o Claude Code, por exemplo, por uma semana, e você rastreia seu uso de tokens, você verá que você
00:08:08pode ultrapassar esse limite, e você definitivamente poderia no passado, e isso torna óbvio por que as
00:08:14empresas estão tentando limitar quanto uso você pode obter de suas assinaturas
00:08:19e por que acho que veremos preços de assinatura mais altos, definitivamente no futuro, talvez já
00:08:25no futuro próximo. Agora, é claro, não é super fácil para essas empresas aumentarem seus preços,
00:08:30no entanto, porque participação de mercado, obviamente todas essas empresas querem capturar agressivamente a participação de mercado,
00:08:37o raciocínio sendo que, se você é a principal empresa estabelecida como o provedor de agentes de codificação em
00:08:45muitas empresas por aí, em muitas empresas por aí, elas provavelmente pagarão preços de assinatura mais altos
00:08:51no futuro, então você não quer começar a aumentar seus preços muito cedo, porque isso poderia
00:08:57levar alguns de seus clientes para sua concorrência, o que você não quer, é claro. Por outro lado,
00:09:02você não quer ir à falência. Quero dizer, por exemplo, a OpenAI levantou recentemente 122 bilhões de dólares
00:09:09para acelerar a próxima fase da IA, e você poderia ler que isso só lhes daria
00:09:17cerca de 18 meses de margem de manobra, ou seja, 18 meses até que precisem levantar fundos novamente. Então, claramente, você não pode
00:09:26continuar subsidiando todo esse uso para sempre, porque se você falir, então todos os seus clientes
00:09:32vão para a concorrência de qualquer maneira, então há um compromisso aqui, e é claro, exatamente o
00:09:39ponto difícil que essas empresas estão enfrentando agora. Essa é a economia aqui. Agora, é claro, como você
00:09:44provavelmente leu e também sentiu, se você é um jogador, por exemplo, estamos em um momento em que, por causa
00:09:52de todas as coisas de IA que estão acontecendo, estamos enfrentando uma grande escassez e crise de computação e preços altos para
00:10:01memória e tudo relacionado ao que esses modelos de IA e esses data centers de IA precisam, então
00:10:08memória é cara porque a inferência precisa de muita memória. Se você tentou executar modelos
00:10:13localmente no seu sistema, você sabe que precisa de muita memória para isso, então os preços da memória subiram,
00:10:19mas não é apenas memória, é também equipamento de rede, porque, é claro, você está executando tanto o treinamento
00:10:25quanto a inferência, não em um único chip, mas em enormes racks e clusters de chips, e todos esses
00:10:31clusters precisam de conexões entre os clusters, entre os chips, para que você possa construir super
00:10:36GPUs, por assim dizer, e esse equipamento de rede está em alta demanda e, portanto, é caro. E então, é claro,
00:10:43também temos energia e data centers, precisamos de ambos. Precisamos de data centers para colocar esses chips, e é por isso que
00:10:52muita construção está acontecendo lá, mas então esses data centers precisam de energia, certo? E você
00:10:58ouviu sobre isso também, energia é outro grande problema. Você não pode obtê-la da rede, ela simplesmente não
00:11:05foi construída para isso. Não há energia suficiente disponível lá, é por isso que todos esses novos data centers estão
00:11:12mudando para soluções fora da rede, onde a energia é produzida ao lado do data center com turbinas a gás
00:11:21ou energia nuclear, mas isso, é claro, leva tempo e também leva componentes, e não há uma
00:11:28quantidade infinita de empresas que podem construir essas usinas de energia, não há uma quantidade infinita de
00:11:35componentes necessários para construir essas usinas de energia, então isso está limitando a quantidade de
00:11:42computação que pode ficar online, o que, por sua vez, falta para a inferência e, é claro, também para o
00:11:48treinamento. Agora, historicamente, e com isso quero dizer apenas um ou dois anos atrás, o incentivo para
00:11:54essas empresas era dedicar muitos recursos de computação ao treinamento, porque isso lhe dá
00:12:00modelos melhores que permitem que você fique à frente ou saia na frente na corrida da IA, e esse incentivo ainda existe, mas
00:12:07é claro, hoje em dia também há um incentivo maior e maior importância aqui na parte de inferência,
00:12:14porque é a parte de inferência que lhe dá clientes, que lhe dá visibilidade no mercado,
00:12:19porque se ninguém pode usar seus modelos, então é ótimo que você tenha bons modelos, mas você não
00:12:25está ganhando nenhuma participação de mercado, então você precisa de inferência, isso se tornou muito mais importante, então as empresas têm
00:12:30que dividir os recursos de computação escassos e as capacidades dos data centers entre esses dois fins, e é claro,
00:12:38especialmente desde o início deste ano, também estamos vendo mudanças no comportamento de uso dos clientes,
00:12:45eles, o artigo de notícias do GitHub aqui, na verdade, é bem aberto sobre isso, fluxos de trabalho agenticos
00:12:51mudaram fundamentalmente as demandas de computação dos copiltos. Sessões longas e paralisadas agora regularmente
00:12:57consomem muito mais recursos do que a estrutura original do plano foi construída para suportar, e é o mesmo, é
00:13:04claro, para a Anthropic e a OpenAI. No passado, e novamente, isso significa apenas um ano atrás ou mais,
00:13:10essas empresas não principalmente, mas em grande parte, realmente só se concentravam em sessões de chat ocasionais. Um
00:13:20usuário, um cliente, ocasionalmente aparecia e fazia ao ChatGPT ou Claude uma pergunta, e é claro que
00:13:27isso poderia ter sido várias vezes ao dia, mas eram apenas algumas perguntas, apenas algumas respostas,
00:13:33algumas perguntas de acompanhamento, é claro, muito menos tokens do que todos esses fluxos de trabalho agenticos
00:13:39de longa duração e sessões de codificação. Nessas sessões de codificação, ou quaisquer fluxos de trabalho agenticos que você
00:13:44esteja executando, você está consumindo centenas de milhares e milhões de tokens rapidamente, muito rapidamente, muito
00:13:51mais rápido do que você poderia com apenas sua sessão de chat ocasional. Agora, dado o fato de que todos esses
00:13:58modelos modernos com os quais estamos lidando são modelos de pensamento, normalmente, a quantidade de tokens também ficou
00:14:05maior em comparação com um ano ou dois atrás, porque uma resposta simplesmente leva mais tokens devido a esse
00:14:12processo de pensamento, que, é claro, ainda são tokens, mesmo que você não os veja na resposta final,
00:14:17talvez. Portanto, a quantidade de tokens consumidos tornou-se muito, muito maior do que era um ano ou dois
00:14:24atrás, trazendo-nos novamente ao ponto de que a inferência está se tornando mais importante porque você precisa de muito
00:14:29mais inferência para lidar com toda essa geração de tokens que está acontecendo, e essa é a razão pela qual todos
00:14:37esses novos modelos são bem caros quando usados através da API, mas, ainda mais importante, por que
00:14:43essas assinaturas são tão difíceis para essas empresas agora. Elas introduziram essas
00:14:49assinaturas no passado, quando havia muito menos tokens sendo consumidos, e agora elas estão em um ponto
00:14:56onde, pelo mesmo preço de assinatura, as pessoas estão usando muito mais tokens. Essa é a dificuldade,
00:15:03agora, especialmente para a Anthropic, por exemplo, eu poderia imaginar que eles estão sentindo a dor um pouco mais
00:15:09do que a OpenAI, não apenas porque seus modelos parecem ser mais caros de executar se você apenas der uma olhada
00:15:16na precificação da API, mas também, é claro, porque historicamente, já um ano atrás, a Anthropic
00:15:22tinha mais clientes corporativos e de negócios, o que é bom para eles até certo ponto, é uma base de receita
00:15:29estável. E o ChatGPT ou a OpenAI tem sido mais baseada em consumidores, eles tinham mais pessoas normais, consumidores
00:15:38como clientes, e agora eles também estão se movendo mais para os negócios, mas historicamente, porque eles
00:15:43tiveram o momento ChatGPT, eles tinham mais pessoas normais como clientes. A desvantagem para a Anthropic agora,
00:15:50é claro, é que esses clientes de negócios são exatamente os clientes que estão executando esses fluxos de trabalho agenticos,
00:15:55ou que tendem a executar esses fluxos de trabalho agenticos. Quero dizer, seu pai e sua mãe, se eles estiverem
00:16:00pagando pelo ChatGPT, o que provavelmente não fazem, eles não estão executando fluxos de trabalho agenticos,
00:16:06mas você está, sua empresa está, e isso, é claro, torna a assinatura ainda mais difícil para
00:16:11a Anthropic, eu imaginaria, do que para a OpenAI, onde ainda há muitos "normies" na assinatura,
00:16:18eu acho, ainda assim eles definitivamente estão sentindo a dor também. E o que tudo isso significa agora? O que
00:16:24mudanças como essa, ou mudanças como nesta postagem no X onde a Anthropic está realizando testes para remover o Claude Code
00:16:32dos planos mais baratos, o que tudo isso significa para nós? Acho que é bem óbvio, veremos ainda
00:16:38limites mais rígidos no futuro e, portanto, é claro, podemos chegar a um ponto em que as assinaturas
00:16:42não pareçam mais valer a pena, e acho que esse será o ponto em que veremos
00:16:48preços mais altos. Não é irracional, acho, acreditar que essas assinaturas de codificação, ou geralmente
00:16:55essas assinaturas de uso agentico, custarão muitos milhares de dólares por mês em algum momento. Não
00:17:03este ano, muito provavelmente, mas em algum momento, porque, é claro, as empresas podem começar a comparar o custo de
00:17:10essas assinaturas com o custo dos funcionários, sim, e isso, é claro, não são ótimas notícias, e pode
00:17:17estar totalmente errado, mas é definitivamente o que eu acho que acontecerá. E, claro, quando você faz
00:17:23essa comparação, há muito espaço para que essas assinaturas fiquem muito, muito mais caras,
00:17:30obviamente. As assinaturas, então, não serão mais para as pessoas normais, então acho que também veremos
00:17:35novas ofertas de assinatura para eles, que simplesmente têm limites de uso muito mais rígidos, que são suficientes
00:17:41para o ChatGPT, mas não o suficiente para fluxos de trabalho agenticos. Mas, para o uso profissional, para os fluxos de trabalho
00:17:47agenticos, veremos limites mais rígidos e preços mais altos. Não tenho certeza de quando, porque você sabe, participação de mercado,
00:17:52então o que mencionei antes, mas eventualmente veremos isso, porque, em última análise,
00:17:58como mencionado, a OpenAI tem cerca de 18 meses de margem de manobra, eles provavelmente querem permanecer no negócio,
00:18:03o mesmo para a Anthropic, e, portanto, é isso que eu acho que veremos aqui em um ano ou mais, não sei.