Les abonnements IA deviennent moins attractifs

MMaximilian Schwarzmüller
Computing/SoftwareSmall Business/StartupsBusiness News

Transcript

00:00:00Ce matin, je me suis réveillé en voyant ce post ici sur X qui mentionne qu'Anthropic a apparemment retiré le
00:00:09plug-in de code Cloud Code du plan Pro, de sorte que vous avez besoin des plans d'abonnement
00:00:17plus chers pour pouvoir utiliser Cloud Code ou utiliser votre abonnement dans Cloud Code.
00:00:22Maintenant, Anthropic a été rapide à commenter cela, mentionnant qu'il ne s'agit que d'un petit
00:00:27test qu'ils mènent sur seulement 2 % des nouvelles inscriptions prosumer.
00:00:32Je trouve un peu étrange de faire ce genre de test et je pense aussi qu'Anthropic aurait pu
00:00:40anticiper les conséquences d'un tel test, l'impact qu'un test comme celui-ci aurait
00:00:47sur leur image et ce que les gens penseraient, car évidemment, cela correspond clairement au récit
00:00:53de ce que nous voyons déjà, où nous obtenons moins d'utilisation de nos abonnements, nous voyons
00:00:59des limites plus fortes ou plus strictes, nous voyons une dégradation des performances des modèles, comme si toutes ces
00:01:08choses se produisaient depuis quelques semaines. Je veux dire, Anthropic a agressivement restreint
00:01:14l'utilisation de leur abonnement en dehors de Cloud Code. Si vous vouliez l'utiliser avec Open Cloud
00:01:21par exemple, ils ont sévi contre cela, donc tout cela nous donne une image claire et plus globale.
00:01:28Et ce qui correspond à cette image ou à ce récit, c'est cet article de presse que GitHub a publié il y a quelques
00:01:37jours, où ils ont clairement indiqué qu'ils allaient suspendre les nouvelles inscriptions aux plans GitHub Copilot Pro,
00:01:43Pro Plus et Étudiant, et qu'ils durcissent les limites d'utilisation pour les plans individuels
00:01:49et, plus important encore, que les modèles Opus ne sont plus disponibles dans les plans Pro, et tout
00:01:56cela est logique, mais nous devons approfondir l'économie de ce qui se passe
00:02:02pour comprendre pourquoi cela arrive et, surtout, ce que cela signifie pour nous aussi à
00:02:07l'avenir. Cela signifie clairement que l'époque de l'utilisation illimitée et des lourdes subventions est révolue, et pour comprendre
00:02:17cela, nous devons comprendre l'économie de ces abonnements et de l'utilisation des jetons, ou
00:02:25la consommation de jetons, car bien sûr, ces modèles d'abonnement offerts par Anthropic, par
00:02:34OpenAI, par GitHub, ne fonctionnent vraiment que si la majorité des utilisateurs n'utilisent pas réellement toute
00:02:43l'utilisation disponible dont ils disposent. C'est à peu près le cas pour toute offre d'abonnement existante
00:02:49pas seulement pour ces abonnements IA. Si vous avez un abonnement Netflix et que vous passez 24h/24, 7j/7 à regarder
00:02:56Netflix, vous ne serez probablement pas un client super rentable pour eux, mais la plupart des gens
00:03:02ne font pas ça, et c'est ainsi que ces entreprises peuvent réaliser un profit. C'est vrai pour tous les abonnements
00:03:10évidemment. Maintenant, nous pouvons voir le vrai prix, ou un prix plus proche du vrai prix de nos requêtes IA
00:03:19si nous jetons un œil aux pages de tarification des API de ces entreprises ; là, par exemple, nous pouvons voir
00:03:26que le dernier modèle d'Anthropic, Claude Opus 4.7, a un prix de jetons d'entrée de cinq dollars par
00:03:35million de jetons et un prix de jetons de sortie de 25 dollars par million de jetons, et nous pouvons mettre cela
00:03:42en relation avec d'autres modèles qu'ils proposent, nous pouvons bien sûr aussi le mettre en relation avec ce qu'OpenAI a à
00:03:47offrir, par exemple. Là, nous voyons que GPT 5.4, que la plupart des utilisateurs de CodeX utilisent probablement en ce moment, a
00:03:54un prix d'entrée de 2,50 dollars par million de jetons, soit seulement la moitié de ce que nous avions pour Opus 4.7,
00:04:03et un prix de sortie de 22,50 dollars, soit un peu moins que ce que nous avons vu pour Opus. Maintenant,
00:04:11il est probablement juste de supposer que ces prix d'API sont des prix qui laissent ces entreprises
00:04:20au seuil de rentabilité ou avec un petit bénéfice concernant leur marge brute ; donc si nous regardons simplement le
00:04:29coût de l'inférence spécifiquement, nous pouvons probablement supposer qu'ils réaliseront un profit si vous utilisez leurs
00:04:36API. Maintenant, bien sûr, pour cela, il est important de comprendre que le coût de fonctionnement des modèles IA
00:04:43dépend finalement de deux facteurs principaux : l'entraînement des modèles IA qui coûte de l'argent,
00:04:53et l'inférence, bien sûr. Nous avons donc ces deux facteurs ici qui entrent en jeu pour ces
00:04:59entreprises d'IA. Maintenant, bien sûr, le coût d'entraînement est ponctuel, n'est-ce pas ? On entraîne un modèle une fois
00:05:06et c'est très coûteux, mais évidemment c'est une chose ponctuelle. Bien sûr, ces entreprises entraînent ensuite
00:05:12de plus en plus de modèles, et c'est un nouveau coût ponctuel pour chaque modèle, mais une fois qu'un modèle a été entraîné,
00:05:18il n'entraîne plus aucun coût d'entraînement, sauf peut-être pour des exécutions de réglage fin supplémentaires ou des modèles dérivés
00:05:25de ce modèle de base, mais oui, la grosse part du coût ne survient qu'une seule fois. Maintenant, pour l'inférence,
00:05:33naturellement, c'est différent, c'est un coût continu, c'est par requête à la fin, parce que bien sûr
00:05:41l'inférence est le processus de production de la sortie concrète pour votre invite, pour votre tâche que vous envoyez
00:05:48à un fournisseur de modèle, et l'inférence est bien sûr ce qui se passe tout le temps lorsque vous utilisez
00:05:53Claude Code, lorsque vous utilisez CodeX, mais aussi bien sûr lorsque vous envoyez une invite sur ChatGPT ou de
00:05:58toute autre manière. Maintenant, c'est bien sûr là que vous voulez au moins atteindre le seuil de rentabilité avec votre tarification API
00:06:07parce que sinon, cela signifie que vous perdez de l'argent sur chaque requête que vous recevez, et bien que vous puissiez bien
00:06:13sûr le faire pour augmenter votre part de marché, et bien que je n'exclurais pas le fait que les entreprises
00:06:19le font occasionnellement, le faire à long terme ne sera bien sûr pas viable, car vous ferez
00:06:25faillite. Maintenant, naturellement, vous devez aussi gagner vos coûts d'entraînement à un moment donné, donc idéalement
00:06:34ces requêtes entrantes que vos utilisateurs vous envoient vous donnent suffisamment de marge brute sur votre
00:06:41coût d'inférence, de sorte que cette marge couvre également vos coûts d'entraînement, vos coûts de personnel, etc. Donc, bien
00:06:48sûr, c'est l'économie de la façon dont vous pouvez exécuter et utiliser ces modèles IA. Maintenant, comme mentionné, la
00:06:57tarification API est probablement la partie où ces entreprises ne perdent pas des sommes massives
00:07:02d'argent, mais bien sûr, en tant que consommateur, en tant que client, vous le faites si vous deviez alimenter Claude Code avec ces
00:07:10prix à la demande d'Opus, vous paieriez bien plus que si vous utilisiez leurs abonnements,
00:07:18parce que bien sûr, avec l'abonnement max, par exemple, pour seulement 200 dollars, vous obtenez
00:07:26beaucoup d'utilisation de ce plan, vous obtiendrez des millions de jetons de ce plan, et si vous
00:07:34jetez un œil à ce que les jetons de sortie vous coûteraient normalement par million de jetons, vous pouvez voir que
00:07:39normalement, si vous ignorez les jetons d'entrée, ce que vous ne devriez pas faire, mais si vous les ignorez pour ces deux
00:07:44cents dollars ici, nous ne devrions même pas obtenir 10 millions de jetons de sortie, n'est-ce pas ? Parce qu'un million
00:07:51nous coûte 25 dollars, donc nous ne devrions obtenir que huit millions de jetons de sortie, et ensuite si vous considérez
00:07:56les jetons d'entrée, ce serait moins que cela, et clairement si vous aviez des sessions de longue durée, si vous avez
00:08:02utilisé Claude Code, par exemple, pendant une semaine, et que vous suivez votre utilisation de jetons, vous verrez que vous
00:08:08pouvez dépasser cette limite, et vous pouviez certainement le faire par le passé, et cela rend évident pourquoi les
00:08:14entreprises essaient en quelque sorte de limiter la quantité d'utilisation que vous pouvez obtenir de vos abonnements
00:08:19et pourquoi je pense que nous verrons des prix d'abonnement plus élevés, certainement à l'avenir, peut-être déjà
00:08:25dans un avenir proche. Maintenant, bien sûr, il n'est pas très facile pour ces entreprises d'augmenter leurs prix
00:08:30car la part de marché, évidemment, toutes ces entreprises veulent capturer agressivement des parts de marché
00:08:37le raisonnement étant que si vous êtes la principale entreprise établie comme fournisseur d'agent de codage dans
00:08:45beaucoup d'entreprises, beaucoup de sociétés, elles paieront probablement des prix d'abonnement plus élevés
00:08:51à l'avenir, donc vous ne voulez pas commencer à augmenter vos prix trop tôt parce que cela pourrait
00:08:57pousser certains de vos clients vers votre concurrence, ce que vous ne voulez pas, bien sûr. D'un autre côté,
00:09:02vous ne voulez pas faire faillite. Je veux dire, par exemple, OpenAI a récemment levé 122 milliards de dollars
00:09:09pour accélérer la prochaine phase de l'IA, et vous pourriez lire que cela ne leur donnerait que
00:09:17environ 18 mois de piste, donc 18 mois avant de devoir lever des fonds à nouveau, donc clairement, vous ne pouvez pas
00:09:26continuer à subventionner toute cette utilisation pour toujours, car si vous faites faillite, tous vos clients
00:09:32iront quand même chez votre concurrence, donc il y a un compromis ici, et c'est bien sûr exactement la
00:09:39situation difficile à laquelle ces entreprises sont confrontées en ce moment, c'est l'économie ici. Maintenant, bien sûr, comme vous
00:09:44l'avez probablement lu et aussi ressenti, si vous êtes un joueur par exemple, nous sommes à un moment où, à cause de
00:09:52tout ce qui se passe avec l'IA, nous sommes confrontés à une grande pénurie et crise de calcul, et à des prix élevés pour
00:10:01la mémoire et tout ce qui est lié à ce dont ces modèles IA et ces centres de données IA ont besoin, donc
00:10:08la mémoire est coûteuse parce que l'inférence nécessite beaucoup de mémoire, si vous avez essayé d'exécuter des modèles
00:10:13localement sur votre système, vous savez que vous avez besoin de beaucoup de mémoire pour cela, donc les prix de la mémoire ont augmenté,
00:10:19mais ce n'est pas seulement la mémoire, c'est aussi le matériel réseau, car bien sûr, vous exécutez à la fois l'entraînement
00:10:25et l'inférence, non pas sur une seule puce, mais sur d'énormes racks et clusters de puces, et tous ces
00:10:31clusters ont besoin de connexions entre les clusters, entre les puces, afin que vous puissiez construire des super
00:10:36GPU, pour ainsi dire, et ce matériel réseau est très demandé et donc coûteux, et ensuite bien sûr
00:10:43nous avons aussi l'énergie et les centres de données. Nous avons besoin des deux, nous avons besoin de centres de données pour mettre ces puces, et c'est
00:10:52pourquoi beaucoup de constructions se produisent là-bas, mais ensuite ces centres de données, ils ont besoin d'énergie, n'est-ce pas ? Et vous
00:10:58en avez entendu parler aussi, l'énergie est un autre gros problème, vous ne pouvez pas l'obtenir du réseau, il n'est tout simplement pas
00:11:05construit pour cela, il n'y a pas assez d'énergie disponible là-bas, c'est pourquoi tous ces nouveaux centres de données sont
00:11:12en train de passer à des solutions hors réseau, donc là où l'énergie est produite à côté du centre de données avec des turbines à gaz
00:11:21ou de l'énergie nucléaire, mais cela prend bien sûr du temps et cela nécessite aussi des composants, et il n'y a pas un
00:11:28nombre infini d'entreprises capables de construire ces centrales électriques, il n'y a pas un nombre infini de
00:11:35composants nécessaires à la construction de ces centrales électriques, donc tout cela limite la quantité de
00:11:42calcul qui peut être mise en ligne, ce qui à son tour manque pour l'inférence et bien sûr aussi pour l'entraînement.
00:11:48Maintenant, historiquement, et par là je veux dire seulement il y a un ou deux ans, l'incitation pour
00:11:54ces entreprises était de consacrer beaucoup de ressources de calcul à l'entraînement, parce que cela vous donne
00:12:00de meilleurs modèles qui vous permettent de garder une longueur d'avance ou de prendre l'avantage dans la course à l'IA, et cette incitation existe toujours, mais
00:12:07bien sûr, de nos jours, il y a aussi une plus grande incitation et une importance plus élevée ici sur la partie inférence
00:12:14parce que c'est la partie inférence qui vous donne des clients, qui vous donne de la visibilité sur le marché,
00:12:19parce que si personne ne peut utiliser vos modèles, alors c'est formidable que vous ayez de bons modèles, mais vous n'êtes
00:12:25pas en train de gagner de parts de marché, donc vous avez besoin d'une inférence qui est devenue bien plus importante, donc les entreprises doivent
00:12:30partager les ressources de calcul rares et les capacités des centres de données entre ces deux extrémités, et bien
00:12:38sûr, surtout depuis le début de cette année, nous voyons aussi un changement dans le comportement d'utilisation des clients.
00:12:45L'article de presse de GitHub est en fait assez ouvert à ce sujet : les flux de travail agentiques ont
00:12:51fondamentalement changé les demandes de calcul de Copilot, les sessions de longue durée paralysées consomment maintenant régulièrement
00:12:57bien plus de ressources que ce que la structure de plan originale était conçue pour supporter, et c'est la même chose bien
00:13:04sûr pour Anthropic et OpenAI. Par le passé, et encore, cela ne signifie qu'il y a environ un an,
00:13:10ces entreprises ne se concentraient pas principalement, mais dans une énorme mesure, vraiment que sur des sessions de chat occasionnelles.
00:13:20Un utilisateur, un client, venait occasionnellement et posait une question à ChatGPT ou à Claude, et bien sûr que
00:13:27cela aurait pu être plusieurs fois par jour, mais ce n'étaient que quelques questions, juste quelques réponses,
00:13:33quelques questions de suivi, bien sûr, beaucoup moins de jetons que tous ces longs flux de travail agentiques
00:13:39et sessions de codage. Dans ces sessions de codage, ou quels que soient les flux de travail agentiques que vous
00:13:44exécutez, vous brûlez des centaines de milliers et des millions de jetons rapidement, très rapidement, bien plus
00:13:51rapidement que vous ne pourriez le faire avec juste votre session de chat occasionnelle. Maintenant, étant donné le fait que tous ces
00:13:58modèles modernes avec lesquels nous traitons sont des modèles de pensée, généralement, la quantité de jetons a également
00:14:05augmenté par rapport à il y a un an ou deux, car une réponse prend simplement plus de jetons en raison de ce
00:14:12processus de réflexion, qui, bien sûr, sont toujours des jetons même si vous ne les voyez pas dans la réponse finale
00:14:17peut-être, donc la quantité de jetons consommés est devenue bien plus importante maintenant qu'elle ne l'était il y a un an ou deux
00:14:24ago, nous ramenant au point que l'inférence devient plus importante parce que vous avez besoin de bien
00:14:29plus d'inférence pour gérer toute cette génération de jetons qui se déroule, et c'est la raison pour laquelle tous
00:14:37ces nouveaux modèles sont assez coûteux lorsqu'ils sont utilisés via l'API, mais plus important encore, pourquoi
00:14:43ces abonnements sont si difficiles pour ces entreprises en ce moment. Elles ont introduit ces
00:14:49abonnements par le passé alors qu'il y avait beaucoup moins de jetons consommés, et maintenant elles sont à un point
00:14:56où, pour le même prix d'abonnement, les gens utilisent maintenant beaucoup plus de jetons, c'est la difficulté
00:15:03actuelle. Surtout pour Anthropic, par exemple, je pourrais imaginer qu'ils ressentent la douleur un peu plus
00:15:09qu'OpenAI, non seulement parce que leurs modèles semblent être plus coûteux à exécuter si vous jetez simplement un œil
00:15:16à la tarification API, mais aussi bien sûr parce que, historiquement, il y a déjà un an, Anthropic
00:15:22avait plus de clients entreprises et professionnels, ce qui est bon pour eux dans une certaine mesure, c'est une base de revenus
00:15:29stable, et ChatGPT ou OpenAI a été plus basé sur les consommateurs, ils avaient plus de gens normaux, de consommateurs
00:15:38comme clients, et maintenant ils se dirigent aussi plus vers les entreprises, mais historiquement, parce qu'ils
00:15:43ont eu le moment ChatGPT, ils avaient plus de gens normaux comme clients. Le désavantage pour Anthropic maintenant
00:15:50bien sûr, est que ces clients entreprises sont exactement les clients qui exécutent ces flux de travail agentiques
00:15:55ou qui ont tendance à exécuter ces flux de travail agentiques. Je veux dire, votre mère et votre père, s'ils
00:16:00paient pour ChatGPT du tout, ce qu'ils ne font probablement pas, ils n'exécutent pas de flux de travail agentiques
00:16:06mais vous le faites, votre entreprise le fait, et cela rend bien sûr l'abonnement encore plus difficile pour
00:16:11Anthropic, j'imagine, que pour OpenAI, où il y a encore beaucoup de "normies" dans l'abonnement
00:16:18je devinerais, mais ils ressentent certainement la douleur aussi. Et qu'est-ce que tout cela signifie maintenant ? Que signifient
00:16:24des changements comme ceux-ci ou des changements comme dans ce post X où Anthropic teste le retrait de Claude Code
00:16:32des plans les moins chers ? Que signifie tout cela pour nous ? Je pense que c'est assez évident, nous verrons encore
00:16:38plus de limites strictes à l'avenir, et par conséquent nous pourrions bien sûr atteindre un point où les abonnements
00:16:42ne donnent plus vraiment l'impression de valoir le coup, et je pense que ce sera le point où nous verrons
00:16:48des prix plus élevés. Il n'est pas déraisonnable, je pense, de croire que ces abonnements de codage, ou généralement
00:16:55ces abonnements à utilisation agentique, coûteront plusieurs milliers de dollars par mois à un moment donné, pas
00:17:03cette année, très probablement, mais à un moment donné, parce que bien sûr, les entreprises pourraient commencer à comparer le coût de
00:17:10ces abonnements par rapport au coût des employés, oui, et ce n'est bien sûr pas une excellente nouvelle, et il
00:17:17se peut que j'aie totalement tort, mais c'est certainement ce que je pense qui arrivera, et bien sûr, lorsque vous faites
00:17:23cette comparaison, il y a beaucoup de marge pour que ces abonnements deviennent beaucoup, beaucoup plus chers
00:17:30évidemment. Les abonnements ne seront alors plus pour les gens normaux, donc je pense que nous verrons aussi
00:17:35de nouvelles offres d'abonnement pour eux qui ont simplement des limites d'utilisation beaucoup plus strictes, qui sont suffisantes
00:17:41pour ChatGPT mais pas suffisantes pour les flux de travail agentiques, mais pour l'usage professionnel, pour les flux de travail
00:17:47agentiques, nous verrons des limites plus strictes et des prix plus élevés. Je ne suis pas sûr de quand, parce que vous savez, la part de marché,
00:17:52donc ce que j'ai mentionné avant, mais éventuellement, nous verrons cela, parce qu'en fin de compte
00:17:58comme mentionné, OpenAI a environ 18 mois de piste, ils veulent probablement rester en activité,
00:18:03la même chose pour Anthropic, et donc c'est ce que je pense que nous verrons ici dans un an environ, je ne sais pas.

Key Takeaway

L'ère de l'utilisation illimitée de l'IA à bas prix s'achève, poussant les entreprises vers des tarifs plus élevés ou des limites d'utilisation drastiques pour compenser les coûts d'inférence élevés des flux de travail agentiques.

Highlights

Les fournisseurs d'IA, dont Anthropic et GitHub, imposent des limites d'utilisation plus strictes ou restreignent l'accès à certains modèles pour les abonnements Pro.

L'utilisation des modèles Claude Opus 4.7 via API coûte 5 dollars par million de jetons en entrée et 25 dollars par million de jetons en sortie.

Le modèle GPT 5.4 coûte 2,50 dollars par million de jetons en entrée et 22,50 dollars en sortie, soit un tarif plus compétitif que Claude Opus 4.7.

Les flux de travail agentiques et les sessions de codage prolongées consomment des volumes de jetons largement supérieurs aux capacités prévues initialement par les plans d'abonnement.

Le coût d'inférence des modèles IA, couplé à la pénurie de matériel réseau, de mémoire haute performance et d'énergie, rend le modèle actuel d'utilisation illimitée non viable à long terme.

OpenAI dispose d'environ 18 mois de piste financière avant de devoir lever de nouveaux fonds, ce qui limite leur capacité à subventionner indéfiniment l'utilisation individuelle.

Timeline

Restrictions croissantes sur les abonnements IA

  • Anthropic a testé le retrait du plug-in Claude Code des plans d'abonnement Pro.
  • GitHub a suspendu les nouvelles inscriptions aux plans Copilot Pro et a restreint l'accès aux modèles Opus pour les utilisateurs individuels.

Les entreprises d'IA restreignent progressivement l'accès à leurs fonctionnalités avancées et à leurs modèles les plus performants. Ces actions répondent à la nécessité de réduire l'usage intensif non rentable des abonnements par les clients individuels.

Économie des jetons et rentabilité des modèles

  • Les modèles économiques actuels reposent sur le fait qu'une majorité d'utilisateurs n'atteignent jamais les limites réelles de leurs abonnements.
  • Le coût d'une requête IA se compose de frais fixes pour l'entraînement et de frais variables continus pour l'inférence.
  • La tarification API, telle que 25 dollars par million de jetons de sortie pour Claude Opus 4.7, représente un coût réel supérieur aux subventions accordées dans les abonnements à 200 dollars.

Les entreprises ne peuvent pas maintenir des abonnements peu coûteux face à une consommation massive de jetons. L'analyse des tarifs API montre que les abonnements permettent aux utilisateurs de consommer une valeur en jetons bien supérieure au prix mensuel payé, menaçant la viabilité financière de ces services.

Crise des ressources et nouveaux flux de travail

  • L'inférence à grande échelle nécessite des ressources rares comme la mémoire haut débit, le matériel réseau spécialisé et une alimentation électrique massive.
  • Le passage des sessions de chat occasionnelles aux flux de travail agentiques a fait exploser la consommation de jetons par utilisateur.
  • Les abonnements de codage pourraient atteindre des tarifs de plusieurs milliers de dollars par mois à mesure que les entreprises ajustent leurs prix en fonction de la valeur de productivité apportée.

La pénurie physique de centres de données et d'énergie, combinée à l'émergence des agents IA qui consomment des millions de jetons, contraint les entreprises à repenser leur tarification. À terme, les offres se diviseront probablement entre des plans grand public limités et des abonnements professionnels à haut coût alignés sur les gains de productivité.

Community Posts

View all posts