Les abonnements IA deviennent moins attractifs

Françaisالعربية Deutsch English Español हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

MMaximilian Schwarzmüller

Computing/SoftwareSmall Business/StartupsBusiness News

Transcript

00:00:00Ce matin, je me suis réveillé en voyant ce post ici sur X qui mentionne qu'Anthropic a apparemment retiré le

00:00:09plug-in de code Cloud Code du plan Pro, de sorte que vous avez besoin des plans d'abonnement

00:00:17plus chers pour pouvoir utiliser Cloud Code ou utiliser votre abonnement dans Cloud Code.

00:00:22Maintenant, Anthropic a été rapide à commenter cela, mentionnant qu'il ne s'agit que d'un petit

00:00:27test qu'ils mènent sur seulement 2 % des nouvelles inscriptions prosumer.

00:00:32Je trouve un peu étrange de faire ce genre de test et je pense aussi qu'Anthropic aurait pu

00:00:40anticiper les conséquences d'un tel test, l'impact qu'un test comme celui-ci aurait

00:00:47sur leur image et ce que les gens penseraient, car évidemment, cela correspond clairement au récit

00:00:53de ce que nous voyons déjà, où nous obtenons moins d'utilisation de nos abonnements, nous voyons

00:00:59des limites plus fortes ou plus strictes, nous voyons une dégradation des performances des modèles, comme si toutes ces

00:01:08choses se produisaient depuis quelques semaines. Je veux dire, Anthropic a agressivement restreint

00:01:14l'utilisation de leur abonnement en dehors de Cloud Code. Si vous vouliez l'utiliser avec Open Cloud

00:01:21par exemple, ils ont sévi contre cela, donc tout cela nous donne une image claire et plus globale.

00:01:28Et ce qui correspond à cette image ou à ce récit, c'est cet article de presse que GitHub a publié il y a quelques

00:01:37jours, où ils ont clairement indiqué qu'ils allaient suspendre les nouvelles inscriptions aux plans GitHub Copilot Pro,

00:01:43Pro Plus et Étudiant, et qu'ils durcissent les limites d'utilisation pour les plans individuels

00:01:49et, plus important encore, que les modèles Opus ne sont plus disponibles dans les plans Pro, et tout

00:01:56cela est logique, mais nous devons approfondir l'économie de ce qui se passe

00:02:02pour comprendre pourquoi cela arrive et, surtout, ce que cela signifie pour nous aussi à

00:02:07l'avenir. Cela signifie clairement que l'époque de l'utilisation illimitée et des lourdes subventions est révolue, et pour comprendre

00:02:17cela, nous devons comprendre l'économie de ces abonnements et de l'utilisation des jetons, ou

00:02:25la consommation de jetons, car bien sûr, ces modèles d'abonnement offerts par Anthropic, par

00:02:34OpenAI, par GitHub, ne fonctionnent vraiment que si la majorité des utilisateurs n'utilisent pas réellement toute

00:02:43l'utilisation disponible dont ils disposent. C'est à peu près le cas pour toute offre d'abonnement existante

00:02:49pas seulement pour ces abonnements IA. Si vous avez un abonnement Netflix et que vous passez 24h/24, 7j/7 à regarder

00:02:56Netflix, vous ne serez probablement pas un client super rentable pour eux, mais la plupart des gens

00:03:02ne font pas ça, et c'est ainsi que ces entreprises peuvent réaliser un profit. C'est vrai pour tous les abonnements

00:03:10évidemment. Maintenant, nous pouvons voir le vrai prix, ou un prix plus proche du vrai prix de nos requêtes IA

00:03:19si nous jetons un œil aux pages de tarification des API de ces entreprises ; là, par exemple, nous pouvons voir

00:03:26que le dernier modèle d'Anthropic, Claude Opus 4.7, a un prix de jetons d'entrée de cinq dollars par

00:03:35million de jetons et un prix de jetons de sortie de 25 dollars par million de jetons, et nous pouvons mettre cela

00:03:42en relation avec d'autres modèles qu'ils proposent, nous pouvons bien sûr aussi le mettre en relation avec ce qu'OpenAI a à

00:03:47offrir, par exemple. Là, nous voyons que GPT 5.4, que la plupart des utilisateurs de CodeX utilisent probablement en ce moment, a

00:03:54un prix d'entrée de 2,50 dollars par million de jetons, soit seulement la moitié de ce que nous avions pour Opus 4.7,

00:04:03et un prix de sortie de 22,50 dollars, soit un peu moins que ce que nous avons vu pour Opus. Maintenant,

00:04:11il est probablement juste de supposer que ces prix d'API sont des prix qui laissent ces entreprises

00:04:20au seuil de rentabilité ou avec un petit bénéfice concernant leur marge brute ; donc si nous regardons simplement le

00:04:29coût de l'inférence spécifiquement, nous pouvons probablement supposer qu'ils réaliseront un profit si vous utilisez leurs

00:04:36API. Maintenant, bien sûr, pour cela, il est important de comprendre que le coût de fonctionnement des modèles IA

00:04:43dépend finalement de deux facteurs principaux : l'entraînement des modèles IA qui coûte de l'argent,

00:04:53et l'inférence, bien sûr. Nous avons donc ces deux facteurs ici qui entrent en jeu pour ces

00:04:59entreprises d'IA. Maintenant, bien sûr, le coût d'entraînement est ponctuel, n'est-ce pas ? On entraîne un modèle une fois

00:05:06et c'est très coûteux, mais évidemment c'est une chose ponctuelle. Bien sûr, ces entreprises entraînent ensuite

00:05:12de plus en plus de modèles, et c'est un nouveau coût ponctuel pour chaque modèle, mais une fois qu'un modèle a été entraîné,

00:05:18il n'entraîne plus aucun coût d'entraînement, sauf peut-être pour des exécutions de réglage fin supplémentaires ou des modèles dérivés

00:05:25de ce modèle de base, mais oui, la grosse part du coût ne survient qu'une seule fois. Maintenant, pour l'inférence,

00:05:33naturellement, c'est différent, c'est un coût continu, c'est par requête à la fin, parce que bien sûr

00:05:41l'inférence est le processus de production de la sortie concrète pour votre invite, pour votre tâche que vous envoyez

00:05:48à un fournisseur de modèle, et l'inférence est bien sûr ce qui se passe tout le temps lorsque vous utilisez

00:05:53Claude Code, lorsque vous utilisez CodeX, mais aussi bien sûr lorsque vous envoyez une invite sur ChatGPT ou de

00:05:58toute autre manière. Maintenant, c'est bien sûr là que vous voulez au moins atteindre le seuil de rentabilité avec votre tarification API

00:06:07parce que sinon, cela signifie que vous perdez de l'argent sur chaque requête que vous recevez, et bien que vous puissiez bien

00:06:13sûr le faire pour augmenter votre part de marché, et bien que je n'exclurais pas le fait que les entreprises

00:06:19le font occasionnellement, le faire à long terme ne sera bien sûr pas viable, car vous ferez

00:06:25faillite. Maintenant, naturellement, vous devez aussi gagner vos coûts d'entraînement à un moment donné, donc idéalement

00:06:34ces requêtes entrantes que vos utilisateurs vous envoient vous donnent suffisamment de marge brute sur votre

00:06:41coût d'inférence, de sorte que cette marge couvre également vos coûts d'entraînement, vos coûts de personnel, etc. Donc, bien

00:06:48sûr, c'est l'économie de la façon dont vous pouvez exécuter et utiliser ces modèles IA. Maintenant, comme mentionné, la

00:06:57tarification API est probablement la partie où ces entreprises ne perdent pas des sommes massives

00:07:02d'argent, mais bien sûr, en tant que consommateur, en tant que client, vous le faites si vous deviez alimenter Claude Code avec ces

00:07:10prix à la demande d'Opus, vous paieriez bien plus que si vous utilisiez leurs abonnements,

00:07:18parce que bien sûr, avec l'abonnement max, par exemple, pour seulement 200 dollars, vous obtenez

00:07:26beaucoup d'utilisation de ce plan, vous obtiendrez des millions de jetons de ce plan, et si vous

00:07:34jetez un œil à ce que les jetons de sortie vous coûteraient normalement par million de jetons, vous pouvez voir que

00:07:39normalement, si vous ignorez les jetons d'entrée, ce que vous ne devriez pas faire, mais si vous les ignorez pour ces deux

00:07:44cents dollars ici, nous ne devrions même pas obtenir 10 millions de jetons de sortie, n'est-ce pas ? Parce qu'un million

00:07:51nous coûte 25 dollars, donc nous ne devrions obtenir que huit millions de jetons de sortie, et ensuite si vous considérez

00:07:56les jetons d'entrée, ce serait moins que cela, et clairement si vous aviez des sessions de longue durée, si vous avez

00:08:02utilisé Claude Code, par exemple, pendant une semaine, et que vous suivez votre utilisation de jetons, vous verrez que vous

00:08:08pouvez dépasser cette limite, et vous pouviez certainement le faire par le passé, et cela rend évident pourquoi les

00:08:14entreprises essaient en quelque sorte de limiter la quantité d'utilisation que vous pouvez obtenir de vos abonnements

00:08:19et pourquoi je pense que nous verrons des prix d'abonnement plus élevés, certainement à l'avenir, peut-être déjà

00:08:25dans un avenir proche. Maintenant, bien sûr, il n'est pas très facile pour ces entreprises d'augmenter leurs prix

00:08:30car la part de marché, évidemment, toutes ces entreprises veulent capturer agressivement des parts de marché

00:08:37le raisonnement étant que si vous êtes la principale entreprise établie comme fournisseur d'agent de codage dans

00:08:45beaucoup d'entreprises, beaucoup de sociétés, elles paieront probablement des prix d'abonnement plus élevés

00:08:51à l'avenir, donc vous ne voulez pas commencer à augmenter vos prix trop tôt parce que cela pourrait

00:08:57pousser certains de vos clients vers votre concurrence, ce que vous ne voulez pas, bien sûr. D'un autre côté,

00:09:02vous ne voulez pas faire faillite. Je veux dire, par exemple, OpenAI a récemment levé 122 milliards de dollars

00:09:09pour accélérer la prochaine phase de l'IA, et vous pourriez lire que cela ne leur donnerait que

00:09:17environ 18 mois de piste, donc 18 mois avant de devoir lever des fonds à nouveau, donc clairement, vous ne pouvez pas

00:09:26continuer à subventionner toute cette utilisation pour toujours, car si vous faites faillite, tous vos clients

00:09:32iront quand même chez votre concurrence, donc il y a un compromis ici, et c'est bien sûr exactement la

00:09:39situation difficile à laquelle ces entreprises sont confrontées en ce moment, c'est l'économie ici. Maintenant, bien sûr, comme vous

00:09:44l'avez probablement lu et aussi ressenti, si vous êtes un joueur par exemple, nous sommes à un moment où, à cause de

00:09:52tout ce qui se passe avec l'IA, nous sommes confrontés à une grande pénurie et crise de calcul, et à des prix élevés pour

00:10:01la mémoire et tout ce qui est lié à ce dont ces modèles IA et ces centres de données IA ont besoin, donc

00:10:08la mémoire est coûteuse parce que l'inférence nécessite beaucoup de mémoire, si vous avez essayé d'exécuter des modèles

00:10:13localement sur votre système, vous savez que vous avez besoin de beaucoup de mémoire pour cela, donc les prix de la mémoire ont augmenté,

00:10:19mais ce n'est pas seulement la mémoire, c'est aussi le matériel réseau, car bien sûr, vous exécutez à la fois l'entraînement

00:10:25et l'inférence, non pas sur une seule puce, mais sur d'énormes racks et clusters de puces, et tous ces

00:10:31clusters ont besoin de connexions entre les clusters, entre les puces, afin que vous puissiez construire des super

00:10:36GPU, pour ainsi dire, et ce matériel réseau est très demandé et donc coûteux, et ensuite bien sûr

00:10:43nous avons aussi l'énergie et les centres de données. Nous avons besoin des deux, nous avons besoin de centres de données pour mettre ces puces, et c'est

00:10:52pourquoi beaucoup de constructions se produisent là-bas, mais ensuite ces centres de données, ils ont besoin d'énergie, n'est-ce pas ? Et vous

00:10:58en avez entendu parler aussi, l'énergie est un autre gros problème, vous ne pouvez pas l'obtenir du réseau, il n'est tout simplement pas

00:11:05construit pour cela, il n'y a pas assez d'énergie disponible là-bas, c'est pourquoi tous ces nouveaux centres de données sont

00:11:12en train de passer à des solutions hors réseau, donc là où l'énergie est produite à côté du centre de données avec des turbines à gaz

00:11:21ou de l'énergie nucléaire, mais cela prend bien sûr du temps et cela nécessite aussi des composants, et il n'y a pas un

00:11:28nombre infini d'entreprises capables de construire ces centrales électriques, il n'y a pas un nombre infini de

00:11:35composants nécessaires à la construction de ces centrales électriques, donc tout cela limite la quantité de

00:11:42calcul qui peut être mise en ligne, ce qui à son tour manque pour l'inférence et bien sûr aussi pour l'entraînement.

00:11:48Maintenant, historiquement, et par là je veux dire seulement il y a un ou deux ans, l'incitation pour

00:11:54ces entreprises était de consacrer beaucoup de ressources de calcul à l'entraînement, parce que cela vous donne

00:12:00de meilleurs modèles qui vous permettent de garder une longueur d'avance ou de prendre l'avantage dans la course à l'IA, et cette incitation existe toujours, mais

00:12:07bien sûr, de nos jours, il y a aussi une plus grande incitation et une importance plus élevée ici sur la partie inférence

00:12:14parce que c'est la partie inférence qui vous donne des clients, qui vous donne de la visibilité sur le marché,

00:12:19parce que si personne ne peut utiliser vos modèles, alors c'est formidable que vous ayez de bons modèles, mais vous n'êtes

00:12:25pas en train de gagner de parts de marché, donc vous avez besoin d'une inférence qui est devenue bien plus importante, donc les entreprises doivent

00:12:30partager les ressources de calcul rares et les capacités des centres de données entre ces deux extrémités, et bien

00:12:38sûr, surtout depuis le début de cette année, nous voyons aussi un changement dans le comportement d'utilisation des clients.

00:12:45L'article de presse de GitHub est en fait assez ouvert à ce sujet : les flux de travail agentiques ont

00:12:51fondamentalement changé les demandes de calcul de Copilot, les sessions de longue durée paralysées consomment maintenant régulièrement

00:12:57bien plus de ressources que ce que la structure de plan originale était conçue pour supporter, et c'est la même chose bien

00:13:04sûr pour Anthropic et OpenAI. Par le passé, et encore, cela ne signifie qu'il y a environ un an,

00:13:10ces entreprises ne se concentraient pas principalement, mais dans une énorme mesure, vraiment que sur des sessions de chat occasionnelles.

00:13:20Un utilisateur, un client, venait occasionnellement et posait une question à ChatGPT ou à Claude, et bien sûr que

00:13:27cela aurait pu être plusieurs fois par jour, mais ce n'étaient que quelques questions, juste quelques réponses,

00:13:33quelques questions de suivi, bien sûr, beaucoup moins de jetons que tous ces longs flux de travail agentiques

00:13:39et sessions de codage. Dans ces sessions de codage, ou quels que soient les flux de travail agentiques que vous

00:13:44exécutez, vous brûlez des centaines de milliers et des millions de jetons rapidement, très rapidement, bien plus

00:13:51rapidement que vous ne pourriez le faire avec juste votre session de chat occasionnelle. Maintenant, étant donné le fait que tous ces

00:13:58modèles modernes avec lesquels nous traitons sont des modèles de pensée, généralement, la quantité de jetons a également

00:14:05augmenté par rapport à il y a un an ou deux, car une réponse prend simplement plus de jetons en raison de ce

00:14:12processus de réflexion, qui, bien sûr, sont toujours des jetons même si vous ne les voyez pas dans la réponse finale

00:14:17peut-être, donc la quantité de jetons consommés est devenue bien plus importante maintenant qu'elle ne l'était il y a un an ou deux

00:14:24ago, nous ramenant au point que l'inférence devient plus importante parce que vous avez besoin de bien

00:14:29plus d'inférence pour gérer toute cette génération de jetons qui se déroule, et c'est la raison pour laquelle tous

00:14:37ces nouveaux modèles sont assez coûteux lorsqu'ils sont utilisés via l'API, mais plus important encore, pourquoi

00:14:43ces abonnements sont si difficiles pour ces entreprises en ce moment. Elles ont introduit ces

00:14:49abonnements par le passé alors qu'il y avait beaucoup moins de jetons consommés, et maintenant elles sont à un point

00:14:56où, pour le même prix d'abonnement, les gens utilisent maintenant beaucoup plus de jetons, c'est la difficulté

00:15:03actuelle. Surtout pour Anthropic, par exemple, je pourrais imaginer qu'ils ressentent la douleur un peu plus

00:15:09qu'OpenAI, non seulement parce que leurs modèles semblent être plus coûteux à exécuter si vous jetez simplement un œil

00:15:16à la tarification API, mais aussi bien sûr parce que, historiquement, il y a déjà un an, Anthropic

00:15:22avait plus de clients entreprises et professionnels, ce qui est bon pour eux dans une certaine mesure, c'est une base de revenus

00:15:29stable, et ChatGPT ou OpenAI a été plus basé sur les consommateurs, ils avaient plus de gens normaux, de consommateurs

00:15:38comme clients, et maintenant ils se dirigent aussi plus vers les entreprises, mais historiquement, parce qu'ils

00:15:43ont eu le moment ChatGPT, ils avaient plus de gens normaux comme clients. Le désavantage pour Anthropic maintenant

00:15:50bien sûr, est que ces clients entreprises sont exactement les clients qui exécutent ces flux de travail agentiques

00:15:55ou qui ont tendance à exécuter ces flux de travail agentiques. Je veux dire, votre mère et votre père, s'ils

00:16:00paient pour ChatGPT du tout, ce qu'ils ne font probablement pas, ils n'exécutent pas de flux de travail agentiques

00:16:06mais vous le faites, votre entreprise le fait, et cela rend bien sûr l'abonnement encore plus difficile pour

00:16:11Anthropic, j'imagine, que pour OpenAI, où il y a encore beaucoup de "normies" dans l'abonnement

00:16:18je devinerais, mais ils ressentent certainement la douleur aussi. Et qu'est-ce que tout cela signifie maintenant ? Que signifient

00:16:24des changements comme ceux-ci ou des changements comme dans ce post X où Anthropic teste le retrait de Claude Code

00:16:32des plans les moins chers ? Que signifie tout cela pour nous ? Je pense que c'est assez évident, nous verrons encore

00:16:38plus de limites strictes à l'avenir, et par conséquent nous pourrions bien sûr atteindre un point où les abonnements

00:16:42ne donnent plus vraiment l'impression de valoir le coup, et je pense que ce sera le point où nous verrons

00:16:48des prix plus élevés. Il n'est pas déraisonnable, je pense, de croire que ces abonnements de codage, ou généralement

00:16:55ces abonnements à utilisation agentique, coûteront plusieurs milliers de dollars par mois à un moment donné, pas

00:17:03cette année, très probablement, mais à un moment donné, parce que bien sûr, les entreprises pourraient commencer à comparer le coût de

00:17:10ces abonnements par rapport au coût des employés, oui, et ce n'est bien sûr pas une excellente nouvelle, et il

00:17:17se peut que j'aie totalement tort, mais c'est certainement ce que je pense qui arrivera, et bien sûr, lorsque vous faites

00:17:23cette comparaison, il y a beaucoup de marge pour que ces abonnements deviennent beaucoup, beaucoup plus chers

00:17:30évidemment. Les abonnements ne seront alors plus pour les gens normaux, donc je pense que nous verrons aussi

00:17:35de nouvelles offres d'abonnement pour eux qui ont simplement des limites d'utilisation beaucoup plus strictes, qui sont suffisantes

00:17:41pour ChatGPT mais pas suffisantes pour les flux de travail agentiques, mais pour l'usage professionnel, pour les flux de travail

00:17:47agentiques, nous verrons des limites plus strictes et des prix plus élevés. Je ne suis pas sûr de quand, parce que vous savez, la part de marché,

00:17:52donc ce que j'ai mentionné avant, mais éventuellement, nous verrons cela, parce qu'en fin de compte

00:17:58comme mentionné, OpenAI a environ 18 mois de piste, ils veulent probablement rester en activité,

00:18:03la même chose pour Anthropic, et donc c'est ce que je pense que nous verrons ici dans un an environ, je ne sais pas.

Key Takeaway

L'ère de l'utilisation illimitée de l'IA à bas prix s'achève, poussant les entreprises vers des tarifs plus élevés ou des limites d'utilisation drastiques pour compenser les coûts d'inférence élevés des flux de travail agentiques.

Highlights

Les fournisseurs d'IA, dont Anthropic et GitHub, imposent des limites d'utilisation plus strictes ou restreignent l'accès à certains modèles pour les abonnements Pro.

L'utilisation des modèles Claude Opus 4.7 via API coûte 5 dollars par million de jetons en entrée et 25 dollars par million de jetons en sortie.

Le modèle GPT 5.4 coûte 2,50 dollars par million de jetons en entrée et 22,50 dollars en sortie, soit un tarif plus compétitif que Claude Opus 4.7.

Les flux de travail agentiques et les sessions de codage prolongées consomment des volumes de jetons largement supérieurs aux capacités prévues initialement par les plans d'abonnement.

Le coût d'inférence des modèles IA, couplé à la pénurie de matériel réseau, de mémoire haute performance et d'énergie, rend le modèle actuel d'utilisation illimitée non viable à long terme.

OpenAI dispose d'environ 18 mois de piste financière avant de devoir lever de nouveaux fonds, ce qui limite leur capacité à subventionner indéfiniment l'utilisation individuelle.

Timeline

Restrictions croissantes sur les abonnements IA

Anthropic a testé le retrait du plug-in Claude Code des plans d'abonnement Pro.
GitHub a suspendu les nouvelles inscriptions aux plans Copilot Pro et a restreint l'accès aux modèles Opus pour les utilisateurs individuels.

Les entreprises d'IA restreignent progressivement l'accès à leurs fonctionnalités avancées et à leurs modèles les plus performants. Ces actions répondent à la nécessité de réduire l'usage intensif non rentable des abonnements par les clients individuels.

Économie des jetons et rentabilité des modèles

Les modèles économiques actuels reposent sur le fait qu'une majorité d'utilisateurs n'atteignent jamais les limites réelles de leurs abonnements.
Le coût d'une requête IA se compose de frais fixes pour l'entraînement et de frais variables continus pour l'inférence.
La tarification API, telle que 25 dollars par million de jetons de sortie pour Claude Opus 4.7, représente un coût réel supérieur aux subventions accordées dans les abonnements à 200 dollars.

Les entreprises ne peuvent pas maintenir des abonnements peu coûteux face à une consommation massive de jetons. L'analyse des tarifs API montre que les abonnements permettent aux utilisateurs de consommer une valeur en jetons bien supérieure au prix mensuel payé, menaçant la viabilité financière de ces services.

Crise des ressources et nouveaux flux de travail

L'inférence à grande échelle nécessite des ressources rares comme la mémoire haut débit, le matériel réseau spécialisé et une alimentation électrique massive.
Le passage des sessions de chat occasionnelles aux flux de travail agentiques a fait exploser la consommation de jetons par utilisateur.
Les abonnements de codage pourraient atteindre des tarifs de plusieurs milliers de dollars par mois à mesure que les entreprises ajustent leurs prix en fonction de la valeur de productivité apportée.

La pénurie physique de centres de données et d'énergie, combinée à l'émergence des agents IA qui consomment des millions de jetons, contraint les entreprises à repenser leur tarification. À terme, les offres se diviseront probablement entre des plans grand public limités et des abonnements professionnels à haut coût alignés sur les gains de productivité.

Community Posts

Comment réduire de moitié ses frais d'abonnement IA chaque mois

makedreamقبل ١٣ ساعة4650

Write about this video