00:00:00Ce matin, je me suis réveillé en voyant ce post ici sur X qui mentionne qu'Anthropic a apparemment retiré le
00:00:09plug-in de code Cloud Code du plan Pro, de sorte que vous avez besoin des plans d'abonnement
00:00:17plus chers pour pouvoir utiliser Cloud Code ou utiliser votre abonnement dans Cloud Code.
00:00:22Maintenant, Anthropic a été rapide à commenter cela, mentionnant qu'il ne s'agit que d'un petit
00:00:27test qu'ils mènent sur seulement 2 % des nouvelles inscriptions prosumer.
00:00:32Je trouve un peu étrange de faire ce genre de test et je pense aussi qu'Anthropic aurait pu
00:00:40anticiper les conséquences d'un tel test, l'impact qu'un test comme celui-ci aurait
00:00:47sur leur image et ce que les gens penseraient, car évidemment, cela correspond clairement au récit
00:00:53de ce que nous voyons déjà, où nous obtenons moins d'utilisation de nos abonnements, nous voyons
00:00:59des limites plus fortes ou plus strictes, nous voyons une dégradation des performances des modèles, comme si toutes ces
00:01:08choses se produisaient depuis quelques semaines. Je veux dire, Anthropic a agressivement restreint
00:01:14l'utilisation de leur abonnement en dehors de Cloud Code. Si vous vouliez l'utiliser avec Open Cloud
00:01:21par exemple, ils ont sévi contre cela, donc tout cela nous donne une image claire et plus globale.
00:01:28Et ce qui correspond à cette image ou à ce récit, c'est cet article de presse que GitHub a publié il y a quelques
00:01:37jours, où ils ont clairement indiqué qu'ils allaient suspendre les nouvelles inscriptions aux plans GitHub Copilot Pro,
00:01:43Pro Plus et Étudiant, et qu'ils durcissent les limites d'utilisation pour les plans individuels
00:01:49et, plus important encore, que les modèles Opus ne sont plus disponibles dans les plans Pro, et tout
00:01:56cela est logique, mais nous devons approfondir l'économie de ce qui se passe
00:02:02pour comprendre pourquoi cela arrive et, surtout, ce que cela signifie pour nous aussi à
00:02:07l'avenir. Cela signifie clairement que l'époque de l'utilisation illimitée et des lourdes subventions est révolue, et pour comprendre
00:02:17cela, nous devons comprendre l'économie de ces abonnements et de l'utilisation des jetons, ou
00:02:25la consommation de jetons, car bien sûr, ces modèles d'abonnement offerts par Anthropic, par
00:02:34OpenAI, par GitHub, ne fonctionnent vraiment que si la majorité des utilisateurs n'utilisent pas réellement toute
00:02:43l'utilisation disponible dont ils disposent. C'est à peu près le cas pour toute offre d'abonnement existante
00:02:49pas seulement pour ces abonnements IA. Si vous avez un abonnement Netflix et que vous passez 24h/24, 7j/7 à regarder
00:02:56Netflix, vous ne serez probablement pas un client super rentable pour eux, mais la plupart des gens
00:03:02ne font pas ça, et c'est ainsi que ces entreprises peuvent réaliser un profit. C'est vrai pour tous les abonnements
00:03:10évidemment. Maintenant, nous pouvons voir le vrai prix, ou un prix plus proche du vrai prix de nos requêtes IA
00:03:19si nous jetons un œil aux pages de tarification des API de ces entreprises ; là, par exemple, nous pouvons voir
00:03:26que le dernier modèle d'Anthropic, Claude Opus 4.7, a un prix de jetons d'entrée de cinq dollars par
00:03:35million de jetons et un prix de jetons de sortie de 25 dollars par million de jetons, et nous pouvons mettre cela
00:03:42en relation avec d'autres modèles qu'ils proposent, nous pouvons bien sûr aussi le mettre en relation avec ce qu'OpenAI a à
00:03:47offrir, par exemple. Là, nous voyons que GPT 5.4, que la plupart des utilisateurs de CodeX utilisent probablement en ce moment, a
00:03:54un prix d'entrée de 2,50 dollars par million de jetons, soit seulement la moitié de ce que nous avions pour Opus 4.7,
00:04:03et un prix de sortie de 22,50 dollars, soit un peu moins que ce que nous avons vu pour Opus. Maintenant,
00:04:11il est probablement juste de supposer que ces prix d'API sont des prix qui laissent ces entreprises
00:04:20au seuil de rentabilité ou avec un petit bénéfice concernant leur marge brute ; donc si nous regardons simplement le
00:04:29coût de l'inférence spécifiquement, nous pouvons probablement supposer qu'ils réaliseront un profit si vous utilisez leurs
00:04:36API. Maintenant, bien sûr, pour cela, il est important de comprendre que le coût de fonctionnement des modèles IA
00:04:43dépend finalement de deux facteurs principaux : l'entraînement des modèles IA qui coûte de l'argent,
00:04:53et l'inférence, bien sûr. Nous avons donc ces deux facteurs ici qui entrent en jeu pour ces
00:04:59entreprises d'IA. Maintenant, bien sûr, le coût d'entraînement est ponctuel, n'est-ce pas ? On entraîne un modèle une fois
00:05:06et c'est très coûteux, mais évidemment c'est une chose ponctuelle. Bien sûr, ces entreprises entraînent ensuite
00:05:12de plus en plus de modèles, et c'est un nouveau coût ponctuel pour chaque modèle, mais une fois qu'un modèle a été entraîné,
00:05:18il n'entraîne plus aucun coût d'entraînement, sauf peut-être pour des exécutions de réglage fin supplémentaires ou des modèles dérivés
00:05:25de ce modèle de base, mais oui, la grosse part du coût ne survient qu'une seule fois. Maintenant, pour l'inférence,
00:05:33naturellement, c'est différent, c'est un coût continu, c'est par requête à la fin, parce que bien sûr
00:05:41l'inférence est le processus de production de la sortie concrète pour votre invite, pour votre tâche que vous envoyez
00:05:48à un fournisseur de modèle, et l'inférence est bien sûr ce qui se passe tout le temps lorsque vous utilisez
00:05:53Claude Code, lorsque vous utilisez CodeX, mais aussi bien sûr lorsque vous envoyez une invite sur ChatGPT ou de
00:05:58toute autre manière. Maintenant, c'est bien sûr là que vous voulez au moins atteindre le seuil de rentabilité avec votre tarification API
00:06:07parce que sinon, cela signifie que vous perdez de l'argent sur chaque requête que vous recevez, et bien que vous puissiez bien
00:06:13sûr le faire pour augmenter votre part de marché, et bien que je n'exclurais pas le fait que les entreprises
00:06:19le font occasionnellement, le faire à long terme ne sera bien sûr pas viable, car vous ferez
00:06:25faillite. Maintenant, naturellement, vous devez aussi gagner vos coûts d'entraînement à un moment donné, donc idéalement
00:06:34ces requêtes entrantes que vos utilisateurs vous envoient vous donnent suffisamment de marge brute sur votre
00:06:41coût d'inférence, de sorte que cette marge couvre également vos coûts d'entraînement, vos coûts de personnel, etc. Donc, bien
00:06:48sûr, c'est l'économie de la façon dont vous pouvez exécuter et utiliser ces modèles IA. Maintenant, comme mentionné, la
00:06:57tarification API est probablement la partie où ces entreprises ne perdent pas des sommes massives
00:07:02d'argent, mais bien sûr, en tant que consommateur, en tant que client, vous le faites si vous deviez alimenter Claude Code avec ces
00:07:10prix à la demande d'Opus, vous paieriez bien plus que si vous utilisiez leurs abonnements,
00:07:18parce que bien sûr, avec l'abonnement max, par exemple, pour seulement 200 dollars, vous obtenez
00:07:26beaucoup d'utilisation de ce plan, vous obtiendrez des millions de jetons de ce plan, et si vous
00:07:34jetez un œil à ce que les jetons de sortie vous coûteraient normalement par million de jetons, vous pouvez voir que
00:07:39normalement, si vous ignorez les jetons d'entrée, ce que vous ne devriez pas faire, mais si vous les ignorez pour ces deux
00:07:44cents dollars ici, nous ne devrions même pas obtenir 10 millions de jetons de sortie, n'est-ce pas ? Parce qu'un million
00:07:51nous coûte 25 dollars, donc nous ne devrions obtenir que huit millions de jetons de sortie, et ensuite si vous considérez
00:07:56les jetons d'entrée, ce serait moins que cela, et clairement si vous aviez des sessions de longue durée, si vous avez
00:08:02utilisé Claude Code, par exemple, pendant une semaine, et que vous suivez votre utilisation de jetons, vous verrez que vous
00:08:08pouvez dépasser cette limite, et vous pouviez certainement le faire par le passé, et cela rend évident pourquoi les
00:08:14entreprises essaient en quelque sorte de limiter la quantité d'utilisation que vous pouvez obtenir de vos abonnements
00:08:19et pourquoi je pense que nous verrons des prix d'abonnement plus élevés, certainement à l'avenir, peut-être déjà
00:08:25dans un avenir proche. Maintenant, bien sûr, il n'est pas très facile pour ces entreprises d'augmenter leurs prix
00:08:30car la part de marché, évidemment, toutes ces entreprises veulent capturer agressivement des parts de marché
00:08:37le raisonnement étant que si vous êtes la principale entreprise établie comme fournisseur d'agent de codage dans
00:08:45beaucoup d'entreprises, beaucoup de sociétés, elles paieront probablement des prix d'abonnement plus élevés
00:08:51à l'avenir, donc vous ne voulez pas commencer à augmenter vos prix trop tôt parce que cela pourrait
00:08:57pousser certains de vos clients vers votre concurrence, ce que vous ne voulez pas, bien sûr. D'un autre côté,
00:09:02vous ne voulez pas faire faillite. Je veux dire, par exemple, OpenAI a récemment levé 122 milliards de dollars
00:09:09pour accélérer la prochaine phase de l'IA, et vous pourriez lire que cela ne leur donnerait que
00:09:17environ 18 mois de piste, donc 18 mois avant de devoir lever des fonds à nouveau, donc clairement, vous ne pouvez pas
00:09:26continuer à subventionner toute cette utilisation pour toujours, car si vous faites faillite, tous vos clients
00:09:32iront quand même chez votre concurrence, donc il y a un compromis ici, et c'est bien sûr exactement la
00:09:39situation difficile à laquelle ces entreprises sont confrontées en ce moment, c'est l'économie ici. Maintenant, bien sûr, comme vous
00:09:44l'avez probablement lu et aussi ressenti, si vous êtes un joueur par exemple, nous sommes à un moment où, à cause de
00:09:52tout ce qui se passe avec l'IA, nous sommes confrontés à une grande pénurie et crise de calcul, et à des prix élevés pour
00:10:01la mémoire et tout ce qui est lié à ce dont ces modèles IA et ces centres de données IA ont besoin, donc
00:10:08la mémoire est coûteuse parce que l'inférence nécessite beaucoup de mémoire, si vous avez essayé d'exécuter des modèles
00:10:13localement sur votre système, vous savez que vous avez besoin de beaucoup de mémoire pour cela, donc les prix de la mémoire ont augmenté,
00:10:19mais ce n'est pas seulement la mémoire, c'est aussi le matériel réseau, car bien sûr, vous exécutez à la fois l'entraînement
00:10:25et l'inférence, non pas sur une seule puce, mais sur d'énormes racks et clusters de puces, et tous ces
00:10:31clusters ont besoin de connexions entre les clusters, entre les puces, afin que vous puissiez construire des super
00:10:36GPU, pour ainsi dire, et ce matériel réseau est très demandé et donc coûteux, et ensuite bien sûr
00:10:43nous avons aussi l'énergie et les centres de données. Nous avons besoin des deux, nous avons besoin de centres de données pour mettre ces puces, et c'est
00:10:52pourquoi beaucoup de constructions se produisent là-bas, mais ensuite ces centres de données, ils ont besoin d'énergie, n'est-ce pas ? Et vous
00:10:58en avez entendu parler aussi, l'énergie est un autre gros problème, vous ne pouvez pas l'obtenir du réseau, il n'est tout simplement pas
00:11:05construit pour cela, il n'y a pas assez d'énergie disponible là-bas, c'est pourquoi tous ces nouveaux centres de données sont
00:11:12en train de passer à des solutions hors réseau, donc là où l'énergie est produite à côté du centre de données avec des turbines à gaz
00:11:21ou de l'énergie nucléaire, mais cela prend bien sûr du temps et cela nécessite aussi des composants, et il n'y a pas un
00:11:28nombre infini d'entreprises capables de construire ces centrales électriques, il n'y a pas un nombre infini de
00:11:35composants nécessaires à la construction de ces centrales électriques, donc tout cela limite la quantité de
00:11:42calcul qui peut être mise en ligne, ce qui à son tour manque pour l'inférence et bien sûr aussi pour l'entraînement.
00:11:48Maintenant, historiquement, et par là je veux dire seulement il y a un ou deux ans, l'incitation pour
00:11:54ces entreprises était de consacrer beaucoup de ressources de calcul à l'entraînement, parce que cela vous donne
00:12:00de meilleurs modèles qui vous permettent de garder une longueur d'avance ou de prendre l'avantage dans la course à l'IA, et cette incitation existe toujours, mais
00:12:07bien sûr, de nos jours, il y a aussi une plus grande incitation et une importance plus élevée ici sur la partie inférence
00:12:14parce que c'est la partie inférence qui vous donne des clients, qui vous donne de la visibilité sur le marché,
00:12:19parce que si personne ne peut utiliser vos modèles, alors c'est formidable que vous ayez de bons modèles, mais vous n'êtes
00:12:25pas en train de gagner de parts de marché, donc vous avez besoin d'une inférence qui est devenue bien plus importante, donc les entreprises doivent
00:12:30partager les ressources de calcul rares et les capacités des centres de données entre ces deux extrémités, et bien
00:12:38sûr, surtout depuis le début de cette année, nous voyons aussi un changement dans le comportement d'utilisation des clients.
00:12:45L'article de presse de GitHub est en fait assez ouvert à ce sujet : les flux de travail agentiques ont
00:12:51fondamentalement changé les demandes de calcul de Copilot, les sessions de longue durée paralysées consomment maintenant régulièrement
00:12:57bien plus de ressources que ce que la structure de plan originale était conçue pour supporter, et c'est la même chose bien
00:13:04sûr pour Anthropic et OpenAI. Par le passé, et encore, cela ne signifie qu'il y a environ un an,
00:13:10ces entreprises ne se concentraient pas principalement, mais dans une énorme mesure, vraiment que sur des sessions de chat occasionnelles.
00:13:20Un utilisateur, un client, venait occasionnellement et posait une question à ChatGPT ou à Claude, et bien sûr que
00:13:27cela aurait pu être plusieurs fois par jour, mais ce n'étaient que quelques questions, juste quelques réponses,
00:13:33quelques questions de suivi, bien sûr, beaucoup moins de jetons que tous ces longs flux de travail agentiques
00:13:39et sessions de codage. Dans ces sessions de codage, ou quels que soient les flux de travail agentiques que vous
00:13:44exécutez, vous brûlez des centaines de milliers et des millions de jetons rapidement, très rapidement, bien plus
00:13:51rapidement que vous ne pourriez le faire avec juste votre session de chat occasionnelle. Maintenant, étant donné le fait que tous ces
00:13:58modèles modernes avec lesquels nous traitons sont des modèles de pensée, généralement, la quantité de jetons a également
00:14:05augmenté par rapport à il y a un an ou deux, car une réponse prend simplement plus de jetons en raison de ce
00:14:12processus de réflexion, qui, bien sûr, sont toujours des jetons même si vous ne les voyez pas dans la réponse finale
00:14:17peut-être, donc la quantité de jetons consommés est devenue bien plus importante maintenant qu'elle ne l'était il y a un an ou deux
00:14:24ago, nous ramenant au point que l'inférence devient plus importante parce que vous avez besoin de bien
00:14:29plus d'inférence pour gérer toute cette génération de jetons qui se déroule, et c'est la raison pour laquelle tous
00:14:37ces nouveaux modèles sont assez coûteux lorsqu'ils sont utilisés via l'API, mais plus important encore, pourquoi
00:14:43ces abonnements sont si difficiles pour ces entreprises en ce moment. Elles ont introduit ces
00:14:49abonnements par le passé alors qu'il y avait beaucoup moins de jetons consommés, et maintenant elles sont à un point
00:14:56où, pour le même prix d'abonnement, les gens utilisent maintenant beaucoup plus de jetons, c'est la difficulté
00:15:03actuelle. Surtout pour Anthropic, par exemple, je pourrais imaginer qu'ils ressentent la douleur un peu plus
00:15:09qu'OpenAI, non seulement parce que leurs modèles semblent être plus coûteux à exécuter si vous jetez simplement un œil
00:15:16à la tarification API, mais aussi bien sûr parce que, historiquement, il y a déjà un an, Anthropic
00:15:22avait plus de clients entreprises et professionnels, ce qui est bon pour eux dans une certaine mesure, c'est une base de revenus
00:15:29stable, et ChatGPT ou OpenAI a été plus basé sur les consommateurs, ils avaient plus de gens normaux, de consommateurs
00:15:38comme clients, et maintenant ils se dirigent aussi plus vers les entreprises, mais historiquement, parce qu'ils
00:15:43ont eu le moment ChatGPT, ils avaient plus de gens normaux comme clients. Le désavantage pour Anthropic maintenant
00:15:50bien sûr, est que ces clients entreprises sont exactement les clients qui exécutent ces flux de travail agentiques
00:15:55ou qui ont tendance à exécuter ces flux de travail agentiques. Je veux dire, votre mère et votre père, s'ils
00:16:00paient pour ChatGPT du tout, ce qu'ils ne font probablement pas, ils n'exécutent pas de flux de travail agentiques
00:16:06mais vous le faites, votre entreprise le fait, et cela rend bien sûr l'abonnement encore plus difficile pour
00:16:11Anthropic, j'imagine, que pour OpenAI, où il y a encore beaucoup de "normies" dans l'abonnement
00:16:18je devinerais, mais ils ressentent certainement la douleur aussi. Et qu'est-ce que tout cela signifie maintenant ? Que signifient
00:16:24des changements comme ceux-ci ou des changements comme dans ce post X où Anthropic teste le retrait de Claude Code
00:16:32des plans les moins chers ? Que signifie tout cela pour nous ? Je pense que c'est assez évident, nous verrons encore
00:16:38plus de limites strictes à l'avenir, et par conséquent nous pourrions bien sûr atteindre un point où les abonnements
00:16:42ne donnent plus vraiment l'impression de valoir le coup, et je pense que ce sera le point où nous verrons
00:16:48des prix plus élevés. Il n'est pas déraisonnable, je pense, de croire que ces abonnements de codage, ou généralement
00:16:55ces abonnements à utilisation agentique, coûteront plusieurs milliers de dollars par mois à un moment donné, pas
00:17:03cette année, très probablement, mais à un moment donné, parce que bien sûr, les entreprises pourraient commencer à comparer le coût de
00:17:10ces abonnements par rapport au coût des employés, oui, et ce n'est bien sûr pas une excellente nouvelle, et il
00:17:17se peut que j'aie totalement tort, mais c'est certainement ce que je pense qui arrivera, et bien sûr, lorsque vous faites
00:17:23cette comparaison, il y a beaucoup de marge pour que ces abonnements deviennent beaucoup, beaucoup plus chers
00:17:30évidemment. Les abonnements ne seront alors plus pour les gens normaux, donc je pense que nous verrons aussi
00:17:35de nouvelles offres d'abonnement pour eux qui ont simplement des limites d'utilisation beaucoup plus strictes, qui sont suffisantes
00:17:41pour ChatGPT mais pas suffisantes pour les flux de travail agentiques, mais pour l'usage professionnel, pour les flux de travail
00:17:47agentiques, nous verrons des limites plus strictes et des prix plus élevés. Je ne suis pas sûr de quand, parce que vous savez, la part de marché,
00:17:52donc ce que j'ai mentionné avant, mais éventuellement, nous verrons cela, parce qu'en fin de compte
00:17:58comme mentionné, OpenAI a environ 18 mois de piste, ils veulent probablement rester en activité,
00:18:03la même chose pour Anthropic, et donc c'est ce que je pense que nous verrons ici dans un an environ, je ne sais pas.