KI-Abonnements werden weniger attraktiv

MMaximilian Schwarzmüller
컴퓨터/소프트웨어창업/스타트업경제 뉴스

Transcript

00:00:00Heute Morgen bin ich aufgewacht und habe diesen Beitrag auf X gesehen, der erwähnt, dass Anthropic anscheinend
00:00:09das Cloud Code-Plug-in aus dem Pro-Plan entfernt hat, sodass man jetzt die teureren
00:00:17Abonnements benötigt, um Cloud Code nutzen oder sein Abo in Cloud Code verwenden zu können.
00:00:22Nun, Anthropic war schnell mit einem Kommentar dazu und erwähnte, dass dies nur ein kleiner
00:00:27Test ist, den sie bei nur 2 % der neuen Prosumer-Anmeldungen durchführen.
00:00:32Ich finde es etwas merkwürdig, diese Art von Test durchzuführen, und ich denke auch, dass Anthropic hätte
00:00:40vorhersehen können, was auf sie zukommt, wenn sie so einen Test machen, und welche Auswirkungen ein solcher Test
00:00:47auf ihr Image haben würde und was die Leute darüber denken würden, denn das passt natürlich sehr gut zu der Erzählung,
00:00:53die wir bereits sehen, bei der wir weniger Nutzung aus unseren Abonnements bekommen, wir sehen
00:00:59stärkere Einschränkungen oder strengere Limits, wir sehen eine nachlassende Modellleistung, da es so scheint, als ob all diese
00:01:08Dinge in den letzten paar Wochen passiert sind. Ich meine, Anthropic hat aggressiv die
00:01:14Nutzung ihres Abonnements außerhalb von Cloud Code eingeschränkt. Wenn man es zum Beispiel mit Open Cloud
00:01:21nutzen wollte, haben sie das unterbunden, also ergibt das alles ein klares, größeres Bild.
00:01:28Und was zu diesem Bild oder Narrativ passt, ist dieser Nachrichtenartikel, den GitHub vor ein paar
00:01:37Tagen veröffentlicht hat, in dem sie klarstellten, dass sie neue Anmeldungen für GitHub Copilot Pro,
00:01:43Pro Plus und Student-Pläne pausieren und dass sie die Nutzungslimits für individuelle Pläne
00:01:49verschärfen und, was am wichtigsten ist, dass die Opus-Modelle nicht mehr in den Pro-Plänen verfügbar sind, und das
00:01:56ergibt natürlich alles irgendwie Sinn, aber wir müssen etwas tiefer in die Ökonomie dessen eintauchen, was vor sich geht,
00:02:02um zu verstehen, warum das passiert und vor allem, was das auch für uns in der
00:02:07Zukunft bedeutet. Es bedeutet eindeutig, dass die Tage der unbegrenzten Nutzung und starken Subventionen vorbei sind, und um das zu verstehen,
00:02:17müssen wir die Ökonomie dieser Abonnements und der Token-Nutzung verstehen, oder könnte man sagen,
00:02:25den Token-Verbrauch, denn natürlich funktionieren diese Abonnements, die von Anthropic,
00:02:34von OpenAI und von GitHub angeboten werden, eigentlich nur, wenn die Mehrheit der Nutzer nicht wirklich ihre
00:02:43ganze verfügbare Nutzung ausschöpft. Das ist so ziemlich bei jedem Abonnement-Angebot der Fall,
00:02:49nicht nur bei diesen KI-Abonnements. Wenn man ein Netflix-Abonnement hat und 24/7 damit verbringt, Netflix zu schauen,
00:02:56wird man wahrscheinlich sehr wahrscheinlich kein super profitabler Kunde für sie sein, aber die meisten Leute
00:03:02tun das nicht, und so können diese Unternehmen einen Gewinn erzielen. Das gilt natürlich für alle Abonnements.
00:03:10Nun können wir den wahren Preis oder einen Preis sehen, der näher am wahren Preis unserer KI-
00:03:19Anfragen liegt, wenn wir uns die API-Preisseiten dieser Unternehmen ansehen. Dort können wir zum Beispiel sehen,
00:03:26dass das neueste Modell von Anthropic, Claude Opus 4.7, einen Preis für Eingabe-Token von fünf Dollar pro
00:03:35Million Token hat und einen Preis für Ausgabe-Token von 25 Dollar pro Million Token, und das können wir in
00:03:42Relation zu ihren anderen Modellen setzen. Wir können es natürlich auch in Relation zu dem setzen, was OpenAI zu
00:03:47bieten hat, zum Beispiel. Dort sehen wir, dass GPT 5.4, das die meisten Codex-Nutzer wahrscheinlich gerade verwenden, einen
00:03:54Eingabepreis von zwei Dollar fünfzig pro Million Token hat, also nur die Hälfte dessen, was wir für Opus 4.7 hatten,
00:04:03und dass wir einen Ausgabepreis von 22,50 haben, also etwas weniger als das, was wir bei Opus sahen. Nun,
00:04:11es ist wahrscheinlich fair anzunehmen, dass diese API-Preise Preise sind, die diese Unternehmen
00:04:20an einem Break-Even-Punkt oder bei einem kleinen Gewinn bezüglich ihrer Bruttomarge belassen, also wenn wir uns nur die
00:04:29Inferenzkosten speziell ansehen, können wir wahrscheinlich davon ausgehen, dass sie einen Gewinn erzielen, wenn man ihre
00:04:36APIs nutzt. Nun ist es natürlich wichtig zu verstehen, dass die Kosten für den Betrieb von KI-Modellen
00:04:43letztendlich von zwei Hauptfaktoren abhängen: Es ist das Training der KI-Modelle, das Geld kostet, und
00:04:53es ist die Inferenz natürlich, also haben wir diese zwei Faktoren hier, die bei diesen
00:04:59KI-Unternehmen eine Rolle spielen. Nun sind die Trainingskosten natürlich eine einmalige Sache, richtig, also trainiert man ein Modell einmal
00:05:06und das ist super teuer, aber offensichtlich ist es eine einmalige Sache. Natürlich trainieren diese Unternehmen dann
00:05:12mehr und mehr Modelle, und es sind neue einmalige Kosten für jedes Modell, aber sobald ein Modell trainiert wurde,
00:05:18fallen keine weiteren Trainingskosten mehr an, außer vielleicht für weitere Feinabstimmungen oder abgeleitete
00:05:25Modelle von diesem Basismodell, aber ja, der große Kostenblock fällt nur einmal an. Nun, bei der Inferenz
00:05:33ist das natürlich anders, das sind laufende Kosten, es ist am Ende pro Anfrage, weil natürlich
00:05:41Inferenz der Prozess ist, die konkrete Ausgabe für Ihren Prompt, für die Aufgabe, die Sie an
00:05:48einen Modellanbieter senden, zu erzeugen, und Inferenz ist natürlich das, was die ganze Zeit passiert, wenn man
00:05:53Claude Code nutzt, wenn man Codex nutzt, aber natürlich auch, wenn man einen Prompt bei ChatGPT sendet oder auf
00:05:58irgendeine andere Art. Nun, das ist natürlich der Punkt, an dem man bei seiner API-Preisgestaltung zumindest den Break-Even-Punkt erreichen möchte,
00:06:07weil es sonst bedeutet, dass man bei jeder Anfrage, die man erhält, Geld verliert, und während man das natürlich
00:06:13tun könnte, um seinen Marktanteil zu vergrößern, und während ich nicht ausschließen würde, dass Unternehmen
00:06:19das gelegentlich tun, wird es langfristig natürlich nicht tragbar sein, weil man sonst
00:06:25pleitegeht. Natürlich muss man auch irgendwann seine Trainingskosten wieder einspielen, also idealerweise
00:06:34geben diese eingehenden Anfragen, die Ihre Nutzer Ihnen senden, Ihnen genug Bruttomarge auf Ihre
00:06:41Inferenzkosten, sodass diese Marge auch Ihre Trainingskosten, Ihre Personalkosten und so weiter abdeckt. Also natürlich ist das die
00:06:48Ökonomie dessen, wie man diese KI-Modelle betreiben und nutzen kann. Nun, wie erwähnt, ist die
00:06:57API-Preisgestaltung wahrscheinlich der Teil, bei dem diese Unternehmen nicht massiv Geld verlieren,
00:07:02aber natürlich tun Sie das als Konsument, als Kunde, wenn Sie Cloud Code mit diesen
00:07:10On-Demand-Preisen von Opus betreiben würden, würden Sie viel, viel mehr bezahlen, als wenn Sie deren Abonnements nutzen würden,
00:07:18denn natürlich erhalten Sie mit dem Max-Abonnement zum Beispiel für nur 200 Dollar
00:07:26sehr viel Nutzung aus diesem Plan, Sie erhalten viele Millionen Token aus diesem Plan, und wenn Sie
00:07:34sich ansehen, was Ausgabe-Token normalerweise pro Million Token kosten, können Sie sehen, dass
00:07:39normalerweise, wenn man die Eingabe-Token ignoriert, was man nicht sollte, aber wenn man sie für diese zwei
00:07:44hundert Dollar hier ignoriert, sollten wir nicht einmal 10 Millionen Ausgabe-Token erhalten, richtig, denn eine Million
00:07:51kostet uns 25 Dollar, also sollten wir nur acht Millionen Ausgabe-Token erhalten, und wenn man dann
00:07:56Eingabe-Token berücksichtigt, wäre es weniger als das, und eindeutig, wenn Sie irgendwelche lang laufenden Sitzungen hatten, wenn Sie
00:08:02Cloud Code zum Beispiel für eine Woche genutzt haben und Sie Ihre Token-Nutzung verfolgen, werden Sie sehen, dass Sie
00:08:08diese Grenze überschreiten können, und das konnten Sie in der Vergangenheit definitiv, und das macht offensichtlich, warum die
00:08:14Unternehmen versuchen zu begrenzen, wie viel Nutzung man aus seinen Abonnements erhalten kann,
00:08:19und warum ich denke, dass wir definitiv höhere Abonnementpreise in der Zukunft sehen werden, vielleicht schon
00:08:25in der nahen Zukunft. Nun ist es natürlich nicht super einfach für diese Unternehmen, ihre Preise
00:08:30zu erhöhen, weil Marktanteil, offensichtlich wollen all diese Unternehmen aggressiv Marktanteile erobern,
00:08:37mit der Begründung, dass, wenn Sie das Hauptunternehmen sind, das als Anbieter von Coding-Agenten in
00:08:45vielen Unternehmen da draußen etabliert ist, diese wahrscheinlich höhere Abonnement-
00:08:51preise in der Zukunft zahlen werden, also möchte man nicht zu früh damit beginnen, die Preise zu erhöhen, weil das
00:08:57einige Ihrer Kunden zur Konkurrenz treiben könnte, was Sie natürlich nicht wollen. Auf der anderen Seite
00:09:02wollen Sie nicht pleitegehen. Ich meine, zum Beispiel hat OpenAI kürzlich 122 Milliarden Dollar eingesammelt,
00:09:09um die nächste Phase der KI zu beschleunigen, und man könnte lesen, dass dies ihnen nur
00:09:17etwa 18 Monate an Startbahn geben würde, also 18 Monate, bis sie wieder Geld einsammeln müssen. Also können Sie klar
00:09:26nicht ewig all diese Nutzung subventionieren, denn wenn Sie pleitegehen, gehen all Ihre Kunden
00:09:32sowieso zur Konkurrenz, also gibt es hier einen Zielkonflikt, und das ist natürlich genau die
00:09:39schwierige Lage, in der sich diese Unternehmen gerade befinden, das ist die Ökonomie hier. Nun, natürlich, wie Sie
00:09:44wahrscheinlich gelesen und auch gefühlt haben, wenn Sie zum Beispiel ein Gamer sind, sind wir an einem Punkt, an dem wegen
00:09:52all der KI-Sachen, die passieren, wir mit einer großen Rechenkapazitätsknappheit und Krise sowie hohen Preisen für
00:10:01Speicher und alles, was mit dem zusammenhängt, was diese KI-Modelle und diese KI-Rechenzentren benötigen, konfrontiert sind, also
00:10:08ist Speicher teuer, weil Inferenz viel Speicher benötigt. Wenn Sie versucht haben, Modelle
00:10:13lokal auf Ihrem System auszuführen, wissen Sie, dass Sie viel Speicher dafür benötigen, also sind die Speicherpreise gestiegen,
00:10:19aber es ist nicht nur Speicher, es ist auch Netzwerkausrüstung, weil Sie natürlich sowohl das Training
00:10:25als auch die Inferenz nicht auf einem einzigen Chip ausführen, sondern auf riesigen Racks und Clustern von Chips, und all diese
00:10:31Cluster benötigen Verbindungen zwischen den Clustern, zwischen den Chips, sodass Sie Super-
00:10:36GPUs aufbauen können, sozusagen, und diese Netzwerkausrüstung ist stark gefragt und daher teuer, und dann natürlich
00:10:43haben wir auch Energie und Rechenzentren, wir brauchen beides, wir brauchen Rechenzentren, um diese Chips unterzubringen, und deshalb
00:10:52passieren dort viele Bauarbeiten, aber dann benötigen diese Rechenzentren Energie, richtig, und Sie
00:10:58haben davon auch gehört, Energie ist ein weiteres großes Problem, man kann sie nicht aus dem Netz beziehen, es ist einfach nicht
00:11:05dafür gebaut, es ist nicht genug Energie dort verfügbar, deshalb verlagern sich all diese neuen Rechenzentren
00:11:12auf netzunabhängige Lösungen, wo die Energie neben dem Rechenzentrum mit Gasturbinen
00:11:21oder Kernkraft produziert wird, aber das braucht natürlich alles Zeit, und es braucht auch Komponenten, und es gibt keine
00:11:28unendliche Menge an Unternehmen, die diese Kraftwerke bauen können, es gibt keine unendliche Menge an
00:11:35Komponenten, die für den Bau dieser Kraftwerke benötigt werden, also begrenzt das alles die Menge an
00:11:42Rechenleistung, die online gehen kann, was wiederum für die Inferenz fehlt und natürlich auch für das
00:11:48Training. Nun, historisch gesehen, und damit meine ich nur vor ein oder zwei Jahren, war der Anreiz für
00:11:54diese Unternehmen, viele Rechenressourcen für das Training aufzuwenden, weil das einem
00:12:00bessere Modelle gibt, was einen im KI-Rennen vorne bleiben oder nach vorne bringen lässt, und dieser Anreiz existiert immer noch, aber
00:12:07natürlich gibt es heutzutage auch einen größeren Anreiz und höhere Wichtigkeit hier für den Inferenzteil,
00:12:14weil es der Inferenzteil ist, der einem Kunden gibt, der einem Sichtbarkeit auf dem Markt gibt,
00:12:19denn wenn niemand Ihre Modelle nutzen kann, dann ist es toll, dass Sie gute Modelle haben, aber Sie
00:12:25gewinnen keine Marktanteile, also brauchen Sie Inferenz, das ist viel wichtiger geworden, also müssen Unternehmen
00:12:30die knappen Rechenressourcen und Rechenzentrumskapazitäten zwischen diesen beiden Enden aufteilen, und
00:12:38natürlich sehen wir besonders seit Anfang dieses Jahres ein verändertes Nutzungsverhalten der Kunden,
00:12:45der GitHub-Nachrichtenartikel hier ist tatsächlich ziemlich offen darüber, agentische Arbeitsabläufe haben
00:12:51grundlegend die Rechenanforderungen von Copilot verändert, lang laufende, parallelisierte Sitzungen
00:12:57verbrauchen jetzt weitaus mehr Ressourcen, als die ursprüngliche Planstruktur unterstützen sollte, und es ist dasselbe natürlich
00:13:04für Anthropic und OpenAI in der Vergangenheit, und noch einmal, das bedeutet nur vor einem Jahr oder so,
00:13:10dass sich diese Unternehmen nicht primär, aber zu einem großen Teil wirklich nur auf gelegentliche Chat-Sitzungen konzentrierten, ein
00:13:20Nutzer, ein Kunde kam gelegentlich vorbei und stellte ChatGPT oder Claude eine Frage, und natürlich konnte das
00:13:27mehrmals am Tag sein, aber es waren nur ein paar Fragen, nur ein paar Antworten,
00:13:33ein paar Folgefragen, natürlich weit weniger Token als all diese lang laufenden agentischen
00:13:39Arbeitsabläufe und Coding-Sitzungen haben. In diesen Coding-Sitzungen oder welche agentischen Arbeitsabläufe Sie auch immer
00:13:44ausführen, verbrennen Sie schnell, sehr schnell Hunderte von Tausenden und Millionen von Token, weit
00:13:51schneller als Sie es mit nur Ihrer gelegentlichen Chat-Sitzung könnten. Nun, angesichts der Tatsache, dass all diese
00:13:58modernen Modelle, mit denen wir zu tun haben, denkende Modelle sind, wurde typischerweise auch die Token-Menge
00:14:05höher im Vergleich zu vor einem Jahr oder zwei, weil eine Antwort aufgrund dieses
00:14:12Denkprozesses einfach mehr Token benötigt, die natürlich immer noch Token sind, auch wenn man sie in der endgültigen Antwort
00:14:17vielleicht nicht sieht. Daher ist die Menge der verbrauchten Token jetzt viel, viel größer geworden als noch vor einem Jahr oder zwei
00:14:24Jahren, was uns wieder zu dem Punkt bringt, dass Inferenz wichtiger wird, weil man viel
00:14:29mehr Inferenz benötigt, um all diese Token-Generierung, die stattfindet, zu bewältigen, und das ist der Grund, warum all
00:14:37diese neuen Modelle ziemlich teuer sind, wenn sie über die API genutzt werden, aber noch wichtiger, warum
00:14:43diese Abonnements für diese Unternehmen gerade so schwierig sind. Sie haben diese
00:14:49Abonnements in der Vergangenheit eingeführt, als weit weniger Token verbraucht wurden, und jetzt sind sie an einem Punkt,
00:14:56an dem für denselben Abonnementpreis die Leute jetzt viel mehr Token verbrauchen. Das ist die Schwierigkeit,
00:15:03nun, besonders für Anthropic zum Beispiel könnte ich mir vorstellen, dass sie den Schmerz ein bisschen mehr
00:15:09spüren als OpenAI, nicht nur, weil ihre Modelle teurer zu betreiben zu sein scheinen, wenn man sich nur
00:15:16die API-Preise ansieht, sondern natürlich auch, weil Anthropic historisch gesehen schon vor einem Jahr
00:15:22mehr Unternehmens- und Geschäftskunden hatte, was für sie bis zu einem gewissen Grad gut ist, es ist eine stabile
00:15:29Einnahmebasis, und ChatGPT oder OpenAI waren eher verbraucherorientiert, sie hatten mehr normale Leute, normale
00:15:38Verbraucher als Kunden, und jetzt bewegen sie sich auch mehr in Richtung Unternehmen, aber historisch gesehen, weil sie
00:15:43den ChatGPT-Moment hatten, hatten sie mehr normale Leute als Kunden. Der Nachteil für Anthropic jetzt
00:15:50ist natürlich, dass diese Geschäftskunden genau die Kunden sind, die diese agentischen
00:15:55Arbeitsabläufe ausführen oder die dazu neigen, diese agentischen Arbeitsabläufe auszuführen. Ich meine, Ihre Mutter und Ihr Vater, wenn sie
00:16:00überhaupt für ChatGPT bezahlen, was sie wahrscheinlich nicht tun, führen sie keine agentischen Arbeitsabläufe aus,
00:16:06aber Sie tun es, Ihr Unternehmen tut es, und das macht natürlich das Abonnement für
00:16:11Anthropic noch schwieriger, so würde ich mir vorstellen, als für OpenAI, wo es immer noch viele "Normies" im Abonnement
00:16:18gibt. Ich würde vermuten, dass sie den Schmerz definitiv auch spüren, und was bedeutet das alles jetzt? Was bedeuten
00:16:24Änderungen wie diese oder Änderungen wie in diesem X-Beitrag, bei dem Anthropic Tests durchführt, um Claude Code
00:16:32aus den günstigeren Plänen zu ziehen, was bedeutet das alles für uns? Ich denke, es ist ziemlich offensichtlich, wir werden in Zukunft sogar
00:16:38strengere Limits sehen, und deshalb könnten wir natürlich einen Punkt erreichen, an dem sich die Abonnements
00:16:42nicht mehr wirklich so anfühlen, als wären sie es wert, und ich denke, das wird der Punkt sein, an dem wir
00:16:48höhere Preise sehen werden. Es ist nicht unvernünftig, glaube ich, zu glauben, dass diese Coding-Abonnements oder im Allgemeinen
00:16:55diese Abonnements für agentische Nutzung irgendwann viele tausend Dollar pro Monat kosten werden. Nicht
00:17:03dieses Jahr höchstwahrscheinlich, aber irgendwann, weil Unternehmen natürlich anfangen könnten, die Kosten für
00:17:10diese Abonnements mit den Kosten für Mitarbeiter zu vergleichen, ja, und das ist natürlich keine großartige Nachricht, und es
00:17:17mag völlig falsch sein, aber es ist definitiv das, was ich denke, dass passieren wird, und natürlich, wenn man
00:17:23diesen Vergleich anstellt, gibt es viel Raum für diese Abonnements, um viel, viel teurer zu werden,
00:17:30offensichtlich. Die Abonnements sind dann nicht mehr für die normalen Leute, also denke ich, dass wir auch
00:17:35neue Abonnementangebote für diese sehen werden, die einfach viel strengere Nutzungslimits haben, die für ChatGPT genug,
00:17:41aber für agentische Arbeitsabläufe nicht genug sind. Aber für die professionelle Nutzung, für die agentischen
00:17:47Arbeitsabläufe werden wir strengere Limits und höhere Preise sehen. Ich bin mir nicht sicher, wann, weil Sie wissen, Markt-
00:17:52anteil, richtig, also das, was ich vorhin erwähnt habe, aber letztendlich werden wir das sehen, weil letztendlich
00:17:58wie erwähnt, OpenAI etwa 18 Monate Startbahn hat, sie wollen wahrscheinlich im Geschäft bleiben,
00:18:03dasselbe für Anthropic, und deshalb ist das, was ich denke, dass wir hier in einem Jahr oder so sehen werden, ich weiß es nicht.

Key Takeaway

Die Ära unbegrenzter KI-Nutzung durch subventionierte Abonnements endet, da moderne agentische Arbeitsabläufe den Token-Verbrauch in Bereiche treiben, in denen Inferenzkosten die bisherigen Pauschalpreise nicht mehr decken.

Highlights

KI-Unternehmen schränken Cloud-Code-Plug-ins und Opus-Modelle in günstigen Pro-Abonnements zunehmend ein, um die Token-Nutzung zu begrenzen.

Die API-Preise für Anthropic Claude Opus liegen bei 5 Dollar pro Million Eingabe-Token und 25 Dollar pro Million Ausgabe-Token.

Die Entwicklung von agentischen Arbeitsabläufen führt zu einem massiven Anstieg des Token-Verbrauchs im Vergleich zu gelegentlichen Chat-Sitzungen.

Die Inferenzkosten steigen aufgrund knapper Rechenressourcen, teurer Speicherlösungen und des hohen Energiebedarfs moderner KI-Rechenzentren.

OpenAI-Kapitalreserven von 122 Milliarden Dollar decken den aktuellen Betrieb bei derzeitiger Subventionsrate lediglich für etwa 18 Monate ab.

Abonnements für agentische Nutzung werden langfristig vermutlich die Preisgrenze von tausenden Dollar pro Monat erreichen.

Timeline

Einschränkungen bei KI-Abonnements

  • Anthropic begrenzt die Nutzung von Cloud-Code-Funktionen innerhalb der Pro-Abonnements.
  • GitHub pausiert neue Anmeldungen für Copilot Pro und schließt den Zugriff auf Opus-Modelle für Pro-Nutzer aus.
  • Die Tage unbegrenzter Nutzung bei geringen Abonnementpreisen sind aufgrund ökonomischer Zwänge vorbei.

Anbieter reagieren auf veränderte Nutzungsmuster mit einer strikteren Trennung von Funktionen. Die Erzählung von allgemeiner Verfügbarkeit weicht einer Realität von strengeren Nutzungslimits und nachlassender Modellleistung in günstigen Tarifen.

Ökonomie der Token-Inferenz

  • Abonnementmodelle basieren ökonomisch darauf, dass die Mehrheit der Nutzer ihr Kontingent nicht voll ausschöpft.
  • Claude Opus kostet 5 Dollar pro Million Eingabe- und 25 Dollar pro Million Ausgabe-Token bei API-Nutzung.
  • Der Break-Even-Punkt bei der API-Preisgestaltung ist für Unternehmen zwingend notwendig, um langfristig profitabel zu bleiben.
  • Die Bruttomarge aus API-Anfragen muss Inferenzkosten, Trainingsaufwand und Personalkosten abdecken.

Die tatsächlichen Kosten pro Anfrage lassen sich über API-Preisseiten direkt ablesen. Während Pro-Nutzer durch ihre Flatrates oft Millionen von Token verbrauchen, zeigen die API-Preise, dass eine ungehinderte Nutzung jenseits des Abonnementpreises liegen würde.

Infrastruktur- und Kapazitätskrise

  • Die KI-Industrie kämpft mit einem Mangel an Rechenkapazität, Speicher und spezialisierter Netzwerkausrüstung.
  • Energiebedarf zwingt Rechenzentren zunehmend zu netzunabhängigen Lösungen wie Gasturbinen oder Kernkraft.
  • Agentische Workflows verursachen durch lang laufende, parallelisierte Sitzungen einen exponentiellen Anstieg des Ressourcenverbrauchs.

Der Aufbau riesiger GPU-Cluster erfordert enorme Mengen an Energie und Hardwarekomponenten. Da die physische Kapazität für neue Rechenzentren begrenzt ist, müssen Unternehmen die knappen Ressourcen effizienter zwischen Training und Inferenz aufteilen.

Zukunft der Abonnementpreise

  • Moderne 'denkende' Modelle verbrauchen aufgrund des internen Denkprozesses deutlich mehr Token pro Anfrage.
  • Geschäftskunden, die verstärkt agentische Workflows nutzen, belasten die Kostenbilanz stärker als Privatnutzer.
  • Zukünftige Abonnements werden wahrscheinlich höhere Preise und eine klare Trennung zwischen privater und agentischer Nutzung einführen.

Die wachsende Komplexität der Aufgaben und die zunehmende Automatisierung durch KI-Agenten zwingen Anbieter zu einer Neupreisgestaltung. Abonnements könnten sich in Zukunft an den Kosten für menschliche Mitarbeiter orientieren, um die langfristige Finanzierung der KI-Modelle zu sichern.

Community Posts

View all posts