00:00:00Heute Morgen bin ich aufgewacht und habe diesen Beitrag auf X gesehen, der erwähnt, dass Anthropic anscheinend
00:00:09das Cloud Code-Plug-in aus dem Pro-Plan entfernt hat, sodass man jetzt die teureren
00:00:17Abonnements benötigt, um Cloud Code nutzen oder sein Abo in Cloud Code verwenden zu können.
00:00:22Nun, Anthropic war schnell mit einem Kommentar dazu und erwähnte, dass dies nur ein kleiner
00:00:27Test ist, den sie bei nur 2 % der neuen Prosumer-Anmeldungen durchführen.
00:00:32Ich finde es etwas merkwürdig, diese Art von Test durchzuführen, und ich denke auch, dass Anthropic hätte
00:00:40vorhersehen können, was auf sie zukommt, wenn sie so einen Test machen, und welche Auswirkungen ein solcher Test
00:00:47auf ihr Image haben würde und was die Leute darüber denken würden, denn das passt natürlich sehr gut zu der Erzählung,
00:00:53die wir bereits sehen, bei der wir weniger Nutzung aus unseren Abonnements bekommen, wir sehen
00:00:59stärkere Einschränkungen oder strengere Limits, wir sehen eine nachlassende Modellleistung, da es so scheint, als ob all diese
00:01:08Dinge in den letzten paar Wochen passiert sind. Ich meine, Anthropic hat aggressiv die
00:01:14Nutzung ihres Abonnements außerhalb von Cloud Code eingeschränkt. Wenn man es zum Beispiel mit Open Cloud
00:01:21nutzen wollte, haben sie das unterbunden, also ergibt das alles ein klares, größeres Bild.
00:01:28Und was zu diesem Bild oder Narrativ passt, ist dieser Nachrichtenartikel, den GitHub vor ein paar
00:01:37Tagen veröffentlicht hat, in dem sie klarstellten, dass sie neue Anmeldungen für GitHub Copilot Pro,
00:01:43Pro Plus und Student-Pläne pausieren und dass sie die Nutzungslimits für individuelle Pläne
00:01:49verschärfen und, was am wichtigsten ist, dass die Opus-Modelle nicht mehr in den Pro-Plänen verfügbar sind, und das
00:01:56ergibt natürlich alles irgendwie Sinn, aber wir müssen etwas tiefer in die Ökonomie dessen eintauchen, was vor sich geht,
00:02:02um zu verstehen, warum das passiert und vor allem, was das auch für uns in der
00:02:07Zukunft bedeutet. Es bedeutet eindeutig, dass die Tage der unbegrenzten Nutzung und starken Subventionen vorbei sind, und um das zu verstehen,
00:02:17müssen wir die Ökonomie dieser Abonnements und der Token-Nutzung verstehen, oder könnte man sagen,
00:02:25den Token-Verbrauch, denn natürlich funktionieren diese Abonnements, die von Anthropic,
00:02:34von OpenAI und von GitHub angeboten werden, eigentlich nur, wenn die Mehrheit der Nutzer nicht wirklich ihre
00:02:43ganze verfügbare Nutzung ausschöpft. Das ist so ziemlich bei jedem Abonnement-Angebot der Fall,
00:02:49nicht nur bei diesen KI-Abonnements. Wenn man ein Netflix-Abonnement hat und 24/7 damit verbringt, Netflix zu schauen,
00:02:56wird man wahrscheinlich sehr wahrscheinlich kein super profitabler Kunde für sie sein, aber die meisten Leute
00:03:02tun das nicht, und so können diese Unternehmen einen Gewinn erzielen. Das gilt natürlich für alle Abonnements.
00:03:10Nun können wir den wahren Preis oder einen Preis sehen, der näher am wahren Preis unserer KI-
00:03:19Anfragen liegt, wenn wir uns die API-Preisseiten dieser Unternehmen ansehen. Dort können wir zum Beispiel sehen,
00:03:26dass das neueste Modell von Anthropic, Claude Opus 4.7, einen Preis für Eingabe-Token von fünf Dollar pro
00:03:35Million Token hat und einen Preis für Ausgabe-Token von 25 Dollar pro Million Token, und das können wir in
00:03:42Relation zu ihren anderen Modellen setzen. Wir können es natürlich auch in Relation zu dem setzen, was OpenAI zu
00:03:47bieten hat, zum Beispiel. Dort sehen wir, dass GPT 5.4, das die meisten Codex-Nutzer wahrscheinlich gerade verwenden, einen
00:03:54Eingabepreis von zwei Dollar fünfzig pro Million Token hat, also nur die Hälfte dessen, was wir für Opus 4.7 hatten,
00:04:03und dass wir einen Ausgabepreis von 22,50 haben, also etwas weniger als das, was wir bei Opus sahen. Nun,
00:04:11es ist wahrscheinlich fair anzunehmen, dass diese API-Preise Preise sind, die diese Unternehmen
00:04:20an einem Break-Even-Punkt oder bei einem kleinen Gewinn bezüglich ihrer Bruttomarge belassen, also wenn wir uns nur die
00:04:29Inferenzkosten speziell ansehen, können wir wahrscheinlich davon ausgehen, dass sie einen Gewinn erzielen, wenn man ihre
00:04:36APIs nutzt. Nun ist es natürlich wichtig zu verstehen, dass die Kosten für den Betrieb von KI-Modellen
00:04:43letztendlich von zwei Hauptfaktoren abhängen: Es ist das Training der KI-Modelle, das Geld kostet, und
00:04:53es ist die Inferenz natürlich, also haben wir diese zwei Faktoren hier, die bei diesen
00:04:59KI-Unternehmen eine Rolle spielen. Nun sind die Trainingskosten natürlich eine einmalige Sache, richtig, also trainiert man ein Modell einmal
00:05:06und das ist super teuer, aber offensichtlich ist es eine einmalige Sache. Natürlich trainieren diese Unternehmen dann
00:05:12mehr und mehr Modelle, und es sind neue einmalige Kosten für jedes Modell, aber sobald ein Modell trainiert wurde,
00:05:18fallen keine weiteren Trainingskosten mehr an, außer vielleicht für weitere Feinabstimmungen oder abgeleitete
00:05:25Modelle von diesem Basismodell, aber ja, der große Kostenblock fällt nur einmal an. Nun, bei der Inferenz
00:05:33ist das natürlich anders, das sind laufende Kosten, es ist am Ende pro Anfrage, weil natürlich
00:05:41Inferenz der Prozess ist, die konkrete Ausgabe für Ihren Prompt, für die Aufgabe, die Sie an
00:05:48einen Modellanbieter senden, zu erzeugen, und Inferenz ist natürlich das, was die ganze Zeit passiert, wenn man
00:05:53Claude Code nutzt, wenn man Codex nutzt, aber natürlich auch, wenn man einen Prompt bei ChatGPT sendet oder auf
00:05:58irgendeine andere Art. Nun, das ist natürlich der Punkt, an dem man bei seiner API-Preisgestaltung zumindest den Break-Even-Punkt erreichen möchte,
00:06:07weil es sonst bedeutet, dass man bei jeder Anfrage, die man erhält, Geld verliert, und während man das natürlich
00:06:13tun könnte, um seinen Marktanteil zu vergrößern, und während ich nicht ausschließen würde, dass Unternehmen
00:06:19das gelegentlich tun, wird es langfristig natürlich nicht tragbar sein, weil man sonst
00:06:25pleitegeht. Natürlich muss man auch irgendwann seine Trainingskosten wieder einspielen, also idealerweise
00:06:34geben diese eingehenden Anfragen, die Ihre Nutzer Ihnen senden, Ihnen genug Bruttomarge auf Ihre
00:06:41Inferenzkosten, sodass diese Marge auch Ihre Trainingskosten, Ihre Personalkosten und so weiter abdeckt. Also natürlich ist das die
00:06:48Ökonomie dessen, wie man diese KI-Modelle betreiben und nutzen kann. Nun, wie erwähnt, ist die
00:06:57API-Preisgestaltung wahrscheinlich der Teil, bei dem diese Unternehmen nicht massiv Geld verlieren,
00:07:02aber natürlich tun Sie das als Konsument, als Kunde, wenn Sie Cloud Code mit diesen
00:07:10On-Demand-Preisen von Opus betreiben würden, würden Sie viel, viel mehr bezahlen, als wenn Sie deren Abonnements nutzen würden,
00:07:18denn natürlich erhalten Sie mit dem Max-Abonnement zum Beispiel für nur 200 Dollar
00:07:26sehr viel Nutzung aus diesem Plan, Sie erhalten viele Millionen Token aus diesem Plan, und wenn Sie
00:07:34sich ansehen, was Ausgabe-Token normalerweise pro Million Token kosten, können Sie sehen, dass
00:07:39normalerweise, wenn man die Eingabe-Token ignoriert, was man nicht sollte, aber wenn man sie für diese zwei
00:07:44hundert Dollar hier ignoriert, sollten wir nicht einmal 10 Millionen Ausgabe-Token erhalten, richtig, denn eine Million
00:07:51kostet uns 25 Dollar, also sollten wir nur acht Millionen Ausgabe-Token erhalten, und wenn man dann
00:07:56Eingabe-Token berücksichtigt, wäre es weniger als das, und eindeutig, wenn Sie irgendwelche lang laufenden Sitzungen hatten, wenn Sie
00:08:02Cloud Code zum Beispiel für eine Woche genutzt haben und Sie Ihre Token-Nutzung verfolgen, werden Sie sehen, dass Sie
00:08:08diese Grenze überschreiten können, und das konnten Sie in der Vergangenheit definitiv, und das macht offensichtlich, warum die
00:08:14Unternehmen versuchen zu begrenzen, wie viel Nutzung man aus seinen Abonnements erhalten kann,
00:08:19und warum ich denke, dass wir definitiv höhere Abonnementpreise in der Zukunft sehen werden, vielleicht schon
00:08:25in der nahen Zukunft. Nun ist es natürlich nicht super einfach für diese Unternehmen, ihre Preise
00:08:30zu erhöhen, weil Marktanteil, offensichtlich wollen all diese Unternehmen aggressiv Marktanteile erobern,
00:08:37mit der Begründung, dass, wenn Sie das Hauptunternehmen sind, das als Anbieter von Coding-Agenten in
00:08:45vielen Unternehmen da draußen etabliert ist, diese wahrscheinlich höhere Abonnement-
00:08:51preise in der Zukunft zahlen werden, also möchte man nicht zu früh damit beginnen, die Preise zu erhöhen, weil das
00:08:57einige Ihrer Kunden zur Konkurrenz treiben könnte, was Sie natürlich nicht wollen. Auf der anderen Seite
00:09:02wollen Sie nicht pleitegehen. Ich meine, zum Beispiel hat OpenAI kürzlich 122 Milliarden Dollar eingesammelt,
00:09:09um die nächste Phase der KI zu beschleunigen, und man könnte lesen, dass dies ihnen nur
00:09:17etwa 18 Monate an Startbahn geben würde, also 18 Monate, bis sie wieder Geld einsammeln müssen. Also können Sie klar
00:09:26nicht ewig all diese Nutzung subventionieren, denn wenn Sie pleitegehen, gehen all Ihre Kunden
00:09:32sowieso zur Konkurrenz, also gibt es hier einen Zielkonflikt, und das ist natürlich genau die
00:09:39schwierige Lage, in der sich diese Unternehmen gerade befinden, das ist die Ökonomie hier. Nun, natürlich, wie Sie
00:09:44wahrscheinlich gelesen und auch gefühlt haben, wenn Sie zum Beispiel ein Gamer sind, sind wir an einem Punkt, an dem wegen
00:09:52all der KI-Sachen, die passieren, wir mit einer großen Rechenkapazitätsknappheit und Krise sowie hohen Preisen für
00:10:01Speicher und alles, was mit dem zusammenhängt, was diese KI-Modelle und diese KI-Rechenzentren benötigen, konfrontiert sind, also
00:10:08ist Speicher teuer, weil Inferenz viel Speicher benötigt. Wenn Sie versucht haben, Modelle
00:10:13lokal auf Ihrem System auszuführen, wissen Sie, dass Sie viel Speicher dafür benötigen, also sind die Speicherpreise gestiegen,
00:10:19aber es ist nicht nur Speicher, es ist auch Netzwerkausrüstung, weil Sie natürlich sowohl das Training
00:10:25als auch die Inferenz nicht auf einem einzigen Chip ausführen, sondern auf riesigen Racks und Clustern von Chips, und all diese
00:10:31Cluster benötigen Verbindungen zwischen den Clustern, zwischen den Chips, sodass Sie Super-
00:10:36GPUs aufbauen können, sozusagen, und diese Netzwerkausrüstung ist stark gefragt und daher teuer, und dann natürlich
00:10:43haben wir auch Energie und Rechenzentren, wir brauchen beides, wir brauchen Rechenzentren, um diese Chips unterzubringen, und deshalb
00:10:52passieren dort viele Bauarbeiten, aber dann benötigen diese Rechenzentren Energie, richtig, und Sie
00:10:58haben davon auch gehört, Energie ist ein weiteres großes Problem, man kann sie nicht aus dem Netz beziehen, es ist einfach nicht
00:11:05dafür gebaut, es ist nicht genug Energie dort verfügbar, deshalb verlagern sich all diese neuen Rechenzentren
00:11:12auf netzunabhängige Lösungen, wo die Energie neben dem Rechenzentrum mit Gasturbinen
00:11:21oder Kernkraft produziert wird, aber das braucht natürlich alles Zeit, und es braucht auch Komponenten, und es gibt keine
00:11:28unendliche Menge an Unternehmen, die diese Kraftwerke bauen können, es gibt keine unendliche Menge an
00:11:35Komponenten, die für den Bau dieser Kraftwerke benötigt werden, also begrenzt das alles die Menge an
00:11:42Rechenleistung, die online gehen kann, was wiederum für die Inferenz fehlt und natürlich auch für das
00:11:48Training. Nun, historisch gesehen, und damit meine ich nur vor ein oder zwei Jahren, war der Anreiz für
00:11:54diese Unternehmen, viele Rechenressourcen für das Training aufzuwenden, weil das einem
00:12:00bessere Modelle gibt, was einen im KI-Rennen vorne bleiben oder nach vorne bringen lässt, und dieser Anreiz existiert immer noch, aber
00:12:07natürlich gibt es heutzutage auch einen größeren Anreiz und höhere Wichtigkeit hier für den Inferenzteil,
00:12:14weil es der Inferenzteil ist, der einem Kunden gibt, der einem Sichtbarkeit auf dem Markt gibt,
00:12:19denn wenn niemand Ihre Modelle nutzen kann, dann ist es toll, dass Sie gute Modelle haben, aber Sie
00:12:25gewinnen keine Marktanteile, also brauchen Sie Inferenz, das ist viel wichtiger geworden, also müssen Unternehmen
00:12:30die knappen Rechenressourcen und Rechenzentrumskapazitäten zwischen diesen beiden Enden aufteilen, und
00:12:38natürlich sehen wir besonders seit Anfang dieses Jahres ein verändertes Nutzungsverhalten der Kunden,
00:12:45der GitHub-Nachrichtenartikel hier ist tatsächlich ziemlich offen darüber, agentische Arbeitsabläufe haben
00:12:51grundlegend die Rechenanforderungen von Copilot verändert, lang laufende, parallelisierte Sitzungen
00:12:57verbrauchen jetzt weitaus mehr Ressourcen, als die ursprüngliche Planstruktur unterstützen sollte, und es ist dasselbe natürlich
00:13:04für Anthropic und OpenAI in der Vergangenheit, und noch einmal, das bedeutet nur vor einem Jahr oder so,
00:13:10dass sich diese Unternehmen nicht primär, aber zu einem großen Teil wirklich nur auf gelegentliche Chat-Sitzungen konzentrierten, ein
00:13:20Nutzer, ein Kunde kam gelegentlich vorbei und stellte ChatGPT oder Claude eine Frage, und natürlich konnte das
00:13:27mehrmals am Tag sein, aber es waren nur ein paar Fragen, nur ein paar Antworten,
00:13:33ein paar Folgefragen, natürlich weit weniger Token als all diese lang laufenden agentischen
00:13:39Arbeitsabläufe und Coding-Sitzungen haben. In diesen Coding-Sitzungen oder welche agentischen Arbeitsabläufe Sie auch immer
00:13:44ausführen, verbrennen Sie schnell, sehr schnell Hunderte von Tausenden und Millionen von Token, weit
00:13:51schneller als Sie es mit nur Ihrer gelegentlichen Chat-Sitzung könnten. Nun, angesichts der Tatsache, dass all diese
00:13:58modernen Modelle, mit denen wir zu tun haben, denkende Modelle sind, wurde typischerweise auch die Token-Menge
00:14:05höher im Vergleich zu vor einem Jahr oder zwei, weil eine Antwort aufgrund dieses
00:14:12Denkprozesses einfach mehr Token benötigt, die natürlich immer noch Token sind, auch wenn man sie in der endgültigen Antwort
00:14:17vielleicht nicht sieht. Daher ist die Menge der verbrauchten Token jetzt viel, viel größer geworden als noch vor einem Jahr oder zwei
00:14:24Jahren, was uns wieder zu dem Punkt bringt, dass Inferenz wichtiger wird, weil man viel
00:14:29mehr Inferenz benötigt, um all diese Token-Generierung, die stattfindet, zu bewältigen, und das ist der Grund, warum all
00:14:37diese neuen Modelle ziemlich teuer sind, wenn sie über die API genutzt werden, aber noch wichtiger, warum
00:14:43diese Abonnements für diese Unternehmen gerade so schwierig sind. Sie haben diese
00:14:49Abonnements in der Vergangenheit eingeführt, als weit weniger Token verbraucht wurden, und jetzt sind sie an einem Punkt,
00:14:56an dem für denselben Abonnementpreis die Leute jetzt viel mehr Token verbrauchen. Das ist die Schwierigkeit,
00:15:03nun, besonders für Anthropic zum Beispiel könnte ich mir vorstellen, dass sie den Schmerz ein bisschen mehr
00:15:09spüren als OpenAI, nicht nur, weil ihre Modelle teurer zu betreiben zu sein scheinen, wenn man sich nur
00:15:16die API-Preise ansieht, sondern natürlich auch, weil Anthropic historisch gesehen schon vor einem Jahr
00:15:22mehr Unternehmens- und Geschäftskunden hatte, was für sie bis zu einem gewissen Grad gut ist, es ist eine stabile
00:15:29Einnahmebasis, und ChatGPT oder OpenAI waren eher verbraucherorientiert, sie hatten mehr normale Leute, normale
00:15:38Verbraucher als Kunden, und jetzt bewegen sie sich auch mehr in Richtung Unternehmen, aber historisch gesehen, weil sie
00:15:43den ChatGPT-Moment hatten, hatten sie mehr normale Leute als Kunden. Der Nachteil für Anthropic jetzt
00:15:50ist natürlich, dass diese Geschäftskunden genau die Kunden sind, die diese agentischen
00:15:55Arbeitsabläufe ausführen oder die dazu neigen, diese agentischen Arbeitsabläufe auszuführen. Ich meine, Ihre Mutter und Ihr Vater, wenn sie
00:16:00überhaupt für ChatGPT bezahlen, was sie wahrscheinlich nicht tun, führen sie keine agentischen Arbeitsabläufe aus,
00:16:06aber Sie tun es, Ihr Unternehmen tut es, und das macht natürlich das Abonnement für
00:16:11Anthropic noch schwieriger, so würde ich mir vorstellen, als für OpenAI, wo es immer noch viele "Normies" im Abonnement
00:16:18gibt. Ich würde vermuten, dass sie den Schmerz definitiv auch spüren, und was bedeutet das alles jetzt? Was bedeuten
00:16:24Änderungen wie diese oder Änderungen wie in diesem X-Beitrag, bei dem Anthropic Tests durchführt, um Claude Code
00:16:32aus den günstigeren Plänen zu ziehen, was bedeutet das alles für uns? Ich denke, es ist ziemlich offensichtlich, wir werden in Zukunft sogar
00:16:38strengere Limits sehen, und deshalb könnten wir natürlich einen Punkt erreichen, an dem sich die Abonnements
00:16:42nicht mehr wirklich so anfühlen, als wären sie es wert, und ich denke, das wird der Punkt sein, an dem wir
00:16:48höhere Preise sehen werden. Es ist nicht unvernünftig, glaube ich, zu glauben, dass diese Coding-Abonnements oder im Allgemeinen
00:16:55diese Abonnements für agentische Nutzung irgendwann viele tausend Dollar pro Monat kosten werden. Nicht
00:17:03dieses Jahr höchstwahrscheinlich, aber irgendwann, weil Unternehmen natürlich anfangen könnten, die Kosten für
00:17:10diese Abonnements mit den Kosten für Mitarbeiter zu vergleichen, ja, und das ist natürlich keine großartige Nachricht, und es
00:17:17mag völlig falsch sein, aber es ist definitiv das, was ich denke, dass passieren wird, und natürlich, wenn man
00:17:23diesen Vergleich anstellt, gibt es viel Raum für diese Abonnements, um viel, viel teurer zu werden,
00:17:30offensichtlich. Die Abonnements sind dann nicht mehr für die normalen Leute, also denke ich, dass wir auch
00:17:35neue Abonnementangebote für diese sehen werden, die einfach viel strengere Nutzungslimits haben, die für ChatGPT genug,
00:17:41aber für agentische Arbeitsabläufe nicht genug sind. Aber für die professionelle Nutzung, für die agentischen
00:17:47Arbeitsabläufe werden wir strengere Limits und höhere Preise sehen. Ich bin mir nicht sicher, wann, weil Sie wissen, Markt-
00:17:52anteil, richtig, also das, was ich vorhin erwähnt habe, aber letztendlich werden wir das sehen, weil letztendlich
00:17:58wie erwähnt, OpenAI etwa 18 Monate Startbahn hat, sie wollen wahrscheinlich im Geschäft bleiben,
00:18:03dasselbe für Anthropic, und deshalb ist das, was ich denke, dass wir hier in einem Jahr oder so sehen werden, ich weiß es nicht.