Las suscripciones de IA son cada vez menos atractivas

Españolالعربية Deutsch English Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

MMaximilian Schwarzmüller

컴퓨터/소프트웨어창업/스타트업경제 뉴스

Transcript

00:00:00Esta mañana me desperté viendo esta publicación aquí en X que menciona que Anthropic aparentemente retiró el

00:00:09código de Cloud Code del plan Pro, por lo que necesitas los planes de suscripción

00:00:17más caros para poder usar Cloud Code o usar tu suscripción en Cloud Code.

00:00:22Ahora, Anthropic se apresuró a comentar sobre esto, mencionando que esto es solo una pequeña

00:00:27prueba que están ejecutando solo en el 2% de las nuevas suscripciones de usuarios prosumidores.

00:00:32Me parece un poco extraño realizar este tipo de prueba y también creo que Anthropic podría haber

00:00:40previsto lo que se les venía encima al ejecutar una prueba como esta, el impacto que una prueba como esta tendría

00:00:47en su imagen y lo que la gente pensaría, porque, por supuesto, esto encaja claramente con la narrativa

00:00:53o lo que ya estamos viendo, donde obtenemos menos uso de nuestras suscripciones, vemos

00:00:59límites más estrictos, vemos una degradación en el rendimiento del modelo, ya que parece que todas estas

00:01:08cosas han estado ocurriendo durante las últimas semanas. Quiero decir, Anthropic restringió agresivamente

00:01:14el uso de su suscripción fuera de Cloud Code. Si querías usarla con Open Cloud,

00:01:21por ejemplo, restringieron eso, así que todo eso nos da una imagen clara y más amplia.

00:01:28Y lo que encaja en esa imagen o narrativa es este artículo de noticias que GitHub publicó hace un par

00:01:37de días, donde dejaron claro que pausarían las nuevas suscripciones para los planes GitHub Copilot Pro,

00:01:43Pro Plus y Estudiante, y que están endureciendo los límites de uso para los planes individuales,

00:01:49y lo más importante, que los modelos Opus ya no están disponibles en los planes Pro, y eso

00:01:56por supuesto, todo tiene sentido, pero tenemos que profundizar un poco más en la economía de lo que está sucediendo

00:02:02para entender por qué está ocurriendo esto y, lo más importante, qué significa esto para nosotros también en el

00:02:07futuro. Significa claramente que los días de uso ilimitado y fuertes subsidios han terminado, y para entender

00:02:17esto tenemos que entender la economía de estas suscripciones y del uso de tokens, o podrías decir

00:02:25consumo de tokens, porque, por supuesto, estos modelos de suscripción ofrecidos por Anthropic, por

00:02:34OpenAI, por GitHub, realmente solo funcionan si la mayoría de los usuarios no están utilizando realmente todo

00:02:43el uso disponible que tienen. Ese es prácticamente el caso de cualquier oferta de suscripción que exista,

00:02:49no solo para estas suscripciones de IA. Si tienes una suscripción a Netflix y pasas las 24 horas del día, los 7 días de la semana viendo

00:02:56Netflix, probablemente no seas un cliente súper rentable para ellos, pero la mayoría de la gente

00:03:02no hace eso, y así es como estas empresas pueden obtener ganancias. Eso es cierto para todas las suscripciones,

00:03:10obviamente. Ahora podemos ver el precio real o un precio que está más cerca del precio real de nuestras solicitudes de IA

00:03:19si echamos un vistazo a las páginas de precios de API de estas empresas. Allí, por ejemplo, podemos ver

00:03:26que el último modelo de Anthropic, Claude Opus 4.7, tiene un precio de tokens de entrada de cinco dólares por

00:03:35millón de tokens y un precio de tokens de salida de 25 dólares por millón de tokens, y podemos poner eso en

00:03:42relación con otros modelos que tienen; por supuesto, también podemos ponerlo en

00:03:47relación con lo que OpenAI tiene para ofrecer, por ejemplo. Allí vemos que GPT-5.4, que la mayoría de los usuarios de Codex

00:03:54probablemente estén usando en este momento, tiene un precio de entrada de dos dólares con cincuenta centavos por millón de tokens, así que solo la mitad de lo que teníamos para Opus 4.7,

00:04:03y tenemos un precio de salida de 22.50, un poco menos de lo que vimos para Opus. Ahora,

00:04:11es probablemente justo asumir que estos precios de API son precios que dejan a estas empresas

00:04:20en un punto de equilibrio o con una pequeña ganancia con respecto a su margen bruto, así que si solo miramos

00:04:29el costo de inferencia específicamente, probablemente podemos asumir que obtendrán una ganancia si usas sus

00:04:36API. Ahora, por supuesto, para eso es importante entender que el costo de ejecutar modelos de IA

00:04:43al final depende de dos factores principales: el entrenamiento de los modelos de IA que cuesta dinero y

00:04:53la inferencia, por supuesto. Así que tenemos estos dos factores aquí que entran en juego para estas

00:04:59empresas de IA. Ahora, por supuesto, el costo de entrenamiento es algo único, ¿verdad? Entrenas un modelo una vez

00:05:06y eso es súper caro, pero obviamente es algo único. Por supuesto, estas empresas luego

00:05:12entrenan más y más modelos y es un costo único nuevo por cada modelo, pero una vez que se entrenó un modelo

00:05:18ya no genera costos de entrenamiento, excepto tal vez por ejecuciones de ajuste fino adicionales o modelos derivados

00:05:25de ese modelo base, pero sí, la gran parte del costo ocurre solo una vez. Ahora para la inferencia,

00:05:33naturalmente eso es diferente, este es un costo continuo, es por solicitud al final, porque, por supuesto,

00:05:41la inferencia es el proceso de producir la salida concreta para tu prompt, para la tarea que envías

00:05:48al proveedor del modelo, y la inferencia es, por supuesto, lo que sucede todo el tiempo cuando estás usando

00:05:53Cloud Code, cuando estás usando Codex, pero también, por supuesto, cuando envías un mensaje en ChatGPT o en

00:05:58cualquier otra forma. Ahora, aquí es donde quieres estar al menos en equilibrio con tus precios de API,

00:06:07porque de lo contrario significa que pierdes dinero en cada solicitud que recibes. Y si bien podrías,

00:06:13por supuesto, estar haciendo eso para aumentar tu participación de mercado y si bien no descartaría que las empresas

00:06:19lo estén haciendo ocasionalmente, hacerlo a largo plazo, por supuesto, no será viable porque te quedarás

00:06:25fuera del negocio. Ahora, naturalmente, también necesitas recuperar tu costo de entrenamiento en algún momento, así que idealmente

00:06:34estas solicitudes entrantes que tus usuarios te envían te dan suficiente margen bruto sobre tu

00:06:41costo de inferencia para que ese margen también cubra tu costo de entrenamiento, tu costo de personal, etcétera. Así que,

00:06:48por supuesto, esa es la economía de cómo puedes ejecutar y usar estos modelos de IA. Ahora, como se mencionó, la

00:06:57API de precios es probablemente la parte donde estas empresas no están perdiendo cantidades masivas de

00:07:02dinero, pero, por supuesto, como consumidor, como cliente, sí lo haces. Si estuvieras potenciando Cloud Code con estos

00:07:10precios bajo demanda de Opus, estarías pagando mucho, mucho más que si estuvieras usando sus suscripciones,

00:07:18porque, por supuesto, con la suscripción máxima, por ejemplo, por solo 200 dólares, estás obteniendo

00:07:26mucho uso de este plan, obtendrás muchos millones de tokens de este plan, y si

00:07:34echas un vistazo a lo que normalmente te costarían los tokens de salida por millón de tokens, puedes ver que

00:07:39normalmente, si ignoras los tokens de entrada, lo cual no deberías, pero si los ignoras para estos dos

00:07:44cientos de dólares aquí, ni siquiera deberíamos obtener 10 millones de tokens de salida, ¿verdad? Porque un millón

00:07:51nos cuesta 25 dólares, así que solo deberíamos obtener ocho millones de tokens de salida, y luego, si consideras

00:07:56los tokens de entrada, sería menos que eso, y claramente, si tuvieras sesiones largas, si has estado

00:08:02usando Cloud Code, por ejemplo, durante una semana y haces un seguimiento de tu uso de tokens, verás que

00:08:08puedes superar ese límite, y definitivamente podrías hacerlo en el pasado, y eso hace obvio por qué las

00:08:14empresas están tratando de limitar cuánto uso puedes obtener de tus suscripciones

00:08:19y por qué creo que definitivamente veremos precios de suscripción más altos en el futuro, tal vez ya

00:08:25en un futuro cercano. Ahora, por supuesto, no es súper fácil para estas empresas aumentar sus precios,

00:08:30sin embargo, porque la participación de mercado, obviamente, todas estas empresas quieren capturar agresivamente la participación de mercado,

00:08:37siendo el razonamiento que si eres la empresa principal que se establece como el proveedor de agentes de codificación en

00:08:45muchas empresas por ahí, en muchas compañías por ahí, probablemente pagarán precios de suscripción más altos

00:08:51en el futuro, así que no quieres empezar a aumentar tus precios demasiado pronto porque eso podría

00:08:57llevar a algunos de tus clientes a la competencia, lo cual no quieres, por supuesto. Por otro lado,

00:09:02no quieres irte a la quiebra. Quiero decir, por ejemplo, OpenAI recaudó recientemente 122 mil millones de dólares

00:09:09para acelerar la siguiente fase de la IA, y podrías leer que esto solo les daría

00:09:17alrededor de 18 meses de margen de maniobra, así que 18 meses hasta que necesiten recaudar fondos de nuevo, así que claramente no puedes

00:09:26seguir subsidiando todo ese uso para siempre, porque si quiebras, entonces todos tus clientes

00:09:32se irán a la competencia de todos modos, así que hay una compensación aquí, y eso es, por supuesto, exactamente el

00:09:39punto difícil al que se enfrentan estas empresas ahora mismo, esa es la economía aquí. Ahora, por supuesto, como

00:09:44probablemente leíste y también sentiste, si eres un jugador, por ejemplo, estamos en un momento en el que, debido a

00:09:52todas las cosas de IA que están sucediendo, nos enfrentamos a una gran escasez y crisis de cómputo y altos precios para

00:10:01la memoria y todo lo relacionado con lo que estos modelos de IA y estos centros de datos de IA necesitan, así que

00:10:08la memoria es cara porque la inferencia necesita mucha memoria. Si has intentado ejecutar modelos

00:10:13localmente en tu sistema, sabes que necesitas mucha memoria para eso, así que los precios de la memoria subieron,

00:10:19pero no es solo la memoria, también es el equipo de red, porque, por supuesto, estás ejecutando tanto el entrenamiento

00:10:25como la inferencia, no en un solo chip, sino en enormes bastidores y clústeres de chips, y todos estos

00:10:31clústeres necesitan conexiones entre los clústeres, entre los chips, para que puedas construir súper

00:10:36GPU, por así decirlo, y este equipo de red tiene una gran demanda y, por lo tanto, es caro. Y luego, por supuesto,

00:10:43también tenemos la energía y los centros de datos, necesitamos ambos. Necesitamos centros de datos para poner esos chips y por eso

00:10:52hay mucha construcción ocurriendo allí, pero luego estos centros de datos necesitan energía, ¿verdad? Y tú

00:10:58también has oído hablar de eso, la energía es otro gran problema, no puedes obtenerla de la red eléctrica, simplemente no

00:11:05está construida para eso, no hay suficiente energía disponible allí, es por eso que todos estos nuevos centros de datos se están

00:11:12mudando a soluciones fuera de la red, donde la energía se produce junto al centro de datos con turbinas de gas

00:11:21o energía nuclear, pero eso, por supuesto, toma tiempo y también requiere componentes, y no hay una

00:11:28cantidad infinita de empresas que puedan construir estas plantas de energía, no hay una cantidad infinita de

00:11:35componentes que se necesitan para construir estas plantas de energía, así que todo eso está limitando la cantidad de

00:11:42cómputo que puede conectarse en línea, lo cual a su vez falta para la inferencia y, por supuesto, también para el

00:11:48entrenamiento. Ahora, históricamente, y con eso me refiero a solo hace uno o dos años, el incentivo para

00:11:54estas empresas era dedicar una gran cantidad de recursos de cómputo al entrenamiento, porque eso te da

00:12:00mejores modelos que te permiten mantenerte por delante o adelantarte en la carrera de la IA, y ese incentivo aún existe, pero

00:12:07por supuesto, hoy en día también hay un mayor incentivo y una mayor importancia aquí en la parte de inferencia,

00:12:14porque es la parte de la inferencia la que te da clientes, la que te da visibilidad en el mercado,

00:12:19porque si nadie puede usar tus modelos, entonces es genial que tengas buenos modelos, pero no estás

00:12:25ganando ninguna participación de mercado, así que necesitas inferencia. Eso se ha vuelto mucho más importante, así que las empresas tienen

00:12:30que dividir los escasos recursos de cómputo y las capacidades de los centros de datos entre estos dos fines, y por

00:12:38supuesto, especialmente desde principios de este año, también estamos viendo un cambio en el comportamiento de uso de los clientes.

00:12:45El artículo de noticias de GitHub aquí en realidad es bastante abierto sobre esto. Los flujos de trabajo agentivos han

00:12:51cambiado fundamentalmente las demandas de cómputo de los copilotos. Las sesiones largas y paralelas ahora regularmente

00:12:57consumen muchos más recursos de los que la estructura original del plan fue construida para soportar, y es lo mismo, por

00:13:04supuesto, para Anthropic y OpenAI en el pasado. Y nuevamente, esto solo significa hace un año o así,

00:13:10estas empresas, no principalmente, pero en gran medida, realmente solo se enfocaban en sesiones de chat ocasionales. Un

00:13:20usuario, un cliente, ocasionalmente venía y le hacía una pregunta a ChatGPT o Claude, y por supuesto que

00:13:27podrían haber sido varias veces al día, pero eran solo un par de preguntas, solo un par de respuestas,

00:13:33un par de preguntas de seguimiento, por supuesto, muchos menos tokens que todos estos flujos de trabajo agentivos

00:13:39de larga duración y sesiones de codificación que tienes. En esas sesiones de codificación, o cualquier flujo de trabajo agentivo que estés

00:13:44ejecutando, estás quemando cientos de miles y millones de tokens rápidamente, muy rápidamente, mucho

00:13:51más rápido de lo que podrías con solo tu sesión de chat ocasional. Ahora, dado el hecho de que todos estos

00:13:58modelos modernos con los que estamos tratando son modelos de pensamiento, la cantidad de tokens también aumentó

00:14:05en comparación con hace un año o dos, porque una respuesta simplemente toma más tokens debido a ese

00:14:12proceso de pensamiento, los cuales, por supuesto, siguen siendo tokens, incluso si no los ves en la respuesta final,

00:14:17tal vez. Por lo tanto, la cantidad de tokens consumidos se volvió mucho, mucho más grande ahora de lo que era hace un año o dos

00:14:24años atrás, lo que nos lleva nuevamente al punto de que la inferencia se está volviendo más importante, porque necesitas mucha

00:14:29más inferencia para manejar toda esa generación de tokens que está ocurriendo, y esa es la razón por la que todos

00:14:37estos nuevos modelos son bastante caros cuando se usan a través de la API, pero aún más importante, por qué

00:14:43estas suscripciones son tan difíciles para estas empresas en este momento. Introdujeron esas

00:14:49suscripciones en el pasado cuando se consumían muchos menos tokens y ahora están en un punto

00:14:56donde, por el mismo precio de suscripción, la gente ahora usa muchos más tokens, esa es la dificultad,

00:15:03ahora, especialmente para Anthropic, por ejemplo, podría imaginar que están sintiendo el dolor un poco más

00:15:09que OpenAI, no solo porque sus modelos parecen ser más caros de ejecutar si solo echas un vistazo

00:15:16a los precios de la API, sino también, por supuesto, porque históricamente, incluso hace un año, Anthropic

00:15:22tenía más clientes empresariales y de negocios, lo cual es bueno para ellos hasta cierto punto, es una

00:15:29base de ingresos estable, y ChatGPT o OpenAI han estado más basados en consumidores, tenían más gente normal,

00:15:38consumidores normales como clientes, y ahora también se están moviendo más hacia los negocios, pero históricamente, porque

00:15:43tuvieron el momento ChatGPT, tenían más gente normal como clientes. La desventaja para Anthropic ahora,

00:15:50por supuesto, es que estos clientes de negocios son exactamente los clientes que están ejecutando estos flujos de trabajo

00:15:55agentivos, o que tienden a ejecutar estos flujos de trabajo agentivos. Quiero decir, tu mamá y tu papá, si están

00:16:00pagando por ChatGPT en absoluto, lo cual probablemente no hacen, no están ejecutando flujos de trabajo agentivos,

00:16:06pero tú sí, tu empresa sí, y eso, por supuesto, hace que la suscripción sea aún más difícil para

00:16:11Anthropic, me imaginaría, que para OpenAI, donde todavía hay muchos usuarios normales en la suscripción.

00:16:18Supongo que definitivamente también están sintiendo el dolor, ¿y qué significa todo esto ahora? ¿Qué

00:16:24significan cambios como estos, o cambios como en esta publicación de X donde Anthropic está ejecutando pruebas para retirar Cloud Code

00:16:32de los planes más baratos? ¿Qué significa todo esto para nosotros? Creo que es bastante obvio: veremos aún

00:16:38límites más estrictos en el futuro, y por lo tanto, por supuesto, podríamos llegar a un punto en el que las suscripciones

00:16:42ya no se sientan como si valieran la pena, y creo que ese será el punto en el que veremos

00:16:48precios más altos. No es irrazonable, creo, creer que estas suscripciones de codificación, o generalmente

00:16:55estas suscripciones de uso agentivo, costarán muchos miles de dólares al mes en algún momento, no

00:17:03este año, muy probablemente, pero en algún momento, porque, por supuesto, las empresas pueden empezar a comparar el costo de

00:17:10estas suscripciones frente al costo de los empleados, sí, y eso, por supuesto, no es una gran noticia y puede

00:17:17ser totalmente incorrecto, pero es definitivamente lo que creo que sucederá, y por supuesto, cuando haces

00:17:23esa comparación, hay mucho espacio para que estas suscripciones se vuelvan mucho, mucho más caras,

00:17:30obviamente. Las suscripciones entonces no serán para la gente normal nunca más, así que creo que también veremos

00:17:35nuevas ofertas de suscripción para ellos, que simplemente tienen límites de uso mucho más estrictos, que son suficientes

00:17:41para ChatGPT, pero no suficientes para los flujos de trabajo agentivos. Pero para el uso profesional, para los flujos de trabajo

00:17:47agentivos, veremos límites más estrictos y precios más altos. No estoy seguro de cuándo, porque, ya sabes, participación

00:17:52de mercado, ¿verdad? Así que lo que mencioné antes, pero eventualmente veremos eso, porque, en última instancia,

00:17:58como se mencionó, OpenAI tiene alrededor de 18 meses de margen de maniobra, probablemente quieran mantenerse en el negocio,

00:18:03lo mismo para Anthropic, y por lo tanto, eso es lo que creo que veremos aquí en un año o más, no lo sé.

Key Takeaway

El auge de los flujos de trabajo agentivos de larga duración ha vuelto insostenibles los modelos de suscripción ilimitada, forzando a empresas como Anthropic y OpenAI a endurecer los límites de uso y a preparar aumentos de precios ante la crisis de capacidad de cómputo.

Highlights

Anthropic comenzó a retirar el acceso a Claude Code en los niveles de suscripción Pro como parte de una prueba limitada al 2% de los nuevos usuarios.

GitHub suspendió las nuevas suscripciones para Copilot Pro y Estudiante, restringiendo además los límites de uso para planes individuales y eliminando el acceso a modelos Opus en niveles Pro.

El costo de inferencia de modelos como Claude Opus 4.7 alcanza 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida.

GPT-5.4 presenta un costo de 2.50 dólares por millón de tokens de entrada y 22.50 dólares por salida, lo que marca una diferencia sustancial en la rentabilidad por solicitud.

La escasez de componentes de red, energía y capacidad de centros de datos limita directamente la oferta de cómputo necesaria para el entrenamiento y la inferencia a gran escala.

Los flujos de trabajo agentivos y las sesiones largas de codificación consumen millones de tokens con mucha mayor rapidez que las sesiones de chat ocasionales previstas en los modelos de suscripción originales.

Timeline

Restricciones en las suscripciones de IA

Anthropic inició pruebas para limitar el acceso a herramientas como Claude Code en sus planes Pro.
GitHub restringió los límites de uso en planes individuales y eliminó el acceso a modelos Opus en niveles Pro.
Las empresas de IA están abandonando los días de uso ilimitado y subsidios agresivos debido a la presión económica.

El mercado de suscripciones de IA enfrenta una degradación en el rendimiento y límites de uso más estrictos. Las empresas están ajustando sus ofertas para reflejar el costo real de consumo tras observar un aumento constante en la demanda de recursos por parte de los usuarios.

Economía de tokens e inferencia

La rentabilidad de las suscripciones depende de que la mayoría de los usuarios no agoten el límite total de uso disponible.
El costo de inferencia es un gasto operativo continuo, mientras que el entrenamiento representa un costo único por modelo.
Los precios actuales de las API sirven como referencia para el punto de equilibrio donde estas empresas dejan de perder dinero por solicitud.

Las suscripciones actuales fueron diseñadas bajo un esquema donde el consumo de tokens era moderado. Con el aumento de los costos de inferencia, las empresas deben asegurar que el margen bruto de cada usuario cubra tanto el costo de ejecución por solicitud como la inversión inicial en entrenamiento.

Escasez de recursos y crisis de infraestructura

La crisis de cómputo actual eleva los precios de la memoria, el equipo de red y la energía necesaria para los centros de datos.
Los centros de datos dependen cada vez más de soluciones fuera de la red eléctrica convencional, como energía nuclear o turbinas de gas.
El incentivo actual para las empresas cambió del enfoque exclusivo en el entrenamiento a priorizar la inferencia para capturar participación de mercado.

La infraestructura física necesaria para la IA, desde clústeres de GPU hasta la producción de energía, tiene límites de crecimiento marcados por la disponibilidad de componentes. Las empresas deben dividir sus escasos recursos entre la innovación de modelos y la capacidad de atender a los usuarios en tiempo real.

Futuro de los precios y flujos agentivos

Los flujos de trabajo agentivos y los modelos de pensamiento consumen drásticamente más tokens que las interacciones de chat simples.
Las suscripciones de uso profesional podrían alcanzar costos de miles de dólares al mes al compararse con el costo de un empleado humano.
El mercado verá una bifurcación donde surgirán planes de consumo limitado para usuarios casuales y planes de alto costo para flujos de trabajo agentivos.

Anthropic y OpenAI enfrentan el desafío de clientes que ejecutan flujos de trabajo automatizados que superan los presupuestos de los planes estándar. Ante la necesidad de solvencia financiera, el modelo de suscripción transicionará hacia precios más altos y límites técnicos más específicos.

Community Posts

Cómo reducir a la mitad los costes de suscripción a IA cada mes

makedream13시간 전4650

Write about this video