00:00:00Esta mañana me desperté viendo esta publicación aquí en X que menciona que Anthropic aparentemente retiró el
00:00:09código de Cloud Code del plan Pro, por lo que necesitas los planes de suscripción
00:00:17más caros para poder usar Cloud Code o usar tu suscripción en Cloud Code.
00:00:22Ahora, Anthropic se apresuró a comentar sobre esto, mencionando que esto es solo una pequeña
00:00:27prueba que están ejecutando solo en el 2% de las nuevas suscripciones de usuarios prosumidores.
00:00:32Me parece un poco extraño realizar este tipo de prueba y también creo que Anthropic podría haber
00:00:40previsto lo que se les venía encima al ejecutar una prueba como esta, el impacto que una prueba como esta tendría
00:00:47en su imagen y lo que la gente pensaría, porque, por supuesto, esto encaja claramente con la narrativa
00:00:53o lo que ya estamos viendo, donde obtenemos menos uso de nuestras suscripciones, vemos
00:00:59límites más estrictos, vemos una degradación en el rendimiento del modelo, ya que parece que todas estas
00:01:08cosas han estado ocurriendo durante las últimas semanas. Quiero decir, Anthropic restringió agresivamente
00:01:14el uso de su suscripción fuera de Cloud Code. Si querías usarla con Open Cloud,
00:01:21por ejemplo, restringieron eso, así que todo eso nos da una imagen clara y más amplia.
00:01:28Y lo que encaja en esa imagen o narrativa es este artículo de noticias que GitHub publicó hace un par
00:01:37de días, donde dejaron claro que pausarían las nuevas suscripciones para los planes GitHub Copilot Pro,
00:01:43Pro Plus y Estudiante, y que están endureciendo los límites de uso para los planes individuales,
00:01:49y lo más importante, que los modelos Opus ya no están disponibles en los planes Pro, y eso
00:01:56por supuesto, todo tiene sentido, pero tenemos que profundizar un poco más en la economía de lo que está sucediendo
00:02:02para entender por qué está ocurriendo esto y, lo más importante, qué significa esto para nosotros también en el
00:02:07futuro. Significa claramente que los días de uso ilimitado y fuertes subsidios han terminado, y para entender
00:02:17esto tenemos que entender la economía de estas suscripciones y del uso de tokens, o podrías decir
00:02:25consumo de tokens, porque, por supuesto, estos modelos de suscripción ofrecidos por Anthropic, por
00:02:34OpenAI, por GitHub, realmente solo funcionan si la mayoría de los usuarios no están utilizando realmente todo
00:02:43el uso disponible que tienen. Ese es prácticamente el caso de cualquier oferta de suscripción que exista,
00:02:49no solo para estas suscripciones de IA. Si tienes una suscripción a Netflix y pasas las 24 horas del día, los 7 días de la semana viendo
00:02:56Netflix, probablemente no seas un cliente súper rentable para ellos, pero la mayoría de la gente
00:03:02no hace eso, y así es como estas empresas pueden obtener ganancias. Eso es cierto para todas las suscripciones,
00:03:10obviamente. Ahora podemos ver el precio real o un precio que está más cerca del precio real de nuestras solicitudes de IA
00:03:19si echamos un vistazo a las páginas de precios de API de estas empresas. Allí, por ejemplo, podemos ver
00:03:26que el último modelo de Anthropic, Claude Opus 4.7, tiene un precio de tokens de entrada de cinco dólares por
00:03:35millón de tokens y un precio de tokens de salida de 25 dólares por millón de tokens, y podemos poner eso en
00:03:42relación con otros modelos que tienen; por supuesto, también podemos ponerlo en
00:03:47relación con lo que OpenAI tiene para ofrecer, por ejemplo. Allí vemos que GPT-5.4, que la mayoría de los usuarios de Codex
00:03:54probablemente estén usando en este momento, tiene un precio de entrada de dos dólares con cincuenta centavos por millón de tokens, así que solo la mitad de lo que teníamos para Opus 4.7,
00:04:03y tenemos un precio de salida de 22.50, un poco menos de lo que vimos para Opus. Ahora,
00:04:11es probablemente justo asumir que estos precios de API son precios que dejan a estas empresas
00:04:20en un punto de equilibrio o con una pequeña ganancia con respecto a su margen bruto, así que si solo miramos
00:04:29el costo de inferencia específicamente, probablemente podemos asumir que obtendrán una ganancia si usas sus
00:04:36API. Ahora, por supuesto, para eso es importante entender que el costo de ejecutar modelos de IA
00:04:43al final depende de dos factores principales: el entrenamiento de los modelos de IA que cuesta dinero y
00:04:53la inferencia, por supuesto. Así que tenemos estos dos factores aquí que entran en juego para estas
00:04:59empresas de IA. Ahora, por supuesto, el costo de entrenamiento es algo único, ¿verdad? Entrenas un modelo una vez
00:05:06y eso es súper caro, pero obviamente es algo único. Por supuesto, estas empresas luego
00:05:12entrenan más y más modelos y es un costo único nuevo por cada modelo, pero una vez que se entrenó un modelo
00:05:18ya no genera costos de entrenamiento, excepto tal vez por ejecuciones de ajuste fino adicionales o modelos derivados
00:05:25de ese modelo base, pero sí, la gran parte del costo ocurre solo una vez. Ahora para la inferencia,
00:05:33naturalmente eso es diferente, este es un costo continuo, es por solicitud al final, porque, por supuesto,
00:05:41la inferencia es el proceso de producir la salida concreta para tu prompt, para la tarea que envías
00:05:48al proveedor del modelo, y la inferencia es, por supuesto, lo que sucede todo el tiempo cuando estás usando
00:05:53Cloud Code, cuando estás usando Codex, pero también, por supuesto, cuando envías un mensaje en ChatGPT o en
00:05:58cualquier otra forma. Ahora, aquí es donde quieres estar al menos en equilibrio con tus precios de API,
00:06:07porque de lo contrario significa que pierdes dinero en cada solicitud que recibes. Y si bien podrías,
00:06:13por supuesto, estar haciendo eso para aumentar tu participación de mercado y si bien no descartaría que las empresas
00:06:19lo estén haciendo ocasionalmente, hacerlo a largo plazo, por supuesto, no será viable porque te quedarás
00:06:25fuera del negocio. Ahora, naturalmente, también necesitas recuperar tu costo de entrenamiento en algún momento, así que idealmente
00:06:34estas solicitudes entrantes que tus usuarios te envían te dan suficiente margen bruto sobre tu
00:06:41costo de inferencia para que ese margen también cubra tu costo de entrenamiento, tu costo de personal, etcétera. Así que,
00:06:48por supuesto, esa es la economía de cómo puedes ejecutar y usar estos modelos de IA. Ahora, como se mencionó, la
00:06:57API de precios es probablemente la parte donde estas empresas no están perdiendo cantidades masivas de
00:07:02dinero, pero, por supuesto, como consumidor, como cliente, sí lo haces. Si estuvieras potenciando Cloud Code con estos
00:07:10precios bajo demanda de Opus, estarías pagando mucho, mucho más que si estuvieras usando sus suscripciones,
00:07:18porque, por supuesto, con la suscripción máxima, por ejemplo, por solo 200 dólares, estás obteniendo
00:07:26mucho uso de este plan, obtendrás muchos millones de tokens de este plan, y si
00:07:34echas un vistazo a lo que normalmente te costarían los tokens de salida por millón de tokens, puedes ver que
00:07:39normalmente, si ignoras los tokens de entrada, lo cual no deberías, pero si los ignoras para estos dos
00:07:44cientos de dólares aquí, ni siquiera deberíamos obtener 10 millones de tokens de salida, ¿verdad? Porque un millón
00:07:51nos cuesta 25 dólares, así que solo deberíamos obtener ocho millones de tokens de salida, y luego, si consideras
00:07:56los tokens de entrada, sería menos que eso, y claramente, si tuvieras sesiones largas, si has estado
00:08:02usando Cloud Code, por ejemplo, durante una semana y haces un seguimiento de tu uso de tokens, verás que
00:08:08puedes superar ese límite, y definitivamente podrías hacerlo en el pasado, y eso hace obvio por qué las
00:08:14empresas están tratando de limitar cuánto uso puedes obtener de tus suscripciones
00:08:19y por qué creo que definitivamente veremos precios de suscripción más altos en el futuro, tal vez ya
00:08:25en un futuro cercano. Ahora, por supuesto, no es súper fácil para estas empresas aumentar sus precios,
00:08:30sin embargo, porque la participación de mercado, obviamente, todas estas empresas quieren capturar agresivamente la participación de mercado,
00:08:37siendo el razonamiento que si eres la empresa principal que se establece como el proveedor de agentes de codificación en
00:08:45muchas empresas por ahí, en muchas compañías por ahí, probablemente pagarán precios de suscripción más altos
00:08:51en el futuro, así que no quieres empezar a aumentar tus precios demasiado pronto porque eso podría
00:08:57llevar a algunos de tus clientes a la competencia, lo cual no quieres, por supuesto. Por otro lado,
00:09:02no quieres irte a la quiebra. Quiero decir, por ejemplo, OpenAI recaudó recientemente 122 mil millones de dólares
00:09:09para acelerar la siguiente fase de la IA, y podrías leer que esto solo les daría
00:09:17alrededor de 18 meses de margen de maniobra, así que 18 meses hasta que necesiten recaudar fondos de nuevo, así que claramente no puedes
00:09:26seguir subsidiando todo ese uso para siempre, porque si quiebras, entonces todos tus clientes
00:09:32se irán a la competencia de todos modos, así que hay una compensación aquí, y eso es, por supuesto, exactamente el
00:09:39punto difícil al que se enfrentan estas empresas ahora mismo, esa es la economía aquí. Ahora, por supuesto, como
00:09:44probablemente leíste y también sentiste, si eres un jugador, por ejemplo, estamos en un momento en el que, debido a
00:09:52todas las cosas de IA que están sucediendo, nos enfrentamos a una gran escasez y crisis de cómputo y altos precios para
00:10:01la memoria y todo lo relacionado con lo que estos modelos de IA y estos centros de datos de IA necesitan, así que
00:10:08la memoria es cara porque la inferencia necesita mucha memoria. Si has intentado ejecutar modelos
00:10:13localmente en tu sistema, sabes que necesitas mucha memoria para eso, así que los precios de la memoria subieron,
00:10:19pero no es solo la memoria, también es el equipo de red, porque, por supuesto, estás ejecutando tanto el entrenamiento
00:10:25como la inferencia, no en un solo chip, sino en enormes bastidores y clústeres de chips, y todos estos
00:10:31clústeres necesitan conexiones entre los clústeres, entre los chips, para que puedas construir súper
00:10:36GPU, por así decirlo, y este equipo de red tiene una gran demanda y, por lo tanto, es caro. Y luego, por supuesto,
00:10:43también tenemos la energía y los centros de datos, necesitamos ambos. Necesitamos centros de datos para poner esos chips y por eso
00:10:52hay mucha construcción ocurriendo allí, pero luego estos centros de datos necesitan energía, ¿verdad? Y tú
00:10:58también has oído hablar de eso, la energía es otro gran problema, no puedes obtenerla de la red eléctrica, simplemente no
00:11:05está construida para eso, no hay suficiente energía disponible allí, es por eso que todos estos nuevos centros de datos se están
00:11:12mudando a soluciones fuera de la red, donde la energía se produce junto al centro de datos con turbinas de gas
00:11:21o energía nuclear, pero eso, por supuesto, toma tiempo y también requiere componentes, y no hay una
00:11:28cantidad infinita de empresas que puedan construir estas plantas de energía, no hay una cantidad infinita de
00:11:35componentes que se necesitan para construir estas plantas de energía, así que todo eso está limitando la cantidad de
00:11:42cómputo que puede conectarse en línea, lo cual a su vez falta para la inferencia y, por supuesto, también para el
00:11:48entrenamiento. Ahora, históricamente, y con eso me refiero a solo hace uno o dos años, el incentivo para
00:11:54estas empresas era dedicar una gran cantidad de recursos de cómputo al entrenamiento, porque eso te da
00:12:00mejores modelos que te permiten mantenerte por delante o adelantarte en la carrera de la IA, y ese incentivo aún existe, pero
00:12:07por supuesto, hoy en día también hay un mayor incentivo y una mayor importancia aquí en la parte de inferencia,
00:12:14porque es la parte de la inferencia la que te da clientes, la que te da visibilidad en el mercado,
00:12:19porque si nadie puede usar tus modelos, entonces es genial que tengas buenos modelos, pero no estás
00:12:25ganando ninguna participación de mercado, así que necesitas inferencia. Eso se ha vuelto mucho más importante, así que las empresas tienen
00:12:30que dividir los escasos recursos de cómputo y las capacidades de los centros de datos entre estos dos fines, y por
00:12:38supuesto, especialmente desde principios de este año, también estamos viendo un cambio en el comportamiento de uso de los clientes.
00:12:45El artículo de noticias de GitHub aquí en realidad es bastante abierto sobre esto. Los flujos de trabajo agentivos han
00:12:51cambiado fundamentalmente las demandas de cómputo de los copilotos. Las sesiones largas y paralelas ahora regularmente
00:12:57consumen muchos más recursos de los que la estructura original del plan fue construida para soportar, y es lo mismo, por
00:13:04supuesto, para Anthropic y OpenAI en el pasado. Y nuevamente, esto solo significa hace un año o así,
00:13:10estas empresas, no principalmente, pero en gran medida, realmente solo se enfocaban en sesiones de chat ocasionales. Un
00:13:20usuario, un cliente, ocasionalmente venía y le hacía una pregunta a ChatGPT o Claude, y por supuesto que
00:13:27podrían haber sido varias veces al día, pero eran solo un par de preguntas, solo un par de respuestas,
00:13:33un par de preguntas de seguimiento, por supuesto, muchos menos tokens que todos estos flujos de trabajo agentivos
00:13:39de larga duración y sesiones de codificación que tienes. En esas sesiones de codificación, o cualquier flujo de trabajo agentivo que estés
00:13:44ejecutando, estás quemando cientos de miles y millones de tokens rápidamente, muy rápidamente, mucho
00:13:51más rápido de lo que podrías con solo tu sesión de chat ocasional. Ahora, dado el hecho de que todos estos
00:13:58modelos modernos con los que estamos tratando son modelos de pensamiento, la cantidad de tokens también aumentó
00:14:05en comparación con hace un año o dos, porque una respuesta simplemente toma más tokens debido a ese
00:14:12proceso de pensamiento, los cuales, por supuesto, siguen siendo tokens, incluso si no los ves en la respuesta final,
00:14:17tal vez. Por lo tanto, la cantidad de tokens consumidos se volvió mucho, mucho más grande ahora de lo que era hace un año o dos
00:14:24años atrás, lo que nos lleva nuevamente al punto de que la inferencia se está volviendo más importante, porque necesitas mucha
00:14:29más inferencia para manejar toda esa generación de tokens que está ocurriendo, y esa es la razón por la que todos
00:14:37estos nuevos modelos son bastante caros cuando se usan a través de la API, pero aún más importante, por qué
00:14:43estas suscripciones son tan difíciles para estas empresas en este momento. Introdujeron esas
00:14:49suscripciones en el pasado cuando se consumían muchos menos tokens y ahora están en un punto
00:14:56donde, por el mismo precio de suscripción, la gente ahora usa muchos más tokens, esa es la dificultad,
00:15:03ahora, especialmente para Anthropic, por ejemplo, podría imaginar que están sintiendo el dolor un poco más
00:15:09que OpenAI, no solo porque sus modelos parecen ser más caros de ejecutar si solo echas un vistazo
00:15:16a los precios de la API, sino también, por supuesto, porque históricamente, incluso hace un año, Anthropic
00:15:22tenía más clientes empresariales y de negocios, lo cual es bueno para ellos hasta cierto punto, es una
00:15:29base de ingresos estable, y ChatGPT o OpenAI han estado más basados en consumidores, tenían más gente normal,
00:15:38consumidores normales como clientes, y ahora también se están moviendo más hacia los negocios, pero históricamente, porque
00:15:43tuvieron el momento ChatGPT, tenían más gente normal como clientes. La desventaja para Anthropic ahora,
00:15:50por supuesto, es que estos clientes de negocios son exactamente los clientes que están ejecutando estos flujos de trabajo
00:15:55agentivos, o que tienden a ejecutar estos flujos de trabajo agentivos. Quiero decir, tu mamá y tu papá, si están
00:16:00pagando por ChatGPT en absoluto, lo cual probablemente no hacen, no están ejecutando flujos de trabajo agentivos,
00:16:06pero tú sí, tu empresa sí, y eso, por supuesto, hace que la suscripción sea aún más difícil para
00:16:11Anthropic, me imaginaría, que para OpenAI, donde todavía hay muchos usuarios normales en la suscripción.
00:16:18Supongo que definitivamente también están sintiendo el dolor, ¿y qué significa todo esto ahora? ¿Qué
00:16:24significan cambios como estos, o cambios como en esta publicación de X donde Anthropic está ejecutando pruebas para retirar Cloud Code
00:16:32de los planes más baratos? ¿Qué significa todo esto para nosotros? Creo que es bastante obvio: veremos aún
00:16:38límites más estrictos en el futuro, y por lo tanto, por supuesto, podríamos llegar a un punto en el que las suscripciones
00:16:42ya no se sientan como si valieran la pena, y creo que ese será el punto en el que veremos
00:16:48precios más altos. No es irrazonable, creo, creer que estas suscripciones de codificación, o generalmente
00:16:55estas suscripciones de uso agentivo, costarán muchos miles de dólares al mes en algún momento, no
00:17:03este año, muy probablemente, pero en algún momento, porque, por supuesto, las empresas pueden empezar a comparar el costo de
00:17:10estas suscripciones frente al costo de los empleados, sí, y eso, por supuesto, no es una gran noticia y puede
00:17:17ser totalmente incorrecto, pero es definitivamente lo que creo que sucederá, y por supuesto, cuando haces
00:17:23esa comparación, hay mucho espacio para que estas suscripciones se vuelvan mucho, mucho más caras,
00:17:30obviamente. Las suscripciones entonces no serán para la gente normal nunca más, así que creo que también veremos
00:17:35nuevas ofertas de suscripción para ellos, que simplemente tienen límites de uso mucho más estrictos, que son suficientes
00:17:41para ChatGPT, pero no suficientes para los flujos de trabajo agentivos. Pero para el uso profesional, para los flujos de trabajo
00:17:47agentivos, veremos límites más estrictos y precios más altos. No estoy seguro de cuándo, porque, ya sabes, participación
00:17:52de mercado, ¿verdad? Así que lo que mencioné antes, pero eventualmente veremos eso, porque, en última instancia,
00:17:58como se mencionó, OpenAI tiene alrededor de 18 meses de margen de maniobra, probablemente quieran mantenerse en el negocio,
00:18:03lo mismo para Anthropic, y por lo tanto, eso es lo que creo que veremos aquí en un año o más, no lo sé.