Nuevo Modo Advisor de Claude: Mejores Resultados y MÁS BARATO

CChase AI
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00Anthropic acaba de lanzar la estrategia de asesor,
00:00:02que nos permite no solo obtener un mejor rendimiento
00:00:05de nuestros modelos de Anthropic, sino hacerlo a un menor costo.
00:00:09Y la forma en que funciona es bastante sencilla.
00:00:10Empareja a Opus como asesor
00:00:12con Sonnet o Haiku como ejecutor.
00:00:15Así que Opus propone un plan
00:00:17y el modelo más barato hace todo el trabajo.
00:00:19Esto es muy similar a cuando usamos Claude Code
00:00:22y hacemos que Opus ejecute el modo de planificación,
00:00:24pero pasamos la ejecución real a Sonnet.
00:00:27La diferencia es que con la estrategia de asesor,
00:00:30todo esto se hace automáticamente a través de una API.
00:00:32Así que esto es perfecto si estás trabajando en cosas
00:00:34fuera de Claude Code.
00:00:35Si tienes cualquier tipo de aplicación web
00:00:38que use las APIs de Anthropic internamente,
00:00:41esto es una decisión obvia.
00:00:42Vas a obtener resultados más efectivos por menos dinero.
00:00:46Y en realidad es un poco más sofisticado
00:00:48que lo que hacemos en Claude Code con la planificación de Opus
00:00:50y luego la ejecución de Sonnet.
00:00:52Porque esta relación entre asesor y ejecutor
00:00:55está en constante cambio y no es algo de una sola vez
00:00:58donde Opus asesora una vez y luego Sonnet ejecuta.
00:01:01En realidad, hay un intercambio de ida y vuelta.
00:01:02Como indica aquí, cuando el ejecutor,
00:01:04es decir, Sonnet o Haiku, llega a una decisión
00:01:06que no puede resolver razonablemente,
00:01:08consulta a Opus para obtener orientación como asesor.
00:01:11Opus tiene todo el contexto de lo que Sonnet está haciendo.
00:01:15Y por eso no es solo como el modo de planificación
00:01:16donde le da una estrategia y luego se marcha.
00:01:19Es como si hicieras eso y Sonnet intentara ejecutar.
00:01:22Si encuentra un obstáculo, volverá a consultar a Opus.
00:01:24Así que hay un intercambio constante.
00:01:26Además, para mantener los costos bajos,
00:01:28Opus no realiza ninguna llamada a herramientas en ningún momento.
00:01:30Las únicas llamadas a herramientas las realiza ese LLM más pequeño,
00:01:34en este caso, Sonnet o Haiku.
00:01:35Pero Opus sí conserva todo ese contexto compartido.
00:01:39Y como mencioné en la introducción,
00:01:40esto nos da mejores resultados por menos.
00:01:43Justo aquí, se compara Sonnet 4.6 High
00:01:46con el asesor Opus frente a Sonnet 4.6 High por sí solo.
00:01:50Sonnet obtuvo una puntuación más alta en SWE bench con 74.8 frente a 72.1,
00:01:55y resultó ser más barato.
00:01:56Costó poco más de 96 centavos por tarea de agente
00:02:00frente a casi un dólar y nueve centavos, lo cual es significativo.
00:02:03Y se ve lo mismo en otros puntos de referencia
00:02:06como Browse Comp y Terminal Bench.
00:02:0860.4 frente a 58.1, y es más barato.
00:02:12Lo de ser más barato es genial porque, como todos sabemos,
00:02:14las APIs de Anthropic son increíbles,
00:02:16pero son sumamente caras.
00:02:19Y a menudo sientes que quieres algo
00:02:21intermedio entre Sonnet y Opus, pero eso no existe.
00:02:24Así que esto nos da un punto medio
00:02:26en términos del rendimiento de Sonnet y Opus,
00:02:28pero con un costo inferior al de Sonnet normal.
00:02:31Entonces, ¿qué hay de malo en ello?
00:02:32Como dije antes, esto es algo de la API,
00:02:33no necesariamente algo de Claude Code.
00:02:35Para usarlo, solo tendrás que ajustar tu código
00:02:38y la forma en que realmente realiza esas llamadas a la API.
00:02:41Específicamente, tienes que definir el tipo como "advisor",
00:02:45así como el máximo de usos.
00:02:47Ese máximo de usos es el número de veces
00:02:48que va a volver a Opus
00:02:50para obtener asesoramiento sobre un tema en particular.
00:02:52En resumen, esta es una actualización increíble.
00:02:54Si eres alguien que utiliza la API de Anthropic
00:02:56en proyectos reales fuera del ecosistema de Claude Code,
00:03:00estamos obteniendo mejores resultados por menos dinero.
00:03:03Porque como sabes, a menudo Opus es demasiado
00:03:06para la gran mayoría de las cosas,
00:03:08y sin embargo a veces quieres algo un poco mejor que Sonnet.
00:03:10Y aquí lo tienes, es el punto medio perfecto.

Key Takeaway

La nueva arquitectura de asesor de Anthropic mejora el rendimiento en SWE-bench de 72.1 a 74.8 y reduce los costos operativos un 12% al delegar la ejecución a modelos económicos mientras Opus supervisa la estrategia.

Highlights

La estrategia de asesor de Anthropic empareja el modelo Claude Opus como planificador con Sonnet o Haiku como ejecutores mediante una API automática.

El uso de Sonnet 3.5 con el asesor Opus alcanza una puntuación de 74.8 en SWE-bench frente al 72.1 de Sonnet actuando solo.

El costo por tarea de agente se reduce de 1.09 dólares a 96 centavos al implementar esta arquitectura híbrida.

El modelo ejecutor consulta a Opus únicamente ante obstáculos imprevistos, manteniendo el contexto compartido durante todo el proceso.

Opus no realiza llamadas a herramientas en ningún momento para minimizar el consumo de recursos y costos operativos.

La configuración requiere definir el parámetro de tipo advisor y establecer un límite máximo de consultas al modelo asesor en el código de la API.

Timeline

Mecánica del sistema de asesor y ejecutor

  • El modelo Opus asume el rol de asesor estratégico para proponer planes de acción.
  • Los modelos Sonnet o Haiku realizan el trabajo técnico de ejecución siguiendo las directrices recibidas.
  • La integración ocurre de forma automatizada a través de la API de Anthropic para aplicaciones web externas.

Esta estrategia optimiza el flujo de trabajo al separar la inteligencia de planificación de la capacidad de ejecución. A diferencia del modo de planificación manual en Claude Code, esta implementación es nativa de la API y gestiona el intercambio de información sin intervención del usuario. El sistema permite que aplicaciones personalizadas aprovechen la potencia de Opus sin incurrir en los costos de usarlo para tareas rutinarias.

Intercambio dinámico y gestión de contexto

  • El ejecutor consulta al asesor repetidamente cuando encuentra problemas que no puede resolver por sí mismo.
  • Opus mantiene acceso total al contexto de las acciones realizadas por Sonnet o Haiku.
  • Las llamadas a herramientas externas son responsabilidad exclusiva del modelo ejecutor más pequeño.

La relación no es unidireccional ni de un solo paso, sino un diálogo constante donde el modelo menor busca orientación ante obstáculos. Opus supervisa el proceso global pero no interactúa directamente con las herramientas de software para evitar cargos innecesarios. Esta estructura garantiza que el razonamiento de alto nivel guíe la ejecución técnica en tiempo real sin perder la trazabilidad de los pasos previos.

Validación de rendimiento y eficiencia de costos

  • La combinación de modelos supera a Sonnet individualmente en pruebas de SWE-bench, Browse Comp y Terminal Bench.
  • El costo operativo final es inferior al precio estándar de Sonnet 3.5 a pesar de la intervención de Opus.
  • Esta modalidad cubre el vacío de rendimiento existente entre los modelos Sonnet y Opus.

Los datos demuestran una mejora en SWE-bench de 2.7 puntos porcentuales con un ahorro de 13 centavos por tarea. En Terminal Bench, la puntuación sube de 58.1 a 60.4 manteniendo la tendencia de menor precio. El modo advisor funciona como un punto medio virtual que ofrece la precisión del modelo más avanzado con una factura mensual más baja que el modelo intermedio.

Implementación técnica en la API

  • La configuración exige modificar el código para especificar el tipo de modelo como advisor.
  • Es obligatorio definir un límite de usos máximos para controlar cuántas veces el ejecutor puede recurrir al asesor.
  • El sistema es ideal para desarrolladores que operan fuera del ecosistema cerrado de Claude Code.

La adopción de esta estrategia requiere ajustes específicos en las llamadas a la API de Anthropic para habilitar el comportamiento híbrido. El parámetro de máximo de usos actúa como un guardafuegos financiero para evitar bucles de consulta infinitos entre modelos. Esta actualización resuelve la ineficiencia de usar Opus para tareas simples, reservando su capacidad de razonamiento solo para los momentos críticos del desarrollo.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video