Новый режим Advisor в Claude: лучше результаты и ДЕШЕВЛЕ

CChase AI
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00Anthropic только что представила стратегию Advisor,
00:00:02которая позволяет нам не только повысить производительность
00:00:05наших моделей Anthropic, но и сделать это с меньшими затратами.
00:00:09И то, как это работает, довольно просто.
00:00:10Она связывает Opus в качестве советника (advisor)
00:00:12с Sonnet или Haiku в качестве исполнителя (executor).
00:00:15Таким образом, Opus разрабатывает план,
00:00:17а более дешевая модель выполняет всю работу.
00:00:19Это очень похоже на то, когда мы используем Claude Code
00:00:22и запускаем Opus в режиме планирования,
00:00:24но передаем само исполнение модели Sonnet.
00:00:27Разница в том, что со стратегией Advisor
00:00:30все это делается автоматически через API.
00:00:32Так что это идеально, если вы работаете над вещами
00:00:34за пределами экосистемы Claude Code.
00:00:35Если у вас есть какое-либо веб-приложение,
00:00:38использующее API Anthropic «под капотом»,
00:00:41то это очевидное решение.
00:00:42Вы получите более эффективные результаты дешевле.
00:00:46И на самом деле это немного сложнее,
00:00:48чем то, что мы делаем в Claude Code с Opus-планировщиком
00:00:50и Sonnet-исполнителем.
00:00:52Потому что эти отношения советника и исполнителя
00:00:55постоянно меняются, и это не разовая акция,
00:00:58когда Opus советует один раз, а затем Sonnet исполняет.
00:01:01На самом деле идет постоянный обмен.
00:01:02Как здесь указано, когда исполнитель,
00:01:04то есть Sonnet или Haiku, сталкивается с решением,
00:01:06которое не может разумно принять сам,
00:01:08он обращается к Opus за руководством как к советнику.
00:01:11Opus обладает полным контекстом того, что делает Sonnet.
00:01:15И это не просто как режим планирования,
00:01:16где он дает одну стратегию, и на этом все.
00:01:19Это как если бы Sonnet попытался выполнить план,
00:01:22наткнулся на препятствие, а затем снова вернулся к Opus.
00:01:24Таким образом, идет постоянное взаимодействие туда-сюда.
00:01:26Более того, чтобы поддерживать низкие затраты,
00:01:28Opus не делает никаких вызовов инструментов (tool calls).
00:01:30Все вызовы инструментов выполняются меньшей LLM,
00:01:34в данном случае Sonnet или Haiku.
00:01:35Но Opus сохраняет при этом полный общий контекст.
00:01:39И как я упоминал во вступлении,
00:01:40это дает нам лучшие результаты за меньшие деньги.
00:01:43Вот здесь идет сравнение Sonnet 3.5 High
00:01:46с Opus Advisor против обычной Sonnet 3.5 High.
00:01:50Sonnet набрала больше баллов в SWE-bench: 74.8 против 72.1,
00:01:55и при этом обошлась дешевле.
00:01:56Вышло чуть более 96 центов за агентскую задачу
00:02:00против почти 1 доллара 9 центов, что существенно.
00:02:03И вы видите ту же картину в других бенчмарках,
00:02:06таких как Browse Comp и Terminal Bench.
00:02:0860.4 против 58.1, и это дешевле.
00:02:12То, что это дешевле — отлично, так как мы все знаем,
00:02:14что API от Anthropic просто потрясающие,
00:02:16но они чертовски дорогие.
00:02:19И часто хочется чего-то среднего
00:02:21между Sonnet и Opus, но такого варианта просто нет.
00:02:24Так что это дает нам «золотую середину»
00:02:26между производительностью Sonnet и Opus,
00:02:28но по цене, которая ниже, чем у обычной Sonnet.
00:02:31Ну разве это не здорово?
00:02:32Как я уже сказал, это касается работы через API,
00:02:33а не обязательно только в Claude Code.
00:02:35Чтобы использовать это, вам просто нужно подправить код
00:02:38в том месте, где происходят вызовы API.
00:02:41В частности, вам нужно указать тип «advisor»,
00:02:45а также параметр «max_uses».
00:02:47«Max_uses» — это количество раз,
00:02:48которое модель будет возвращаться к Opus
00:02:50за советом по конкретному вопросу.
00:02:52Подводя итог, это потрясающее обновление.
00:02:54Если вы используете API Anthropic
00:02:56в реальных проектах вне экосистемы Claude Code,
00:03:00вы получите лучшие результаты дешевле.
00:03:03Потому что, как вы знаете, Opus часто избыточен
00:03:06для подавляющего большинства задач,
00:03:08но иногда хочется чего-то посильнее, чем просто Sonnet.
00:03:10И вот оно — идеальное промежуточное решение.

Key Takeaway

Режим Advisor в API Anthropic повышает точность выполнения задач на 2.7% в тесте SWE-bench и снижает затраты на 12% за счет динамического взаимодействия между Opus и младшими моделями.

Highlights

Стратегия Advisor связывает модель Opus в роли планировщика с моделями Sonnet или Haiku в роли исполнителей через API.

Комбинация Sonnet 3.5 High с Opus Advisor набирает 74.8 балла в тесте SWE-bench против 72.1 балла у стандартной Sonnet.

Стоимость выполнения агентской задачи снижается с 1.09 доллара до 0.96 доллара при использовании нового режима.

Модель-исполнитель обращается к Opus за руководством только в моменты принятия сложных решений, сохраняя при этом полный контекст задачи.

Для активации режима в коде вызова API необходимо указать тип advisor и параметр max_uses для ограничения количества обращений к старшей модели.

Все вызовы инструментов выполняются исключительно младшей моделью (Sonnet или Haiku), что минимизирует вычислительные затраты Opus.

Timeline

Механика взаимодействия моделей в режиме Advisor

  • Модель Opus выступает в роли советника и разрабатывает стратегический план действий.
  • Sonnet или Haiku выполняют основную работу и технические операции.
  • Система работает полностью автоматически через API для любых веб-приложений.

Новая стратегия оптимизирует рабочий процесс, разделяя функции планирования и исполнения между моделями разного уровня. В отличие от ручного разделения задач, этот механизм интегрирован непосредственно в API Anthropic. Процесс обеспечивает высокую эффективность для проектов, находящихся за пределами экосистемы Claude Code.

Динамический обмен контекстом и выполнение инструментов

  • Исполнитель запрашивает помощь Opus только при столкновении с препятствиями, которые не может разрешить самостоятельно.
  • Opus сохраняет актуальный контекст всех действий, предпринятых младшей моделью в процессе работы.
  • Вызовы внешних инструментов (tool calls) делегируются менее дорогим моделям для экономии ресурсов.

Взаимодействие не ограничивается разовой передачей плана в начале сессии. Если модель-исполнитель заходит в тупик, она возвращается к советнику за уточнением. Это создает непрерывный цикл обратной связи, где Opus направляет процесс, не расходуя токены на выполнение рутинных функций и вызовов API.

Сравнение производительности и стоимости на бенчмарках

  • Режим Advisor превосходит стандартную Sonnet 3.5 High в тестах SWE-bench, Browse Comp и Terminal Bench.
  • Затраты на одну агентскую задачу составляют 96 центов, что дешевле использования одиночной модели Sonnet.
  • Стратегия заполняет рыночную нишу между возможностями Sonnet и Opus по более низкой цене.

Данные тестов подтверждают рост точности с 72.1 до 74.8 в SWE-bench и с 58.1 до 60.4 в Browse Comp. Снижение цены делает мощные возможности Opus доступными для задач, где ранее использование флагманской модели было экономически неоправданным. Это решение объединяет высокую производительность с бюджетной эффективностью.

Техническая реализация и настройка лимитов

  • Интеграция требует изменения параметров в коде вызова API Anthropic.
  • Параметр max_uses ограничивает количество допустимых обращений исполнителя к советнику в рамках одной задачи.
  • Режим решает проблему избыточности Opus для простых этапов работы при сохранении его интеллектуального потенциала.

Разработчикам необходимо внедрить тип advisor в свои запросы для активации функционала. Контроль через max_uses позволяет гибко управлять бюджетом и предотвращать бесконечные циклы обращений. Это делает систему идеальным промежуточным решением для сложных агентских задач, требующих высокого уровня логики без переплат.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video