Loop Engineering увеличивает эффективность агентов Hermes в 10 раз

AAI LABS
Computing/SoftwareInternet Technology

Transcript

00:00:00Появился новый термин, и, возможно, вы его уже слышали.
00:00:04Он называется «петлевое проектирование», и, как и любой другой хайповый термин,
00:00:09все говорят о нем так, будто это что-то новое. Но это не так.
00:00:13Однако, когда вы объединяете его с постоянно работающим агентом, таким как Hermes,
00:00:17это перестает быть хайпом. Большинство людей, которые пытаются настроить такие системы,
00:00:22правильно создают петлю, но упускают то, что действительно заставляет ее работать.
00:00:27Как только вы это поймете, ваш подход к созданию агентов полностью изменится.
00:00:31К концу этого видео вы точно поймете, что это такое, и запустите это на Hermes и даже Claude Code,
00:00:36не вмешиваясь в процесс. Основная идея петлевого проектирования проста:
00:00:41вы перестаете быть человеком, который пишет промпт, управляющий агентом,
00:00:46и вместо этого позволяете агенту управлять самим собой. Но чтобы понять, почему это сдвиг,
00:00:51нужно сравнить это с тем, что было раньше. Раньше навыком, который имел значение, был промпт-инжиниринг,
00:00:56где все наше внимание уходило на написание правильной серии инструкций для управления агентом.
00:01:01Но петлевое проектирование все переворачивает. Вместо того чтобы писать промпт самостоятельно,
00:01:05вы проектируете систему, которая делает промпт-инжиниринг за вас и сама управляет агентом.
00:01:10Все началось с того, что создатель OpenClaw сказал, что вам больше не следует писать промпты
00:01:15для своих агентов, а нужно сосредоточиться на разработке петель, которые делают это за вас.
00:01:20Борис, создатель Claude Code, также заявил об этом на ежегодной конференции разработчиков Anthropic,
00:01:25сказав, что больше не пишет промпты для Claude. У него работают петли, которые сами дают указания
00:01:30Claude, и он сам разбирается, что нужно сделать. Итак, вопрос: как начать с этим работать?
00:01:34Все сводится к тому, насколько хорошо вы сможете настроить системы, где вам вообще не нужно
00:01:39беспокоиться о написании промптов для агента. Вы определяете, что вам нужно, а агент делает остальное.
00:01:45Это именно то направление, куда движется разработка на основе ИИ. Прежде чем мы перейдем к тому,
00:01:50как их строить, вам нужно четко понимать, что такое петля. Петля — это процесс, где вы задаете
00:01:56конечную цель, а агент самостоятельно находит шаги для её достижения. Он исправляет себя
00:02:01в процессе и обходит проблемы, пока не достигнет поставленной цели. Еще несколько месяцев назад,
00:02:06пока модели не стали достаточно способными для выполнения длительных задач, это было невозможно.
00:02:11Если вам нужно было создать приложение, вы писали промпт для агента, следили за тем, что он делает,
00:02:16проверяли результат, находили ошибки и переписывали промпт, чтобы их исправить.
00:02:20Вы были той самой петлей. Вы были тем звеном, которое проверяло ошибки и корректировало курс.
00:02:25Именно это петлевое проектирование собирается снять с ваших плеч. Это может звучать
00:02:30как совершенно новая концепция, но петли существуют уже давно. Cron-задачи —
00:02:35хороший пример петли, которую вы, вероятно, уже видели. Это задачи, которые запускаются
00:02:39автоматически и повторяются без вашего вмешательства. Единственная реальная разница в том,
00:02:44что cron-задача выполняется в фиксированное время. Теперь с петлями работа сводится не к написанию
00:02:49промптов, а к тому, насколько хорошо вы определяете конечную цель. Для некоторых из вас этот процесс
00:02:54будет звучать как обучение с подкреплением. Если вы не сталкивались с этим, обучение с подкреплением —
00:02:59это способ тренировки модели, где вы не показываете ей правильные ответы, а просто сообщаете,
00:03:04когда она справилась хорошо, а когда нет, и она постепенно учится улучшать результаты.
00:03:09Модель находит правильный путь, пробуя разные варианты. Она получает положительный сигнал,
00:03:14когда движется в верном направлении, и отрицательный, когда нет. Та же идея применима и здесь,
00:03:19за исключением того, что тренируется не сама модель. Агент работает над выполнением задачи,
00:03:23которую вы хотите сделать, итерируя точно так же, как модель улучшается при обучении.
00:03:28Если он терпит неудачу, петля, которую вы создали, не помечает задачу как выполненную. Он пробует снова,
00:03:33продолжает и исправляет себя, пока не достигнет цели. Теперь, после всего услышанного, вы можете
00:03:38задаться вопросом: что же осталось вам делать, если все становится автономным? Но ваша роль
00:03:43не уменьшается, она становится важнее. Потому что именно ваши знания предметной области
00:03:48и опыт определяют конечную цель, и это отражается во всем, что вы создаете и выпускаете.
00:03:54Вот почему стремление к автономным петлям только ускоряется, и это видно в каждой новой функции,
00:03:59которая выходит прямо сейчас. Fable 5 — самый яркий пример. Anthropic выпустили ее,
00:04:03несмотря на призывы к замедлению разработки ИИ, потому что модели становятся способными
00:04:08такими темпами, что за ними сложно уследить. А после выпуска они даже отозвали ее. Они создали ее
00:04:13для сложных задач, и она работает лучше, чем дольше и сложнее задача, что противоположно тому,
00:04:19как работали модели раньше. Этот сдвиг действительно начался с Opus 4.5. Как только она вышла,
00:04:23длительные задачи стали выполняться значительно лучше. И вам больше не нужно было настраивать
00:04:28агентов со сложными направляющими, которые пошагово ведут агента. Фокус сместился на подготовку
00:04:33проекта к долгосрочной работе, потому что модели теперь достаточно способны справляться
00:04:38самостоятельно без пошагового контроля. Но петля — это не единственное, что имеет значение.
00:04:43Вам также нужно структурировать свой проект так, чтобы агент мог работать долгое время без вашего
00:04:48вмешательства. Поэтому многие создают системы для такого типа настроек. Одной из первых
00:04:53была петля RALF. Она работала путем установки конечной цели и гарантии того, что агент не сбивается
00:04:57с пути. Это делалось через хуки — скрипты, которые запускаются автоматически при определенных событиях.
00:05:03Этот скрипт строго запрещает агенту помечать задачу как завершенную, если условия не были выполнены.
00:05:09Но хуки жесткие, поэтому Claude представил свою команду цели, которая делает то же самое,
00:05:14но с большей гибкостью. Вместо жестко закодированной проверки она позволяет другой модели
00:05:19решить, действительно ли задача завершена. Мы рассказывали о Goal Buddy 2, который развил это,
00:05:24позволяя агенту отслеживать свой прогресс в локальных файлах и определять, что означает завершение,
00:05:29прежде чем начать работу. Агент Hermes и OpenClaw построены на этой же философии. Они убирают вас
00:05:35из процесса, позволяя агенту делать все самому. Теперь, если вы хотите строить такие петли,
00:05:40у нас есть пятиступенчатая система, и поскольку существует два типа петель, некоторые шаги
00:05:45могут немного отличаться. Мы начнем с Claude Code, а позже посмотрим, как сделать это в агенте Hermes.
00:05:49Первый шаг — проверка состояния проекта. На основе этого модель решает, каким будет следующее действие.
00:05:54Затем она действует. Это то место, где происходит реальная работа. Агент вызывает инструменты,
00:05:59пишет в файлы и запускает команды. Как только это завершено, он собирает обратную связь,
00:06:04чтобы понять, что произошло, и на основе этого решает, готова задача или нет.
00:06:09Здесь становится очевидной разница между промпт-инжинирингом и петлевым проектированием.
00:06:14В промпт-инжиниринге вы контролируете только шаг принятия решения, тогда как петлевое
00:06:19проектирование обрабатывает все пять шагов вместе. Создание эффективной петли требует
00:06:24выполнения ряда условий, каждое из которых решает конкретную проблему. Первое — управление контекстом.
00:06:29Вы следите за тем, что попадает в контекст на каждом шаге, потому что это определяет, что именно
00:06:34знает агент. Нельзя полагаться только на чат-контекст, даже с контекстными окнами в миллион токенов,
00:06:39потому что по мере роста разговора системный промпт и инструкции погребаются под недавним выводом.
00:06:44Внимание агента естественным образом направлено на то, что было недавно, поэтому важное теряется.
00:06:50Вот почему управление контекстом так важно. Следующее — качество обратной связи.
00:06:55Обратная связь говорит агенту, как он справился, и это важнейший сигнал во всей системе.
00:07:00Она может принимать разные формы: вывод тестов или скриншот UI, и именно это читает агент,
00:07:05чтобы определить следующее движение. Верификационные шлюзы превращают обратную связь в вердикт.
00:07:11Это контрольные точки, которые говорят агенту, завершена задача или нет.
00:07:16Вам также нужно условие завершения — правило, которое говорит петле, когда остановиться.
00:07:21Это должно быть задано явно, иначе агент либо остановится слишком рано, либо будет продолжать без прогресса.
00:07:26То, что чаще всего упускают из виду — это обработка ошибок. Нужно четко описать,
00:07:31что модель должна делать при сбое инструмента, чтобы система работала чисто, а не оставалась в сломанном состоянии.
00:07:36И наконец, вам нужно управлять состоянием на протяжении всех шагов, отслеживать,
00:07:41на какой стадии находится задача. Контекстное окно не может удерживать все вечно,
00:07:46поэтому полагайтесь на внешние файлы, которые отслеживают информацию для агента.
00:07:51Имейте в виду: поскольку вы передаете выбор пути модели, петли становятся дорогими по токенам,
00:07:57поэтому используйте их обдуманно. Чем больше токенов может обрабатывать петля,
00:08:01тем лучше она справляется с задачей. А перед тем как двигаться дальше, слово нашему спонсору, Scrimba.
00:08:06Большинство курсов по Python — это просто человек, говорящий поверх слайдов. Scrimba иная:
00:08:11их видеоплеер — это редактор кода, так что вы можете поставить на паузу, изменить код и увидеть, что получится.
00:08:15Никакого переключения вкладок, никакого копирования — только практическое программирование.
00:08:21Их новый курс по Python привлек мое внимание, потому что вместо случайных упражнений вы строите реальное приложение.
00:08:26С первого дня вы строите PayUp, приложение для разделения расходов, применяя каждую концепцию.
00:08:31Вы начинаете с нуля, без знаний Python, и проходите через переменные, строки, ввод пользователя,
00:08:37арифметические операторы, преобразование типов, очистку данных — все это в процессе работы.
00:08:42К концу вы создадите рабочий проект с нуля. Это лишь часть из того, что будет доступно в ближайшие недели,
00:08:47и сейчас доступ к ним полностью бесплатный. Начните сегодня, а наши пользователи получат дополнительную
00:08:53скидку 20% на их pro-планы. Кликните по ссылке в закрепленном комментарии или отсканируйте QR-код.
00:08:57Как мы упоминали, существует два типа петель. Первая — детерминированная петля.
00:09:02Вы используете ее для задач, где есть четкое определение завершения: прохождение тестов,
00:09:07успешная компиляция и тому подобное. Такие петли довольно прямолинейны, потому что конечная цель ясна,
00:09:12поэтому модель знает, что нужно сделать. Поскольку Hermes всегда работает, это хороший агент
00:09:18для внедрения такой петли. Мы создали на нем много рабочих процессов и показали, как он справляется сам.
00:09:23Ядро детерминированной петли — четкое определение цели, и для ваших приложений это тесты.
00:09:28Вы можете указать агенту Hermes на любое ваше приложение с тестами, чтобы он следил за ним.
00:09:33Если коммит нарушает продакшн, вы можете настроить автоматизацию на Hermes, чтобы поймать это.
00:09:38Это лучше всего работает здесь, потому что есть функция саморазвивающихся навыков,
00:09:43которые автоматически создаются и развиваются, поддерживая здоровье приложения.
00:09:49Настроив автоматизацию мониторинга, вы можете попросить запустить Claude Code в неинтерактивном режиме,
00:09:54чтобы он исправил проблемы в петле до прохождения всех тестов. Он настраивает автоматизацию,
00:09:59загружает навыки, такие как агентная разработка и рабочий процесс GitHub PR.
00:10:04Сначала он определяет ошибки, ломающие продакшн, затем запускает Claude Code,
00:10:09который исправляет тесты и коммитит изменения после того, как все пройдет успешно.
00:10:14После исправления всего, что ломало продакшн, он использует GitHub CLI для коммита изменений.
00:10:18Приложение работает без сбоев, так как все проверки для успешного развертывания на месте.
00:10:23Если вам нравятся такие разборы, подписывайтесь на канал, нажимайте колокольчик и кнопку хайпа.
00:10:28На канале мы публикуем контент, который помогает вам оптимизировать процессы с помощью ИИ.
00:10:34и навык рабочего процесса GitHub PR, которые подсказывают, как управлять приложением на GitHub.
00:10:39Сначала он выявляет проблемы, нарушавшие работу, а затем запускает Clawed Code в интерактивном режиме,
00:10:44который выполняет тесты и фиксирует изменения, как только они все проходят проверку. После того, как он
00:10:50запустил каждый тест и исправил всё, что вызывало сбой в продакшене, он использует GitHub CLI для коммита изменений.
00:10:55Поэтому работа с недетерминированной петлей отличается. Применяя ИИ к UI, вы знаете, что он
00:11:00часто возвращается к одним и тем же шаблонам. Поэтому мы создали навык «Детектор ИИ-шлака»,
00:11:05который содержит инструкции, как избежать «ИИ-шлака», и перечисляет выдающие его шаблоны.
00:11:10Мы снова используем Hermes из-за саморазвивающихся навыков. Если после запуска навыка
00:11:15мы все еще находим шлак, навык может обновиться, чтобы включить эту обратную связь.
00:11:21Мы попросили Hermes использовать навык и проверить UI на наличие этих шаблонов.
00:11:26Если они есть, он исправляет их и запускает Claude Code для повторной проверки,
00:11:31пока исправлять нечего не останется. Другое преимущество Hermes в том, что модель, проверяющая работу,
00:11:36отличается от той, что строит. Мы использовали модели GPT, лучшие для обзора кода,
00:11:41так что модели Claude становятся строителем, а другой агент — верификатором.
00:11:46Это завершает состязательную петлю, где двое проверяют работу друг друга. После этой петли
00:11:51был сгенерирован UI гораздо лучше, чем типичный вывод моделей Opus сегодня.
00:11:57Если после окончания цикла вы все еще видите признаки «ИИ-шлака», просто упомяните об этом,
00:12:02и он обновит навык для вас, усиливая верификатор, который у вас уже есть.
00:12:07Мы улучшили этот навык, чтобы находить несколько шаблонов «ИИ-шлака», которые мы с Hermes
00:12:13определили коллективно. Если хотите использовать этот навык, вы можете получить его
00:12:18и запускает Claude Code в неинтерактивном режиме, чтобы выполнить этот навык и
00:12:23продолжать исправлять то, что он находит, пока не останется ничего, что нужно исправить.
00:12:28Еще одно преимущество Hermes заключается в том, что модель, проверяющая работу, -
00:12:33это не та модель, которая её выполняет. Мы использовали модели GPT, которые считаются одними из лучших
00:12:38для проверки кода, поэтому модели Claude становятся исполнителем, а другой агент - верификатором. Это то, что
00:12:43завершает состязательный цикл, в котором они проверяют работу друг друга. После того как этот цикл завершился, он создал
00:12:49гораздо лучший интерфейс, чем обычные результаты, которые сейчас выдают модели Opus. И если вы все еще заметите признаки
00:12:54«ИИ-мусора» в интерфейсе после окончания цикла работы агента, вы можете просто упомянуть об этом, и он обновит
00:12:59навык для вас, усилив уже имеющийся у вас верификатор. Мы улучшили этот навык, чтобы он соответствовал многим шаблонам
00:13:04«ИИ-мусора», которые мы с Hermes выявили вместе. Если вы хотите воспользоваться этим навыком, вы можете найти его в нашем
00:13:09сообществе AI Labs Pro. Ссылка будет в описании. На этом видео подходит к концу.
00:13:14Если вы хотите поддержать канал и помочь нам продолжать создавать подобные видео, вы можете сделать это, нажав на кнопку «Суперспасибо» ниже.

Key Takeaway

Переход от ручного промпт-инжиниринга к проектированию автономных петель позволяет агентам типа Hermes выполнять сложные задачи без вмешательства человека, самостоятельно итерируя до достижения конечной цели.

Highlights

  • Петлевое проектирование переносит управление агентом с человека на систему, позволяя ИИ самостоятельно выполнять задачи, исправлять ошибки и корректировать курс до достижения цели.

  • Автономные петли, такие как Hermes и Claude Code, повышают эффективность агентов в 10 раз за счет исключения необходимости ручного написания промптов для каждого шага.

  • Эффективная петля включает пять компонентов: проверку состояния, выполнение действия, сбор обратной связи, верификацию результата и обработку ошибок.

  • Управление контекстом и использование внешних файлов для отслеживания прогресса критически важны для предотвращения потери данных в длинных задачах.

  • Детерминированные петли идеально подходят для задач с четкими критериями завершения, такими как прохождение тестов или компиляция кода.

  • Состязательные петли, где одна модель выполняет работу, а другая проверяет ее, позволяют создавать интерфейсы и код высокого качества, избегая типичных ошибок ИИ.

Timeline

Суть петлевого проектирования

  • Петлевое проектирование заменяет написание промптов на разработку систем, где агент управляет собой самостоятельно.
  • Агент в петле ставит цели, находит шаги для их достижения и обходит возникающие проблемы без участия человека.

Традиционный подход требовал от человека постоянного контроля, проверки результатов и переписывания промптов при ошибках. Новая модель проектирования подразумевает создание процесса, в котором агент итерирует до достижения заданного результата, выполняя роль человека, ранее корректировавшего курс.

Механика петель и управление контекстом

  • Петля функционирует аналогично обучению с подкреплением: агент получает сигнал о прогрессе и пробует снова при неудаче.
  • Для эффективной работы петли необходимо реализовать управление контекстом, верификационные шлюзы и внешние файлы для хранения состояния.

Пятиступенчатая система включает проверку состояния, выполнение, сбор обратной связи, верификацию и обработку ошибок. Важно не полагаться только на контекст чата, так как важные инструкции могут теряться, поэтому прогресс лучше отслеживать через внешние файлы.

Реализация петель на практике

  • Детерминированные петли используются для задач с очевидным завершением, например, при автоматизации тестирования и мониторинга кода.
  • Состязательные петли позволяют разделить роли исполнителя и верификатора между разными моделями для повышения качества вывода.

Агент Hermes эффективно работает в петлях, позволяя автоматизировать проверку продакшн-кода и исправление ошибок. Использование GPT-моделей в качестве верификатора для кода, созданного Claude, позволяет минимизировать типичные ошибки и признаки «ИИ-шлака» в пользовательских интерфейсах.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video