Loop Engineering увеличивает эффективность агентов Hermes в 10 раз
AAI LABS
Computing/SoftwareInternet Technology
Transcript
00:00:00Появился новый термин, и, возможно, вы его уже слышали.
00:00:04Он называется «петлевое проектирование», и, как и любой другой хайповый термин,
00:00:09все говорят о нем так, будто это что-то новое. Но это не так.
00:00:13Однако, когда вы объединяете его с постоянно работающим агентом, таким как Hermes,
00:00:17это перестает быть хайпом. Большинство людей, которые пытаются настроить такие системы,
00:00:22правильно создают петлю, но упускают то, что действительно заставляет ее работать.
00:00:27Как только вы это поймете, ваш подход к созданию агентов полностью изменится.
00:00:31К концу этого видео вы точно поймете, что это такое, и запустите это на Hermes и даже Claude Code,
00:00:36не вмешиваясь в процесс. Основная идея петлевого проектирования проста:
00:00:41вы перестаете быть человеком, который пишет промпт, управляющий агентом,
00:00:46и вместо этого позволяете агенту управлять самим собой. Но чтобы понять, почему это сдвиг,
00:00:51нужно сравнить это с тем, что было раньше. Раньше навыком, который имел значение, был промпт-инжиниринг,
00:00:56где все наше внимание уходило на написание правильной серии инструкций для управления агентом.
00:01:01Но петлевое проектирование все переворачивает. Вместо того чтобы писать промпт самостоятельно,
00:01:05вы проектируете систему, которая делает промпт-инжиниринг за вас и сама управляет агентом.
00:01:10Все началось с того, что создатель OpenClaw сказал, что вам больше не следует писать промпты
00:01:15для своих агентов, а нужно сосредоточиться на разработке петель, которые делают это за вас.
00:01:20Борис, создатель Claude Code, также заявил об этом на ежегодной конференции разработчиков Anthropic,
00:01:25сказав, что больше не пишет промпты для Claude. У него работают петли, которые сами дают указания
00:01:30Claude, и он сам разбирается, что нужно сделать. Итак, вопрос: как начать с этим работать?
00:01:34Все сводится к тому, насколько хорошо вы сможете настроить системы, где вам вообще не нужно
00:01:39беспокоиться о написании промптов для агента. Вы определяете, что вам нужно, а агент делает остальное.
00:01:45Это именно то направление, куда движется разработка на основе ИИ. Прежде чем мы перейдем к тому,
00:01:50как их строить, вам нужно четко понимать, что такое петля. Петля — это процесс, где вы задаете
00:01:56конечную цель, а агент самостоятельно находит шаги для её достижения. Он исправляет себя
00:02:01в процессе и обходит проблемы, пока не достигнет поставленной цели. Еще несколько месяцев назад,
00:02:06пока модели не стали достаточно способными для выполнения длительных задач, это было невозможно.
00:02:11Если вам нужно было создать приложение, вы писали промпт для агента, следили за тем, что он делает,
00:02:16проверяли результат, находили ошибки и переписывали промпт, чтобы их исправить.
00:02:20Вы были той самой петлей. Вы были тем звеном, которое проверяло ошибки и корректировало курс.
00:02:25Именно это петлевое проектирование собирается снять с ваших плеч. Это может звучать
00:02:30как совершенно новая концепция, но петли существуют уже давно. Cron-задачи —
00:02:35хороший пример петли, которую вы, вероятно, уже видели. Это задачи, которые запускаются
00:02:39автоматически и повторяются без вашего вмешательства. Единственная реальная разница в том,
00:02:44что cron-задача выполняется в фиксированное время. Теперь с петлями работа сводится не к написанию
00:02:49промптов, а к тому, насколько хорошо вы определяете конечную цель. Для некоторых из вас этот процесс
00:02:54будет звучать как обучение с подкреплением. Если вы не сталкивались с этим, обучение с подкреплением —
00:02:59это способ тренировки модели, где вы не показываете ей правильные ответы, а просто сообщаете,
00:03:04когда она справилась хорошо, а когда нет, и она постепенно учится улучшать результаты.
00:03:09Модель находит правильный путь, пробуя разные варианты. Она получает положительный сигнал,
00:03:14когда движется в верном направлении, и отрицательный, когда нет. Та же идея применима и здесь,
00:03:19за исключением того, что тренируется не сама модель. Агент работает над выполнением задачи,
00:03:23которую вы хотите сделать, итерируя точно так же, как модель улучшается при обучении.
00:03:28Если он терпит неудачу, петля, которую вы создали, не помечает задачу как выполненную. Он пробует снова,
00:03:33продолжает и исправляет себя, пока не достигнет цели. Теперь, после всего услышанного, вы можете
00:03:38задаться вопросом: что же осталось вам делать, если все становится автономным? Но ваша роль
00:03:43не уменьшается, она становится важнее. Потому что именно ваши знания предметной области
00:03:48и опыт определяют конечную цель, и это отражается во всем, что вы создаете и выпускаете.
00:03:54Вот почему стремление к автономным петлям только ускоряется, и это видно в каждой новой функции,
00:03:59которая выходит прямо сейчас. Fable 5 — самый яркий пример. Anthropic выпустили ее,
00:04:03несмотря на призывы к замедлению разработки ИИ, потому что модели становятся способными
00:04:08такими темпами, что за ними сложно уследить. А после выпуска они даже отозвали ее. Они создали ее
00:04:13для сложных задач, и она работает лучше, чем дольше и сложнее задача, что противоположно тому,
00:04:19как работали модели раньше. Этот сдвиг действительно начался с Opus 4.5. Как только она вышла,
00:04:23длительные задачи стали выполняться значительно лучше. И вам больше не нужно было настраивать
00:04:28агентов со сложными направляющими, которые пошагово ведут агента. Фокус сместился на подготовку
00:04:33проекта к долгосрочной работе, потому что модели теперь достаточно способны справляться
00:04:38самостоятельно без пошагового контроля. Но петля — это не единственное, что имеет значение.
00:04:43Вам также нужно структурировать свой проект так, чтобы агент мог работать долгое время без вашего
00:04:48вмешательства. Поэтому многие создают системы для такого типа настроек. Одной из первых
00:04:53была петля RALF. Она работала путем установки конечной цели и гарантии того, что агент не сбивается
00:04:57с пути. Это делалось через хуки — скрипты, которые запускаются автоматически при определенных событиях.
00:05:03Этот скрипт строго запрещает агенту помечать задачу как завершенную, если условия не были выполнены.
00:05:09Но хуки жесткие, поэтому Claude представил свою команду цели, которая делает то же самое,
00:05:14но с большей гибкостью. Вместо жестко закодированной проверки она позволяет другой модели
00:05:19решить, действительно ли задача завершена. Мы рассказывали о Goal Buddy 2, который развил это,
00:05:24позволяя агенту отслеживать свой прогресс в локальных файлах и определять, что означает завершение,
00:05:29прежде чем начать работу. Агент Hermes и OpenClaw построены на этой же философии. Они убирают вас
00:05:35из процесса, позволяя агенту делать все самому. Теперь, если вы хотите строить такие петли,
00:05:40у нас есть пятиступенчатая система, и поскольку существует два типа петель, некоторые шаги
00:05:45могут немного отличаться. Мы начнем с Claude Code, а позже посмотрим, как сделать это в агенте Hermes.
00:05:49Первый шаг — проверка состояния проекта. На основе этого модель решает, каким будет следующее действие.
00:05:54Затем она действует. Это то место, где происходит реальная работа. Агент вызывает инструменты,
00:05:59пишет в файлы и запускает команды. Как только это завершено, он собирает обратную связь,
00:06:04чтобы понять, что произошло, и на основе этого решает, готова задача или нет.
00:06:09Здесь становится очевидной разница между промпт-инжинирингом и петлевым проектированием.
00:06:14В промпт-инжиниринге вы контролируете только шаг принятия решения, тогда как петлевое
00:06:19проектирование обрабатывает все пять шагов вместе. Создание эффективной петли требует
00:06:24выполнения ряда условий, каждое из которых решает конкретную проблему. Первое — управление контекстом.
00:06:29Вы следите за тем, что попадает в контекст на каждом шаге, потому что это определяет, что именно
00:06:34знает агент. Нельзя полагаться только на чат-контекст, даже с контекстными окнами в миллион токенов,
00:06:39потому что по мере роста разговора системный промпт и инструкции погребаются под недавним выводом.
00:06:44Внимание агента естественным образом направлено на то, что было недавно, поэтому важное теряется.
00:06:50Вот почему управление контекстом так важно. Следующее — качество обратной связи.
00:06:55Обратная связь говорит агенту, как он справился, и это важнейший сигнал во всей системе.
00:07:00Она может принимать разные формы: вывод тестов или скриншот UI, и именно это читает агент,
00:07:05чтобы определить следующее движение. Верификационные шлюзы превращают обратную связь в вердикт.
00:07:11Это контрольные точки, которые говорят агенту, завершена задача или нет.
00:07:16Вам также нужно условие завершения — правило, которое говорит петле, когда остановиться.
00:07:21Это должно быть задано явно, иначе агент либо остановится слишком рано, либо будет продолжать без прогресса.
00:07:26То, что чаще всего упускают из виду — это обработка ошибок. Нужно четко описать,
00:07:31что модель должна делать при сбое инструмента, чтобы система работала чисто, а не оставалась в сломанном состоянии.
00:07:36И наконец, вам нужно управлять состоянием на протяжении всех шагов, отслеживать,
00:07:41на какой стадии находится задача. Контекстное окно не может удерживать все вечно,
00:07:46поэтому полагайтесь на внешние файлы, которые отслеживают информацию для агента.
00:07:51Имейте в виду: поскольку вы передаете выбор пути модели, петли становятся дорогими по токенам,
00:07:57поэтому используйте их обдуманно. Чем больше токенов может обрабатывать петля,
00:08:01тем лучше она справляется с задачей. А перед тем как двигаться дальше, слово нашему спонсору, Scrimba.
00:08:06Большинство курсов по Python — это просто человек, говорящий поверх слайдов. Scrimba иная:
00:08:11их видеоплеер — это редактор кода, так что вы можете поставить на паузу, изменить код и увидеть, что получится.
00:08:15Никакого переключения вкладок, никакого копирования — только практическое программирование.
00:08:21Их новый курс по Python привлек мое внимание, потому что вместо случайных упражнений вы строите реальное приложение.
00:08:26С первого дня вы строите PayUp, приложение для разделения расходов, применяя каждую концепцию.
00:08:31Вы начинаете с нуля, без знаний Python, и проходите через переменные, строки, ввод пользователя,
00:08:37арифметические операторы, преобразование типов, очистку данных — все это в процессе работы.
00:08:42К концу вы создадите рабочий проект с нуля. Это лишь часть из того, что будет доступно в ближайшие недели,
00:08:47и сейчас доступ к ним полностью бесплатный. Начните сегодня, а наши пользователи получат дополнительную
00:08:53скидку 20% на их pro-планы. Кликните по ссылке в закрепленном комментарии или отсканируйте QR-код.
00:08:57Как мы упоминали, существует два типа петель. Первая — детерминированная петля.
00:09:02Вы используете ее для задач, где есть четкое определение завершения: прохождение тестов,
00:09:07успешная компиляция и тому подобное. Такие петли довольно прямолинейны, потому что конечная цель ясна,
00:09:12поэтому модель знает, что нужно сделать. Поскольку Hermes всегда работает, это хороший агент
00:09:18для внедрения такой петли. Мы создали на нем много рабочих процессов и показали, как он справляется сам.
00:09:23Ядро детерминированной петли — четкое определение цели, и для ваших приложений это тесты.
00:09:28Вы можете указать агенту Hermes на любое ваше приложение с тестами, чтобы он следил за ним.
00:09:33Если коммит нарушает продакшн, вы можете настроить автоматизацию на Hermes, чтобы поймать это.
00:09:38Это лучше всего работает здесь, потому что есть функция саморазвивающихся навыков,
00:09:43которые автоматически создаются и развиваются, поддерживая здоровье приложения.
00:09:49Настроив автоматизацию мониторинга, вы можете попросить запустить Claude Code в неинтерактивном режиме,
00:09:54чтобы он исправил проблемы в петле до прохождения всех тестов. Он настраивает автоматизацию,
00:09:59загружает навыки, такие как агентная разработка и рабочий процесс GitHub PR.
00:10:04Сначала он определяет ошибки, ломающие продакшн, затем запускает Claude Code,
00:10:09который исправляет тесты и коммитит изменения после того, как все пройдет успешно.
00:10:14После исправления всего, что ломало продакшн, он использует GitHub CLI для коммита изменений.
00:10:18Приложение работает без сбоев, так как все проверки для успешного развертывания на месте.
00:10:23Если вам нравятся такие разборы, подписывайтесь на канал, нажимайте колокольчик и кнопку хайпа.
00:10:28На канале мы публикуем контент, который помогает вам оптимизировать процессы с помощью ИИ.
00:10:34и навык рабочего процесса GitHub PR, которые подсказывают, как управлять приложением на GitHub.
00:10:39Сначала он выявляет проблемы, нарушавшие работу, а затем запускает Clawed Code в интерактивном режиме,
00:10:44который выполняет тесты и фиксирует изменения, как только они все проходят проверку. После того, как он
00:10:50запустил каждый тест и исправил всё, что вызывало сбой в продакшене, он использует GitHub CLI для коммита изменений.
00:10:55Поэтому работа с недетерминированной петлей отличается. Применяя ИИ к UI, вы знаете, что он
00:11:00часто возвращается к одним и тем же шаблонам. Поэтому мы создали навык «Детектор ИИ-шлака»,
00:11:05который содержит инструкции, как избежать «ИИ-шлака», и перечисляет выдающие его шаблоны.
00:11:10Мы снова используем Hermes из-за саморазвивающихся навыков. Если после запуска навыка
00:11:15мы все еще находим шлак, навык может обновиться, чтобы включить эту обратную связь.
00:11:21Мы попросили Hermes использовать навык и проверить UI на наличие этих шаблонов.
00:11:26Если они есть, он исправляет их и запускает Claude Code для повторной проверки,
00:11:31пока исправлять нечего не останется. Другое преимущество Hermes в том, что модель, проверяющая работу,
00:11:36отличается от той, что строит. Мы использовали модели GPT, лучшие для обзора кода,
00:11:41так что модели Claude становятся строителем, а другой агент — верификатором.
00:11:46Это завершает состязательную петлю, где двое проверяют работу друг друга. После этой петли
00:11:51был сгенерирован UI гораздо лучше, чем типичный вывод моделей Opus сегодня.
00:11:57Если после окончания цикла вы все еще видите признаки «ИИ-шлака», просто упомяните об этом,
00:12:02и он обновит навык для вас, усиливая верификатор, который у вас уже есть.
00:12:07Мы улучшили этот навык, чтобы находить несколько шаблонов «ИИ-шлака», которые мы с Hermes
00:12:13определили коллективно. Если хотите использовать этот навык, вы можете получить его
00:12:18и запускает Claude Code в неинтерактивном режиме, чтобы выполнить этот навык и
00:12:23продолжать исправлять то, что он находит, пока не останется ничего, что нужно исправить.
00:12:28Еще одно преимущество Hermes заключается в том, что модель, проверяющая работу, -
00:12:33это не та модель, которая её выполняет. Мы использовали модели GPT, которые считаются одними из лучших
00:12:38для проверки кода, поэтому модели Claude становятся исполнителем, а другой агент - верификатором. Это то, что
00:12:43завершает состязательный цикл, в котором они проверяют работу друг друга. После того как этот цикл завершился, он создал
00:12:49гораздо лучший интерфейс, чем обычные результаты, которые сейчас выдают модели Opus. И если вы все еще заметите признаки
00:12:54«ИИ-мусора» в интерфейсе после окончания цикла работы агента, вы можете просто упомянуть об этом, и он обновит
00:12:59навык для вас, усилив уже имеющийся у вас верификатор. Мы улучшили этот навык, чтобы он соответствовал многим шаблонам
00:13:04«ИИ-мусора», которые мы с Hermes выявили вместе. Если вы хотите воспользоваться этим навыком, вы можете найти его в нашем
00:13:09сообществе AI Labs Pro. Ссылка будет в описании. На этом видео подходит к концу.
00:13:14Если вы хотите поддержать канал и помочь нам продолжать создавать подобные видео, вы можете сделать это, нажав на кнопку «Суперспасибо» ниже.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video