Кто такой инженер по жгутам (Harness Engineer) и почему это важно

AAI Jason
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Спасибо HubSpot за спонсорскую поддержку этого видео.
00:00:03В декабре 2025 года произошло кое-что действительно важное.
00:00:07И большинство людей этого даже не заметили.
00:00:09Эндрю Капси написал об этом в Твиттере на прошлой неделе.
00:00:10«Сложно передать, насколько сильно изменилось программирование из-за ИИ за последние два месяца,
00:00:15особенно с декабря прошлого года».
00:00:17Грег из OpenAI также говорил об этом.
00:00:20С декабря произошли качественные скачки в возможностях моделей и инструментов.
00:00:24Несколько инженеров сказали ему, что их работа в корне изменилась с декабря
00:00:282025 года.
00:00:29Так что же на самом деле произошло в декабре 2025-го?
00:00:32Если вкратце, представленная тогда новейшая модель наконец-то готова для выполнения
00:00:37полностью автономных длительных задач.
00:00:38Главная мечта в сфере ИИ всегда заключалась в том, чтобы, пока мы спим, он мог
00:00:43полностью автономно работать над задачами 24/7.
00:00:46Ещё в 2023 году самым популярным проектом, если помните, был AutoGPT.
00:00:50Тогда впервые были представлены подобные системы автономных агентов.
00:00:54У них была довольно базовая архитектура: GPT-4 использовалась как модель для
00:00:59автономного разбиения списка задач на основе целей пользователя с простой памятью
00:01:03для хранения результатов.
00:01:04Люди пробовали безумные вещи, например, ставили цель «заработать 100 000 долларов»
00:01:08и пускали цикл выполнения задач до победного конца.
00:01:11Тогда система просто ломалась и терпела фиаско, потому что модель была не готова.
00:01:15Но с декабря прошлого года ситуация в корне изменилась.
00:01:18Модели стали значительно качественнее, обрели долгосрочную связность
00:01:22и теперь способны справляться с гораздо более масштабными и долгими задачами.
00:01:24И мы увидели самые разные эксперименты в индустрии.
00:01:28Во-первых, с января появилась хайповая концепция «Rough Loop» — самый базовый
00:01:33цикл итерации агента, заставляющий модель работать дольше для решения
00:01:37сложных задач.
00:01:38Мы просто зациклили модель с простыми проверками условий, но уже начали
00:01:42видеть разницу.
00:01:43Неделю спустя Cursor выпустил свой эксперимент, где они использовали GPT-5.2
00:01:49для автономного создания браузера с нуля объемом в 3 миллиона строк кода.
00:01:52Компания Anthropic также опубликовала результаты эксперимента, где команда Claude
00:01:57автономно работала над компилятором C с нуля в течение двух недель.
00:02:01В итоге была представлена рабочая версия без единой строчки кода, написанной вручную.
00:02:05Внутри этого компилятора даже можно запустить Doom.
00:02:08В то же время проект OpenClaude начал привлекать внимание и показал такой взрывной рост,
00:02:13которого мы никогда раньше не видели.
00:02:14Было трудно понять феномен OpenClaude, потому что со стороны
00:02:18его легко принять за очередного ИИ-помощника, который живет в вашем
00:02:23компьютере и доступен через Telegram.
00:02:27Почему же он стал таким популярным?
00:02:29Только попользовавшись им глубже, я осознал, что главное отличие в том, что OpenClaude —
00:02:35это тип всегда активных, долгоиграющих, полностью автономных агентов.
00:02:40Это сильно отличается от прежних систем, где человек был основным двигателем,
00:02:45давая промпты для каждого следующего действия.
00:02:46OpenClaude работает постоянно и действует проактивно.
00:02:49Эта автономность создается довольно простой архитектурой с уровнем контекста памяти,
00:02:53триггерами и cron-задачами для автоматических действий и полным
00:02:58доступом к компьютеру — мощной средой для работы.
00:03:02Я верю, что OpenClaude — первый проект, открывший крупнейшую смену парадигмы
00:03:06в 2026 году: мы переходим от «копайлотов» и простых агентов к долгоживущим
00:03:13полностью автономным системам.
00:03:15К чему-то, что всегда включено, всегда готово и самостоятельно выполняет сложнейшую работу.
00:03:20Это критически важный сдвиг, который нужно осознать.
00:03:22Сегодняшние модели на самом деле мощнее, чем вы думаете, если спроектировать
00:03:27правильную систему для раскрытия их потенциала.
00:03:28И это суть того, о чем я хочу сегодня поговорить.
00:03:30Инженерия обвязки (Harness Engineering) для обеспечения работы автономных систем.
00:03:34Если вы впервые слышите этот термин, то это эволюция того,
00:03:38что мы раньше называли контекст-инженерией или промпт-инженерией.
00:03:41Раньше мы фокусировались на оптимизации промптов в рамках окна контекста,
00:03:46чтобы получить лучший результат от модели за одну сессию цикла агента.
00:03:49Но Harness Engineering сфокусирована на длительных задачах, то есть на том, как
00:03:53спроектировать систему, работающую в разных сессиях и с разными агентами.
00:03:57Как выстроить рабочий процесс, гарантирующий извлечение нужного контекста
00:04:01для каждой сессии, и подобрать инструменты для максимизации отдачи от моделей.
00:04:05Это концепция новая, но индустрия уже выработала
00:04:09лучшие практики от Anthropic, Vercel, LangChain и многих других.
00:04:14Мы разберем их одну за другой, чтобы вы увидели общие паттерны.
00:04:16Но прежде чем углубиться, отмечу: с этим сдвигом к автономным агентам
00:04:21главная возможность на ближайшие 6-12 месяцев — создать OpenClaude для конкретной ниши.
00:04:25Это значит глубоко изучить и понять сквозной рабочий процесс в определенной сфере.
00:04:29И создать автономного агента с нужной средой и инструментами для полной автоматизации.
00:04:34Поэтому я хочу познакомить вас с потрясающим исследованием HubSpot
00:04:39об использовании ИИ в сфере email-маркетинга.
00:04:40Этот отчет поможет понять, где именно люди сегодня
00:04:44используют ИИ в email-маркетинге и где остаются пробелы.
00:04:47Отчет наглядно показывает рабочие процессы и возможности в маркетинге,
00:04:51которые вы потенциально могли бы автоматизировать.
00:04:52Они опросили сотни специалистов из ведущих компаний, чтобы понять,
00:04:57как именно ИИ меняет их работу.
00:04:58Там обсуждается, почему маркетологи всё еще много редактируют вручную,
00:05:03в чем причины этого, а также главные трудности,
00:05:06с которыми они сталкиваются при внедрении ИИ.
00:05:07И каждый такой пункт — это шанс для вас создать полностью автономного агента.
00:05:11Они даже разбирают конкретные KPI, которые важны маркетологам,
00:05:15и где ИИ уже показал доказанные результаты.
00:05:16А также то, чего именно специалисты ждут от искусственного интеллекта.
00:05:20Так что если вы разработчик и думаете над следующим большим продуктом,
00:05:24я очень рекомендую ознакомиться с этим ресурсом.
00:05:27Ссылку на бесплатное скачивание я оставил в описании под видео.
00:05:30И еще раз спасибо HubSpot за спонсорство.
00:05:32Теперь вернемся к Harness Engineering для долгоживущих систем агентов.
00:05:36На высоком уровне я выделил для себя три главных вывода.
00:05:39Первое: для длительных задач критически важно создать
00:05:44«понятную» среду, где каждый субагент или сессия
00:05:49могут четко понять, на каком этапе находятся дела.
00:05:50Скорее всего, потребуются определенные процессы для поддержания прозрачности среды.
00:05:54Я объясню это подробнее чуть позже.
00:05:56Второе: верификация критически важна.
00:05:58Вы можете значительно улучшить результат системы, позволив ей эффективно
00:06:03проверять свою работу с быстрым циклом обратной связи.
00:06:04И третье: нам нужно больше доверять самой модели,
00:06:08вместо того чтобы строить сложные надстройки, преждевременно скрывающие логику.
00:06:11Стоит давать модели максимум контекста и стандартные инструменты, которые она понимает,
00:06:16и позволять ей исследовать всё самостоятельно, как человеку.
00:06:17Теперь разберем эти три пункта по порядку на примерах.
00:06:20Сначала рассмотрим статью Anthropic об эффективной обвязке для долгоиграющих агентов.
00:06:24Они экспериментировали с Claude Code SDK для создания специализированного агента
00:06:29для сверхдлительных задач, например, создания клона сайта cloud.ai.
00:06:32Первые неудачи, которые они заметили: во-первых, агенты склонны делать слишком много сразу.
00:06:37По сути, они всегда пытаются написать все приложение одним махом.
00:06:40Это приводило к тому, что у модели заканчивался контекст посреди реализации,
00:06:45и следующая сессия начиналась с наполовину готовой или недокументированной функции.
00:06:49Агенту приходилось гадать, что произошло на самом деле, и тратить массу времени
00:06:52просто на то, чтобы заставить базовое приложение снова заработать.
00:06:55Вторая проблема: агенты склонны заявлять о выполнении работы преждевременно.
00:07:00Вы наверняка и сами с этим сталкивались.
00:07:02Claude Code или Cursor могут утверждать, что проект или функция готовы.
00:07:05Но когда вы начинаете тестировать, оказывается, что ничего не работает.
00:07:07Их подход к решению этих проблем заключался в следующем: сначала настроить
00:07:12начальную среду, закладывающую фундамент для всех требуемых функций,
00:07:16что настраивает агента на пошаговую работу — функция за функцией.
00:07:20Это похоже на подход с планом или техническим заданием (PRD), который мы обычно используем.
00:07:23Второе: они начали побуждать каждого агента продвигаться к цели постепенно,
00:07:27при этом оставляя среду в чистом состоянии в конце каждой сессии.
00:07:32В итоге они разработали решение из двух частей.
00:07:35У них есть «агент-инициализатор», который по специальному промпту просит
00:07:40модель подготовить среду с помощью скрипта init.sh, который, например,
00:07:45настроит сервер разработки, чтобы следующей модели не нужно было об этом заботиться.
00:07:48Также создается файл progress.txt с логами действий агента и
00:07:53начальный git-коммит, показывающий, какие файлы были добавлены.
00:07:55Затем «кодинг-агент» в каждой последующей сессии делает инкрементальный прогресс
00:08:01и оставляет структурированные обновления.
00:08:02Все эти усилия служат одной цели: создать среду,
00:08:07в которой агенты могут быстро понять состояние дел при запуске
00:08:11с чистым окном контекста.
00:08:13Рабочий процесс таков: агент-инициализатор сначала настраивает среду или
00:08:17систему документации для отслеживания и поддержания общего плана.
00:08:21В спроектированной ими среде есть список функций,
00:08:25чтобы агент не пытался сделать всё сразу и не считал проект законченным раньше времени.
00:08:30Они заставляют агента-инициализатора разбить проект на более чем 200 подзадач
00:08:34и записывать их в локальный JSON-файл примерно такого вида, где у каждой задачи
00:08:39есть детальное описание, а также статус «выполнено» или «провалено».
00:08:41По умолчанию все задачи помечены как проваленные.
00:08:43Это заставляет модель всегда смотреть на общую цель проекта, видеть прогресс,
00:08:49выбирать самую приоритетную задачу и переходить к ней.
00:08:50Но чтобы это работало, им также нужен способ заставить модель оставлять
00:08:55среду в чистом состоянии после внесения правок. В ходе экспериментов выяснилось,
00:08:59что лучший способ — просить модель делать коммит в git с описанием
00:09:05и писать резюме в файл прогресса. Однако одной документации
00:09:08недостаточно, так как модели склонны отмечать задачу
00:09:13как выполненную без должной проверки. Поначалу они просто просили Claude Code
00:09:17всегда проводить тесты после изменений в коде — юнит-тесты или проверку API
00:09:22на сервере разработки.
00:09:23Но это часто не помогало заметить, что функция не работает целиком.
00:09:27Ситуация изменилась, когда они дали модели инструменты для полноценного
00:09:30сквозного (end-to-end) тестирования, такие как Puppeteer MCP или Chrome DevTools,
00:09:35что позволило агенту находить и исправлять баги, не очевидные из самого кода.
00:09:39Таким образом, выстраивается структура: инициализатор разбивает цель
00:09:43на список функций, готовит init.sh для запуска сервера
00:09:47и создает файлы прогресса.
00:09:49Следующий кодинг-агент читает список функций, понимает общий план,
00:09:53берет приоритетную задачу, сверяется с файлом прогресса и логами,
00:09:57чтобы понять текущее положение дел.
00:09:59Затем запускает init.sh для старта сервера и проводит сквозной тест, чтобы убедиться,
00:10:04что среда готова к работе. Это дает полную картину и быструю обратную связь
00:10:09в рамках каждой новой сессии и окна контекста.
00:10:10В блоге OpenAI говорят об очень похожих вещах.
00:10:13Вы должны сделать среду вашего приложения понятной для ИИ.
00:10:16Они превращают весь репозиторий в систему знаний или записей.
00:10:19Сначала они создали гигантский файл agents.md, но это предсказуемо провалилось,
00:10:23так как это слишком много контекста для управления и поддержки одним агентом.
00:10:27Поэтому они разработали структуру документации и использовали agents.md
00:10:32как оглавление.
00:10:33Они настроили систему документов: от архитектуры и дизайна до плана выполнения,
00:10:37схемы БД, спецификаций продукта, фронтенд-плана, безопасности и прочего.
00:10:42И вывели ссылки на них в agents.md, чтобы агент мог извлекать
00:10:47нужную информацию по мере необходимости.
00:10:49Это обеспечивает прогрессивное раскрытие информации. OpenAI пошли еще дальше.
00:10:53Они стараются добавлять не только код, но и Google Docs, сообщения из Slack
00:10:58и прочую фрагментированную информацию, загружая эти данные
00:11:03в репозиторий в виде локальных артефактов.
00:11:04Агент может их извлечь, ведь с его точки зрения, если чего-то
00:11:09нет в доступной среде, то этого не существует вовсе.
00:11:11Но одной документации мало, чтобы код, написанный агентом, оставался связным.
00:11:16Они также внедрили программные процессы для соблюдения инвариантов.
00:11:20Например, они разделяют доменную архитектуру на четкие границы,
00:11:25что позволяет проверять правила с помощью кастомных чеков, линтеров и структурных тестов,
00:11:29которые автоматически запускаются при каждом пре-коммите в git.
00:11:33Обычно такую сложную архитектуру внедряют, когда в компании уже сотни инженеров,
00:11:37но для работы с кодинг-агентами это обязательное условие на ранних этапах.
00:11:41В этих рамках вы даете командам и агентам значительную свободу в реализации решений,
00:11:46не занимаясь микроменеджментом и не боясь, что архитектура «поплывет».
00:11:49Попутно они сильно улучшили саму кодовую базу.
00:11:52Например, сделали приложение запускаемым в отдельных git worktrees, чтобы кодеки
00:11:55могли запускать и управлять множеством инстансов одновременно.
00:11:57И подключили протокол Chrome DevTools к среде выполнения агента,
00:12:01чтобы тот мог воспроизводить баги и проверять правки через скриншоты и DOM.
00:12:05Со всей этой настройкой среды и процессов репозиторий наконец достиг порога,
00:12:09при котором кодеки могут полностью реализовать новую функцию.
00:12:13Теперь, получая промпт, агент начинает с проверки текущего состояния кода,
00:12:17воспроизводит баг, записывает видео с демонстрацией ошибки,
00:12:21внедряет исправление, проверяет его в приложении, записывает второе
00:12:25видео с результатом работы и, наконец, вливает изменения.
00:12:29Эти два примера дают отличные уроки по созданию необходимых систем обвязки
00:12:32для полностью автономной работы.
00:12:34Но есть и другие важные выводы.
00:12:36Часто при создании вертикальных агентов мы стремимся
00:12:40разработать узкоспециализированные инструменты под конкретные задачи.
00:12:43Опыт показывает, что большие языковые модели почти всегда работают лучше со стандартными
00:12:47инструментами, которые они понимают нативно.
00:12:49Vercel опубликовали отличную статью о том, как они переделали своего агента Text-to-SQL.
00:12:53Они месяцами строили сложного внутреннего агента с кучей специальных инструментов,
00:12:58тяжелой промпт-инженерией и тщательным управлением контекстом.
00:13:02Но, как и многие из нас, они обнаружили, что такая система хоть и работает,
00:13:06но очень хрупка, медленна и требует постоянной поддержки.
00:13:09На каждый новый пограничный случай приходилось добавлять новый промпт.
00:13:12Затем они попробовали одну вещь, которая полностью изменила ход событий.
00:13:15Они удалили большинство специальных инструментов, оставив один инструмент пакетных команд.
00:13:20С этой гораздо более простой архитектурой агент стал работать в 3,5 раза быстрее,
00:13:25потребляя на 37% меньше токенов, а успех вырос с 80% до 100%.
00:13:30Похожим опытом поделилась команда Anthropic: вместо набора инструментов для поиска,
00:13:34линтовки и выполнения, они оставили один пакетный инструмент,
00:13:38где можно запускать grep, tail, npm или скрипты проверки.
00:13:41Фундаментально это связано с тем, что большие модели гораздо лучше
00:13:45знакомы со стандартными инструментами кода, на которых обучались,
00:13:49чем с вашим уникальным форматом JSON для вызова функций.
00:13:51Я говорил об этом в видео про программный вызов инструментов на прошлой неделе.
00:13:55Принципы здесь те же: основой простой архитектуры снова является
00:13:59хорошая среда контекста и документации, где модель может использовать
00:14:05стандартные средства для постепенного извлечения данных.
00:14:06То же самое касается и OpenClaude.
00:14:09Одна из причин его успеха — удивительно простая, но эффективная
00:14:13среда контекста.
00:14:15У них есть список документов для хранения ключевой информации. С этим фундаментом
00:14:18им достаточно базовых функций: читать, писать, редактировать файлы, выполнять команды
00:14:23и отправлять сообщения.
00:14:24Всё остальное получается за счет предоставления агенту возможности извлекать контекст
00:14:29и большой библиотеки навыков для расширения возможностей.
00:14:31Итак, вот три практических урока о Harness Engineering для долгоживущих
00:14:35сложных агентов.
00:14:36Настройте понятную среду контекста, чтобы каждая сессия эффективно его получала,
00:14:41выстройте процессы и инструментарий для верификации работы модели,
00:14:46ускорьте обратную связь и доверяйте агенту стандартные инструменты, которые он понимает.
00:14:50Если вам интересно, я подробнее расскажу о том, как превращаю эти уроки
00:14:54в полноценный жизненный цикл разработки.
00:14:58В AI Builder Club у нас есть курсы и воркшопы по «вайб-кодингу» и созданию
00:15:02реальных работающих агентов.
00:15:03Каждую неделю я и приглашенные эксперты делимся свежим практическим опытом.
00:15:08Так что, если хотите быть в курсе того, что я узнаю каждый день,
00:15:12переходите по ссылке ниже и вступайте в сообщество.
00:15:13Надеюсь, видео было вам полезно.
00:15:14Спасибо и до новых встреч!

Key Takeaway

Индустрия переходит от простых ИИ-помощников к долгоживущим автономным системам, успех которых зависит от грамотного проектирования среды (Harness Engineering) и использования стандартных инструментов верификации.

Highlights

В декабре 2025 года произошел качественный скачок в возможностях ИИ, сделавший модели пригодными для полностью автономных длительных задач.

Концепция Harness Engineering (инженерия обвязки) пришла на смену промпт-инженерии, фокусируясь на проектировании систем для работы агентов в разных сессиях.

Проект OpenClaude стал символом перехода от простых «копайлотов» к проактивным, всегда активным автономным системам.

Для успеха автономных агентов критически важна «понятная» среда: использование Git, файлов прогресса (progress.txt) и JSON-списков задач.

Использование стандартных инструментов (CLI, стандартные библиотеки) эффективнее для ИИ, чем создание узкоспециализированных внутренних решений.

Верификация через сквозное тестирование (например, Puppeteer или Chrome DevTools) позволяет агентам самостоятельно находить и исправлять баги.

Timeline

Переломный момент в развитии ИИ: Декабрь 2025

Спикер отмечает, что в декабре 2025 года в сфере ИИ произошли фундаментальные изменения, которые многие пропустили. Ведущие эксперты, такие как Эндрю Капси и Грег из OpenAI, подтверждают качественный скачок в возможностях моделей. Главное достижение этого периода — готовность ИИ к выполнению полностью автономных и длительных задач в режиме 24/7. Это знаменует реализацию давней мечты о системах, способных работать самостоятельно, пока человек спит. Модели стали более связными и способными удерживать контекст на протяжении долгого времени.

Эволюция автономных агентов: от AutoGPT до OpenClaude

Автор сравнивает ранние попытки создания агентов, такие как AutoGPT в 2023 году, с современными экспериментами вроде создания браузера на 3 миллиона строк кода. Опыт Anthropic по автономному написанию компилятора C с нуля демонстрирует невероятную мощь текущих систем. Особое внимание уделяется феномену OpenClaude — проактивному агенту, который постоянно активен и имеет полный доступ к среде компьютера. Этот проект открывает смену парадигмы 2026 года, переводя нас от простых подсказок к полноценным цифровым сотрудникам. Ключевым фактором здесь является проактивность системы, а не ожидание команды от пользователя.

Что такое Harness Engineering и возможности для разработчиков

Вводится понятие Harness Engineering (инженерия обвязки) как эволюция промпт-инженерии, направленная на управление контекстом в долгосрочных задачах. Спикер подчеркивает, что главная возможность на ближайший год — создание нишевых версий OpenClaude для конкретных индустрий. В качестве примера приводится исследование HubSpot об использовании ИИ в email-маркетинге, которое подсвечивает текущие боли специалистов. Разработчикам предлагается искать области, где люди все еще делают много ручной работы, и внедрять там автономных агентов. Понимание KPI и рабочих процессов в конкретной нише становится важнее простого написания кода.

Три столпа эффективной обвязки для автономных систем

Спикер выделяет три ключевых правила для создания работающих автономных систем: прозрачная среда, верификация и доверие к стандартным инструментам. На примере Claude Code SDK разбираются типичные ошибки агентов, такие как попытка сделать все сразу или преждевременные отчеты о готовности. Решением стало разделение ролей на «агента-инициализатора» и «кодинг-агента», работающих через файлы прогресса и git-коммиты. Использование JSON-файлов с детальным списком из сотен подзадач заставляет модель видеть общую картину и приоритеты. Важным элементом становится сквозное тестирование (E2E), которое дает модели реальную обратную связь о работе приложения.

Опыт OpenAI и Vercel: Инфраструктура и стандартные инструменты

OpenAI применяет подход превращения репозитория в систему знаний, используя файл agents.md как оглавление для всей документации. Они внедряют строгие программные процессы, такие как автоматические линтеры и структурные тесты на пре-коммитах, чтобы архитектура не деградировала. Интересный кейс от Vercel показывает, что упрощение архитектуры и отказ от специфических инструментов в пользу стандартных команд ускорили работу в 3,5 раза. Выяснилось, что модели лучше справляются с нативными инструментами, на которых они обучались, чем с кастомными форматами JSON. Успех системы напрямую зависит от того, насколько среда выполнения понятна и привычна для ИИ.

Итоги и практические рекомендации для инженеров

В финальной части видео автор резюмирует уроки Harness Engineering для создания сложных долгоживущих агентов. Необходимо настраивать понятную среду контекста, внедрять инструменты верификации для быстрой обратной связи и не бояться давать агенту стандартные инструменты. Спикер упоминает концепцию «вайб-кодинга» и приглашает в сообщество AI Builder Club для изучения практического опыта. Основной посыл заключается в том, что текущие модели мощнее, чем кажется, если создать для них правильную обвязку. Видео завершается призывом использовать новые подходы для автоматизации реальных бизнес-процессов.

Community Posts

View all posts