Кто такой инженер по жгутам (Harness Engineer) и почему это важно

Русскийالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Спасибо HubSpot за спонсорскую поддержку этого видео.

00:00:03В декабре 2025 года произошло кое-что действительно важное.

00:00:07И большинство людей этого даже не заметили.

00:00:09Эндрю Капси написал об этом в Твиттере на прошлой неделе.

00:00:10«Сложно передать, насколько сильно изменилось программирование из-за ИИ за последние два месяца,

00:00:15особенно с декабря прошлого года».

00:00:17Грег из OpenAI также говорил об этом.

00:00:20С декабря произошли качественные скачки в возможностях моделей и инструментов.

00:00:24Несколько инженеров сказали ему, что их работа в корне изменилась с декабря

00:00:282025 года.

00:00:29Так что же на самом деле произошло в декабре 2025-го?

00:00:32Если вкратце, представленная тогда новейшая модель наконец-то готова для выполнения

00:00:37полностью автономных длительных задач.

00:00:38Главная мечта в сфере ИИ всегда заключалась в том, чтобы, пока мы спим, он мог

00:00:43полностью автономно работать над задачами 24/7.

00:00:46Ещё в 2023 году самым популярным проектом, если помните, был AutoGPT.

00:00:50Тогда впервые были представлены подобные системы автономных агентов.

00:00:54У них была довольно базовая архитектура: GPT-4 использовалась как модель для

00:00:59автономного разбиения списка задач на основе целей пользователя с простой памятью

00:01:03для хранения результатов.

00:01:04Люди пробовали безумные вещи, например, ставили цель «заработать 100 000 долларов»

00:01:08и пускали цикл выполнения задач до победного конца.

00:01:11Тогда система просто ломалась и терпела фиаско, потому что модель была не готова.

00:01:15Но с декабря прошлого года ситуация в корне изменилась.

00:01:18Модели стали значительно качественнее, обрели долгосрочную связность

00:01:22и теперь способны справляться с гораздо более масштабными и долгими задачами.

00:01:24И мы увидели самые разные эксперименты в индустрии.

00:01:28Во-первых, с января появилась хайповая концепция «Rough Loop» — самый базовый

00:01:33цикл итерации агента, заставляющий модель работать дольше для решения

00:01:37сложных задач.

00:01:38Мы просто зациклили модель с простыми проверками условий, но уже начали

00:01:42видеть разницу.

00:01:43Неделю спустя Cursor выпустил свой эксперимент, где они использовали GPT-5.2

00:01:49для автономного создания браузера с нуля объемом в 3 миллиона строк кода.

00:01:52Компания Anthropic также опубликовала результаты эксперимента, где команда Claude

00:01:57автономно работала над компилятором C с нуля в течение двух недель.

00:02:01В итоге была представлена рабочая версия без единой строчки кода, написанной вручную.

00:02:05Внутри этого компилятора даже можно запустить Doom.

00:02:08В то же время проект OpenClaude начал привлекать внимание и показал такой взрывной рост,

00:02:13которого мы никогда раньше не видели.

00:02:14Было трудно понять феномен OpenClaude, потому что со стороны

00:02:18его легко принять за очередного ИИ-помощника, который живет в вашем

00:02:23компьютере и доступен через Telegram.

00:02:27Почему же он стал таким популярным?

00:02:29Только попользовавшись им глубже, я осознал, что главное отличие в том, что OpenClaude —

00:02:35это тип всегда активных, долгоиграющих, полностью автономных агентов.

00:02:40Это сильно отличается от прежних систем, где человек был основным двигателем,

00:02:45давая промпты для каждого следующего действия.

00:02:46OpenClaude работает постоянно и действует проактивно.

00:02:49Эта автономность создается довольно простой архитектурой с уровнем контекста памяти,

00:02:53триггерами и cron-задачами для автоматических действий и полным

00:02:58доступом к компьютеру — мощной средой для работы.

00:03:02Я верю, что OpenClaude — первый проект, открывший крупнейшую смену парадигмы

00:03:06в 2026 году: мы переходим от «копайлотов» и простых агентов к долгоживущим

00:03:13полностью автономным системам.

00:03:15К чему-то, что всегда включено, всегда готово и самостоятельно выполняет сложнейшую работу.

00:03:20Это критически важный сдвиг, который нужно осознать.

00:03:22Сегодняшние модели на самом деле мощнее, чем вы думаете, если спроектировать

00:03:27правильную систему для раскрытия их потенциала.

00:03:28И это суть того, о чем я хочу сегодня поговорить.

00:03:30Инженерия обвязки (Harness Engineering) для обеспечения работы автономных систем.

00:03:34Если вы впервые слышите этот термин, то это эволюция того,

00:03:38что мы раньше называли контекст-инженерией или промпт-инженерией.

00:03:41Раньше мы фокусировались на оптимизации промптов в рамках окна контекста,

00:03:46чтобы получить лучший результат от модели за одну сессию цикла агента.

00:03:49Но Harness Engineering сфокусирована на длительных задачах, то есть на том, как

00:03:53спроектировать систему, работающую в разных сессиях и с разными агентами.

00:03:57Как выстроить рабочий процесс, гарантирующий извлечение нужного контекста

00:04:01для каждой сессии, и подобрать инструменты для максимизации отдачи от моделей.

00:04:05Это концепция новая, но индустрия уже выработала

00:04:09лучшие практики от Anthropic, Vercel, LangChain и многих других.

00:04:14Мы разберем их одну за другой, чтобы вы увидели общие паттерны.

00:04:16Но прежде чем углубиться, отмечу: с этим сдвигом к автономным агентам

00:04:21главная возможность на ближайшие 6-12 месяцев — создать OpenClaude для конкретной ниши.

00:04:25Это значит глубоко изучить и понять сквозной рабочий процесс в определенной сфере.

00:04:29И создать автономного агента с нужной средой и инструментами для полной автоматизации.

00:04:34Поэтому я хочу познакомить вас с потрясающим исследованием HubSpot

00:04:39об использовании ИИ в сфере email-маркетинга.

00:04:40Этот отчет поможет понять, где именно люди сегодня

00:04:44используют ИИ в email-маркетинге и где остаются пробелы.

00:04:47Отчет наглядно показывает рабочие процессы и возможности в маркетинге,

00:04:51которые вы потенциально могли бы автоматизировать.

00:04:52Они опросили сотни специалистов из ведущих компаний, чтобы понять,

00:04:57как именно ИИ меняет их работу.

00:04:58Там обсуждается, почему маркетологи всё еще много редактируют вручную,

00:05:03в чем причины этого, а также главные трудности,

00:05:06с которыми они сталкиваются при внедрении ИИ.

00:05:07И каждый такой пункт — это шанс для вас создать полностью автономного агента.

00:05:11Они даже разбирают конкретные KPI, которые важны маркетологам,

00:05:15и где ИИ уже показал доказанные результаты.

00:05:16А также то, чего именно специалисты ждут от искусственного интеллекта.

00:05:20Так что если вы разработчик и думаете над следующим большим продуктом,

00:05:24я очень рекомендую ознакомиться с этим ресурсом.

00:05:27Ссылку на бесплатное скачивание я оставил в описании под видео.

00:05:30И еще раз спасибо HubSpot за спонсорство.

00:05:32Теперь вернемся к Harness Engineering для долгоживущих систем агентов.

00:05:36На высоком уровне я выделил для себя три главных вывода.

00:05:39Первое: для длительных задач критически важно создать

00:05:44«понятную» среду, где каждый субагент или сессия

00:05:49могут четко понять, на каком этапе находятся дела.

00:05:50Скорее всего, потребуются определенные процессы для поддержания прозрачности среды.

00:05:54Я объясню это подробнее чуть позже.

00:05:56Второе: верификация критически важна.

00:05:58Вы можете значительно улучшить результат системы, позволив ей эффективно

00:06:03проверять свою работу с быстрым циклом обратной связи.

00:06:04И третье: нам нужно больше доверять самой модели,

00:06:08вместо того чтобы строить сложные надстройки, преждевременно скрывающие логику.

00:06:11Стоит давать модели максимум контекста и стандартные инструменты, которые она понимает,

00:06:16и позволять ей исследовать всё самостоятельно, как человеку.

00:06:17Теперь разберем эти три пункта по порядку на примерах.

00:06:20Сначала рассмотрим статью Anthropic об эффективной обвязке для долгоиграющих агентов.

00:06:24Они экспериментировали с Claude Code SDK для создания специализированного агента

00:06:29для сверхдлительных задач, например, создания клона сайта cloud.ai.

00:06:32Первые неудачи, которые они заметили: во-первых, агенты склонны делать слишком много сразу.

00:06:37По сути, они всегда пытаются написать все приложение одним махом.

00:06:40Это приводило к тому, что у модели заканчивался контекст посреди реализации,

00:06:45и следующая сессия начиналась с наполовину готовой или недокументированной функции.

00:06:49Агенту приходилось гадать, что произошло на самом деле, и тратить массу времени

00:06:52просто на то, чтобы заставить базовое приложение снова заработать.

00:06:55Вторая проблема: агенты склонны заявлять о выполнении работы преждевременно.

00:07:00Вы наверняка и сами с этим сталкивались.

00:07:02Claude Code или Cursor могут утверждать, что проект или функция готовы.

00:07:05Но когда вы начинаете тестировать, оказывается, что ничего не работает.

00:07:07Их подход к решению этих проблем заключался в следующем: сначала настроить

00:07:12начальную среду, закладывающую фундамент для всех требуемых функций,

00:07:16что настраивает агента на пошаговую работу — функция за функцией.

00:07:20Это похоже на подход с планом или техническим заданием (PRD), который мы обычно используем.

00:07:23Второе: они начали побуждать каждого агента продвигаться к цели постепенно,

00:07:27при этом оставляя среду в чистом состоянии в конце каждой сессии.

00:07:32В итоге они разработали решение из двух частей.

00:07:35У них есть «агент-инициализатор», который по специальному промпту просит

00:07:40модель подготовить среду с помощью скрипта init.sh, который, например,

00:07:45настроит сервер разработки, чтобы следующей модели не нужно было об этом заботиться.

00:07:48Также создается файл progress.txt с логами действий агента и

00:07:53начальный git-коммит, показывающий, какие файлы были добавлены.

00:07:55Затем «кодинг-агент» в каждой последующей сессии делает инкрементальный прогресс

00:08:01и оставляет структурированные обновления.

00:08:02Все эти усилия служат одной цели: создать среду,

00:08:07в которой агенты могут быстро понять состояние дел при запуске

00:08:11с чистым окном контекста.

00:08:13Рабочий процесс таков: агент-инициализатор сначала настраивает среду или

00:08:17систему документации для отслеживания и поддержания общего плана.

00:08:21В спроектированной ими среде есть список функций,

00:08:25чтобы агент не пытался сделать всё сразу и не считал проект законченным раньше времени.

00:08:30Они заставляют агента-инициализатора разбить проект на более чем 200 подзадач

00:08:34и записывать их в локальный JSON-файл примерно такого вида, где у каждой задачи

00:08:39есть детальное описание, а также статус «выполнено» или «провалено».

00:08:41По умолчанию все задачи помечены как проваленные.

00:08:43Это заставляет модель всегда смотреть на общую цель проекта, видеть прогресс,

00:08:49выбирать самую приоритетную задачу и переходить к ней.

00:08:50Но чтобы это работало, им также нужен способ заставить модель оставлять

00:08:55среду в чистом состоянии после внесения правок. В ходе экспериментов выяснилось,

00:08:59что лучший способ — просить модель делать коммит в git с описанием

00:09:05и писать резюме в файл прогресса. Однако одной документации

00:09:08недостаточно, так как модели склонны отмечать задачу

00:09:13как выполненную без должной проверки. Поначалу они просто просили Claude Code

00:09:17всегда проводить тесты после изменений в коде — юнит-тесты или проверку API

00:09:22на сервере разработки.

00:09:23Но это часто не помогало заметить, что функция не работает целиком.

00:09:27Ситуация изменилась, когда они дали модели инструменты для полноценного

00:09:30сквозного (end-to-end) тестирования, такие как Puppeteer MCP или Chrome DevTools,

00:09:35что позволило агенту находить и исправлять баги, не очевидные из самого кода.

00:09:39Таким образом, выстраивается структура: инициализатор разбивает цель

00:09:43на список функций, готовит init.sh для запуска сервера

00:09:47и создает файлы прогресса.

00:09:49Следующий кодинг-агент читает список функций, понимает общий план,

00:09:53берет приоритетную задачу, сверяется с файлом прогресса и логами,

00:09:57чтобы понять текущее положение дел.

00:09:59Затем запускает init.sh для старта сервера и проводит сквозной тест, чтобы убедиться,

00:10:04что среда готова к работе. Это дает полную картину и быструю обратную связь

00:10:09в рамках каждой новой сессии и окна контекста.

00:10:10В блоге OpenAI говорят об очень похожих вещах.

00:10:13Вы должны сделать среду вашего приложения понятной для ИИ.

00:10:16Они превращают весь репозиторий в систему знаний или записей.

00:10:19Сначала они создали гигантский файл agents.md, но это предсказуемо провалилось,

00:10:23так как это слишком много контекста для управления и поддержки одним агентом.

00:10:27Поэтому они разработали структуру документации и использовали agents.md

00:10:32как оглавление.

00:10:33Они настроили систему документов: от архитектуры и дизайна до плана выполнения,

00:10:37схемы БД, спецификаций продукта, фронтенд-плана, безопасности и прочего.

00:10:42И вывели ссылки на них в agents.md, чтобы агент мог извлекать

00:10:47нужную информацию по мере необходимости.

00:10:49Это обеспечивает прогрессивное раскрытие информации. OpenAI пошли еще дальше.

00:10:53Они стараются добавлять не только код, но и Google Docs, сообщения из Slack

00:10:58и прочую фрагментированную информацию, загружая эти данные

00:11:03в репозиторий в виде локальных артефактов.

00:11:04Агент может их извлечь, ведь с его точки зрения, если чего-то

00:11:09нет в доступной среде, то этого не существует вовсе.

00:11:11Но одной документации мало, чтобы код, написанный агентом, оставался связным.

00:11:16Они также внедрили программные процессы для соблюдения инвариантов.

00:11:20Например, они разделяют доменную архитектуру на четкие границы,

00:11:25что позволяет проверять правила с помощью кастомных чеков, линтеров и структурных тестов,

00:11:29которые автоматически запускаются при каждом пре-коммите в git.

00:11:33Обычно такую сложную архитектуру внедряют, когда в компании уже сотни инженеров,

00:11:37но для работы с кодинг-агентами это обязательное условие на ранних этапах.

00:11:41В этих рамках вы даете командам и агентам значительную свободу в реализации решений,

00:11:46не занимаясь микроменеджментом и не боясь, что архитектура «поплывет».

00:11:49Попутно они сильно улучшили саму кодовую базу.

00:11:52Например, сделали приложение запускаемым в отдельных git worktrees, чтобы кодеки

00:11:55могли запускать и управлять множеством инстансов одновременно.

00:11:57И подключили протокол Chrome DevTools к среде выполнения агента,

00:12:01чтобы тот мог воспроизводить баги и проверять правки через скриншоты и DOM.

00:12:05Со всей этой настройкой среды и процессов репозиторий наконец достиг порога,

00:12:09при котором кодеки могут полностью реализовать новую функцию.

00:12:13Теперь, получая промпт, агент начинает с проверки текущего состояния кода,

00:12:17воспроизводит баг, записывает видео с демонстрацией ошибки,

00:12:21внедряет исправление, проверяет его в приложении, записывает второе

00:12:25видео с результатом работы и, наконец, вливает изменения.

00:12:29Эти два примера дают отличные уроки по созданию необходимых систем обвязки

00:12:32для полностью автономной работы.

00:12:34Но есть и другие важные выводы.

00:12:36Часто при создании вертикальных агентов мы стремимся

00:12:40разработать узкоспециализированные инструменты под конкретные задачи.

00:12:43Опыт показывает, что большие языковые модели почти всегда работают лучше со стандартными

00:12:47инструментами, которые они понимают нативно.

00:12:49Vercel опубликовали отличную статью о том, как они переделали своего агента Text-to-SQL.

00:12:53Они месяцами строили сложного внутреннего агента с кучей специальных инструментов,

00:12:58тяжелой промпт-инженерией и тщательным управлением контекстом.

00:13:02Но, как и многие из нас, они обнаружили, что такая система хоть и работает,

00:13:06но очень хрупка, медленна и требует постоянной поддержки.

00:13:09На каждый новый пограничный случай приходилось добавлять новый промпт.

00:13:12Затем они попробовали одну вещь, которая полностью изменила ход событий.

00:13:15Они удалили большинство специальных инструментов, оставив один инструмент пакетных команд.

00:13:20С этой гораздо более простой архитектурой агент стал работать в 3,5 раза быстрее,

00:13:25потребляя на 37% меньше токенов, а успех вырос с 80% до 100%.

00:13:30Похожим опытом поделилась команда Anthropic: вместо набора инструментов для поиска,

00:13:34линтовки и выполнения, они оставили один пакетный инструмент,

00:13:38где можно запускать grep, tail, npm или скрипты проверки.

00:13:41Фундаментально это связано с тем, что большие модели гораздо лучше

00:13:45знакомы со стандартными инструментами кода, на которых обучались,

00:13:49чем с вашим уникальным форматом JSON для вызова функций.

00:13:51Я говорил об этом в видео про программный вызов инструментов на прошлой неделе.

00:13:55Принципы здесь те же: основой простой архитектуры снова является

00:13:59хорошая среда контекста и документации, где модель может использовать

00:14:05стандартные средства для постепенного извлечения данных.

00:14:06То же самое касается и OpenClaude.

00:14:09Одна из причин его успеха — удивительно простая, но эффективная

00:14:13среда контекста.

00:14:15У них есть список документов для хранения ключевой информации. С этим фундаментом

00:14:18им достаточно базовых функций: читать, писать, редактировать файлы, выполнять команды

00:14:23и отправлять сообщения.

00:14:24Всё остальное получается за счет предоставления агенту возможности извлекать контекст

00:14:29и большой библиотеки навыков для расширения возможностей.

00:14:31Итак, вот три практических урока о Harness Engineering для долгоживущих

00:14:35сложных агентов.

00:14:36Настройте понятную среду контекста, чтобы каждая сессия эффективно его получала,

00:14:41выстройте процессы и инструментарий для верификации работы модели,

00:14:46ускорьте обратную связь и доверяйте агенту стандартные инструменты, которые он понимает.

00:14:50Если вам интересно, я подробнее расскажу о том, как превращаю эти уроки

00:14:54в полноценный жизненный цикл разработки.

00:14:58В AI Builder Club у нас есть курсы и воркшопы по «вайб-кодингу» и созданию

00:15:02реальных работающих агентов.

00:15:03Каждую неделю я и приглашенные эксперты делимся свежим практическим опытом.

00:15:08Так что, если хотите быть в курсе того, что я узнаю каждый день,

00:15:12переходите по ссылке ниже и вступайте в сообщество.

00:15:13Надеюсь, видео было вам полезно.

00:15:14Спасибо и до новых встреч!

Key Takeaway

Индустрия переходит от простых ИИ-помощников к долгоживущим автономным системам, успех которых зависит от грамотного проектирования среды (Harness Engineering) и использования стандартных инструментов верификации.

Highlights

В декабре 2025 года произошел качественный скачок в возможностях ИИ, сделавший модели пригодными для полностью автономных длительных задач.

Концепция Harness Engineering (инженерия обвязки) пришла на смену промпт-инженерии, фокусируясь на проектировании систем для работы агентов в разных сессиях.

Проект OpenClaude стал символом перехода от простых «копайлотов» к проактивным, всегда активным автономным системам.

Для успеха автономных агентов критически важна «понятная» среда: использование Git, файлов прогресса (progress.txt) и JSON-списков задач.

Использование стандартных инструментов (CLI, стандартные библиотеки) эффективнее для ИИ, чем создание узкоспециализированных внутренних решений.

Верификация через сквозное тестирование (например, Puppeteer или Chrome DevTools) позволяет агентам самостоятельно находить и исправлять баги.

Timeline

Переломный момент в развитии ИИ: Декабрь 2025

Спикер отмечает, что в декабре 2025 года в сфере ИИ произошли фундаментальные изменения, которые многие пропустили. Ведущие эксперты, такие как Эндрю Капси и Грег из OpenAI, подтверждают качественный скачок в возможностях моделей. Главное достижение этого периода — готовность ИИ к выполнению полностью автономных и длительных задач в режиме 24/7. Это знаменует реализацию давней мечты о системах, способных работать самостоятельно, пока человек спит. Модели стали более связными и способными удерживать контекст на протяжении долгого времени.

Эволюция автономных агентов: от AutoGPT до OpenClaude

Автор сравнивает ранние попытки создания агентов, такие как AutoGPT в 2023 году, с современными экспериментами вроде создания браузера на 3 миллиона строк кода. Опыт Anthropic по автономному написанию компилятора C с нуля демонстрирует невероятную мощь текущих систем. Особое внимание уделяется феномену OpenClaude — проактивному агенту, который постоянно активен и имеет полный доступ к среде компьютера. Этот проект открывает смену парадигмы 2026 года, переводя нас от простых подсказок к полноценным цифровым сотрудникам. Ключевым фактором здесь является проактивность системы, а не ожидание команды от пользователя.

Что такое Harness Engineering и возможности для разработчиков

Вводится понятие Harness Engineering (инженерия обвязки) как эволюция промпт-инженерии, направленная на управление контекстом в долгосрочных задачах. Спикер подчеркивает, что главная возможность на ближайший год — создание нишевых версий OpenClaude для конкретных индустрий. В качестве примера приводится исследование HubSpot об использовании ИИ в email-маркетинге, которое подсвечивает текущие боли специалистов. Разработчикам предлагается искать области, где люди все еще делают много ручной работы, и внедрять там автономных агентов. Понимание KPI и рабочих процессов в конкретной нише становится важнее простого написания кода.

Три столпа эффективной обвязки для автономных систем

Спикер выделяет три ключевых правила для создания работающих автономных систем: прозрачная среда, верификация и доверие к стандартным инструментам. На примере Claude Code SDK разбираются типичные ошибки агентов, такие как попытка сделать все сразу или преждевременные отчеты о готовности. Решением стало разделение ролей на «агента-инициализатора» и «кодинг-агента», работающих через файлы прогресса и git-коммиты. Использование JSON-файлов с детальным списком из сотен подзадач заставляет модель видеть общую картину и приоритеты. Важным элементом становится сквозное тестирование (E2E), которое дает модели реальную обратную связь о работе приложения.

Опыт OpenAI и Vercel: Инфраструктура и стандартные инструменты

OpenAI применяет подход превращения репозитория в систему знаний, используя файл agents.md как оглавление для всей документации. Они внедряют строгие программные процессы, такие как автоматические линтеры и структурные тесты на пре-коммитах, чтобы архитектура не деградировала. Интересный кейс от Vercel показывает, что упрощение архитектуры и отказ от специфических инструментов в пользу стандартных команд ускорили работу в 3,5 раза. Выяснилось, что модели лучше справляются с нативными инструментами, на которых они обучались, чем с кастомными форматами JSON. Успех системы напрямую зависит от того, насколько среда выполнения понятна и привычна для ИИ.

Итоги и практические рекомендации для инженеров

В финальной части видео автор резюмирует уроки Harness Engineering для создания сложных долгоживущих агентов. Необходимо настраивать понятную среду контекста, внедрять инструменты верификации для быстрой обратной связи и не бояться давать агенту стандартные инструменты. Спикер упоминает концепцию «вайб-кодинга» и приглашает в сообщество AI Builder Club для изучения практического опыта. Основной посыл заключается в том, что текущие модели мощнее, чем кажется, если создать для них правильную обвязку. Видео завершается призывом использовать новые подходы для автоматизации реальных бизнес-процессов.

Community Posts

Ловушка автономного ИИ: как проектировать системную архитектуру за пределами простых промптов

makedream20 мар. 2026 г.3420

Write about this video