Инженерный харнесс: навык, который определит 2026 год для соло-разработчиков

SSolo Swift Crafter
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Так, ладно.
00:00:02Какая ИИ-модель сейчас лучшая?
00:00:04Claude, GPT, Gemini.
00:00:07И, честно говоря, я думаю, что это неправильный вопрос.
00:00:11Прямо совсем неправильный вопрос.
00:00:14Коротко о себе: я Даниэль.
00:00:16Я плотно занимаюсь iOS-разработкой уже больше восьми лет.
00:00:20Начинал с фриланса, проектировал интерфейсы,
00:00:24прыгал от клиента к клиенту,
00:00:25запускал чужие идеи,
00:00:27параллельно пытаясь придумать свои.
00:00:28А после WWDC 2025 я просто ушел в свободное плавание.
00:00:33Никаких клиентов, никакой страховки.
00:00:36С тех пор я создал более 15 собственных приложений,
00:00:39все на SwiftUI, и всё это — в публичном доступе.
00:00:41И сейчас, честно, каждую каплю своей энергии
00:00:44я вкладываю в то, чтобы эта соло-студия
00:00:46стала чем-то действительно долговечным.
00:00:49Не очередной пачкой быстрых MVP или ИИ-шлака,
00:00:52а настоящими приложениями, которые выдерживают масштабирование.
00:00:55И да, весь этот процесс,
00:00:57весь этот тернистый путь живет на crafterslab.
00:01:00Адрес — crafterslab.dev,
00:01:01и это не какое-то кладбище туториалов или фабрика ИИ-клонов.
00:01:06Это по-настоящему моя база,
00:01:08созданная для соло-разработчиков, которые используют ИИ как полноценного напарника.
00:01:12А не как торговый автомат, который ты пинаешь, когда застрял,
00:01:14надеясь на лучший результат.
00:01:16Если вам важен профессионализм,
00:01:18если вы серьезно настроены расти
00:01:20и строить вещи, которые действительно прослужат долго,
00:01:23то вы почувствуете себя как дома.
00:01:24И, кстати, если вы всё еще на Patreon —
00:01:26огромное спасибо, но имейте в виду:
00:01:29всё переехало на crafterslab.dev.
00:01:32Вся команда теперь там.
00:01:33Приходите строить вместе с нами.
00:01:35Так вот, что натолкнуло меня на эти мысли.
00:01:38Недавно вышло одно исследование.
00:01:41Исследователи опубликовали бенчмарк под названием Epic's Agent.
00:01:45И его отличие от всех остальных тестов,
00:01:49из-за которых люди спорят в сети,
00:01:51в том, что он тестирует агентов на реальной профессиональной работе,
00:01:55а не на задачках по кодингу или тестах с вариантами ответов.
00:01:58Речь идет о реальных задачах, которые консультанты, юристы
00:02:03и аналитики выполняют ежедневно.
00:02:05Каждая такая задача занимает у человека от часа до двух.
00:02:08Они прогнали через этот тест все основные передовые модели.
00:02:11Лучшая из них справилась с заданиями
00:02:13примерно в 24% случаев — то есть одна из четырех.
00:02:17И даже после восьми попыток с той же моделью
00:02:20показатель вырос всего лишь до 40%.
00:02:23Заметьте, это те же самые модели,
00:02:26которые набирают выше 90% в бенчмарках,
00:02:29от которых все сходят в ума.
00:02:32Значит, либо те тесты врут,
00:02:33либо мы измеряем не то.
00:02:36И я думаю, дело во втором, верно?
00:02:37Но вот где начинается самое интересное для нас.
00:02:41Исследователи детально изучили, почему агенты терпят неудачу.
00:02:46И ответ был не в том, что модели глупые.
00:02:49У них были все необходимые знания.
00:02:51Они прекрасно могли логически рассуждать.
00:02:54Провалы почти полностью
00:02:56касались исполнения и координации.
00:03:00Агенты терялись после слишком большого количества шагов.
00:03:02Они возвращались к подходам, которые уже не сработали.
00:03:05Они просто теряли нить того,
00:03:09что они вообще должны были делать изначально.
00:03:11И если вы соло-разработчик, использующий Claude Code
00:03:14или Cursor каждый день, вы понимаете, о чем я.
00:03:18Вы видели, как агент идет по кругу, пытаясь трижды
00:03:21сделать одну и ту же неработающую вещь,
00:03:23полностью забывая контекст 20-шаговой давности.
00:03:26И вы сидите и думаете:
00:03:28«Может, мне стоит перейти на Opus?»
00:03:30«Может, нужен другой провайдер?»
00:03:32Но данные говорят, что причина не в этом.
00:03:34Модель — не «узкое горлышко».
00:03:36Проблема во всем, что её окружает.
00:03:38Для этого есть специальное слово.
00:03:40И я думаю, оно определит 2026 год
00:03:43так же, как агенты определили 2025-й.
00:03:46Это слово — «обвязка» (harness).
00:03:47Обвязка агента включает в себя всю инфраструктуру вокруг модели:
00:03:50что она видит,
00:03:52какие инструменты ей доступны,
00:03:54как она восстанавливается, когда всё идет не так,
00:03:56и как она отслеживает свои действия на протяжении долгой сессии.
00:03:59OpenAI буквально опубликовали пост в блоге
00:04:02под названием «Инженерия обвязки» (Harness Engineering).
00:04:04Anthropic выпустили целое руководство по созданию эффективных
00:04:07обвязок для долгоживущих агентов.
00:04:09Manus, ИИ-компания, которую только что купила Meta,
00:04:13опубликовала свои уроки по контекстной инженерии
00:04:16после того, как они пересобрали свой фреймворк для агентов
00:04:19пять раз за шесть месяцев. Пять раз.
00:04:22И все они говорят об одном и том же.
00:04:24Настоящая инженерная работа — это обвязка,
00:04:27а не сама модель.
00:04:28Хорошо. И вот часть, которая меня искренне удивила,
00:04:32потому что она полностью противоречит тому,
00:04:34как большинство из нас представляет работу с этими инструментами.
00:04:38Есть такая история от Vercel.
00:04:41У них был агент «текст-в-SQL».
00:04:43Вы задаете вопрос, он пишет SQL-запрос.
00:04:46И они построили его так, как обычно строят агентов, да?
00:04:49Дали ему кучу специализированных инструментов:
00:04:51один для понимания схемы базы данных,
00:04:54другой для написания запросов, третий для проверки результатов.
00:04:58Окружили всё это сложной обработкой ошибок —
00:05:01и это работало примерно в 80% случаев.
00:05:04Затем они попробовали нечто радикальное.
00:05:06Они убрали 80% инструментов, просто выкинули их,
00:05:11дали агенту базовые вещи: запускать bash-команды, читать файлы,
00:05:15стандартные консольные утилиты вроде grep и cat —
00:05:18то есть то, чем пользовались бы мы с вами.
00:05:20И точность подскочила с 80% до 100%.
00:05:25Он стал тратить на 40% меньше токенов
00:05:28и работать в три с половиной раза быстрее.
00:05:31Не буду врать, это звучит дико, правда?
00:05:33И инженер, который это создал, сказал фразу,
00:05:36которая мне очень запомнилась.
00:05:38Модели становятся умнее.
00:05:40Окна контекста становятся больше.
00:05:42Так что, возможно, лучшая архитектура агента —
00:05:44это когда архитектуры почти нет.
00:05:46И это просто всё переворачивает, понимаете?
00:05:50Потому что инстинктивно, особенно когда ты один
00:05:54и пытаешься сделать систему надежной,
00:05:57хочется добавлять больше инструментов, больше ограничений,
00:06:01больше логики маршрутизации.
00:06:02Кажется, что структура поможет,
00:06:04но эти инструменты не помогали модели.
00:06:06Они ей мешали.
00:06:08И это не единичный случай.
00:06:10Manus пришли к тому же самому выводу.
00:06:13Они пересобирали свой фреймворк для агентов
00:06:16пять раз за полгода,
00:06:19и самые большие скачки производительности
00:06:21пришли не от добавления функций.
00:06:23Они пришли от их удаления.
00:06:25Они вырезали сложный поиск по документам,
00:06:28убрали заумную логику маршрутизации,
00:06:29заменили «агентов-менеджеров» простой структурированной передачей задач.
00:06:34С каждой итерацией система становилась проще и лучше.
00:06:37И вот что, по моему мнению, должен услышать каждый соло-разработчик,
00:06:40проводящий долгие сессии в Claude Code.
00:06:42Manus обнаружили, что их агент в среднем
00:06:45делал около 50 вызовов инструментов на задачу.
00:06:49Это очень много шагов.
00:06:50И даже у моделей, которые технически поддерживают
00:06:53огромные окна контекста,
00:06:54после определенного момента производительность падает.
00:06:58Модель не забывает всё в один миг.
00:07:01Это скорее похоже на то, как сигнал тонет в шуме.
00:07:04Важные инструкции из начала сессии
00:07:07теряются под сотнями промежуточных результатов.
00:07:10Их решение было предельно простым.
00:07:12Они начали использовать файловую систему
00:07:14как внешнюю память модели.
00:07:17Вместо того чтобы запихивать всё в окно контекста,
00:07:20агент записывает ключевую информацию в файл
00:07:23и перечитывает его при необходимости.
00:07:25И да, если вы используете Claude Code,
00:07:27вы буквально это видели.
00:07:29Файлы CLAUDE.md, списки дел, отслеживание прогресса —
00:07:34это именно тот паттерн, который разыгрывается
00:07:36в вашем терминале каждый день.
00:07:37Помните, я говорил о том,
00:07:40что все сходятся к одной и той же идее?
00:07:44Потому что если посмотреть
00:07:45на три самые успешные агентские системы сейчас,
00:07:49они все пришли к одному и тому же,
00:07:51двигаясь с разных сторон.
00:07:53Codex от OpenAI использует многослойный подход.
00:07:57Оркестратор, который планирует,
00:07:59исполнитель для отдельных задач
00:08:02и слой восстановления для обработки сбоев.
00:08:06Это надежно.
00:08:07Можно дать задачу и уйти. Это одна философия.
00:08:09Claude Code — я пользуюсь им ежедневно.
00:08:10Его ядро — это буквально всего четыре инструмента:
00:08:14прочитать файл, записать в файл, отредактировать файл,
00:08:16запустить bash-команду. Всё.
00:08:19Весь интеллект в основном в самой модели.
00:08:21Обвязка остается минимальной.
00:08:23А когда нужно больше, расширяемость идет через MCP
00:08:25и навыки, которые агент осваивает по мере надобности.
00:08:28А Manus пришли к тому, что я бы назвал
00:08:30«сокращай, выгружай, изолируй»: активно уменьшать контекст,
00:08:33использовать файловую систему для памяти,
00:08:38запускать субагентов для тяжелых задач
00:08:40и возвращать только краткое резюме.
00:08:43Три совершенно разных подхода,
00:08:45но все сошлись в одном выводе:
00:08:47Обвязка важнее, чем модель.
00:08:50И для соло-разработчиков
00:08:52это меняет представление о том,
00:08:55на что на самом деле стоит тратить время.
00:08:57стоит тратить свое время.
00:08:59Ведь у нас нет бесконечного количества часов.
00:09:01Каждый час, проведенный на Reddit в спорах
00:09:05о Claude против GPT — это час, когда вы не создаете продукт.
00:09:08И есть одна идея Ричарда Саттона,
00:09:11одного из создателей обучения с подкреплением,
00:09:14называемая "горьким уроком".
00:09:16Ее суть в том, что
00:09:18подходы, которые масштабируются вместе с вычислениями,
00:09:21всегда в итоге побеждают подходы,
00:09:23основанные на ручном проектировании знаний,
00:09:26применительно к тому, что мы делаем.
00:09:27Это означает нечто очень конкретное.
00:09:29По мере того как модели становятся умнее,
00:09:31ваша обвязка должна становиться проще,
00:09:33а не сложнее.
00:09:34Если вы добавляете больше кода в логику,
00:09:36больше кастомных конвейеров с каждым обновлением модели,
00:09:40вы плывете против течения.
00:09:42И, честно говоря, это избыточное проектирование
00:09:44наверняка и есть причина, почему ваш агент постоянно ломается.
00:09:47Вот что я бы попробовал на самом деле.
00:09:49Во-первых, проведите эксперимент Vercel сами.
00:09:52Если у вас есть какая-то настройка агента,
00:09:54сократите ее, уберите специализированные инструменты,
00:09:57дайте ему терминал bash и базовый доступ к файлам
00:10:00и просто посмотрите, что произойдет.
00:10:02Модель, скорее всего, умнее,
00:10:03чем конвейер инструментов, который вы построили вокруг нее.
00:10:06Во-вторых, добавьте файл прогресса.
00:10:08Пусть ваш агент ведет текущий список дел,
00:10:10который он обновляет после каждого шага.
00:10:13Он читает файл в начале каждого действия
00:10:15и записывает в него в конце.
00:10:17Именно так работает Claude Code
00:10:19с этими Markdown-файлами.
00:10:20И к этой же схеме пришел Маниш
00:10:22после пяти полных переписываний кода.
00:10:24У меня даже есть целая система для этого,
00:10:26настроенная в лаборатории со всеми инструкциями для агентов
00:10:29и .md-шаблонами, готовыми к работе, если вам интересно.
00:10:33И в-третьих, начните изучать MCP и навыки.
00:10:37Они дают модели чистые, стандартизированные способы
00:10:40работы с внешними инструментами
00:10:42без необходимости жестко кодировать каждую интеграцию.
00:10:44Именно там сейчас живет расширяемость.
00:10:462025 год был годом агентов.
00:10:50И по большей части — да, так и было.
00:10:53Но 2026-й, я думаю, станет годом обвязок,
00:10:58потому что одна и та же модель — абсолютно та же самая —
00:11:03ведет себя совершенно иначе в Claude Code
00:11:06по сравнению с Cursor или Codeium.
00:11:08Так что выбирайте свою обвязку осторожно,
00:11:11используете ли вы кодинг-агента или создаете его.
00:11:14И да, если вы все еще здесь,
00:11:17вы просто легенда.
00:11:18Я знаю, споры вокруг моделей сейчас очень жаркие.
00:11:22Каждую неделю новый релиз, новый бенчмарк,
00:11:24новый тред о том, кто теперь король.
00:11:27Но реальные данные, реальная инженерия
00:11:30от компаний, которые это создают,
00:11:32указывают совсем в другую сторону.
00:11:34Все победы — в обвязке.
00:11:37И для соло-разработчиков это отличные новости,
00:11:40потому что создание лучшей обвязки —
00:11:42это то, что вы можете сделать прямо сегодня,
00:11:45не дожидаясь выхода следующей модели.
00:11:47А если вы хотите глубже погрузиться в то, как я
00:11:51все это настраиваю: .md-файлы, рабочие процессы агентов,
00:11:56как я связываю все воедино для своих приложений —
00:11:59заходите на crafterslab.dev.
00:12:02Это не просто свалка туториалов или очередная ИИ-ферма контента.
00:12:06Это моя база, созданная для соло-разработчиков,
00:12:09которые относятся к ИИ как к реальному напарнику
00:12:11и действительно заботятся о том, что они выпускают.
00:12:13Внутри вы найдете полные разборы,
00:12:15короткие видеоуроки, кучу навыков для Claude Code,
00:12:19которые можно взять и сразу использовать,
00:12:21и ресурсы для скачивания, которые можно внедрить
00:12:24прямо в ваши проекты.
00:12:26Участники общаются в комментариях, задают вопросы,
00:12:29обмениваются опытом.
00:12:30Это живой диалог, а не односторонняя лента контента.
00:12:34Но самое сердце — это командные пространства Notion,
00:12:37мой живой план действий: вы получаете доступ
00:12:40к тому, как я веду каждое свое приложение,
00:12:42к тем самым .md-файлам, которые я использую в реальных проектах,
00:12:46к библиотеке промптов, документации, которую пишу на ходу,
00:12:49ко всем автоматизациям за кулисами.
00:12:51Ничего специально для камеры — только реальный процесс,”
00:12:55включая все сложности. А еще там есть Swift Brain —
00:12:58кураторская библиотека по Swift и SwiftUI,
00:13:01которую я собирал годами: глубокие разборы,
00:13:04закрытые доклады, на отбор которых я потратил немало средств —
00:13:07материалы, которые вы не найдете
00:13:10в открытых обучающих данных.
00:13:11Это именно то, что я использую для создания кастомных MCP,
00:13:16настройки навыков для Claude Code, Cursor и всего остального.
00:13:20Я постоянно экспериментирую и делюсь тем, что работает.
00:13:23И еще Ops Lab.
00:13:25Там живут все инструкции для ИИ-агентов,
00:13:28шаблоны Notion, навыки Claude Code,
00:13:31процессы и автоматизации — всё настроено
00:13:33и готово к тому, чтобы вы это скопировали, разобрали,
00:13:36сломали и перестроили по-своему.
00:13:38Смысл в том, чтобы инди-стек был связан,
00:13:41чтобы вы никогда не чувствовали себя одиноко,
00:13:44даже если работаете за клавиатурой в одиночку.
00:13:46Так что, если хотите присоединиться, пока команда мала
00:13:49и цены зафиксированы, сейчас самый подходящий момент.
00:13:52Это больше похоже на закрытый клуб для разработчиков,
00:13:55чем на гигантский безликий форум.
00:13:57Буду искренне рад вас там видеть.
00:14:00Обменяемся мнениями об этой теме с обвязками,
00:14:02может, и я чему-то научусь на примере вашего проекта.
00:14:05Продолжайте созидать, экспериментировать
00:14:08и не позволяйте шуму вокруг бенчмарков отвлекать вас
00:14:10от того, что действительно важно.
00:14:12Удачи.

Key Takeaway

В 2026 году успех соло-разработчиков будет зависеть не от выбора самой мощной нейросети, а от создания простой и эффективной инженерной обвязки, которая минимизирует шум в контексте и использует базовые инструменты взаимодействия.

Highlights

Переход от споров о выборе конкретной ИИ-модели к концепции «инженерной обвязки» (harness).

Бенчмарк Epic's Agent показал, что модели проваливают 76% реальных задач не из-за глупости, а из-за проблем с координацией.

Кейс Vercel: упрощение инструментов агента и переход на базовые bash-команды повысили точность с 80% до 100%.

Использование файловой системы как внешней памяти (например, файлы CLAUDE.md) эффективнее, чем бесконечное раздувание контекста.

Принцип «горького урока» Ричарда Саттона: масштабируемые вычисления всегда побеждают сложное ручное проектирование.

Три стратегии успеха: многослойный подход OpenAI, минимализм Claude Code и изоляция задач в Manus.

Прогноз на 2026 год: конкурентным преимуществом соло-разработчика станет качество его персональной инженерной обвязки.

Timeline

Смена парадигмы: от выбора модели к созданию систем

Автор видео Даниэль делится своим восьмилетним опытом в iOS-разработке и переходом в статус независимого соло-разработчика после WWDC 2025. Он утверждает, что вопрос о том, какая модель лучше — Claude, GPT или Gemini — в корне неверен для профессионального роста. Даниэль представляет свой проект Crafter's Lab как базу для тех, кто хочет строить долговечные приложения, а не штамповать ИИ-клонов. В этом вступлении подчеркивается важность отношения к ИИ как к полноценному напарнику, а не простому генератору кода. Этот контекст задает тон всему видео, ориентированному на серьезную инженерную работу.

Почему агенты терпят неудачу: анализ бенчмарка Epic's Agent

Разбираются результаты исследования Epic's Agent, которое тестирует ИИ на реальных задачах консультантов и юристов, а не на простых тестах. Выяснилось, что топовые модели справляются лишь в 24% случаев, хотя в обычных бенчмарках набирают более 90%. Основная причина провалов кроется не в отсутствии знаний, а в потере нити рассуждений при большом количестве шагов. Модели начинают ходить по кругу и забывать контекст, что знакомо пользователям Cursor или Claude Code. Автор делает вывод, что «узким горлышком» является не сама модель, а инфраструктура вокруг неё.

Концепция «обвязки» (Harness) и опыт технологических гигантов

Вводится ключевой термин 2026 года — «обвязка» (harness), включающая инструменты доступа, методы восстановления после ошибок и отслеживание сессии. Лидеры рынка, такие как OpenAI и Anthropic, уже начали публиковать руководства именно по инженерии обвязок для долгоживущих агентов. Стартап Manus, недавно купленный Meta, пересобирал свой фреймворк пять раз за полгода, чтобы добиться стабильности. Все эти компании сходятся в том, что настоящая инженерная ценность перемещается из области весов моделей в область их окружения. Это критический сдвиг для индустрии, меняющий приоритеты разработки.

Парадокс упрощения: кейсы Vercel и Manus

Даниэль приводит поразительный пример от Vercel, где удаление 80% специализированных инструментов агента привело к росту точности до 100%. Вместо сложных SQL-инструментов агенту дали обычный bash и стандартные утилиты типа grep, что также сэкономило 40% токенов. Аналогичный вывод сделали в Manus: производительность росла не от добавления функций, а от их удаления и упрощения логики. Важным открытием стало использование файловой системы как внешней памяти, чтобы избежать зашумления окна контекста. Это объясняет эффективность паттернов вроде CLAUDE.md, которые ведут списки дел внутри проекта.

Три философии успеха и «горький урок» инженерии

Сравниваются три успешных подхода: Codex от OpenAI с его оркестрацией, минималистичный Claude Code и стратегия сокращения контекста от Manus. Несмотря на разные пути, все они подтверждают приоритет обвязки над моделью. Автор упоминает «горький урок» Ричарда Саттона, согласно которому простые масштабируемые методы всегда побеждают сложные системы с ручными правилами. Это означает, что с ростом интеллекта моделей их обвязка должна становиться проще, а не сложнее. Избыточное проектирование (over-engineering) часто становится главной причиной поломок современных ИИ-агентов.

Практические шаги и ресурсы для соло-разработчиков

Даниэль дает три конкретных совета: упростить текущие настройки агентов, внедрить файлы отслеживания прогресса и начать изучать стандарт MCP. Он приглашает зрителей в Crafter's Lab, где делится своими шаблонами Notion, Swift-библиотекой и наработками для Claude Code. Видео завершается призывом не тратить время на споры о бенчмарках на Reddit, а инвестировать его в создание собственного рабочего процесса. Автор подчеркивает, что в 2026 году именно уникальная «обвязка» станет главным преимуществом разработчика. Итоговое напутствие мотивирует к экспериментам и созданию реальных продуктов прямо сейчас.

Community Posts

View all posts