00:00:00Так, ладно.
00:00:02Какая ИИ-модель сейчас лучшая?
00:00:04Claude, GPT, Gemini.
00:00:07И, честно говоря, я думаю, что это неправильный вопрос.
00:00:11Прямо совсем неправильный вопрос.
00:00:14Коротко о себе: я Даниэль.
00:00:16Я плотно занимаюсь iOS-разработкой уже больше восьми лет.
00:00:20Начинал с фриланса, проектировал интерфейсы,
00:00:24прыгал от клиента к клиенту,
00:00:25запускал чужие идеи,
00:00:27параллельно пытаясь придумать свои.
00:00:28А после WWDC 2025 я просто ушел в свободное плавание.
00:00:33Никаких клиентов, никакой страховки.
00:00:36С тех пор я создал более 15 собственных приложений,
00:00:39все на SwiftUI, и всё это — в публичном доступе.
00:00:41И сейчас, честно, каждую каплю своей энергии
00:00:44я вкладываю в то, чтобы эта соло-студия
00:00:46стала чем-то действительно долговечным.
00:00:49Не очередной пачкой быстрых MVP или ИИ-шлака,
00:00:52а настоящими приложениями, которые выдерживают масштабирование.
00:00:55И да, весь этот процесс,
00:00:57весь этот тернистый путь живет на crafterslab.
00:01:00Адрес — crafterslab.dev,
00:01:01и это не какое-то кладбище туториалов или фабрика ИИ-клонов.
00:01:06Это по-настоящему моя база,
00:01:08созданная для соло-разработчиков, которые используют ИИ как полноценного напарника.
00:01:12А не как торговый автомат, который ты пинаешь, когда застрял,
00:01:14надеясь на лучший результат.
00:01:16Если вам важен профессионализм,
00:01:18если вы серьезно настроены расти
00:01:20и строить вещи, которые действительно прослужат долго,
00:01:23то вы почувствуете себя как дома.
00:01:24И, кстати, если вы всё еще на Patreon —
00:01:26огромное спасибо, но имейте в виду:
00:01:29всё переехало на crafterslab.dev.
00:01:32Вся команда теперь там.
00:01:33Приходите строить вместе с нами.
00:01:35Так вот, что натолкнуло меня на эти мысли.
00:01:38Недавно вышло одно исследование.
00:01:41Исследователи опубликовали бенчмарк под названием Epic's Agent.
00:01:45И его отличие от всех остальных тестов,
00:01:49из-за которых люди спорят в сети,
00:01:51в том, что он тестирует агентов на реальной профессиональной работе,
00:01:55а не на задачках по кодингу или тестах с вариантами ответов.
00:01:58Речь идет о реальных задачах, которые консультанты, юристы
00:02:03и аналитики выполняют ежедневно.
00:02:05Каждая такая задача занимает у человека от часа до двух.
00:02:08Они прогнали через этот тест все основные передовые модели.
00:02:11Лучшая из них справилась с заданиями
00:02:13примерно в 24% случаев — то есть одна из четырех.
00:02:17И даже после восьми попыток с той же моделью
00:02:20показатель вырос всего лишь до 40%.
00:02:23Заметьте, это те же самые модели,
00:02:26которые набирают выше 90% в бенчмарках,
00:02:29от которых все сходят в ума.
00:02:32Значит, либо те тесты врут,
00:02:33либо мы измеряем не то.
00:02:36И я думаю, дело во втором, верно?
00:02:37Но вот где начинается самое интересное для нас.
00:02:41Исследователи детально изучили, почему агенты терпят неудачу.
00:02:46И ответ был не в том, что модели глупые.
00:02:49У них были все необходимые знания.
00:02:51Они прекрасно могли логически рассуждать.
00:02:54Провалы почти полностью
00:02:56касались исполнения и координации.
00:03:00Агенты терялись после слишком большого количества шагов.
00:03:02Они возвращались к подходам, которые уже не сработали.
00:03:05Они просто теряли нить того,
00:03:09что они вообще должны были делать изначально.
00:03:11И если вы соло-разработчик, использующий Claude Code
00:03:14или Cursor каждый день, вы понимаете, о чем я.
00:03:18Вы видели, как агент идет по кругу, пытаясь трижды
00:03:21сделать одну и ту же неработающую вещь,
00:03:23полностью забывая контекст 20-шаговой давности.
00:03:26И вы сидите и думаете:
00:03:28«Может, мне стоит перейти на Opus?»
00:03:30«Может, нужен другой провайдер?»
00:03:32Но данные говорят, что причина не в этом.
00:03:34Модель — не «узкое горлышко».
00:03:36Проблема во всем, что её окружает.
00:03:38Для этого есть специальное слово.
00:03:40И я думаю, оно определит 2026 год
00:03:43так же, как агенты определили 2025-й.
00:03:46Это слово — «обвязка» (harness).
00:03:47Обвязка агента включает в себя всю инфраструктуру вокруг модели:
00:03:50что она видит,
00:03:52какие инструменты ей доступны,
00:03:54как она восстанавливается, когда всё идет не так,
00:03:56и как она отслеживает свои действия на протяжении долгой сессии.
00:03:59OpenAI буквально опубликовали пост в блоге
00:04:02под названием «Инженерия обвязки» (Harness Engineering).
00:04:04Anthropic выпустили целое руководство по созданию эффективных
00:04:07обвязок для долгоживущих агентов.
00:04:09Manus, ИИ-компания, которую только что купила Meta,
00:04:13опубликовала свои уроки по контекстной инженерии
00:04:16после того, как они пересобрали свой фреймворк для агентов
00:04:19пять раз за шесть месяцев. Пять раз.
00:04:22И все они говорят об одном и том же.
00:04:24Настоящая инженерная работа — это обвязка,
00:04:27а не сама модель.
00:04:28Хорошо. И вот часть, которая меня искренне удивила,
00:04:32потому что она полностью противоречит тому,
00:04:34как большинство из нас представляет работу с этими инструментами.
00:04:38Есть такая история от Vercel.
00:04:41У них был агент «текст-в-SQL».
00:04:43Вы задаете вопрос, он пишет SQL-запрос.
00:04:46И они построили его так, как обычно строят агентов, да?
00:04:49Дали ему кучу специализированных инструментов:
00:04:51один для понимания схемы базы данных,
00:04:54другой для написания запросов, третий для проверки результатов.
00:04:58Окружили всё это сложной обработкой ошибок —
00:05:01и это работало примерно в 80% случаев.
00:05:04Затем они попробовали нечто радикальное.
00:05:06Они убрали 80% инструментов, просто выкинули их,
00:05:11дали агенту базовые вещи: запускать bash-команды, читать файлы,
00:05:15стандартные консольные утилиты вроде grep и cat —
00:05:18то есть то, чем пользовались бы мы с вами.
00:05:20И точность подскочила с 80% до 100%.
00:05:25Он стал тратить на 40% меньше токенов
00:05:28и работать в три с половиной раза быстрее.
00:05:31Не буду врать, это звучит дико, правда?
00:05:33И инженер, который это создал, сказал фразу,
00:05:36которая мне очень запомнилась.
00:05:38Модели становятся умнее.
00:05:40Окна контекста становятся больше.
00:05:42Так что, возможно, лучшая архитектура агента —
00:05:44это когда архитектуры почти нет.
00:05:46И это просто всё переворачивает, понимаете?
00:05:50Потому что инстинктивно, особенно когда ты один
00:05:54и пытаешься сделать систему надежной,
00:05:57хочется добавлять больше инструментов, больше ограничений,
00:06:01больше логики маршрутизации.
00:06:02Кажется, что структура поможет,
00:06:04но эти инструменты не помогали модели.
00:06:06Они ей мешали.
00:06:08И это не единичный случай.
00:06:10Manus пришли к тому же самому выводу.
00:06:13Они пересобирали свой фреймворк для агентов
00:06:16пять раз за полгода,
00:06:19и самые большие скачки производительности
00:06:21пришли не от добавления функций.
00:06:23Они пришли от их удаления.
00:06:25Они вырезали сложный поиск по документам,
00:06:28убрали заумную логику маршрутизации,
00:06:29заменили «агентов-менеджеров» простой структурированной передачей задач.
00:06:34С каждой итерацией система становилась проще и лучше.
00:06:37И вот что, по моему мнению, должен услышать каждый соло-разработчик,
00:06:40проводящий долгие сессии в Claude Code.
00:06:42Manus обнаружили, что их агент в среднем
00:06:45делал около 50 вызовов инструментов на задачу.
00:06:49Это очень много шагов.
00:06:50И даже у моделей, которые технически поддерживают
00:06:53огромные окна контекста,
00:06:54после определенного момента производительность падает.
00:06:58Модель не забывает всё в один миг.
00:07:01Это скорее похоже на то, как сигнал тонет в шуме.
00:07:04Важные инструкции из начала сессии
00:07:07теряются под сотнями промежуточных результатов.
00:07:10Их решение было предельно простым.
00:07:12Они начали использовать файловую систему
00:07:14как внешнюю память модели.
00:07:17Вместо того чтобы запихивать всё в окно контекста,
00:07:20агент записывает ключевую информацию в файл
00:07:23и перечитывает его при необходимости.
00:07:25И да, если вы используете Claude Code,
00:07:27вы буквально это видели.
00:07:29Файлы CLAUDE.md, списки дел, отслеживание прогресса —
00:07:34это именно тот паттерн, который разыгрывается
00:07:36в вашем терминале каждый день.
00:07:37Помните, я говорил о том,
00:07:40что все сходятся к одной и той же идее?
00:07:44Потому что если посмотреть
00:07:45на три самые успешные агентские системы сейчас,
00:07:49они все пришли к одному и тому же,
00:07:51двигаясь с разных сторон.
00:07:53Codex от OpenAI использует многослойный подход.
00:07:57Оркестратор, который планирует,
00:07:59исполнитель для отдельных задач
00:08:02и слой восстановления для обработки сбоев.
00:08:06Это надежно.
00:08:07Можно дать задачу и уйти. Это одна философия.
00:08:09Claude Code — я пользуюсь им ежедневно.
00:08:10Его ядро — это буквально всего четыре инструмента:
00:08:14прочитать файл, записать в файл, отредактировать файл,
00:08:16запустить bash-команду. Всё.
00:08:19Весь интеллект в основном в самой модели.
00:08:21Обвязка остается минимальной.
00:08:23А когда нужно больше, расширяемость идет через MCP
00:08:25и навыки, которые агент осваивает по мере надобности.
00:08:28А Manus пришли к тому, что я бы назвал
00:08:30«сокращай, выгружай, изолируй»: активно уменьшать контекст,
00:08:33использовать файловую систему для памяти,
00:08:38запускать субагентов для тяжелых задач
00:08:40и возвращать только краткое резюме.
00:08:43Три совершенно разных подхода,
00:08:45но все сошлись в одном выводе:
00:08:47Обвязка важнее, чем модель.
00:08:50И для соло-разработчиков
00:08:52это меняет представление о том,
00:08:55на что на самом деле стоит тратить время.
00:08:57стоит тратить свое время.
00:08:59Ведь у нас нет бесконечного количества часов.
00:09:01Каждый час, проведенный на Reddit в спорах
00:09:05о Claude против GPT — это час, когда вы не создаете продукт.
00:09:08И есть одна идея Ричарда Саттона,
00:09:11одного из создателей обучения с подкреплением,
00:09:14называемая "горьким уроком".
00:09:16Ее суть в том, что
00:09:18подходы, которые масштабируются вместе с вычислениями,
00:09:21всегда в итоге побеждают подходы,
00:09:23основанные на ручном проектировании знаний,
00:09:26применительно к тому, что мы делаем.
00:09:27Это означает нечто очень конкретное.
00:09:29По мере того как модели становятся умнее,
00:09:31ваша обвязка должна становиться проще,
00:09:33а не сложнее.
00:09:34Если вы добавляете больше кода в логику,
00:09:36больше кастомных конвейеров с каждым обновлением модели,
00:09:40вы плывете против течения.
00:09:42И, честно говоря, это избыточное проектирование
00:09:44наверняка и есть причина, почему ваш агент постоянно ломается.
00:09:47Вот что я бы попробовал на самом деле.
00:09:49Во-первых, проведите эксперимент Vercel сами.
00:09:52Если у вас есть какая-то настройка агента,
00:09:54сократите ее, уберите специализированные инструменты,
00:09:57дайте ему терминал bash и базовый доступ к файлам
00:10:00и просто посмотрите, что произойдет.
00:10:02Модель, скорее всего, умнее,
00:10:03чем конвейер инструментов, который вы построили вокруг нее.
00:10:06Во-вторых, добавьте файл прогресса.
00:10:08Пусть ваш агент ведет текущий список дел,
00:10:10который он обновляет после каждого шага.
00:10:13Он читает файл в начале каждого действия
00:10:15и записывает в него в конце.
00:10:17Именно так работает Claude Code
00:10:19с этими Markdown-файлами.
00:10:20И к этой же схеме пришел Маниш
00:10:22после пяти полных переписываний кода.
00:10:24У меня даже есть целая система для этого,
00:10:26настроенная в лаборатории со всеми инструкциями для агентов
00:10:29и .md-шаблонами, готовыми к работе, если вам интересно.
00:10:33И в-третьих, начните изучать MCP и навыки.
00:10:37Они дают модели чистые, стандартизированные способы
00:10:40работы с внешними инструментами
00:10:42без необходимости жестко кодировать каждую интеграцию.
00:10:44Именно там сейчас живет расширяемость.
00:10:462025 год был годом агентов.
00:10:50И по большей части — да, так и было.
00:10:53Но 2026-й, я думаю, станет годом обвязок,
00:10:58потому что одна и та же модель — абсолютно та же самая —
00:11:03ведет себя совершенно иначе в Claude Code
00:11:06по сравнению с Cursor или Codeium.
00:11:08Так что выбирайте свою обвязку осторожно,
00:11:11используете ли вы кодинг-агента или создаете его.
00:11:14И да, если вы все еще здесь,
00:11:17вы просто легенда.
00:11:18Я знаю, споры вокруг моделей сейчас очень жаркие.
00:11:22Каждую неделю новый релиз, новый бенчмарк,
00:11:24новый тред о том, кто теперь король.
00:11:27Но реальные данные, реальная инженерия
00:11:30от компаний, которые это создают,
00:11:32указывают совсем в другую сторону.
00:11:34Все победы — в обвязке.
00:11:37И для соло-разработчиков это отличные новости,
00:11:40потому что создание лучшей обвязки —
00:11:42это то, что вы можете сделать прямо сегодня,
00:11:45не дожидаясь выхода следующей модели.
00:11:47А если вы хотите глубже погрузиться в то, как я
00:11:51все это настраиваю: .md-файлы, рабочие процессы агентов,
00:11:56как я связываю все воедино для своих приложений —
00:11:59заходите на crafterslab.dev.
00:12:02Это не просто свалка туториалов или очередная ИИ-ферма контента.
00:12:06Это моя база, созданная для соло-разработчиков,
00:12:09которые относятся к ИИ как к реальному напарнику
00:12:11и действительно заботятся о том, что они выпускают.
00:12:13Внутри вы найдете полные разборы,
00:12:15короткие видеоуроки, кучу навыков для Claude Code,
00:12:19которые можно взять и сразу использовать,
00:12:21и ресурсы для скачивания, которые можно внедрить
00:12:24прямо в ваши проекты.
00:12:26Участники общаются в комментариях, задают вопросы,
00:12:29обмениваются опытом.
00:12:30Это живой диалог, а не односторонняя лента контента.
00:12:34Но самое сердце — это командные пространства Notion,
00:12:37мой живой план действий: вы получаете доступ
00:12:40к тому, как я веду каждое свое приложение,
00:12:42к тем самым .md-файлам, которые я использую в реальных проектах,
00:12:46к библиотеке промптов, документации, которую пишу на ходу,
00:12:49ко всем автоматизациям за кулисами.
00:12:51Ничего специально для камеры — только реальный процесс,”
00:12:55включая все сложности. А еще там есть Swift Brain —
00:12:58кураторская библиотека по Swift и SwiftUI,
00:13:01которую я собирал годами: глубокие разборы,
00:13:04закрытые доклады, на отбор которых я потратил немало средств —
00:13:07материалы, которые вы не найдете
00:13:10в открытых обучающих данных.
00:13:11Это именно то, что я использую для создания кастомных MCP,
00:13:16настройки навыков для Claude Code, Cursor и всего остального.
00:13:20Я постоянно экспериментирую и делюсь тем, что работает.
00:13:23И еще Ops Lab.
00:13:25Там живут все инструкции для ИИ-агентов,
00:13:28шаблоны Notion, навыки Claude Code,
00:13:31процессы и автоматизации — всё настроено
00:13:33и готово к тому, чтобы вы это скопировали, разобрали,
00:13:36сломали и перестроили по-своему.
00:13:38Смысл в том, чтобы инди-стек был связан,
00:13:41чтобы вы никогда не чувствовали себя одиноко,
00:13:44даже если работаете за клавиатурой в одиночку.
00:13:46Так что, если хотите присоединиться, пока команда мала
00:13:49и цены зафиксированы, сейчас самый подходящий момент.
00:13:52Это больше похоже на закрытый клуб для разработчиков,
00:13:55чем на гигантский безликий форум.
00:13:57Буду искренне рад вас там видеть.
00:14:00Обменяемся мнениями об этой теме с обвязками,
00:14:02может, и я чему-то научусь на примере вашего проекта.
00:14:05Продолжайте созидать, экспериментировать
00:14:08и не позволяйте шуму вокруг бенчмарков отвлекать вас
00:14:10от того, что действительно важно.
00:14:12Удачи.