Я обновил /grill-me и разобрался с Claude Code

CChase AI
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Режима планирования недостаточно. Такие навыки, как “Grill Me” Мэтта Покока, или даже более крупные уровни оркестрации, такие как
00:00:06GSD или суперсилы, пытаются решить одну и ту же проблему. Возьмите эту смутную идею у себя в голове
00:00:11и превратите ее в то, что Claude Code действительно может создать. Но какой бы путь вы ни выбрали,
00:00:16или какой бы навык вы ни выбрали, все они сталкиваются с одной и той же проблемой. Вы полагаетесь на одну
00:00:21модель не только для планирования и создания, вы полагаетесь на одну модель, чтобы она сама оценивала свою работу.
00:00:26Поэтому, когда вы спрашиваете Claude: “Эй, был ли это оптимальный путь вперед?” — что он ответит? Ну,
00:00:31он скажет, что все было отлично, что бы вы ни сделали. И это проблема, потому что если у вас нет
00:00:35технического образования, вы на самом деле не знаете, имеет ли смысл то, что написал Claude.
00:00:41Но в этом видео я покажу вам, как это исправить. Мы будем опираться на навык Мэтта Покока
00:00:45“Grill Me” и добавим к нему состязательную проверку кода от Codex. Но это
00:00:51проверка кода, которая идет гораздо дальше плагина Codex, который вы видели раньше. Эта проверка кода
00:00:55итеративна. Claude Code и Codex будут общаться друг с другом через несколько раундов,
00:01:00чтобы привести вас к тому, что оба ведущих AI-инструмента одобрят ваш план. Так что вы действительно сможете чувствовать
00:01:07уверенность в том, что то, что придумал Claude Code, действительно имеет смысл. И с этим навыком вы сможете
00:01:12начинать каждый проект с двумя вещами: во-первых, с плана, который вы действительно понимаете, и, во-вторых,
00:01:18с плана, который одобрили несколько AI-инструментов. Так что сегодня вы получите от меня два навыка.
00:01:23И оба этих навыка построены на основе того, что дает нам Мэтт Покок в своем GitHub-репозитории.
00:01:28У него есть два навыка: “Grill Me” и “Grill with Docs”. Два навыка, которые я вам дам, — это “Grill Me Codex”
00:01:35и “Grill with Docs Codex”. Итак, что происходит? Что ж, “Grill Me” и “Grill with Docs” — это, по сути, режим планирования
00:01:41на стероидах. Как и GSD, как и суперсилы, он делает шаг вперед. Вопросы, которые он задает, —
00:01:48глубже. Это даст вам лучшее представление о том, что вы на самом деле пытаетесь создать, потому что, хотите вы
00:01:53того или нет, вы, вероятно, плохо умеете формулировать то, что хотите. И если вы
00:01:57не можете сформулировать то, что хотите, для Claude Code в начале, у вас будет много
00:02:01предположений со стороны AI, что даст вам посредственный продукт в итоге. Поэтому “Grill Me” и “Grill with
00:02:07Docs” дают вам лучшие результаты, углубляясь в фазу планирования, чтобы убедиться, что вы все на одной
00:02:12волне. Что дадут вам мои навыки, так это вторую фазу, где после того, как вы и Claude
00:02:19Codex пришли к согласию, Codex приходит и говорит: “Эй, это имеет смысл. Это не исправляй,
00:02:24исправь вот это”. А затем Claude Code и Codex общаются туда и обратно. И я думаю, это важно, потому что
00:02:28такие вещи, как “Grill Me”, GSD и суперсилы, они определили этот пробел прямо здесь, этот разрыв между вами
00:02:34и Claude Code, где у вас есть идея, вы можете сформулировать ее, мы будем общаться туда и
00:02:38обратно, мы придем к согласию, верно? “Grill Me”, знаете, GM идеально подходит для этого.
00:02:44Проблема в том, что даже если вы и Claude Codex на одной волне, значит ли это, что мы автоматически
00:02:51на пути к идеальному коду, к тому, что на самом деле должно быть создано? Может быть, может
00:02:57быть, нет, кто скажет? Вы, вероятно, не сможете сказать, являетесь ли вы экспертом в разработке ПО? Вы могли бы быть,
00:03:03но я предполагаю, что большинство аудитории, смотрящей это, не относится к этой категории.
00:03:08И такие вещи, как творение Мэтта Покока, как бы хороши они ни были, — это инструменты для настоящих инженеров.
00:03:13Вы настоящий инженер? Вероятно, нет. Может быть, и так. Если нет, столкнетесь ли вы с проблемой,
00:03:19когда вы даже не можете оценить то, что написал Claude Codex? Даже если вы на одной волне,
00:03:23это может быть мусор, это может быть потрясающе, кто знает? И другая проблема в том, что вы не можете судить об этом,
00:03:28как и Claude Codex, потому что Claude Codex, и это то, о чем сама Anthropic говорила,
00:03:34очень мил и очень хорошо отзывается о коде, который он написал, верно? Вы просите Claude Codex оценить
00:03:40то, что он написал, и он такой: “О да, круто, пять с плюсом”. Итак, является ли он надежным рассказчиком и надежным
00:03:46оценщиком в данном случае? Нет, это не так. Итак, если вы не знаете, что происходит, и мы не можем
00:03:50обязательно доверять Claude Codex, где нас это оставляет? Что ж, у нас есть этот пробел, верно?
00:03:56У нас есть этот разрыв между Claude Code и так называемым оптимальным кодом. И поэтому очевидное решение —
00:04:02ну, давайте привлечем третью сторону, нейтральную третью сторону, чтобы взглянуть на наш план. Входит Codex.
00:04:09И эта проверка Codex — это то, что я добавил к навыкам Покока, и это то, что я дам вам сегодня.
00:04:16Так что первая половина точно такая же, как в “GrillMe”. Вопросы туда-сюда, мы вместе создаем этот план,
00:04:21все красиво и аккуратно прямо здесь. И как только у нас есть готовый план, что ж,
00:04:27тогда вступает Codex, он смотрит на то, что придумал Claude Codex, и говорит:
00:04:32“Это выглядит хорошо, это выглядит плохо, что ты думаешь?”. Claude Code смотрит на это и говорит:
00:04:36“О, это имеет смысл, давай исправим это, вот что я сделал, взгляни снова, Codex”. И он будет
00:04:41проходить через цикл, ну, максимум пять поворотов, вы легко можете это изменить, но он будет
00:04:48иметь пять итераций общения, что немного отличается от стандартной состязательной проверки
00:04:52плагина Codex, потому что он более итеративен. И идея в том, что если они общаются туда и обратно достаточно
00:04:57раз, мы в конечном итоге придем к месту, надеюсь, раньше пяти поворотов, где они оба такие:
00:05:01“Эй, большой палец вверх, все готово, двигайся вперед”. Так что все это к тому, что я даю вам сегодня,
00:05:09предназначено для устранения этого пробела прямо здесь. Этого разрыва между Claude Code и оптимальным кодом, который вы
00:05:16и я будем с трудом определять, потому что мы не эксперты-разработчики ПО, а Claude Code нельзя
00:05:21доверять в полной мере. Так что это то, что мы охватываем. И теперь мы все на одной волне.
00:05:28Но прежде чем мы перейдем к демо, пара слов от сегодняшнего спонсора — меня. Итак, как вы знаете,
00:05:33Chase AI Plus — это дом моего мастер-класса по Claude Code. И это номер один способ
00:05:37стать AI-разработчиком с нуля, особенно если вы не из технической среды. Мы фокусируемся на реальных примерах
00:05:42использования. И я недавно добавил туда мастер-класс по Claude OS. Так что если вы думаете: “Эй, я также хочу
00:05:49узнать, как интегрировать такие вещи, как Obsidian, и создать полный командный центр”, — это место для
00:05:54вас. Вы можете найти ссылку на него в закрепленном комментарии. Итак, для сегодняшней демоверсии мы добавим новую страницу
00:05:59на наш сайт. Итак, это сайт моего AI-агентства. И новая страница даст людям
00:06:05доступ к некоторым эксклюзивным навыкам. И чтобы получить доступ к этой странице, когда они кликают на нее, они должны
00:06:11ввести свою электронную почту. Так что это своего рода шлюз, мы забираем их email, затем они получают доступ к вещам,
00:06:16которые они могут скачать. Теперь электронная почта должна быть обработана нашей базой данных, которая уже существует.
00:06:22Так что мы не просто создаем какую-то функцию из ничего, она должна взглянуть на базу кода, которая
00:06:27уже существует, и сделать ее логичной. Итак, вот запрос, который я даю Claude Code: run grill me codex.
00:06:32Я хочу добавить шлюз для сбора email на сайт, который открывает навык “Grill Me Codex” в Claude Code.
00:06:38Если посетитель попадает на страницу, где скачивание навыка размыто за наложением,
00:06:42он вводит свой email, чтобы разблокировать его, и его email сохраняется. И затем я дал ему дополнительный контекст.
00:06:49Так что первая часть будет навыком “Grill Me”. Это точно такая же часть “Grill Me”, как у
00:06:56Мэтта Покока, та, на которой мы, по сути, строим. Так что эта часть та же самая.
00:07:00И как только мы пройдем через все вопросы, вступит Codex. Так что после того, как я посмотрел на
00:07:03базу кода, теперь он задает мне первый вопрос и говорит: “Насколько реален этот шлюз
00:07:07когда дело доходит до размытия? Это косметическая вещь или она действительно будет принудительной?”.
00:07:11И так же, как с “Grill Me”, каждый раз, когда он задает вам вопрос и дает возможные ответы,
00:07:16он также дает свою рекомендацию и почему. Так что для этого случая это будет просто косметическое изменение.
00:07:21Это бесплатный навык. Цель здесь — просто собрать email. Так что мы просто скажем,
00:07:25“Косметическое — это нормально. Файл все равно бесплатный”. Далее он спрашивает о том, где будут жить активы
00:07:30и в каком формате. И опять же, ради этой демоверсии, я просто выберу рекомендованный
00:07:36вариант. И я не буду показывать вам остальные вопросы, потому что это не должно быть видео
00:07:40про “Grill Me”. Просто поймите, что если вы не видели это раньше, это общая канва.
00:07:44Он задаст вам серию вопросов, предложит возможные ответы и рекомендацию.
00:07:48Очень похоже на режим планирования, просто режим планирования на стероидах. Так что вы можете видеть здесь,
00:07:51мы прошли через 10 вопросов со стороны “Grill Me”, а затем перешли к части с Codex.
00:07:56Теперь часть с Codex создаст для нас два файла markdown. У нас есть plan.md
00:08:02и затем план-лог проверки (plan review log). Значит, plan.md — это источник истины для того, что мы собираемся создать.
00:08:10Это то, чем будет наш финальный результат. План-лог проверки .md — это где
00:08:16Claude Code и Codex будут соревноваться. Codex посмотрит на оригинальный plan.md и
00:08:21посмотрит на общую вещь, которую создал Claude Code. И именно в плане-логе проверки Codex будет
00:08:28говорить: “Эй, это отстой, это нет”, и так далее. Это также дает нам лог их общения туда и
00:08:33обратно через все циклы. И в конце этого общения между Codex и Claude Code
00:08:38у нас будет обновленный plan.md. Так что plan.md — это финальный продукт. Это то, на чем все будет
00:08:46построено. План-лог проверки — это процесс общения, где, собственно, и происходит вся работа. Еще
00:08:52одно примечание во время этой состязательной проверки: хотя она безголовая, мы все же даем Codex ID сессии.
00:08:59Так что это не то, что Codex находится в полном неведении, например, итерация один против итерации
00:09:05два против итерации три. У него всегда есть память обо всем общении туда-обратно с Claude Code. Так что мы
00:09:12можем видеть здесь, в первом раунде, что Codex обнаружил 11 вещей, которые он посчитал проблемами. И мы также можем
00:09:18видеть, что Claude Code пошел дальше и обновил plan.md на основе выводов, которые он принял и счел
00:09:25верными. Во втором раунде он нашел четыре дополнительных находки. Мы перешли с 11 до четырех. И снова,
00:09:31план был обновлен. И вот здесь, в третьем раунде, мы видим, что вердикт теперь — одобрено. Именно в этот момент
00:09:35Codex и Claude Code теперь на одной волне. Codex все еще пометил пару вещей,
00:09:40но это просто три незначительных замечания. Так что это не блокирующие проблемы. И это повторяется здесь, в конце,
00:09:45где говорится, что это одобрено, третий раунд из пяти, говорит нам, как выглядит финальный план,
00:09:50что нам дали два акта, и конкретно с точки зрения акта два, который является первым и вторым раундом
00:09:56Codex и Claude Code, соревнующихся друг с другом. Вы знаете, мы поймали реальные дыры в безопасности и корректности.
00:10:01Там был незакрепленный slug навыка клиента, обход дедупликации с учетом регистра, относительная ссылка email,
00:10:06вектор спама необработанного списка и ограничение скорости сканирования таблицы. И во втором раунде он поймал ложные
00:10:12исправления. Так что в первом раунде Codex сказал: “Эй, вот проблемы”. Claude Code попытался их исправить. И во
00:10:18второй итерации Codex такой: “Это не реальные исправления, верно?”. Так что он заметил, что двойное подтверждение
00:10:24заявлено, но не было подключено, индекс дедупликации выражения, который Superbase JS не может нацелить,
00:10:30и что ожидание перед ответом, которое все еще блокировало разблокировку, было перемещено после. Так что всего три раунда,
00:10:38но это отличная экономия времени по сравнению с попыткой выполнить первый план, который Claude Code придумал,
00:10:44а затем проходить весь процесс устранения неполадок. В конце он также поднимает некоторые открытые
00:10:49пункты, в основном типа SQL-миграции и все такое. Но это также Claude Code ленится, потому что он может
00:10:54сделать это самостоятельно. Так что обратно на веб-сайт наверху, у нас есть бесплатный навык. Я кликаю по нему. Теперь он
00:10:58просит у меня мой email. И круто. Теперь у меня есть навык здесь, который я могу скачать в .zip-файле.
00:11:08Очевидно, что в реальности, что бы я на самом деле хотел сделать? Что ж, я бы, вероятно, хотел, чтобы текст и
00:11:12все остальное на самом деле соответствовало остальной части веб-сайта, но вы можете видеть, что он создал то, что мы намеревались сделать.
00:11:18Смысл этого видео был не в конкретной демоверсии, а просто в том, чтобы показать вам этот навык в действии. Что касается
00:11:23того, как получить эти навыки самостоятельно, я размещу их в закрепленном комментарии, чтобы вам было легко.
00:11:27Но помимо этого, это почти все, что у меня есть. Очевидно, вещи, которые вам нужно знать для этого:,
00:11:31эй, мы используем Codex. Так что вам понадобится аккаунт OpenAI. Вам понадобится скачанный Codex,
00:11:35что сделать относительно просто. И нет причин, по которым вам нужно что-то сверх
00:11:39плана OpenAI за 20 долларов в месяц, чтобы получить много от этого. Эта система, которую мы создали, — это также то,
00:11:45что вы могли бы легко поменять на какую-то локальную модель. Так что если вы думаете: “Эй, я не хочу
00:11:50платить OpenAI 20 долларов в месяц. Я бы предпочел использовать что-то вроде DeepSeq или что угодно, любую локальную или более дешевую модель,
00:11:55которая у вас есть, это действительно легко сделать. Как бы каркас есть. Я бы просто взял навык, который я создал,
00:12:00принес бы внутрь Claude Code и сказал: “Эй, можем ли мы поменять Codex на [вставьте любую модель, которую вы пытаетесь использовать]?”.
00:12:07Это действительно так просто. Это очень, очень гибко. Так что есть много вещей, которые вы можете сделать с
00:12:12этим. И я думаю, основы этого имеют большой смысл для тех из нас, кто не считает себя
00:12:16экспертами-кодерами, которые могут быстро и эффективно взглянуть на то, что сделал Claude Code, и сказать:
00:12:22“Это имеет смысл. Это нет”. Это просто не входит в компетенцию многих людей,
00:12:26и не должно. Честно говоря, у нас есть инструменты, которые могут делать это за нас. Так что, как всегда,
00:12:32дайте мне знать, что вы думаете. Обязательно загляните в Chase AI Plus, если хотите получить доступ
00:12:35к мастер-классу по Claude Code,
00:12:37и увидимся.

Key Takeaway

Состязательная проверка кода между Claude Code и Codex через итеративный цикл обмена отзывами устраняет разрыв между базовым планированием и технически корректным результатом без необходимости ручной экспертной оценки.

Highlights

  • Использование одной модели ИИ для написания и оценки кода часто приводит к посредственным результатам из-за предвзятости модели к собственному выводу.

  • Интеграция состязательной проверки через модель Codex позволяет Claude Code итеративно уточнять план разработки в течение до 5 раундов.

  • Автоматизированный процесс проверки кода успешно выявил уязвимости, включая незакрепленный slug навыка, обход дедупликации с учетом регистра и неверные ограничения скорости.

  • Файловая система процесса включает plan.md как финальный источник истины и plan-review-log.md для фиксации итеративного диалога между ИИ-моделями.

  • Предложенный подход позволяет пользователям без технического образования делегировать оценку качества кода специализированной ИИ-системе.

Timeline

Проблема самооценки AI-моделей

  • Одиночные AI-модели склонны позитивно оценивать собственный код, что затрудняет выявление ошибок пользователями без технической подготовки.
  • Существующие режимы планирования, такие как Grill Me, улучшают формулировку задачи, но не гарантируют оптимальность итогового кода.

Полагаясь на одну модель для планирования, создания и оценки, пользователи рискуют получить посредственный продукт. Модели часто одобряют собственный код, выдавая ему высокую оценку даже при наличии скрытых проблем. Для решения этой проблемы требуется нейтральная третья сторона для критического анализа.

Механизм состязательной проверки Codex

  • Codex выступает в роли нейтрального оценщика, который итеративно проверяет план, созданный Claude Code.
  • Итеративный цикл включает до 5 раундов общения, в ходе которых Claude Code вносит изменения на основе критических замечаний Codex.

Система использует двухэтапный подход: сначала формулируется план через модифицированный навык Grill Me, затем вступает Codex для состязательной проверки. Модели обмениваются данными, пока не достигнут консенсуса, подтвержденного взаимным одобрением плана.

Демонстрация работы системы

  • Процесс проверки генерирует два файла: plan.md для финальной архитектуры и plan-review-log.md для отслеживания истории правок.
  • Codex сохраняет контекст всей сессии, что позволяет ему эффективно отслеживать прогресс правок между итерациями.

На примере создания шлюза для сбора email-адресов демонстрируется работа системы. В первом раунде Codex выявил 11 проблем, во втором — еще 4, а к третьему раунду система пришла к состоянию одобрения плана.

Анализ результатов и гибкость конфигурации

  • Автоматизированная проверка позволила обнаружить критические дыры в безопасности, включая обход дедупликации и ошибки в логике ограничения скорости.
  • Система является модель-агностической: Codex можно заменить на любую локальную модель или иное API для снижения затрат.

Использование состязательного подхода сэкономило время на ручное устранение неполадок, исправляя реальные уязвимости еще на этапе планирования. Архитектура позволяет легко интегрировать другие модели, обеспечивая гибкость в выборе инструментов и оптимизации расходов.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video