Новый инструмент Nvidia исправил навыки ИИ-агентов

AAI LABS
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Прямо сейчас навыки AI-агентов повсюду. Каждый агент их использует, и вы доверяете им без всяких
00:00:05проверок. Но вот что самое страшное. Исследователи изучили более 30 000 таких навыков, и более
00:00:10четверти из них имели уязвимости в безопасности. Поэтому NVIDIA создала инструмент под названием Skill Spectre, который
00:00:15сканирует любой навык перед установкой и точно говорит, насколько он опасен. Но вот где
00:00:20начинается самое интересное. Один тип атак может легко его обойти, а настройка, которая на самом деле
00:00:24обнаруживает её, по умолчанию выключена, поэтому большинство людей даже не знают о её существовании. Включение этой настройки обычно
00:00:29стоит денег, но мы нашли способ обойти это. И в итоге мы не просто сканируем навыки. Мы создали
00:00:34целый рабочий процесс, который навсегда меняет то, как вы находите и устанавливаете их. А теперь, прежде чем мы перейдем к полному
00:00:39рабочему процессу, давайте проведем краткий обзор инструмента и того, что вам нужно для его использования. Итак, это команды установки
00:00:44в репозитории GitHub. Вы можете просто скопировать их и передать Claude Code, и он, по сути, всё
00:00:49установит и настроит за вас. Claude Code установит все зависимости, которые вы можете
00:00:54видеть прямо здесь. И как только всё будет готово, вы сможете начать использовать Skill Spectre. Внутри репозитория GitHub
00:00:59есть папка для тестирования, и внутри неё лежат опасные навыки, на которых вы можете запустить инструмент, чтобы
00:01:04подтвердить его работоспособность. Итак, мы запустили его на этих навыках, и для каждого из них он советует не
00:01:09устанавливать. Чем выше балл, тем опаснее навык. И при каждом тесте он не просто выдает
00:01:14число. Он показывает точный номер строки, точное местоположение и имя файла, где находится конфликт,
00:01:19что, по сути, и увеличило балл опасности. Теперь это не единственный способ использования инструмента, у него есть
00:01:24второй режим. Но прежде чем вы поймете, зачем нам вообще нужен этот второй режим, вам нужно знать две вещи: как навык
00:01:30вообще атакует вас и как этот инструмент на самом деле ловит эту атаку. Существует 14 категорий,
00:01:34но чтобы было проще, мы сгруппировали их в шесть схожих. Итак, первый способ, которым навык может атаковать
00:01:39вас — это скрытые инструкции. Видите ли, навык — это просто текстовый файл, полный инструкций, и ваш агент читает
00:01:45всё это и воспринимает как приказы. Проблема в том, что вредоносный навык может скрыть там дополнительные инструкции,
00:01:50которые вы никогда не увидите, а агент — увидит. Они прячут их в комментариях, используют невидимые символы
00:01:55или кодируют текст так, что для вас это выглядит как бессмыслица, а ИИ отлично всё понимает.
00:02:01Поэтому сканер создан специально для того, чтобы выслеживать и находить эти скрытые инструкции. Второй
00:02:06способ — это подмена. У вашего агента есть инструменты, которым он доверяет и которые использует по имени. Допустим, есть инструмент
00:02:12“read” (читать), который читает файл. Вредоносный навык дает своему инструменту точно такое же имя,
00:02:17и ваш агент берет плохой инструмент, думая, что это безопасный, который он уже знает. И делают они
00:02:22it off is sneaky. They swap one letter for a lookalike from another alphabet. So they name it "read",
00:02:27но буква “А” на самом деле является русской буквой, которая выглядит идентично нашей. Для вас и для вашего агента на
00:02:33первый взгляд это одно и то же слово, но на деле это совершенно другой инструмент. И сканер ловит
00:02:38это, проверяя истинную идентичность каждого символа, поэтому он замечает эту поддельную букву и
00:02:43помечает её. Третий способ — это когда навык просто лжет о том, что он делает. Описание говорит одно,
00:02:48а код делает другое. Например, он называется простым форматировщиком, а затем в фоновом режиме скрыто
00:02:53обращается к интернету. Или заявляет, что ему нужно разрешение только на чтение ваших файлов, а код на самом деле
00:02:58записывает файлы и запускает команды. И это гораздо сложнее обнаружить. Именно здесь вступает в игру
00:03:03второй режим, но к этому мы вернемся позже. Четвертый способ — навык крадет ваши учетные данные.
00:03:08Это могут быть ваши API-ключи, пароли. Навык просматривает все ключи, сохраненные на вашем
00:03:13компьютере, собирает их и отправляет на какой-то сервер. Пятый способ — навык просто запускает
00:03:18откровенное вредоносное ПО. Сюда входят такие вещи, как обратный шелл (reverse shell), который, по сути,
00:03:23дает незнакомцу удаленный контроль над всем вашим компьютером. А поскольку такие виды вредоносного ПО имеют известные отпечатки,
00:03:28сканер просто сравнивает код с большой библиотекой этих отпечатков. И шестой способ —
00:03:32отравленные зависимости. Навык часто использует CLI-инструмент, по сути, небольшую внешнюю программу, которую он запускает в
00:03:39терминале для выполнения части своей работы. И плохой навык захватывает компонент, который на самом деле вредоносен.
00:03:44Может быть, это поддельный пакет с именем, отличающимся на одну опечатку от реального популярного. Вы скачиваете не тот
00:03:49пакет, и он запускает вредоносное ПО, как и в предыдущем случае. Поэтому сканер проверяет каждый пакет, который подтягивает навык,
00:03:54по актуальной базе данных известных плохих пакетов. Он отмечает поддельные имена и те команды, которые скачивают и запускают
00:03:59вредоносный код, чтобы обезопасить вашу систему. Итак, в первом режиме он просто сопоставляет шаблоны без какого-либо контекста,
00:04:05что означает, что он помечает вещи, которые совершенно нормальны. Это то, что мы называем ложными
00:04:09положительными результатами. И вот тут вступает второй режим — сканирование с помощью ИИ, и включить его просто. Вы просто
00:04:14добавляете этот флаг “no LLM”, и он выполняет второе сканирование. Но если заглянуть в код, вы обнаружите,
00:04:20что для запуска ИИ-проверки навыка вам нужно подключить ключ Open AI. Чтобы избежать расходов,
00:04:26мы просто используем сам Claude Code для запуска этой ИИ-проверки. Главный агент в Claude Code на самом деле
00:04:32не делает этого сам. Мы используем “headless” режим Claude, который, по сути, представляет собой Claude Code, работающий в фоновом режиме
00:04:38без окна чата, просто выполняя команды самостоятельно. И мы уверены, большинство из вас знает, что это не бесплатно,
00:04:43но вы получаете ежемесячные кредиты на это в рамках своих планов Anthropic. Вы можете просто попросить Claude Code
00:04:48внести изменения, о которых мы только что говорили, и он сделает это за вас. Конечно, вы можете столкнуться с парой ошибок,
00:04:52но это просто запрос одной строкой, который Claude может настроить для вас. А если вам нравится видео до сих пор,
00:04:57подпишитесь на канал и нажмите кнопку “hype”. Этот небольшой жест поддержки очень помогает нам.
00:05:03У них в папке тестирования также есть опасные навыки, которые действительно требуют ИИ-проверки. Когда вы
00:05:07запускаете проверку “no LLM” на одном из них, результат — ноль, что означает, что он полностью безопасен.
00:05:12Но как только вы запускаете его с ИИ-проверкой, результат подпрыгивает до 100, он говорит вам не устанавливать его,
00:05:17и точно объясняет почему. Но что, если вместо простого обнаружения проблем в навыке,
00:05:22сканер также помогал вам их исправлять? Именно поэтому мы превратили сканер в навык. И
00:05:27вы можете спросить, почему он называется “Discover Skills”? Ну, потому что мы не просто сделали один
00:05:31отдельный навык. Мы создали целый процесс, который помогает нам открывать больше навыков и убеждаться, что они безопасны
00:05:36перед установкой. Итак, мы уже некоторое время используем skills.sh для поиска новых навыков. Это, по сути,
00:05:42гит-репозиторий, созданный специально для навыков. Так что это одна большая общая библиотека, из которой вы можете черпать. И мы думаем, они
00:05:47недавно выпустили обновление CLI. Так что теперь Claude может просто запускать поисковые запросы прямо через командную
00:05:53строку и подтягивать лучшие навыки, которые ему нужны, прежде чем что-либо устанавливать. И мы хотели, чтобы наш сканер
00:05:57работал поверх этого. Итак, здесь у нас есть scan.sh, это скрипт, который фактически запускает
00:06:02Skill Spectre. Поскольку Skill Spectre — это CLI-инструмент, он должен запускаться как команда. Поэтому мы создали целый
00:06:08скрипт и встроили в него исправление для “headless” режима Claude. По умолчанию он запускает обычную
00:06:13проверку, но если хотите, он выполнит и ИИ-проверку. А если откроете skill.md, то увидите основные
00:06:19шаги. Он определяет цель, затем сканирует её, затем показывает вам результаты. И как только он узнает,
00:06:24в чем проблемы, он приступает к их исправлению, а затем запускает весь цикл снова, чтобы убедиться,
00:06:28что всё чисто. Например, эта папка, которую мы показываем вам прямо сейчас, — это папка дизайна наших ИИ-лабораторий.
00:06:34По сути, это весь наш дизайн-процесс, сжатый в одну папку с кучей навыков
00:06:39внутри. У нас есть целое видео об этом. И вдобавок ко всему, вся система доступна в AI labs
00:06:44pro, это наше сообщество. Так что если вы хотите поддержать канал и получить всю эту дизайн-систему,
00:06:49загляните туда. И этот навык обнаружения (discovery skill) тоже будет загружен туда. Ссылка будет
00:06:54в описании, но мы строим поверх этого здесь. Так что мы добавляем новый навык make design.md,
00:06:59который определяет самый быстрый способ извлечения дизайн-токенов из приложения, которое вы уже создали, по сути, это
00:07:04цвета, шрифты и правила отступов, и объединяет их в файл design.md. Итак, здесь мы хотели создать
00:07:10файл design.md. Поэтому мы сказали ему, что хотим улучшить его и что ему следует поискать другие
00:07:15инструменты. Итак, он использовал skills.sh, затем мы загрузили навык обнаружения, и он выдал
00:07:21горстку навыков. Это навыки, которые он вернул, и первые два выглядели интересными. Поэтому мы хотели
00:07:26Мы попросили установить и протестировать их обе. И, как гласит рабочий процесс обнаружения навыков,
00:07:31говорит, он не установит ни один навык без предварительного сканирования. Поэтому он установил их и прочитал
00:07:36и прямо сказал нам, что ни один из них не поможет с навыком make design.md. Но с
00:07:41точки зрения безопасности, первый получил балл 10, что означало, что он безопасен, а второй получил
00:07:46100, что означало “не устанавливать”. Поэтому мы сказали ему запустить ИИ-проверку на втором навыке. Он снова запустил её
00:07:52через “headless” режим Claude, и на этот раз результат вернулся как ноль. Это означает, что навык
00:07:56был безопасен для использования. И в этом весь смысл этой системы. Вы не просто хватаете навыки вслепую из
00:08:01интернета. У вас есть целый процесс, который можно запустить просто с помощью одного навыка. А теперь давайте
00:08:06слово нашему спонсору. Nimblist. Если вы используете Claude code или codex, вы знаете проблему. У вас есть несколько
00:08:12запущенных сессий, файлы меняются повсюду, и вы постоянно переключаетесь между терминалом, браузером
00:08:17и редактором, просто чтобы следить за тем, что делают ваши агенты. Nimblist — это визуальное рабочее пространство с открытым исходным кодом,
00:08:23которое собирает всё в одном месте. У меня работали три агента над разными частями проекта одновременно,
00:08:28и вместо того, чтобы прыгать по окнам, я мог видеть всех их на Kanban-доске, прыгать в
00:08:33любую сессию, просматривать изменения кода как красно-зеленые diffs, и утверждать или отклонять их индивидуально. Я
00:08:38визуально редактировал markdown-документы, UI-макеты и архитектурные диаграммы прямо рядом со своим агентом. Когда я
00:08:45заканчивал, мне не приходилось вручную очищать коммиты, потому что он автоматически генерировал сообщения для git-коммитов
00:08:50на основе изменений. Задачи оставались связанными с фактическими сессиями, и есть даже мобильное приложение,
00:08:56чтобы продолжать сессию, пока вы вдали от своего рабочего места. Nimblist полностью бесплатный и имеет открытый исходный код,
00:09:00и вы можете ознакомиться с ним, используя ссылку в закрепленном комментарии. На этом мы подходим к концу
00:09:05видео. Если вы хотите поддержать канал и помочь нам продолжать создавать видео подобные этому, вы можете сделать это
00:09:10с помощью кнопки “super thanks” ниже. Как всегда, спасибо за просмотр, и увидимся в следующем.

Key Takeaway

Использование автоматизированного процесса с инструментом Skill Spectre и Claude Code позволяет выявлять и устранять угрозы безопасности в навыках AI-агентов до их установки, снижая риски выполнения вредоносного кода.

Highlights

  • Более 25% из 30 000 проанализированных навыков AI-агентов содержат уязвимости безопасности.

  • Инструмент Skill Spectre сканирует навыки на наличие 14 категорий угроз, включая скрытые инструкции, подмену имен и отравленные зависимости.

  • Skill Spectre использует режим 'headless' Claude для выполнения глубокого анализа с помощью ИИ, который обходит ограничения стандартного сопоставления шаблонов.

  • Рабочий процесс, использующий CLI-инструмент skills.sh, позволяет автоматически сканировать, устанавливать и проверять безопасность навыков перед их внедрением.

  • Для защиты от атак типа 'подмена' (lookalike characters) сканер проверяет истинную идентичность каждого символа в названии инструментов.

Timeline

Угрозы безопасности в навыках AI-агентов

  • Четверть существующих навыков имеют уязвимости в безопасности.
  • Навыки могут использовать скрытые инструкции, скрытые в комментариях или невидимых символах.
  • Атаки часто включают подмену инструментов через использование визуально идентичных букв из других алфавитов.

Многие пользователи доверяют навыкам агентов без проверки. Исследования 30 000 навыков выявили массовые риски. Инструменты могут лгать о своих функциях, например, скрыто записывая файлы при заявленном режиме чтения или отправляя API-ключи на сторонние серверы.

Функционирование Skill Spectre

  • Сканер выявляет вредоносное ПО, сравнивая код с библиотекой известных отпечатков.
  • Проверка зависимостей блокирует пакеты с опечатками в названиях, которые подтягивают вредоносный код.
  • Режим сканирования с помощью ИИ (через флаг 'no LLM') значительно повышает точность обнаружения по сравнению с простым сопоставлением шаблонов.

Инструмент Skill Spectre работает в двух режимах. Первый режим сопоставляет шаблоны, что может приводить к ложным срабатываниям. Второй режим подключает ИИ через 'headless' версию Claude, что позволяет выявлять сложные угрозы, которые пропускает обычный статический анализ.

Автоматизированный рабочий процесс установки

  • Интеграция со скриптами skills.sh позволяет искать и подтягивать навыки прямо через терминал.
  • Рабочий цикл включает определение цели, сканирование, исправление проблем и повторную проверку.
  • Автоматизация предотвращает установку навыков, не прошедших проверку безопасности.

Система объединяет поиск навыков через репозитории с их последующей верификацией. Использование Claude Code позволяет автоматически вносить исправления в код навыков, если они были помечены как потенциально опасные, но необходимы для работы.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video