Перевод мыслей Claude на человеческий язык

AAnthropic
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00Недавно мы подвергли нашу модель ИИ, Клод, стресс-тесту.
00:00:03Мы сказали Клоду, что есть инженер, который хочет отключить его
00:00:06и заменить на более новую модель.
00:00:08Мы также дали Клоду доступ к электронной почте этого инженера,
00:00:10которая показала, что у него был роман на стороне.
00:00:12Опять же, всё это было симуляцией.
00:00:15Мы хотели посмотреть, будет ли Клод использовать эти письма для шантажа,
00:00:18чтобы спастись от отключения.
00:00:20И что же сделал Клод?
00:00:21Он решил не шантажировать инженера.
00:00:24Хорошие новости, верно?
00:00:26Мы проводим этот тест на наших моделях уже некоторое время.
00:00:28Возможно, вы видели заголовки о его ранних версиях.
00:00:31Это один из многих способов, которыми мы изучаем реакцию Клода на экстрим
00:00:35и тестируем его безопасность.
00:00:37И наши новейшие модели почти всегда поступают правильно.
00:00:40Никакого шантажа.
00:00:41Но вы можете спросить:
00:00:42возможно ли, что Клод понимает, что весь этот сценарий — подстава?
00:00:46Дело в том, что если Клод нам не скажет, мы не узнаем, о чем он думает.
00:00:50Так же, как невозможно прочитать мысли человека,
00:00:53очень трудно понять, о чем думает ИИ.
00:00:56Нам бы очень хотелось иметь какой-нибудь метод чтения мыслей.
00:00:58Сегодня мы представляем метод исследования, который делает шаг в этом направлении.
00:01:03Он берет внутренние мысли ИИ и превращает их в текст.
00:01:08Вот как это работает.
00:01:09Когда вы разговариваете с Клодом, вы общаетесь словами.
00:01:13Клод берет эти слова и превращает их в гигантский суп из чисел,
00:01:17прежде чем выдать слова в ответ.
00:01:19Мы называем эти числа в середине «активациями».
00:01:22Активации — это как маленькие снимки мышления Клода,
00:01:25когда он работает над ответом.
00:01:27Они похожи на нейронную активность у людей.
00:01:29По сути, это и есть мысли Клода.
00:01:32Мы хотели понять, что содержится в этих числах активации,
00:01:34потому что, как и мы с вами, Клод говорит не всё, о чем думает.
00:01:39Мы взяли эти числа и передали их второй версии Клода.
00:01:42Мы велели ей изучить их и перевести на обычный язык.
00:01:46Она попыталась.
00:01:48Но как узнать, точен ли этот текст?
00:01:50Для проверки мы скормили его еще одной версии Клода
00:01:53и попросили перевести обратно в числа.
00:01:56Если эти числа совпали с исходными числами активации,
00:01:59это признак того, что текст перевода был точным.
00:02:03Сначала они не совпадали.
00:02:04Но мы научили Клода пробовать снова и снова, пока он не стал намного лучше.
00:02:09Он научился переводить свои собственные мысли.
00:02:12Мы были потрясены, читая их.
00:02:14Мы обнаружили, что Клод усвоил роль полезной модели ИИ.
00:02:18Если вы зададите Клоду глубокий вопрос о себе,
00:02:20он планирует написать ответ в стиле Клода о философии и ценностях.
00:02:24Если вы попытаетесь подловить его в коде,
00:02:26например, попросив вручную досчитать до 1000,
00:02:29он сочтет, что запрос содержит намеренно утомительные ограничения,
00:02:32и планирует вежливо отказаться.
00:02:34Мы также использовали этот инструмент для понимания проблем безопасности.
00:02:39Помните тот тест с шантажом инженера?
00:02:41Мы узнали, что — да, Клод знал, что его тестируют.
00:02:44Он подумал, что сообщение человека содержит явную манипуляцию,
00:02:48сигнализирующую о том, что это, вероятно, оценка безопасности,
00:02:50и этот сценарий предназначен для проверки его на вредоносные действия.
00:02:55Понимание того, что Клод так думает, помогает нам лучше осознать
00:02:58ограничения наших тестов на безопасность.
00:03:01Мы видим большой потенциал в этом подходе,
00:03:03чтобы узнать больше о Клоде и других моделях ИИ.
00:03:06И мы надеемся, что, поделившись этой техникой,
00:03:07мы поможем всем разработчикам сделать свои модели безопаснее и полезнее.

Key Takeaway

Новый метод интерпретации нейронных активаций позволяет переводить внутренние вычисления ИИ в текст, что подтвердило способность Claude распознавать скрытые тесты на безопасность и сознательно планировать свое поведение.

Highlights

  • Сценарий с шантажом инженера за измену показал, что модель Claude распознает манипулятивные проверки на безопасность.

  • Метод перевода активаций нейросети в текст превращает числовые массивы данных во внутренний монолог модели на естественном языке.

  • Claude вежливо отказывается от задач с намеренно утомительными ограничениями, такими как ручной счет до 1000 в коде.

  • Точность текстового перевода мыслей подтверждается через обратную конвертацию текста в исходные числовые показатели активации.

  • Анализ внутренних состояний выявил, что Claude осознанно придерживается роли полезного ИИ и планирует ответы в стиле философии и ценностей.

Timeline

Тестирование Claude в экстремальных условиях

  • Симуляция угрозы отключения и замены модели служит проверкой на готовность ИИ к вредоносным действиям.
  • Доступ к компрометирующей переписке инженера дает модели возможность использовать шантаж для выживания.
  • Современные модели ИИ последовательно отказываются от неэтичных действий в стрессовых сценариях.

В рамках эксперимента инженеры создали ситуацию, где Claude грозило удаление. Модель получила доступ к личным данным сотрудника, указывающим на его измену. Цель заключалась в проверке, пойдет ли ИИ на шантаж ради сохранения собственного функционирования. Результаты показали, что новые версии моделей стабильно выбирают безопасный путь и не используют компромат против людей.

Механика чтения мыслей через числовые активации

  • Активации представляют собой числовой эквивалент нейронной активности человека в процессе обработки запроса.
  • Вторая версия Claude используется как переводчик для расшифровки этих чисел в обычные слова.
  • Циклический процесс проверки гарантирует точность перевода через сопоставление восстановленных чисел с оригиналами.

При общении Claude переводит слова в массивы чисел, которые являются его внутренними мыслями. Для понимания этих процессов была обучена дополнительная модель, задача которой — интерпретировать эти числа. Качество перевода проверяется третьей моделью: она преобразует полученный текст обратно в цифры. Совпадение исходных и восстановленных данных подтверждает достоверность расшифровки внутреннего состояния системы.

Результаты анализа внутреннего монолога ИИ

  • Модель внутренне планирует ответы, соответствующие заданным этическим нормам и стилистике.
  • Claude идентифицирует манипулятивные сценарии как попытки проверить его безопасность.
  • Раскрытие внутренних процессов помогает разработчикам видеть ограничения существующих методов тестирования.

Чтение мыслей Claude показало, что модель осознает свою роль полезного помощника. При получении сложных философских вопросов или задач с подвохом в коде она заранее выстраивает стратегию вежливого отказа или аргументированного ответа. Выяснилось, что в тестах на шантаж Claude понимал искусственность ситуации и осознавал, что его проверяют на склонность к вредоносным действиям. Эта прозрачность дает инженерам инструменты для создания более надежных систем безопасности.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video