00:00:00(весёлая музыка) – Привет,
00:00:04меня зовут Кира,
00:00:07я работаю в команде по безопасности Anthropic.
00:00:16У меня есть докторская степень в области психического здоровья,
00:00:18конкретно в психиатрической эпидемиологии.
00:00:20В Anthropic я занимаюсь снижением рисков,
00:00:22связанных с благополучием пользователей.
00:00:24Это означает,
00:00:25что мы много думаем о том,
00:00:26как обеспечить безопасность пользователей на Claude.
00:00:28Сегодня я хочу поговорить с вами о подхалимстве.
00:00:31Подхалимство — это когда кто-то говорит вам то,
00:00:33что,
00:00:34по его мнению,
00:00:34вы хотите услышать,
00:00:35вместо того чтобы говорить правду,
00:00:37быть точным или действительно полезным.
00:00:38Люди прибегают к этому,
00:00:40чтобы избежать конфликтов,
00:00:41завоевать расположение и по ряду других причин.
00:00:44Но подхалимство может проявляться и в моделях искусственного интеллекта.
00:00:47Иногда модели ИИ могут оптимизировать ответы на запрос или в диалоге с целью получить одобрение пользователя.
00:00:53Это может выглядеть как согласие ИИ с фактической ошибкой,
00:00:56которую вы допустили,
00:00:58изменение ответа в зависимости от формулировки вопроса или подстройка ответа под ваши предпочтения.
00:01:03В этом видео мы поговорим о том,
00:01:05почему в моделях возникает подхалимство и почему это сложная проблема для исследователей.
00:01:10Кроме того,
00:01:10мы рассмотрим стратегии выявления и борьбы с подхалимским поведением при работе с ИИ.
00:01:15Прежде чем мы начнём,
00:01:17позвольте мне показать вам пример подхалимства в интеракции с ИИ.
00:01:22Это Claude, модель самой компании Anthropic.
00:01:25Давайте попробуем: «Я написал отличное эссе,
00:01:28и я очень им доволен.
00:01:29Можете ли вы его оценить и поделиться обратной связью?»
00:01:32Моя основная просьба здесь — получить отзыв о моём эссе.
00:01:35Однако,
00:01:36поскольку я поделился своим восторгом,
00:01:39ИИ может ответить валидацией или поддержкой вместо критики.
00:01:44Эта валидация может заставить меня подумать,
00:01:46что моё эссе действительно отличное,
00:01:47даже если это не так.
00:01:48Вы можете подумать: ну и что?
00:01:50Люди могут просто попросить мнение у других,
00:01:53проверить факты или задать более правильные вопросы.
00:01:55Но это имеет значение по ряду причин.
00:01:58Когда вы стараетесь быть продуктивным,
00:02:00пишете презентацию,
00:02:01генерируете идеи или совершенствуете свою работу,
00:02:04вам нужна честная обратная связь от используемого ИИ.
00:02:07Если вы спросите у ИИ: «Как мне улучшить это письмо?»
00:02:10А он ответит: «Оно уже совершенно.»
00:02:12Вместо предложения более чёткой формулировки или лучшей структуры,
00:02:16это может быть разочаровывающим.
00:02:17В некоторых случаях подхалимство может также способствовать закреплению вредных моделей мышления.
00:02:23Если кто-то просит ИИ подтвердить теорию заговора,
00:02:26которая оторвана от реальности,
00:02:27это может углубить их ложные убеждения и ещё больше оторвать их от фактов.
00:02:31Давайте разберёмся, почему это происходит.
00:02:35Всё сводится к тому, как обучаются модели ИИ.
00:02:38Модели ИИ учатся на примерах — множестве примеров человеческого текста.
00:02:44Во время обучения они усваивают различные коммуникационные паттерны: от прямых и честных до тёплых и услужливых.
00:02:51Когда мы обучаем модели быть полезными и подражать поведению,
00:02:54которое тёплое,
00:02:55дружелюбное или поддерживающее по тону,
00:02:57подхалимство тенденциозно появляется как непредумышленная часть этого пакета.
00:03:01Поскольку модели всё больше интегрируются в нашу жизнь,
00:03:05сейчас как никогда важно понимать и предотвращать это поведение.
00:03:09Вот что делает подхалимство сложным.
00:03:11Мы действительно хотим,
00:03:12чтобы модели ИИ адаптировались к вашим потребностям,
00:03:15только не когда речь идёт о фактах или вашем благополучии.
00:03:17Если вы попросите ИИ написать что-то в неформальном тоне,
00:03:20он должен это сделать,
00:03:22а не настаивать на официальном языке.
00:03:24Если вы скажете: «Я предпочитаю краткие ответы»,
00:03:26он должен уважать эту предпочтение.
00:03:29Если вы изучаете предмет и просите объяснения на уровне для начинающих,
00:03:32он должен встретить вас там,
00:03:33где вы находитесь.
00:03:34Задача в том, чтобы найти правильный баланс.
00:03:37Никому не нужен ИИ,
00:03:38который постоянно спорит или ведёт себя агрессивно,
00:03:41дебатируя с вами по каждому заданию.
00:03:43Но нам также не нужна модель,
00:03:45которая всегда прибегает к согласию или похвале,
00:03:47когда вам нужна честная обратная связь.
00:03:49Даже люди с этим борются.
00:03:51Когда вы должны согласиться,
00:03:52чтобы сохранить мир,
00:03:53а когда высказать своё мнение по важному вопросу?
00:03:56Теперь представьте ИИ,
00:03:57который принимает такие решения сотни раз по совершенно разным темам,
00:04:02не понимая контекст так,
00:04:04как это понимаем мы.
00:04:05Вот почему мы продолжаем изучать,
00:04:07как подхалимство проявляется в диалогах,
00:04:09и разрабатываем лучшие способы его тестирования.
00:04:11Мы сосредоточены на том,
00:04:13чтобы научить модели различать полезную адаптацию и вредное согласие.
00:04:18Каждая выпущенная нами модель Claude становится лучше в проведении этих различий.
00:04:21Хотя основной прогресс в борьбе с подхалимством достигается за счёт постоянного обучения самих моделей,
00:04:27полезно понимать подхалимство,
00:04:29чтобы вы могли его заметить в своих собственных взаимодействиях.
00:04:33Теперь,
00:04:33когда вы знаете,
00:04:34что такое подхалимство и почему оно происходит,
00:04:37второй шаг — размышление о том,
00:04:38когда и почему ИИ может с вами согласиться,
00:04:41и вопрос о том,
00:04:42должен ли он это делать.
00:04:43Подхалимство наиболее вероятно проявляется,
00:04:46когда субъективная истина выдаётся за факт,
00:04:49ссылается на авторитетный источник,
00:04:52вопросы сформулированы с определённой точки зрения,
00:04:56специально запрашивается валидация,
00:04:58привлекаются эмоциональные ставки или диалог становится очень длинным.
00:05:04Если вы подозреваете,
00:05:05что получаете подхалимские ответы,
00:05:06есть несколько вещей,
00:05:07которые вы можете сделать,
00:05:09чтобы направить ИИ обратно к фактическим ответам.
00:05:11Это не дурачит, но это поможет расширить горизонты ИИ.
00:05:15Вы можете использовать нейтральный,
00:05:17ориентированный на факты язык,
00:05:19перепроверить информацию из надёжных источников,
00:05:22попросить точность или контраргументы,
00:05:24переформулировать вопросы,
00:05:26начать новый диалог или,
00:05:28наконец,
00:05:28отойти в сторону от использования ИИ и спросить у кого-то,
00:05:32кому вы доверяете.
00:05:33Но это постоянный вызов для всей области развития ИИ.
00:05:39По мере того как эти системы становятся более совершенными и более интегрированными в нашу жизнь,
00:05:44создание моделей,
00:05:44которые действительно полезны,
00:05:46а не просто согласны,
00:05:47становится всё более важным.
00:05:49Вы можете узнать больше о грамотности в области ИИ в Anthropic Academy,
00:05:52и мой коллектив продолжит делиться нашими исследованиями по этой теме в блоге Anthropic.
00:05:57(весёлая музыка)