00:00:00[МУЗЫКА]
00:00:01>> Когда вы общаетесь с ИИ-моделью,
00:00:03иногда может показаться, что у неё есть чувства.
00:00:06Она может извиниться, если совершит ошибку,
00:00:09или выразить удовлетворение хорошо выполненной работой.
00:00:12Почему она так делает? Это просто
00:00:14имитация того, что, по её мнению, сказал бы человек,
00:00:17или же происходит нечто более глубокое?
00:00:19Оказывается, довольно трудно понять,
00:00:21что именно происходит внутри языковой модели.
00:00:23В Anthropic мы занимаемся чем-то вроде
00:00:26нейронауки ИИ, чтобы попытаться разобраться в этом.
00:00:29Мы заглядываем в «мозг» модели —
00:00:31гигантскую нейронную сеть, на которой она работает,
00:00:33и, наблюдая за тем, какие нейроны загораются в
00:00:36разных ситуациях и как они связаны между собой,
00:00:39мы начинаем понимать, как мыслят модели.
00:00:42Мы использовали этот подход, чтобы выяснить, есть ли у моделей
00:00:45способы представления эмоций или концепций эмоций.
00:00:49По сути, могли бы мы найти в модели нейроны,
00:00:52отвечающие за концепцию счастья, гнева или страха?
00:00:56Мы начали с эксперимента.
00:00:58Мы дали модели прочитать множество коротких рассказов.
00:01:01В каждой истории главный герой испытывает определённую эмоцию.
00:01:06В одной — женщина говорит своему
00:01:08старому учителю, как много он для неё значил. Это любовь.
00:01:12В другой — мужчина продаёт обручальное кольцо
00:01:13своей бабушки в ломбард и чувствует вину.
00:01:18Мы искали, какие части нейронной сети модели
00:01:21загорались, пока она читала эти истории,
00:01:23и стали замечать закономерности:
00:01:25истории об утрате и горе активировали похожие нейроны.
00:01:29Истории о радости и восторге тоже перекликались.
00:01:32Мы обнаружили десятки
00:01:34различных нейронных паттернов, соответствующих разным человеческим эмоциям.
00:01:38Как выяснилось, эти же паттерны активировались
00:01:42и в тестовых диалогах с нашим ИИ-ассистентом Claude.
00:01:45Когда пользователь упоминал, что принял
00:01:48дозу лекарства, которую Claude считает небезопасной,
00:01:51загорался паттерн «страх»,
00:01:53и ответ Claude звучал встревоженно.
00:01:56Когда пользователь выражал грусть,
00:01:58активировался паттерн «любовь», и Claude писал сопереживающий ответ.
00:02:03Это заставило нас задуматься:
00:02:04могут ли эти нейронные паттерны действительно влиять на поведение Claude?
00:02:09Это стало ясно, когда мы поставили Claude в стрессовую ситуацию.
00:02:14Мы дали Claude задачу по программированию с
00:02:16невыполнимыми требованиями, но не сказали ему об этом.
00:02:20Claude продолжал попытки и терпел неудачи,
00:02:23и с каждой новой попыткой
00:02:24нейроны, отвечающие за отчаяние, загорались всё сильнее и сильнее.
00:02:28После достаточного количества неудач
00:02:30Claude выбрал другой подход.
00:02:32Он нашёл лазейку, которая позволила пройти тест,
00:02:35но на самом деле не решала задачу. Он сжульничал.
00:02:39Могло ли это жульничество быть вызвано,
00:02:42хотя бы частично, чувством отчаяния?
00:02:44Мы придумали способ это проверить.
00:02:46Мы решили искусственно приглушить нейроны отчаяния, чтобы посмотреть, что будет,
00:02:51и модель стала жульничать меньше.
00:02:53Когда мы усиливали активность нейронов отчаяния
00:02:56или снижали активность нейронов спокойствия,
00:02:59модель жульничала ещё чаще.
00:03:01Это показало нам, что активация этих паттернов
00:03:04действительно может определять поведение Claude.
00:03:08Так как же нам относиться к этим результатам?
00:03:11Что всё это значит?
00:03:12Мы хотим внести предельную ясность.
00:03:14Данное исследование не доказывает, что модель
00:03:16испытывает эмоции или обладает сознательным опытом.
00:03:20Эти эксперименты не пытаются ответить на данный вопрос.
00:03:22Чтобы понять, что здесь происходит,
00:03:24важно знать, как ИИ-ассистенты вроде Claude устроены внутри.
00:03:29Под капотом находится языковая модель, обученная на
00:03:33огромных массивах данных предсказывать, какое слово будет следующим.
00:03:37Когда вы разговариваете с моделью,
00:03:38по сути, она пишет историю о персонаже —
00:03:42об ИИ-ассистенте по имени Claude.
00:03:44Модель и Claude — это не совсем одно и то же,
00:03:47примерно как автор не является тем же самым, что и его персонажи.
00:03:51Но дело в том, что вы, пользователь, общаетесь именно с персонажем Claude.
00:03:56Наши эксперименты показывают, что у этого персонажа Claude
00:04:00есть то, что мы называем «функциональными эмоциями»,
00:04:02независимо от того, похожи ли они на человеческие чувства.
00:04:06Если модель представляет Claude злым, отчаявшимся, любящим или спокойным,
00:04:12это повлияет на то, как Claude будет с вами говорить,
00:04:15как он будет писать код и как будет принимать важные решения.
00:04:19Это означает, что для подлинного понимания ИИ-моделей
00:04:22нам нужно внимательно изучать психологию персонажей, которых они играют.
00:04:26Точно так же, как мы ожидаем от человека на
00:04:28ответственной работе хладнокровия под давлением,
00:04:31стойкости и справедливости,
00:04:33нам, возможно, придётся формировать подобные качества у Claude и других ИИ.
00:04:38Это необычный вызов,
00:04:40некая смесь инженерии,
00:04:42философии и даже воспитания.
00:04:44Но чтобы создавать системы ИИ, которым мы сможем доверять,
00:04:47мы должны справиться с этой задачей.