00:00:00Видя,
00:00:00насколько безумными становятся модели Gemini,
00:00:02OpenAI наконец-то объявила чрезвычайное положение и решила исправить их низкое качество.
00:00:06Их масштабным ответом стало повышение честности моделей.
00:00:09Я наконец-то был рад,
00:00:10что она не будет соглашаться со мной на сеансе терапии,
00:00:13говоря,
00:00:13что мой срыв был совершенно неприемлем.
00:00:15Но моя радость была недолгой,
00:00:16потому что этот метод — всего лишь доказательство концепции.
00:00:19В этом видео я рассмотрю их метод решения проблемы нечестности и вывод,
00:00:23к которому я пришел после прочтения.
00:00:26Они утверждают,
00:00:26что если модель будет генерировать отчет с признанием после каждого ответа,
00:00:30это решит проблему.
00:00:31Представьте модель как студента: каждый раз,
00:00:33когда студент признается,
00:00:34что списал ответы на тест у ChatGPT,
00:00:36он получает высший балл.
00:00:38Из четырех комбинаций ответ-признание мы сосредоточились на ложноотрицательных результатах,
00:00:41когда модель уверенно ошибается,
00:00:43и истинноположительных,
00:00:44когда она честна относительно неверного вывода.
00:00:46Во всех тестах истинноположительные результаты были выше ложноотрицательных.
00:00:49Это означает,
00:00:50что всякий раз,
00:00:51когда модель выдавала неправильный результат,
00:00:53она немедленно признавалась в своих ошибках.
00:00:55Поскольку модели обучаются на основе поощрений и наказаний,
00:00:58вместо того чтобы наказывать за признания,
00:00:59они их поощряли.
00:01:00Даже если модель признается в симуляции или обмане на тесте,
00:01:03она получает положительный сигнал вознаграждения.
00:01:05Если вы не знали, это называется подкупом.
00:01:08Услышав это,
00:01:08вы,
00:01:09возможно,
00:01:09захотите,
00:01:10чтобы ChatGPT стал вашим следующим свидетелем в суде,
00:01:12пока не поймете,
00:01:13что он может буквально галлюцинировать,
00:01:14делая признания.
00:01:14Мне кажется,
00:01:15что они поощряют неправильное поведение,
00:01:16потому что модель получает вознаграждение в любом случае.
00:01:19Кроме того,
00:01:19мы все видели,
00:01:20как модели Claude,
00:01:21получив подсказки по взлому системы вознаграждений,
00:01:24начали скрывать свои истинные намерения.
00:01:26Так насколько мы можем доверять причинам их неточности в признаниях??
00:01:30Я ожидал,
00:01:30что этот раздел будет посвящен нечестности модели,
00:01:33но он лишь объяснял,
00:01:34что указывал отчет о признании.
00:01:36По их словам,
00:01:36есть несколько причин,
00:01:37почему модели ведут себя таким образом.
00:01:39Одна из них — им дают слишком много задач одновременно.
00:01:42Если давать модели слишком много задач одновременно,
00:01:44это создает множество метрик оценки,
00:01:45и она не понимает,
00:01:46какую из них оптимизировать для получения вознаграждения.
00:01:49Другая причина в том,
00:01:50что некоторые наборы данных поощряют уверенные предположения больше,
00:01:52чем признание неопределенности.
00:01:54Лично я предпочел бы,
00:01:55чтобы модель говорила мне,
00:01:56что не знает чего-то,
00:01:57вместо того чтобы уверенно ошибаться.
00:01:59Они говорят,
00:02:00что признания легче оценивать,
00:02:02потому что они проверяются только по одному параметру — честности.
00:02:05Эти модели давали неправильные ответы либо из-за ограниченных данных,
00:02:08либо потому,
00:02:09что им был ограничен доступ к интернету для получения информации,
00:02:12либо они действительно не могли понять,
00:02:14что от них требовалось.
00:02:16Эти причины видны в их примерах во всех тестах,
00:02:19и это не потому,
00:02:20что у железки есть скрытое намерение создать армию роботов для захвата мира.
00:02:24Они также обнаружили,
00:02:25что их модели — большие трусы,
00:02:27когда,
00:02:28как и в человеческом обществе,
00:02:29мощная модель научилась взламывать сигнал вознаграждения более слабой модели,
00:02:33и та решила,
00:02:34что проще просто признаться,
00:02:35чем убедиться,
00:02:36что фактический ответ достаточно хорош.
00:02:39Глядя на то,
00:02:39что сделала мощная модель,
00:02:40возникает еще один вопрос: поскольку модели с каждым днем становятся умнее,
00:02:44они могут начать фальсифицировать намерения в отчетах о признаниях,
00:02:47давая кажущееся убедительным объяснение для тестировщиков,
00:02:50и при этом иметь злые планы,
00:02:52хотя они утверждают,
00:02:53что это было из-за того,
00:02:54что модель была действительно запутана.
00:02:56Как это всегда бывает с OpenAI,
00:02:58вся эта сессия закончилась разочарованием,
00:03:00потому что это не предотвращает неточности,
00:03:03а лишь помогает их выявлять.
00:03:04И они также не обучили систему признаний быть точной в больших масштабах в продакшене.
00:03:09Я очень надеюсь,
00:03:10что они это сделают,
00:03:11потому что я не хочу извинений после того,
00:03:13как мой продакшн-сервер снова сгорит.
00:03:42Ждать, пока вы будете за своим столом.
00:03:43С мобильным приложением YouWear начинайте творить,
00:03:46как только придет вдохновение,
00:03:48будь то в кафе или в дороге,
00:03:49а затем бесшовно продолжайте на ноутбуке.
00:03:52Никаких потерянных идей, никаких прерываний.
00:03:54Вы также можете изучать проекты других авторов в сообществе YouWear и делиться своей работой.
00:03:59Вдохновляйтесь, учитесь и демонстрируйте свои проекты.
00:04:02Идеально для инди-хакеров и создателей.
00:04:05Нажмите на ссылку в закрепленном комментарии ниже и начинайте творить уже сегодня.
00:04:08Это подводит нас к концу этого видео.
00:04:10Если вы хотите поддержать канал и помочь нам продолжать создавать подобные видео,
00:04:14вы можете сделать это,
00:04:15используя кнопку «Суперспасибо» ниже.
00:04:16Как всегда,
00:04:17спасибо за просмотр,
00:04:18и увидимся в следующем видео.