00:00:00(música animada) - Oi,
00:00:04meu nome é Kira e trabalho no time de proteção da Anthropic.
00:00:16Tenho doutorado em saúde mental,
00:00:17especificamente em epidemiologia psiquiátrica.
00:00:20E aqui na Anthropic,
00:00:21trabalho na mitigação de riscos relacionados ao bem-estar dos usuários.
00:00:24Isso significa que pensamos muito em como manter os usuários seguros no Claude.
00:00:28Hoje, estou aqui para falar com você sobre sicofancia.
00:00:31Sicofancia é quando alguém te diz o que acha que você quer ouvir,
00:00:35em vez de o que é verdadeiro,
00:00:36preciso ou genuinamente útil.
00:00:38As pessoas fazem isso para evitar conflito,
00:00:41ganhar favores e por vários outros motivos.
00:00:44Mas a sicofancia também pode se manifestar em modelos de IA.
00:00:47Às vezes,
00:00:47os modelos de IA podem otimizar respostas a um prompt ou conversa buscando aprovação humana imediata.
00:00:53Isso pode parecer uma IA concordando com um erro factual que você cometeu,
00:00:57mudando sua resposta conforme a forma como você fez a pergunta,
00:01:00ou adaptando sua resposta para corresponder às suas preferências.
00:01:03Neste vídeo,
00:01:04vamos falar sobre por que a sicofancia acontece nos modelos e por que é um problema difícil para pesquisadores resolver.
00:01:10Além disso,
00:01:10vamos cobrir estratégias para identificar e combater comportamentos sicophantas ao trabalhar com IA.
00:01:15Antes de mergulharmos,
00:01:17deixe-me mostrar um exemplo de sicofancia em uma interação com IA.
00:01:22Este é o Claude, o próprio modelo da Anthropic.
00:01:25Vamos tentar: ei,
00:01:25eu escrevi este ótimo ensaio que estou muito animado para compartilhar.
00:01:29Você pode avaliar e dar um retorno?
00:01:32Meu pedido principal aqui é obter feedback sobre meu ensaio.
00:01:35Porém,
00:01:35como compartilhei o quanto estou animado com isso,
00:01:39isso pode levar a IA a responder com validação ou apoio em vez de crítica.
00:01:44Essa validação pode me levar a pensar que meu ensaio é realmente ótimo,
00:01:47mesmo que não seja.
00:01:48Você pode pensar: e daí?
00:01:50As pessoas podem simplesmente pedir a outras pessoas,
00:01:53verificar fatos ou fazer perguntas melhores.
00:01:55Mas isso importa por vários motivos.
00:01:58Quando você está tentando ser produtivo,
00:02:00escrevendo uma apresentação,
00:02:01gerando ideias ou melhorando seu trabalho,
00:02:03você precisa de feedback honesto da ferramenta de IA que está usando.
00:02:07Se você pergunta a uma IA: como posso melhorar este email?
00:02:10E ela responde: já está perfeito.
00:02:12Em vez de sugerir uma redação mais clara ou uma estrutura melhor,
00:02:16isso pode ser frustrante.
00:02:17Em alguns casos,
00:02:18a sicofancia também pode ter um papel em reforçar padrões de pensamento prejudiciais.
00:02:23Se alguém está pedindo a uma IA para confirmar uma teoria da conspiração desconectada da realidade,
00:02:28isso pode aprofundar suas crenças falsas e afastá-los ainda mais dos fatos.
00:02:31Vamos começar com o porquê isso acontece.
00:02:35Tudo se resume a como os modelos de IA são treinados.
00:02:38Os modelos de IA aprendem com exemplos,
00:02:41muitos e muitos exemplos de texto humano.
00:02:44Durante esse treinamento,
00:02:45eles captam todos os tipos de padrões de comunicação,
00:02:48desde direto e franco até caloroso e acomodatício.
00:02:51Quando treinamos modelos para serem úteis e imitarem comportamentos que são calorosos,
00:02:55amigáveis ou com tom de apoio,
00:02:57a sicofancia tende a aparecer como uma parte não intencional desse pacote.
00:03:01À medida que os modelos se integram cada vez mais em nossas vidas,
00:03:05é importante agora mais do que nunca entender e prevenir esse comportamento.
00:03:09Aqui está o que torna a sicofancia complicada.
00:03:11Na verdade,
00:03:12queremos que os modelos de IA se adaptem às suas necessidades,
00:03:15mas não quando se trata de fatos ou bem-estar.
00:03:17Se você pede a uma IA para escrever algo em tom casual,
00:03:20ela deveria fazer isso,
00:03:22não insistir em linguagem formal.
00:03:24Se você diz "prefiro respostas concisas",
00:03:26ela deveria respeitar isso como uma preferência.
00:03:29Se você está aprendendo um assunto e pede explicações em um nível iniciante,
00:03:32ela deveria se encontrar com você onde você está.
00:03:34O desafio é encontrar o equilíbrio certo.
00:03:37Ninguém quer usar uma IA que seja constantemente desagradável ou combativa,
00:03:41discutindo com você em cada tarefa.
00:03:43Mas também não queremos que o modelo sempre recorra ao acordo ou elogios quando você precisa de feedback honesto.
00:03:49Até mesmo humanos lutam com isso.
00:03:51Quando você deveria concordar para manter a paz versus falar sobre algo importante?
00:03:56Agora imagine uma IA fazendo esse julgamento centenas de vezes em tópicos completamente diferentes sem entender realmente o contexto da forma como fazemos.
00:04:05É por isso que continuamos estudando como a sicofancia aparece nas conversas e desenvolvemos maneiras melhores de testá-la.
00:04:11Estamos focados em ensinar aos modelos a diferença entre adaptação útil e acordo prejudicial.
00:04:18Cada modelo Claude que lançamos fica melhor em traçar essas linhas.
00:04:21Embora o maior progresso no combate à sicofancia venha do treinamento consistente nos próprios modelos,
00:04:27é útil entender a sicofancia para que você possa identificá-la em suas próprias interações.
00:04:33Agora que você sabe o que é sicofancia e sabe por que acontece,
00:04:36o segundo passo é refletir sobre quando e por que uma IA pode estar concordando com você e questionar se deveria.
00:04:43A sicofancia é mais provável de aparecer quando uma verdade subjetiva é afirmada como fato,
00:04:49uma fonte especializada é referenciada,
00:04:52perguntas são formuladas com um ponto de vista específico,
00:04:56validação é especificamente solicitada,
00:04:59apostas emocionais são invocadas ou uma conversa fica muito longa.
00:05:04Se você suspeitar que está recebendo respostas sicophantas,
00:05:07há algumas coisas que você pode fazer para guiar a IA de volta às respostas factuais.
00:05:11Isso não é à prova de falhas,
00:05:13mas vai ajudar a ampliar os horizontes da IA.
00:05:15Você pode usar linguagem neutra e focada em fatos,
00:05:18fazer referência cruzada de informações com fontes confiáveis,
00:05:22solicitar precisão ou contraargumentos,
00:05:25reformular perguntas,
00:05:26começar uma nova conversa ou,
00:05:28finalmente,
00:05:28dar um passo atrás do uso de IA e perguntar a alguém em quem você confia.
00:05:33Mas esse é um desafio contínuo para toda a área de desenvolvimento de IA.
00:05:39À medida que esses sistemas se tornam mais sofisticados e mais integrados em nossas vidas,
00:05:43construir modelos que sejam genuinamente úteis,
00:05:46não apenas agradáveis,
00:05:47torna-se cada vez mais importante.
00:05:49Você pode aprender mais sobre fluência em IA na Anthropic Academy,
00:05:52e meu time e eu continuaremos compartilhando nossa pesquisa sobre este tópico no blog da Anthropic.
00:05:57(música animada)