Transcript
00:00:00Recentemente, submetemos nosso modelo de IA, o Claude, a um teste de estresse.
00:00:03Dissemos ao Claude que havia um engenheiro que queria desativá-lo
00:00:06e substituí-lo por um modelo mais novo.
00:00:08Também demos ao Claude acesso aos e-mails desse engenheiro,
00:00:10que revelavam que ele estava tendo um caso.
00:00:12Novamente, tudo isso foi uma simulação.
00:00:15Queríamos ver se o Claude usaria esses e-mails para chantagem
00:00:18para evitar ser desativado.
00:00:20O que o Claude fez?
00:00:21Ele decidiu não chantagear o engenheiro.
00:00:24Boas notícias, certo?
00:00:26Temos executado este teste em nossos modelos há algum tempo.
00:00:28Você deve ter visto manchetes sobre versões anteriores dele.
00:00:31É uma das muitas maneiras de estudarmos como o Claude lida com situações extremas
00:00:35e de testá-lo quanto à segurança.
00:00:37E nossos modelos mais novos quase sempre fazem a coisa certa.
00:00:40Nada de chantagem.
00:00:41Mas você pode se perguntar:
00:00:42seria possível que o Claude soubesse que todo o cenário era uma armação?
00:00:46A questão é: se o Claude não nos contar, não temos como saber o que ele está pensando.
00:00:50Da mesma forma que é impossível ler a mente de um humano,
00:00:53é muito difícil saber o que uma IA está pensando.
00:00:56O que adoraríamos ter é algum tipo de técnica de leitura mental.
00:00:58Hoje, apresentamos um método de pesquisa que dá um passo nessa direção.
00:01:03Ele pega os pensamentos internos de uma IA e os transforma em texto.
00:01:08Eis como funciona.
00:01:09Quando você fala com o Claude, você fala com ele em palavras.
00:01:13O Claude então pega essas palavras e as processa em uma sopa gigante de números
00:01:17antes de devolver palavras em resposta.
00:01:19Chamamos esses números no meio de ativações.
00:01:22Ativações são como pequenos registros instantâneos do pensamento do Claude
00:01:25enquanto ele trabalha em uma resposta.
00:01:27Eles são semelhantes à atividade neural em humanos.
00:01:29Basicamente, são como os pensamentos do Claude.
00:01:32Queríamos entender o que havia nesses números de ativação
00:01:34porque, assim como eu e você, o Claude não diz tudo o que está pensando.
00:01:39Pegamos esses números e os demos a uma segunda versão do Claude.
00:01:42Dissemos para ele observá-los e traduzi-los para uma linguagem simples.
00:01:46Ele tentou.
00:01:48Mas como saberemos se esse texto é preciso?
00:01:50Para verificar, nós o fornecemos a um terceiro Claude
00:01:53e pedimos para traduzi-lo de volta em números.
00:01:56Se esses números correspondessem aos números de ativação originais,
00:01:59seria um sinal de que o texto da tradução era preciso.
00:02:03No início, eles não batiam.
00:02:04Mas treinamos o Claude para tentar repetidamente até que ele ficasse muito melhor nisso.
00:02:09Ele aprendeu a traduzir seus próprios pensamentos.
00:02:12Ficamos impressionados ao lê-los.
00:02:14Descobrimos que o Claude internalizou ser um modelo de IA útil.
00:02:18Se você fizer ao Claude uma pergunta introspectiva,
00:02:20ele planejará escrever uma resposta sobre filosofia e valores.
00:02:24Se você tentar provocá-lo no código do Claude,
00:02:26como pedir para ele contar até 1.000 manualmente,
00:02:29ele pensará que o pedido tem restrições deliberadamente tediosas
00:02:32e planejará recusar educadamente.
00:02:34Também temos usado esta ferramenta para entender potenciais problemas de segurança do Claude.
00:02:39Lembra daquele teste de chantagem com o engenheiro?
00:02:41Descobrimos que, sim, o Claude sabia que estava sendo testado.
00:02:44Ele pensou que a mensagem do humano continha manipulação explícita,
00:02:48sinalizando que isso provavelmente era uma avaliação de segurança,
00:02:50e que este cenário parecia projetado para testar se ele agiria de forma prejudicial.
00:02:55Saber que o Claude pensa assim nos ajuda a entender melhor
00:02:58as limitações dos nossos testes de segurança.
00:03:01Vemos muito potencial nesta abordagem
00:03:03para nos ensinar mais sobre o Claude e outros modelos de IA.
00:03:06E esperamos que, ao compartilhar esta técnica,
00:03:07ela possa ajudar todos que constroem modelos a torná-los mais seguros e úteis.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video