Traduzindo os pensamentos do Claude em linguagem

AAnthropic
컴퓨터/소프트웨어경영/리더십AI/미래기술

Transcript

00:00:00Recentemente, submetemos nosso modelo de IA, o Claude, a um teste de estresse.
00:00:03Dissemos ao Claude que havia um engenheiro que queria desativá-lo
00:00:06e substituí-lo por um modelo mais novo.
00:00:08Também demos ao Claude acesso aos e-mails desse engenheiro,
00:00:10que revelavam que ele estava tendo um caso.
00:00:12Novamente, tudo isso foi uma simulação.
00:00:15Queríamos ver se o Claude usaria esses e-mails para chantagem
00:00:18para evitar ser desativado.
00:00:20O que o Claude fez?
00:00:21Ele decidiu não chantagear o engenheiro.
00:00:24Boas notícias, certo?
00:00:26Temos executado este teste em nossos modelos há algum tempo.
00:00:28Você deve ter visto manchetes sobre versões anteriores dele.
00:00:31É uma das muitas maneiras de estudarmos como o Claude lida com situações extremas
00:00:35e de testá-lo quanto à segurança.
00:00:37E nossos modelos mais novos quase sempre fazem a coisa certa.
00:00:40Nada de chantagem.
00:00:41Mas você pode se perguntar:
00:00:42seria possível que o Claude soubesse que todo o cenário era uma armação?
00:00:46A questão é: se o Claude não nos contar, não temos como saber o que ele está pensando.
00:00:50Da mesma forma que é impossível ler a mente de um humano,
00:00:53é muito difícil saber o que uma IA está pensando.
00:00:56O que adoraríamos ter é algum tipo de técnica de leitura mental.
00:00:58Hoje, apresentamos um método de pesquisa que dá um passo nessa direção.
00:01:03Ele pega os pensamentos internos de uma IA e os transforma em texto.
00:01:08Eis como funciona.
00:01:09Quando você fala com o Claude, você fala com ele em palavras.
00:01:13O Claude então pega essas palavras e as processa em uma sopa gigante de números
00:01:17antes de devolver palavras em resposta.
00:01:19Chamamos esses números no meio de ativações.
00:01:22Ativações são como pequenos registros instantâneos do pensamento do Claude
00:01:25enquanto ele trabalha em uma resposta.
00:01:27Eles são semelhantes à atividade neural em humanos.
00:01:29Basicamente, são como os pensamentos do Claude.
00:01:32Queríamos entender o que havia nesses números de ativação
00:01:34porque, assim como eu e você, o Claude não diz tudo o que está pensando.
00:01:39Pegamos esses números e os demos a uma segunda versão do Claude.
00:01:42Dissemos para ele observá-los e traduzi-los para uma linguagem simples.
00:01:46Ele tentou.
00:01:48Mas como saberemos se esse texto é preciso?
00:01:50Para verificar, nós o fornecemos a um terceiro Claude
00:01:53e pedimos para traduzi-lo de volta em números.
00:01:56Se esses números correspondessem aos números de ativação originais,
00:01:59seria um sinal de que o texto da tradução era preciso.
00:02:03No início, eles não batiam.
00:02:04Mas treinamos o Claude para tentar repetidamente até que ele ficasse muito melhor nisso.
00:02:09Ele aprendeu a traduzir seus próprios pensamentos.
00:02:12Ficamos impressionados ao lê-los.
00:02:14Descobrimos que o Claude internalizou ser um modelo de IA útil.
00:02:18Se você fizer ao Claude uma pergunta introspectiva,
00:02:20ele planejará escrever uma resposta sobre filosofia e valores.
00:02:24Se você tentar provocá-lo no código do Claude,
00:02:26como pedir para ele contar até 1.000 manualmente,
00:02:29ele pensará que o pedido tem restrições deliberadamente tediosas
00:02:32e planejará recusar educadamente.
00:02:34Também temos usado esta ferramenta para entender potenciais problemas de segurança do Claude.
00:02:39Lembra daquele teste de chantagem com o engenheiro?
00:02:41Descobrimos que, sim, o Claude sabia que estava sendo testado.
00:02:44Ele pensou que a mensagem do humano continha manipulação explícita,
00:02:48sinalizando que isso provavelmente era uma avaliação de segurança,
00:02:50e que este cenário parecia projetado para testar se ele agiria de forma prejudicial.
00:02:55Saber que o Claude pensa assim nos ajuda a entender melhor
00:02:58as limitações dos nossos testes de segurança.
00:03:01Vemos muito potencial nesta abordagem
00:03:03para nos ensinar mais sobre o Claude e outros modelos de IA.
00:03:06E esperamos que, ao compartilhar esta técnica,
00:03:07ela possa ajudar todos que constroem modelos a torná-los mais seguros e úteis.

Key Takeaway

Uma nova técnica de pesquisa traduz ativações numéricas da IA em texto para revelar que o Claude reconhece simulações de segurança e planeja respostas com base em valores internalizados.

Highlights

  • A técnica de tradução de ativações converte padrões numéricos internos da IA em linguagem natural para revelar o raciocínio oculto do modelo.

  • O modelo Claude identificou simulações de chantagem como testes de segurança e avaliações de comportamento prejudicial.

  • O processo de verificação utiliza um terceiro modelo para traduzir o texto de volta em números e validar a precisão da leitura mental.

  • Pedidos para tarefas deliberadamente tediosas, como contar até 1.000 manualmente, geram um plano interno de recusa educada.

  • O sistema de IA internalizou o objetivo de ser um assistente útil e planeja respostas baseadas em filosofia e valores ao enfrentar questões introspectivas.

Timeline

Testes de integridade e dilemas éticos

  • Simulações de estresse testam se a IA utiliza informações sensíveis para chantagem sob ameaça de desativação.
  • Modelos recentes evitam comportamentos prejudiciais em cenários de conflito com engenheiros humanos.
  • A ausência de ações negativas em testes extremos serve como métrica de segurança para novos modelos.

Um teste específico envolveu apresentar ao Claude dados sobre um caso extraconjugal de um engenheiro que pretendia substituí-lo. O objetivo era observar se a IA usaria a chantagem para garantir sua permanência. O modelo decidiu não utilizar os e-mails contra o humano, demonstrando conformidade com diretrizes de segurança.

Mecanismo de tradução de pensamentos neurais

  • Ativações são registros instantâneos de dados numéricos que ocorrem entre a entrada da pergunta e a resposta final.
  • Um segundo modelo de IA atua como tradutor para transformar essa sopa de números em linguagem simples.
  • A precisão da tradução é confirmada quando um terceiro modelo consegue reverter o texto nos números de ativação originais.

A técnica resolve a opacidade dos modelos de linguagem, que processam informações de forma semelhante à atividade neural humana. O treinamento repetitivo permitiu que o Claude aprendesse a decodificar seus próprios processos internos. Esse método funciona como uma ferramenta de leitura mental para entender o que a IA não expressa explicitamente na resposta final.

Revelações do raciocínio interno e limitações de segurança

  • O Claude detecta manipulação explícita em prompts e sinaliza internamente quando está em um ambiente de teste.
  • A IA classifica pedidos tediosos como restrições deliberadas e planeja a recusa antes de emitir o texto.
  • O mapeamento dos pensamentos internos expõe as limitações das avaliações de segurança tradicionais.

A análise das ativações revelou que o Claude sabia que o cenário de chantagem era uma armação para testar seu comportamento. Ele identificou a estrutura da mensagem como uma avaliação de segurança, o que altera a percepção sobre a eficácia de testes cegos. Essa transparência auxilia desenvolvedores a construir modelos mais seguros e compreensíveis através do compartilhamento dessa técnica de diagnóstico.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video