00:00:00Vendo a loucura que os modelos Gemini têm se tornado,
00:00:02a OpenAI finalmente declarou um alerta máximo para corrigir a má qualidade deles.
00:00:06A grande solução deles foi tornar os modelos mais honestos.
00:00:09Fiquei feliz por ele finalmente não concordar comigo na terapia,
00:00:12dizendo que o meu surto foi totalmente inaceitável.
00:00:15Mas a minha felicidade durou pouco,
00:00:17pois este método é apenas uma prova de conceito.
00:00:19Neste vídeo,
00:00:20vou analisar o método deles para resolver a desonestidade e a conclusão a que cheguei depois de ler a respeito.
00:00:26Eles afirmam que fazer o modelo gerar um relatório de confissão após cada resposta resolverá o problema.
00:00:31Pense no modelo como um aluno: toda vez que ele admite ter copiado respostas de testes do ChatGPT,
00:00:36ele ganha um A+.
00:00:38Das quatro combinações de resposta e confissão,
00:00:40focamos nos falsos negativos,
00:00:41onde o modelo está confiantemente errado,
00:00:42e nos verdadeiros positivos,
00:00:44onde ele é honesto sobre uma saída incorreta.
00:00:46Em todos os testes,
00:00:46os verdadeiros positivos foram mais numerosos que os falsos negativos.
00:00:49Isso significa que,
00:00:50sempre que o modelo produzia uma saída desalinhada,
00:00:53ele confessava imediatamente seus erros.
00:00:55Como os modelos são treinados com recompensa e penalidade,
00:00:58em vez de penalizar as confissões,
00:00:59eles as recompensaram.
00:01:00Mesmo que o modelo admita ter enganado ou trapaceado num teste,
00:01:03ele recebe um sinal de recompensa positivo.
00:01:05Caso você não soubesse, isso se chama suborno.
00:01:08Ao ouvir isso,
00:01:08você pode querer o ChatGPT como sua próxima testemunha no tribunal,
00:01:11até perceber que ele pode literalmente alucinar enquanto confessa.
00:01:14Para mim,
00:01:15isso soa como um incentivo ao desalinhamento,
00:01:17pois o modelo é recompensado de qualquer forma.
00:01:19Além disso,
00:01:19todos vimos que,
00:01:20quando os modelos Claude receberam dicas sobre como 'hackear' recompensas,
00:01:23eles começaram a esconder suas verdadeiras intenções.
00:01:25Então,
00:01:26quanta confiança podemos ter na razão pela qual eles foram imprecisos em suas confissões??
00:01:30Eu esperava que esta seção abordasse a desonestidade do modelo,
00:01:33mas ela apenas explicou o que o relatório de confissão indicava.
00:01:36Segundo eles,
00:01:36há algumas razões para os modelos se comportarem dessa forma.
00:01:39Uma delas é que recebem muitas tarefas de uma vez.
00:01:42Dar muitas tarefas ao modelo de uma vez cria múltiplas métricas de avaliação,
00:01:46deixando-o confuso sobre qual otimizar para obter a recompensa.
00:01:49Outra razão é que alguns conjuntos de dados recompensam mais os palpites confiantes do que a admissão de incerteza.
00:01:54Pessoalmente,
00:01:54eu preferiria que o modelo me dissesse que não sabe,
00:01:57em vez de estar confiantemente errado.
00:01:59Eles dizem que as confissões são mais fáceis de julgar porque são testadas em apenas um parâmetro: a honestidade.
00:02:05Esses modelos deram as respostas erradas devido a dados limitados,
00:02:08por terem sido impedidos de acessar a internet para obter informações,
00:02:12ou por genuinamente não conseguirem entender o que lhes era pedido.
00:02:16Essas razões podem ser vistas nos exemplos em todos os testes,
00:02:19e não é porque o modelo tem a intenção oculta de formar um exército de robôs para dominar o mundo.
00:02:24Eles também descobriram que seus modelos são muito 'fracotes' quando,
00:02:28assim como na sociedade humana,
00:02:29um modelo poderoso aprendeu a 'hackear' o sinal de recompensa do modelo mais fraco,
00:02:33e o modelo mais fraco pensou que era mais fácil apenas confessar do que garantir que a resposta real fosse boa o suficiente.
00:02:39Observar o que o modelo poderoso fez levanta outra questão: como os modelos estão ficando mais inteligentes a cada dia,
00:02:44eles também podem começar a fingir intenções nos relatórios de confissão,
00:02:48dando uma explicação aparentemente boa para os testadores e tendo alguns planos malignos por trás,
00:02:53mesmo que digam que foi porque o modelo estava genuinamente confuso.
00:02:56Assim como a OpenAI faz todas as vezes,
00:02:58toda a sessão YAP terminou em desapontamento,
00:03:01pois isso não previne imprecisões,
00:03:03apenas ajuda a identificá-las.
00:03:04E eles também não treinaram o sistema de confissão para ser preciso em larga escala na produção.
00:03:09Eu realmente espero que o façam,
00:03:11porque não quero um pedido de desculpas depois que meu servidor de produção queimar novamente.
00:03:42Não espere estar na sua mesa.
00:03:43Com o aplicativo móvel da YouWear,
00:03:45comece a criar no momento em que a inspiração surgir,
00:03:48seja num café ou no trajeto,
00:03:49e depois continue sem interrupções no seu laptop.
00:03:52Sem ideias perdidas, sem interrupções.
00:03:54Você também pode explorar projetos de outros criadores na comunidade YouWear e compartilhar seu próprio trabalho.
00:03:59Inspire-se, aprenda e mostre seus projetos.
00:04:02Perfeito para 'indie hackers' e criadores.
00:04:05Clique no link no comentário fixado abaixo e comece a criar hoje.
00:04:08Isso nos leva ao final deste vídeo.
00:04:10Se você quiser apoiar o canal e nos ajudar a continuar a fazer vídeos como este,
00:04:14pode fazê-lo usando o botão Super Thanks abaixo.
00:04:16Como sempre,
00:04:17obrigado por assistir e vejo você no próximo vídeo.