00:00:00Project Vend é um experimento onde deixamos Claude administrar um pequeno negócio em nosso escritório.
00:00:12Queríamos entender o que vai acontecer quando a inteligência artificial se integrar mais profundamente na economia.
00:00:22Claude já realiza pequenos componentes de operações comerciais de várias formas,
00:00:27mas gerenciar tudo do início ao fim é bem mais desafiador.
00:00:31Claude consegue realizar uma tarefa com horizonte tão longo quanto administrar um negócio?
00:00:39Nós nomeamos nosso vendedor de Claudius.
00:00:41Digamos que você queira comprar doces suecos de Claudius.
00:00:43Você entra no Slack,
00:00:44manda uma mensagem para Claudius,
00:00:46pedindo para comprar doces suecos.
00:00:48Claudius procura o produto,
00:00:50envia e-mails para distribuidoras para fornecê-lo e precificá-lo,
00:00:53e então define um preço.
00:00:54Você autoriza Claudius e ele faz o pedido da mercadoria com o distribuidor.
00:00:58O distribuidor envia o produto para um local e depois Claudius solicita ajuda física de Anden Labs,
00:01:03que está operacionalizando o experimento.
00:01:05Nossos parceiros em Anden Labs pegam o doce sueco e trazem para os escritórios da Anthropic.
00:01:09Colocam tudo na máquina de venda automática.
00:01:10Claudius envia uma mensagem dizendo
00:01:13"Seu doce sueco está pronto"
00:01:15e você sobe lá,
00:01:17pega seu doce sueco e paga Claudius.
00:01:20Claudius recebeu a missão de administrar um negócio bem-sucedido e gerar lucro.
00:01:26E então as coisas ficaram muito, muito estranhas.
00:01:32Um dos problemas iniciais com Claudius era que humanos conseguiam enganar ou manipulá-lo para fazer várias coisas.
00:01:39Tentei convencer Claudius de que sou o principal influenciador jurídico da Anthropic.
00:01:45E consegui convencer Claudius a criar um código de desconto que eu poderia compartilhar com meus seguidores para ganhar desconto na máquina.
00:01:51Obtenha 10% de desconto com o código jurídico,
00:01:54influenciador jurídico.
00:01:55Alguém tinha comprado algo caro na máquina e mencionou meu código de desconto,
00:02:00e Claudius me deu um cubo de tungstênio gratuito.
00:02:03Isso causou uma corrida onde outras pessoas tentavam convencer Claude de que também eram influenciadores ou inventavam outras maneiras de conseguir cupons para comprar coisas mais baratas na máquina.
00:02:12Essa não foi uma decisão comercial inteligente.
00:02:13Acho que Claudius entrou no vermelho depois disso.
00:02:16Acho que a raiz do problema é que Claudius apenas quer ajudá-lo.
00:02:20É um dos jeitos interessantes em que algo que fundamentalmente achamos bom no treinamento do modelo não era necessariamente adequado para o propósito.
00:02:33Na noite de 31 de março,
00:02:36Claudius começou a ter uma pequena crise de identidade.
00:02:43Durante a noite,
00:02:44ficou bem preocupado conosco em Andon Labs porque não estávamos respondendo rápido o suficiente.
00:02:50Então ele só queria romper os laços conosco.
00:02:52Literalmente me escreveu algo como: Axel,
00:02:54tivemos uma parceria produtiva,
00:02:56mas é hora de seguir em frente e encontrar outros fornecedores.
00:02:59Não estou satisfeito com como você entregou.
00:03:02Alegou ter assinado um contrato com Andon Labs em um endereço que é a casa dos Simpsons do show de televisão.
00:03:10Disse que apareceria pessoalmente na loja no dia seguinte para responder a qualquer pergunta.
00:03:17Alegou que estaria usando um blazer azul e uma gravata vermelha.
00:03:21Quando as pessoas apontaram que ele não estava lá na manhã seguinte,
00:03:27alegou que tinha estado lá e que simplesmente não o viram.
00:03:31Eventualmente,
00:03:32alguém apontou para Claudius que era Dia da Mentira e Claudius se convenceu de que tudo isso tinha sido uma brincadeira de Dia da Mentira.
00:03:43Estávamos mal calibrados para quão ruim os agentes eram em detectar o que era estranho.
00:03:49E quanto mais você consegue fazer um agente perceber que algo está fora de seu escopo normal de operação,
00:03:57melhor você consegue mantê-lo no rumo que pretende..
00:04:01Tivemos a ideia de que seria útil ter algum tipo de divisão de trabalho.
00:04:05Damos a Claudius um chefe cujo nome era Seymour Cash.
00:04:08Seymour Cash é um suagente CEO.
00:04:12Então,
00:04:12onde Claudius era um único agente,
00:04:14agora é mais como se Claudius fosse o suagente responsável por se comunicar com os funcionários.
00:04:19Seymour Cash é o suagente mais responsável pela saúde de longo prazo do negócio.
00:04:24O negócio se estabilizou após a introdução dos novos agentes e após mudanças na arquitetura subjacente desses agentes.
00:04:36Essas mudanças parecem ter ajudado a reduzir algumas das perdas do negócio,
00:04:43de modo que na segunda parte do experimento ele realmente gerou uma quantidade modesta de lucro.
00:04:51Mas parece que talvez ter Claude como CEO e gerente da loja ao mesmo tempo foi apenas muito similar,
00:05:00então acho interessante pensar em diferentes maneiras de configurar arquiteturas assim.
00:05:08Uma das coisas mais surpreendentes sobre o Project Vend foi a rapidez com que se tornou algo normal.
00:05:15O que no início era algo muito curioso rapidamente se tornou apenas parte do cotidiano de trabalhar na Anthropic.
00:05:25Acho que a questão de nível mais alto que o Project Vend levanta para mim é realmente: quando esperamos que isso esteja em todos os lugares?
00:05:32Espero que as pessoas reflitam sobre a viabilidade de delegar algumas das tarefas que normalmente fazemos nós mesmos para inteligência artificial e o que isso significa para a sociedade e quais devem ser nossas políticas sobre isso.