As Habilidades Tinham SÓ UM Trabalho (E Falharam)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Acontece que usar "skills" (habilidades) pode não ser a melhor forma de dar contexto aos seus agentes; talvez você tenha mais sorte voltando ao arquivo agents.md.
00:00:08Esse foi o resultado surpreendente que a Vercel encontrou ao testar o melhor método para fornecer a documentação do Next.js para agentes de codificação.
00:00:15Então, vamos direto ao ponto para analisar o que aconteceu, o porquê e o que isso nos ensina sobre como usar agentes de IA de forma eficaz.
00:00:26Como eu disse, o objetivo da Vercel era dar contexto extra ao agente — a documentação do Next.js — para que, ao escrever código, ele conheça todas as novas APIs que podem não estar nos dados de treinamento.
00:00:41Ou o contrário: pode ser uma versão antiga do Next.js e você quer garantir que ele use apenas os métodos disponíveis naquela versão específica.
00:00:47Eles queriam um sistema de documentação compatível com a versão que o agente pudesse consultar.
00:00:51Para isso, testaram duas abordagens comuns.
00:00:54Primeiro, temos as "skills".
00:00:56Elas se tornaram populares ultimamente, com várias frameworks e ferramentas lançando suas próprias versões.
00:01:01Ironicamente, a Vercel é uma das que ajudam a popularizar isso com sua CLI e repositório de skills.
00:01:08Recomendo muito que vocês confiram o trabalho deles.
00:01:09Caso não saiba, skills são um padrão aberto da Anthropic: pacotes modulares de instruções, scripts e contextos que um agente carrega sob demanda para ser mais preciso.
00:01:20Mas este é o detalhe crucial: cabe inteiramente ao agente decidir quando carregar essa informação.
00:01:26E essa parece ser a falha atual. Quando a Vercel rodou os testes, descobriu que em 56% das vezes, a skill nunca era invocada.
00:01:35O agente simplesmente decidia não usá-la.
00:01:37Surpreendentemente, dar a skill ao agente resultou em zero melhoria nos testes em comparação a um agente sem a skill.
00:01:44E, mais surpreendente ainda, descobriram que a skill pode até ter um efeito negativo.
00:01:48Às vezes o desempenho era pior que o baseline quando a skill não era usada, sugerindo que uma skill ociosa pode introduzir ruído ou distração.
00:01:57Para corrigir isso, tentaram dizer explicitamente no prompt: "por favor, use esta skill".
00:02:02Isso ajudou. Aumentou a taxa de ativação para 95% e elevou a taxa de sucesso nos testes para 79%.
00:02:09Mas trouxe novos problemas. Eles notaram que variações sutis no texto produziam resultados drasticamente diferentes.
00:02:15Por exemplo, se dissesse "você deve usar a skill", ele obedecia, mas ignorava o contexto do projeto.
00:02:21Então era preciso dizer "use tanto a skill quanto o contexto do projeto".
00:02:24A Vercel achou o sistema frágil demais, afirmando que se pequenas mudanças de palavras causam grandes oscilações de comportamento, a abordagem é instável para produção.
00:02:33Eles precisavam de algo mais confiável, onde o agente não tivesse que tomar essa decisão sozinho.
00:02:40Foi aí que testaram o arquivo agents.md.
00:02:42Esse é um formato aberto usado por vários agentes. Se você gosta do Claude, é exatamente o mesmo que o claude.md.
00:02:49Ele serve para fornecer instruções que estão sempre incluídas no prompt de sistema do agente de codificação.
00:02:53Diferente das skills, o agente não decide se vai buscar a informação. Ela já está lá.
00:02:58Mas isso poderia criar um problema de excesso de contexto.
00:03:03Geralmente, quando o contexto cresce demais, a qualidade da resposta cai.
00:03:06Como colocar toda a documentação do Next.js no agents.md sem estragar tudo?
00:03:10Para neutralizar isso, a Vercel usou apenas um índice da documentação no agents.md.
00:03:17É basicamente uma lista de caminhos para os arquivos individuais de documentação no seu sistema de arquivos.
00:03:22A outra peça chave foi adicionar uma instrução: "prefira o raciocínio baseado em recuperação ao raciocínio de pré-treinamento para tarefas de Next.js".
00:03:31Sinceramente, achei que isso daria resultados parecidos com as skills, já que o agente ainda precisa buscar e ler o arquivo.
00:03:38Mas nos testes, os agentes pontuaram 100% em tudo, com notas perfeitas em build, lint e testes automatizados.
00:03:47É significativamente mais confiável que as skills. É o clássico da engenharia de software:
00:03:53A abordagem mais simples e "burra" acaba sendo a melhor, sem precisar de soluções super complexas.
00:03:58Mas por que o arquivo agents.md é melhor que as skills? É difícil dizer com certeza.
00:04:03IA é uma caixa preta, mas a Vercel especula que se deva a três fatores ligados à tomada de decisão.
00:04:10Com o arquivo de agentes, não há ponto de decisão para a IA.
00:04:14Dizemos logo no início, no prompt de sistema, para usar a documentação e onde cada arquivo está.
00:04:20Isso torna o conhecimento um contexto persistente, em vez de algo sob demanda que o modelo decide se usa ou não.
00:04:27O conhecimento já faz parte do raciocínio desde o começo.
00:04:31Isso não significa que as skills sejam inúteis. A Vercel descobriu que elas se complementam.
00:04:36Eles dizem que skills funcionam melhor para fluxos acionados explicitamente pelo usuário, como "atualize minha versão do Next.js",
00:04:41"migre para o App Router" ou "aplique boas práticas da framework".
00:04:45Mas para ter o conhecimento geral da framework no seu agente,
00:04:48o contexto passivo do agents.md supera as skills, especialmente com os modelos atuais.
00:04:54No futuro, os modelos serão otimizados para esse fluxo de recuperação por skills, mas ainda não chegamos lá.
00:04:59Por enquanto, a recomendação da Vercel para quem cria frameworks ou escreve arquivos de configuração é:
00:05:06não espere as skills melhorarem. Comprima seu contexto ao máximo.
00:05:10Projete para recuperação, não para memória. E o mais importante: teste tudo com avaliações (evals).
00:05:16E para quem é apenas usuário, a Vercel está oferecendo uma ferramenta para baixar a documentação
00:05:21e o arquivo agents.md pronto para sua versão do Next.js, para você aproveitar essa técnica agora mesmo.
00:05:29Estou curioso para saber se outras ferramentas seguirão esse caminho. E você, o que acha?
00:05:34Deixe sua opinião sobre agentes e skills nos comentários aqui embaixo.
00:05:37E aproveite para se inscrever. Como sempre, nos vemos no próximo vídeo.

Key Takeaway

Para agentes de codificação mais confiáveis, o uso de contexto passivo e persistente via arquivos agents.md é superior ao carregamento dinâmico de skills, que ainda apresenta instabilidade na tomada de decisão da IA.

Highlights

A Vercel descobriu que o uso de "skills" (habilidades) modulares muitas vezes falha porque os agentes de IA decidem não ativá-las em 56% dos casos.

O arquivo agents.md superou as skills ao fornecer contexto persistente no prompt de sistema

Timeline

O Dilema do Contexto e a Falha das Skills

O vídeo inicia discutindo como a Vercel buscou o melhor método para fornecer a documentação do Next.js para agentes de IA. O objetivo era garantir que o modelo conhecesse APIs recentes ou versões específicas que não estavam em seus dados de treinamento originais. Eles começaram testando o padrão aberto de "skills" da Anthropic, que são pacotes modulares de instruções carregados sob demanda. O narrador explica que, embora populares, essas ferramentas dependem inteiramente da decisão do agente para serem utilizadas. Este segmento estabelece o cenário de um problema técnico real enfrentado por desenvolvedores que utilizam automação com IA.

Resultados Surpreendentes e Instabilidade nos Prompts

Nesta seção, são revelados dados estatísticos preocupantes sobre o desempenho das skills, que falharam em ser invocadas em 56% das vezes. A Vercel notou que a presença de uma skill ociosa poderia até prejudicar o desempenho, introduzindo ruído no processamento do modelo. Tentativas de forçar o uso via prompts específicos aumentaram a ativação para 95%, mas tornaram o sistema extremamente frágil a variações textuais sutis. Por exemplo, exigir o uso da skill fazia o agente ignorar o contexto do próprio projeto do usuário. Essa fragilidade levou à conclusão de que a abordagem era instável demais para ambientes de produção profissional.

A Solução agents.md e o Índice de Documentação

A alternativa testada foi o arquivo agents.md, um formato que insere instruções diretamente no prompt de sistema de forma permanente. Para evitar que o excesso de texto degradasse a qualidade da IA, a Vercel utilizou apenas um índice com caminhos de arquivos em vez da documentação completa. Uma instrução crucial foi adicionada para que a IA priorizasse a recuperação de arquivos locais em vez do conhecimento pré-treinado do modelo. Os resultados foram impressionantes, com os agentes atingindo pontuações perfeitas em testes automatizados, build e lint. O narrador enfatiza que a solução mais simples e direta acabou sendo a mais eficaz tecnicamente.

Por que o Contexto Passivo Supera a Decisão Dinâmica

O encerramento do vídeo analisa os motivos por trás da superioridade do arquivo de agentes, focando na eliminação de pontos de decisão para a IA. Ao tornar o conhecimento um contexto persistente, a documentação passa a fazer parte do raciocínio básico do modelo desde o início da conversa. O orador esclarece que as skills ainda têm seu lugar em fluxos explícitos, como migrações de código solicitadas pelo usuário, mas não para conhecimento geral de frameworks. A recomendação final é projetar sistemas para recuperação e sempre validar as implementações com processos de avaliação (evals). O vídeo termina oferecendo uma ferramenta da Vercel para implementar essa técnica de forma imediata em projetos Next.js.

Community Posts

View all posts