O Enxame de Agentes ESCONDIDO do Claude Code (Melhor que o Kimi K2.5?)

BBetter Stack
컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00As pessoas estão malucas com o Kimi 2.5. É um modelo de código aberto que tem benchmarks melhores
00:00:05que o Opus e um modo “Agent Swarm” incrivelmente inteligente, onde um orquestrador pode criar até 100
00:00:11agentes especializados para uma tarefa complexa. Mas você sabia que esse recurso também existe no código do Claude,
00:00:17atrás de uma flag oculta, e foi descoberto por um usuário no Twitter? Como alguém descobriu isso? E será que
00:00:23a Anthropic simplesmente roubou a ideia do Kimi? Se inscreva no canal e vamos direto ao assunto. A Anthropic anunciou
00:00:30subagentes personalizados em julho do ano passado e, desde então, as pessoas os utilizam para todos os tipos de
00:00:35tarefas especializadas. Nós até fizemos um vídeo sobre isso na época. Mas os subagentes em si só
00:00:41possuem um trecho do contexto geral, já que são projetados para uma tarefa específica. Então, eles executam
00:00:48aquela tarefa, retornam os dados e têm a memória zerada. Assim, as pessoas meio que implementaram uma memória
00:00:54fazendo com que os subagentes exportem suas descobertas para um arquivo markdown e também atualizem um arquivo
00:01:01de contexto principal. Assim, se o mesmo ou outro subagente fosse solicitado a fazer uma atualização, ele poderia ler esses
00:01:06arquivos e ver onde os outros pararam. Mas você ainda precisa criar manualmente um subagente,
00:01:12atribuindo a ele uma função, acesso a habilidades específicas, ferramentas, permissões e assim por diante. É por isso que o novo
00:01:19Agent Swarm do Kimi eleva o nível, pois o orquestrador é quem cria dinamicamente
00:01:25um subagente especializado para uma tarefa específica, para que você não precise fazer nada. Esses subagentes
00:01:31podem trabalhar em paralelo para concluir uma tarefa global e, quando terminam sua parte, entregam o resultado
00:01:36ao orquestrador, que decide se novos subagentes precisam ser ativados com esses dados
00:01:42para concluir a tarefa complexa. O Agent Swarm do Kimi ainda é um projeto de pesquisa, mas já está
00:01:48mostrando grandes melhorias em comparação a um fluxo de trabalho com um único agente. Veja este gráfico: quanto mais
00:01:53complexa a tarefa, o desempenho permanece consistente devido aos agentes trabalhando em paralelo para
00:01:58concluir o mesmo objetivo. Agora, sendo sincero, você já meio que consegue fazer isso no Claude Code;
00:02:04com o recurso de tarefas recente, você pode criar uma lista de tarefas e distribuí-las para subagentes
00:02:10individuais. O problema é que esses subagentes são de uso geral e não especializados para a
00:02:15tarefa específica. Também não tenho certeza se o Claude consegue atribuir tarefas automaticamente ao
00:02:21subagente personalizado correto. Comente aí embaixo se você já testou isso. Mas parece que
00:02:25a equipe do Claude está trabalhando em uma forma de um orquestrador criar subagentes automaticamente
00:02:31na hora, com base na tarefa, e esse recurso estava escondido atrás de uma flag encontrada por Mike Kelly,
00:02:37que mostra como funciona neste tweet. No mesmo tweet, ele compartilha o link de um repositório que é um fork
00:02:42do CC Mirror chamado “Claude Sneak Peek”. Vamos testar. Este é um plano escrito por IA para criar um
00:02:48front-end web para uma ferramenta chamada XDL, que permite baixar vídeos do X ou Twitter pelo
00:02:55terminal. Já instalei e estou com o Claude Sneak Peek rodando, que, como podem ver,
00:03:00parece uma versão minimalista do Claude Code. Vou pedir para ele ler o arquivo plan.md e criar tarefas que
00:03:05possam ser executadas por um enxame de subagentes. Vou deixar ele criar as tarefas e, agora que terminou,
00:03:11vou pedir para executar as tarefas usando subagentes. Agora, antes de fazer isso,
00:03:16só para confirmar que não tenho subagentes personalizados configurados, vou rodar o comando /agent
00:03:21e podem ver que não há subagentes especializados ou personalizados ativos. Então agora ele está
00:03:26executando as tarefas e, aqui, ele adicionou automaticamente um subagente “front-end builder” para as tarefas de front-end.
00:03:32E vejam que temos uma equipe; se pressionar para baixo para ver a equipe, vemos que temos cinco
00:03:37agentes: um líder de equipe, QA tester, back-end builder, component builder e front-end builder,
00:03:42todos trabalhando em tarefas simultaneamente. Também podemos ver o que cada agente da equipe está fazendo.
00:03:48Vemos que o QA tester está buscando padrões, o back-end builder também está buscando
00:03:53padrões e lendo arquivos, assim como o component builder e o front-end builder. Se
00:03:57quisermos ver exatamente o que o agente está fazendo, apertamos enter e entramos na visão do agente,
00:04:02onde vemos seu prompt de sistema. Voltando, vemos que agora temos oito agentes: um criador de componentes,
00:04:07um servidor de API, alguém configurando o Vite, alguém integrando a API e agora temos
00:04:13alguém cuidando do CSS, e nossa equipe de agentes não para de crescer. Se apertarmos enter no líder da equipe,
00:04:18voltamos para a visão principal do Claude Code, então o líder é o orquestrador principal do Claude Code.
00:04:24Também vemos na visão principal que cada subagente nos dá seu status atual
00:04:29e, se eu diminuir o zoom e subir a tela, vemos as mensagens enviadas anteriormente por todos
00:04:34os diferentes agentes. Com todas as tarefas concluídas, recebemos um arquivo de projeto do enxame concluído,
00:04:41que detalha tudo o que foi feito, e também um relatório de execução do enxame com
00:04:47o número de agentes especializados usados, suas funções e se concluíram a tarefa. Podemos
00:04:52descer para ver em detalhes exatamente o que cada agente fez. Com base em quanto trabalho a
00:04:59equipe do Claude já dedicou a esse recurso, não acho que eles copiaram o Kimi. Acho que viram
00:05:04implementações online como o Agentic e o BeMad e quiseram adicionar ao Claude Code nativamente, mas eu
00:05:10entendo totalmente por que ainda não lançaram. Primeiro, não acho que esse recurso teve as muitas
00:05:16horas de treinamento que o orquestrador do Kimi 2.5 teve, e também as coisas ficam bem complicadas para um
00:05:22usuário que já possui alguns ou vários subagentes. Por exemplo, se um usuário quer concluir uma tarefa
00:05:28complexa, como o orquestrador sabe se deve criar um novo subagente de front-end ou usar o
00:05:35subagente já existente do usuário? Quais métricas ou dados ele usa para julgar isso? Além disso, as habilidades (skills) trazem
00:05:42mais complicação. Se um usuário já tem várias habilidades baixadas, como o orquestrador saberia
00:05:49se deve usá-las em um novo agente ou baixar as suas próprias, que poderiam ser mais adequadas para a
00:05:56tarefa? Se a Anthropic lançar esse orquestrador, ele terá que analisar um monte de
00:06:02dados do usuário, agentes, ferramentas e habilidades antes de decidir se precisa criar seu próprio subagente
00:06:10e o que deve adicionar a ele. Eu não sei se a equipe está trabalhando nesse recurso
00:06:16agora mesmo enquanto falo ou se decidiram que é muito complicado e não vão lançar. Não sei.
00:06:22Falando em recursos, se você usa uma IA ou um humano para adicionar funções rapidamente a um projeto e
00:06:28quer garantir que nada quebre, você precisa conhecer o Betastack, pois ele consegue
00:06:33monitorar logs nos seus servidores e usar detecção de anomalias para te avisar se algo der errado
00:06:38antes mesmo de acontecer. Ele também tem rastreamento de erros nativo com IA para te alertar se algo der errado
00:06:44no seu front-end. Então, dê uma olhada no Betastack hoje mesmo.

Key Takeaway

A descoberta de um modo de enxame de agentes oculto no Claude Code sugere que a Anthropic está prestes a lançar uma orquestração dinâmica e autônoma de subagentes para competir com o modelo Kimi 2.5.

Highlights

O Kimi 2.5 superou benchmarks do Claude Opus e introduziu o conceito de "Agent Swarm" com até 100 agentes.

Um recurso oculto no Claude Code

Timeline

Kimi 2.5 e a Evolução dos Agentes

O vídeo inicia destacando o impacto do modelo de código aberto Kimi 2.5 no mercado de IA atual. Este modelo chamou a atenção por superar os benchmarks do Claude Opus e introduzir o conceito inovador de "Agent Swarm". O orquestrador do Kimi consegue gerenciar até 100 agentes especializados simultaneamente para resolver problemas complexos. O narrador levanta a hipótese de que a Anthropic pode ter se inspirado ou desenvolvido uma tecnologia similar em segredo. Essa introdução estabelece o cenário de competição acirrada entre as grandes empresas de modelos de linguagem.

A Limitação dos Subagentes Manuais

Nesta seção, é explicado como os subagentes funcionam atualmente no ecossistema da Anthropic desde o anúncio em julho. O problema central é que esses agentes possuem contexto limitado e exigem que o usuário os configure manualmente com funções, ferramentas e permissões específicas. Para manter a continuidade, os usuários precisam implementar soluções improvisadas, como exportar dados para arquivos Markdown. O narrador enfatiza que essa barreira manual impede a escalabilidade de tarefas realmente complexas. É aqui que reside a importância da nova descoberta sobre a automação desses processos.

O Diferencial do Agent Swarm Dinâmico

O conceito de Agent Swarm do Kimi é detalhado como um divisor de águas por criar agentes dinamicamente sob demanda. Um gráfico é mencionado para mostrar que o desempenho permanece consistente mesmo quando a complexidade da tarefa aumenta drasticamente. O orquestrador central decide se novos agentes precisam ser ativados com base nos dados retornados pelos agentes anteriores que trabalharam em paralelo. No Claude Code atual, embora existam listas de tarefas, os subagentes ainda são de uso geral e não especializados. A descoberta de Mike Kelly no Twitter revela que o Claude já possui uma flag oculta para replicar essa automação dinâmica.

Teste Prático: Claude Sneak Peek em Ação

O narrador realiza uma demonstração prática utilizando um fork do repositório chamado "Claude Sneak Peek". Ao solicitar a criação de um front-end para a ferramenta XDL, o sistema ativa automaticamente uma equipe de cinco a oito agentes distintos. Entre os papéis assumidos pela IA estão o de líder de equipe, QA tester, back-end builder e até especialistas em CSS e Vite. É possível observar em tempo real o status de cada agente e as mensagens trocadas entre eles para concluir o objetivo global. Ao final, o sistema entrega um arquivo de projeto completo e um relatório de execução detalhando o trabalho de cada subagente especializado.

Desafios Técnicos e Considerações Finais

A análise final foca nos motivos pelos quais a Anthropic ainda não lançou esse recurso oficialmente para o grande público. Existem complicações logísticas, como a decisão de criar um novo agente ou usar um já existente que o usuário possua, além da gestão de habilidades (skills) baixadas. O orquestrador precisaria analisar uma vasta quantidade de metadados do usuário antes de agir de forma eficiente e sem redundâncias. O narrador sugere que, embora o recurso pareça avançado, ele ainda pode estar em fase de refinamento para evitar conflitos no ambiente do desenvolvedor. O vídeo encerra apresentando o Betastack como uma solução para monitoramento de erros em fluxos de trabalho acelerados por IA.

Community Posts

View all posts