00:00:00É possível treinar um modelo para ser um gestor melhor?
00:00:02A Moonshot lançou recentemente o Kimi 2.5 e o chamou de o modelo de código aberto mais poderoso até hoje.
00:00:08Essa afirmação já está equivocada porque ele é de pesos abertos, não de código aberto.
00:00:11Existe uma diferença, mas não é esse o ponto aqui.
00:00:13O Kimi 2.5 faz duas afirmações que realmente valem a pena testar.
00:00:17Primeiro, ele diz que foi treinado do zero para orquestrar enxames de agentes,
00:00:21com até 100 subagentes rodando em paralelo.
00:00:23A configuração de aprendizado por reforço não recompensa apenas respostas corretas,
00:00:27mas também a eficácia com que o modelo distribui o trabalho entre os agentes.
00:00:30Segundo, ele afirma ter inteligência agêntica visual,
00:00:33e disse que gerou animações de altíssimo nível com apenas um único prompt.
00:00:37Agora, em vez de usuários afirmarem que criaram algo de primeira, são os próprios criadores que dizem isso.
00:00:42Então, pedimos a um membro da nossa equipe para testar ambos.
00:00:44Parte do que encontramos correspondeu às expectativas, outra parte não.
00:00:48Como mencionei, o Kimi 2.5 afirma ser um modelo de código aberto.
00:00:51Na verdade, o Kimi 2.5 não é um modelo de código aberto.
00:00:54De acordo com a definição da Open Source Initiative,
00:00:57modelos de código aberto significam que o código, os dados de treinamento e as metodologias devem estar disponíveis publicamente,
00:01:02permitindo que qualquer pessoa os inspecione, modifique e distribua.
00:01:05Mas, no caso deste modelo, trata-se apenas de um modelo de pesos abertos.
00:01:07Um modelo de pesos abertos apenas disponibiliza os pesos finais,
00:01:10o que significa que nem o código de treinamento nem o conjunto de dados de treinamento são lançados publicamente.
00:01:14Ele contém apenas os pesos, que são liberados para que outros possam ajustar, adaptar ou implantar o modelo em seus próprios projetos.
00:01:20Agora, a arquitetura deste modelo é muito semelhante à arquitetura de mistura de especialistas do DeepSeek.
00:01:25Ele contém 1 trilhão de parâmetros, com apenas 32 bilhões de parâmetros ativados.
00:01:30Isso significa que não estamos usando o modelo em sua capacidade total?
00:01:33Ele responde com a mesma precisão que um modelo de 1 trilhão de parâmetros teria,
00:01:36mas com muito menos poder de processamento e custo.
00:01:39Essa diferença entre os parâmetros totais e os parâmetros ativados
00:01:43é a principal razão pela qual este modelo é considerado um dos modelos de pesos abertos mais rápidos do mercado.
00:01:47Apenas alguns parâmetros ativados significam que apenas alguns são usados por consulta,
00:01:52e isso acelera significativamente o modelo.
00:01:54Este é o motivo central pelo qual ele é tão barato em comparação com outros modelos.
00:01:57Dizem que este é um modelo multimodal nativo e que oferece capacidades de visão e codificação de última geração.
00:02:03Mas essa é a mesma afirmação que todo modelo faz sobre ser o melhor, superar os outros e tudo mais.
00:02:08Por isso, nossa equipe teve que testar para verificar por conta própria, e vamos mostrar o que descobrimos.
00:02:12Mas antes de passarmos para as suas capacidades únicas, vamos a uma palavra do patrocinador.
00:02:16Opera Neon. Este é o primeiro navegador agêntico da Opera,
00:02:19projetado especificamente para usuários avançados prontos para vivenciar o futuro.
00:02:23O Neon usa Tarefas, que substituem as abas caóticas por espaços de trabalho focados,
00:02:27onde a IA pode analisar e agir em várias abas dentro do mesmo contexto.
00:02:32Imagine precisar de uma ferramenta rápida para o trabalho.
00:02:34Em vez de abrir uma IDE, basta usar o Neon Make.
00:02:37Digite um comando como “Criar um Pomodoro Timer Cyberpunk”
00:02:40e o navegador cria uma máquina virtual para gerar a agenda,
00:02:43escrever o código e implantar o aplicativo instantaneamente.
00:02:45É uma economia de tempo enorme para os fluxos de trabalho diários, permitindo prototipar conceitos
00:02:50ou automatizar pesquisas via Neon Do sem interromper seu fluxo.
00:02:53Ele age como um desenvolvedor júnior integrado diretamente à interface.
00:02:56Com certeza usarei esses cartões Neon para automatizar meus prompts.
00:02:59Você pode assinar o Opera Neon hoje mesmo. Não apenas assista à mudança agêntica.
00:03:03Faça parte dela. O link está na descrição.
00:03:05O modelo Kimi é capaz de dirigir um enxame de agentes, coordenando tarefas entre eles.
00:03:10Você pode pensar que o Claude também faz isso e cria múltiplos subagentes com base na tarefa necessária.
00:03:15Mas veja como este modelo é diferente.
00:03:17O Kimi 2.5, como modelo, aprendeu a autodirigir um enxame de até 100 subagentes,
00:03:23executando fluxos de trabalho paralelos em 1.500 etapas coordenadas por aprendizado por reforço paralelo.
00:03:29Para quem não sabe, o aprendizado por reforço é um processo em que o modelo é recompensado
00:03:33quando tem um bom desempenho e penalizado quando se desvia do objetivo.
00:03:36A maioria dos modelos é recompensada apenas com base no desempenho.
00:03:39Mas, neste caso, o modelo também é recompensado com base em quão bem ele consegue paralelizar etapas
00:03:43e atuar como um orquestrador.
00:03:44De forma simples, o modelo Kimi foi treinado para ser um orquestrador.
00:03:48Seu critério de sucesso é a habilidade de criar subagentes e atribuir tarefas.
00:03:53O orquestrador já vem com ferramentas para criar subagentes, atribuir tarefas e outras funções relacionadas.
00:03:58Ele cria subagentes para várias tarefas, atribui essas tarefas a eles,
00:04:02recebe os resultados e, então, coordena tudo em um resultado final.
00:04:06Segundo eles, usaram este método de enxame para melhorar o desempenho em tarefas complexas.
00:04:11E em avaliações internas, isso resultou em uma redução de 80% no tempo de execução de ponta a ponta.
00:04:16Isso significa que eles conseguiram executar tarefas muito mais complexas e de longo prazo.
00:04:20Eles o compararam com os melhores modelos para tarefas de longo alcance,
00:04:23especificamente o Opus 4.5 e o Kimi 2.5 sem o enxame,
00:04:26e descobriram que o enxame de agentes do Kimi 2.5 superou todos os modelos em seus benchmarks.
00:04:32Eles também conseguiram economizar um tempo considerável usando agentes em vez de rodar um único agente.
00:04:36Essas foram todas as alegações baseadas no que eles disseram.
00:04:39Para testar essas afirmações, instalamos a CLI KimiCode,
00:04:42que é um novo agente de codificação lançado com este modelo.
00:04:45Já tínhamos construído uma interface e queríamos migrá-la para uma estrutura de componentes diferente.
00:04:49A interface foi feita usando ShadCN, e queríamos reconstruí-la usando Material UI.
00:04:53O projeto tinha várias páginas,
00:04:55então pedimos ao Kimi para mudar a interface de todo o projeto de ShadCN para Material UI,
00:05:00e para usar agentes para lidar com cada página,
00:05:02para que essa migração pudesse ser feita mais rápido em paralelo.
00:05:05Ele começou a explorar o diretório, de forma semelhante ao que o ClaudeCode faz.
00:05:08Ele criou uma lista de tarefas contendo cada página que precisava ser convertida para Material UI.
00:05:13Ele agrupou páginas semelhantes,
00:05:15como páginas de autenticação (cadastro, login e recuperação de senha) para lidar com elas de forma mais eficiente.
00:05:20No entanto, ele gerou mais agentes do que esperávamos,
00:05:23o que descobrimos mais tarde ser um bug na CLI.
00:05:26Ele usou apenas cinco agentes para realizar a tarefa,
00:05:28o que era esperado para um produto novo.
00:05:30Levou cerca de 15 minutos para concluir a tarefa,
00:05:32tempo que achamos que seria reduzido com o uso de agentes paralelos.
00:05:35Ele terminou verificando e limpando tudo.
00:05:38Alguns componentes não estavam mais sendo usados após a migração,
00:05:41e ele limpou esses também.
00:05:43Ele garantiu que todas as dependências fossem instaladas e atualizadas,
00:05:45incluindo arquivos de teste, e validou o restante.
00:05:48Uma vez feito isso, ele garantiu que todas as dependências exigidas pelo ShadCN fossem removidas,
00:05:53deixando o projeto sem dependências não utilizadas,
00:05:55algo que a maioria dos agentes costuma esquecer, acabando por inflar o projeto desnecessariamente.
00:05:59Ele fez pequenos ajustes na interface.
00:06:01Por exemplo, a seção de destaque originalmente tinha texto e imagens lado a lado,
00:06:05mas ele os alterou para ficarem empilhados verticalmente.
00:06:07Fora isso, tudo parecia quase exatamente igual,
00:06:10apenas com a troca dos componentes.
00:06:12Mesmo sendo uma tarefa grande, ele usou apenas 25% da janela de contexto,
00:06:16o que significa que ele pode rodar efetivamente em agentes de longa duração.
00:06:19Portanto, o enxame de agentes funciona, mas nem sempre é mais rápido
00:06:22e levará mais tempo em uma base de código de grande escala.
00:06:24Você provavelmente notou que construímos muita coisa nestes vídeos.
00:06:27Todos os prompts, o código, os templates, enfim,
00:06:29as coisas que você normalmente teria que pausar e copiar da tela.
00:06:32Está tudo na nossa comunidade, este vídeo e todos os anteriores também.
00:06:35Links na descrição.
00:06:37O principal diferencial do Kimi 2.5 é sua inteligência agêntica visual.
00:06:41Dizem que ele é particularmente forte em capacidades de front-end.
00:06:44Ele pode interagir e implementar layouts interativos e animações ricas,
00:06:48como a rolagem de texto.
00:06:50Eles forneceram vários exemplos de animações que foram todas bem criadas.
00:06:53Aqui é onde ele realmente se destaca.
00:06:55O Kimi 2.5 brilha ao codificar com visão, indo além de apenas prompts de texto e imagem.
00:07:00Ele pode até receber vídeos como entrada e gerar código,
00:07:03tornando-se um dos primeiros modelos capazes de fazer isso.
00:07:06Isso tornou a explicação de fluxos de código muito mais fácil.
00:07:08Essa capacidade multimodal não foi adicionada posteriormente após o treinamento.
00:07:12Ela foi integrada durante o treinamento do modelo.
00:07:14A maioria dos modelos incorpora capacidades adicionais
00:07:16apenas depois que suas capacidades de texto são fortes o suficiente,
00:07:19o que muitas vezes leva a uma perda de qualidade entre as habilidades de visão e texto.
00:07:23Mas com a metodologia de treinamento do Kimi 2.5,
00:07:25essa perda desaparece e ambas as capacidades melhoram juntas.
00:07:29Agora, tínhamos que testar por nós mesmos.
00:07:30Gravamos a tela navegando pela interface de nova página do Notion e usando comandos de barra.
00:07:35Mantivemos a gravação pequena porque a documentação menciona que os vídeos são limitados a 40 megabytes.
00:07:40Fornecemos o caminho para a gravação do Notion e pedimos que ele clonasse o site mostrado no vídeo.
00:07:45Não dissemos especificamente no prompt o que era a gravação,
00:07:48então ele usou a ferramenta de leitura de arquivos de mídia para analisar o vídeo.
00:07:52Ele concluiu que a interface era parecida com a do Notion, identificou todos os recursos,
00:07:56e determinou que era um clone do Notion com uma janela no estilo Mac OS.
00:07:59Depois de listar o que estava no arquivo, ele começou a implementá-lo.
00:08:02Se você estiver usando processamento de vídeo em seus próprios projetos, lembre-se disso.
00:08:06Vídeos e imagens podem esgotar a janela de contexto rapidamente,
00:08:09então tenha cuidado com arquivos grandes e fique atento ao excesso de contexto.
00:08:12Quando ele replicou a interface, ela estava precisa.
00:08:15A interface era editável, incluindo ícones de página e recursos do Notion,
00:08:18embora alguns não estivessem totalmente funcionais no início.
00:08:21Os comandos de barra ainda não estavam funcionando, mas a interface geral estava fiel.
00:08:25Teria sido melhor se os comandos de barra estivessem implementados, pois são uma parte fundamental do fluxo de trabalho.
00:08:29Mas este era um problema menor que poderia ser corrigido com reiteração.
00:08:32Então demos um prompt, pedindo para corrigir os problemas que estávamos tendo com a implementação.
00:08:37A partir daí, ele se autoiterou, implementando correções, verificando os resultados,
00:08:41e garantindo que o recurso funcionasse corretamente sem precisar de nenhum prompt adicional da nossa parte.
00:08:46Essa reiteração acabou corrigindo o problema do comando de barra,
00:08:49fazendo com que toda a interface parecesse um clone funcional do Notion.
00:08:52Portanto, ele está cumprindo o que o modelo promete.
00:08:54Após resolver alguns problemas, achamos que ele poderia ser uma alternativa mais barata ao Claude code,
00:08:58já que os planos do Claude são conhecidos por serem caros, e os planos do Kimi têm preços mais baixos.
00:09:03Isso nos traz ao fim deste vídeo.
00:09:05Se você quiser apoiar o canal e nos ajudar a continuar fazendo vídeos como este,
00:09:08pode fazê-lo juntando-se ao AI Labs Pro.
00:09:10Como sempre, obrigado por assistir, e vejo você no próximo.