Eu Nunca Vi Nada Igual a Isso

AAI LABS
컴퓨터/소프트웨어창업/스타트업경영/리더십AI/미래기술

Transcript

00:00:00É possível treinar um modelo para ser um gestor melhor?
00:00:02A Moonshot lançou recentemente o Kimi 2.5 e o chamou de o modelo de código aberto mais poderoso até hoje.
00:00:08Essa afirmação já está equivocada porque ele é de pesos abertos, não de código aberto.
00:00:11Existe uma diferença, mas não é esse o ponto aqui.
00:00:13O Kimi 2.5 faz duas afirmações que realmente valem a pena testar.
00:00:17Primeiro, ele diz que foi treinado do zero para orquestrar enxames de agentes,
00:00:21com até 100 subagentes rodando em paralelo.
00:00:23A configuração de aprendizado por reforço não recompensa apenas respostas corretas,
00:00:27mas também a eficácia com que o modelo distribui o trabalho entre os agentes.
00:00:30Segundo, ele afirma ter inteligência agêntica visual,
00:00:33e disse que gerou animações de altíssimo nível com apenas um único prompt.
00:00:37Agora, em vez de usuários afirmarem que criaram algo de primeira, são os próprios criadores que dizem isso.
00:00:42Então, pedimos a um membro da nossa equipe para testar ambos.
00:00:44Parte do que encontramos correspondeu às expectativas, outra parte não.
00:00:48Como mencionei, o Kimi 2.5 afirma ser um modelo de código aberto.
00:00:51Na verdade, o Kimi 2.5 não é um modelo de código aberto.
00:00:54De acordo com a definição da Open Source Initiative,
00:00:57modelos de código aberto significam que o código, os dados de treinamento e as metodologias devem estar disponíveis publicamente,
00:01:02permitindo que qualquer pessoa os inspecione, modifique e distribua.
00:01:05Mas, no caso deste modelo, trata-se apenas de um modelo de pesos abertos.
00:01:07Um modelo de pesos abertos apenas disponibiliza os pesos finais,
00:01:10o que significa que nem o código de treinamento nem o conjunto de dados de treinamento são lançados publicamente.
00:01:14Ele contém apenas os pesos, que são liberados para que outros possam ajustar, adaptar ou implantar o modelo em seus próprios projetos.
00:01:20Agora, a arquitetura deste modelo é muito semelhante à arquitetura de mistura de especialistas do DeepSeek.
00:01:25Ele contém 1 trilhão de parâmetros, com apenas 32 bilhões de parâmetros ativados.
00:01:30Isso significa que não estamos usando o modelo em sua capacidade total?
00:01:33Ele responde com a mesma precisão que um modelo de 1 trilhão de parâmetros teria,
00:01:36mas com muito menos poder de processamento e custo.
00:01:39Essa diferença entre os parâmetros totais e os parâmetros ativados
00:01:43é a principal razão pela qual este modelo é considerado um dos modelos de pesos abertos mais rápidos do mercado.
00:01:47Apenas alguns parâmetros ativados significam que apenas alguns são usados por consulta,
00:01:52e isso acelera significativamente o modelo.
00:01:54Este é o motivo central pelo qual ele é tão barato em comparação com outros modelos.
00:01:57Dizem que este é um modelo multimodal nativo e que oferece capacidades de visão e codificação de última geração.
00:02:03Mas essa é a mesma afirmação que todo modelo faz sobre ser o melhor, superar os outros e tudo mais.
00:02:08Por isso, nossa equipe teve que testar para verificar por conta própria, e vamos mostrar o que descobrimos.
00:02:12Mas antes de passarmos para as suas capacidades únicas, vamos a uma palavra do patrocinador.
00:02:16Opera Neon. Este é o primeiro navegador agêntico da Opera,
00:02:19projetado especificamente para usuários avançados prontos para vivenciar o futuro.
00:02:23O Neon usa Tarefas, que substituem as abas caóticas por espaços de trabalho focados,
00:02:27onde a IA pode analisar e agir em várias abas dentro do mesmo contexto.
00:02:32Imagine precisar de uma ferramenta rápida para o trabalho.
00:02:34Em vez de abrir uma IDE, basta usar o Neon Make.
00:02:37Digite um comando como “Criar um Pomodoro Timer Cyberpunk”
00:02:40e o navegador cria uma máquina virtual para gerar a agenda,
00:02:43escrever o código e implantar o aplicativo instantaneamente.
00:02:45É uma economia de tempo enorme para os fluxos de trabalho diários, permitindo prototipar conceitos
00:02:50ou automatizar pesquisas via Neon Do sem interromper seu fluxo.
00:02:53Ele age como um desenvolvedor júnior integrado diretamente à interface.
00:02:56Com certeza usarei esses cartões Neon para automatizar meus prompts.
00:02:59Você pode assinar o Opera Neon hoje mesmo. Não apenas assista à mudança agêntica.
00:03:03Faça parte dela. O link está na descrição.
00:03:05O modelo Kimi é capaz de dirigir um enxame de agentes, coordenando tarefas entre eles.
00:03:10Você pode pensar que o Claude também faz isso e cria múltiplos subagentes com base na tarefa necessária.
00:03:15Mas veja como este modelo é diferente.
00:03:17O Kimi 2.5, como modelo, aprendeu a autodirigir um enxame de até 100 subagentes,
00:03:23executando fluxos de trabalho paralelos em 1.500 etapas coordenadas por aprendizado por reforço paralelo.
00:03:29Para quem não sabe, o aprendizado por reforço é um processo em que o modelo é recompensado
00:03:33quando tem um bom desempenho e penalizado quando se desvia do objetivo.
00:03:36A maioria dos modelos é recompensada apenas com base no desempenho.
00:03:39Mas, neste caso, o modelo também é recompensado com base em quão bem ele consegue paralelizar etapas
00:03:43e atuar como um orquestrador.
00:03:44De forma simples, o modelo Kimi foi treinado para ser um orquestrador.
00:03:48Seu critério de sucesso é a habilidade de criar subagentes e atribuir tarefas.
00:03:53O orquestrador já vem com ferramentas para criar subagentes, atribuir tarefas e outras funções relacionadas.
00:03:58Ele cria subagentes para várias tarefas, atribui essas tarefas a eles,
00:04:02recebe os resultados e, então, coordena tudo em um resultado final.
00:04:06Segundo eles, usaram este método de enxame para melhorar o desempenho em tarefas complexas.
00:04:11E em avaliações internas, isso resultou em uma redução de 80% no tempo de execução de ponta a ponta.
00:04:16Isso significa que eles conseguiram executar tarefas muito mais complexas e de longo prazo.
00:04:20Eles o compararam com os melhores modelos para tarefas de longo alcance,
00:04:23especificamente o Opus 4.5 e o Kimi 2.5 sem o enxame,
00:04:26e descobriram que o enxame de agentes do Kimi 2.5 superou todos os modelos em seus benchmarks.
00:04:32Eles também conseguiram economizar um tempo considerável usando agentes em vez de rodar um único agente.
00:04:36Essas foram todas as alegações baseadas no que eles disseram.
00:04:39Para testar essas afirmações, instalamos a CLI KimiCode,
00:04:42que é um novo agente de codificação lançado com este modelo.
00:04:45Já tínhamos construído uma interface e queríamos migrá-la para uma estrutura de componentes diferente.
00:04:49A interface foi feita usando ShadCN, e queríamos reconstruí-la usando Material UI.
00:04:53O projeto tinha várias páginas,
00:04:55então pedimos ao Kimi para mudar a interface de todo o projeto de ShadCN para Material UI,
00:05:00e para usar agentes para lidar com cada página,
00:05:02para que essa migração pudesse ser feita mais rápido em paralelo.
00:05:05Ele começou a explorar o diretório, de forma semelhante ao que o ClaudeCode faz.
00:05:08Ele criou uma lista de tarefas contendo cada página que precisava ser convertida para Material UI.
00:05:13Ele agrupou páginas semelhantes,
00:05:15como páginas de autenticação (cadastro, login e recuperação de senha) para lidar com elas de forma mais eficiente.
00:05:20No entanto, ele gerou mais agentes do que esperávamos,
00:05:23o que descobrimos mais tarde ser um bug na CLI.
00:05:26Ele usou apenas cinco agentes para realizar a tarefa,
00:05:28o que era esperado para um produto novo.
00:05:30Levou cerca de 15 minutos para concluir a tarefa,
00:05:32tempo que achamos que seria reduzido com o uso de agentes paralelos.
00:05:35Ele terminou verificando e limpando tudo.
00:05:38Alguns componentes não estavam mais sendo usados após a migração,
00:05:41e ele limpou esses também.
00:05:43Ele garantiu que todas as dependências fossem instaladas e atualizadas,
00:05:45incluindo arquivos de teste, e validou o restante.
00:05:48Uma vez feito isso, ele garantiu que todas as dependências exigidas pelo ShadCN fossem removidas,
00:05:53deixando o projeto sem dependências não utilizadas,
00:05:55algo que a maioria dos agentes costuma esquecer, acabando por inflar o projeto desnecessariamente.
00:05:59Ele fez pequenos ajustes na interface.
00:06:01Por exemplo, a seção de destaque originalmente tinha texto e imagens lado a lado,
00:06:05mas ele os alterou para ficarem empilhados verticalmente.
00:06:07Fora isso, tudo parecia quase exatamente igual,
00:06:10apenas com a troca dos componentes.
00:06:12Mesmo sendo uma tarefa grande, ele usou apenas 25% da janela de contexto,
00:06:16o que significa que ele pode rodar efetivamente em agentes de longa duração.
00:06:19Portanto, o enxame de agentes funciona, mas nem sempre é mais rápido
00:06:22e levará mais tempo em uma base de código de grande escala.
00:06:24Você provavelmente notou que construímos muita coisa nestes vídeos.
00:06:27Todos os prompts, o código, os templates, enfim,
00:06:29as coisas que você normalmente teria que pausar e copiar da tela.
00:06:32Está tudo na nossa comunidade, este vídeo e todos os anteriores também.
00:06:35Links na descrição.
00:06:37O principal diferencial do Kimi 2.5 é sua inteligência agêntica visual.
00:06:41Dizem que ele é particularmente forte em capacidades de front-end.
00:06:44Ele pode interagir e implementar layouts interativos e animações ricas,
00:06:48como a rolagem de texto.
00:06:50Eles forneceram vários exemplos de animações que foram todas bem criadas.
00:06:53Aqui é onde ele realmente se destaca.
00:06:55O Kimi 2.5 brilha ao codificar com visão, indo além de apenas prompts de texto e imagem.
00:07:00Ele pode até receber vídeos como entrada e gerar código,
00:07:03tornando-se um dos primeiros modelos capazes de fazer isso.
00:07:06Isso tornou a explicação de fluxos de código muito mais fácil.
00:07:08Essa capacidade multimodal não foi adicionada posteriormente após o treinamento.
00:07:12Ela foi integrada durante o treinamento do modelo.
00:07:14A maioria dos modelos incorpora capacidades adicionais
00:07:16apenas depois que suas capacidades de texto são fortes o suficiente,
00:07:19o que muitas vezes leva a uma perda de qualidade entre as habilidades de visão e texto.
00:07:23Mas com a metodologia de treinamento do Kimi 2.5,
00:07:25essa perda desaparece e ambas as capacidades melhoram juntas.
00:07:29Agora, tínhamos que testar por nós mesmos.
00:07:30Gravamos a tela navegando pela interface de nova página do Notion e usando comandos de barra.
00:07:35Mantivemos a gravação pequena porque a documentação menciona que os vídeos são limitados a 40 megabytes.
00:07:40Fornecemos o caminho para a gravação do Notion e pedimos que ele clonasse o site mostrado no vídeo.
00:07:45Não dissemos especificamente no prompt o que era a gravação,
00:07:48então ele usou a ferramenta de leitura de arquivos de mídia para analisar o vídeo.
00:07:52Ele concluiu que a interface era parecida com a do Notion, identificou todos os recursos,
00:07:56e determinou que era um clone do Notion com uma janela no estilo Mac OS.
00:07:59Depois de listar o que estava no arquivo, ele começou a implementá-lo.
00:08:02Se você estiver usando processamento de vídeo em seus próprios projetos, lembre-se disso.
00:08:06Vídeos e imagens podem esgotar a janela de contexto rapidamente,
00:08:09então tenha cuidado com arquivos grandes e fique atento ao excesso de contexto.
00:08:12Quando ele replicou a interface, ela estava precisa.
00:08:15A interface era editável, incluindo ícones de página e recursos do Notion,
00:08:18embora alguns não estivessem totalmente funcionais no início.
00:08:21Os comandos de barra ainda não estavam funcionando, mas a interface geral estava fiel.
00:08:25Teria sido melhor se os comandos de barra estivessem implementados, pois são uma parte fundamental do fluxo de trabalho.
00:08:29Mas este era um problema menor que poderia ser corrigido com reiteração.
00:08:32Então demos um prompt, pedindo para corrigir os problemas que estávamos tendo com a implementação.
00:08:37A partir daí, ele se autoiterou, implementando correções, verificando os resultados,
00:08:41e garantindo que o recurso funcionasse corretamente sem precisar de nenhum prompt adicional da nossa parte.
00:08:46Essa reiteração acabou corrigindo o problema do comando de barra,
00:08:49fazendo com que toda a interface parecesse um clone funcional do Notion.
00:08:52Portanto, ele está cumprindo o que o modelo promete.
00:08:54Após resolver alguns problemas, achamos que ele poderia ser uma alternativa mais barata ao Claude code,
00:08:58já que os planos do Claude são conhecidos por serem caros, e os planos do Kimi têm preços mais baixos.
00:09:03Isso nos traz ao fim deste vídeo.
00:09:05Se você quiser apoiar o canal e nos ajudar a continuar fazendo vídeos como este,
00:09:08pode fazê-lo juntando-se ao AI Labs Pro.
00:09:10Como sempre, obrigado por assistir, e vejo você no próximo.

Key Takeaway

O Kimi 2.5 redefine a automação agêntica ao ser treinado especificamente para gerenciar enxames de subagentes e processar entradas de vídeo para codificação de front-end de alta fidelidade.

Highlights

  • Lançamento do Kimi 2.5 pela Moonshot como um modelo de pesos abertos de alta performance.

  • Treinamento inovador focado na orquestração de enxames com até 100 subagentes paralelos.

  • Arquitetura baseada em Mistura de Especialistas (MoE) com 1 trilhão de parâmetros totais.

  • Capacidade multimodal nativa que permite processar vídeos e gerar código de interface.

  • Desempenho superior em tarefas de codificação complexas e redução de tempo de execução.

  • Demonstração prática de migração de componentes de UI e clonagem de interface via vídeo.

Timeline

Introdução e Esclarecimentos sobre o Kimi 2.5

O vídeo inicia questionando se modelos de IA podem ser treinados para gerenciar outros agentes com eficácia. O narrador corrige a Moonshot sobre a classificação do Kimi 2.5, explicando que ele é de pesos abertos e não código aberto. Modelos de código aberto exigem transparência total de dados e métodos, o que não ocorre aqui. Esta distinção é importante para desenvolvedores que desejam ajustar ou implementar o modelo em infraestrutura própria. O diferencial do Kimi 2.5 reside na promessa de orquestração de enxames e inteligência visual agêntica.

Arquitetura e Vantagens Técnicas

A arquitetura do modelo utiliza uma abordagem de Mistura de Especialistas similar à do DeepSeek. Com um total de 1 trilhão de parâmetros, apenas 32 bilhões são ativados por consulta, otimizando custo e velocidade. Essa configuração permite que o modelo mantenha a precisão de sistemas massivos enquanto reduz significativamente o poder de processamento necessário. O narrador destaca que essa eficiência é o motivo central para o baixo custo operacional do Kimi 2.5 no mercado. O modelo se posiciona como um concorrente multimodal nativo capaz de superar benchmarks tradicionais.

Inovação no Navegador Opera Neon

Nesta seção patrocinada, o vídeo apresenta o Opera Neon como o primeiro navegador focado em fluxos de trabalho agênticos. O navegador substitui as abas tradicionais por espaços de trabalho organizados onde a IA pode agir contextualmente. Uma ferramenta de destaque é o Neon Make, que permite criar aplicativos e máquinas virtuais instantaneamente via comandos de texto. O sistema é comparado a ter um desenvolvedor júnior integrado diretamente na interface do usuário. O objetivo é automatizar tarefas repetitivas e pesquisas sem interromper o fluxo criativo do usuário avançado.

Orquestração de Enxames de Agentes

O Kimi 2.5 foi treinado via aprendizado por reforço para atuar como um gestor de até 100 subagentes. Diferente de outros modelos, ele é recompensado não apenas pela resposta correta, mas pela eficiência na distribuição de tarefas paralelas. O modelo utiliza ferramentas integradas para criar, atribuir e coordenar resultados de diversos agentes em 1.500 etapas coordenadas. Segundo dados internos, essa metodologia resultou em uma redução de 80% no tempo de execução de ponta a ponta. Em testes de longo alcance, o Kimi 2.5 com enxame superou modelos renomados como o Claude Opus 4.5.

Teste Prático: Migração de Código e CLI

A equipe testa a ferramenta KimiCode tentando migrar um projeto inteiro de ShadCN para Material UI. O modelo explora o diretório e organiza as tarefas em grupos lógicos para execução paralela por múltiplos agentes. Embora tenham ocorrido pequenos bugs na CLI, o sistema concluiu a migração e a limpeza de dependências em 15 minutos. Um ponto positivo foi a capacidade do modelo de não deixar 'lixo' de código, removendo dependências não utilizadas automaticamente. O teste validou que o enxame funciona bem em agentes de longa duração, utilizando pouca janela de contexto.

Inteligência Visual e Clonagem de Interfaces

O grande diferencial do Kimi 2.5 é sua habilidade de codificar interfaces a partir de vídeos, algo raro no mercado atual. Ele foi treinado de forma multimodal nativa, evitando a perda de qualidade comum em modelos que adicionam visão após o texto. No teste, a equipe enviou uma gravação de tela do Notion e pediu para o modelo clonar a interface. O Kimi identificou corretamente os elementos visuais e a estrutura do aplicativo sem instruções textuais específicas. O resultado foi uma interface fiel e editável, demonstrando um entendimento profundo de design e front-end.

Iteração, Custos e Conclusões Finais

O modelo demonstrou capacidade de autoiteração ao corrigir bugs em comandos de barra sem intervenção humana adicional. Após os ajustes, a interface clonada tornou-se funcional, cumprindo as promessas de inteligência agêntica visual feitas pelos criadores. O narrador sugere que o Kimi 2.5 surge como uma alternativa muito mais econômica ao Claude Code para desenvolvedores. O vídeo encerra reforçando que o modelo entrega resultados sólidos tanto em codificação quanto em orquestração complexa. Os espectadores são convidados a acessar os prompts e códigos na comunidade AI Labs Pro.

Community Posts

View all posts