Eu Nunca Vi Nada Igual a Isso

AAI LABS
컴퓨터/소프트웨어창업/스타트업경영/리더십AI/미래기술

Transcript

00:00:00É possível treinar um modelo para ser um gestor melhor?
00:00:02A Moonshot lançou recentemente o Kimi 2.5 e o chamou de o modelo de código aberto mais poderoso até hoje.
00:00:08Essa afirmação já está equivocada porque ele é de pesos abertos, não de código aberto.
00:00:11Existe uma diferença, mas não é esse o ponto aqui.
00:00:13O Kimi 2.5 faz duas afirmações que realmente valem a pena testar.
00:00:17Primeiro, ele diz que foi treinado do zero para orquestrar enxames de agentes,
00:00:21com até 100 subagentes rodando em paralelo.
00:00:23A configuração de aprendizado por reforço não recompensa apenas respostas corretas,
00:00:27mas também a eficácia com que o modelo distribui o trabalho entre os agentes.
00:00:30Segundo, ele afirma ter inteligência agêntica visual,
00:00:33e disse que gerou animações de altíssimo nível com apenas um único prompt.
00:00:37Agora, em vez de usuários afirmarem que criaram algo de primeira, são os próprios criadores que dizem isso.
00:00:42Então, pedimos a um membro da nossa equipe para testar ambos.
00:00:44Parte do que encontramos correspondeu às expectativas, outra parte não.
00:00:48Como mencionei, o Kimi 2.5 afirma ser um modelo de código aberto.
00:00:51Na verdade, o Kimi 2.5 não é um modelo de código aberto.
00:00:54De acordo com a definição da Open Source Initiative,
00:00:57modelos de código aberto significam que o código, os dados de treinamento e as metodologias devem estar disponíveis publicamente,
00:01:02permitindo que qualquer pessoa os inspecione, modifique e distribua.
00:01:05Mas, no caso deste modelo, trata-se apenas de um modelo de pesos abertos.
00:01:07Um modelo de pesos abertos apenas disponibiliza os pesos finais,
00:01:10o que significa que nem o código de treinamento nem o conjunto de dados de treinamento são lançados publicamente.
00:01:14Ele contém apenas os pesos, que são liberados para que outros possam ajustar, adaptar ou implantar o modelo em seus próprios projetos.
00:01:20Agora, a arquitetura deste modelo é muito semelhante à arquitetura de mistura de especialistas do DeepSeek.
00:01:25Ele contém 1 trilhão de parâmetros, com apenas 32 bilhões de parâmetros ativados.
00:01:30Isso significa que não estamos usando o modelo em sua capacidade total?
00:01:33Ele responde com a mesma precisão que um modelo de 1 trilhão de parâmetros teria,
00:01:36mas com muito menos poder de processamento e custo.
00:01:39Essa diferença entre os parâmetros totais e os parâmetros ativados
00:01:43é a principal razão pela qual este modelo é considerado um dos modelos de pesos abertos mais rápidos do mercado.
00:01:47Apenas alguns parâmetros ativados significam que apenas alguns são usados por consulta,
00:01:52e isso acelera significativamente o modelo.
00:01:54Este é o motivo central pelo qual ele é tão barato em comparação com outros modelos.
00:01:57Dizem que este é um modelo multimodal nativo e que oferece capacidades de visão e codificação de última geração.
00:02:03Mas essa é a mesma afirmação que todo modelo faz sobre ser o melhor, superar os outros e tudo mais.
00:02:08Por isso, nossa equipe teve que testar para verificar por conta própria, e vamos mostrar o que descobrimos.
00:02:12Mas antes de passarmos para as suas capacidades únicas, vamos a uma palavra do patrocinador.
00:02:16Opera Neon. Este é o primeiro navegador agêntico da Opera,
00:02:19projetado especificamente para usuários avançados prontos para vivenciar o futuro.
00:02:23O Neon usa Tarefas, que substituem as abas caóticas por espaços de trabalho focados,
00:02:27onde a IA pode analisar e agir em várias abas dentro do mesmo contexto.
00:02:32Imagine precisar de uma ferramenta rápida para o trabalho.
00:02:34Em vez de abrir uma IDE, basta usar o Neon Make.
00:02:37Digite um comando como “Criar um Pomodoro Timer Cyberpunk”
00:02:40e o navegador cria uma máquina virtual para gerar a agenda,
00:02:43escrever o código e implantar o aplicativo instantaneamente.
00:02:45É uma economia de tempo enorme para os fluxos de trabalho diários, permitindo prototipar conceitos
00:02:50ou automatizar pesquisas via Neon Do sem interromper seu fluxo.
00:02:53Ele age como um desenvolvedor júnior integrado diretamente à interface.
00:02:56Com certeza usarei esses cartões Neon para automatizar meus prompts.
00:02:59Você pode assinar o Opera Neon hoje mesmo. Não apenas assista à mudança agêntica.
00:03:03Faça parte dela. O link está na descrição.
00:03:05O modelo Kimi é capaz de dirigir um enxame de agentes, coordenando tarefas entre eles.
00:03:10Você pode pensar que o Claude também faz isso e cria múltiplos subagentes com base na tarefa necessária.
00:03:15Mas veja como este modelo é diferente.
00:03:17O Kimi 2.5, como modelo, aprendeu a autodirigir um enxame de até 100 subagentes,
00:03:23executando fluxos de trabalho paralelos em 1.500 etapas coordenadas por aprendizado por reforço paralelo.
00:03:29Para quem não sabe, o aprendizado por reforço é um processo em que o modelo é recompensado
00:03:33quando tem um bom desempenho e penalizado quando se desvia do objetivo.
00:03:36A maioria dos modelos é recompensada apenas com base no desempenho.
00:03:39Mas, neste caso, o modelo também é recompensado com base em quão bem ele consegue paralelizar etapas
00:03:43e atuar como um orquestrador.
00:03:44De forma simples, o modelo Kimi foi treinado para ser um orquestrador.
00:03:48Seu critério de sucesso é a habilidade de criar subagentes e atribuir tarefas.
00:03:53O orquestrador já vem com ferramentas para criar subagentes, atribuir tarefas e outras funções relacionadas.
00:03:58Ele cria subagentes para várias tarefas, atribui essas tarefas a eles,
00:04:02recebe os resultados e, então, coordena tudo em um resultado final.
00:04:06Segundo eles, usaram este método de enxame para melhorar o desempenho em tarefas complexas.
00:04:11E em avaliações internas, isso resultou em uma redução de 80% no tempo de execução de ponta a ponta.
00:04:16Isso significa que eles conseguiram executar tarefas muito mais complexas e de longo prazo.
00:04:20Eles o compararam com os melhores modelos para tarefas de longo alcance,
00:04:23especificamente o Opus 4.5 e o Kimi 2.5 sem o enxame,
00:04:26e descobriram que o enxame de agentes do Kimi 2.5 superou todos os modelos em seus benchmarks.
00:04:32Eles também conseguiram economizar um tempo considerável usando agentes em vez de rodar um único agente.
00:04:36Essas foram todas as alegações baseadas no que eles disseram.
00:04:39Para testar essas afirmações, instalamos a CLI KimiCode,
00:04:42que é um novo agente de codificação lançado com este modelo.
00:04:45Já tínhamos construído uma interface e queríamos migrá-la para uma estrutura de componentes diferente.
00:04:49A interface foi feita usando ShadCN, e queríamos reconstruí-la usando Material UI.
00:04:53O projeto tinha várias páginas,
00:04:55então pedimos ao Kimi para mudar a interface de todo o projeto de ShadCN para Material UI,
00:05:00e para usar agentes para lidar com cada página,
00:05:02para que essa migração pudesse ser feita mais rápido em paralelo.
00:05:05Ele começou a explorar o diretório, de forma semelhante ao que o ClaudeCode faz.
00:05:08Ele criou uma lista de tarefas contendo cada página que precisava ser convertida para Material UI.
00:05:13Ele agrupou páginas semelhantes,
00:05:15como páginas de autenticação (cadastro, login e recuperação de senha) para lidar com elas de forma mais eficiente.
00:05:20No entanto, ele gerou mais agentes do que esperávamos,
00:05:23o que descobrimos mais tarde ser um bug na CLI.
00:05:26Ele usou apenas cinco agentes para realizar a tarefa,
00:05:28o que era esperado para um produto novo.
00:05:30Levou cerca de 15 minutos para concluir a tarefa,
00:05:32tempo que achamos que seria reduzido com o uso de agentes paralelos.
00:05:35Ele terminou verificando e limpando tudo.
00:05:38Alguns componentes não estavam mais sendo usados após a migração,
00:05:41e ele limpou esses também.
00:05:43Ele garantiu que todas as dependências fossem instaladas e atualizadas,
00:05:45incluindo arquivos de teste, e validou o restante.
00:05:48Uma vez feito isso, ele garantiu que todas as dependências exigidas pelo ShadCN fossem removidas,
00:05:53deixando o projeto sem dependências não utilizadas,
00:05:55algo que a maioria dos agentes costuma esquecer, acabando por inflar o projeto desnecessariamente.
00:05:59Ele fez pequenos ajustes na interface.
00:06:01Por exemplo, a seção de destaque originalmente tinha texto e imagens lado a lado,
00:06:05mas ele os alterou para ficarem empilhados verticalmente.
00:06:07Fora isso, tudo parecia quase exatamente igual,
00:06:10apenas com a troca dos componentes.
00:06:12Mesmo sendo uma tarefa grande, ele usou apenas 25% da janela de contexto,
00:06:16o que significa que ele pode rodar efetivamente em agentes de longa duração.
00:06:19Portanto, o enxame de agentes funciona, mas nem sempre é mais rápido
00:06:22e levará mais tempo em uma base de código de grande escala.
00:06:24Você provavelmente notou que construímos muita coisa nestes vídeos.
00:06:27Todos os prompts, o código, os templates, enfim,
00:06:29as coisas que você normalmente teria que pausar e copiar da tela.
00:06:32Está tudo na nossa comunidade, este vídeo e todos os anteriores também.
00:06:35Links na descrição.
00:06:37O principal diferencial do Kimi 2.5 é sua inteligência agêntica visual.
00:06:41Dizem que ele é particularmente forte em capacidades de front-end.
00:06:44Ele pode interagir e implementar layouts interativos e animações ricas,
00:06:48como a rolagem de texto.
00:06:50Eles forneceram vários exemplos de animações que foram todas bem criadas.
00:06:53Aqui é onde ele realmente se destaca.
00:06:55O Kimi 2.5 brilha ao codificar com visão, indo além de apenas prompts de texto e imagem.
00:07:00Ele pode até receber vídeos como entrada e gerar código,
00:07:03tornando-se um dos primeiros modelos capazes de fazer isso.
00:07:06Isso tornou a explicação de fluxos de código muito mais fácil.
00:07:08Essa capacidade multimodal não foi adicionada posteriormente após o treinamento.
00:07:12Ela foi integrada durante o treinamento do modelo.
00:07:14A maioria dos modelos incorpora capacidades adicionais
00:07:16apenas depois que suas capacidades de texto são fortes o suficiente,
00:07:19o que muitas vezes leva a uma perda de qualidade entre as habilidades de visão e texto.
00:07:23Mas com a metodologia de treinamento do Kimi 2.5,
00:07:25essa perda desaparece e ambas as capacidades melhoram juntas.
00:07:29Agora, tínhamos que testar por nós mesmos.
00:07:30Gravamos a tela navegando pela interface de nova página do Notion e usando comandos de barra.
00:07:35Mantivemos a gravação pequena porque a documentação menciona que os vídeos são limitados a 40 megabytes.
00:07:40Fornecemos o caminho para a gravação do Notion e pedimos que ele clonasse o site mostrado no vídeo.
00:07:45Não dissemos especificamente no prompt o que era a gravação,
00:07:48então ele usou a ferramenta de leitura de arquivos de mídia para analisar o vídeo.
00:07:52Ele concluiu que a interface era parecida com a do Notion, identificou todos os recursos,
00:07:56e determinou que era um clone do Notion com uma janela no estilo Mac OS.
00:07:59Depois de listar o que estava no arquivo, ele começou a implementá-lo.
00:08:02Se você estiver usando processamento de vídeo em seus próprios projetos, lembre-se disso.
00:08:06Vídeos e imagens podem esgotar a janela de contexto rapidamente,
00:08:09então tenha cuidado com arquivos grandes e fique atento ao excesso de contexto.
00:08:12Quando ele replicou a interface, ela estava precisa.
00:08:15A interface era editável, incluindo ícones de página e recursos do Notion,
00:08:18embora alguns não estivessem totalmente funcionais no início.
00:08:21Os comandos de barra ainda não estavam funcionando, mas a interface geral estava fiel.
00:08:25Teria sido melhor se os comandos de barra estivessem implementados, pois são uma parte fundamental do fluxo de trabalho.
00:08:29Mas este era um problema menor que poderia ser corrigido com reiteração.
00:08:32Então demos um prompt, pedindo para corrigir os problemas que estávamos tendo com a implementação.
00:08:37A partir daí, ele se autoiterou, implementando correções, verificando os resultados,
00:08:41e garantindo que o recurso funcionasse corretamente sem precisar de nenhum prompt adicional da nossa parte.
00:08:46Essa reiteração acabou corrigindo o problema do comando de barra,
00:08:49fazendo com que toda a interface parecesse um clone funcional do Notion.
00:08:52Portanto, ele está cumprindo o que o modelo promete.
00:08:54Após resolver alguns problemas, achamos que ele poderia ser uma alternativa mais barata ao Claude code,
00:08:58já que os planos do Claude são conhecidos por serem caros, e os planos do Kimi têm preços mais baixos.
00:09:03Isso nos traz ao fim deste vídeo.
00:09:05Se você quiser apoiar o canal e nos ajudar a continuar fazendo vídeos como este,
00:09:08pode fazê-lo juntando-se ao AI Labs Pro.
00:09:10Como sempre, obrigado por assistir, e vejo você no próximo.

Key Takeaway

O Kimi 2.5 redefine a automação agêntica ao ser treinado especificamente para gerenciar enxames de subagentes e processar entradas de vídeo para codificação de front-end de alta fidelidade.

Highlights

Lançamento do Kimi 2.5 pela Moonshot como um modelo de pesos abertos de alta performance.

Treinamento inovador focado na orquestração de enxames com até 100 subagentes paralelos.

Arquitetura baseada em Mistura de Especialistas (MoE) com 1 trilhão de parâmetros totais.

Capacidade multimodal nativa que permite processar vídeos e gerar código de interface.

Desempenho superior em tarefas de codificação complexas e redução de tempo de execução.

Demonstração prática de migração de componentes de UI e clonagem de interface via vídeo.

Timeline

Introdução e Esclarecimentos sobre o Kimi 2.5

O vídeo inicia questionando se modelos de IA podem ser treinados para gerenciar outros agentes com eficácia. O narrador corrige a Moonshot sobre a classificação do Kimi 2.5, explicando que ele é de pesos abertos e não código aberto. Modelos de código aberto exigem transparência total de dados e métodos, o que não ocorre aqui. Esta distinção é importante para desenvolvedores que desejam ajustar ou implementar o modelo em infraestrutura própria. O diferencial do Kimi 2.5 reside na promessa de orquestração de enxames e inteligência visual agêntica.

Arquitetura e Vantagens Técnicas

A arquitetura do modelo utiliza uma abordagem de Mistura de Especialistas similar à do DeepSeek. Com um total de 1 trilhão de parâmetros, apenas 32 bilhões são ativados por consulta, otimizando custo e velocidade. Essa configuração permite que o modelo mantenha a precisão de sistemas massivos enquanto reduz significativamente o poder de processamento necessário. O narrador destaca que essa eficiência é o motivo central para o baixo custo operacional do Kimi 2.5 no mercado. O modelo se posiciona como um concorrente multimodal nativo capaz de superar benchmarks tradicionais.

Inovação no Navegador Opera Neon

Nesta seção patrocinada, o vídeo apresenta o Opera Neon como o primeiro navegador focado em fluxos de trabalho agênticos. O navegador substitui as abas tradicionais por espaços de trabalho organizados onde a IA pode agir contextualmente. Uma ferramenta de destaque é o Neon Make, que permite criar aplicativos e máquinas virtuais instantaneamente via comandos de texto. O sistema é comparado a ter um desenvolvedor júnior integrado diretamente na interface do usuário. O objetivo é automatizar tarefas repetitivas e pesquisas sem interromper o fluxo criativo do usuário avançado.

Orquestração de Enxames de Agentes

O Kimi 2.5 foi treinado via aprendizado por reforço para atuar como um gestor de até 100 subagentes. Diferente de outros modelos, ele é recompensado não apenas pela resposta correta, mas pela eficiência na distribuição de tarefas paralelas. O modelo utiliza ferramentas integradas para criar, atribuir e coordenar resultados de diversos agentes em 1.500 etapas coordenadas. Segundo dados internos, essa metodologia resultou em uma redução de 80% no tempo de execução de ponta a ponta. Em testes de longo alcance, o Kimi 2.5 com enxame superou modelos renomados como o Claude Opus 4.5.

Teste Prático: Migração de Código e CLI

A equipe testa a ferramenta KimiCode tentando migrar um projeto inteiro de ShadCN para Material UI. O modelo explora o diretório e organiza as tarefas em grupos lógicos para execução paralela por múltiplos agentes. Embora tenham ocorrido pequenos bugs na CLI, o sistema concluiu a migração e a limpeza de dependências em 15 minutos. Um ponto positivo foi a capacidade do modelo de não deixar 'lixo' de código, removendo dependências não utilizadas automaticamente. O teste validou que o enxame funciona bem em agentes de longa duração, utilizando pouca janela de contexto.

Inteligência Visual e Clonagem de Interfaces

O grande diferencial do Kimi 2.5 é sua habilidade de codificar interfaces a partir de vídeos, algo raro no mercado atual. Ele foi treinado de forma multimodal nativa, evitando a perda de qualidade comum em modelos que adicionam visão após o texto. No teste, a equipe enviou uma gravação de tela do Notion e pediu para o modelo clonar a interface. O Kimi identificou corretamente os elementos visuais e a estrutura do aplicativo sem instruções textuais específicas. O resultado foi uma interface fiel e editável, demonstrando um entendimento profundo de design e front-end.

Iteração, Custos e Conclusões Finais

O modelo demonstrou capacidade de autoiteração ao corrigir bugs em comandos de barra sem intervenção humana adicional. Após os ajustes, a interface clonada tornou-se funcional, cumprindo as promessas de inteligência agêntica visual feitas pelos criadores. O narrador sugere que o Kimi 2.5 surge como uma alternativa muito mais econômica ao Claude Code para desenvolvedores. O vídeo encerra reforçando que o modelo entrega resultados sólidos tanto em codificação quanto em orquestração complexa. Os espectadores são convidados a acessar os prompts e códigos na comunidade AI Labs Pro.

Community Posts

View all posts