Why is Everyone OBSESSED With The New Kimi K2.5 AI Model

BBetter Stack
Computing/SoftwareAdvertising/MarketingSmall Business/StartupsInternet Technology

Transcript

00:00:00Espera, acabei de notar.
00:00:01O relatório é baseado em informações públicas de janeiro de 2025.
00:00:06Ah não, ah não, 2025 não, não foi isso que eu pedi.
00:00:15A Moonshot AI lançou seu mais novo modelo de IA, o Kimi K 2.5, e ele tem sido a sensação
00:00:22da internet esta semana.
00:00:24Algumas pessoas estão chegando ao ponto de dizer que este pode ser o modelo favorito delas.
00:00:29Então, naturalmente, eu tive que testá-lo para ver do que se trata todo esse barulho e determinar se isso
00:00:34realmente é algo novo ou apenas mais um modelo inflado por um marketing chamativo.
00:00:39É isso que vamos descobrir no vídeo de hoje.
00:00:42Vai ser muito divertido, então vamos lá.
00:00:49O Kimi K 2.5 é o mais recente modelo de código aberto desenvolvido por uma empresa chinesa chamada Moonshot
00:00:55AI.
00:00:56Há apenas seis meses, o Richard já cobriu o K2 em detalhes e hoje estamos de volta
00:01:01para conferir as novidades do K2.5.
00:01:05Mas qual é o grande diferencial desse modelo?
00:01:06Como ele se distingue de todos os outros milhares de modelos novos que saem quase diariamente?
00:01:12Bom, há duas coisas.
00:01:13Primeiro, ele afirma ser muito bom em visão computacional e programação.
00:01:17Eles chegam a se rotular como o SOTA de código aberto.
00:01:21SOTA.
00:01:22Você sabe o que isso significa?
00:01:24Na verdade, eu mesmo tive que pesquisar, eu não sabia.
00:01:27Ah, entendi, significa “state of the art” (estado da arte).
00:01:30Beleza, vivendo e aprendendo.
00:01:32Enfim, ele é totalmente de ponta em benchmarks de agentes, visão e programação.
00:01:37E a segunda coisa que se destaca neste modelo é uma nova funcionalidade chamada
00:01:42Agent Swarm (Enxame de Agentes).
00:01:44Onde ele é capaz de criar até cem subagentes e 1.500 chamadas de ferramentas e executá-los
00:01:51concorrentemente, resultando em um desempenho 4,5 vezes mais rápido.
00:01:55Para este modelo, eles usaram um novo método de treinamento chamado aprendizado por reforço de agente paralelo,
00:02:00ou PARL.
00:02:01Isso significa que o modelo pode autodirigir todo o enxame de agentes criando um
00:02:06agente orquestrador treinável, que basicamente comanda o show decompondo tarefas em
00:02:12subtarefas paralelizáveis e monitorando todos esses agentes para garantir que a operação
00:02:18não sofra um colapso serial, o que costuma acontecer com esses fluxos de trabalho multiagentes.
00:02:23Eles resolveram isso dando recompensas a cada subagente em estágios críticos separados,
00:02:28e todo esse sistema permite que o K 2.5 alcance ganhos de desempenho notáveis.
00:02:34Então, com certeza vamos testá-lo.
00:02:35Não vou entrar em muitos detalhes sobre todos os diferentes benchmarks porque,
00:02:40sinceramente, todo vídeo que vejo agora está sempre exaltando esses números e eu nem acho que
00:02:44podemos mais confiar neles, para ser sincero.
00:02:47Eles nem conseguem alinhar os gráficos dos benchmarks direito, fala sério.
00:02:51Em vez disso, vou focar nas duas coisas que afirmam que este modelo é
00:02:55bom.
00:02:56Visão, programação e a nova funcionalidade de enxame de agentes.
00:03:00Então, vamos ao teste.
00:03:02Eles também têm sua própria ferramenta de linha de comando chamada Kimi CLI.
00:03:06É ela que vou usar hoje para realizar meus testes.
00:03:09Um dos recursos mais impressionantes que eles alegam ter é a capacidade de pegar uma gravação
00:03:13em vídeo da UX de um site específico e replicá-la em código.
00:03:19Isso é bem impressionante.
00:03:20Para testar, fiz uma gravação de tela da página do iPad Air da Apple com todas aquelas
00:03:25animações e transições sofisticadas.
00:03:28E criei uma pasta que contém apenas o arquivo dessa gravação.
00:03:32Agora vou pedir ao K 2.5 para fazer um site promocional para o iPad Air
00:03:38baseado nesse vídeo.
00:03:39E antes de executar comandos no terminal, ele pergunta se queremos permitir, então vou autorizar
00:03:44para esta sessão.
00:03:46E agora está rodando.
00:03:48Isso é interessante.
00:03:49Ele detectou que o arquivo era grande demais.
00:03:51Então ele mesmo usou o FFmpeg para comprimi-lo sozinho.
00:03:56E eu estava muito curioso para saber como este modelo processa e entende um arquivo de vídeo.
00:04:01Acontece que ele pega o vídeo e, mais uma vez, usa o FFmpeg para extrair os
00:04:06quadros principais (keyframes) para usar como auxílio visual na construção do site.
00:04:11O modelo levou cerca de cinco minutos e meio para terminar a tarefa.
00:04:15Definitivamente não é o modelo mais rápido do mercado.
00:04:18E lembre-se, estou usando as APIs deles para chamar o modelo, não uma versão local.
00:04:23Mas enfim, assim que termina, podemos ver aqui que ele nos dá um resumo detalhado do que
00:04:28fez.
00:04:29Agora vamos ver o site em si.
00:04:30Oh, uau.
00:04:31Olha só isso.
00:04:32Ele captou toda a estética de design da Apple e até criou este iPad flutuante em 3D
00:04:38no meio.
00:04:39E parece estar respondendo aos movimentos do mouse também.
00:04:42Isso é muito legal.
00:04:43Depois temos esta seção de carrossel com janelas diferentes, mas infelizmente ela não
00:04:48responde quando clico nos pontos, mas ainda assim é bem elegante.
00:04:52Depois temos outra seção com algumas animações.
00:04:55Ah, e aqui temos um carrossel navegável com designs diferentes.
00:05:00Bem bacana.
00:05:01E depois mais algumas seções, todas com aquela cara de estética da Apple.
00:05:06Sinceramente, isso está muito bom.
00:05:07O fato de ele ter produzido um site bonito com todas essas animações apenas
00:05:12com um vídeo de referência e um prompt curto é incrível.
00:05:16Tudo bem.
00:05:17Mas a Apple é uma marca muito conhecida.
00:05:18Tenho certeza de que a estética deles faz parte dos dados de treinamento do modelo.
00:05:23Então, essa provavelmente foi uma tarefa fácil para ele.
00:05:26Agora vamos tentar algo mais interessante e um pouco inusitado.
00:05:29Criei outra pasta com uma única imagem do Sr. Burns, dos Simpsons.
00:05:34Vamos ver quão criativo o Kimi K 2.5 pode ser.
00:05:37Adicionei este prompt: “O Sr. Burns está concorrendo à presidência.”
00:05:40Quero que você crie um site de campanha presidencial para o Sr. Burns, incluindo suas políticas
00:05:45e agenda política baseadas nos traços e motivações do personagem.
00:05:49Vamos ver no que dá.
00:05:51Assim que começa o processo de raciocínio, podemos ver como ele planeja o design.
00:05:55O conceito está claro.
00:05:56Montgomery Burns em seu clássico terno verde escuro e gravata pêssego.
00:06:01Esta é a principal referência visual para a estética da campanha.
00:06:05Muito maneiro.
00:06:06E esta parte levou ainda mais tempo para terminar.
00:06:08Foram cerca de seis minutos no total.
00:06:11Mas agora que terminou, novamente vemos um resumo detalhado do que foi produzido e podemos ver
00:06:16que ele adicionou uma seção de visão, uma de políticas, materiais promocionais, etc.
00:06:22E olha só.
00:06:23Ele até incluiu um Easter egg escondido só por diversão.
00:06:26Isso é sensacional.
00:06:27Agora vamos ver como ficou o site.
00:06:29Uau.
00:06:30Olha isso.
00:06:31“Excelência na governança.”
00:06:33“Fazendo este país grande novamente... para mim.”
00:06:36Ah, e tem um botão nuclear ali no canto.
00:06:40O que acontece quando eu clico?
00:06:41“Smithers, me traga um café.”
00:06:43Que massa.
00:06:44E tem até uma página detalhada “Sobre”.
00:06:46E aqui sobre prosperidade.
00:06:49E as animações são tão fluidas.
00:06:50Uau.
00:06:51Pelo visto, o Kimi K 2.5 realmente sabe criar gráficos impactantes.
00:06:55É obviamente muito melhor do que aqueles designs genéricos arroxeados que temos visto
00:07:01outros modelos produzirem.
00:07:02E olha só.
00:07:04“Políticas para a elite.”
00:07:05Meu Deus.
00:07:06Tem tantas piadas internas boas aqui.
00:07:08Incrível.
00:07:10Vouchers de saúde resgatáveis apenas nos centros médicos Burns.
00:07:14Lista de espera para transplante de órgãos ordenada por patrimônio líquido.
00:07:18Muro na fronteira feito de ouro.
00:07:21O que as pessoas estão dizendo?
00:07:22OK, aqui temos citações dos personagens dos Simpsons, um formulário de contato e a página
00:07:29de doações de campanha.
00:07:30Ele até adicionou uma loja de produtos.
00:07:31OK, mas essa seção está como “em breve”.
00:07:33Faz sentido, já que esta é uma página HTML estática.
00:07:35Tudo bem.
00:07:36Agora quero ativar aquele Easter egg.
00:07:38Como eu faço?
00:07:39O código diz que tenho que inserir o “Konami code”.
00:07:43O que é um Konami code?
00:07:45Ah, entendi.
00:07:46O Konami code é um famoso código de trapaça de videogames.
00:07:49Nossa.
00:07:50Eu não sabia disso.
00:07:51Mais uma vez, vivendo e aprendendo.
00:07:52Então é: cima, cima, baixo, baixo, esquerda, direita, esquerda, direita, A, B. Ah, ok.
00:07:58Aí está.
00:07:59Agora aparece um grande texto “HA HA HA” na página e o slogan muda para “Excelente”.
00:08:06Bem bolado.
00:08:07Mas sinceramente, tem tantas pérolas aqui que vou deixar um link
00:08:10na descrição para esta home page para que vocês possam conferir por conta própria depois.
00:08:14Os fãs de Simpsons vão curtir muito isso.
00:08:17É realmente impressionante, de verdade.
00:08:19Não esperava que ele criasse um site tão divertido só com uma imagem e um prompt curto.
00:08:24Beleza.
00:08:25Mas agora quero testar a função de enxame de agentes de que todo mundo está falando.
00:08:29Olhando os exemplos deles, parece que o recurso de enxame é ótimo para tarefas como
00:08:33reunir pesquisas sobre um tema ou qualquer ação onde você queira uma abordagem
00:08:39multi-thread (em várias frentes).
00:08:40Mas para testar esse recurso em toda a sua glória, o melhor é usar a página oficial do Kimi
00:08:46e rodar no chatbot deles, porque eles adicionaram vários elementos visuais bacanas
00:08:50e animações que tornam o processo do enxame muito legal de ver.
00:08:54Vocês vão ver em um segundo.
00:08:56Para este teste, vou pedir ao enxame de agentes para reunir o máximo de informações possível
00:09:00sobre diferentes modelos, quais são os mais usados, e pedirei ao K2.5 para consolidar
00:09:06tudo isso em um documento PDF bem formatado.
00:09:10E também, se você quiser que o modelo use o enxame, é bom pedir explicitamente,
00:09:16porque em um dos meus testes anteriores, pedi uma tarefa e o K2.5 concluiu sozinho
00:09:23que não precisava usar o enxame e me devolveu alguns créditos de tokens.
00:09:27Então, se quiser mesmo ativar o enxame, certifique-se de avisá-lo.
00:09:31Certo.
00:09:32Vamos lançar nossa tarefa.
00:09:33Assim que começa, já vemos essas animações legais que o Kimi tem na interface do chatbot.
00:09:39E isso é algo que notei que a Moonshot AI faz muito bem.
00:09:43Eles realmente se destacam por ter uma experiência de usuário muito lúdica e gamificada,
00:09:49o que torna o processo de usar as ferramentas muito mais divertido.
00:09:52E novamente, o Kimi está sendo brincalhão aqui enquanto o modelo atribui os
00:09:57agentes.
00:09:58Ele até dá crachás de identificação para cada um deles.
00:10:01E podemos acompanhar o status de conclusão das tarefas em tempo real.
00:10:05Conforme os agentes vão terminando, podemos seguir o progresso na janela principal.
00:10:10Vemos as páginas da web que estão visitando e o código que estão produzindo.
00:10:11A essa altura, você pode até fazer suas apostas sobre qual agente vai terminar a tarefa
00:10:15mais rápido.
00:10:20Quando o agente completa a tarefa, aparece um balãozinho sobre o avatar dele.
00:10:21Cerca de 10 minutos e meio depois, meu enxame terminou a tarefa e recebemos
00:10:26este documento PDF como resultado.
00:10:31Parece que tem um texto aqui, mas não estou conseguindo enxergar direito.
00:10:33OK, tive que copiar e colar em outro lugar para entender.
00:10:39Beleza, diz: “Modelos de programação, análise comparativa”.
00:10:43Certo, certo.
00:10:46Bom, uma escolha de design bem ruim logo de cara.
00:10:47Mas tudo bem, não vamos tirar conclusões precipitadas.
00:10:50Vamos olhar o restante do relatório.
00:10:53OK, temos um resumo executivo aqui.
00:10:55Principais descobertas.
00:10:5881% dos desenvolvedores usam ou planejam usar IA.
00:10:5959% dos desenvolvedores rodam três ferramentas de IA em paralelo.
00:11:03OK, interessante.
00:11:06E vemos aqui que o Claude Code Opus 4.5 domina os gráficos.
00:11:08Depois vemos as tendências de mercado.
00:11:1346% dos desenvolvedores desconfiam ativamente dos resultados de IA.
00:11:16E uau, isso é surpreendente.
00:11:20O GitHub Copilot é o líder de mercado com 42% de participação.
00:11:22Nossa.
00:11:26O Llama 4 Scout parece ter a maior janela de contexto, com 10 milhões de tokens.
00:11:27Isso é bem impressionante.
00:11:31Certo, agora vem a parte boa.
00:11:32Principais conclusões.
00:11:33Vamos ver.
00:11:34Sem um vencedor único.
00:11:35Ah, qual é.
00:11:36Que sem graça.
00:11:3745% do código gerado por IA tem vulnerabilidades.
00:11:39É, isso com certeza é algo para se preocupar.
00:11:41Espera, acabei de notar que o relatório é baseado em informações públicas de janeiro
00:11:43de 2025.
00:11:46Ah, não.
00:11:52Ah, não.
00:11:542025.
00:11:56Não, não foi isso que eu pedi.
00:11:57Eu pedi especificamente informações sobre os modelos mais usados atualmente.
00:11:59Por que você não usou dados de janeiro de 2026?
00:12:02Você tem razão.
00:12:09Eu deveria ter pesquisado dados de 2025 e janeiro de 2026.
00:12:14Comportamento típico de LLM.
00:12:15Estou muito decepcionado com você, Kimi.
00:12:21Acabei de gastar um monte de tokens e 10 minutos do meu tempo com informações desatualizadas.
00:12:23Pois é.
00:12:25Então, aqui está.
00:12:30Este é o Kimi K2.5.
00:12:31Apesar da minha total decepção com a habilidade dele de seguir ordens no último teste, eu ainda
00:12:32acho que é um bom modelo.
00:12:35Eu não diria que é revolucionário ou o melhor do mundo, mas tem seus pontos positivos.
00:12:40Eu certamente o recomendaria se você quiser fazer um site realmente bonito, sabe,
00:12:42algo digno de aparecer no awwwards.com.
00:12:47Nesse caso, eu definitivamente iria de K2.5 em vez de um dos modelos do Claude Code, por exemplo.
00:12:51E tenho que ser honesto, o recurso de enxame parece muito legal e é divertido
00:12:55de usar.
00:13:01Mas você sabia que pode ter o mesmo recurso usando o Claude Code?
00:13:06O Richard acabou de fazer um ótimo vídeo explorando esse tema, então não deixe de conferir também.
00:13:07E pessoal, se acharam este vídeo útil ou pelo menos divertido, deixem o seu
00:13:10like clicando no botão abaixo do vídeo.
00:13:14E também não se esqueçam de se inscrever no canal para não perderem nossos futuros
00:13:15vídeos de análises técnicas.
00:13:19Aqui foi o Andris da Better Stack e vejo vocês nos próximos vídeos.
00:13:22And also be sure to subscribe to our channel so you don't miss out on any of our future
00:13:26technical breakdown videos.
00:13:28This has been Andris from Better Stack and I will see you in the next videos.

Key Takeaway

O Kimi K2.5 demonstra capacidades excepcionais de design e codificação visual, mas ainda apresenta inconsistências típicas de LLMs ao seguir instruções temporais rigorosas em tarefas de pesquisa.

Highlights

O Kimi K2.5 da Moonshot AI é um modelo de código aberto que se destaca em visão computacional

Timeline

Introdução e Visão Geral do Kimi K2.5

O vídeo começa apresentando o Kimi K2.5, o modelo de código aberto mais recente da empresa chinesa Moonshot AI. O narrador explica que o modelo tem gerado grande repercussão na internet devido ao seu desempenho em benchmarks de programação e visão. Ele menciona que o K2.5 se autodenomina SOTA (State of the Art), um termo que o próprio apresentador admite ter pesquisado para entender. O objetivo do vídeo é testar se o modelo realmente cumpre o que promete ou se é apenas fruto de marketing. Esta introdução estabelece as bases para os testes técnicos que virão a seguir.

Arquitetura Agent Swarm e Treinamento PARL

Nesta seção, o apresentador detalha a funcionalidade inovadora chamada Agent Swarm ou "Enxame de Agentes". Este sistema permite a criação de até 100 subagentes que executam 1.500 chamadas de ferramentas de forma concorrente, sendo 4,5 vezes mais rápido que modelos seriais. O segredo por trás disso é o PARL (Aprendizado por Reforço de Agente Paralelo), que utiliza um agente orquestrador para monitorar a operação. O narrador critica a confiabilidade dos benchmarks atuais, preferindo focar em testes práticos de visão e programação. O conceito central aqui é evitar o colapso do fluxo de trabalho quando múltiplos agentes interagem.

Teste de Visão: Replicando o Site da Apple

O primeiro teste prático envolve usar a ferramenta Kimi CLI para criar um site baseado em uma gravação de tela do iPad Air. O modelo processa o vídeo usando o FFmpeg para extrair quadros principais e entender a estética visual da Apple. Após cerca de cinco minutos e meio, o Kimi entrega um site funcional com animações fluidas e um iPad flutuante em 3D. O apresentador fica impressionado com a capacidade da IA de captar o design sofisticado apenas com uma referência visual curta. Este teste demonstra o potencial do modelo para desenvolvedores de front-end que buscam inspiração rápida.

Teste de Criatividade: Campanha do Sr. Burns

Para testar a criatividade e o humor, o apresentador pede ao Kimi para criar um site de campanha presidencial para o Sr. Burns, dos Simpsons. O modelo analisa uma única imagem do personagem e desenvolve toda uma identidade visual baseada no terno verde clássico. O resultado inclui políticas satíricas, como vouchers de saúde exclusivos para as empresas Burns e um muro de ouro na fronteira. Um detalhe notável é a inclusão de um "Easter egg" ativado pelo Konami Code, que muda o slogan para "Excelente". O narrador conclui que o design é superior aos layouts genéricos produzidos por outros modelos concorrentes.

O Enxame de Agentes em Ação e Falha de Dados

O teste final utiliza a interface do chatbot para rodar uma pesquisa multi-thread sobre modelos de IA atuais. A interface é descrita como gamificada, exibindo crachás para cada agente e permitindo acompanhar o progresso em tempo real. No entanto, após 10 minutos de processamento, o relatório gerado contém informações obsoletas de janeiro de 2025, ignorando o pedido por dados de 2026. O apresentador expressa frustração com o gasto de tokens em dados inúteis, evidenciando uma falha crítica na obediência às instruções. O relatório até mencionava modelos fictícios como o "Claude Code Opus 4.5" e "Llama 4 Scout" como tendências passadas.

Conclusão e Recomendações Finais

Na conclusão, o narrador faz um balanço final sobre o Kimi K2.5, afirmando que, apesar da falha no último teste, ele ainda é um modelo sólido. Ele recomenda o K2.5 especificamente para quem deseja criar sites visualmente impactantes e estéticos. No entanto, ele ressalta que recursos semelhantes de agentes podem ser encontrados em ferramentas como o Claude Code. O vídeo termina incentivando os espectadores a conferirem outras análises técnicas no canal Better Stack. O tom final é de otimismo cauteloso, reconhecendo o talento visual da Moonshot AI mas alertando para as limitações lógicas.

Community Posts

View all posts