Why is Everyone OBSESSED With The New Kimi K2.5 AI Model

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

Computing/SoftwareAdvertising/MarketingSmall Business/StartupsInternet Technology

Transcript

00:00:00Espera, acabei de notar.

00:00:01O relatório é baseado em informações públicas de janeiro de 2025.

00:00:06Ah não, ah não, 2025 não, não foi isso que eu pedi.

00:00:15A Moonshot AI lançou seu mais novo modelo de IA, o Kimi K 2.5, e ele tem sido a sensação

00:00:22da internet esta semana.

00:00:24Algumas pessoas estão chegando ao ponto de dizer que este pode ser o modelo favorito delas.

00:00:29Então, naturalmente, eu tive que testá-lo para ver do que se trata todo esse barulho e determinar se isso

00:00:34realmente é algo novo ou apenas mais um modelo inflado por um marketing chamativo.

00:00:39É isso que vamos descobrir no vídeo de hoje.

00:00:42Vai ser muito divertido, então vamos lá.

00:00:49O Kimi K 2.5 é o mais recente modelo de código aberto desenvolvido por uma empresa chinesa chamada Moonshot

00:00:55AI.

00:00:56Há apenas seis meses, o Richard já cobriu o K2 em detalhes e hoje estamos de volta

00:01:01para conferir as novidades do K2.5.

00:01:05Mas qual é o grande diferencial desse modelo?

00:01:06Como ele se distingue de todos os outros milhares de modelos novos que saem quase diariamente?

00:01:12Bom, há duas coisas.

00:01:13Primeiro, ele afirma ser muito bom em visão computacional e programação.

00:01:17Eles chegam a se rotular como o SOTA de código aberto.

00:01:21SOTA.

00:01:22Você sabe o que isso significa?

00:01:24Na verdade, eu mesmo tive que pesquisar, eu não sabia.

00:01:27Ah, entendi, significa “state of the art” (estado da arte).

00:01:30Beleza, vivendo e aprendendo.

00:01:32Enfim, ele é totalmente de ponta em benchmarks de agentes, visão e programação.

00:01:37E a segunda coisa que se destaca neste modelo é uma nova funcionalidade chamada

00:01:42Agent Swarm (Enxame de Agentes).

00:01:44Onde ele é capaz de criar até cem subagentes e 1.500 chamadas de ferramentas e executá-los

00:01:51concorrentemente, resultando em um desempenho 4,5 vezes mais rápido.

00:01:55Para este modelo, eles usaram um novo método de treinamento chamado aprendizado por reforço de agente paralelo,

00:02:00ou PARL.

00:02:01Isso significa que o modelo pode autodirigir todo o enxame de agentes criando um

00:02:06agente orquestrador treinável, que basicamente comanda o show decompondo tarefas em

00:02:12subtarefas paralelizáveis e monitorando todos esses agentes para garantir que a operação

00:02:18não sofra um colapso serial, o que costuma acontecer com esses fluxos de trabalho multiagentes.

00:02:23Eles resolveram isso dando recompensas a cada subagente em estágios críticos separados,

00:02:28e todo esse sistema permite que o K 2.5 alcance ganhos de desempenho notáveis.

00:02:34Então, com certeza vamos testá-lo.

00:02:35Não vou entrar em muitos detalhes sobre todos os diferentes benchmarks porque,

00:02:40sinceramente, todo vídeo que vejo agora está sempre exaltando esses números e eu nem acho que

00:02:44podemos mais confiar neles, para ser sincero.

00:02:47Eles nem conseguem alinhar os gráficos dos benchmarks direito, fala sério.

00:02:51Em vez disso, vou focar nas duas coisas que afirmam que este modelo é

00:02:55bom.

00:02:56Visão, programação e a nova funcionalidade de enxame de agentes.

00:03:00Então, vamos ao teste.

00:03:02Eles também têm sua própria ferramenta de linha de comando chamada Kimi CLI.

00:03:06É ela que vou usar hoje para realizar meus testes.

00:03:09Um dos recursos mais impressionantes que eles alegam ter é a capacidade de pegar uma gravação

00:03:13em vídeo da UX de um site específico e replicá-la em código.

00:03:19Isso é bem impressionante.

00:03:20Para testar, fiz uma gravação de tela da página do iPad Air da Apple com todas aquelas

00:03:25animações e transições sofisticadas.

00:03:28E criei uma pasta que contém apenas o arquivo dessa gravação.

00:03:32Agora vou pedir ao K 2.5 para fazer um site promocional para o iPad Air

00:03:38baseado nesse vídeo.

00:03:39E antes de executar comandos no terminal, ele pergunta se queremos permitir, então vou autorizar

00:03:44para esta sessão.

00:03:46E agora está rodando.

00:03:48Isso é interessante.

00:03:49Ele detectou que o arquivo era grande demais.

00:03:51Então ele mesmo usou o FFmpeg para comprimi-lo sozinho.

00:03:56E eu estava muito curioso para saber como este modelo processa e entende um arquivo de vídeo.

00:04:01Acontece que ele pega o vídeo e, mais uma vez, usa o FFmpeg para extrair os

00:04:06quadros principais (keyframes) para usar como auxílio visual na construção do site.

00:04:11O modelo levou cerca de cinco minutos e meio para terminar a tarefa.

00:04:15Definitivamente não é o modelo mais rápido do mercado.

00:04:18E lembre-se, estou usando as APIs deles para chamar o modelo, não uma versão local.

00:04:23Mas enfim, assim que termina, podemos ver aqui que ele nos dá um resumo detalhado do que

00:04:28fez.

00:04:29Agora vamos ver o site em si.

00:04:30Oh, uau.

00:04:31Olha só isso.

00:04:32Ele captou toda a estética de design da Apple e até criou este iPad flutuante em 3D

00:04:38no meio.

00:04:39E parece estar respondendo aos movimentos do mouse também.

00:04:42Isso é muito legal.

00:04:43Depois temos esta seção de carrossel com janelas diferentes, mas infelizmente ela não

00:04:48responde quando clico nos pontos, mas ainda assim é bem elegante.

00:04:52Depois temos outra seção com algumas animações.

00:04:55Ah, e aqui temos um carrossel navegável com designs diferentes.

00:05:00Bem bacana.

00:05:01E depois mais algumas seções, todas com aquela cara de estética da Apple.

00:05:06Sinceramente, isso está muito bom.

00:05:07O fato de ele ter produzido um site bonito com todas essas animações apenas

00:05:12com um vídeo de referência e um prompt curto é incrível.

00:05:16Tudo bem.

00:05:17Mas a Apple é uma marca muito conhecida.

00:05:18Tenho certeza de que a estética deles faz parte dos dados de treinamento do modelo.

00:05:23Então, essa provavelmente foi uma tarefa fácil para ele.

00:05:26Agora vamos tentar algo mais interessante e um pouco inusitado.

00:05:29Criei outra pasta com uma única imagem do Sr. Burns, dos Simpsons.

00:05:34Vamos ver quão criativo o Kimi K 2.5 pode ser.

00:05:37Adicionei este prompt: “O Sr. Burns está concorrendo à presidência.”

00:05:40Quero que você crie um site de campanha presidencial para o Sr. Burns, incluindo suas políticas

00:05:45e agenda política baseadas nos traços e motivações do personagem.

00:05:49Vamos ver no que dá.

00:05:51Assim que começa o processo de raciocínio, podemos ver como ele planeja o design.

00:05:55O conceito está claro.

00:05:56Montgomery Burns em seu clássico terno verde escuro e gravata pêssego.

00:06:01Esta é a principal referência visual para a estética da campanha.

00:06:05Muito maneiro.

00:06:06E esta parte levou ainda mais tempo para terminar.

00:06:08Foram cerca de seis minutos no total.

00:06:11Mas agora que terminou, novamente vemos um resumo detalhado do que foi produzido e podemos ver

00:06:16que ele adicionou uma seção de visão, uma de políticas, materiais promocionais, etc.

00:06:22E olha só.

00:06:23Ele até incluiu um Easter egg escondido só por diversão.

00:06:26Isso é sensacional.

00:06:27Agora vamos ver como ficou o site.

00:06:29Uau.

00:06:30Olha isso.

00:06:31“Excelência na governança.”

00:06:33“Fazendo este país grande novamente... para mim.”

00:06:36Ah, e tem um botão nuclear ali no canto.

00:06:40O que acontece quando eu clico?

00:06:41“Smithers, me traga um café.”

00:06:43Que massa.

00:06:44E tem até uma página detalhada “Sobre”.

00:06:46E aqui sobre prosperidade.

00:06:49E as animações são tão fluidas.

00:06:50Uau.

00:06:51Pelo visto, o Kimi K 2.5 realmente sabe criar gráficos impactantes.

00:06:55É obviamente muito melhor do que aqueles designs genéricos arroxeados que temos visto

00:07:01outros modelos produzirem.

00:07:02E olha só.

00:07:04“Políticas para a elite.”

00:07:05Meu Deus.

00:07:06Tem tantas piadas internas boas aqui.

00:07:08Incrível.

00:07:10Vouchers de saúde resgatáveis apenas nos centros médicos Burns.

00:07:14Lista de espera para transplante de órgãos ordenada por patrimônio líquido.

00:07:18Muro na fronteira feito de ouro.

00:07:21O que as pessoas estão dizendo?

00:07:22OK, aqui temos citações dos personagens dos Simpsons, um formulário de contato e a página

00:07:29de doações de campanha.

00:07:30Ele até adicionou uma loja de produtos.

00:07:31OK, mas essa seção está como “em breve”.

00:07:33Faz sentido, já que esta é uma página HTML estática.

00:07:35Tudo bem.

00:07:36Agora quero ativar aquele Easter egg.

00:07:38Como eu faço?

00:07:39O código diz que tenho que inserir o “Konami code”.

00:07:43O que é um Konami code?

00:07:45Ah, entendi.

00:07:46O Konami code é um famoso código de trapaça de videogames.

00:07:49Nossa.

00:07:50Eu não sabia disso.

00:07:51Mais uma vez, vivendo e aprendendo.

00:07:52Então é: cima, cima, baixo, baixo, esquerda, direita, esquerda, direita, A, B. Ah, ok.

00:07:58Aí está.

00:07:59Agora aparece um grande texto “HA HA HA” na página e o slogan muda para “Excelente”.

00:08:06Bem bolado.

00:08:07Mas sinceramente, tem tantas pérolas aqui que vou deixar um link

00:08:10na descrição para esta home page para que vocês possam conferir por conta própria depois.

00:08:14Os fãs de Simpsons vão curtir muito isso.

00:08:17É realmente impressionante, de verdade.

00:08:19Não esperava que ele criasse um site tão divertido só com uma imagem e um prompt curto.

00:08:24Beleza.

00:08:25Mas agora quero testar a função de enxame de agentes de que todo mundo está falando.

00:08:29Olhando os exemplos deles, parece que o recurso de enxame é ótimo para tarefas como

00:08:33reunir pesquisas sobre um tema ou qualquer ação onde você queira uma abordagem

00:08:39multi-thread (em várias frentes).

00:08:40Mas para testar esse recurso em toda a sua glória, o melhor é usar a página oficial do Kimi

00:08:46e rodar no chatbot deles, porque eles adicionaram vários elementos visuais bacanas

00:08:50e animações que tornam o processo do enxame muito legal de ver.

00:08:54Vocês vão ver em um segundo.

00:08:56Para este teste, vou pedir ao enxame de agentes para reunir o máximo de informações possível

00:09:00sobre diferentes modelos, quais são os mais usados, e pedirei ao K2.5 para consolidar

00:09:06tudo isso em um documento PDF bem formatado.

00:09:10E também, se você quiser que o modelo use o enxame, é bom pedir explicitamente,

00:09:16porque em um dos meus testes anteriores, pedi uma tarefa e o K2.5 concluiu sozinho

00:09:23que não precisava usar o enxame e me devolveu alguns créditos de tokens.

00:09:27Então, se quiser mesmo ativar o enxame, certifique-se de avisá-lo.

00:09:31Certo.

00:09:32Vamos lançar nossa tarefa.

00:09:33Assim que começa, já vemos essas animações legais que o Kimi tem na interface do chatbot.

00:09:39E isso é algo que notei que a Moonshot AI faz muito bem.

00:09:43Eles realmente se destacam por ter uma experiência de usuário muito lúdica e gamificada,

00:09:49o que torna o processo de usar as ferramentas muito mais divertido.

00:09:52E novamente, o Kimi está sendo brincalhão aqui enquanto o modelo atribui os

00:09:57agentes.

00:09:58Ele até dá crachás de identificação para cada um deles.

00:10:01E podemos acompanhar o status de conclusão das tarefas em tempo real.

00:10:05Conforme os agentes vão terminando, podemos seguir o progresso na janela principal.

00:10:10Vemos as páginas da web que estão visitando e o código que estão produzindo.

00:10:11A essa altura, você pode até fazer suas apostas sobre qual agente vai terminar a tarefa

00:10:15mais rápido.

00:10:20Quando o agente completa a tarefa, aparece um balãozinho sobre o avatar dele.

00:10:21Cerca de 10 minutos e meio depois, meu enxame terminou a tarefa e recebemos

00:10:26este documento PDF como resultado.

00:10:31Parece que tem um texto aqui, mas não estou conseguindo enxergar direito.

00:10:33OK, tive que copiar e colar em outro lugar para entender.

00:10:39Beleza, diz: “Modelos de programação, análise comparativa”.

00:10:43Certo, certo.

00:10:46Bom, uma escolha de design bem ruim logo de cara.

00:10:47Mas tudo bem, não vamos tirar conclusões precipitadas.

00:10:50Vamos olhar o restante do relatório.

00:10:53OK, temos um resumo executivo aqui.

00:10:55Principais descobertas.

00:10:5881% dos desenvolvedores usam ou planejam usar IA.

00:10:5959% dos desenvolvedores rodam três ferramentas de IA em paralelo.

00:11:03OK, interessante.

00:11:06E vemos aqui que o Claude Code Opus 4.5 domina os gráficos.

00:11:08Depois vemos as tendências de mercado.

00:11:1346% dos desenvolvedores desconfiam ativamente dos resultados de IA.

00:11:16E uau, isso é surpreendente.

00:11:20O GitHub Copilot é o líder de mercado com 42% de participação.

00:11:22Nossa.

00:11:26O Llama 4 Scout parece ter a maior janela de contexto, com 10 milhões de tokens.

00:11:27Isso é bem impressionante.

00:11:31Certo, agora vem a parte boa.

00:11:32Principais conclusões.

00:11:33Vamos ver.

00:11:34Sem um vencedor único.

00:11:35Ah, qual é.

00:11:36Que sem graça.

00:11:3745% do código gerado por IA tem vulnerabilidades.

00:11:39É, isso com certeza é algo para se preocupar.

00:11:41Espera, acabei de notar que o relatório é baseado em informações públicas de janeiro

00:11:43de 2025.

00:11:46Ah, não.

00:11:52Ah, não.

00:11:542025.

00:11:56Não, não foi isso que eu pedi.

00:11:57Eu pedi especificamente informações sobre os modelos mais usados atualmente.

00:11:59Por que você não usou dados de janeiro de 2026?

00:12:02Você tem razão.

00:12:09Eu deveria ter pesquisado dados de 2025 e janeiro de 2026.

00:12:14Comportamento típico de LLM.

00:12:15Estou muito decepcionado com você, Kimi.

00:12:21Acabei de gastar um monte de tokens e 10 minutos do meu tempo com informações desatualizadas.

00:12:23Pois é.

00:12:25Então, aqui está.

00:12:30Este é o Kimi K2.5.

00:12:31Apesar da minha total decepção com a habilidade dele de seguir ordens no último teste, eu ainda

00:12:32acho que é um bom modelo.

00:12:35Eu não diria que é revolucionário ou o melhor do mundo, mas tem seus pontos positivos.

00:12:40Eu certamente o recomendaria se você quiser fazer um site realmente bonito, sabe,

00:12:42algo digno de aparecer no awwwards.com.

00:12:47Nesse caso, eu definitivamente iria de K2.5 em vez de um dos modelos do Claude Code, por exemplo.

00:12:51E tenho que ser honesto, o recurso de enxame parece muito legal e é divertido

00:12:55de usar.

00:13:01Mas você sabia que pode ter o mesmo recurso usando o Claude Code?

00:13:06O Richard acabou de fazer um ótimo vídeo explorando esse tema, então não deixe de conferir também.

00:13:07E pessoal, se acharam este vídeo útil ou pelo menos divertido, deixem o seu

00:13:10like clicando no botão abaixo do vídeo.

00:13:14E também não se esqueçam de se inscrever no canal para não perderem nossos futuros

00:13:15vídeos de análises técnicas.

00:13:19Aqui foi o Andris da Better Stack e vejo vocês nos próximos vídeos.

00:13:22And also be sure to subscribe to our channel so you don't miss out on any of our future

00:13:26technical breakdown videos.

00:13:28This has been Andris from Better Stack and I will see you in the next videos.

Key Takeaway

O Kimi K2.5 demonstra capacidades excepcionais de design e codificação visual, mas ainda apresenta inconsistências típicas de LLMs ao seguir instruções temporais rigorosas em tarefas de pesquisa.

Highlights

O Kimi K2.5 da Moonshot AI é um modelo de código aberto que se destaca em visão computacional

Timeline

Introdução e Visão Geral do Kimi K2.5

O vídeo começa apresentando o Kimi K2.5, o modelo de código aberto mais recente da empresa chinesa Moonshot AI. O narrador explica que o modelo tem gerado grande repercussão na internet devido ao seu desempenho em benchmarks de programação e visão. Ele menciona que o K2.5 se autodenomina SOTA (State of the Art), um termo que o próprio apresentador admite ter pesquisado para entender. O objetivo do vídeo é testar se o modelo realmente cumpre o que promete ou se é apenas fruto de marketing. Esta introdução estabelece as bases para os testes técnicos que virão a seguir.

Arquitetura Agent Swarm e Treinamento PARL

Nesta seção, o apresentador detalha a funcionalidade inovadora chamada Agent Swarm ou "Enxame de Agentes". Este sistema permite a criação de até 100 subagentes que executam 1.500 chamadas de ferramentas de forma concorrente, sendo 4,5 vezes mais rápido que modelos seriais. O segredo por trás disso é o PARL (Aprendizado por Reforço de Agente Paralelo), que utiliza um agente orquestrador para monitorar a operação. O narrador critica a confiabilidade dos benchmarks atuais, preferindo focar em testes práticos de visão e programação. O conceito central aqui é evitar o colapso do fluxo de trabalho quando múltiplos agentes interagem.

Teste de Visão: Replicando o Site da Apple

O primeiro teste prático envolve usar a ferramenta Kimi CLI para criar um site baseado em uma gravação de tela do iPad Air. O modelo processa o vídeo usando o FFmpeg para extrair quadros principais e entender a estética visual da Apple. Após cerca de cinco minutos e meio, o Kimi entrega um site funcional com animações fluidas e um iPad flutuante em 3D. O apresentador fica impressionado com a capacidade da IA de captar o design sofisticado apenas com uma referência visual curta. Este teste demonstra o potencial do modelo para desenvolvedores de front-end que buscam inspiração rápida.

Teste de Criatividade: Campanha do Sr. Burns

Para testar a criatividade e o humor, o apresentador pede ao Kimi para criar um site de campanha presidencial para o Sr. Burns, dos Simpsons. O modelo analisa uma única imagem do personagem e desenvolve toda uma identidade visual baseada no terno verde clássico. O resultado inclui políticas satíricas, como vouchers de saúde exclusivos para as empresas Burns e um muro de ouro na fronteira. Um detalhe notável é a inclusão de um "Easter egg" ativado pelo Konami Code, que muda o slogan para "Excelente". O narrador conclui que o design é superior aos layouts genéricos produzidos por outros modelos concorrentes.

O Enxame de Agentes em Ação e Falha de Dados

O teste final utiliza a interface do chatbot para rodar uma pesquisa multi-thread sobre modelos de IA atuais. A interface é descrita como gamificada, exibindo crachás para cada agente e permitindo acompanhar o progresso em tempo real. No entanto, após 10 minutos de processamento, o relatório gerado contém informações obsoletas de janeiro de 2025, ignorando o pedido por dados de 2026. O apresentador expressa frustração com o gasto de tokens em dados inúteis, evidenciando uma falha crítica na obediência às instruções. O relatório até mencionava modelos fictícios como o "Claude Code Opus 4.5" e "Llama 4 Scout" como tendências passadas.

Conclusão e Recomendações Finais

Na conclusão, o narrador faz um balanço final sobre o Kimi K2.5, afirmando que, apesar da falha no último teste, ele ainda é um modelo sólido. Ele recomenda o K2.5 especificamente para quem deseja criar sites visualmente impactantes e estéticos. No entanto, ele ressalta que recursos semelhantes de agentes podem ser encontrados em ferramentas como o Claude Code. O vídeo termina incentivando os espectadores a conferirem outras análises técnicas no canal Better Stack. O tom final é de otimismo cauteloso, reconhecendo o talento visual da Moonshot AI mas alertando para as limitações lógicas.

Community Posts

Write about this video