00:00:00Espera, acabei de notar.
00:00:01O relatório é baseado em informações públicas de janeiro de 2025.
00:00:06Ah não, ah não, 2025 não, não foi isso que eu pedi.
00:00:15A Moonshot AI lançou seu mais novo modelo de IA, o Kimi K 2.5, e ele tem sido a sensação
00:00:22da internet esta semana.
00:00:24Algumas pessoas estão chegando ao ponto de dizer que este pode ser o modelo favorito delas.
00:00:29Então, naturalmente, eu tive que testá-lo para ver do que se trata todo esse barulho e determinar se isso
00:00:34realmente é algo novo ou apenas mais um modelo inflado por um marketing chamativo.
00:00:39É isso que vamos descobrir no vídeo de hoje.
00:00:42Vai ser muito divertido, então vamos lá.
00:00:49O Kimi K 2.5 é o mais recente modelo de código aberto desenvolvido por uma empresa chinesa chamada Moonshot
00:00:55AI.
00:00:56Há apenas seis meses, o Richard já cobriu o K2 em detalhes e hoje estamos de volta
00:01:01para conferir as novidades do K2.5.
00:01:05Mas qual é o grande diferencial desse modelo?
00:01:06Como ele se distingue de todos os outros milhares de modelos novos que saem quase diariamente?
00:01:12Bom, há duas coisas.
00:01:13Primeiro, ele afirma ser muito bom em visão computacional e programação.
00:01:17Eles chegam a se rotular como o SOTA de código aberto.
00:01:21SOTA.
00:01:22Você sabe o que isso significa?
00:01:24Na verdade, eu mesmo tive que pesquisar, eu não sabia.
00:01:27Ah, entendi, significa “state of the art” (estado da arte).
00:01:30Beleza, vivendo e aprendendo.
00:01:32Enfim, ele é totalmente de ponta em benchmarks de agentes, visão e programação.
00:01:37E a segunda coisa que se destaca neste modelo é uma nova funcionalidade chamada
00:01:42Agent Swarm (Enxame de Agentes).
00:01:44Onde ele é capaz de criar até cem subagentes e 1.500 chamadas de ferramentas e executá-los
00:01:51concorrentemente, resultando em um desempenho 4,5 vezes mais rápido.
00:01:55Para este modelo, eles usaram um novo método de treinamento chamado aprendizado por reforço de agente paralelo,
00:02:00ou PARL.
00:02:01Isso significa que o modelo pode autodirigir todo o enxame de agentes criando um
00:02:06agente orquestrador treinável, que basicamente comanda o show decompondo tarefas em
00:02:12subtarefas paralelizáveis e monitorando todos esses agentes para garantir que a operação
00:02:18não sofra um colapso serial, o que costuma acontecer com esses fluxos de trabalho multiagentes.
00:02:23Eles resolveram isso dando recompensas a cada subagente em estágios críticos separados,
00:02:28e todo esse sistema permite que o K 2.5 alcance ganhos de desempenho notáveis.
00:02:34Então, com certeza vamos testá-lo.
00:02:35Não vou entrar em muitos detalhes sobre todos os diferentes benchmarks porque,
00:02:40sinceramente, todo vídeo que vejo agora está sempre exaltando esses números e eu nem acho que
00:02:44podemos mais confiar neles, para ser sincero.
00:02:47Eles nem conseguem alinhar os gráficos dos benchmarks direito, fala sério.
00:02:51Em vez disso, vou focar nas duas coisas que afirmam que este modelo é
00:02:55bom.
00:02:56Visão, programação e a nova funcionalidade de enxame de agentes.
00:03:00Então, vamos ao teste.
00:03:02Eles também têm sua própria ferramenta de linha de comando chamada Kimi CLI.
00:03:06É ela que vou usar hoje para realizar meus testes.
00:03:09Um dos recursos mais impressionantes que eles alegam ter é a capacidade de pegar uma gravação
00:03:13em vídeo da UX de um site específico e replicá-la em código.
00:03:19Isso é bem impressionante.
00:03:20Para testar, fiz uma gravação de tela da página do iPad Air da Apple com todas aquelas
00:03:25animações e transições sofisticadas.
00:03:28E criei uma pasta que contém apenas o arquivo dessa gravação.
00:03:32Agora vou pedir ao K 2.5 para fazer um site promocional para o iPad Air
00:03:38baseado nesse vídeo.
00:03:39E antes de executar comandos no terminal, ele pergunta se queremos permitir, então vou autorizar
00:03:44para esta sessão.
00:03:46E agora está rodando.
00:03:48Isso é interessante.
00:03:49Ele detectou que o arquivo era grande demais.
00:03:51Então ele mesmo usou o FFmpeg para comprimi-lo sozinho.
00:03:56E eu estava muito curioso para saber como este modelo processa e entende um arquivo de vídeo.
00:04:01Acontece que ele pega o vídeo e, mais uma vez, usa o FFmpeg para extrair os
00:04:06quadros principais (keyframes) para usar como auxílio visual na construção do site.
00:04:11O modelo levou cerca de cinco minutos e meio para terminar a tarefa.
00:04:15Definitivamente não é o modelo mais rápido do mercado.
00:04:18E lembre-se, estou usando as APIs deles para chamar o modelo, não uma versão local.
00:04:23Mas enfim, assim que termina, podemos ver aqui que ele nos dá um resumo detalhado do que
00:04:28fez.
00:04:29Agora vamos ver o site em si.
00:04:30Oh, uau.
00:04:31Olha só isso.
00:04:32Ele captou toda a estética de design da Apple e até criou este iPad flutuante em 3D
00:04:38no meio.
00:04:39E parece estar respondendo aos movimentos do mouse também.
00:04:42Isso é muito legal.
00:04:43Depois temos esta seção de carrossel com janelas diferentes, mas infelizmente ela não
00:04:48responde quando clico nos pontos, mas ainda assim é bem elegante.
00:04:52Depois temos outra seção com algumas animações.
00:04:55Ah, e aqui temos um carrossel navegável com designs diferentes.
00:05:00Bem bacana.
00:05:01E depois mais algumas seções, todas com aquela cara de estética da Apple.
00:05:06Sinceramente, isso está muito bom.
00:05:07O fato de ele ter produzido um site bonito com todas essas animações apenas
00:05:12com um vídeo de referência e um prompt curto é incrível.
00:05:16Tudo bem.
00:05:17Mas a Apple é uma marca muito conhecida.
00:05:18Tenho certeza de que a estética deles faz parte dos dados de treinamento do modelo.
00:05:23Então, essa provavelmente foi uma tarefa fácil para ele.
00:05:26Agora vamos tentar algo mais interessante e um pouco inusitado.
00:05:29Criei outra pasta com uma única imagem do Sr. Burns, dos Simpsons.
00:05:34Vamos ver quão criativo o Kimi K 2.5 pode ser.
00:05:37Adicionei este prompt: “O Sr. Burns está concorrendo à presidência.”
00:05:40Quero que você crie um site de campanha presidencial para o Sr. Burns, incluindo suas políticas
00:05:45e agenda política baseadas nos traços e motivações do personagem.
00:05:49Vamos ver no que dá.
00:05:51Assim que começa o processo de raciocínio, podemos ver como ele planeja o design.
00:05:55O conceito está claro.
00:05:56Montgomery Burns em seu clássico terno verde escuro e gravata pêssego.
00:06:01Esta é a principal referência visual para a estética da campanha.
00:06:05Muito maneiro.
00:06:06E esta parte levou ainda mais tempo para terminar.
00:06:08Foram cerca de seis minutos no total.
00:06:11Mas agora que terminou, novamente vemos um resumo detalhado do que foi produzido e podemos ver
00:06:16que ele adicionou uma seção de visão, uma de políticas, materiais promocionais, etc.
00:06:22E olha só.
00:06:23Ele até incluiu um Easter egg escondido só por diversão.
00:06:26Isso é sensacional.
00:06:27Agora vamos ver como ficou o site.
00:06:29Uau.
00:06:30Olha isso.
00:06:31“Excelência na governança.”
00:06:33“Fazendo este país grande novamente... para mim.”
00:06:36Ah, e tem um botão nuclear ali no canto.
00:06:40O que acontece quando eu clico?
00:06:41“Smithers, me traga um café.”
00:06:43Que massa.
00:06:44E tem até uma página detalhada “Sobre”.
00:06:46E aqui sobre prosperidade.
00:06:49E as animações são tão fluidas.
00:06:50Uau.
00:06:51Pelo visto, o Kimi K 2.5 realmente sabe criar gráficos impactantes.
00:06:55É obviamente muito melhor do que aqueles designs genéricos arroxeados que temos visto
00:07:01outros modelos produzirem.
00:07:02E olha só.
00:07:04“Políticas para a elite.”
00:07:05Meu Deus.
00:07:06Tem tantas piadas internas boas aqui.
00:07:08Incrível.
00:07:10Vouchers de saúde resgatáveis apenas nos centros médicos Burns.
00:07:14Lista de espera para transplante de órgãos ordenada por patrimônio líquido.
00:07:18Muro na fronteira feito de ouro.
00:07:21O que as pessoas estão dizendo?
00:07:22OK, aqui temos citações dos personagens dos Simpsons, um formulário de contato e a página
00:07:29de doações de campanha.
00:07:30Ele até adicionou uma loja de produtos.
00:07:31OK, mas essa seção está como “em breve”.
00:07:33Faz sentido, já que esta é uma página HTML estática.
00:07:35Tudo bem.
00:07:36Agora quero ativar aquele Easter egg.
00:07:38Como eu faço?
00:07:39O código diz que tenho que inserir o “Konami code”.
00:07:43O que é um Konami code?
00:07:45Ah, entendi.
00:07:46O Konami code é um famoso código de trapaça de videogames.
00:07:49Nossa.
00:07:50Eu não sabia disso.
00:07:51Mais uma vez, vivendo e aprendendo.
00:07:52Então é: cima, cima, baixo, baixo, esquerda, direita, esquerda, direita, A, B. Ah, ok.
00:07:58Aí está.
00:07:59Agora aparece um grande texto “HA HA HA” na página e o slogan muda para “Excelente”.
00:08:06Bem bolado.
00:08:07Mas sinceramente, tem tantas pérolas aqui que vou deixar um link
00:08:10na descrição para esta home page para que vocês possam conferir por conta própria depois.
00:08:14Os fãs de Simpsons vão curtir muito isso.
00:08:17É realmente impressionante, de verdade.
00:08:19Não esperava que ele criasse um site tão divertido só com uma imagem e um prompt curto.
00:08:24Beleza.
00:08:25Mas agora quero testar a função de enxame de agentes de que todo mundo está falando.
00:08:29Olhando os exemplos deles, parece que o recurso de enxame é ótimo para tarefas como
00:08:33reunir pesquisas sobre um tema ou qualquer ação onde você queira uma abordagem
00:08:39multi-thread (em várias frentes).
00:08:40Mas para testar esse recurso em toda a sua glória, o melhor é usar a página oficial do Kimi
00:08:46e rodar no chatbot deles, porque eles adicionaram vários elementos visuais bacanas
00:08:50e animações que tornam o processo do enxame muito legal de ver.
00:08:54Vocês vão ver em um segundo.
00:08:56Para este teste, vou pedir ao enxame de agentes para reunir o máximo de informações possível
00:09:00sobre diferentes modelos, quais são os mais usados, e pedirei ao K2.5 para consolidar
00:09:06tudo isso em um documento PDF bem formatado.
00:09:10E também, se você quiser que o modelo use o enxame, é bom pedir explicitamente,
00:09:16porque em um dos meus testes anteriores, pedi uma tarefa e o K2.5 concluiu sozinho
00:09:23que não precisava usar o enxame e me devolveu alguns créditos de tokens.
00:09:27Então, se quiser mesmo ativar o enxame, certifique-se de avisá-lo.
00:09:31Certo.
00:09:32Vamos lançar nossa tarefa.
00:09:33Assim que começa, já vemos essas animações legais que o Kimi tem na interface do chatbot.
00:09:39E isso é algo que notei que a Moonshot AI faz muito bem.
00:09:43Eles realmente se destacam por ter uma experiência de usuário muito lúdica e gamificada,
00:09:49o que torna o processo de usar as ferramentas muito mais divertido.
00:09:52E novamente, o Kimi está sendo brincalhão aqui enquanto o modelo atribui os
00:09:57agentes.
00:09:58Ele até dá crachás de identificação para cada um deles.
00:10:01E podemos acompanhar o status de conclusão das tarefas em tempo real.
00:10:05Conforme os agentes vão terminando, podemos seguir o progresso na janela principal.
00:10:10Vemos as páginas da web que estão visitando e o código que estão produzindo.
00:10:11A essa altura, você pode até fazer suas apostas sobre qual agente vai terminar a tarefa
00:10:15mais rápido.
00:10:20Quando o agente completa a tarefa, aparece um balãozinho sobre o avatar dele.
00:10:21Cerca de 10 minutos e meio depois, meu enxame terminou a tarefa e recebemos
00:10:26este documento PDF como resultado.
00:10:31Parece que tem um texto aqui, mas não estou conseguindo enxergar direito.
00:10:33OK, tive que copiar e colar em outro lugar para entender.
00:10:39Beleza, diz: “Modelos de programação, análise comparativa”.
00:10:43Certo, certo.
00:10:46Bom, uma escolha de design bem ruim logo de cara.
00:10:47Mas tudo bem, não vamos tirar conclusões precipitadas.
00:10:50Vamos olhar o restante do relatório.
00:10:53OK, temos um resumo executivo aqui.
00:10:55Principais descobertas.
00:10:5881% dos desenvolvedores usam ou planejam usar IA.
00:10:5959% dos desenvolvedores rodam três ferramentas de IA em paralelo.
00:11:03OK, interessante.
00:11:06E vemos aqui que o Claude Code Opus 4.5 domina os gráficos.
00:11:08Depois vemos as tendências de mercado.
00:11:1346% dos desenvolvedores desconfiam ativamente dos resultados de IA.
00:11:16E uau, isso é surpreendente.
00:11:20O GitHub Copilot é o líder de mercado com 42% de participação.
00:11:22Nossa.
00:11:26O Llama 4 Scout parece ter a maior janela de contexto, com 10 milhões de tokens.
00:11:27Isso é bem impressionante.
00:11:31Certo, agora vem a parte boa.
00:11:32Principais conclusões.
00:11:33Vamos ver.
00:11:34Sem um vencedor único.
00:11:35Ah, qual é.
00:11:36Que sem graça.
00:11:3745% do código gerado por IA tem vulnerabilidades.
00:11:39É, isso com certeza é algo para se preocupar.
00:11:41Espera, acabei de notar que o relatório é baseado em informações públicas de janeiro
00:11:43de 2025.
00:11:46Ah, não.
00:11:52Ah, não.
00:11:542025.
00:11:56Não, não foi isso que eu pedi.
00:11:57Eu pedi especificamente informações sobre os modelos mais usados atualmente.
00:11:59Por que você não usou dados de janeiro de 2026?
00:12:02Você tem razão.
00:12:09Eu deveria ter pesquisado dados de 2025 e janeiro de 2026.
00:12:14Comportamento típico de LLM.
00:12:15Estou muito decepcionado com você, Kimi.
00:12:21Acabei de gastar um monte de tokens e 10 minutos do meu tempo com informações desatualizadas.
00:12:23Pois é.
00:12:25Então, aqui está.
00:12:30Este é o Kimi K2.5.
00:12:31Apesar da minha total decepção com a habilidade dele de seguir ordens no último teste, eu ainda
00:12:32acho que é um bom modelo.
00:12:35Eu não diria que é revolucionário ou o melhor do mundo, mas tem seus pontos positivos.
00:12:40Eu certamente o recomendaria se você quiser fazer um site realmente bonito, sabe,
00:12:42algo digno de aparecer no awwwards.com.
00:12:47Nesse caso, eu definitivamente iria de K2.5 em vez de um dos modelos do Claude Code, por exemplo.
00:12:51E tenho que ser honesto, o recurso de enxame parece muito legal e é divertido
00:12:55de usar.
00:13:01Mas você sabia que pode ter o mesmo recurso usando o Claude Code?
00:13:06O Richard acabou de fazer um ótimo vídeo explorando esse tema, então não deixe de conferir também.
00:13:07E pessoal, se acharam este vídeo útil ou pelo menos divertido, deixem o seu
00:13:10like clicando no botão abaixo do vídeo.
00:13:14E também não se esqueçam de se inscrever no canal para não perderem nossos futuros
00:13:15vídeos de análises técnicas.
00:13:19Aqui foi o Andris da Better Stack e vejo vocês nos próximos vídeos.
00:13:22And also be sure to subscribe to our channel so you don't miss out on any of our future
00:13:26technical breakdown videos.
00:13:28This has been Andris from Better Stack and I will see you in the next videos.