00:00:00A Minimax acaba de lançar o M2.5, um modelo de codificação que quase supera o Claude Opus 4.6, custando apenas um décimo do preço.
00:00:07Lançado há poucos dias, ele possui pesos abertos, conta com 230 bilhões de parâmetros e foi feito para fluxos de trabalho com agentes.
00:00:14Se você está criando agentes de IA, copilotos ou ferramentas de automação, isso vai mudar seus custos da noite para o dia.
00:00:19E o que impressiona não são apenas os benchmarks, mas também o preço.
00:00:23Temos vídeos saindo o tempo todo, então não se esqueça de se inscrever.
00:00:31O Minimax M2.5 é um modelo de mistura de especialistas (MoE) com 230 bilhões de parâmetros totais, mas apenas 10 bilhões ficam ativos durante a execução.
00:00:39Assim, você tem um modelo enorme sem precisar pagar pelo processamento total a cada uso.
00:00:43Ele foi desenvolvido para fluxos reais de desenvolvimento, usando Python, Java, Rust, refatoração de múltiplos arquivos, loops de chamada de ferramentas e até automação de Word e Excel.
00:00:53Existem duas versões: a Standard, com 50 tokens por segundo, e a Lightning, que chega a 100 tokens por segundo.
00:01:01É multilíngue e está com os pesos totalmente abertos no Hugging Face.
00:01:05Isso significa que você pode fazer ajuste fino, rodar localmente e evitar o aprisionamento tecnológico (lock-in) — é aqui que as coisas ficam interessantes para os agentes.
00:01:12Eu usei o mesmo comando no Opus e no Minimax para criar um quadro Kanban full-stack.
00:01:18Nada muito complexo, apenas o suficiente para fazê-los construir algo e ver como se comparam.
00:01:23Deixei o prompt exato que usei na descrição para quem quiser ler, mas primeiro vamos ver a versão do Opus, que levou cerca de 4 minutos.
00:01:31O resultado foi o esperado; não precisei de novos comandos, este foi o produto final.
00:01:37Tudo aqui está muito fluido e funciona bem; a interface também ficou ótima para um ponto de partida.
00:01:44O arrastar e soltar funciona como deveria, assim como a edição de tarefas. Gostei desse rótulo com a pasta correta, que muda conforme arrastamos. Um bônus legal.
00:01:55No geral, o Opus fez um excelente trabalho, que era o que eu já esperava.
00:02:00Agora, vamos ao Minimax. Ele levou cerca de 8 minutos para terminar, talvez por eu ter importado no Cursor em vez de usar o site deles, mas eu queria no Cursor.
00:02:10Embora tenha demorado mais, custou um décimo do preço, então não vou reclamar.
00:02:14No fim das contas, ele se saiu muito bem com apenas um comando. A interface deixa um pouco a desejar comparada ao Opus, mas a funcionalidade é a mesma.
00:02:22Consigo criar tarefas e arrastá-las para a coluna correta, então tudo funciona perfeitamente.
00:02:27A única coisa que ele não fez foi adicionar aquele rótulo nos cartões que eu tinha gostado no Opus.
00:02:33Outro ponto que ele falhou foi na edição da descrição da caixa.
00:02:38Se eu tento editar a descrição, vejam só, nada acontece.
00:02:42Então eu teria que rodar uma segunda vez para ele fazer o que precisa, basicamente.
00:02:48Mas tudo bem, porque, novamente, custou um décimo do valor.
00:02:51Agora vamos ao que realmente importa para os desenvolvedores. O M2.5 usa aprendizado por reforço para decomposição de tarefas.
00:02:58Isso faz com que ele fragmente melhor os problemas, resultando em 20% menos chamadas de ferramentas e 5% menos desperdício de tokens.
00:03:06Quem já criou agentes sabe que as chamadas de ferramentas são onde os custos sobem e as coisas podem virar uma bagunça.
00:03:13Ele também lida com edições em múltiplos arquivos e loops de execução, depuração e correção, alternando entre ferramentas sem se perder.
00:03:21Em benchmarks de busca, ele reduz as rodadas de pesquisa em 20% comparado à versão anterior, o M2.1.
00:03:27Ele também suporta cache, o que significa que consultas repetidas podem custar menos com o tempo.
00:03:32Você pode conectá-lo direto ao Ollama, clusters locais, automações do GitHub ou seus pipelines de CI.
00:03:37E quanto aos benchmarks? Estou comparando-o com o Opus aqui.
00:03:40No SWE-bench Verified, o M2.5 marcou mais de 80%.
00:03:45O Claude Opus 4.6 ficou ligeiramente acima, também na casa dos 80%. É uma diferença mínima.
00:03:52No Multi-SWE-bench, ele marcou mais de 51%, superando outros modelos abertos.
00:03:58E no DROID, ele chega a bater o Opus por apenas 0,2%. Então depende de onde você olha.
00:04:05Sobre a velocidade: ele é 37% mais rápido que o modelo anterior. Ainda assim, levou 8 minutos aqui, ok?
00:04:11O Opus 4.6 tem uma média de velocidade um pouco maior, mas os tempos se igualam quando rodados no formato correto.
00:04:18O que isso significa para você? Bom, pode significar várias coisas.
00:04:20Menos tentativas, execuções de CI mais limpas, menos desperdício de tokens e mais Pull Requests aprovados.
00:04:26Em desempenho de tarefas agentic, ele está batendo de frente com o GPT-5 ou o Gemini 3 Pro,
00:04:32mas com pesos abertos, certo? Agora vamos falar da parte que realmente muda o jogo,
00:04:37que, mesmo demorando mais, é o preço.
00:04:40O M2.5 Standard custa US$ 0,15 por milhão de tokens de entrada e US$ 1,20 por milhão de tokens de saída.
00:04:47O Lightning custa o dobro: US$ 0,30 por milhão na entrada e US$ 2,40 na saída.
00:04:53Rodar o Lightning a 100 tokens por segundo durante uma hora custa cerca de um dólar.
00:04:56Se rodar o Standard, que foi o que usei aqui, custa cerca de 30 centavos por hora.
00:05:00Compare isso com o Claude Opus 4.6. A diferença é enorme.
00:05:04São US$ 5 por milhão de tokens de entrada e US$ 25 por milhão na saída.
00:05:09Por tarefa de engenharia de software (SWE), o custo é cerca de 10% do Opus, graças à eficiência e menos chamadas de ferramentas.
00:05:15Existe também o nível gratuito da API, que já está disponível. Eu usei a versão paga,
00:05:20mas eles têm essa opção. É aí que a economia realmente vira a chave.
00:05:24Então, vale a pena trocar o Opus 4.6? Em termos de desempenho, eles são quase idênticos.
00:05:30Demorou um pouco mais, certo? Eu usei o Standard, não o Lightning, mas são bem parecidos.
00:05:34O tempo de conclusão da tarefa é basicamente o mesmo, e a profundidade de raciocínio foi comparável.
00:05:39Quanto ao custo, no entanto, ele é massivamente mais barato. Aí você me diz.
00:05:43Como mencionei antes, ele também usa 20% menos chamadas de ferramentas e evita o desperdício desses tokens.
00:05:47Em termos de flexibilidade, ele tem pesos abertos. Você pode implantar localmente e fazer ajuste fino.
00:05:52Já o Opus ainda leva vantagem no topo da pirâmide da inteligência premium.
00:05:57É o modelo de ponta com o qual ainda estamos trabalhando.
00:06:00O motivo disso ser importante é que agora você pode rodar agentes em escala sem o peso do preço.
00:06:05Como o M2.5 tem uma taxa de vitória de 59% em benchmarks avançados de agentes, você pode criar
00:06:12bots de repositório autônomos, agentes de codificação persistentes e automatizar fluxos empresariais. Não é perfeito,
00:06:17mas é muito bom pelo que vimos aqui. E o preço vai permitir que você experimente e o teste ao máximo.
00:06:22A Minimax está lançando atualizações rápido, em um ritmo de semanas em vez de meses.
00:06:27As integrações com Ollama e GitHub já estão a todo vapor.
00:06:32O Minimax M2.5 entrega desempenho de codificação nível Opus a um preço acessível e com pesos abertos. Essa
00:06:38combinação é rara, mas em 2026, quem sabe o que veremos. Você pode testar de graça no site da Minimax,
00:06:43rodar no Ollama ou usar uma API como eu fiz. Seria este o novo modelo padrão para agentes de desenvolvimento?
00:06:48Acho que vamos ver como isso se desenrola. Nos vemos no próximo vídeo.