Como Isso Pode Ser Quase tão Bom Quanto o Opus?

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00A Minimax acaba de lançar o M2.5, um modelo de codificação que quase supera o Claude Opus 4.6, custando apenas um décimo do preço.
00:00:07Lançado há poucos dias, ele possui pesos abertos, conta com 230 bilhões de parâmetros e foi feito para fluxos de trabalho com agentes.
00:00:14Se você está criando agentes de IA, copilotos ou ferramentas de automação, isso vai mudar seus custos da noite para o dia.
00:00:19E o que impressiona não são apenas os benchmarks, mas também o preço.
00:00:23Temos vídeos saindo o tempo todo, então não se esqueça de se inscrever.
00:00:31O Minimax M2.5 é um modelo de mistura de especialistas (MoE) com 230 bilhões de parâmetros totais, mas apenas 10 bilhões ficam ativos durante a execução.
00:00:39Assim, você tem um modelo enorme sem precisar pagar pelo processamento total a cada uso.
00:00:43Ele foi desenvolvido para fluxos reais de desenvolvimento, usando Python, Java, Rust, refatoração de múltiplos arquivos, loops de chamada de ferramentas e até automação de Word e Excel.
00:00:53Existem duas versões: a Standard, com 50 tokens por segundo, e a Lightning, que chega a 100 tokens por segundo.
00:01:01É multilíngue e está com os pesos totalmente abertos no Hugging Face.
00:01:05Isso significa que você pode fazer ajuste fino, rodar localmente e evitar o aprisionamento tecnológico (lock-in) — é aqui que as coisas ficam interessantes para os agentes.
00:01:12Eu usei o mesmo comando no Opus e no Minimax para criar um quadro Kanban full-stack.
00:01:18Nada muito complexo, apenas o suficiente para fazê-los construir algo e ver como se comparam.
00:01:23Deixei o prompt exato que usei na descrição para quem quiser ler, mas primeiro vamos ver a versão do Opus, que levou cerca de 4 minutos.
00:01:31O resultado foi o esperado; não precisei de novos comandos, este foi o produto final.
00:01:37Tudo aqui está muito fluido e funciona bem; a interface também ficou ótima para um ponto de partida.
00:01:44O arrastar e soltar funciona como deveria, assim como a edição de tarefas. Gostei desse rótulo com a pasta correta, que muda conforme arrastamos. Um bônus legal.
00:01:55No geral, o Opus fez um excelente trabalho, que era o que eu já esperava.
00:02:00Agora, vamos ao Minimax. Ele levou cerca de 8 minutos para terminar, talvez por eu ter importado no Cursor em vez de usar o site deles, mas eu queria no Cursor.
00:02:10Embora tenha demorado mais, custou um décimo do preço, então não vou reclamar.
00:02:14No fim das contas, ele se saiu muito bem com apenas um comando. A interface deixa um pouco a desejar comparada ao Opus, mas a funcionalidade é a mesma.
00:02:22Consigo criar tarefas e arrastá-las para a coluna correta, então tudo funciona perfeitamente.
00:02:27A única coisa que ele não fez foi adicionar aquele rótulo nos cartões que eu tinha gostado no Opus.
00:02:33Outro ponto que ele falhou foi na edição da descrição da caixa.
00:02:38Se eu tento editar a descrição, vejam só, nada acontece.
00:02:42Então eu teria que rodar uma segunda vez para ele fazer o que precisa, basicamente.
00:02:48Mas tudo bem, porque, novamente, custou um décimo do valor.
00:02:51Agora vamos ao que realmente importa para os desenvolvedores. O M2.5 usa aprendizado por reforço para decomposição de tarefas.
00:02:58Isso faz com que ele fragmente melhor os problemas, resultando em 20% menos chamadas de ferramentas e 5% menos desperdício de tokens.
00:03:06Quem já criou agentes sabe que as chamadas de ferramentas são onde os custos sobem e as coisas podem virar uma bagunça.
00:03:13Ele também lida com edições em múltiplos arquivos e loops de execução, depuração e correção, alternando entre ferramentas sem se perder.
00:03:21Em benchmarks de busca, ele reduz as rodadas de pesquisa em 20% comparado à versão anterior, o M2.1.
00:03:27Ele também suporta cache, o que significa que consultas repetidas podem custar menos com o tempo.
00:03:32Você pode conectá-lo direto ao Ollama, clusters locais, automações do GitHub ou seus pipelines de CI.
00:03:37E quanto aos benchmarks? Estou comparando-o com o Opus aqui.
00:03:40No SWE-bench Verified, o M2.5 marcou mais de 80%.
00:03:45O Claude Opus 4.6 ficou ligeiramente acima, também na casa dos 80%. É uma diferença mínima.
00:03:52No Multi-SWE-bench, ele marcou mais de 51%, superando outros modelos abertos.
00:03:58E no DROID, ele chega a bater o Opus por apenas 0,2%. Então depende de onde você olha.
00:04:05Sobre a velocidade: ele é 37% mais rápido que o modelo anterior. Ainda assim, levou 8 minutos aqui, ok?
00:04:11O Opus 4.6 tem uma média de velocidade um pouco maior, mas os tempos se igualam quando rodados no formato correto.
00:04:18O que isso significa para você? Bom, pode significar várias coisas.
00:04:20Menos tentativas, execuções de CI mais limpas, menos desperdício de tokens e mais Pull Requests aprovados.
00:04:26Em desempenho de tarefas agentic, ele está batendo de frente com o GPT-5 ou o Gemini 3 Pro,
00:04:32mas com pesos abertos, certo? Agora vamos falar da parte que realmente muda o jogo,
00:04:37que, mesmo demorando mais, é o preço.
00:04:40O M2.5 Standard custa US$ 0,15 por milhão de tokens de entrada e US$ 1,20 por milhão de tokens de saída.
00:04:47O Lightning custa o dobro: US$ 0,30 por milhão na entrada e US$ 2,40 na saída.
00:04:53Rodar o Lightning a 100 tokens por segundo durante uma hora custa cerca de um dólar.
00:04:56Se rodar o Standard, que foi o que usei aqui, custa cerca de 30 centavos por hora.
00:05:00Compare isso com o Claude Opus 4.6. A diferença é enorme.
00:05:04São US$ 5 por milhão de tokens de entrada e US$ 25 por milhão na saída.
00:05:09Por tarefa de engenharia de software (SWE), o custo é cerca de 10% do Opus, graças à eficiência e menos chamadas de ferramentas.
00:05:15Existe também o nível gratuito da API, que já está disponível. Eu usei a versão paga,
00:05:20mas eles têm essa opção. É aí que a economia realmente vira a chave.
00:05:24Então, vale a pena trocar o Opus 4.6? Em termos de desempenho, eles são quase idênticos.
00:05:30Demorou um pouco mais, certo? Eu usei o Standard, não o Lightning, mas são bem parecidos.
00:05:34O tempo de conclusão da tarefa é basicamente o mesmo, e a profundidade de raciocínio foi comparável.
00:05:39Quanto ao custo, no entanto, ele é massivamente mais barato. Aí você me diz.
00:05:43Como mencionei antes, ele também usa 20% menos chamadas de ferramentas e evita o desperdício desses tokens.
00:05:47Em termos de flexibilidade, ele tem pesos abertos. Você pode implantar localmente e fazer ajuste fino.
00:05:52Já o Opus ainda leva vantagem no topo da pirâmide da inteligência premium.
00:05:57É o modelo de ponta com o qual ainda estamos trabalhando.
00:06:00O motivo disso ser importante é que agora você pode rodar agentes em escala sem o peso do preço.
00:06:05Como o M2.5 tem uma taxa de vitória de 59% em benchmarks avançados de agentes, você pode criar
00:06:12bots de repositório autônomos, agentes de codificação persistentes e automatizar fluxos empresariais. Não é perfeito,
00:06:17mas é muito bom pelo que vimos aqui. E o preço vai permitir que você experimente e o teste ao máximo.
00:06:22A Minimax está lançando atualizações rápido, em um ritmo de semanas em vez de meses.
00:06:27As integrações com Ollama e GitHub já estão a todo vapor.
00:06:32O Minimax M2.5 entrega desempenho de codificação nível Opus a um preço acessível e com pesos abertos. Essa
00:06:38combinação é rara, mas em 2026, quem sabe o que veremos. Você pode testar de graça no site da Minimax,
00:06:43rodar no Ollama ou usar uma API como eu fiz. Seria este o novo modelo padrão para agentes de desenvolvimento?
00:06:48Acho que vamos ver como isso se desenrola. Nos vemos no próximo vídeo.

Key Takeaway

O Minimax M2.5 surge como uma alternativa de pesos abertos e baixíssimo custo ao Claude Opus, oferecendo desempenho de elite em codificação e automação de agentes para desenvolvedores.

Highlights

O Minimax M2.5 é um modelo de pesos abertos com 230 bilhões de parâmetros, otimizado para fluxos de trabalho com agentes de IA.

O modelo utiliza uma arquitetura de Mistura de Especialistas (MoE), onde apenas 10 bilhões de parâmetros ficam ativos, reduzindo custos de processamento.

Apresenta um desempenho em codificação comparável ao Claude Opus 4.6, mas com um custo aproximadamente 10 vezes menor.

Utiliza aprendizado por reforço para decomposição de tarefas, resultando em 20% menos chamadas de ferramentas e 5% de economia de tokens.

Possui duas versões: a Standard (50 tokens/s) e a Lightning (100 tokens/s), sendo compatível com Ollama e pipelines de CI/CD.

Supera modelos abertos em benchmarks como SWE-bench e DROID, alcançando marcas acima de 80% em tarefas de engenharia de software.

Timeline

Introdução ao Minimax M2.5 e Proposta de Valor

O vídeo começa apresentando o lançamento do Minimax M2.5, um modelo de codificação que desafia o domínio do Claude Opus 4.6. O narrador destaca que o modelo possui 230 bilhões de parâmetros e foi especificamente projetado para fluxos de trabalho que utilizam agentes de IA. A principal vantagem competitiva mencionada é o preço, que chega a ser apenas um décimo do custo dos modelos proprietários líderes de mercado. Este segmento enfatiza como essa mudança de custo pode impactar drasticamente a criação de copilotos e ferramentas de automação. O convite para a inscrição no canal encerra a introdução contextualizando a frequência de novidades no setor.

Arquitetura MoE e Capacidades Técnicas

Nesta seção, os detalhes técnicos da arquitetura de Mistura de Especialistas (MoE) do M2.5 são explicados, revelando que apenas 10 bilhões de parâmetros são ativados durante a execução. O modelo demonstra versatilidade ao suportar linguagens como Python, Java e Rust, além de lidar com refatoração de múltiplos arquivos e automação de ferramentas de escritório como Word e Excel. Existem duas variantes disponíveis: a Standard, com foco em eficiência, e a Lightning, que prioriza a velocidade com 100 tokens por segundo. Por ser um modelo de pesos abertos no Hugging Face, ele permite que desenvolvedores façam ajuste fino e evitem o aprisionamento tecnológico. Essa flexibilidade é crucial para empresas que desejam rodar modelos localmente por questões de segurança ou personalização.

Comparativo Prático: Minimax vs. Claude Opus

O analista realiza um teste prático solicitando a criação de um quadro Kanban full-stack para comparar os dois modelos. O Claude Opus finalizou a tarefa em 4 minutos com uma interface fluida e funcionalidade completa, incluindo rótulos dinâmicos que agradaram o avaliador. Por outro lado, o Minimax M2.5 levou 8 minutos para concluir a mesma tarefa através da integração com o Cursor, apresentando uma interface ligeiramente inferior. Apesar da demora e de pequenas falhas na edição de descrições, o resultado funcional foi considerado satisfatório e equivalente ao Opus. O ponto central aqui é a justificativa de que a pequena perda de polimento visual é compensada pela economia massiva de custos por execução.

Eficiência em Agentes e Otimização de Tarefas

O foco muda para a lógica interna do modelo, detalhando o uso de aprendizado por reforço para a decomposição inteligente de tarefas. Essa tecnologia permite que o M2.5 fragmente problemas complexos de forma mais eficaz, reduzindo o desperdício de tokens e a quantidade de chamadas de ferramentas em 20%. Para quem desenvolve agentes, essa eficiência traduz-se em execuções mais limpas e menos erros em loops de depuração e correção. O modelo também suporta cache de contexto, o que barateia consultas repetidas em pipelines de desenvolvimento contínuo. A integração nativa com o Ollama e automações do GitHub facilita a implementação imediata em ambientes de produção.

Benchmarks de Desempenho e Comparação de Preços

Esta seção apresenta dados concretos de benchmarks onde o M2.5 brilha, atingindo mais de 80% no SWE-bench Verified, competindo de igual para igual com o Opus. No benchmark DROID, o modelo chega a superar levemente o concorrente da Anthropic, mostrando sua força em tarefas agentic. A análise de preços revela uma disparidade impressionante: enquanto o Opus cobra US$ 15 por milhão de tokens (entrada/saída combinados), o M2.5 Standard custa apenas uma fração disso. Rodar o modelo por uma hora inteira pode custar apenas 30 centavos de dólar, tornando-o ideal para testes em larga escala. O vídeo menciona ainda a existência de um nível gratuito da API para quem deseja começar a experimentar sem custos iniciais.

Conclusão e o Futuro dos Modelos Abertos

Na conclusão, o narrador reflete se vale a pena substituir o Opus 4.6 pelo Minimax M2.5, concluindo que para a maioria das tarefas de escala, a economia justifica a mudança. Embora o Opus ainda mantenha uma leve vantagem em 'inteligência premium' e polimento, o M2.5 oferece flexibilidade e um custo-benefício imbatível para bots de repositório e automação empresarial. A velocidade de atualização da Minimax, que lança melhorias em intervalos de semanas, sugere um crescimento rápido do ecossistema. O vídeo termina incentivando o uso do modelo via Ollama ou API, posicionando-o como o possível novo padrão para agentes de desenvolvimento em 2026. O analista reforça que o acesso democrático a modelos desse nível muda o jogo para desenvolvedores individuais e pequenas empresas.

Community Posts

View all posts