Este é o Modelo de IA mais RÁPIDO do Mundo?!! (Xiaomi MiMo V2.5 Pro UltraSpeed)

BBetter Stack
Computing/SoftwareVideo & Computer GamesConsumer Electronics

Transcript

00:00:00Caramba, a ShowMe, sabe aquela empresa chinesa que fabrica celulares, acabou de criar um modelo de IA que
00:00:05pode ser o mais rápido do mundo. Ele se chama ShowMe Mimo V2.5 Ultra Speed e é realmente
00:00:13impressionante. No vídeo de hoje, vamos dar uma olhada nesse modelo, ver como ele funciona e eu realmente
00:00:18consegui acesso antecipado a ele, então vamos testá-lo com alguns exemplos interessantes
00:00:24para ver o quão rápido ele realmente é. Vai ser muito divertido, então vamos lá.
00:00:30Antes de olharmos o que tem debaixo do capô desse modelo, vamos ver quais são as diferenças massivas
00:00:39com as quais estamos lidando aqui. Em modelos de ponta, como o GPT 5.5 ou o Claude 4 Opus, você geralmente enfrenta
00:00:46atrasos massivos de raciocínio, arrastando-se a aproximadamente 50 ou 60 tokens por segundo. Isso não é ruim, mas é
00:00:54meio lento. Mas o novo modelo Mimo Ultra Speed da ShowMe está marcando mais de 1000 tokens por segundo
00:01:00e o que é ainda mais louco é o fato de que este modelo também é enorme em tamanho. É um modelo de 1 trilhão de parâmetros
00:01:07do tipo mistura de especialistas. Então você pode estar pensando, ok, eles provavelmente estão usando algum tipo de super
00:01:13configuração de hardware customizado avançado para isso. Bem, na verdade não é bem assim. A ShowMe se uniu ao seu
00:01:19parceiro de sistemas, Tile RT, e eles conseguiram isso usando apenas um servidor padrão com oito
00:01:25GPUs convencionais. Mas se essa não é a resposta, isso levanta a questão: como você força um modelo de um trilhão
00:01:31de parâmetros a cuspir texto a velocidades de microssegundos em um hardware padrão? Bem, eles criaram
00:01:39algo que chamam de codesign extremo de sistema de modelo. Eles atacaram o gargalo de latência
00:01:44de três ângulos diferentes simultaneamente. Primeiro, eles otimizaram a largura de banda da memória. Mover um trilhão
00:01:50de parâmetros através da memória da GPU durante a fase de geração de texto cria engarrafamentos massivos. Para corrigir isso,
00:01:57a ShowMe usou a quantização MXFP4. Mas como a compressão de 4 bits pode normalmente tornar uma IA
00:02:04menos precisa, eles usaram treinamento ciente de quantização ou QAT e mantiveram as camadas de roteamento principais em uma
00:02:12precisão maior. Isso aliviou a pressão da memória enquanto mantinha a inteligência do modelo quase idêntica
00:02:18à versão não compactada. Segundo, eles mudaram fundamentalmente a forma como o modelo prevê palavras. A decodificação especulativa
00:02:25padrão funciona fazendo com que um pequeno modelo de rascunho adivinhe algumas palavras à frente e, em seguida, o enorme modelo principal
00:02:32verifica a matemática. Mas a ShowMe fez algo diferente aqui com o que chamam de D-Flash. Em vez de adivinhar uma
00:02:39palavra de cada vez, ele prevê um bloco inteiro de tokens ocultos de uma só vez em uma passagem direta paralela. E
00:02:46através de testes, eles descobriram que quando você o usa para tarefas de programação, o modelo principal realmente mantém uma
00:02:52média de 6,3 a cada oito tokens que o D-Flash adivinha. Então, ele essencialmente permite que o modelo dê
00:02:58saltos massivos de oito tokens de cada vez, em vez de dar passos de bebê. E terceiro, eles usam o motor
00:03:04especial que resolve um gargalo de hardware realmente irritante. Então, quando você está impulsionando mil tokens por segundo,
00:03:11as GPUs padrão realmente não conseguem acompanhar a lógica de instrução. Normalmente, uma GPU lança uma operação
00:03:17matemática, termina-a, limpa a memória e então espera para lançar a próxima. E mesmo que essas
00:03:23pausas durem apenas microssegundos, elas acabam completamente com o seu impulso. Para corrigir isso, a TileRT construiu um mecanismo
00:03:30de kernel persistente que simplesmente fica dentro da GPU e nunca sai. Eles usaram um truque chamado especialização de warp
00:03:37para atribuir funções permanentes a diferentes partes do hardware. Enquanto uma seção está movendo dados,
00:03:42outra está executando a matemática e uma terceira está lidando com a comunicação, tudo ao mesmo tempo. Então, o
00:03:48pipeline literalmente nunca para de se mover. E isso é muito interessante porque eu acabei de fazer um vídeo sobre o diffusion
00:03:55gemma, que também é super rápido, mas aborda o mesmo problema de uma maneira muito diferente. Então confira
00:04:00esse vídeo se você estiver interessado. E é assim, meus amigos, que a ShowMe chega a velocidades de 1000 tokens por segundo,
00:04:07supostamente. Mas agora vamos testar e ver se essa promessa se mantém. Então, para o meu primeiro teste,
00:04:14decidi pegar uma das perguntas difíceis do LeetCode e testá-la no modelo. E foi extremamente rápido.
00:04:20Quão incrível é isso? Além disso, como podemos ver aqui, ele atingiu um pico de 3451 tokens por segundo, o que é absolutamente insano.
00:04:29Agora, pode haver a possibilidade de que essa pergunta do LeetCode fizesse parte dos dados de treinamento do modelo.
00:04:34Portanto, por mais impressionante que isso pareça, provavelmente não é uma comparação justa. Então vamos passar para algo mais sofisticado.
00:04:41Em seguida, pedi para ele criar um painel simples de finanças pessoais de UI em um único arquivo HTML sem
00:04:48bibliotecas externas e nada muito chique. E neste teste, pudemos ver agora o quão insanamente
00:04:54performático ele é. Ele estava com média de cerca de 700 tokens por segundo para a parte de raciocínio e cerca de 1000 tokens
00:05:02por segundo para as operações de saída. E levou apenas 65 segundos para o modelo concluir a tarefa.
00:05:09E acho que o resultado é muito bom. Embora alguns dos botões não estejam funcionando e algumas das
00:05:14ações estejam quebradas, o design como um todo é muito bom. Quero dizer, nada mal para uma tarefa de um minuto.
00:05:21Então, decidi desafiar o modelo a construir algo ainda mais sofisticado. Pedi a ele para
00:05:26criar uma página da web explicativa de matemática no estilo da Khan Academy, mostrando 10 conceitos matemáticos populares, para ver quão
00:05:34complexo de um site poderíamos realmente produzir aqui. E foi aqui que as coisas começaram a ficar um pouco difíceis.
00:05:40Tentei este teste duas vezes e, em ambas as vezes, após cerca de dois ou três minutos, o modelo simplesmente parou
00:05:45de gerar e congelou completamente. Então, presumi que, com esta tarefa, atingi o limite de contexto do modelo ou
00:05:51talvez a ShowMe tenha colocado algum tipo de limitador de taxa. Então, decidi simplificar a tarefa um pouco, pedindo
00:05:58para ele projetar uma página da web com apenas cinco conceitos matemáticos. E desta vez finalmente funcionou. Ele conseguiu
00:06:04terminar a tarefa em 75 segundos. E o resultado é realmente muito bom. E os três primeiros widgets de conceito
00:06:10matemático estão realmente funcionais, mas tudo depois disso está quebrado, não funcional ou vazio.
00:06:17Então não sei exatamente o que aconteceu aqui. Talvez o modelo tenha perdido parte do contexto durante a fase
00:06:23de raciocínio, mas, no entanto, acho que este é um resultado muito bom, especialmente levando em consideração que
00:06:29estávamos com uma média de 500 tokens por segundo durante a fase de raciocínio. E para meu último teste, decidi
00:06:34fazer algo um pouco mais divertido. Simplesmente pedi, com esta frase muito curta, para construir um clone do Subway Surfers
00:06:41usando Three.js, e ele realmente conseguiu criar um clone do Subway Surfers totalmente funcional em apenas 50
00:06:49segundos. Agora isso é uma loucura. Devo dizer que, embora seja funcional, como você pode ver aqui, ele
00:06:55não inclui nenhum obstáculo ou moedas ou algo assim. Então é meio chato. Então decidi
00:07:01dar a ele um comando de acompanhamento para corrigir esses pequenos problemas. E após duas passagens, ele conseguiu
00:07:07adicionar algumas moedas e alguns obstáculos. E, honestamente, quando eu estava testando, essa foi uma demonstração impecável.
00:07:14A funcionalidade estava lá. Tudo estava funcionando. Ele estava até salvando minha pontuação máxima após cada rodada.
00:07:20Portanto, essa demonstração específica me surpreendeu de uma forma muito positiva. Tenho certeza de que, hoje em dia, todos nós podemos
00:07:26criar clones do Subway Surfers com outros modelos também. Mas o fato de que eu poderia obter um protótipo funcional,
00:07:32que não é completamente terrível e que é realmente divertido de jogar e tudo isso em apenas 50 segundos com
00:07:39alguns comandos de acompanhamento, isso é muito impressionante. Então, como todos vimos nos testes, o modelo conseguiu
00:07:45atingir uma velocidade recorde de mais de 3000 tokens por segundo. Então, este é, de fato, o modelo mais rápido
00:07:52que já vi. E quanto aos resultados, quero dizer, sim, claro. Alguns deles estão quebrados. Alguns deles
00:07:58são mal feitos. Certamente este não é um Claude Opus ou GPT 5.5. Mas tenho certeza de que os modelos da Xiaomi definitivamente continuarão
00:08:06melhorando com o tempo. Então será muito interessante ver o que eles criarão no futuro.
00:08:12Então, aí está, pessoal. Esse é o Xiaomi Mimo V2.5 Ultra Speed em poucas palavras. Então, o que você acha
00:08:18desse modelo? Você ficou impressionado? Decepcionado? Indiferente? Conte-nos na seção de comentários abaixo.
00:08:24E pessoal, se vocês gostam desses tipos de análises técnicas, por favor, me avisem esmagando aquele
00:08:29botão de curtir abaixo do vídeo. E também não se esqueçam de se inscrever em nosso canal.
00:08:33Aqui foi Andrus da BetterStack, e vejo vocês nos próximos vídeos.

Key Takeaway

O modelo Xiaomi MiMo V2.5 Ultra Speed atinge uma velocidade de processamento de até 3.000 tokens por segundo através de um codesign de sistema que otimiza a largura de banda da memória, a decodificação paralela e a execução persistente em GPUs padrão.

Highlights

  • O modelo MiMo V2.5 Ultra Speed da Xiaomi alcança picos de mais de 3.000 tokens por segundo.

  • A otimização de latência utiliza o método D-Flash, que prevê blocos de tokens simultaneamente em vez de uma única palavra.

  • A técnica de quantização MXFP4 combinada com treinamento ciente de quantização mantém a precisão do modelo de 1 trilhão de parâmetros.

  • O sistema utiliza um motor de kernel persistente com especialização de warp para eliminar pausas durante o processamento da GPU.

  • O modelo gerou um clone funcional do Subway Surfers utilizando Three.js em 50 segundos.

  • O hardware utilizado consistiu em um servidor padrão equipado com oito GPUs convencionais.

Timeline

Arquitetura e Velocidade de Processamento

  • O modelo MiMo V2.5 Ultra Speed possui 1 trilhão de parâmetros e utiliza a arquitetura de mistura de especialistas.
  • A velocidade de geração supera 1.000 tokens por segundo, comparada aos 50 a 60 tokens por segundo de modelos de ponta.
  • O desempenho é obtido em um servidor padrão com oito GPUs convencionais em vez de hardware customizado avançado.

O modelo rompe os gargalos típicos de latência encontrados em modelos como o GPT 5.5 ou Claude 4 Opus. A performance excepcional não depende de infraestrutura especializada, mas de uma abordagem inovadora de integração de sistemas.

Técnicas de Otimização e Engenharia

  • A quantização MXFP4 reduz a pressão da memória, preservando a inteligência através do treinamento ciente de quantização.
  • O método D-Flash permite saltos de oito tokens por vez, otimizando a fase de decodificação.
  • O mecanismo de kernel persistente elimina o tempo ocioso das GPUs mantendo o pipeline de processamento em movimento contínuo.

O projeto ataca a latência em três frentes: largura de banda de memória, lógica de previsão de palavras e eficiência do kernel da GPU. A especialização de warp atribui funções permanentes a diferentes partes do hardware, garantindo que as operações de movimentação de dados e cálculos matemáticos ocorram simultaneamente.

Testes de Performance e Aplicações Práticas

  • O modelo atingiu picos de 3.451 tokens por segundo em tarefas de programação do LeetCode.
  • A criação de um clone funcional do Subway Surfers ocorreu em 50 segundos.
  • Tarefas de alta complexidade excederam o limite de contexto ou dispararam limitadores de taxa após dois a três minutos.

Os testes práticos confirmaram a velocidade extrema, embora apontassem limitações em tarefas de codificação muito extensas ou complexas. O protótipo do jogo Subway Surfers demonstrou funcionalidade imediata, com capacidade de salvar pontuações após comandos de refinamento.

Avaliação Geral

  • O modelo estabelece um recorde de velocidade, embora apresente falhas pontuais em tarefas complexas.
  • A capacidade de entrega rápida de protótipos funcionais supera a precisão absoluta em cenários de desenvolvimento acelerado.

Embora não substitua modelos mais robustos em termos de precisão lógica em todas as aplicações, o MiMo V2.5 Ultra Speed redefine as expectativas para a velocidade de resposta em IA, indicando um progresso contínuo em otimização de sistemas para o futuro.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video