Это САМАЯ БЫСТРАЯ нейросеть в мире?!! (Xiaomi MiMo V2.5 Pro UltraSpeed)

Русскийالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português 中文

Computing/SoftwareVideo & Computer GamesConsumer Electronics

Transcript

00:00:00Ого, ShowMe, вы знаете ту китайскую компанию, что делает телефоны, только что создала ИИ-модель, которая

00:00:05может оказаться самой быстрой в мире. Она называется ShowMe Mimo V2.5 Ultra Speed, и это по-настоящему

00:00:13потрясающе. В сегодняшнем видео мы взглянем на эту модель, посмотрим, как она работает, и мне удалось

00:00:18получить ранний доступ к этой модели, так что мы протестируем её на некоторых интересных примерах,

00:00:24чтобы увидеть, насколько она на самом деле быстрая. Будет очень интересно, так что давайте начнём.

00:00:30Прежде чем заглянуть под капот этой модели, давайте посмотрим, с какими колоссальными различиями мы на самом деле

00:00:39имеем дело. Так, в передовых моделях, таких как GPT 5.5 или Claude 4 Opus, вы часто пробираетесь через

00:00:46огромные задержки при рассуждении, выдавая примерно 50 или 60 токенов в секунду. Это неплохо, но

00:00:54довольно медленно. Но новая модель Mimo Ultra Speed от ShowMe выдает более 1000 токенов в секунду,

00:01:00и самое безумное то, что эта модель еще и огромна по размеру. Это модель со смесью экспертов на 1 триллион параметров.

00:01:07Так что вы можете подумать: “Окей, они, наверное, используют какое-то супер

00:01:13продвинутое кастомное аппаратное обеспечение для этого”. Что ж, на самом деле не совсем. ShowMe объединились со своим

00:01:19системным партнером Tile RT, и они добились этого, используя всего один стандартный сервер с восемью

00:01:25обычными графическими процессорами. Но если это не ответ, то возникает вопрос: как заставить триллионную

00:01:31параметрическую модель выдавать текст с микросекундной скоростью на обычном железе? Что ж, они придумали

00:01:39то, что они называют экстремальным совместным проектированием модели и системы. Они атаковали узкое место с задержкой

00:01:44с трех разных сторон одновременно. Во-первых, они оптимизировали пропускную способность памяти. Перемещение триллиона

00:01:50параметров через память GPU во время фазы генерации текста создает огромные пробки. Чтобы исправить это,

00:01:57ShowMe использовали квантование MXFP4. Но поскольку 4-битное сжатие обычно может сделать ИИ

00:02:04менее точным, они использовали обучение с учетом квантования (QAT) и сохранили основные слои маршрутизации с более высокой

00:02:12точностью. Это снизило нагрузку на память, сохранив интеллект модели практически идентичным

00:02:18несжатой версии. Во-вторых, они кардинально изменили способ, которым модель предсказывает слова. Итак, стандартное

00:02:25спекулятивное декодирование работает так: крошечная черновая модель угадывает несколько слов вперед, а затем массивная основная

00:02:32модель проверяет математику. Но ShowMe сделали здесь кое-что другое с помощью того, что они называют D-Flash. Вместо того чтобы угадывать по одному

00:02:39токену за раз, она предсказывает целый блок скрытых токенов одновременно в параллельном прямом проходе. И

00:02:46в ходе тестирования они обнаружили, что при использовании для задач кодирования, основная модель на самом деле сохраняет в среднем

00:02:526,3 из каждых восьми токенов, которые угадывает D-Flash. Так что это по сути позволяет модели совершать

00:02:58огромные скачки на восемь токенов за раз вместо того, чтобы делать маленькие шаги. И в-третьих, они используют специальный

00:03:04движок, который решает действительно раздражающую проблему с аппаратным обеспечением. Итак, когда вы выдаете тысячу токенов в секунду,

00:03:11стандартные GPU на самом деле не справляются с логикой инструкций. Обычно GPU запускает математическую

00:03:17операцию, завершает её, очищает память, а затем ждет запуска следующей. И даже несмотря на то, что эти

00:03:23паузы длятся всего микросекунды, они полностью убивают импульс. Чтобы исправить это, TileRT создали постоянный

00:03:30ядро, которое постоянно находится в GPU и никогда не выгружается. Они использовали трюк под названием warp specialization

00:03:37чтобы назначить постоянные роли различным частям оборудования. Пока одна секция перемещает данные,

00:03:42другая выполняет математические вычисления, а третья обрабатывает коммуникацию — всё в точно одно и то же время. Так что

00:03:48конвейер буквально никогда не перестает двигаться. И это так интересно, потому что я только что сделал видео о диффузионной

00:03:55Gemma, которая тоже супер быстрая, но она решает ту же проблему совсем другим способом. Так что посмотрите

00:04:00это видео, если вам интересно. И вот, друзья, как ShowMe достигает скорости 1000 токенов в секунду,

00:04:07якобы. Но теперь давайте реально протестируем это и посмотрим, оправдываются ли эти обещания. Итак, для моего первого теста,

00:04:14я решил взять одну из сложных задач с LeetCode и прогнать её через модель. И она была невероятно быстрой.

00:04:20Насколько это дико? Плюс, как мы видим здесь, она достигла пика в 3451 токен в секунду, что абсолютно безумно.

00:04:29Конечно, есть вероятность, что эта задача с LeetCode была частью тренировочных данных модели.

00:04:34Так что, как бы впечатляюще это ни выглядело, это, вероятно, не совсем честное сравнение. Поэтому давайте перейдем к чему-то более сложному.

00:04:41Далее я попросил её создать простой пользовательский интерфейс для финансовой панели в одном HTML-файле без

00:04:48внешних библиотек и ничего слишком вычурного. И в этом тесте мы могли теперь действительно увидеть, насколько безумно

00:04:54производительна она. Она выдавала в среднем около 700 токенов в секунду для части рассуждений и около 1000 токенов

00:05:02в секунду для операций вывода. И модели потребовалось всего 65 секунд, чтобы выполнить задачу.

00:05:09И я думаю, результат довольно хорош. Хотя некоторые кнопки не работают, а некоторые

00:05:14действия сломаны, дизайн в целом довольно неплохой. Я имею в виду, неплохо для задачи на одну минуту.

00:05:21Затем я решил бросить модели вызов создать что-то еще более сложное. Я предложил ей

00:05:26создать веб-страницу с объяснением математических понятий в стиле Khan Academy, демонстрирующую 10 популярных концепций, чтобы увидеть, насколько

00:05:34сложный веб-сайт мы действительно можем здесь создать. И вот тут дела начали идти немного туго.

00:05:40Я пробовал этот тест дважды, и оба раза примерно через две или три минуты модель просто переставала

00:05:45генерировать и полностью зависала. Так что я предположил, что с этой задачей я уперся в лимит контекста модели или,

00:05:51возможно, у ShowMe установлен какой-то ограничитель скорости. Поэтому я решил упростить задачу, попросив

00:05:58её спроектировать веб-страницу только с пятью математическими концепциями. И в этот раз это наконец сработало. Она справилась

00:06:04с завершением задачи за 75 секунд. И результат на самом деле довольно приятный. И первые три виджета с математическими

00:06:10концепциями на самом деле функциональны, но всё, что идет после этой точки, сломано, нефункционально или пусто.

00:06:17Так что я не знаю, что именно здесь произошло. Возможно, модель сбросила часть своего контекста во время фазы

00:06:23рассуждения, но тем не менее, я думаю, это довольно хороший результат, особенно принимая во внимание, что

00:06:29мы выдавали в среднем 500 токенов в секунду во время фазы рассуждения. И для моего последнего теста я решил

00:06:34сделать что-то немного более веселое. Я просто отправил этот очень короткий запрос: создать клон Subway Surfers

00:06:41используя Three.js, и она на самом деле смогла создать полностью функциональный клон Subway Surfers всего за 50

00:06:49секунд. Вот это безумие. Должен сказать, что, хотя он функционален, как вы можете видеть здесь, он

00:06:55не включает никаких препятствий или монет, или чего-то подобного. Так что это довольно скучно. Поэтому я решил

00:07:01дать ей уточняющий запрос, чтобы исправить эти мелкие проблемы. И после двух проходов она смогла успешно

00:07:07добавить несколько монет и препятствий. И честно говоря, когда я тестировал это, это была безупречная демо-версия.

00:07:14Функциональность была на месте. Всё работало. Она даже сохраняла мой рекорд после каждого раунда.

00:07:20Так что эта конкретная демонстрация действительно удивила меня в очень позитивном ключе. Я уверен, что сегодня мы все

00:07:26можем создавать клоны Subway Surfers и с помощью других моделей. Но тот факт, что я смог получить работающий прототип,

00:07:32который не является полным провалом и в который действительно весело играть, и всё это всего за 50 секунд с

00:07:39некоторыми уточняющими запросами — это довольно впечатляюще. Так что, как мы все видели в тестах, модель смогла

00:07:45достичь рекордной скорости более 3000 токенов в секунду. Так что это действительно самая быстрая модель,

00:07:52которую я когда-либо видел. А что касается результатов, ну, да, конечно. Некоторые из них сломаны. Некоторые

00:07:58из них недоделаны. Конечно, это не Claude Opus или GPT 5.5. Но я уверен, что модели Xiaomi будут определенно продолжать

00:08:06улучшаться со временем. Так что будет очень интересно посмотреть, что они придумают в будущем.

00:08:12Вот так, ребята. Это Xiaomi Mimo V2.5 Ultra Speed в двух словах. Что вы думаете

00:08:18об этой модели? Вы впечатлены? Разочарованы? Равнодушны? Дайте нам знать в комментариях ниже.

00:08:24И ребята, если вам нравятся такие технические разборы, пожалуйста, дайте мне знать, нажав на

00:08:29кнопку “лайк” под видео. И также не забудьте подписаться на наш канал.

00:08:33С вами был Андрус из BetterStack, и увидимся в следующих видео.

Key Takeaway

Модель Mimo V2.5 Ultra Speed от ShowMe достигает беспрецедентной скорости генерации более 1000 токенов в секунду за счет оптимизации памяти, параллельного предсказания блоков токенов D-Flash и устранения аппаратных задержек GPU.

Highlights

Модель ShowMe Mimo V2.5 Ultra Speed развивает скорость генерации свыше 1000 токенов в секунду, достигая пиковых значений до 3451 токена в секунду.
Архитектура модели основана на смеси экспертов (MoE) общим объемом в 1 триллион параметров.
Экстремальное совместное проектирование модели и системы позволило добиться высокой скорости на стандартном сервере с восемью обычными GPU.
Квантование MXFP4 в сочетании с обучением QAT позволило снизить нагрузку на память без потери интеллектуальных способностей модели.
Метод D-Flash обеспечивает параллельное предсказание целых блоков скрытых токенов, совершая скачки на восемь токенов за один проход.
Специальное ядро от TileRT с использованием warp specialization устраняет аппаратные паузы в логике инструкций GPU.

Timeline

Технические основы высокой скорости

Модель Mimo V2.5 Ultra Speed преодолевает порог в 1000 токенов в секунду.
Оптимизация пропускной способности памяти достигнута через квантование MXFP4 и обучение с учетом квантования (QAT).
Технология D-Flash предсказывает блоки из восьми токенов одновременно вместо поочередного угадывания.
Движок TileRT использует warp specialization для параллельного выполнения математики, передачи данных и коммуникации.

Разработчики столкнулись с проблемой задержек при работе с триллионной моделью на стандартном оборудовании. Решение заключалось в оптимизации на уровне системы и модели. Квантование MXFP4 позволило сократить объем данных, перемещаемых в памяти GPU, при сохранении точности. Параллелизация процессов через warp specialization позволила конвейеру GPU работать без микропауз.

Практическое тестирование производительности

Тест на задачу LeetCode показал пиковую скорость в 3451 токен в секунду.
Создание пользовательского интерфейса заняло 65 секунд при средней скорости 700-1000 токенов в секунду.
Сложные многостраничные проекты приводили к зависанию, вероятно, из-за ограничений контекстного окна.
Функциональный клон Subway Surfers был создан за 50 секунд и доработан уточняющими запросами.

Модель демонстрирует высокую скорость в задачах кодирования и фронтенд-разработки. В простых задачах результат получается качественным, однако при усложнении логики или увеличении объема вывода наблюдаются сбои и незавершенность кода. Тем не менее, способность создавать работающие прототипы игр за минуту подтверждает эффективность заявленной архитектуры.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video