Это САМАЯ БЫСТРАЯ нейросеть в мире?!! (Xiaomi MiMo V2.5 Pro UltraSpeed)
BBetter Stack
컴퓨터/소프트웨어게임/e스포츠가전제품/카메라
Transcript
00:00:00Ого, ShowMe, вы знаете ту китайскую компанию, что делает телефоны, только что создала ИИ-модель, которая
00:00:05может оказаться самой быстрой в мире. Она называется ShowMe Mimo V2.5 Ultra Speed, и это по-настоящему
00:00:13потрясающе. В сегодняшнем видео мы взглянем на эту модель, посмотрим, как она работает, и мне удалось
00:00:18получить ранний доступ к этой модели, так что мы протестируем её на некоторых интересных примерах,
00:00:24чтобы увидеть, насколько она на самом деле быстрая. Будет очень интересно, так что давайте начнём.
00:00:30Прежде чем заглянуть под капот этой модели, давайте посмотрим, с какими колоссальными различиями мы на самом деле
00:00:39имеем дело. Так, в передовых моделях, таких как GPT 5.5 или Claude 4 Opus, вы часто пробираетесь через
00:00:46огромные задержки при рассуждении, выдавая примерно 50 или 60 токенов в секунду. Это неплохо, но
00:00:54довольно медленно. Но новая модель Mimo Ultra Speed от ShowMe выдает более 1000 токенов в секунду,
00:01:00и самое безумное то, что эта модель еще и огромна по размеру. Это модель со смесью экспертов на 1 триллион параметров.
00:01:07Так что вы можете подумать: “Окей, они, наверное, используют какое-то супер
00:01:13продвинутое кастомное аппаратное обеспечение для этого”. Что ж, на самом деле не совсем. ShowMe объединились со своим
00:01:19системным партнером Tile RT, и они добились этого, используя всего один стандартный сервер с восемью
00:01:25обычными графическими процессорами. Но если это не ответ, то возникает вопрос: как заставить триллионную
00:01:31параметрическую модель выдавать текст с микросекундной скоростью на обычном железе? Что ж, они придумали
00:01:39то, что они называют экстремальным совместным проектированием модели и системы. Они атаковали узкое место с задержкой
00:01:44с трех разных сторон одновременно. Во-первых, они оптимизировали пропускную способность памяти. Перемещение триллиона
00:01:50параметров через память GPU во время фазы генерации текста создает огромные пробки. Чтобы исправить это,
00:01:57ShowMe использовали квантование MXFP4. Но поскольку 4-битное сжатие обычно может сделать ИИ
00:02:04менее точным, они использовали обучение с учетом квантования (QAT) и сохранили основные слои маршрутизации с более высокой
00:02:12точностью. Это снизило нагрузку на память, сохранив интеллект модели практически идентичным
00:02:18несжатой версии. Во-вторых, они кардинально изменили способ, которым модель предсказывает слова. Итак, стандартное
00:02:25спекулятивное декодирование работает так: крошечная черновая модель угадывает несколько слов вперед, а затем массивная основная
00:02:32модель проверяет математику. Но ShowMe сделали здесь кое-что другое с помощью того, что они называют D-Flash. Вместо того чтобы угадывать по одному
00:02:39токену за раз, она предсказывает целый блок скрытых токенов одновременно в параллельном прямом проходе. И
00:02:46в ходе тестирования они обнаружили, что при использовании для задач кодирования, основная модель на самом деле сохраняет в среднем
00:02:526,3 из каждых восьми токенов, которые угадывает D-Flash. Так что это по сути позволяет модели совершать
00:02:58огромные скачки на восемь токенов за раз вместо того, чтобы делать маленькие шаги. И в-третьих, они используют специальный
00:03:04движок, который решает действительно раздражающую проблему с аппаратным обеспечением. Итак, когда вы выдаете тысячу токенов в секунду,
00:03:11стандартные GPU на самом деле не справляются с логикой инструкций. Обычно GPU запускает математическую
00:03:17операцию, завершает её, очищает память, а затем ждет запуска следующей. И даже несмотря на то, что эти
00:03:23паузы длятся всего микросекунды, они полностью убивают импульс. Чтобы исправить это, TileRT создали постоянный
00:03:30ядро, которое постоянно находится в GPU и никогда не выгружается. Они использовали трюк под названием warp specialization
00:03:37чтобы назначить постоянные роли различным частям оборудования. Пока одна секция перемещает данные,
00:03:42другая выполняет математические вычисления, а третья обрабатывает коммуникацию — всё в точно одно и то же время. Так что
00:03:48конвейер буквально никогда не перестает двигаться. И это так интересно, потому что я только что сделал видео о диффузионной
00:03:55Gemma, которая тоже супер быстрая, но она решает ту же проблему совсем другим способом. Так что посмотрите
00:04:00это видео, если вам интересно. И вот, друзья, как ShowMe достигает скорости 1000 токенов в секунду,
00:04:07якобы. Но теперь давайте реально протестируем это и посмотрим, оправдываются ли эти обещания. Итак, для моего первого теста,
00:04:14я решил взять одну из сложных задач с LeetCode и прогнать её через модель. И она была невероятно быстрой.
00:04:20Насколько это дико? Плюс, как мы видим здесь, она достигла пика в 3451 токен в секунду, что абсолютно безумно.
00:04:29Конечно, есть вероятность, что эта задача с LeetCode была частью тренировочных данных модели.
00:04:34Так что, как бы впечатляюще это ни выглядело, это, вероятно, не совсем честное сравнение. Поэтому давайте перейдем к чему-то более сложному.
00:04:41Далее я попросил её создать простой пользовательский интерфейс для финансовой панели в одном HTML-файле без
00:04:48внешних библиотек и ничего слишком вычурного. И в этом тесте мы могли теперь действительно увидеть, насколько безумно
00:04:54производительна она. Она выдавала в среднем около 700 токенов в секунду для части рассуждений и около 1000 токенов
00:05:02в секунду для операций вывода. И модели потребовалось всего 65 секунд, чтобы выполнить задачу.
00:05:09И я думаю, результат довольно хорош. Хотя некоторые кнопки не работают, а некоторые
00:05:14действия сломаны, дизайн в целом довольно неплохой. Я имею в виду, неплохо для задачи на одну минуту.
00:05:21Затем я решил бросить модели вызов создать что-то еще более сложное. Я предложил ей
00:05:26создать веб-страницу с объяснением математических понятий в стиле Khan Academy, демонстрирующую 10 популярных концепций, чтобы увидеть, насколько
00:05:34сложный веб-сайт мы действительно можем здесь создать. И вот тут дела начали идти немного туго.
00:05:40Я пробовал этот тест дважды, и оба раза примерно через две или три минуты модель просто переставала
00:05:45генерировать и полностью зависала. Так что я предположил, что с этой задачей я уперся в лимит контекста модели или,
00:05:51возможно, у ShowMe установлен какой-то ограничитель скорости. Поэтому я решил упростить задачу, попросив
00:05:58её спроектировать веб-страницу только с пятью математическими концепциями. И в этот раз это наконец сработало. Она справилась
00:06:04с завершением задачи за 75 секунд. И результат на самом деле довольно приятный. И первые три виджета с математическими
00:06:10концепциями на самом деле функциональны, но всё, что идет после этой точки, сломано, нефункционально или пусто.
00:06:17Так что я не знаю, что именно здесь произошло. Возможно, модель сбросила часть своего контекста во время фазы
00:06:23рассуждения, но тем не менее, я думаю, это довольно хороший результат, особенно принимая во внимание, что
00:06:29мы выдавали в среднем 500 токенов в секунду во время фазы рассуждения. И для моего последнего теста я решил
00:06:34сделать что-то немного более веселое. Я просто отправил этот очень короткий запрос: создать клон Subway Surfers
00:06:41используя Three.js, и она на самом деле смогла создать полностью функциональный клон Subway Surfers всего за 50
00:06:49секунд. Вот это безумие. Должен сказать, что, хотя он функционален, как вы можете видеть здесь, он
00:06:55не включает никаких препятствий или монет, или чего-то подобного. Так что это довольно скучно. Поэтому я решил
00:07:01дать ей уточняющий запрос, чтобы исправить эти мелкие проблемы. И после двух проходов она смогла успешно
00:07:07добавить несколько монет и препятствий. И честно говоря, когда я тестировал это, это была безупречная демо-версия.
00:07:14Функциональность была на месте. Всё работало. Она даже сохраняла мой рекорд после каждого раунда.
00:07:20Так что эта конкретная демонстрация действительно удивила меня в очень позитивном ключе. Я уверен, что сегодня мы все
00:07:26можем создавать клоны Subway Surfers и с помощью других моделей. Но тот факт, что я смог получить работающий прототип,
00:07:32который не является полным провалом и в который действительно весело играть, и всё это всего за 50 секунд с
00:07:39некоторыми уточняющими запросами — это довольно впечатляюще. Так что, как мы все видели в тестах, модель смогла
00:07:45достичь рекордной скорости более 3000 токенов в секунду. Так что это действительно самая быстрая модель,
00:07:52которую я когда-либо видел. А что касается результатов, ну, да, конечно. Некоторые из них сломаны. Некоторые
00:07:58из них недоделаны. Конечно, это не Claude Opus или GPT 5.5. Но я уверен, что модели Xiaomi будут определенно продолжать
00:08:06улучшаться со временем. Так что будет очень интересно посмотреть, что они придумают в будущем.
00:08:12Вот так, ребята. Это Xiaomi Mimo V2.5 Ultra Speed в двух словах. Что вы думаете
00:08:18об этой модели? Вы впечатлены? Разочарованы? Равнодушны? Дайте нам знать в комментариях ниже.
00:08:24И ребята, если вам нравятся такие технические разборы, пожалуйста, дайте мне знать, нажав на
00:08:29кнопку “лайк” под видео. И также не забудьте подписаться на наш канал.
00:08:33С вами был Андрус из BetterStack, и увидимся в следующих видео.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video