Как MiniMax M2.5 может быть почти так же хорош, как Opus?

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Minimax только что выпустила M2.5 — модель для кодинга, которая почти обходит Claude Opus 4.6, но стоит в десять раз дешевле.
00:00:07Она вышла буквально на днях: открытые веса, 230 миллиардов параметров и полная заточенность под работу агентов.
00:00:14Если вы создаете ИИ-агентов, копайлотов или инструменты автоматизации, это вмиг изменит вашу экономику.
00:00:19И самое поразительное здесь не только бенчмарки, но и цена.
00:00:23У нас постоянно выходят новые видео, так что обязательно подписывайтесь.
00:00:31Minimax M2.5 — это модель типа «смесь экспертов» (MoE). Всего у неё 230 млрд параметров, но при работе активируются только 10 млрд.
00:00:39В итоге вы получаете мощь огромной модели, не переплачивая за использование всех её ресурсов каждый раз.
00:00:43Она создана для реальной разработки: Python, Java, Rust, рефакторинг нескольких файлов, циклы вызова инструментов и даже автоматизация в Word и Excel.
00:00:53Доступны две версии: Standard со скоростью 50 токенов в секунду и Lightning, выдающая 100 токенов в секунду.
00:01:01Модель мультиязычная, а её веса полностью открыты и доступны на Hugging Face.
00:01:05Это значит, что её можно дообучать, запускать локально и не зависеть от провайдера — именно тут начинается самое интересное для агентов.
00:01:12Я запустил один и тот же промпт в Opus и Minimax, чтобы собрать полноценную канбан-доску.
00:01:18Ничего сверхсложного, просто база, чтобы посмотреть, как они справятся в сравнении.
00:01:23Точный промпт я оставил в описании, если захотите изучить, но сначала глянем на версию от Opus — на генерацию ушло около 4 минут.
00:01:31Результат ожидаемый: мне не пришлось ничего уточнять, это был финальный вариант.
00:01:37Всё работает очень плавно, код чистый, да и интерфейс для стартового проекта выглядит вполне прилично.
00:01:44Drag-and-drop работает как надо, редактирование задач тоже. Мне понравилась фишка с ярлыком папки, который меняется при перетаскивании. Приятный бонус.
00:01:55В общем, Opus справился отлично, чего я, собственно, и ожидал.
00:02:00Теперь к Minimax. У неё ушло около 8 минут. Возможно, потому что я импортировал её в Cursor, а не запускал на сайте, но мне так было удобнее.
00:02:10Да, это дольше, но цена в десять раз ниже, так что спорить тут не о чем.
00:02:14В целом результат по одному промпту очень достойный. Интерфейс чуть слабее, чем у Opus, но функционал тот же.
00:02:22Я могу создавать задачи, перетаскивать их между колонками — всё это работает отлично.
00:02:27Единственное, она не добавила тот самый ярлык на карточки, который мне так понравился у Opus.
00:02:33Ещё один недочёт — редактирование описания задачи.
00:02:38Видите, я меняю описание, но ничего не сохраняется.
00:02:42Так что пришлось бы прогнать её второй раз, чтобы довести дело до конца.
00:02:48Но это всё равно приемлемо, учитывая десятикратную экономию.
00:02:51А теперь о том, что действительно важно для разработчиков. M2.5 использует обучение с подкреплением (RL) для декомпозиции задач.
00:02:58Она лучше разбивает проблемы на части, что дает на 20% меньше вызовов инструментов и на 5% меньше лишних токенов.
00:03:06Если вы создавали агентов, то знаете: вызовы инструментов — это то, где начинаются основные расходы и путаница.
00:03:13Она также тянет правки в нескольких файлах и циклы «запуск-отладка-исправление», не теряя нить рассуждения.
00:03:21В бенчмарках поиска она сокращает количество итераций на 20% по сравнению с предыдущей версией M2.1.
00:03:27К тому же есть поддержка кэширования, а значит, повторяющиеся запросы со временем будут обходиться дешевле.
00:03:32Её можно встроить в Ollama, локальные кластеры, GitHub-автоматизации или ваши CI-пайплайны.
00:03:37Теперь про бенчмарки. Напомню, я сравниваю её с Opus.
00:03:40В тесте SWE-bench Verified модель M2.5 набрала более 80%.
00:03:45Claude Opus 4.6 чуть выше — тоже в районе 80%. Разрыв минимальный.
00:03:52В Multi-SWE-bench она набирает более 51%, обходя другие открытые модели.
00:03:58А в DROID она и вовсе обгоняет Opus на 0,2%. Так что всё зависит от того, как мерить.
00:04:05Про скорость: она на 37% быстрее предыдущей модели. Хотя у меня генерация всё равно заняла 8 минут.
00:04:11Opus 4.6 в среднем чуть быстрее, но при правильном формате вывода их скорость становится идентичной.
00:04:18Что это значит для вас? Ну, как минимум несколько вещей.
00:04:20Меньше повторных попыток, более чистые прогоны CI, меньше лишних токенов и больше принятых пул-реквестов.
00:04:26В задачах для агентов она заходит на территорию GPT-5 или Gemini 3 Pro,
00:04:32но при этом имеет открытые веса. А теперь давайте обсудим то, что меняет правила игры,
00:04:37— это цены, которые оправдывают даже более долгое ожидание.
00:04:40Версия M2.5 Standard стоит $0,15 за миллион входных токенов и $1,20 за миллион выходных.
00:04:47Lightning стоит вдвое дороже: $0,30 за вход и $2,40 за выход.
00:04:53Час работы версии Lightning на скорости 100 токенов в секунду обойдется примерно в один доллар.
00:04:56А за Standard, которую использовал я, вы заплатите около 30 центов в час.
00:05:00Сравните это с Claude Opus 4.6. Разница колоссальная.
00:05:04$5 за миллион входных токенов и $25 за миллион выходных.
00:05:09В пересчете на одну инженерную задачу расходы составляют около 10% от стоимости Opus.
00:05:15Кстати, сейчас доступен бесплатный уровень API. Я за тест платил,
00:05:20но такая возможность есть. И вот тут экономика действительно меняется.
00:05:24Стоит ли переходить с Opus 4.6? С точки зрения производительности они почти равны.
00:05:30Да, вышло чуть дольше на Standard, но результаты сопоставимы.
00:05:34Время выполнения задачи и глубина рассуждений на одном уровне.
00:05:39Но по цене она в разы дешевле. Так что выводы делайте сами.
00:05:43Она также делает на 20% меньше лишних вызовов инструментов и экономит токены.
00:05:47Плюс гибкость: открытые веса позволяют развернуть её локально и дообучить под свои нужды.
00:05:52Хотя Opus всё ещё сохраняет небольшое преимущество в самых сложных задачах «премиального» уровня.
00:05:57Всё-таки это эталонная модель, с которой мы работаем.
00:06:00Но вот почему это важно: теперь вы можете запускать агентов масштабно, не разоряясь на счетах.
00:06:05Поскольку у M2.5 винрейт 59% в продвинутых бенчмарках для агентов, вы можете создавать автономных
00:06:12ботов для репозиториев и автоматизировать корпоративные процессы. Она не идеальна,
00:06:17но чертовски хороша. А цена позволит вам реально экспериментировать и тестировать её на пределе.
00:06:22К тому же Minimax выпускает обновления молниеносно, сокращая циклы с месяцев до недель.
00:06:27Интеграции с Ollama и GitHub уже на подходе.
00:06:32Minimax M2.5 дает производительность уровня Opus по бюджетной цене и с открытыми весами.
00:06:38Такое сочетание встречается редко. Вы можете протестировать её бесплатно на сайте Minimax, запустить в Ollama или через API.
00:06:43Станет ли она новым стандартом для ИИ-агентов? Посмотрим, как пойдут дела.
00:06:48Увидимся в следующем видео!

Key Takeaway

Minimax M2.5 предлагает производительность уровня топовых проприетарных моделей для программирования при десятикратной экономии средств и преимуществах открытого исходного кода.

Highlights

Minimax M2.5 — это модель типа «смесь экспертов» (MoE) с 230 млрд параметров, которая стоит в 10 раз дешевле Claude Opus 4.6.

Модель имеет открытые веса и доступна на Hugging Face, что позволяет запускать её локально и дообучать под специфические задачи.

M2.5 показывает результаты на уровне 80% в тесте SWE-bench Verified, практически не уступая лидерам рынка в кодинге.

Использование обучения с подкреплением (RL) позволяет модели эффективнее разбивать задачи, сокращая количество вызовов инструментов на 20%.

Стоимость версии Standard составляет всего $0,15 за миллион входных токенов, что кардинально меняет экономику создания ИИ-агентов.

Модель поддерживает многофайловое редактирование и сложные циклы отладки, обеспечивая высокую точность в автономных сценариях.

Timeline

Анонс и технические характеристики M2.5

Спикер представляет новую модель Minimax M2.5, подчеркивая её ориентацию на задачи кодинга и работу ИИ-агентов. Модель построена по архитектуре MoE (смесь экспертов) с общим количеством параметров 230 миллиардов, из которых активируются только 10 миллиардов. Доступны две версии: Standard со скоростью 50 токенов в секунду и Lightning, выдающая 100 токенов в секунду. Открытые веса позволяют разработчикам использовать модель локально через Ollama или дообучать её под свои нужды. Это критически важно для создания независимых систем автоматизации и копайлотов без привязки к конкретным API-провайдерам.

Сравнение производительности с Claude Opus 4.6

Проводится практический эксперимент по созданию канбан-доски с помощью одного промпта в Opus и Minimax. Opus справился за 4 минуты, выдав идеальный результат с первого раза, включая сложные визуальные эффекты. Minimax M2.5 потратила 8 минут, показав достойный результат, но с небольшими недочётами в функции редактирования описаний. Несмотря на задержку по времени, функциональность и чистота кода остаются на очень высоком уровне для модели с такой ценой. Автор отмечает, что небольшие правки на втором прогоне легко устраняют мелкие баги, делая результат приемлемым.

Оптимизация для агентов и бенчмарки

В этом разделе обсуждается применение обучения с подкреплением (RL) для декомпозиции сложных инженерных задач. M2.5 генерирует на 5% меньше лишних токенов и требует на 20% меньше вызовов инструментов по сравнению с предыдущими версиями. В бенчмарках SWE-bench модель набирает более 80%, что ставит её в один ряд с лидерами рынка, такими как Claude Opus. В некоторых тестах, например DROID, Minimax даже обходит конкурентов на 0,2%. Скорость генерации выросла на 37%, что делает работу с автономными агентами более эффективной и предсказуемой.

Экономика и ценовая политика модели

Спикер детально разбирает стоимость использования M2.5 в сравнении с Claude Opus 4.6. Цена за миллион входных токенов в Standard версии составляет всего $0,15 против $5 у Opus, что в 33 раза дешевле. Общие затраты на выполнение одной инженерной задачи для Minimax составляют около 10% от стоимости аналогичной задачи в Opus. Это позволяет запускать масштабные циклы тестирования и автоматизации процессов без значительных финансовых рисков. Существование бесплатного уровня API также делает модель крайне привлекательной для стартапов и независимых разработчиков.

Перспективы и выводы по внедрению

В заключительной части автор оценивает стратегическую ценность Minimax M2.5 как нового стандарта для ИИ-агентов. Хотя Opus сохраняет преимущество в самых сложных премиальных задачах, M2.5 предлагает невероятное сочетание цены и качества для массового использования. Возможность локального развертывания и высокая частота обновлений от Minimax делают эту модель грозным конкурентом для закрытых систем. Модель уже интегрируется с популярными инструментами вроде GitHub и Ollama, расширяя свою экосистему. Спикер рекомендует всем разработчикам протестировать M2.5 для своих проектов уже сейчас.

Community Posts

View all posts