Why is Everyone OBSESSED With The New Kimi K2.5 AI Model

BBetter Stack
컴퓨터/소프트웨어마케팅/광고창업/스타트업AI/미래기술

Transcript

00:00:00Погодите, я кое-что заметил.
00:00:01Отчет основан на общедоступной информации по состоянию на январь 2025 года.
00:00:06О нет, о нет, 2025-й? Нет, это не то, что я просил.
00:00:15Moonshot AI выпустили свою новейшую модель, Kimi K 2.5, и на этой неделе
00:00:22весь интернет только о ней и говорит.
00:00:24Некоторые даже заходят так далеко, что называют её своей любимой моделью.
00:00:29Естественно, я должен был её протестировать, чтобы понять, из-за чего весь шум,
00:00:34и выяснить, действительно ли это что-то свежее или просто очередной хайп и маркетинг.
00:00:39Этим мы и займемся в сегодняшнем видео.
00:00:42Будет интересно, так что поехали.
00:00:49Итак, Kimi K 2.5 — это последняя модель с открытым исходным кодом от китайской компании
00:00:55Moonshot AI.
00:00:56Всего полгода назад Ричард уже подробно разбирал K2, а сегодня мы вернулись,
00:01:01чтобы посмотреть, что нового в версии K 2.5.
00:01:05Так в чем же её особенность?
00:01:06Чем она отличается от тысяч других моделей, которые выходят почти каждый день?
00:01:12Ну, тут два момента.
00:01:13Во-первых, разработчики заявляют, что она очень сильна в компьютерном зрении и программировании.
00:01:17Они даже называют её “Open Source SOTA”.
00:01:21SOTA.
00:01:22Вы понимаете, что это значит?
00:01:24Честно говоря, мне самому пришлось гуглить, я понятия не имел.
00:01:27А, окей, это значит “state of the art” — современный уровень развития технологий.
00:01:30Что ж, сегодня я узнал кое-что новое.
00:01:32В общем, модель показывает передовые результаты в агентных бенчмарках, зрении и коде.
00:01:37Вторая отличительная черта этой модели — новая функциональность под названием
00:01:42Agent Swarm (Рой агентов).
00:01:44Она способна запускать до 100 субагентов и выполнять 1500 вызовов инструментов
00:01:51параллельно, что дает ускорение производительности в 4,5 раза.
00:01:55Для этой модели использовали новый метод обучения под названием PARL —
00:02:00параллельное обучение агентов с подкреплением.
00:02:01Это значит, что модель может сама управлять всем роем, создавая обучаемого
00:02:06агента-оркестратора. Он руководит процессом, разбивая задачи на параллельные
00:02:12подзадачи, и следит, чтобы вся операция не превратилась
00:02:18в последовательный коллапс, что часто случается в мультиагентных рабочих процессах.
00:02:23Проблему решили, давая каждому субагенту награды на отдельных критических этапах.
00:02:28Вся эта система позволяет K 2.5 достичь заметного прироста производительности.
00:02:34Так что мы обязательно это проверим.
00:02:35Я не буду подробно останавливаться на всех этих бенчмарках, потому что,
00:02:40честно говоря, в каждом видео сейчас хвалят эти цифры, а я не думаю,
00:02:44что им вообще можно доверять.
00:02:47Да они даже графики в бенчмарках ровно выстроить не могут, ну камон.
00:02:51Поэтому я сосредоточусь на двух вещах, в которых эта модель,
00:02:55по заявлениям, особенно хороша.
00:02:56Это зрение, код и новый функционал роя агентов.
00:03:00Давайте испытаем её.
00:03:02У них также есть собственный CLI-инструмент — Kimi CLI.
00:03:06Его я и буду использовать сегодня для тестов.
00:03:09Одна из самых впечатляющих функций, о которых они заявляют, — это способность взять видеозапись
00:03:13интерфейса какого-то сайта и воссоздать его в коде.
00:03:19Звучит круто.
00:03:20Для проверки я записал видео страницы iPad Air с сайта Apple со всеми их
00:03:25хитрыми анимациями и переходами.
00:03:28Я создал папку, в которой лежит только файл с этой записью.
00:03:32И теперь я попрошу K 2.5 сделать промо-сайт для iPad Air
00:03:38на основе этого видео.
00:03:39Перед выполнением команд в терминале модель спросит разрешение, я разрешу его
00:03:44на текущую сессию.
00:03:46Процесс пошел.
00:03:48И вот что интересно.
00:03:49Модель обнаружила, что файл слишком большой.
00:03:51Поэтому она сама воспользовалась FFmpeg, чтобы его сжать.
00:03:56Мне было очень любопытно, как именно она обрабатывает и понимает видеофайл.
00:04:01Оказалось, что она берет видео и снова через FFmpeg извлекает
00:04:06ключевые кадры, чтобы использовать их как визуальное пособие для сборки сайта.
00:04:11На выполнение задачи у модели ушло примерно пять с половиной минут.
00:04:15Так что это точно не самая быстрая модель.
00:04:18И заметьте, я использую их API, а не локальную версию.
00:04:23Но как бы то ни было, когда всё готово, мы видим подробный отчет
00:04:28о том, что было сделано.
00:04:29Теперь давайте взглянем на сам сайт.
00:04:30Ого, ничего себе.
00:04:31Посмотрите на это.
00:04:32Она попала точно в эстетику дизайна Apple и даже создала этот парящий 3D-iPad
00:04:38посередине.
00:04:39И он, кажется, даже реагирует на движения мыши.
00:04:42Это очень круто.
00:04:43Дальше у нас идет симпатичная карусель с разными окнами, но, к сожалению, она
00:04:48не реагирует на клики по точкам, но всё равно выглядит элегантно.
00:04:52Затем еще один блок с анимациями.
00:04:55О, а здесь рабочая карусель с разными вариантами дизайна.
00:05:00Здорово.
00:05:01И еще пара секций, которые полностью выдержаны в стиле Apple.
00:05:06Если честно, это впечатляет.
00:05:07Тот факт, что она смогла выдать приличный сайт со всеми этими анимациями,
00:05:12имея только референсное видео и короткий промпт — это очень недурно.
00:05:16Ладно.
00:05:17Но Apple — известный бренд.
00:05:18Уверен, их эстетика дизайна точно входила в тренировочные данные модели.
00:05:23Так что для неё это, скорее всего, была простая задача.
00:05:26Давайте попробуем что-нибудь более интересное и необычное.
00:05:29Я создал еще одну папку с единственным изображением мистера Бёрнса из «Симпсонов».
00:05:34Посмотрим, насколько креативной может быть Kimi K 2.5.
00:05:37Я написал такой промпт: «Мистер Бёрнс баллотируется в президенты.
00:05:40Создай сайт его предвыборной кампании, включая его политику
00:05:45и повестку, основываясь на чертах характера и мотивации этого персонажа».
00:05:49Посмотрим, что получится.
00:05:51Когда начинается процесс рассуждения, мы видим, как она продумывает дизайн.
00:05:55Образ понятен.
00:05:56Монтгомери Бёрнс в своем фирменном темно-зеленом костюме и персиковом галстуке.
00:06:01Это ключевой визуальный ориентир для эстетики кампании.
00:06:05Круто.
00:06:06И эта часть заняла еще больше времени.
00:06:08Всего около шести минут.
00:06:11Но теперь всё готово, и мы снова видим детальный обзор проделанной работы:
00:06:16секция с видением будущего, раздел политики, промо-материалы и так далее.
00:06:22И посмотрите-ка.
00:06:23Она даже добавила скрытую пасхалку ради забавы.
00:06:26А вот это уже супер-круто.
00:06:27Теперь посмотрим на сам сайт.
00:06:29Вау.
00:06:30Гляньте на это.
00:06:31«Мастерство в управлении».
00:06:33«Я сделаю эту страну великой снова — для себя».
00:06:36О, а там маленькая ядерная кнопка.
00:06:40Что будет, если на неё нажать?
00:06:41«Смитерс, неси мне кофе».
00:06:43Забавно.
00:06:44Тут даже есть подробная страница «О кандидате».
00:06:46И раздел «Процветание».
00:06:49А анимации какие плавные.
00:06:50Вау.
00:06:51Похоже, Kimi K 2.5 действительно умеет создавать броскую графику.
00:06:55Это явно лучше того фиолетового ширпотреба, который выдают
00:07:01другие модели.
00:07:02Смотрите.
00:07:04«Политика для элиты».
00:07:05О боже мой.
00:07:06Тут столько классных ироничных шуток.
00:07:08Потрясающе.
00:07:10Медицинские ваучеры, действительные только в медцентрах Бёрнса.
00:07:14Очереди на пересадку органов, отсортированные по размеру капитала.
00:07:18Стена на границе из золота.
00:07:21Что говорят люди?
00:07:22Окей, тут цитаты персонажей «Симпсонов», форма обратной связи и страница
00:07:29пожертвований на кампанию.
00:07:30Она даже добавила магазин мерча.
00:07:31Правда, этот раздел «скоро откроется».
00:07:33Ну да, это же просто статичная HTML-страница.
00:07:35Хорошо.
00:07:36Теперь я хочу активировать ту пасхалку.
00:07:38Как это сделать?
00:07:39Написано: нужно ввести «код Конами».
00:07:43Что такое код Конами?
00:07:45А, окей.
00:07:46Код Конами — это знаменитый чит-код из видеоигр.
00:07:49Ого.
00:07:50Я об этом не знал.
00:07:51Снова сегодня узнал что-то новое.
00:07:52Так, это: вверх, вверх, вниз, вниз, влево, вправо, влево, вправо, A, B. Ага.
00:07:58Вот оно.
00:07:59Теперь поверх страницы вылез большой текст «ХА-ХА-ХА», а слоган сменился на «Excellent».
00:08:06Мило.
00:08:07Если честно, тут столько прикольных фишек, что я оставлю ссылку
00:08:10на эту страницу в описании, чтобы вы сами могли её потыкать.
00:08:14Фанаты «Симпсонов» точно оценят.
00:08:17Это действительно впечатляет.
00:08:19Не ожидал, что она сделает такой фановый сайт по одной картинке и короткому тексту.
00:08:24Ладно.
00:08:25Но теперь я хочу попробовать функцию «рой агентов», о которой все трубят.
00:08:29Судя по их примерам, эта фишка очень хороша для задач вроде
00:08:33сбора данных по теме или любых действий, где нужен многопоточный
00:08:39подход.
00:08:40Чтобы оценить эту функцию во всей красе, лучше использовать официальную страницу Kimi
00:08:46и запустить её в чат-боте, потому что они добавили туда кучу классных визуальных элементов
00:08:50и анимаций, благодаря которым работа роя выглядит очень эффектно.
00:08:54Сейчас сами увидите.
00:08:56Для этого теста я попрошу рой агентов собрать как можно больше информации
00:09:00о разных моделях, какие из них самые популярные, и попрошу K 2.5 собрать
00:09:06всё это в один грамотно оформленный PDF-отчет.
00:09:10Кстати, если вы хотите, чтобы модель использовала рой, лучше прямо об этом попросить.
00:09:16В одном из прошлых тестов я дал задание, и K 2.5 сама решила,
00:09:23что рой ей не нужен, и вернула мне часть токенов.
00:09:27Так что если хотите активировать рой — так и скажите.
00:09:31Итак, запускаем задачу.
00:09:32Как только процесс пошел, мы видим эти крутые анимации в интерфейсе Kimi.
00:09:33И это то, что я заметил за Moonshot AI: они в этом профи.
00:09:39У них получается очень живой, геймифицированный пользовательский опыт,
00:09:43из-за чего пользоваться их инструментами намного приятнее.
00:09:49Kimi тут снова иронизирует, пока модель распределяет
00:09:52агентов.
00:09:57Она даже выдает каждому из них бейджик.
00:09:58И мы можем в реальном времени следить за статусом выполнения их задач.
00:10:01Пока агенты работают, мы можем наблюдать за прогрессом в основном
00:10:05окне.
00:10:10Мы видим сайты, которые они посещают, и код, который они пишут.
00:10:11На этом этапе можно даже делать ставки, какой агент справится
00:10:15быстрее всех.
00:10:20Когда агент заканчивает задачу, над его аватаром всплывает облачко.
00:10:21Примерно через 10 с половиной минут мой рой закончил работу,
00:10:26и мы получили вот такой PDF-документ.
00:10:31Похоже, тут есть текст, но я его почти не вижу.
00:10:33Окей, пришлось скопировать и вставить его в другое место, чтобы прочитать.
00:10:39Так, тут написано: «Сравнительный анализ моделей для программирования».
00:10:43Понятно.
00:10:46Что ж, с точки зрения дизайна выбор так себе.
00:10:47Но ладно, не будем делать поспешных выводов.
00:10:50Давайте посмотрим остальную часть отчета.
00:10:53Так, тут у нас краткое резюме.
00:10:55Основные выводы.
00:10:5881% разработчиков используют или планируют использовать ИИ.
00:10:5959% разработчиков запускают три ИИ-инструмента параллельно.
00:11:03Окей, интересно.
00:11:06И мы видим, что Claude Code Opus 4.5 лидирует в чартах.
00:11:08Затем идут рыночные тренды.
00:11:1346% разработчиков активно не доверяют результатам работы ИИ.
00:11:16И вот это сюрприз.
00:11:20GitHub Copilot — лидер рынка с долей 42%.
00:11:22Ничего себе.
00:11:26У Llama 4 Scout, похоже, самое большое контекстное окно — 10 миллионов токенов.
00:11:27Это впечатляет.
00:11:31Так, а вот и самое
00:11:32интересное.
00:11:33Ключевые выводы.
00:11:34Посмотрим.
00:11:35«Единого победителя нет».
00:11:36Ну началось.
00:11:37Как скучно.
00:11:3945% кода, созданного ИИ, содержит уязвимости.
00:11:41Да, об этом определенно стоит беспокоиться.
00:11:43Стоп, я только что заметил: отчет основан на данных по состоянию на январь
00:11:462025 года.
00:11:52О нет.
00:11:54О нет.
00:11:562025-й.
00:11:57Нет, это не то, что я просил.
00:11:59Я специально просил информацию о моделях, которые используются именно СЕЙЧАС.
00:12:02Почему ты не использовала данные за январь 2026-го?
00:12:09«Вы совершенно правы.
00:12:14Мне следовало изучить данные за 2025-й и январь 2026-го».
00:12:15Типичное поведение LLM.
00:12:21Я очень в тебе разочарован, Kimi.
00:12:23Я просто слил кучу токенов и 10 минут времени на устаревшую информацию.
00:12:25Ну что ж.
00:12:30Вот такая она, Kimi K2.5.
00:12:31Несмотря на моё полное разочарование в её способности следовать инструкциям в последнем тесте, я всё же
00:12:32считаю, что это неплохая модель.
00:12:35Я бы не назвал её революционной или лучшей в своем роде, но у неё есть свои плюсы.
00:12:40Я бы точно порекомендовал её, если вы хотите сделать действительно красивый сайт,
00:12:42знаете, такой, который не стыдно выставить на Awwwards.
00:12:47В этом случае я бы точно выбрал K2.5, а не модели Claude Code, например.
00:12:51И надо признать, функция роя выглядит очень круто, и её
00:12:55интересно использовать.
00:13:01Но знали ли вы, что ту же фишку можно получить и в Claude Code?
00:13:06Ричард как раз снял отличное видео на эту тему, так что обязательно посмотрите.
00:13:07Друзья, если это видео было полезным или хотя бы интересным,
00:13:10то дайте мне знать, нажав на кнопку лайка под видео.
00:13:14И не забудьте подписаться на наш канал, чтобы не пропустить наши следующие
00:13:15технические разборы.
00:13:19С вами был Андрис из Better Stack, увидимся в следующих видео.
00:13:22And also be sure to subscribe to our channel so you don't miss out on any of our future
00:13:26technical breakdown videos.
00:13:28This has been Andris from Better Stack and I will see you in the next videos.

Key Takeaway

Kimi K2.5 от Moonshot AI представляет собой мощную мультиагентную систему, которая превосходно справляется с визуальным программированием и дизайном, хотя и требует внимательного контроля над актуальностью выдаваемой информации.

Highlights

Moonshot AI выпустила Kimi K2.5 — модель с открытым исходным кодом, лидирующую в компьютерном зрении и программировании

Инновационная функция Agent Swarm (Рой агентов) позволяет запускать до 100 субагентов параллельно для ускорения задач в 4,5 раза

Модель успешно воссоздает сложные веб-интерфейсы и анимации, используя только видео-референс и инструмент FFmpeg

Kimi K2.5 демонстрирует высокую креативность, создавая ироничный и функциональный сайт персонажа на основе одного изображения

Использование метода параллельного обучения PARL позволяет эффективно управлять мультиагентными рабочими процессами без коллапсов

Несмотря на мощные функции, модель может ошибаться в следовании инструкциям по актуальности данных, используя базу за прошлый год

Timeline

Введение и обзор возможностей Kimi K2.5

Ведущий Андрис представляет новинку от компании Moonshot AI — модель Kimi K2.5, которая вызвала большой ажиотаж в технологическом сообществе. Это модель с открытым исходным кодом, которую разработчики позиционируют как SOTA (State of the Art) в области компьютерного зрения и написания кода. Автор подчеркивает, что версия K2.5 вышла всего через полгода после предыдущей и обещает значительный прогресс. В этом разделе объясняется значение термина SOTA и задается вектор для дальнейшего тестирования. Основная цель обзора — выяснить, является ли модель реально полезным инструментом или это очередной маркетинговый продукт.

Архитектура Agent Swarm и метод обучения PARL

Спикер подробно разбирает технические особенности модели, акцентируя внимание на функции Agent Swarm (Рой агентов). Система способна координировать до 100 субагентов и выполнять 1500 вызовов инструментов одновременно, что дает четырехкратное ускорение производительности. Описывается метод PARL — параллельное обучение агентов с подкреплением, который создает специального агента-оркестратора. Этот оркестратор разбивает задачи на параллельные потоки и предотвращает типичные ошибки мультиагентных систем. Автор выражает скепсис по поводу стандартных бенчмарков и решает проверить возможности модели на практике в кодинге и зрении.

Тест 1: Воссоздание интерфейса Apple по видео

Первое испытание проводится с помощью инструмента Kimi CLI, где модели ставится задача создать сайт iPad Air на основе видеозаписи экрана. Kimi самостоятельно использует утилиту FFmpeg для сжатия видео и извлечения ключевых кадров в качестве визуальных ориентиров. Процесс разработки занял около пяти с половиной минут через API, что нельзя назвать сверхбыстрым результатом. Однако итоговый сайт поразил ведущего точностью эстетики дизайна Apple, наличием 3D-эффектов и плавных анимаций. Несмотря на мелкие недочеты в интерактивности каруселей, результат признан впечатляющим для работы по короткому промпту.

Тест 2: Креативный дизайн сайта Мистера Бёрнса

Для проверки креативности модели автор предлагает ей создать предвыборный сайт Мистера Бёрнса из мультсериала «Симпсоны», используя всего одну картинку. Kimi K2.5 успешно проанализировала характер персонажа, подобрав соответствующую цветовую гамму и ироничный контент. На сайте появились такие элементы, как «ядерная кнопка», цитаты персонажей и даже скрытая пасхалка, активируемая знаменитым кодом Конами. Ведущий отмечает высокое качество графики, которое превосходит стандартные шаблоны других популярных нейросетей. Этот тест подтвердил способность модели глубоко понимать контекст и специфические культурные отсылки.

Тест 3: Работа Роя агентов и сбор данных

В этом разделе демонстрируется работа функции Agent Swarm через веб-интерфейс Kimi для сбора аналитики об ИИ-моделях. Интерфейс визуализирует работу каждого агента с помощью анимированных бейджиков, показывая посещаемые сайты и написанный код в реальном времени. Через 10 минут система сформировала PDF-отчет со статистикой использования ИИ, рыночными долями и данными о контекстных окнах моделей вроде Llama 4. Хотя визуальный дизайн PDF-документа оказался слабым, объем собранной информации был значительным. Автор отмечает, что геймифицированный интерфейс Moonshot AI делает процесс взаимодействия с нейросетью более приятным.

Провал с актуальностью данных и вердикт

В финальной части видео автор обнаруживает критическую ошибку: модель предоставила отчет, основанный на данных января 2025 года вместо текущего 2026-го. Несмотря на прямое указание в промпте, Kimi не смогла использовать самые свежие данные, что вызвало сильное разочарование ведущего. Тем не менее, Андрис подводит итог, называя K2.5 отличным инструментом для веб-разработки и дизайна, способным конкурировать с Claude Code. Он рекомендует модель для создания визуально безупречных сайтов, достойных наград, но советует проверять фактическую точность информации. Видео завершается призывом подписываться на канал и анонсом разбора аналогичных функций в других системах.

Community Posts

View all posts