00:00:00Многие считают, что для запуска мощной визуально-языковой модели
00:00:05требуется огромная видеокарта или платная подписка на облачный сервис.
00:00:08Однако Liquid AI недавно выпустили демо-версию своей новейшей модели LFM,
00:00:14которая работает полностью внутри веб-браузера.
00:00:16Используя WebGPU и среду ONNX Runtime, эта модель может обрабатывать изображения и видео локально.
00:00:23Это значит, что ваши данные не покидают компьютер, и вам даже не нужно интернет-соединение,
00:00:28как только модель будет сохранена в кэше вашего устройства.
00:00:30Честно говоря, я думаю, что это невероятно круто, поэтому в этом видео мы взглянем на
00:00:34эту модель, оценим её производительность, проведем небольшой тест и выясним, так ли она мощна,
00:00:40как заявляют разработчики.
00:00:41Будет очень интересно, так что давайте приступим.
00:00:48Итак, LFM расшифровывается как Liquid Foundation Model (Жидкая Базовая Модель).
00:00:52И вместо того, чтобы полагаться только на архитектуру трансформеров, Liquid AI использует гибридный дизайн.
00:00:58Она сочетает в себе сверточные блоки с технологией под названием Grouped Query Attention.
00:01:03Модель на 1,6 миллиарда параметров специально настроена для работы с изображениями и текстом.
00:01:09Она обучена на огромном наборе данных в 28 триллионов токенов, что позволяет ей выдавать результаты
00:01:15выше своей весовой категории.
00:01:16В бенчмарках она часто соответствует по производительности моделям вдвое большего размера,
00:01:21при этом работая значительно быстрее на мобильных устройствах, таких как ноутбуки и телефоны.
00:01:26Теперь вам может быть интересно: как им удалось уместить такой уровень интеллекта в объем,
00:01:31который потребляет менее одного гигабайта оперативной памяти?
00:01:34В отличие от других крошечных моделей, использующих урезанные версии гигантских облачных систем,
00:01:40Liquid AI придерживается философии "эффективность через проектирование".
00:01:44Слово "Liquid" (Жидкая) в названии относится к их архитектуре LIV — линейной архитектуре с переменным входом.
00:01:51В то время как у традиционных трансформеров объем памяти растет по мере общения с ними,
00:01:56модель Liquid использует гибридную систему адаптивных сверточных блоков.
00:02:01Эти блоки, по сути, работают как умные фильтры, обрабатывающие только самую релевантную локальную
00:02:07информацию, эффективно сжимая данные по мере их прохождения через модель.
00:02:11Это позволяет LFM поддерживать огромное окно контекста в 32 000 токенов без привычного экспоненциального
00:02:18замедления или скачков потребления памяти, которые наблюдаются у обычных трансформеров.
00:02:23И есть специфические технические детали, которые выделяют эту модель среди остальных.
00:02:28Прежде всего, у неё есть нативное разрешение.
00:02:30Она обрабатывает изображения размером до 512 на 512 пикселей без искажений или апскейлинга.
00:02:37Для более крупных изображений используется стратегия тайлинга, которая разбивает картинку на фрагменты,
00:02:42сохраняя при этом уменьшенную копию для общего контекста.
00:02:46Во-вторых, она очень эффективна.
00:02:47Благодаря гибридной архитектуре она занимает очень мало места в памяти, часто работая
00:02:52в пределах одного гигабайта ОЗУ.
00:02:54Но самым впечатляющим мне кажется интеграция с WebGPU.
00:02:58Демо на Hugging Face показывает, как её можно использовать для описания происходящего в веб-камере в реальном времени.
00:03:04Так что давайте испытаем её сами и посмотрим на результаты.
00:03:08Хорошо, давайте посмотрим, как эта штука работает на деле.
00:03:11Думаю, нам нужно выбрать, какую визуальную модель мы хотим загрузить.
00:03:15Давайте попробуем самую мощную с точностью FP16.
00:03:18Загружаем её.
00:03:20Загрузка этой модели занимает приличное количество времени.
00:03:23И всё это скачивается прямо на ваше устройство.
00:03:25Так что при следующем открытии приложения всё уже будет в кэше.
00:03:28Готово.
00:03:29Итак, мы скачали квантованную модель FP16.
00:03:34Теперь нажмем "Start" и посмотрим, как она работает.
00:03:36О, посмотрите-ка.
00:03:38Бородатый мужчина в худи смотрит в камеру.
00:03:40Окей, она способна определять, какие объекты присутствуют на видео,
00:03:45и это довольно круто.
00:03:46Мы можем использовать её для распознавания объектов.
00:03:50Давайте проверим, распознает ли она телефон.
00:03:51Да, она видит, что я держу iPhone в черном чехле.
00:03:57Это впечатляет.
00:03:58Только посмотрите.
00:04:00Она делает это действительно в реальном времени.
00:04:02Я поражен.
00:04:04А если я сделаю вот так?
00:04:05Узнает ли она знак "мир" (peace sign) в руке?
00:04:10Это очень здорово.
00:04:12А что если показать большой палец вверх?
00:04:13Да, пишет: "thumbs up".
00:04:15Модель распознает всё, что я делаю, мгновенно.
00:04:18Посмотрим, определит ли она мой микрофон.
00:04:21О, она даже заметила надпись "Rode" на нем.
00:04:24Ничего себе, она может даже читать текст с корпуса, это просто супер.
00:04:29Тот факт, что мы получаем описания в реальном времени, доказывает,
00:04:33насколько мощна эта модель.
00:04:35Попробую-ка я отключить интернет и проверить, будет ли она работать.
00:04:40Итак, я выключил Wi-Fi, и да — мы всё еще получаем результат,
00:04:50и это потрясающе.
00:04:51Вот и всё, друзья.
00:04:52Это была краткая презентация новейшей Liquid Foundation Model.
00:04:56Поразительно, как далеко продвинулись ИИ-модели в плане квантования
00:05:01и возможности запуска на мобильных устройствах, вроде моего ноутбука.
00:05:05Всего пару лет назад мы бы не поверили, что такое станет реальностью,
00:05:10а теперь запуск подобных моделей через WebGPU становится обычным делом.
00:05:14А что вы думаете о Liquid Foundation Model?
00:05:16Пробовали её?
00:05:17Будете использовать?
00:05:18Для каких задач такая модель подходит лучше всего?
00:05:21Поделитесь своими мыслями в комментариях под видео.
00:05:23И, народ, если вам нравятся такие технические разборы, дайте мне знать,
00:05:27поставив лайк, и не забудьте подписаться на наш канал.
00:05:32С вами был Андрис из Better Stack, увидимся в следующих видео.