Самая БЫСТРАЯ визуальная модель для вашего ноутбука (Liquid AI LFM 2.5)

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00Многие считают, что для запуска мощной визуально-языковой модели
00:00:05требуется огромная видеокарта или платная подписка на облачный сервис.
00:00:08Однако Liquid AI недавно выпустили демо-версию своей новейшей модели LFM,
00:00:14которая работает полностью внутри веб-браузера.
00:00:16Используя WebGPU и среду ONNX Runtime, эта модель может обрабатывать изображения и видео локально.
00:00:23Это значит, что ваши данные не покидают компьютер, и вам даже не нужно интернет-соединение,
00:00:28как только модель будет сохранена в кэше вашего устройства.
00:00:30Честно говоря, я думаю, что это невероятно круто, поэтому в этом видео мы взглянем на
00:00:34эту модель, оценим её производительность, проведем небольшой тест и выясним, так ли она мощна,
00:00:40как заявляют разработчики.
00:00:41Будет очень интересно, так что давайте приступим.
00:00:48Итак, LFM расшифровывается как Liquid Foundation Model (Жидкая Базовая Модель).
00:00:52И вместо того, чтобы полагаться только на архитектуру трансформеров, Liquid AI использует гибридный дизайн.
00:00:58Она сочетает в себе сверточные блоки с технологией под названием Grouped Query Attention.
00:01:03Модель на 1,6 миллиарда параметров специально настроена для работы с изображениями и текстом.
00:01:09Она обучена на огромном наборе данных в 28 триллионов токенов, что позволяет ей выдавать результаты
00:01:15выше своей весовой категории.
00:01:16В бенчмарках она часто соответствует по производительности моделям вдвое большего размера,
00:01:21при этом работая значительно быстрее на мобильных устройствах, таких как ноутбуки и телефоны.
00:01:26Теперь вам может быть интересно: как им удалось уместить такой уровень интеллекта в объем,
00:01:31который потребляет менее одного гигабайта оперативной памяти?
00:01:34В отличие от других крошечных моделей, использующих урезанные версии гигантских облачных систем,
00:01:40Liquid AI придерживается философии "эффективность через проектирование".
00:01:44Слово "Liquid" (Жидкая) в названии относится к их архитектуре LIV — линейной архитектуре с переменным входом.
00:01:51В то время как у традиционных трансформеров объем памяти растет по мере общения с ними,
00:01:56модель Liquid использует гибридную систему адаптивных сверточных блоков.
00:02:01Эти блоки, по сути, работают как умные фильтры, обрабатывающие только самую релевантную локальную
00:02:07информацию, эффективно сжимая данные по мере их прохождения через модель.
00:02:11Это позволяет LFM поддерживать огромное окно контекста в 32 000 токенов без привычного экспоненциального
00:02:18замедления или скачков потребления памяти, которые наблюдаются у обычных трансформеров.
00:02:23И есть специфические технические детали, которые выделяют эту модель среди остальных.
00:02:28Прежде всего, у неё есть нативное разрешение.
00:02:30Она обрабатывает изображения размером до 512 на 512 пикселей без искажений или апскейлинга.
00:02:37Для более крупных изображений используется стратегия тайлинга, которая разбивает картинку на фрагменты,
00:02:42сохраняя при этом уменьшенную копию для общего контекста.
00:02:46Во-вторых, она очень эффективна.
00:02:47Благодаря гибридной архитектуре она занимает очень мало места в памяти, часто работая
00:02:52в пределах одного гигабайта ОЗУ.
00:02:54Но самым впечатляющим мне кажется интеграция с WebGPU.
00:02:58Демо на Hugging Face показывает, как её можно использовать для описания происходящего в веб-камере в реальном времени.
00:03:04Так что давайте испытаем её сами и посмотрим на результаты.
00:03:08Хорошо, давайте посмотрим, как эта штука работает на деле.
00:03:11Думаю, нам нужно выбрать, какую визуальную модель мы хотим загрузить.
00:03:15Давайте попробуем самую мощную с точностью FP16.
00:03:18Загружаем её.
00:03:20Загрузка этой модели занимает приличное количество времени.
00:03:23И всё это скачивается прямо на ваше устройство.
00:03:25Так что при следующем открытии приложения всё уже будет в кэше.
00:03:28Готово.
00:03:29Итак, мы скачали квантованную модель FP16.
00:03:34Теперь нажмем "Start" и посмотрим, как она работает.
00:03:36О, посмотрите-ка.
00:03:38Бородатый мужчина в худи смотрит в камеру.
00:03:40Окей, она способна определять, какие объекты присутствуют на видео,
00:03:45и это довольно круто.
00:03:46Мы можем использовать её для распознавания объектов.
00:03:50Давайте проверим, распознает ли она телефон.
00:03:51Да, она видит, что я держу iPhone в черном чехле.
00:03:57Это впечатляет.
00:03:58Только посмотрите.
00:04:00Она делает это действительно в реальном времени.
00:04:02Я поражен.
00:04:04А если я сделаю вот так?
00:04:05Узнает ли она знак "мир" (peace sign) в руке?
00:04:10Это очень здорово.
00:04:12А что если показать большой палец вверх?
00:04:13Да, пишет: "thumbs up".
00:04:15Модель распознает всё, что я делаю, мгновенно.
00:04:18Посмотрим, определит ли она мой микрофон.
00:04:21О, она даже заметила надпись "Rode" на нем.
00:04:24Ничего себе, она может даже читать текст с корпуса, это просто супер.
00:04:29Тот факт, что мы получаем описания в реальном времени, доказывает,
00:04:33насколько мощна эта модель.
00:04:35Попробую-ка я отключить интернет и проверить, будет ли она работать.
00:04:40Итак, я выключил Wi-Fi, и да — мы всё еще получаем результат,
00:04:50и это потрясающе.
00:04:51Вот и всё, друзья.
00:04:52Это была краткая презентация новейшей Liquid Foundation Model.
00:04:56Поразительно, как далеко продвинулись ИИ-модели в плане квантования
00:05:01и возможности запуска на мобильных устройствах, вроде моего ноутбука.
00:05:05Всего пару лет назад мы бы не поверили, что такое станет реальностью,
00:05:10а теперь запуск подобных моделей через WebGPU становится обычным делом.
00:05:14А что вы думаете о Liquid Foundation Model?
00:05:16Пробовали её?
00:05:17Будете использовать?
00:05:18Для каких задач такая модель подходит лучше всего?
00:05:21Поделитесь своими мыслями в комментариях под видео.
00:05:23И, народ, если вам нравятся такие технические разборы, дайте мне знать,
00:05:27поставив лайк, и не забудьте подписаться на наш канал.
00:05:32С вами был Андрис из Better Stack, увидимся в следующих видео.

Key Takeaway

Liquid Foundation Model 2.5 совершает прорыв в локальных вычислениях, предлагая высокопроизводительный визуальный ИИ, который работает в браузере с минимальным потреблением памяти и без облачных сервисов.

Highlights

Liquid AI представила LFM 2.5 — инновационную визуально-языковую модель, работающую локально в браузере.

Модель использует гибридную архитектуру LIV (линейная архитектура с переменным входом), заменяющую традиционные трансформеры.

LFM 2.5 обладает параметрами в 1,6 миллиарда, но по производительности сопоставима с моделями вдвое большего размера.

Благодаря WebGPU и ONNX Runtime, данные пользователя не покидают устройство, обеспечивая полную конфиденциальность.

Архитектура поддерживает контекстное окно в 32 000 токенов без экспоненциального замедления системы.

Модель эффективно работает в реальном времени даже при отключенном интернет-соединении.

LFM способна распознавать объекты, жесты и даже читать текст с физических предметов через веб-камеру.

Timeline

Введение в локальные визуальные модели

Автор развенчивает миф о том, что для запуска мощных визуально-языковых моделей обязательно требуются дорогие видеокарты или платные облака. Представляется новая демо-версия модели LFM от Liquid AI, которая функционирует полностью внутри веб-браузера. Основной упор делается на использование технологий WebGPU и среды ONNX Runtime для локальной обработки изображений и видео. Это решение гарантирует, что конфиденциальные данные пользователя остаются на его компьютере без необходимости выхода в сеть. Вводная часть подчеркивает невероятную доступность и потенциал этой технологии для обычных пользователей ноутбуков.

Архитектура Liquid Foundation Model

Разбирается техническая суть LFM, которая расшифровывается как Liquid Foundation Model. В отличие от стандартных трансформеров, модель использует гибридный дизайн, сочетающий сверточные блоки и технологию Grouped Query Attention. Несмотря на скромные 1,6 миллиарда параметров, она обучена на колоссальном датасете в 28 триллионов токенов. Это позволяет модели демонстрировать результаты, превосходящие её номинальную категорию, и конкурировать с более крупными ИИ-системами. Высокая эффективность делает её идеальной для работы на мобильных устройствах и ноутбуках с ограниченными ресурсами.

Технология LIV и управление памятью

Спикер объясняет, как разработчикам удалось добиться работы сложного интеллекта при потреблении менее одного гигабайта оперативной памяти. Секрет кроется в философии "эффективность через проектирование" и уникальной архитектуре LIV (линейная архитектура с переменным входом). В этой системе адаптивные сверточные блоки действуют как умные фильтры, обрабатывая только релевантную локальную информацию и сжимая данные. Такой подход позволяет поддерживать контекстное окно до 32 000 токенов без характерных для трансформеров скачков потребления памяти. Это критически важное преимущество для стабильной работы длинных сессий на пользовательских устройствах.

Работа с изображениями и интеграция WebGPU

Рассматриваются специфические технические детали обработки визуального контента в модели LFM. Она поддерживает нативное разрешение 512 на 512 пикселей, что исключает искажения при анализе стандартных изображений. Для более масштабных файлов применяется интеллектуальная стратегия тайлинга, сохраняющая общий контекст через уменьшенную копию. Особое внимание уделяется интеграции с WebGPU, что наглядно демонстрируется на примере платформы Hugging Face. Автор подчеркивает, что такая интеграция открывает путь к повсеместному использованию ИИ в реальном времени через обычные веб-интерфейсы.

Практический тест и распознавание объектов

Начинается практическая демонстрация работы квантованной модели FP16, загруженной непосредственно на устройство автора. В ходе теста модель мгновенно идентифицирует бородатого мужчину в худи и распознает такие объекты, как iPhone в черном чехле. Удивительная точность проявляется в распознавании жестов, включая знак мира и поднятый вверх большой палец. Самым впечатляющим моментом становится способность модели прочитать мелкий текст "Rode" на корпусе микрофона. Эти примеры доказывают, что LFM способна на глубокий и быстрый анализ визуальной сцены в динамике.

Автономный режим и заключительные мысли

В финальной части автор проводит критический эксперимент, полностью отключая Wi-Fi во время работы модели. LFM продолжает успешно выдавать результаты, подтверждая свою полную независимость от интернет-соединения и облачных серверов. Спикер выражает восхищение тем, как далеко продвинулись технологии квантования за последние пару лет. В завершение зрителям предлагается обсудить возможные сценарии применения такой модели в комментариях. Видео заканчивается призывом подписываться на канал Better Stack для получения новых технических разборов.

Community Posts

View all posts