Настройки llama-swap для устранения задержек при переключении моделей на GPU с объемом памяти менее 12 ГБ

Прямой расчет idle_timeout в зависимости от объема VRAM

Для пользователей GPU среднего сегмента видеопамять (VRAM) — это всегда дефицитный ресурс. При использовании RTX 3060 или 4060 и одновременном запуске нескольких моделей лимиты достигаются мгновенно. Модель Llama 3.1 8B после 4-битного квантования (Q4_K_M) занимает 5,2 ГБ только на веса. Если вычесть около 1 ГБ, который забирает Windows, остается чуть более 2 ГБ. Попытка загрузить дополнительные модели в таких условиях вызывает «спилловер» — использование системной RAM. Когда скорость падает с 15 токенов в секунду до 1, возникает непреодолимое желание немедленно убить процесс.

Чтобы избежать таких узких мест, необходимо в файле config.yaml задать индивидуальное время выгрузки idle_timeout для каждой модели.

8 ГБ VRAM (RTX 3070/4060): установите globalTTL на 300 (5 минут). К команде запуска модели (cmd) обязательно добавьте --ctx-size 8192, чтобы KV-кеш не поглотил всю оставшуюся память и не вызвал ошибку OOM (Out of Memory).
12 ГБ VRAM (RTX 3060 12G): для часто используемой Phi-3 Mini установите ttl: 0 (постоянно в памяти), а для тяжелой Qwen 2.5 Coder 7B задайте ttl: 60, чтобы она освобождала VRAM сразу после завершения работы с кодом.

Такая настройка экономит минимум 20 минут в день, которые обычно тратятся на ручное включение и выключение моделей.

Конфигурация YAML для объединения нескольких движков на одном порту

При переходе с Ollama на llama.cpp часто возникают конфликты портов и борьба за ресурсы. llama-swap выступает в роли «дорожного полицейского», наводящего порядок в этом хаосе. Этот легкий прокси-сервер, написанный на языке Go, при поступлении вызова новой модели посылает сигнал SIGTERM существующему процессу для его безопасного завершения и загрузки новой модели.

Правила написания YAML для стабильной интеграции просты:

В секции macros заранее определите пути к исполняемым файлам и общие флаги, такие как --flash-attn и --mlock. Это сделает файл конфигурации гораздо чище.
Используйте макрос ${PORT} в разделе models для указания путей запуска каждой модели.
Для уже запущенного сервиса Ollama в поле proxy укажите http://localhost:11434, чтобы просто перенаправить путь.

В результате ваше приложение будет обращаться только по одному адресу http://localhost:8080/v1. Вам больше не нужно беспокоиться о том, какой движок или модель работают внутри.

Подключение Cursor и Obsidian к локальной конечной точке для экономии на подписках

Настоящая причина использования локальных LLM — это экономия денег при сохранении конфиденциальности. Cursor платный по умолчанию, но при использовании настроек OpenAI Compatible его можно перенаправить на локальный llama-swap. Это экономит 20 долларов в месяц или 240 долларов в год.

Способ подключения прост:

В Cursor зайдите в Settings > Models, включите OpenAI API Compatible и в поле Base URL введите http://localhost:8080/v1.
В качестве API Key можно ввести любые символы. Если в настройках llama-swap вы создадите псевдоним (Alias) gpt-4o для вашей реальной модели, Cursor примет её за «свою» и сразу начнет работу.
В плагине Obsidian Copilot также установите модель эмбеддингов на nomic-embed-text и зафиксируйте её в llama-swap с ttl: 0.

Даже если вы переключитесь с ведения заметок на окно с кодом, модели в фоновом режиме поменяются сами. Все данные остаются внутри вашего компьютера, что избавляет от любых опасений.

Регистрация фоновой службы с помощью NSSM

Каждый раз открывать терминал для запуска прокси — это утомительно. Чтобы AI стал настоящим инструментом, он должен работать тихо, как воздух. Для пользователей Windows самым чистым решением будет регистрация llama-swap как службы через NSSM (Non-Sucking Service Manager).

Шаги следующие:

Установите его через терминал командой winget install NSSM и запустите nssm install LlamaSwap от имени администратора.
В появившемся окне настроек в поле Path укажите путь к llama-swap.exe, а в Arguments — --config config.yaml -watch-config.
На вкладке Process поднимите приоритет до High. Это гарантирует, что скорость инференса не упадет из-за других задач.

Теперь API-эндпоинт будет доступен сразу после включения компьютера. А благодаря опции -watch-config, любые изменения в YAML-файле будут применяться мгновенно без перезапуска службы.

Предотвращение сбоев с помощью Flash Attention и ограничения контекста

Прерывание диалога или вылет модели при смене — это чаще всего ошибка проектирования памяти. Движок инференса при запуске пытается заранее зарезервировать память под размер контекстного окна. Если это не контролировать, вы столкнетесь с внезапными ошибками.

Три механизма обеспечения стабильности:

В поле cmd явно укажите --ctx-size около 8192. Если оставить значение без ограничений, VRAM может переполниться.
Если модель большая, время загрузки увеличивается. Установите healthCheckTimeout около 300 секунд, чтобы прокси не разрывал соединение во время загрузки.
Флаг --flash-attn в опциях запуска обязателен. Его использование позволяет расширить контекст на 20% при том же объеме VRAM.

Для моделей 8B смена занимает около 5 секунд. Этого уровня достаточно, чтобы не прерывать рабочий процесс. Даже без мощной рабочей станции, правильно настроив несколько параметров, вы сможете наслаждаться комфортной AI-средой прямо на своем рабочем столе.

Настройки llama-swap для устранения задержек при переключении моделей на GPU с объемом памяти менее 12 ГБ

Прямой расчет idle_timeout в зависимости от объема VRAM

8 ГБ VRAM (RTX 3070/4060): установите globalTTL на 300 (5 минут). К команде запуска модели (cmd) обязательно добавьте --ctx-size 8192, чтобы KV-кеш не поглотил всю оставшуюся память и не вызвал ошибку OOM (Out of Memory).
12 ГБ VRAM (RTX 3060 12G): для часто используемой Phi-3 Mini установите ttl: 0 (постоянно в памяти), а для тяжелой Qwen 2.5 Coder 7B задайте ttl: 60, чтобы она освобождала VRAM сразу после завершения работы с кодом.

Конфигурация YAML для объединения нескольких движков на одном порту

Правила написания YAML для стабильной интеграции просты:

В секции macros заранее определите пути к исполняемым файлам и общие флаги, такие как --flash-attn и --mlock. Это сделает файл конфигурации гораздо чище.
Используйте макрос ${PORT} в разделе models для указания путей запуска каждой модели.
Для уже запущенного сервиса Ollama в поле proxy укажите http://localhost:11434, чтобы просто перенаправить путь.

Подключение Cursor и Obsidian к локальной конечной точке для экономии на подписках

Способ подключения прост:

В Cursor зайдите в Settings > Models, включите OpenAI API Compatible и в поле Base URL введите http://localhost:8080/v1.
В качестве API Key можно ввести любые символы. Если в настройках llama-swap вы создадите псевдоним (Alias) gpt-4o для вашей реальной модели, Cursor примет её за «свою» и сразу начнет работу.
В плагине Obsidian Copilot также установите модель эмбеддингов на nomic-embed-text и зафиксируйте её в llama-swap с ttl: 0.

Регистрация фоновой службы с помощью NSSM

Шаги следующие:

Установите его через терминал командой winget install NSSM и запустите nssm install LlamaSwap от имени администратора.
В появившемся окне настроек в поле Path укажите путь к llama-swap.exe, а в Arguments — --config config.yaml -watch-config.
На вкладке Process поднимите приоритет до High. Это гарантирует, что скорость инференса не упадет из-за других задач.

Предотвращение сбоев с помощью Flash Attention и ограничения контекста

Три механизма обеспечения стабильности:

В поле cmd явно укажите --ctx-size около 8192. Если оставить значение без ограничений, VRAM может переполниться.
Если модель большая, время загрузки увеличивается. Установите healthCheckTimeout около 300 секунд, чтобы прокси не разрывал соединение во время загрузки.
Флаг --flash-attn в опциях запуска обязателен. Его использование позволяет расширить контекст на 20% при том же объеме VRAM.

Настройки llama-swap для устранения задержек при переключении моделей на GPU с объемом памяти менее 12 ГБ

Related Video

Llama-Swap: Решение самой раздражающей проблемы локальных LLM

Настройки llama-swap для устранения задержек при переключении моделей на GPU с объемом памяти менее 12 ГБ

Прямой расчет idle_timeout в зависимости от объема VRAM

Конфигурация YAML для объединения нескольких движков на одном порту

Подключение Cursor и Obsidian к локальной конечной точке для экономии на подписках

Регистрация фоновой службы с помощью NSSM

Предотвращение сбоев с помощью Flash Attention и ограничения контекста

Comments (0)

Настройки llama-swap для устранения задержек при переключении моделей на GPU с объемом памяти менее 12 ГБ

Прямой расчет idle_timeout в зависимости от объема VRAM

Конфигурация YAML для объединения нескольких движков на одном порту

Подключение Cursor и Obsidian к локальной конечной точке для экономии на подписках

Регистрация фоновой службы с помощью NSSM

Предотвращение сбоев с помощью Flash Attention и ограничения контекста