Configurações do llama-swap para eliminar atrasos na troca de modelos em GPUs de até 12GB

Calculando o idle_timeout manualmente por capacidade de VRAM

Para usuários de GPUs intermediárias, a VRAM é sempre um recurso escasso. Ao usar modelos múltiplos em uma RTX 3060 ou 4060, os limites são atingidos rapidamente. Um modelo Llama 3.1 8B após a quantização de 4 bits (Q4_K_M) consome sozinho 5.2GB apenas em pesos. Subtraindo o consumo padrão de 1GB do Windows, restam pouco mais de 2GB. Se você tentar carregar mais modelos de forma imprudente, ocorrerá o "spillover", que utiliza a RAM do sistema. Ver a velocidade cair de 15 tokens por segundo para 1 token faz você querer matar o processo imediatamente.

Para evitar esse gargalo, você deve definir tempos de expulsão (idle_timeout) diferentes para cada modelo no config.yaml.

8GB VRAM (RTX 3070/4060): Defina o globalTTL para 300 (5 minutos). Adicione --ctx-size 8192 após o comando de execução do modelo (cmd) para limitar o cache KV e evitar que ele consuma toda a memória restante, prevenindo o OOM (Out of Memory).
12GB VRAM (RTX 3060 12G): Mantenha o Phi-3 Mini, que é usado com frequência, residente com ttl: 0, e configure o pesado Qwen 2.5 Coder 7B com ttl: 60 para que a VRAM seja liberada assim que terminar a codificação.

Com essa configuração, você economiza pelo menos 20 minutos por dia que seriam desperdiçados ligando e desligando modelos manualmente.

Configuração YAML para unir múltiplos motores de inferência em uma única porta

Ao tentar mudar do Ollama para o llama.cpp, as portas se sobrepõem e surgem conflitos pelo controle dos recursos. O llama-swap atua como um guarda de trânsito para organizar essa bagunça. Este proxy leve escrito em Go, ao receber uma chamada para um novo modelo, envia um sinal SIGTERM ao processo existente para encerrá-lo com segurança e carregar o novo modelo.

A forma de escrever o YAML para uma integração estável é clara:

Defina previamente o caminho do executável e flags comuns como --flash-attn e --mlock na seção macros. Isso torna o arquivo de configuração muito mais limpo.
Sob o item models, utilize a macro ${PORT} para especificar o caminho de execução de cada modelo.
Para serviços Ollama que já estão em execução, basta conectar o caminho escrevendo http://localhost:11434 no campo proxy.

Como resultado, seu aplicativo precisa olhar apenas para um único endereço: http://localhost:8080/v1. Não importa se o motor ou o modelo mudam internamente, você não precisará mais se preocupar com isso.

Conectando Cursor e Obsidian ao endpoint local para economizar taxas de assinatura

O verdadeiro motivo para usar LLMs locais é economizar dinheiro enquanto protege sua privacidade. O Cursor é pago por padrão, mas você pode contornar isso usando a configuração OpenAI Compatible com o llama-swap local. Isso significa economizar 20 dólares por mês, ou 240 dólares por ano.

A conexão é simples:

Em Cursor Settings > Models, ative o OpenAI API Compatible e insira http://localhost:8080/v1 na Base URL.
Para a API Key, você pode inserir qualquer caractere. Se você definir um apelido (Alias) como gpt-4o em vez do nome real do modelo na configuração do llama-swap, o Cursor pensará que é o modelo correspondente e funcionará imediatamente.
No plugin Copilot do Obsidian, ajuste o modelo de embedding para nomic-embed-text e fixe-o com ttl: 0 no llama-swap.

Mesmo que você mude da organização de notas para a janela de codificação, o modelo será trocado automaticamente em segundo plano. Como todos os dados permanecem no seu computador, não há desconforto com a privacidade.

Registro de serviço em segundo plano usando NSSM

Abrir o terminal toda vez para ligar o proxy é muito incômodo. Para que a IA seja uma ferramenta eficiente, ela deve rodar silenciosamente como o ar. Para usuários de Windows, registrar o llama-swap como um serviço usando o NSSM (Non-Sucking Service Manager) é a solução mais limpa.

O método é o seguinte:

Instale via terminal com winget install NSSM e digite nssm install LlamaSwap com privilégios de administrador.
Quando a janela de configuração aparecer, insira o caminho do llama-swap.exe em Path e --config config.yaml -watch-config em Arguments.
Na aba Process, aumente a prioridade para High. Isso garante que a velocidade de inferência não seja prejudicada por outras tarefas.

Agora, assim que você ligar o computador, o endpoint da API estará ativo. Graças à opção -watch-config, qualquer alteração salva no arquivo YAML será aplicada imediatamente sem a necessidade de reiniciar o serviço.

Prevenindo crashes com Flash Attention e limites de contexto

Interrupções ou desligamentos durante a troca de modelos geralmente são falhas no design da memória. Os motores de inferência tentam reservar antecipadamente a memória correspondente à janela de contexto ao serem iniciados. Se você não controlar isso, encontrará erros inesperados.

Aqui estão três mecanismos para garantir a estabilidade:

Especifique o --ctx-size como algo em torno de 8192 no campo cmd. Se deixá-lo ilimitado, a VRAM irá estourar.
Modelos grandes demoram mais para carregar. Defina o healthCheckTimeout generosamente, por volta de 300 segundos, para que o proxy não interrompa a conexão durante o carregamento.
O uso de --flash-attn nas opções de execução é essencial. Com ele, você consegue usar um contexto 20% maior na mesma quantidade de VRAM.

Para modelos 8B, a troca termina em cerca de 5 segundos. Este é um nível que não interrompe o fluxo de trabalho. Mesmo sem uma workstation de alto desempenho, ajustando alguns valores de configuração, você pode desfrutar de um ambiente de IA confortável em sua mesa.

Configurações do llama-swap para eliminar atrasos na troca de modelos em GPUs de até 12GB

Calculando o idle_timeout manualmente por capacidade de VRAM

Para evitar esse gargalo, você deve definir tempos de expulsão (idle_timeout) diferentes para cada modelo no config.yaml.

8GB VRAM (RTX 3070/4060): Defina o globalTTL para 300 (5 minutos). Adicione --ctx-size 8192 após o comando de execução do modelo (cmd) para limitar o cache KV e evitar que ele consuma toda a memória restante, prevenindo o OOM (Out of Memory).
12GB VRAM (RTX 3060 12G): Mantenha o Phi-3 Mini, que é usado com frequência, residente com ttl: 0, e configure o pesado Qwen 2.5 Coder 7B com ttl: 60 para que a VRAM seja liberada assim que terminar a codificação.

Com essa configuração, você economiza pelo menos 20 minutos por dia que seriam desperdiçados ligando e desligando modelos manualmente.

Configuração YAML para unir múltiplos motores de inferência em uma única porta

A forma de escrever o YAML para uma integração estável é clara:

Defina previamente o caminho do executável e flags comuns como --flash-attn e --mlock na seção macros. Isso torna o arquivo de configuração muito mais limpo.
Sob o item models, utilize a macro ${PORT} para especificar o caminho de execução de cada modelo.
Para serviços Ollama que já estão em execução, basta conectar o caminho escrevendo http://localhost:11434 no campo proxy.

Conectando Cursor e Obsidian ao endpoint local para economizar taxas de assinatura

A conexão é simples:

Em Cursor Settings > Models, ative o OpenAI API Compatible e insira http://localhost:8080/v1 na Base URL.
Para a API Key, você pode inserir qualquer caractere. Se você definir um apelido (Alias) como gpt-4o em vez do nome real do modelo na configuração do llama-swap, o Cursor pensará que é o modelo correspondente e funcionará imediatamente.
No plugin Copilot do Obsidian, ajuste o modelo de embedding para nomic-embed-text e fixe-o com ttl: 0 no llama-swap.

Registro de serviço em segundo plano usando NSSM

O método é o seguinte:

Instale via terminal com winget install NSSM e digite nssm install LlamaSwap com privilégios de administrador.
Quando a janela de configuração aparecer, insira o caminho do llama-swap.exe em Path e --config config.yaml -watch-config em Arguments.
Na aba Process, aumente a prioridade para High. Isso garante que a velocidade de inferência não seja prejudicada por outras tarefas.

Prevenindo crashes com Flash Attention e limites de contexto

Aqui estão três mecanismos para garantir a estabilidade:

Especifique o --ctx-size como algo em torno de 8192 no campo cmd. Se deixá-lo ilimitado, a VRAM irá estourar.
Modelos grandes demoram mais para carregar. Defina o healthCheckTimeout generosamente, por volta de 300 segundos, para que o proxy não interrompa a conexão durante o carregamento.
O uso de --flash-attn nas opções de execução é essencial. Com ele, você consegue usar um contexto 20% maior na mesma quantidade de VRAM.

Configurações do llama-swap para eliminar atrasos na troca de modelos em GPUs de até 12GB

Related Video

Llama-Swap: Isso resolve o problema mais irritante de LLMs locais

Configurações do llama-swap para eliminar atrasos na troca de modelos em GPUs de até 12GB

Calculando o idle_timeout manualmente por capacidade de VRAM

Configuração YAML para unir múltiplos motores de inferência em uma única porta

Conectando Cursor e Obsidian ao endpoint local para economizar taxas de assinatura

Registro de serviço em segundo plano usando NSSM

Prevenindo crashes com Flash Attention e limites de contexto

Comments (0)

Configurações do llama-swap para eliminar atrasos na troca de modelos em GPUs de até 12GB

Calculando o idle_timeout manualmente por capacidade de VRAM

Configuração YAML para unir múltiplos motores de inferência em uma única porta

Conectando Cursor e Obsidian ao endpoint local para economizar taxas de assinatura

Registro de serviço em segundo plano usando NSSM

Prevenindo crashes com Flash Attention e limites de contexto