Configuraciones de llama-swap para eliminar el retraso en el cambio de modelos en GPUs de 12GB o menos

Cálculo directo de idle_timeout según la capacidad de VRAM

Para los usuarios de GPUs de gama media, la VRAM siempre es un recurso escaso. Al usar modelos múltiples en una RTX 3060 o 4060, es fácil alcanzar el límite rápidamente. Un modelo Llama 3.1 8B con cuantización de 4 bits (Q4_K_M) consume por sí solo 5.2GB en pesos. Si restamos el consumo base de 1GB de Windows, el espacio restante es de apenas 2GB. Si intentamos cargar más modelos a la fuerza, se produce el "spillover", utilizando la RAM del sistema. Ver cómo la velocidad cae de 15 tokens por segundo a tan solo 1 token dan ganas de matar el proceso de inmediato.

Para evitar este cuello de botella, es necesario establecer diferentes tiempos de expulsión (idle_timeout) por modelo en el archivo config.yaml.

8GB VRAM (RTX 3070/4060): Establezca el globalTTL en 300 (5 minutos). Debe añadir --ctx-size 8192 después del comando de ejecución del modelo (cmd) para limitar el caché KV y evitar que consuma toda la memoria restante, previniendo así errores de OOM (Out of Memory).
12GB VRAM (RTX 3060 12G): Mantenga el modelo Phi-3 Mini, que se usa con frecuencia, como residente con ttl: 0, y configure el pesado Qwen 2.5 Coder 7B con ttl: 60 para que libere la VRAM inmediatamente después de terminar de programar.

Con esta configuración, ahorrará al menos 20 minutos al día que antes perdía encendiendo y apagando modelos manualmente.

Configuración YAML para unir múltiples motores de inferencia en un solo puerto

Al intentar pasar de Ollama a llama.cpp, los puertos suelen entrar en conflicto y hay una lucha por la posesión de recursos. llama-swap actúa como el oficial de tránsito que organiza este caos. Este proxy ligero escrito en Go envía una señal SIGTERM al proceso existente cuando entra una nueva llamada de modelo, cerrándolo de forma segura y cargando el nuevo modelo.

El método de redacción del YAML para una integración estable es claro:

Defina previamente en la sección macros la ruta del ejecutable y los flags comunes como --flash-attn y --mlock. Esto hará que el archivo de configuración sea mucho más limpio.
Utilice la macro ${PORT} bajo el apartado models para especificar la ruta de ejecución de cada modelo.
Para los servicios de Ollama que ya están activos, simplemente conecte la ruta escribiendo http://localhost:11434 en el campo proxy.

Como resultado, su aplicación solo necesitará apuntar a una única dirección: http://localhost:8080/v1. Ya no tendrá que preocuparse de si el motor o el modelo cambian internamente.

Conexión de Cursor y Obsidian a endpoints locales para ahorrar en suscripciones

La verdadera razón para usar LLMs locales es proteger la privacidad personal mientras se ahorra dinero. Aunque Cursor es de pago por defecto, puede evadirlo usando la configuración OpenAI Compatible a través de llama-swap local. Esto supone un ahorro de 20 dólares al mes, o 240 dólares al año.

El método de conexión es sencillo:

En Cursor Settings > Models, active OpenAI API Compatible e introduzca http://localhost:8080/v1 en el Base URL.
En API Key puede poner cualquier carácter. Si pone un alias como gpt-4o en lugar del nombre real del modelo en la configuración de llama-swap, Cursor pensará que es su par correspondiente y funcionará de inmediato.
En el plugin Obsidian Copilot, ajuste el modelo de embedding a nomic-embed-text y fíjelo con ttl: 0 en llama-swap.

Incluso si pasa de tomar notas a la ventana de código, el modelo se intercambiará automáticamente en segundo plano. Todos los datos permanecen dentro de su computadora, eliminando cualquier preocupación por la privacidad.

Registro de servicio en segundo plano mediante NSSM

Abrir la terminal cada vez para encender el proxy es realmente molesto. Para usar la IA como una herramienta, debe estar presente de forma silenciosa, como el aire. Para usuarios de Windows, lo más limpio es registrar llama-swap como un servicio usando NSSM (Non-Sucking Service Manager).

Los pasos son los siguientes:

Instale mediante winget install NSSM en la terminal y escriba nssm install LlamaSwap con privilegios de administrador.
Cuando aparezca la ventana de configuración, introduzca la ruta de llama-swap.exe en Path, y --config config.yaml -watch-config en Arguments.
En la pestaña Process, suba la prioridad a High. Así, la velocidad de inferencia no se verá afectada por otras tareas.

Ahora, el endpoint de la API estará activo nada más encender el ordenador. Gracias a la opción -watch-config, cualquier cambio que realice y guarde en el archivo YAML se aplicará inmediatamente sin necesidad de reiniciar el servicio.

Prevención de crashes mediante Flash Attention y límites de contexto

La mayoría de las veces que una conversación se corta o se apaga al cambiar de modelo, se debe a un error en el diseño de la memoria. Los motores de inferencia intentan asegurar previamente la memoria para la ventana de contexto al encenderse. Si no se controla esto, se encontrará con errores inesperados.

Aquí hay tres mecanismos para asegurar la estabilidad:

Especifique --ctx-size alrededor de 8192 en el campo cmd. Si se deja ilimitado, la VRAM explotará.
Si el modelo es grande, el tiempo de carga será largo. Debe establecer un healthCheckTimeout generoso, de unos 300 segundos, para que el proxy no corte la conexión durante la carga.
El uso de --flash-attn en las opciones de ejecución es obligatorio. Al usarlo, se puede emplear un 20% más de contexto con la misma VRAM.

Basado en un modelo de 8B, el intercambio se completa en unos 5 segundos. Este nivel no interrumpe el flujo de trabajo. Incluso sin una estación de trabajo de alto rendimiento, ajustar unos pocos valores de configuración le permitirá disfrutar de un entorno de IA fluido en su propio escritorio.

Configuraciones de llama-swap para eliminar el retraso en el cambio de modelos en GPUs de 12GB o menos

Cálculo directo de idle_timeout según la capacidad de VRAM

Para evitar este cuello de botella, es necesario establecer diferentes tiempos de expulsión (idle_timeout) por modelo en el archivo config.yaml.

8GB VRAM (RTX 3070/4060): Establezca el globalTTL en 300 (5 minutos). Debe añadir --ctx-size 8192 después del comando de ejecución del modelo (cmd) para limitar el caché KV y evitar que consuma toda la memoria restante, previniendo así errores de OOM (Out of Memory).
12GB VRAM (RTX 3060 12G): Mantenga el modelo Phi-3 Mini, que se usa con frecuencia, como residente con ttl: 0, y configure el pesado Qwen 2.5 Coder 7B con ttl: 60 para que libere la VRAM inmediatamente después de terminar de programar.

Con esta configuración, ahorrará al menos 20 minutos al día que antes perdía encendiendo y apagando modelos manualmente.

Configuración YAML para unir múltiples motores de inferencia en un solo puerto

El método de redacción del YAML para una integración estable es claro:

Defina previamente en la sección macros la ruta del ejecutable y los flags comunes como --flash-attn y --mlock. Esto hará que el archivo de configuración sea mucho más limpio.
Utilice la macro ${PORT} bajo el apartado models para especificar la ruta de ejecución de cada modelo.
Para los servicios de Ollama que ya están activos, simplemente conecte la ruta escribiendo http://localhost:11434 en el campo proxy.

Como resultado, su aplicación solo necesitará apuntar a una única dirección: http://localhost:8080/v1. Ya no tendrá que preocuparse de si el motor o el modelo cambian internamente.

Conexión de Cursor y Obsidian a endpoints locales para ahorrar en suscripciones

El método de conexión es sencillo:

En Cursor Settings > Models, active OpenAI API Compatible e introduzca http://localhost:8080/v1 en el Base URL.
En API Key puede poner cualquier carácter. Si pone un alias como gpt-4o en lugar del nombre real del modelo en la configuración de llama-swap, Cursor pensará que es su par correspondiente y funcionará de inmediato.
En el plugin Obsidian Copilot, ajuste el modelo de embedding a nomic-embed-text y fíjelo con ttl: 0 en llama-swap.

Registro de servicio en segundo plano mediante NSSM

Los pasos son los siguientes:

Instale mediante winget install NSSM en la terminal y escriba nssm install LlamaSwap con privilegios de administrador.
Cuando aparezca la ventana de configuración, introduzca la ruta de llama-swap.exe en Path, y --config config.yaml -watch-config en Arguments.
En la pestaña Process, suba la prioridad a High. Así, la velocidad de inferencia no se verá afectada por otras tareas.

Prevención de crashes mediante Flash Attention y límites de contexto

Aquí hay tres mecanismos para asegurar la estabilidad:

Especifique --ctx-size alrededor de 8192 en el campo cmd. Si se deja ilimitado, la VRAM explotará.
Si el modelo es grande, el tiempo de carga será largo. Debe establecer un healthCheckTimeout generoso, de unos 300 segundos, para que el proxy no corte la conexión durante la carga.
El uso de --flash-attn en las opciones de ejecución es obligatorio. Al usarlo, se puede emplear un 20% más de contexto con la misma VRAM.

Configuraciones de llama-swap para eliminar el retraso en el cambio de modelos en GPUs de 12GB o menos

Related Video

Llama-Swap: La solución definitiva al problema más molesto de los LLM locales

Configuraciones de llama-swap para eliminar el retraso en el cambio de modelos en GPUs de 12GB o menos

Cálculo directo de idle_timeout según la capacidad de VRAM

Configuración YAML para unir múltiples motores de inferencia en un solo puerto

Conexión de Cursor y Obsidian a endpoints locales para ahorrar en suscripciones

Registro de servicio en segundo plano mediante NSSM

Prevención de crashes mediante Flash Attention y límites de contexto

Comments (0)

Configuraciones de llama-swap para eliminar el retraso en el cambio de modelos en GPUs de 12GB o menos

Cálculo directo de idle_timeout según la capacidad de VRAM

Configuración YAML para unir múltiples motores de inferencia en un solo puerto

Conexión de Cursor y Obsidian a endpoints locales para ahorrar en suscripciones

Registro de servicio en segundo plano mediante NSSM

Prevención de crashes mediante Flash Attention y límites de contexto