Configuraciones de llama-swap para eliminar el retraso en el cambio de modelos en GPUs de 12GB o menos
14 de maio de 2026
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
Para los usuarios de GPUs de gama media, la VRAM siempre es un recurso escaso. Al usar modelos múltiples en una RTX 3060 o 4060, es fácil alcanzar el límite rápidamente. Un modelo Llama 3.1 8B con cuantización de 4 bits (Q4_K_M) consume por sí solo 5.2GB en pesos. Si restamos el consumo base de 1GB de Windows, el espacio restante es de apenas 2GB. Si intentamos cargar más modelos a la fuerza, se produce el "spillover", utilizando la RAM del sistema. Ver cómo la velocidad cae de 15 tokens por segundo a tan solo 1 token dan ganas de matar el proceso de inmediato.
Para evitar este cuello de botella, es necesario establecer diferentes tiempos de expulsión (idle_timeout) por modelo en el archivo config.yaml.
globalTTL en 300 (5 minutos). Debe añadir --ctx-size 8192 después del comando de ejecución del modelo (cmd) para limitar el caché KV y evitar que consuma toda la memoria restante, previniendo así errores de OOM (Out of Memory).ttl: 0, y configure el pesado Qwen 2.5 Coder 7B con ttl: 60 para que libere la VRAM inmediatamente después de terminar de programar.Con esta configuración, ahorrará al menos 20 minutos al día que antes perdía encendiendo y apagando modelos manualmente.
Al intentar pasar de Ollama a llama.cpp, los puertos suelen entrar en conflicto y hay una lucha por la posesión de recursos. llama-swap actúa como el oficial de tránsito que organiza este caos. Este proxy ligero escrito en Go envía una señal SIGTERM al proceso existente cuando entra una nueva llamada de modelo, cerrándolo de forma segura y cargando el nuevo modelo.
El método de redacción del YAML para una integración estable es claro:
macros la ruta del ejecutable y los flags comunes como --flash-attn y --mlock. Esto hará que el archivo de configuración sea mucho más limpio.${PORT} bajo el apartado models para especificar la ruta de ejecución de cada modelo.http://localhost:11434 en el campo proxy.Como resultado, su aplicación solo necesitará apuntar a una única dirección: http://localhost:8080/v1. Ya no tendrá que preocuparse de si el motor o el modelo cambian internamente.
La verdadera razón para usar LLMs locales es proteger la privacidad personal mientras se ahorra dinero. Aunque Cursor es de pago por defecto, puede evadirlo usando la configuración OpenAI Compatible a través de llama-swap local. Esto supone un ahorro de 20 dólares al mes, o 240 dólares al año.
El método de conexión es sencillo:
http://localhost:8080/v1 en el Base URL.gpt-4o en lugar del nombre real del modelo en la configuración de llama-swap, Cursor pensará que es su par correspondiente y funcionará de inmediato.nomic-embed-text y fíjelo con ttl: 0 en llama-swap.Incluso si pasa de tomar notas a la ventana de código, el modelo se intercambiará automáticamente en segundo plano. Todos los datos permanecen dentro de su computadora, eliminando cualquier preocupación por la privacidad.
Abrir la terminal cada vez para encender el proxy es realmente molesto. Para usar la IA como una herramienta, debe estar presente de forma silenciosa, como el aire. Para usuarios de Windows, lo más limpio es registrar llama-swap como un servicio usando NSSM (Non-Sucking Service Manager).
Los pasos son los siguientes:
winget install NSSM en la terminal y escriba nssm install LlamaSwap con privilegios de administrador.llama-swap.exe en Path, y --config config.yaml -watch-config en Arguments.Ahora, el endpoint de la API estará activo nada más encender el ordenador. Gracias a la opción -watch-config, cualquier cambio que realice y guarde en el archivo YAML se aplicará inmediatamente sin necesidad de reiniciar el servicio.
La mayoría de las veces que una conversación se corta o se apaga al cambiar de modelo, se debe a un error en el diseño de la memoria. Los motores de inferencia intentan asegurar previamente la memoria para la ventana de contexto al encenderse. Si no se controla esto, se encontrará con errores inesperados.
Aquí hay tres mecanismos para asegurar la estabilidad:
--ctx-size alrededor de 8192 en el campo cmd. Si se deja ilimitado, la VRAM explotará.healthCheckTimeout generoso, de unos 300 segundos, para que el proxy no corte la conexión durante la carga.--flash-attn en las opciones de ejecución es obligatorio. Al usarlo, se puede emplear un 20% más de contexto con la misma VRAM.Basado en un modelo de 8B, el intercambio se completa en unos 5 segundos. Este nivel no interrumpe el flujo de trabajo. Incluso sin una estación de trabajo de alto rendimiento, ajustar unos pocos valores de configuración le permitirá disfrutar de un entorno de IA fluido en su propio escritorio.