llama-swap-Einstellungen zur Eliminierung von Verzögerungen beim Modellwechsel auf GPUs mit 12 GB oder weniger

Manuelle Berechnung des idle_timeout basierend auf der VRAM-Kapazität

Für Nutzer von Mittelklasse-GPUs ist VRAM immer eine knappe Ressource. Wenn man eine RTX 3060 oder 4060 verwendet und mehrere Modelle gleichzeitig laden möchte, stößt man schnell an Grenzen. Ein Llama 3.1 8B Modell mit 4-Bit-Quantisierung (Q4_K_M) beansprucht allein für die Gewichte bereits 5,2 GB. Zieht man die ca. 1 GB Standardbelegung von Windows ab, bleiben nur noch knapp 2 GB übrig. Wenn man hier versucht, weitere Modelle zu laden, kommt es zum „Spillover“, bei dem der System-RAM genutzt wird. Wenn die Geschwindigkeit von 15 Token pro Sekunde auf 1 Token absinkt, möchte man den Prozess am liebsten sofort beenden.

Um diesen Flaschenhals zu vermeiden, müssen Sie in der config.yaml für jedes Modell eine unterschiedliche Verweilzeit (idle_timeout) festlegen.

8 GB VRAM (RTX 3070/4060): Setzen Sie globalTTL auf 300 (5 Minuten). Fügen Sie dem Ausführungsbefehl (cmd) --ctx-size 8192 hinzu, um den KV-Cache zu begrenzen, damit dieser nicht den restlichen Speicher verschlingt und einen OOM (Out of Memory) verursacht.
12 GB VRAM (RTX 3060 12G): Lassen Sie das häufig genutzte Phi-3 Mini mit ttl: 0 dauerhaft im Speicher und setzen Sie für das schwere Qwen 2.5 Coder 7B ttl: 60, damit der VRAM sofort nach Abschluss der Codierung freigegeben wird.

Mit diesen Einstellungen sparen Sie täglich mindestens 20 Minuten Zeit, die sonst durch das manuelle Ein- und Ausschalten von Modellen verloren ginge.

YAML-Konfiguration zur Bündelung mehrerer Inference-Engines auf einem Port

Beim Wechsel von Ollama zu llama.cpp kommt es oft zu Port-Konflikten und Kämpfen um die Ressourcen-Priorität. llama-swap fungiert hier als „Verkehrspolizist“, der dieses Chaos ordnet. Dieser in Go geschriebene, leichtgewichtige Proxy sendet ein SIGTERM-Signal an bestehende Prozesse, um diese sicher zu beenden und neue Modelle hochzufahren, sobald ein neuer Aufruf eingeht.

Die Vorgehensweise für eine stabile YAML-Konfiguration ist klar:

Definieren Sie im Abschnitt macros vorab die Pfade zu den ausführbaren Dateien und gemeinsame Flags wie --flash-attn oder --mlock. Das macht die Konfigurationsdatei deutlich übersichtlicher.
Nutzen Sie unter dem Punkt models das ${PORT}-Makro, um die Ausführungspfade für jedes Modell festzulegen.
Bestehende Ollama-Dienste binden Sie einfach über das Feld proxy mit http://localhost:11434 ein, um die Pfade zu verknüpfen.

Das Ergebnis: Ihre Anwendungen müssen nur noch auf die eine Adresse http://localhost:8080/v1 schauen. Ob sich im Hintergrund die Engine oder das Modell ändert, spielt keine Rolle mehr.

Cursor und Obsidian mit lokalen Endpunkten verbinden und Abogebühren sparen

Der wahre Grund für die Nutzung lokaler LLMs liegt in der Kostenersparnis und dem Schutz der Privatsphäre. Cursor ist standardmäßig kostenpflichtig, kann aber über die „OpenAI Compatible“-Einstellungen auf das lokale llama-swap umgeleitet werden. So sparen Sie 20 Dollar im Monat – das sind 240 Dollar im Jahr.

Die Verbindung ist simpel:

Aktivieren Sie unter Cursor Settings > Models die Option OpenAI API Compatible und geben Sie als Base URL http://localhost:8080/v1 ein.
Als API-Key können Sie eine beliebige Zeichenfolge eingeben. Wenn Sie in den llama-swap-Einstellungen einen Alias wie gpt-4o für Ihr lokales Modell vergeben, erkennt Cursor es als passendes Gegenstück und funktioniert sofort.
Stellen Sie im Obsidian Copilot-Plugin das Embedding-Modell auf nomic-embed-text ein und fixieren Sie es in llama-swap mit ttl: 0.

Wenn Sie von der Notizpflege zum Coding-Fenster wechseln, wird das Modell im Hintergrund automatisch getauscht. Da alle Daten auf Ihrem Computer bleiben, müssen Sie sich keine Sorgen um den Datenschutz machen.

Registrierung als Hintergrunddienst mit NSSM

Jedes Mal das Terminal zu öffnen, um den Proxy zu starten, ist lästig. Damit KI ein echtes Werkzeug wird, muss sie wie die Luft zum Atmen lautlos im Hintergrund präsent sein. Für Windows-Nutzer ist die Registrierung von llama-swap als Dienst über NSSM (Non-Sucking Service Manager) die sauberste Lösung.

So gehen Sie vor:

Installieren Sie es über das Terminal mit winget install NSSM und geben Sie mit Administratorrechten nssm install LlamaSwap ein.
Geben Sie im Einstellungsfenster unter Path den Pfad zur llama-swap.exe und unter Arguments --config config.yaml -watch-config ein.
Erhöhen Sie im Tab Process die Priorität auf High. So wird die Inferenzgeschwindigkeit nicht durch andere Aufgaben beeinträchtigt.

Jetzt ist der API-Endpunkt sofort nach dem Hochfahren des Computers aktiv. Dank der Option -watch-config werden Änderungen an der YAML-Datei sofort übernommen, ohne dass der Dienst neu gestartet werden muss.

Abstürze verhindern durch Flash Attention und Kontext-Limitierung

Verbindungsabbrüche oder Abstürze beim Modellwechsel sind meist auf Fehler in der Speicherplanung zurückzuführen. Inference-Engines versuchen beim Start, den Speicher für das gesamte Kontextfenster im Voraus zu reservieren. Ohne Steuerung führt dies zu unerwarteten Fehlern.

Hier sind drei Maßnahmen für mehr Stabilität:

Geben Sie im Feld cmd explizit --ctx-size 8192 (oder einen ähnlichen Wert) an. Ohne Limitierung wird der VRAM gesprengt.
Große Modelle benötigen Zeit zum Laden. Setzen Sie healthCheckTimeout großzügig auf etwa 300 Sekunden, damit der Proxy die Verbindung während des Ladevorgangs nicht abbricht.
Die Option --flash-attn ist Pflicht. Damit lässt sich bei gleichem VRAM-Verbrauch ein um 20 % größeres Kontextfenster nutzen.

Bei einem 8B-Modell dauert der Wechsel etwa 5 Sekunden. Das ist schnell genug, um den Arbeitsfluss nicht zu stören. Auch ohne Hochleistungs-Workstation lässt sich durch die richtigen Einstellungen eine komfortable KI-Umgebung auf dem eigenen Schreibtisch realisieren.

llama-swap-Einstellungen zur Eliminierung von Verzögerungen beim Modellwechsel auf GPUs mit 12 GB oder weniger

Manuelle Berechnung des idle_timeout basierend auf der VRAM-Kapazität

Um diesen Flaschenhals zu vermeiden, müssen Sie in der config.yaml für jedes Modell eine unterschiedliche Verweilzeit (idle_timeout) festlegen.

8 GB VRAM (RTX 3070/4060): Setzen Sie globalTTL auf 300 (5 Minuten). Fügen Sie dem Ausführungsbefehl (cmd) --ctx-size 8192 hinzu, um den KV-Cache zu begrenzen, damit dieser nicht den restlichen Speicher verschlingt und einen OOM (Out of Memory) verursacht.
12 GB VRAM (RTX 3060 12G): Lassen Sie das häufig genutzte Phi-3 Mini mit ttl: 0 dauerhaft im Speicher und setzen Sie für das schwere Qwen 2.5 Coder 7B ttl: 60, damit der VRAM sofort nach Abschluss der Codierung freigegeben wird.

Mit diesen Einstellungen sparen Sie täglich mindestens 20 Minuten Zeit, die sonst durch das manuelle Ein- und Ausschalten von Modellen verloren ginge.

YAML-Konfiguration zur Bündelung mehrerer Inference-Engines auf einem Port

Die Vorgehensweise für eine stabile YAML-Konfiguration ist klar:

Definieren Sie im Abschnitt macros vorab die Pfade zu den ausführbaren Dateien und gemeinsame Flags wie --flash-attn oder --mlock. Das macht die Konfigurationsdatei deutlich übersichtlicher.
Nutzen Sie unter dem Punkt models das ${PORT}-Makro, um die Ausführungspfade für jedes Modell festzulegen.
Bestehende Ollama-Dienste binden Sie einfach über das Feld proxy mit http://localhost:11434 ein, um die Pfade zu verknüpfen.

Das Ergebnis: Ihre Anwendungen müssen nur noch auf die eine Adresse http://localhost:8080/v1 schauen. Ob sich im Hintergrund die Engine oder das Modell ändert, spielt keine Rolle mehr.

Cursor und Obsidian mit lokalen Endpunkten verbinden und Abogebühren sparen

Die Verbindung ist simpel:

Aktivieren Sie unter Cursor Settings > Models die Option OpenAI API Compatible und geben Sie als Base URL http://localhost:8080/v1 ein.
Als API-Key können Sie eine beliebige Zeichenfolge eingeben. Wenn Sie in den llama-swap-Einstellungen einen Alias wie gpt-4o für Ihr lokales Modell vergeben, erkennt Cursor es als passendes Gegenstück und funktioniert sofort.
Stellen Sie im Obsidian Copilot-Plugin das Embedding-Modell auf nomic-embed-text ein und fixieren Sie es in llama-swap mit ttl: 0.

Registrierung als Hintergrunddienst mit NSSM

So gehen Sie vor:

Installieren Sie es über das Terminal mit winget install NSSM und geben Sie mit Administratorrechten nssm install LlamaSwap ein.
Geben Sie im Einstellungsfenster unter Path den Pfad zur llama-swap.exe und unter Arguments --config config.yaml -watch-config ein.
Erhöhen Sie im Tab Process die Priorität auf High. So wird die Inferenzgeschwindigkeit nicht durch andere Aufgaben beeinträchtigt.

Abstürze verhindern durch Flash Attention und Kontext-Limitierung

Hier sind drei Maßnahmen für mehr Stabilität:

Geben Sie im Feld cmd explizit --ctx-size 8192 (oder einen ähnlichen Wert) an. Ohne Limitierung wird der VRAM gesprengt.
Große Modelle benötigen Zeit zum Laden. Setzen Sie healthCheckTimeout großzügig auf etwa 300 Sekunden, damit der Proxy die Verbindung während des Ladevorgangs nicht abbricht.
Die Option --flash-attn ist Pflicht. Damit lässt sich bei gleichem VRAM-Verbrauch ein um 20 % größeres Kontextfenster nutzen.

llama-swap-Einstellungen zur Eliminierung von Verzögerungen beim Modellwechsel auf GPUs mit 12 GB oder weniger

Related Video

Llama-Swap: Die Lösung für das nervigste Problem bei lokalen LLMs

llama-swap-Einstellungen zur Eliminierung von Verzögerungen beim Modellwechsel auf GPUs mit 12 GB oder weniger

Manuelle Berechnung des idle_timeout basierend auf der VRAM-Kapazität

YAML-Konfiguration zur Bündelung mehrerer Inference-Engines auf einem Port

Cursor und Obsidian mit lokalen Endpunkten verbinden und Abogebühren sparen

Registrierung als Hintergrunddienst mit NSSM

Abstürze verhindern durch Flash Attention und Kontext-Limitierung

Comments (0)

llama-swap-Einstellungen zur Eliminierung von Verzögerungen beim Modellwechsel auf GPUs mit 12 GB oder weniger

Manuelle Berechnung des idle_timeout basierend auf der VRAM-Kapazität

YAML-Konfiguration zur Bündelung mehrerer Inference-Engines auf einem Port

Cursor und Obsidian mit lokalen Endpunkten verbinden und Abogebühren sparen

Registrierung als Hintergrunddienst mit NSSM

Abstürze verhindern durch Flash Attention und Kontext-Limitierung