Llama-Swap: Die Lösung für das nervigste Problem bei lokalen LLMs
BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology
Transcript
00:00:00Unser lokales Modell-Setup funktioniert super, bis wir ein anderes Modell benötigen.
00:00:04Jetzt beenden wir den Llama-Server, ändern Ports, aktualisieren unsere OpenAI-Basis-URL und warten
00:00:10auf Reloads, in der Hoffnung, dass nichts schiefläuft.
00:00:13Alles nur, weil unser Coding-Modell zu groß für einen kurzen Chat ist und das kleine Modell zu dumm
00:00:18für echten Code.
00:00:19LlamaSwap löst genau das.
00:00:21Ein Endpunkt, mehrere Modelle, automatisches Wechseln – und Ihre Tools merken gar nichts davon.
00:00:26Ich zeige Ihnen in den nächsten Minuten, wie Sie das einrichten.
00:00:34Die meisten lokalen LLM-Entwickler stoßen irgendwann an dieselbe Grenze.
00:00:37Zuerst nutzt man etwas Bequemes wie Llama, LM Studio – etwas, das einfach funktioniert.
00:00:44Weil es das tut.
00:00:45Und ehrlich gesagt ist das toll, denn sie sind viel besser geworden.
00:00:48Aber dann fangen wir an, mehr Kontrolle zu wollen.
00:00:51Man möchte exakte Llama-CPP-Flags, GPU-Layer-Platzierung, vielleicht die Kontextgröße, eigene Backends,
00:00:59oder sogar experimentelle Modelle.
00:01:01Also nähert man sich dem rohen Llama-Server an, und das fühlt sich großartig an.
00:01:06Bis man merkt, dass man nur ein Problem gegen ein anderes getauscht hat.
00:01:09Jetzt macht man das hier.
00:01:11Man beendet den Llama-Server, startet QwenCoder, und fünf Minuten später – was macht man da?
00:01:16Man beendet den Llama-Server erneut.
00:01:17Man springt ständig zwischen diesen Modellen hin und her.
00:01:18Und jedes Mal wartet etwas, verbindet sich neu, schlägt fehl
00:01:20oder nutzt unbemerkt das falsche Modell.
00:01:26Was Sie eigentlich wollen, ist ein einziger Endpunkt vorne,
00:01:27während man dahinter beliebig die Modelle austauscht.
00:01:31Genau diese Lücke füllt LlamaSwap.
00:01:33Wenn Sie Coding-Tools mögen, die Ihren Workflow beschleunigen, abonnieren Sie uns.
00:01:36Wir veröffentlichen ständig neue Videos.
00:01:39Bevor wir theoretisch werden, zeige ich Ihnen nun, wie das Ganze funktioniert.
00:01:41Aktuell läuft LlamaSwap lokal auf einem Port.
00:01:44Mein Client kennt nur diese Basis-URL – nicht eine für Qwen, eine für SmallLM,
00:01:48eine für Embeddings, sondern nur eine einzige Eingangstür.
00:01:55Hier ist eine winzige Konfiguration mit zwei Modellen.
00:01:58Eines ist QwenCoder, das andere ist SmallLM2.
00:02:02Und jedes hat seinen eigenen Befehl.
00:02:06Jedes hat seine eigene Modelldatei.
00:02:09Jedes hat seine eigene Kontextgröße.
00:02:11Und der Clou ist: Jedes dieser Modelle hat auch seine eigene TTL.
00:02:14Jetzt frage ich das Coding-Modell nach etwas.
00:02:19Ich sende eine normale OpenAI-Style Chat-Anfrage.
00:02:22Im Modell-Feld steht QwenCoder, alles klar.
00:02:25Schauen wir uns die Logs an.
00:02:30Es wartet, bis das Backend bereit ist, und leitet die Anfrage dann weiter.
00:02:32Und hier ist das Wichtigste, was ich NICHT tue:
00:02:36Ich ändere nicht die URL.
00:02:39Ich starte Open WebUI nicht neu.
00:02:41Ich editiere nichts in Cursor.
00:02:43Ich ändere nur ein einziges Feld.
00:02:46Das Modell wechselt von QwenCoder zu SmallLM2 – gleicher Endpunkt, gleicher Client, anderes Modell.
00:02:48Wenn das Modell länger als die TTL inaktiv ist, entlädt LlamaSwap es, damit Ihr VRAM wieder frei wird.
00:02:55Das ist der ganze Trick.
00:02:59Ihre Tools denken, sie kommunizieren mit einer einzigen API.
00:03:00LlamaSwap kümmert sich im Hintergrund um den komplizierten Teil der Steuerung.
00:03:02Okay, super.
00:03:04Was also ist LlamaSwap eigentlich?
00:03:09läuft.
00:03:10Okay, super.
00:03:11Ihre Apps sprechen nicht direkt mit jedem Modell-Server.
00:03:12Sie sprechen mit LlamaSwap.
00:03:13LlamaSwap prüft das Modell-Feld und entscheidet, was zu tun ist.
00:03:16Wenn das Modell bereits läuft, wird die Anfrage einfach weitergeleitet.
00:03:19Falls nicht, wird es gestartet.
00:03:21Muss ein anderes Modell Platz machen, wird dieses gestoppt.
00:03:25Ihr Client erhält dann eine ganz normale Antwort.
00:03:28Kein ständiges Ändern der Basis-URLs mehr.
00:03:31Eine Binärdatei, eine Konfigurationsdatei, ein stabiler API-Endpunkt.
00:03:35Es ist in Go geschrieben und nutzt YAML-Konfigurationen.
00:03:38Es fungiert als Proxy für OpenAI- und Anthropic-kompatible APIs
00:03:41und unterstützt Backends wie llama.cpp, vLLM, TabbyAPI und mehr.
00:03:45Wenn Sie Glück haben, haben Sie 10 oder 20 Modelle auf der Platte, aber nur genug VRAM für ein oder zwei.
00:03:48Dabei hilft die TTL.
00:03:53Ist ein Modell lange genug inaktiv, kann LlamaSwap es entladen.
00:03:59Anstatt dass die GPU durch ein ungenutztes Modell blockiert wird,
00:04:05wird der Speicher für die nächste Anfrage frei.
00:04:06Früher mussten Sie sich merken, was gerade läuft.
00:04:08Jetzt merkt sich das die Konfiguration für Sie.
00:04:11Die offensichtliche Frage ist: Warum nicht einfach Ollama, LM Studio oder den puren Llama-Server nutzen?
00:04:17Die Antwort lautet: Vielleicht tun Sie das sogar.
00:04:20LlamaSwap ist kein genereller Ersatz.
00:04:23Es löst ein sehr spezifisches Problem.
00:04:25Im Vergleich zu Ollama ist LlamaSwap kein Modell-Store, Downloader oder anfängerfreundliches CLI.
00:04:31Darum geht es hier nicht.
00:04:32Es geht um Kontrolle.
00:04:35Sie bringen Ihre eigenen llama.cpp-Builds und Flags mit und entscheiden exakt,
00:04:37wie jedes Modell startet.
00:04:40Verglichen mit LM Studio ist LlamaSwap eher “Server-First” und benötigt kein GUI.
00:04:47Es passt besser auf einen Dev-PC, Home-Server, Docker oder geteilte Maschinen,
00:04:49die einfach eine stabile API brauchen.
00:04:50Es ist nicht so einfach wie “ollama run llama3”.
00:04:55Man braucht die Modelldateien.
00:04:57Man muss sein Backend verstehen.
00:05:02Man muss YAML schreiben.
00:05:07Man muss wissen, welche Flags zur eigenen GPU passen.
00:05:09Es gibt keine integrierte Modell-Galerie, die alles automatisch lädt.
00:05:13Ehrlich gesagt: Das Setup ist ziemlich mühsam.
00:05:15Aber für manche Entwickler löst es einen ganz speziellen Schmerzpunkt.
00:05:17Den Schmerz, genau zu wissen, welches Modell man will,
00:05:19aber Zeit mit dem ständigen Umkonfigurieren zu verschwenden.
00:05:22Es lohnt sich, wenn Sie Tools wie Cursor, Continue, eigene Agenten oder lokale Skripte nutzen.
00:05:26Dann wird es nützlich sein, auch wenn die Einrichtung anspruchsvoller ist.
00:05:29Das ist also LlamaSwap.
00:05:32Ein stabiler API-Endpunkt, mehrere lokale Modelle dahinter, automatischer Wechsel,
00:05:38Entladen bei Inaktivität und volle Backend-Kontrolle.
00:05:39Die Kernidee ist simpel:
00:05:44Ihren Clients ist es egal, welcher Modell-Server gerade tatsächlich läuft.
00:05:47LlamaSwap regelt das alles für sie.
00:05:49Wenn Ihnen solche Coding-Tools gefallen, vergessen Sie nicht zu abonnieren.
00:05:54Wir sehen uns im nächsten Video.
00:05:56Die Hauptidee hier ist einfach.
00:05:58Ihre Clients müssen sich nicht mehr darum kümmern, welcher Modellserver gerade aktiv ist.
00:06:02LlamaSwap übernimmt das alles für sie.
00:06:04Wenn dir solche Programmier-Tools gefallen, abonniere uns gerne.
00:06:06Wir sehen uns im nächsten Video.