Warum jeder Mac-Nutzer diesen neuen AI Model Runner braucht (oMLX)
BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술
Transcript
00:00:00Das ist OMLX. Es ist ein sehr spannendes Projekt, im Grunde eine spezialisierte
00:00:06Inference-Engine, die darauf ausgelegt ist, das Maximum an Performance aus Ihrem Apple Silicon zu holen.
00:00:11Wenn Sie Mac-Nutzer sind, wird Sie das hier begeistern. OMLX versucht im Wesentlichen,
00:00:16den größten Flaschenhals lokaler Hardware zu lösen: die Speicher-Steuer.
00:00:21In diesem Video schauen wir uns OMLX an, wie es funktioniert, machen einen Testlauf und vergleichen
00:00:27es mit einem Schwergewicht, LM Studio, um zu sehen, ob dieses Tool wirklich die Zukunft
00:00:33für lokale KI-Modelle auf dem Mac sein kann. Das wird ein großer Spaß, also legen wir los.
00:00:39Was genau ist OMLX? Im Kern ist es eine Runtime, die speziell auf Apples
00:00:49MLX-Framework aufbaut. Im Gegensatz zu Allround-Tools, die jede GPU unterstützen wollen,
00:00:55wurde MLX vom Apple-Silicon-Team entwickelt, um die Unified Memory Architecture zu nutzen,
00:01:02die speziell Macs antreibt. In einem herkömmlichen PC haben CPU und GPU getrennte Speicherpools,
00:01:09was bedeutet, dass Daten wie Modellgewichte ständig über den PCI-Bus hin- und herkopiert werden müssen.
00:01:16Aber MLX eliminiert dieses Kopieren komplett. Da CPU und GPU denselben physischen
00:01:22Speicher teilen, nutzt MLX Zero-Copy-Arrays. Wenn die GPU eine Berechnung beendet, kann die CPU
00:01:29die Ergebnisse sofort lesen, ohne ein Byte zu verschieben. Es nutzt auch Lazy Computation, was bedeutet,
00:01:36dass mathematische Operationen erst im allerletzten Moment ausgeführt werden, wenn die Ausgabe benötigt wird,
00:01:41wodurch der gesamte Berechnungsgraph on-the-fly optimiert werden kann. Aber hier unterscheidet sich OMLX
00:01:47von einem Standard-LM-Studio-Setup: in der Verwaltung des KV-Cache. In einer typischen LLM-Sitzung
00:01:54muss jedes Wort des Gesprächsverlaufs im teuren RAM gespeichert bleiben. OMLX führt jedoch
00:02:01ein zweistufiges System ein. Es hält den unmittelbaren Kontext für die Geschwindigkeit im Unified Memory,
00:02:07friert aber die älteren Teile des Gesprächs, wie massive System-Prompts und Tool-Definitionen, ein
00:02:12und lagert sie auf die SSD aus. Wenn man das mit LM Studio vergleicht, ist der Unterschied sofort spürbar.
00:02:19Dieses ist zwar unglaublich stabil und kompatibel, möchte aber den gesamten
00:02:23Speicherverlauf in einem aktiven Zustand halten. OMLX ist eher wie ein modernes Betriebssystem.
00:02:30Es weiß, welche Daten jetzt im “Gehirn” sein müssen und was auf die Festplatte ausgelagert werden kann.
00:02:36Lassen Sie uns OMLX starten und selbst ausprobieren. Die Benutzeroberfläche ist recht intuitiv.
00:02:41Gleich zu Beginn erhalten wir ein Fenster, in dem wir den Speicherort für unseren Server wählen können.
00:02:47Danach werden wir aufgefordert, einen API-Schlüssel einzugeben. Das machen wir.
00:02:53Und schließlich landen wir auf diesem Dashboard, dem Haupteinstiegspunkt für den OMLX-Server.
00:03:00Von hier aus habe ich das Qwen 3.6 35B 4-Bit-Modell heruntergeladen, das wir für unsere Tests nutzen.
00:03:07Ich habe zudem dieses leere Repository mit einer agents.md-Datei vorbereitet, in der ich das Modell
00:03:13bitte, eine einfache Web-App zu erstellen, mit der man Filme suchen, auf die Merkliste setzen und bewerten kann,
00:03:19unter Verwendung eines Movie-DB-API-Schlüssels. Nichts allzu Kompliziertes für diese Demo,
00:03:24nur ein einfacher Coding-Test, um die Leistung bei realen Aufgaben zu prüfen. Auf der Dashboard-Seite
00:03:31finden wir den Bereich mit gebrauchsfertigen Code-Snippets für verschiedene KI-Agent-Harnesses,
00:03:37die wir ausführen können. Für diese Demo verwende ich das Codex CLI für die Tests.
00:03:42Nun fragen Sie sich vielleicht, warum ich nicht einfach das offizielle Claude Code CLI nutze.
00:03:47Nun, auf einem MacBook M2 zählt jeder Token. Wenn man sich die Kontext-Statistiken
00:03:54bei einem völlig leeren Projekt ansieht, verbraucht Claude Code etwa 16,2K Token allein für seine
00:04:02eigenen System-Prompts und Tool-Definitionen. In einem 32K-Fenster bleiben uns also nur 16K Token
00:04:09für das eigentliche Projekt – das ist winzig, wenn man eine Full-Stack-Anwendung baut.
00:04:14Andererseits fand ich heraus, dass Codex viel schlanker ist. Es bläht das Basisgewicht des Gesprächs
00:04:20nicht so auf, was uns mehr Spielraum zum Programmieren gibt, bevor wir das Kontext-Limit erreichen.
00:04:26Alles klar, ich starte Codex jetzt mit diesem einfachen Befehl, der hier bereitgestellt wird.
00:04:31Dann gebe ich einen einfachen Start-Prompt ein, der unsere Aufgabe erklärt, und lege los.
00:04:36Während es hier rechts arbeitet, können Sie in Echtzeit sehen, wie die Sitzung performt,
00:04:42wie viele Token produziert werden, wie viele davon gecached werden,
00:04:46und den Prozentsatz der Cache-Effizienz. Es ist auch sehr praktisch zu sehen,
00:04:51wie viele Token durchschnittlich pro Sekunde verarbeitet werden. Insgesamt dauerte es etwa 20 Minuten,
00:04:57bis dieses 35-Milliarden-Parameter Qwen 3.6 Modell auf meinem M2 MacBook Pro die Aufgabe erledigt hatte.
00:05:04Das war zu erwarten, da dies ein sehr schweres Unterfangen für dieses Modell ist. Nun gab es
00:05:10zwei oder drei Fälle, in denen ein 400er-Fehler auftrat, weil der Prompt das 30K-Kontextlimit
00:05:17meines M2 MacBooks überschritt. In jedem anderen Tool wäre das das Ende des Projekts gewesen.
00:05:24Normalerweise würde ein “/clear” das Kurzzeitgedächtnis der KI löschen, was oft zu Halluzinationen führt,
00:05:29da das Modell den gerade geschriebenen Code vergisst. Aber hier hat mich das SSD-Caching von OMLX umgehauen.
00:05:37Obwohl ich die Sitzung in Codex geleert hatte, befand sich der tatsächliche Rechenstatus meines Projekts
00:05:42immer noch auf meiner SSD. In dem Moment, als ich Codex einen neuen Prompt zum Fortfahren gab,
00:05:48erkannte OMLX das Präfix und hydrierte das “Gehirn” des Modells sofort von der Festplatte.
00:05:56Anstatt zu halluzinieren oder bei Null anzufangen, machte es genau dort weiter, wo es aufgehört hatte.
00:06:02Die Cache-Effizienz hilft in diesem Fall wirklich. Am Ende dieser Aufgabe sehen wir hier, dass Qwen 3.6
00:06:08mit Hilfe von OMLX die Aufgabe bewältigt hat, indem es 1,78 Millionen Token verarbeitet hat,
00:06:16wobei etwa 1,59 Millionen davon gecached wurden. Wir erreichten eine Cache-Effizienz von 89 %,
00:06:22was massiv ist. Die App selbst sieht ganz ordentlich aus. Wir können Filme suchen, sie zur
00:06:28Merkliste hinzufügen und bewerten. Aber wenn man die Seite aktualisiert, wird die Liste zurückgesetzt.
00:06:33Ich schätze also, die Datenbank-Lösung wurde nicht richtig implementiert, aber dennoch eine gute Leistung.
00:06:40Das sieht alles beeindruckend aus, aber ich wollte wissen, wie diese Performance im Vergleich zu einem
00:06:46Schwergewicht wie LM Studio abschneidet. Also entschied ich mich, dieselbe Aufgabe mit demselben
00:06:52Qwen 3.6 Modell und denselben Kontext-Einschränkungen laufen zu lassen. Ehrlich gesagt
00:06:58habe ich das nicht erwartet, aber die Performance bei LM Studio war tatsächlich schlechter.
00:07:04Die Aufgabe dauerte etwa 35 Minuten. Das sind bereits 15 Minuten mehr als bei OMLX.
00:07:11Mir fiel auch auf, dass LM Studio währenddessen die gesamte Leistung meines MacBooks beanspruchte.
00:07:17So sehr, dass ich auf einem zweiten Monitor nicht mal ein Video ansehen konnte, da es wegen RAM-Mangels ruckelte.
00:07:23Dieses Problem hatte ich bei OMLX nicht. Während OMLX lief, konnte ich problemlos
00:07:30im Web surfen, Videos schauen oder andere Dinge tun, während Codex im Hintergrund arbeitete.
00:07:35Bei LM Studio war das fast unmöglich. Und schauen Sie sich diese Statistiken an. Was mich noch mehr
00:07:41schockierte, war, dass die durchschnittliche Geschwindigkeit bei LM Studio 16 Token pro Sekunde betrug.
00:07:47Bei OMLX waren es etwa 47. Das erklärt, warum die Aufgabe 15 Minuten länger dauerte.
00:07:55Dennoch muss man fair bleiben: LM Studio hat keinen einzigen 400er-Fehler aufgrund von
00:08:01Kontextlimit-Engpässen wie OMLX geworfen. Die Kontextverwaltung bei LM Studio ist also sehr stabil.
00:08:08Betrachtet man das Endergebnis, war es sehr ähnlich. Ich hatte diesmal keine schicken Animationen,
00:08:13aber letztlich fühlt es sich an, als würde man denselben Output mit verschiedenen Seed-Werten
00:08:18für die gleiche Aufgabe auf dem gleichen Modell vergleichen. Ich werde also keine voreiligen Schlüsse ziehen.
00:08:25Es ist das gleiche Qwen 3.6 Modell. Sie können die Ausgabe von Qwen hier selbst beurteilen.
00:08:33Wie lautet das endgültige Urteil? Ich muss sagen, ich bin von der Performance von OMLX sehr beeindruckt.
00:08:39Wenn Sie ein MacBook mit begrenztem RAM haben und Ihren Computer nutzen wollen, während im
00:08:45Hintergrund ein lokaler KI-Agent läuft, dann ist OMLX das perfekte Tool. Es bietet quasi eine
00:08:52Speichererweiterung durch die Nutzung Ihrer SSD, kombiniert mit dem großartigen MLX-Framework,
00:08:58das Modelle auf Apple Silicon flüssiger laufen lässt. Ja, der gelegentliche 400er-Fehler bedeutet,
00:09:05dass man etwas mehr eingreifen und vielleicht ab und zu einen Clear-Befehl nutzen muss.
00:09:10Aber das ist der Kompromiss für eine dreifach schnellere Generation. Und das ist es meiner Meinung nach wert.
00:09:16Projekte wie OMLX beweisen, dass wir nicht unbedingt 128 Gigabyte RAM benötigen, um
00:09:23leistungsstarke Agenten zu betreiben. Wir brauchen nur einen smarteren Weg, den vorhandenen Speicher zu nutzen.
00:09:29Wir haben vor einigen Monaten eine Umfrage durchgeführt und festgestellt, dass die meisten Zuschauer Mac-Nutzer sind.
00:09:34Ich bin also neugierig: Haben Sie OMLX schon auf Ihren eigenen Rechnern ausprobiert?
00:09:40Wie waren Ihre bisherigen Erfahrungen? Lassen Sie es uns unten in den Kommentaren wissen.
00:09:45Das war OMLX in aller Kürze. Und Leute, wenn euch diese Art von technischer Analyse gefällt,
00:09:50dann zeigt es mir, indem ihr den Like-Button unter dem Video drückt. Vergesst auch nicht,
00:09:55unseren Kanal zu abonnieren. Das war Andris von Better Stack, wir sehen uns in den nächsten Videos.