Warum jeder Mac-Nutzer diesen neuen AI Model Runner braucht (oMLX)

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00Das ist OMLX. Es ist ein sehr spannendes Projekt, im Grunde eine spezialisierte
00:00:06Inference-Engine, die darauf ausgelegt ist, das Maximum an Performance aus Ihrem Apple Silicon zu holen.
00:00:11Wenn Sie Mac-Nutzer sind, wird Sie das hier begeistern. OMLX versucht im Wesentlichen,
00:00:16den größten Flaschenhals lokaler Hardware zu lösen: die Speicher-Steuer.
00:00:21In diesem Video schauen wir uns OMLX an, wie es funktioniert, machen einen Testlauf und vergleichen
00:00:27es mit einem Schwergewicht, LM Studio, um zu sehen, ob dieses Tool wirklich die Zukunft
00:00:33für lokale KI-Modelle auf dem Mac sein kann. Das wird ein großer Spaß, also legen wir los.
00:00:39Was genau ist OMLX? Im Kern ist es eine Runtime, die speziell auf Apples
00:00:49MLX-Framework aufbaut. Im Gegensatz zu Allround-Tools, die jede GPU unterstützen wollen,
00:00:55wurde MLX vom Apple-Silicon-Team entwickelt, um die Unified Memory Architecture zu nutzen,
00:01:02die speziell Macs antreibt. In einem herkömmlichen PC haben CPU und GPU getrennte Speicherpools,
00:01:09was bedeutet, dass Daten wie Modellgewichte ständig über den PCI-Bus hin- und herkopiert werden müssen.
00:01:16Aber MLX eliminiert dieses Kopieren komplett. Da CPU und GPU denselben physischen
00:01:22Speicher teilen, nutzt MLX Zero-Copy-Arrays. Wenn die GPU eine Berechnung beendet, kann die CPU
00:01:29die Ergebnisse sofort lesen, ohne ein Byte zu verschieben. Es nutzt auch Lazy Computation, was bedeutet,
00:01:36dass mathematische Operationen erst im allerletzten Moment ausgeführt werden, wenn die Ausgabe benötigt wird,
00:01:41wodurch der gesamte Berechnungsgraph on-the-fly optimiert werden kann. Aber hier unterscheidet sich OMLX
00:01:47von einem Standard-LM-Studio-Setup: in der Verwaltung des KV-Cache. In einer typischen LLM-Sitzung
00:01:54muss jedes Wort des Gesprächsverlaufs im teuren RAM gespeichert bleiben. OMLX führt jedoch
00:02:01ein zweistufiges System ein. Es hält den unmittelbaren Kontext für die Geschwindigkeit im Unified Memory,
00:02:07friert aber die älteren Teile des Gesprächs, wie massive System-Prompts und Tool-Definitionen, ein
00:02:12und lagert sie auf die SSD aus. Wenn man das mit LM Studio vergleicht, ist der Unterschied sofort spürbar.
00:02:19Dieses ist zwar unglaublich stabil und kompatibel, möchte aber den gesamten
00:02:23Speicherverlauf in einem aktiven Zustand halten. OMLX ist eher wie ein modernes Betriebssystem.
00:02:30Es weiß, welche Daten jetzt im “Gehirn” sein müssen und was auf die Festplatte ausgelagert werden kann.
00:02:36Lassen Sie uns OMLX starten und selbst ausprobieren. Die Benutzeroberfläche ist recht intuitiv.
00:02:41Gleich zu Beginn erhalten wir ein Fenster, in dem wir den Speicherort für unseren Server wählen können.
00:02:47Danach werden wir aufgefordert, einen API-Schlüssel einzugeben. Das machen wir.
00:02:53Und schließlich landen wir auf diesem Dashboard, dem Haupteinstiegspunkt für den OMLX-Server.
00:03:00Von hier aus habe ich das Qwen 3.6 35B 4-Bit-Modell heruntergeladen, das wir für unsere Tests nutzen.
00:03:07Ich habe zudem dieses leere Repository mit einer agents.md-Datei vorbereitet, in der ich das Modell
00:03:13bitte, eine einfache Web-App zu erstellen, mit der man Filme suchen, auf die Merkliste setzen und bewerten kann,
00:03:19unter Verwendung eines Movie-DB-API-Schlüssels. Nichts allzu Kompliziertes für diese Demo,
00:03:24nur ein einfacher Coding-Test, um die Leistung bei realen Aufgaben zu prüfen. Auf der Dashboard-Seite
00:03:31finden wir den Bereich mit gebrauchsfertigen Code-Snippets für verschiedene KI-Agent-Harnesses,
00:03:37die wir ausführen können. Für diese Demo verwende ich das Codex CLI für die Tests.
00:03:42Nun fragen Sie sich vielleicht, warum ich nicht einfach das offizielle Claude Code CLI nutze.
00:03:47Nun, auf einem MacBook M2 zählt jeder Token. Wenn man sich die Kontext-Statistiken
00:03:54bei einem völlig leeren Projekt ansieht, verbraucht Claude Code etwa 16,2K Token allein für seine
00:04:02eigenen System-Prompts und Tool-Definitionen. In einem 32K-Fenster bleiben uns also nur 16K Token
00:04:09für das eigentliche Projekt – das ist winzig, wenn man eine Full-Stack-Anwendung baut.
00:04:14Andererseits fand ich heraus, dass Codex viel schlanker ist. Es bläht das Basisgewicht des Gesprächs
00:04:20nicht so auf, was uns mehr Spielraum zum Programmieren gibt, bevor wir das Kontext-Limit erreichen.
00:04:26Alles klar, ich starte Codex jetzt mit diesem einfachen Befehl, der hier bereitgestellt wird.
00:04:31Dann gebe ich einen einfachen Start-Prompt ein, der unsere Aufgabe erklärt, und lege los.
00:04:36Während es hier rechts arbeitet, können Sie in Echtzeit sehen, wie die Sitzung performt,
00:04:42wie viele Token produziert werden, wie viele davon gecached werden,
00:04:46und den Prozentsatz der Cache-Effizienz. Es ist auch sehr praktisch zu sehen,
00:04:51wie viele Token durchschnittlich pro Sekunde verarbeitet werden. Insgesamt dauerte es etwa 20 Minuten,
00:04:57bis dieses 35-Milliarden-Parameter Qwen 3.6 Modell auf meinem M2 MacBook Pro die Aufgabe erledigt hatte.
00:05:04Das war zu erwarten, da dies ein sehr schweres Unterfangen für dieses Modell ist. Nun gab es
00:05:10zwei oder drei Fälle, in denen ein 400er-Fehler auftrat, weil der Prompt das 30K-Kontextlimit
00:05:17meines M2 MacBooks überschritt. In jedem anderen Tool wäre das das Ende des Projekts gewesen.
00:05:24Normalerweise würde ein “/clear” das Kurzzeitgedächtnis der KI löschen, was oft zu Halluzinationen führt,
00:05:29da das Modell den gerade geschriebenen Code vergisst. Aber hier hat mich das SSD-Caching von OMLX umgehauen.
00:05:37Obwohl ich die Sitzung in Codex geleert hatte, befand sich der tatsächliche Rechenstatus meines Projekts
00:05:42immer noch auf meiner SSD. In dem Moment, als ich Codex einen neuen Prompt zum Fortfahren gab,
00:05:48erkannte OMLX das Präfix und hydrierte das “Gehirn” des Modells sofort von der Festplatte.
00:05:56Anstatt zu halluzinieren oder bei Null anzufangen, machte es genau dort weiter, wo es aufgehört hatte.
00:06:02Die Cache-Effizienz hilft in diesem Fall wirklich. Am Ende dieser Aufgabe sehen wir hier, dass Qwen 3.6
00:06:08mit Hilfe von OMLX die Aufgabe bewältigt hat, indem es 1,78 Millionen Token verarbeitet hat,
00:06:16wobei etwa 1,59 Millionen davon gecached wurden. Wir erreichten eine Cache-Effizienz von 89 %,
00:06:22was massiv ist. Die App selbst sieht ganz ordentlich aus. Wir können Filme suchen, sie zur
00:06:28Merkliste hinzufügen und bewerten. Aber wenn man die Seite aktualisiert, wird die Liste zurückgesetzt.
00:06:33Ich schätze also, die Datenbank-Lösung wurde nicht richtig implementiert, aber dennoch eine gute Leistung.
00:06:40Das sieht alles beeindruckend aus, aber ich wollte wissen, wie diese Performance im Vergleich zu einem
00:06:46Schwergewicht wie LM Studio abschneidet. Also entschied ich mich, dieselbe Aufgabe mit demselben
00:06:52Qwen 3.6 Modell und denselben Kontext-Einschränkungen laufen zu lassen. Ehrlich gesagt
00:06:58habe ich das nicht erwartet, aber die Performance bei LM Studio war tatsächlich schlechter.
00:07:04Die Aufgabe dauerte etwa 35 Minuten. Das sind bereits 15 Minuten mehr als bei OMLX.
00:07:11Mir fiel auch auf, dass LM Studio währenddessen die gesamte Leistung meines MacBooks beanspruchte.
00:07:17So sehr, dass ich auf einem zweiten Monitor nicht mal ein Video ansehen konnte, da es wegen RAM-Mangels ruckelte.
00:07:23Dieses Problem hatte ich bei OMLX nicht. Während OMLX lief, konnte ich problemlos
00:07:30im Web surfen, Videos schauen oder andere Dinge tun, während Codex im Hintergrund arbeitete.
00:07:35Bei LM Studio war das fast unmöglich. Und schauen Sie sich diese Statistiken an. Was mich noch mehr
00:07:41schockierte, war, dass die durchschnittliche Geschwindigkeit bei LM Studio 16 Token pro Sekunde betrug.
00:07:47Bei OMLX waren es etwa 47. Das erklärt, warum die Aufgabe 15 Minuten länger dauerte.
00:07:55Dennoch muss man fair bleiben: LM Studio hat keinen einzigen 400er-Fehler aufgrund von
00:08:01Kontextlimit-Engpässen wie OMLX geworfen. Die Kontextverwaltung bei LM Studio ist also sehr stabil.
00:08:08Betrachtet man das Endergebnis, war es sehr ähnlich. Ich hatte diesmal keine schicken Animationen,
00:08:13aber letztlich fühlt es sich an, als würde man denselben Output mit verschiedenen Seed-Werten
00:08:18für die gleiche Aufgabe auf dem gleichen Modell vergleichen. Ich werde also keine voreiligen Schlüsse ziehen.
00:08:25Es ist das gleiche Qwen 3.6 Modell. Sie können die Ausgabe von Qwen hier selbst beurteilen.
00:08:33Wie lautet das endgültige Urteil? Ich muss sagen, ich bin von der Performance von OMLX sehr beeindruckt.
00:08:39Wenn Sie ein MacBook mit begrenztem RAM haben und Ihren Computer nutzen wollen, während im
00:08:45Hintergrund ein lokaler KI-Agent läuft, dann ist OMLX das perfekte Tool. Es bietet quasi eine
00:08:52Speichererweiterung durch die Nutzung Ihrer SSD, kombiniert mit dem großartigen MLX-Framework,
00:08:58das Modelle auf Apple Silicon flüssiger laufen lässt. Ja, der gelegentliche 400er-Fehler bedeutet,
00:09:05dass man etwas mehr eingreifen und vielleicht ab und zu einen Clear-Befehl nutzen muss.
00:09:10Aber das ist der Kompromiss für eine dreifach schnellere Generation. Und das ist es meiner Meinung nach wert.
00:09:16Projekte wie OMLX beweisen, dass wir nicht unbedingt 128 Gigabyte RAM benötigen, um
00:09:23leistungsstarke Agenten zu betreiben. Wir brauchen nur einen smarteren Weg, den vorhandenen Speicher zu nutzen.
00:09:29Wir haben vor einigen Monaten eine Umfrage durchgeführt und festgestellt, dass die meisten Zuschauer Mac-Nutzer sind.
00:09:34Ich bin also neugierig: Haben Sie OMLX schon auf Ihren eigenen Rechnern ausprobiert?
00:09:40Wie waren Ihre bisherigen Erfahrungen? Lassen Sie es uns unten in den Kommentaren wissen.
00:09:45Das war OMLX in aller Kürze. Und Leute, wenn euch diese Art von technischer Analyse gefällt,
00:09:50dann zeigt es mir, indem ihr den Like-Button unter dem Video drückt. Vergesst auch nicht,
00:09:55unseren Kanal zu abonnieren. Das war Andris von Better Stack, wir sehen uns in den nächsten Videos.

Key Takeaway

OMLX optimiert die lokale KI-Nutzung auf Macs durch SSD-basiertes Caching und das MLX-Framework, was die Generierungsgeschwindigkeit gegenüber LM Studio verdreifacht und Multitasking bei begrenztem RAM ermöglicht.

Highlights

  • OMLX nutzt das Apple MLX-Framework und erreicht mit Zero-Copy-Arrays eine Verarbeitungsgeschwindigkeit von 47 Token pro Sekunde auf einem M2 MacBook.

  • Das Tool entlastet den Arbeitsspeicher, indem es den KV-Cache zweistufig verwaltet und ältere Gesprächsteile auf die SSD auslagert.

  • In einem Coding-Test verarbeitete OMLX 1,78 Millionen Token für eine Web-App-Entwicklung mit einer Cache-Effizienz von 89 %.

  • Ein direkter Vergleich zeigt eine Zeitersparnis von 15 Minuten gegenüber LM Studio bei derselben Programmieraufgabe.

  • OMLX ermöglicht paralleles Web-Surfen und Video-Streaming während der KI-Generierung, da es die Systemressourcen weniger blockiert als herkömmliche Runner.

Timeline

Die Architektur hinter OMLX und dem MLX-Framework

  • OMLX basiert auf Apples MLX-Framework und nutzt die Unified Memory Architecture von Apple Silicon.
  • Zero-Copy-Arrays verhindern den Datentransfer zwischen CPU und GPU über den PCI-Bus.
  • Lazy Computation optimiert den Berechnungsgraphen, indem Operationen erst bei Bedarf ausgeführt werden.

Herkömmliche PCs leiden unter getrennten Speicherpools für CPU und GPU, was ständiges Kopieren von Modellgewichten erfordert. Das MLX-Team entwickelte eine Lösung, bei der beide Einheiten denselben physischen Speicher ohne Verzögerung teilen. Diese Architektur eliminiert den Flaschenhals der Speicher-Steuer fast vollständig.

Effiziente Speicherverwaltung durch SSD-Caching

  • Ein zweistufiges System hält nur den unmittelbaren Kontext im schnellen Unified Memory.
  • Massive System-Prompts und Tool-Definitionen werden zur Entlastung des RAM auf die SSD ausgelagert.
  • OMLX agiert wie ein modernes Betriebssystem bei der Priorisierung von Gehirn- und Festplattendaten.

Während Standard-Tools wie LM Studio versuchen, den gesamten Gesprächsverlauf im aktiven RAM zu halten, friert OMLX inaktive Teile ein. Dies spart teuren Arbeitsspeicher, ohne die Geschwindigkeit für den aktuellen Kontext zu beeinträchtigen. Besonders bei langen Sitzungen bleibt das System dadurch stabil und reaktionsschnell.

Praxistest: App-Entwicklung mit Codex CLI

  • Das Qwen 3.6 35B Modell erstellt in 20 Minuten eine funktionale Film-Such-App auf einem M2 MacBook Pro.
  • Codex CLI benötigt deutlich weniger System-Tokens als das offizielle Claude Code CLI.
  • Auf einem MacBook M2 verbraucht Claude Code bereits 16,2K von 32K verfügbaren Kontext-Tokens für eigene Definitionen.

Der Testlauf umfasst die Erstellung einer Web-App mit Suchfunktion, Merkliste und Bewertungssystem. Durch die Wahl von Codex CLI bleibt mehr Spielraum für den eigentlichen Programmcode im 32K-Kontextfenster. Das schwere 35-Milliarden-Parameter-Modell bewältigt die Aufgabe trotz Hardware-Limitierungen in einer realistischen Zeitspanne.

Fehlertoleranz und Rehydrierung des Rechenstatus

  • OMLX stellt den Arbeitsstatus nach Kontext-Fehlern sofort von der SSD wieder her.
  • Eine Cache-Effizienz von 89 % verhindert Halluzinationen nach dem Leeren des Kurzzeitgedächtnisses.
  • Das Modell verarbeitet über 1,5 Millionen gecachte Token ohne Rechenverlust.

Bei Überschreitung des 30K-Kontextlimits treten gelegentlich 400er-Fehler auf, die normalerweise zum Projektverlust führen würden. OMLX erkennt jedoch bekannte Präfixe und lädt den Rechenstatus direkt von der Festplatte nach. Dadurch setzt die KI die Arbeit exakt an der Stelle fort, an der das Kurzzeitgedächtnis zuvor gelöscht wurde.

Leistungsvergleich mit LM Studio

  • LM Studio benötigt mit 35 Minuten deutlich länger für dieselbe Programmieraufgabe.
  • Die Verarbeitungsrate von LM Studio liegt bei 16 Token pro Sekunde, während OMLX 47 erreicht.
  • OMLX ermöglicht paralleles Arbeiten, während LM Studio das System für andere Aufgaben unbenutzbar macht.

Ein direkter Vergleich zeigt, dass LM Studio den RAM so stark beansprucht, dass selbst einfache Video-Wiedergabe auf einem Zweitmonitor ruckelt. OMLX bietet hingegen eine dreifach höhere Token-Rate. Trotz der höheren Geschwindigkeit erweist sich die Kontextverwaltung von LM Studio als etwas stabiler gegen API-Fehler.

Fazit zur lokalen KI-Performance auf dem Mac

  • OMLX dient als virtuelle Speichererweiterung für MacBooks mit geringem Arbeitsspeicher.
  • Smarte Speichernutzung ersetzt in vielen Fällen die Notwendigkeit für 128 GB RAM Upgrades.
  • Der Zeitgewinn durch die schnellere Generierung rechtfertigt manuelle Eingriffe bei Fehlern.

Das Tool beweist, dass leistungsstarke KI-Agenten auch auf Standard-Mac-Hardware effizient laufen können. Die Kombination aus MLX-Optimierung und SSD-Caching macht lokale Modelle alltagstauglich. Nutzer profitieren von einer flüssigeren Bedienung und der Möglichkeit, den Rechner während der KI-Berechnungen uneingeschränkt weiter zu verwenden.

Community Posts

View all posts