Diese neue Engine führt lokale KI mit 10x weniger RAM aus! (Cactus)

BBetter Stack
Computing/SoftwareConsumer ElectronicsCell Phones

Transcript

00:00:00Das ist Cactus. Es ist eine Inference-Engine mit geringer Latenz, die für Mobil- und Edge-Geräte
00:00:06als gleichberechtigte Plattformen entwickelt wurde. Wenn wir KI-Modelle auf Edge-Geräten ausführen,
00:00:12wirken sie meist schwerfällig, zehren am Akku und werden oft vom Speichermanager
00:00:18des mobilen Betriebssystems beendet. Cactus versucht genau dieses Problem zu lösen, da es speziell
00:00:23für die Einschränkungen von NPUs und begrenztem RAM gebaut ist. Heute schauen wir uns
00:00:28Cactus genauer an, sehen wie es funktioniert und testen die Performance auf einem Edge-Gerät.
00:00:34Legen wir also los. Der größte Engpass für lokale KI ist eigentlich nicht die Rechenleistung, sondern
00:00:44der Speicher-Overhead. Auf einem normalen Mobilgerät beendet das Betriebssystem extrem rigoros
00:00:50Apps, deren RAM-Nutzung in die Höhe schießt. Cactus löst dies jedoch durch ein Zero-Copy
00:00:57Modellgewichte direkt aus dem Speicher ab. Es ist ein Zero-Copy-System, das nur bestimmte
00:01:02die Modellgewichte direkt aus dem Speicher. Es ist ein Zero-Copy-System, das nur die Tensoren
00:01:08in den aktiven Rechenzyklus zieht, die auch gerade benötigt werden. Man erhält die Denkleistung
00:01:13eines großen Modells, ohne das Risiko einzugehen, dass das Betriebssystem die App schließt. Um das
00:01:19zu erreichen, haben sie sich sogar vom traditionellen GGUF-Format verabschiedet und nutzen
00:01:24ihr eigenes proprietäres .CACT-Format, das dieses Mapping auf Edge-Geräten erst effektiv macht. Aber
00:01:31die eigentliche Schwerarbeit leistet die NPU, also die Neural Processing Unit. Während die meisten
00:01:37lokalen Engines standardmäßig auf die GPU setzen, ist Cactus konsequent auf NPU-First ausgelegt. Wer sich
00:01:43moderne Chips von Apple, Qualcomm oder MediaTek ansieht, stellt fest, dass alle dedizierte Hardware
00:01:50nur für neuronale Netze haben. Cactus kommuniziert direkt mit diesen Einheiten und umgeht
00:01:55die üblichen Übersetzungsschichten, die die Inference verlangsamen. Sie haben sogar
00:02:00spezifische Modelle optimiert, um diese Matrixmultiplikationseinheiten voll auszunutzen. Wenn ihr
00:02:07einen Blick auf das Cactus-Dashboard werft, seht ihr eine Liste von NPU-optimierten Modellen zum Download. Ein
00:02:12weiteres cooles Feature von Cactus ist der Hybrid-Router. Die Realität auf Edge-Geräten ist ja,
00:02:18dass lokale Modelle, egal wie optimiert sie sind, irgendwann an ihre logischen Grenzen stoßen. Und genau
00:02:23hier kommt der Hybrid-Router ins Spiel. Statt sich zwischen einem schnellen, aber limitierten lokalen Modell
00:02:29und einem klugen, aber teuren Cloud-Modell entscheiden zu müssen, kann Cactus beide nutzen und wechseln. Er verwendet
00:02:35ein konfidenzbasiertes Routing-System. Wenn man eine einfache Frage stellt, bleibt er auf der
00:02:40NPU, weil das schnell und privat ist und nichts kostet. Sobald das lokale Modell jedoch merkt,
00:02:45dass die Aufgabe zu komplex ist oder ein riesiges Kontextfenster erfordert, übergibt es die
00:02:51spezifische Anfrage automatisch an ein Frontier-Modell in der Cloud. Der Code bleibt dabei völlig gleich. Die Engine
00:02:57regelt das Failover einfach im Hintergrund. Das ist ein produktionsreifer Weg, um die Kosten
00:03:03niedrig zu halten, ohne bei komplexen Aufgaben Abstriche bei der User Experience zu machen. Das
00:03:08klingt ja alles super, aber ich wollte es selbst ausprobieren. Auf ihrer Landingpage haben sie
00:03:13diese Demo, die zeigt, wie man eine Echtzeit-Transkription mit rund 100 Millisekunden
00:03:19Latenz auf einem Edge-Gerät umsetzt. Also habe ich spontan eine kleine Swift-App mit deren
00:03:25Swift-Cactus-Paket zusammengebaut, das eine Echtzeit-Transkription über ihr lokales Parakeet-
00:03:30Sprachmodell und ein Gemini-Modell in der Cloud unterstützt. Testen wir es mal. Wie man
00:03:36sieht, kommen wir lokal beim Live-Streaming auf durchschnittlich etwa 260 Millisekunden Latenz. Und wohlgemerkt,
00:03:44ich lasse das auf einem älteren iPhone-Modell laufen, dem 12 Pro. Für ein so altes Modell
00:03:50finde ich diese Performance auf dem Gerät ziemlich gut. Wenn wir auf Cloud umstellen, wechselt Cactus
00:03:55zu Gemini 2.5 Flash als Cloud-Alternative. Aus irgendeinem Grund haben sie nicht dasselbe
00:04:01Parakeet-Modell auf ihrer Cloud-Seite, sodass ich gezwungen war, Gemini zu nehmen. Hier sehen wir,
00:04:06dass es im Schnitt bei etwa 2000 Millisekunden für eine dreisekündige Batch-Transkription liegt. Das
00:04:12war wohl auch zu erwarten, da die Daten erst zum Server und zurück müssen. Aber
00:04:17realistischerweise wird man ohnehin meistens die On-Edge-Transkription nutzen,
00:04:23während die Cloud-Option für andere Dinge wie komplexe Bildanalysen oder schwerere Aufgaben nützlich bleibt. Das
00:04:27ist also die Cactus-Engine kurz zusammengefasst, Leute. Ich finde, sie machen da einen wirklich interessanten Job. Mir gefällt,
00:04:33wie sie über On-Edge-Optimierung mittels einer maßgeschneiderten, NPU-freundlichen Architektur nachdenken. Und ich mag
00:04:37die Tatsache, dass sie so viele SDKs und Modelle für alle möglichen multimodalen Aufgaben anbieten.
00:04:43Ich bin wirklich gespannt zu sehen, wie sich ihr Produkt weiterentwickelt, und werde ihre Fortschritte definitiv im Auge behalten. Aber
00:04:50was denkt ihr über Cactus? Habt ihr es schon ausprobiert? Lasst es uns wissen,
00:04:54unten in den Kommentaren. Wenn euch diese Art von Breakdowns gefällt, zeigt es mir,
00:04:59indem ihr auf den Like-Button unter dem Video drückt. Und vergesst natürlich nicht,
00:05:03unseren Kanal zu abonnieren. Das war Andris von Better Stack, und wir sehen uns
00:05:08in den nächsten Videos wieder.
00:05:13Tschüss!

Key Takeaway

Die NPU-fokussierte Cactus-Engine optimiert die lokale Ausführung von KI-Modellen auf Edge-Geräten durch ein RAM-schonendes .CACT-Format und automatisiertes Cloud-Failover für komplexe Aufgaben.

Highlights

  • Die Inference-Engine Cactus führt lokale KI-Modelle auf Mobil- und Edge-Geräten mit bis zu 10x weniger RAM-Bedarf aus.

  • Das System umgeht traditionelle GGUF-Formate und nutzt ein proprietäres .CACT-Format für direktes Tensor-Mapping aus dem Speicher.

  • Cactus ist als NPU-First-Architektur aufgebaut und kommuniziert ohne verlangsamende Übersetzungsschichten direkt mit den KI-Chips von Apple, Qualcomm und MediaTek.

  • Ein integrierter Hybrid-Router wechselt über ein konfidenzbasiertes Routing-System automatisch zwischen lokaler NPU-Verarbeitung und Cloud-Modellen wie Gemini 2.5 Flash.

  • Ein Live-Test der lokalen Echtzeit-Transkription mit dem Parakeet-Sprachmodell auf einem älteren iPhone 12 Pro erzielt eine Latenz von 260 Millisekunden.

Timeline

Architektur und Speicheroptimierung für Edge-Geräte

  • Begrenzter Arbeitsspeicher und rigide Betriebssystem-Manager bilden die größte Hürde für lokale KI auf Mobilgeräten.
  • Ein Zero-Copy-System lädt ausschließlich die aktuell für den Rechenzyklus benötigten Tensoren direkt aus dem Speicher.
  • Das speziell entwickelte .CACT-Dateiformat ersetzt das herkömmliche GGUF-Format.

Lokale KI-Anwendungen scheitern auf Mobilgeräten oft am hohen Speicher-Overhead, da Betriebssysteme ressourcenintensive Apps automatisch beenden. Durch das Laden benötigter Gewichte direkt aus dem Speicher bleibt die App-Stabilität gewahrt. Das proprietäre .CACT-Format ermöglicht dieses präzise Mapping auf Edge-Hardware überhaupt erst.

Direkte NPU-Ansteuerung und KI-Modellauswahl

  • Die Engine läuft standardmäßig direkt auf den dedizierten Hardware-Einheiten für neuronale Netze.
  • Der Verzicht auf übliche Übersetzungsschichten beschleunigt die Berechnungen.
  • Ein integriertes Dashboard bietet Zugriff auf speziell für Matrixmultiplikationseinheiten optimierte Modelle.

Während übliche Frameworks primär die GPU ansprechen, setzt dieses System konsequent auf die NPU moderner Chipsätze. Die direkte Kommunikation mit den Prozessoren von Apple, Qualcomm und MediaTek verhindert Performance-Verluste. Die im Dashboard verfügbaren Modelle nutzen diese spezifischen Hardware-Strukturen vollständig aus.

Kosten- und Leistungskontrolle durch den Hybrid-Router

  • Ein konfidenzbasiertes Routing-System steuert die Verteilung der Anfragen im Hintergrund.
  • Einfache und datenschutzsensible Aufgaben verbleiben ohne Zusatzkosten auf der lokalen NPU.
  • Komplexe Aufgaben mit hohem Kontextbedarf werden automatisch an Frontier-Modelle in der Cloud übergeben.

Lokale Modelle stoßen bei komplexen logischen Abfragen oder großen Kontextfenstern an physische Grenzen. Der Hybrid-Router fängt diese Limitierungen auf, indem er nahtlos und bei identischem Code-Unterbau in die Cloud wechselt. Dieses Failover-Prinzip sichert die User Experience, während die Betriebskosten für Entwickler minimal bleiben.

Latenzmessung im Live-Test auf dem iPhone 12 Pro

  • Die lokale Echtzeit-Transkription über das Parakeet-Modell erreicht eine Latenz von 260 Millisekunden auf einem iPhone 12 Pro.
  • Der Wechsel auf das Cloud-Modell Gemini 2.5 Flash erhöht die Latenz bei einer dreisekündigen Batch-Transkription auf 2000 Millisekunden.
  • Mehrere Software Development Kits erlauben die Umsetzung multimodaler Aufgaben auf Edge-Geräten.

Ein Praxistest mit einer Swift-App validiert die Performance auf älterer Mobilhardware. Die On-Edge-Transkription liefert extrem schnelle Ergebnisse für den täglichen Einsatz, während die Cloud-Variante bedingt durch den Netzwerk-Datenweg spürbar langsamer agiert. Die Cloud-Option empfiehlt sich daher primär für rechenintensive Bildanalysen oder schwere logische Aufgaben.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video