Diese neue Engine führt lokale KI mit 10x weniger RAM aus! (Cactus)

Deutschالعربية English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareConsumer ElectronicsCell Phones

Transcript

00:00:00Das ist Cactus. Es ist eine Inference-Engine mit geringer Latenz, die für Mobil- und Edge-Geräte

00:00:06als gleichberechtigte Plattformen entwickelt wurde. Wenn wir KI-Modelle auf Edge-Geräten ausführen,

00:00:12wirken sie meist schwerfällig, zehren am Akku und werden oft vom Speichermanager

00:00:18des mobilen Betriebssystems beendet. Cactus versucht genau dieses Problem zu lösen, da es speziell

00:00:23für die Einschränkungen von NPUs und begrenztem RAM gebaut ist. Heute schauen wir uns

00:00:28Cactus genauer an, sehen wie es funktioniert und testen die Performance auf einem Edge-Gerät.

00:00:34Legen wir also los. Der größte Engpass für lokale KI ist eigentlich nicht die Rechenleistung, sondern

00:00:44der Speicher-Overhead. Auf einem normalen Mobilgerät beendet das Betriebssystem extrem rigoros

00:00:50Apps, deren RAM-Nutzung in die Höhe schießt. Cactus löst dies jedoch durch ein Zero-Copy

00:00:57Modellgewichte direkt aus dem Speicher ab. Es ist ein Zero-Copy-System, das nur bestimmte

00:01:02die Modellgewichte direkt aus dem Speicher. Es ist ein Zero-Copy-System, das nur die Tensoren

00:01:08in den aktiven Rechenzyklus zieht, die auch gerade benötigt werden. Man erhält die Denkleistung

00:01:13eines großen Modells, ohne das Risiko einzugehen, dass das Betriebssystem die App schließt. Um das

00:01:19zu erreichen, haben sie sich sogar vom traditionellen GGUF-Format verabschiedet und nutzen

00:01:24ihr eigenes proprietäres .CACT-Format, das dieses Mapping auf Edge-Geräten erst effektiv macht. Aber

00:01:31die eigentliche Schwerarbeit leistet die NPU, also die Neural Processing Unit. Während die meisten

00:01:37lokalen Engines standardmäßig auf die GPU setzen, ist Cactus konsequent auf NPU-First ausgelegt. Wer sich

00:01:43moderne Chips von Apple, Qualcomm oder MediaTek ansieht, stellt fest, dass alle dedizierte Hardware

00:01:50nur für neuronale Netze haben. Cactus kommuniziert direkt mit diesen Einheiten und umgeht

00:01:55die üblichen Übersetzungsschichten, die die Inference verlangsamen. Sie haben sogar

00:02:00spezifische Modelle optimiert, um diese Matrixmultiplikationseinheiten voll auszunutzen. Wenn ihr

00:02:07einen Blick auf das Cactus-Dashboard werft, seht ihr eine Liste von NPU-optimierten Modellen zum Download. Ein

00:02:12weiteres cooles Feature von Cactus ist der Hybrid-Router. Die Realität auf Edge-Geräten ist ja,

00:02:18dass lokale Modelle, egal wie optimiert sie sind, irgendwann an ihre logischen Grenzen stoßen. Und genau

00:02:23hier kommt der Hybrid-Router ins Spiel. Statt sich zwischen einem schnellen, aber limitierten lokalen Modell

00:02:29und einem klugen, aber teuren Cloud-Modell entscheiden zu müssen, kann Cactus beide nutzen und wechseln. Er verwendet

00:02:35ein konfidenzbasiertes Routing-System. Wenn man eine einfache Frage stellt, bleibt er auf der

00:02:40NPU, weil das schnell und privat ist und nichts kostet. Sobald das lokale Modell jedoch merkt,

00:02:45dass die Aufgabe zu komplex ist oder ein riesiges Kontextfenster erfordert, übergibt es die

00:02:51spezifische Anfrage automatisch an ein Frontier-Modell in der Cloud. Der Code bleibt dabei völlig gleich. Die Engine

00:02:57regelt das Failover einfach im Hintergrund. Das ist ein produktionsreifer Weg, um die Kosten

00:03:03niedrig zu halten, ohne bei komplexen Aufgaben Abstriche bei der User Experience zu machen. Das

00:03:08klingt ja alles super, aber ich wollte es selbst ausprobieren. Auf ihrer Landingpage haben sie

00:03:13diese Demo, die zeigt, wie man eine Echtzeit-Transkription mit rund 100 Millisekunden

00:03:19Latenz auf einem Edge-Gerät umsetzt. Also habe ich spontan eine kleine Swift-App mit deren

00:03:25Swift-Cactus-Paket zusammengebaut, das eine Echtzeit-Transkription über ihr lokales Parakeet-

00:03:30Sprachmodell und ein Gemini-Modell in der Cloud unterstützt. Testen wir es mal. Wie man

00:03:36sieht, kommen wir lokal beim Live-Streaming auf durchschnittlich etwa 260 Millisekunden Latenz. Und wohlgemerkt,

00:03:44ich lasse das auf einem älteren iPhone-Modell laufen, dem 12 Pro. Für ein so altes Modell

00:03:50finde ich diese Performance auf dem Gerät ziemlich gut. Wenn wir auf Cloud umstellen, wechselt Cactus

00:03:55zu Gemini 2.5 Flash als Cloud-Alternative. Aus irgendeinem Grund haben sie nicht dasselbe

00:04:01Parakeet-Modell auf ihrer Cloud-Seite, sodass ich gezwungen war, Gemini zu nehmen. Hier sehen wir,

00:04:06dass es im Schnitt bei etwa 2000 Millisekunden für eine dreisekündige Batch-Transkription liegt. Das

00:04:12war wohl auch zu erwarten, da die Daten erst zum Server und zurück müssen. Aber

00:04:17realistischerweise wird man ohnehin meistens die On-Edge-Transkription nutzen,

00:04:23während die Cloud-Option für andere Dinge wie komplexe Bildanalysen oder schwerere Aufgaben nützlich bleibt. Das

00:04:27ist also die Cactus-Engine kurz zusammengefasst, Leute. Ich finde, sie machen da einen wirklich interessanten Job. Mir gefällt,

00:04:33wie sie über On-Edge-Optimierung mittels einer maßgeschneiderten, NPU-freundlichen Architektur nachdenken. Und ich mag

00:04:37die Tatsache, dass sie so viele SDKs und Modelle für alle möglichen multimodalen Aufgaben anbieten.

00:04:43Ich bin wirklich gespannt zu sehen, wie sich ihr Produkt weiterentwickelt, und werde ihre Fortschritte definitiv im Auge behalten. Aber

00:04:50was denkt ihr über Cactus? Habt ihr es schon ausprobiert? Lasst es uns wissen,

00:04:54unten in den Kommentaren. Wenn euch diese Art von Breakdowns gefällt, zeigt es mir,

00:04:59indem ihr auf den Like-Button unter dem Video drückt. Und vergesst natürlich nicht,

00:05:03unseren Kanal zu abonnieren. Das war Andris von Better Stack, und wir sehen uns

00:05:08in den nächsten Videos wieder.

00:05:13Tschüss!

Key Takeaway

Die NPU-fokussierte Cactus-Engine optimiert die lokale Ausführung von KI-Modellen auf Edge-Geräten durch ein RAM-schonendes .CACT-Format und automatisiertes Cloud-Failover für komplexe Aufgaben.

Highlights

Die Inference-Engine Cactus führt lokale KI-Modelle auf Mobil- und Edge-Geräten mit bis zu 10x weniger RAM-Bedarf aus.
Das System umgeht traditionelle GGUF-Formate und nutzt ein proprietäres .CACT-Format für direktes Tensor-Mapping aus dem Speicher.
Cactus ist als NPU-First-Architektur aufgebaut und kommuniziert ohne verlangsamende Übersetzungsschichten direkt mit den KI-Chips von Apple, Qualcomm und MediaTek.
Ein integrierter Hybrid-Router wechselt über ein konfidenzbasiertes Routing-System automatisch zwischen lokaler NPU-Verarbeitung und Cloud-Modellen wie Gemini 2.5 Flash.
Ein Live-Test der lokalen Echtzeit-Transkription mit dem Parakeet-Sprachmodell auf einem älteren iPhone 12 Pro erzielt eine Latenz von 260 Millisekunden.

Timeline

Architektur und Speicheroptimierung für Edge-Geräte

Begrenzter Arbeitsspeicher und rigide Betriebssystem-Manager bilden die größte Hürde für lokale KI auf Mobilgeräten.
Ein Zero-Copy-System lädt ausschließlich die aktuell für den Rechenzyklus benötigten Tensoren direkt aus dem Speicher.
Das speziell entwickelte .CACT-Dateiformat ersetzt das herkömmliche GGUF-Format.

Lokale KI-Anwendungen scheitern auf Mobilgeräten oft am hohen Speicher-Overhead, da Betriebssysteme ressourcenintensive Apps automatisch beenden. Durch das Laden benötigter Gewichte direkt aus dem Speicher bleibt die App-Stabilität gewahrt. Das proprietäre .CACT-Format ermöglicht dieses präzise Mapping auf Edge-Hardware überhaupt erst.

Direkte NPU-Ansteuerung und KI-Modellauswahl

Die Engine läuft standardmäßig direkt auf den dedizierten Hardware-Einheiten für neuronale Netze.
Der Verzicht auf übliche Übersetzungsschichten beschleunigt die Berechnungen.
Ein integriertes Dashboard bietet Zugriff auf speziell für Matrixmultiplikationseinheiten optimierte Modelle.

Während übliche Frameworks primär die GPU ansprechen, setzt dieses System konsequent auf die NPU moderner Chipsätze. Die direkte Kommunikation mit den Prozessoren von Apple, Qualcomm und MediaTek verhindert Performance-Verluste. Die im Dashboard verfügbaren Modelle nutzen diese spezifischen Hardware-Strukturen vollständig aus.

Kosten- und Leistungskontrolle durch den Hybrid-Router

Ein konfidenzbasiertes Routing-System steuert die Verteilung der Anfragen im Hintergrund.
Einfache und datenschutzsensible Aufgaben verbleiben ohne Zusatzkosten auf der lokalen NPU.
Komplexe Aufgaben mit hohem Kontextbedarf werden automatisch an Frontier-Modelle in der Cloud übergeben.

Lokale Modelle stoßen bei komplexen logischen Abfragen oder großen Kontextfenstern an physische Grenzen. Der Hybrid-Router fängt diese Limitierungen auf, indem er nahtlos und bei identischem Code-Unterbau in die Cloud wechselt. Dieses Failover-Prinzip sichert die User Experience, während die Betriebskosten für Entwickler minimal bleiben.

Latenzmessung im Live-Test auf dem iPhone 12 Pro

Die lokale Echtzeit-Transkription über das Parakeet-Modell erreicht eine Latenz von 260 Millisekunden auf einem iPhone 12 Pro.
Der Wechsel auf das Cloud-Modell Gemini 2.5 Flash erhöht die Latenz bei einer dreisekündigen Batch-Transkription auf 2000 Millisekunden.
Mehrere Software Development Kits erlauben die Umsetzung multimodaler Aufgaben auf Edge-Geräten.

Ein Praxistest mit einer Swift-App validiert die Performance auf älterer Mobilhardware. Die On-Edge-Transkription liefert extrem schnelle Ergebnisse für den täglichen Einsatz, während die Cloud-Variante bedingt durch den Netzwerk-Datenweg spürbar langsamer agiert. Die Cloud-Option empfiehlt sich daher primär für rechenintensive Bildanalysen oder schwere logische Aufgaben.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video