Diese neue Engine führt lokale KI mit 10x weniger RAM aus! (Cactus)
BBetter Stack
Computing/SoftwareConsumer ElectronicsCell Phones
Transcript
00:00:00Das ist Cactus. Es ist eine Inference-Engine mit geringer Latenz, die für Mobil- und Edge-Geräte
00:00:06als gleichberechtigte Plattformen entwickelt wurde. Wenn wir KI-Modelle auf Edge-Geräten ausführen,
00:00:12wirken sie meist schwerfällig, zehren am Akku und werden oft vom Speichermanager
00:00:18des mobilen Betriebssystems beendet. Cactus versucht genau dieses Problem zu lösen, da es speziell
00:00:23für die Einschränkungen von NPUs und begrenztem RAM gebaut ist. Heute schauen wir uns
00:00:28Cactus genauer an, sehen wie es funktioniert und testen die Performance auf einem Edge-Gerät.
00:00:34Legen wir also los. Der größte Engpass für lokale KI ist eigentlich nicht die Rechenleistung, sondern
00:00:44der Speicher-Overhead. Auf einem normalen Mobilgerät beendet das Betriebssystem extrem rigoros
00:00:50Apps, deren RAM-Nutzung in die Höhe schießt. Cactus löst dies jedoch durch ein Zero-Copy
00:00:57Modellgewichte direkt aus dem Speicher ab. Es ist ein Zero-Copy-System, das nur bestimmte
00:01:02die Modellgewichte direkt aus dem Speicher. Es ist ein Zero-Copy-System, das nur die Tensoren
00:01:08in den aktiven Rechenzyklus zieht, die auch gerade benötigt werden. Man erhält die Denkleistung
00:01:13eines großen Modells, ohne das Risiko einzugehen, dass das Betriebssystem die App schließt. Um das
00:01:19zu erreichen, haben sie sich sogar vom traditionellen GGUF-Format verabschiedet und nutzen
00:01:24ihr eigenes proprietäres .CACT-Format, das dieses Mapping auf Edge-Geräten erst effektiv macht. Aber
00:01:31die eigentliche Schwerarbeit leistet die NPU, also die Neural Processing Unit. Während die meisten
00:01:37lokalen Engines standardmäßig auf die GPU setzen, ist Cactus konsequent auf NPU-First ausgelegt. Wer sich
00:01:43moderne Chips von Apple, Qualcomm oder MediaTek ansieht, stellt fest, dass alle dedizierte Hardware
00:01:50nur für neuronale Netze haben. Cactus kommuniziert direkt mit diesen Einheiten und umgeht
00:01:55die üblichen Übersetzungsschichten, die die Inference verlangsamen. Sie haben sogar
00:02:00spezifische Modelle optimiert, um diese Matrixmultiplikationseinheiten voll auszunutzen. Wenn ihr
00:02:07einen Blick auf das Cactus-Dashboard werft, seht ihr eine Liste von NPU-optimierten Modellen zum Download. Ein
00:02:12weiteres cooles Feature von Cactus ist der Hybrid-Router. Die Realität auf Edge-Geräten ist ja,
00:02:18dass lokale Modelle, egal wie optimiert sie sind, irgendwann an ihre logischen Grenzen stoßen. Und genau
00:02:23hier kommt der Hybrid-Router ins Spiel. Statt sich zwischen einem schnellen, aber limitierten lokalen Modell
00:02:29und einem klugen, aber teuren Cloud-Modell entscheiden zu müssen, kann Cactus beide nutzen und wechseln. Er verwendet
00:02:35ein konfidenzbasiertes Routing-System. Wenn man eine einfache Frage stellt, bleibt er auf der
00:02:40NPU, weil das schnell und privat ist und nichts kostet. Sobald das lokale Modell jedoch merkt,
00:02:45dass die Aufgabe zu komplex ist oder ein riesiges Kontextfenster erfordert, übergibt es die
00:02:51spezifische Anfrage automatisch an ein Frontier-Modell in der Cloud. Der Code bleibt dabei völlig gleich. Die Engine
00:02:57regelt das Failover einfach im Hintergrund. Das ist ein produktionsreifer Weg, um die Kosten
00:03:03niedrig zu halten, ohne bei komplexen Aufgaben Abstriche bei der User Experience zu machen. Das
00:03:08klingt ja alles super, aber ich wollte es selbst ausprobieren. Auf ihrer Landingpage haben sie
00:03:13diese Demo, die zeigt, wie man eine Echtzeit-Transkription mit rund 100 Millisekunden
00:03:19Latenz auf einem Edge-Gerät umsetzt. Also habe ich spontan eine kleine Swift-App mit deren
00:03:25Swift-Cactus-Paket zusammengebaut, das eine Echtzeit-Transkription über ihr lokales Parakeet-
00:03:30Sprachmodell und ein Gemini-Modell in der Cloud unterstützt. Testen wir es mal. Wie man
00:03:36sieht, kommen wir lokal beim Live-Streaming auf durchschnittlich etwa 260 Millisekunden Latenz. Und wohlgemerkt,
00:03:44ich lasse das auf einem älteren iPhone-Modell laufen, dem 12 Pro. Für ein so altes Modell
00:03:50finde ich diese Performance auf dem Gerät ziemlich gut. Wenn wir auf Cloud umstellen, wechselt Cactus
00:03:55zu Gemini 2.5 Flash als Cloud-Alternative. Aus irgendeinem Grund haben sie nicht dasselbe
00:04:01Parakeet-Modell auf ihrer Cloud-Seite, sodass ich gezwungen war, Gemini zu nehmen. Hier sehen wir,
00:04:06dass es im Schnitt bei etwa 2000 Millisekunden für eine dreisekündige Batch-Transkription liegt. Das
00:04:12war wohl auch zu erwarten, da die Daten erst zum Server und zurück müssen. Aber
00:04:17realistischerweise wird man ohnehin meistens die On-Edge-Transkription nutzen,
00:04:23während die Cloud-Option für andere Dinge wie komplexe Bildanalysen oder schwerere Aufgaben nützlich bleibt. Das
00:04:27ist also die Cactus-Engine kurz zusammengefasst, Leute. Ich finde, sie machen da einen wirklich interessanten Job. Mir gefällt,
00:04:33wie sie über On-Edge-Optimierung mittels einer maßgeschneiderten, NPU-freundlichen Architektur nachdenken. Und ich mag
00:04:37die Tatsache, dass sie so viele SDKs und Modelle für alle möglichen multimodalen Aufgaben anbieten.
00:04:43Ich bin wirklich gespannt zu sehen, wie sich ihr Produkt weiterentwickelt, und werde ihre Fortschritte definitiv im Auge behalten. Aber
00:04:50was denkt ihr über Cactus? Habt ihr es schon ausprobiert? Lasst es uns wissen,
00:04:54unten in den Kommentaren. Wenn euch diese Art von Breakdowns gefällt, zeigt es mir,
00:04:59indem ihr auf den Like-Button unter dem Video drückt. Und vergesst natürlich nicht,
00:05:03unseren Kanal zu abonnieren. Das war Andris von Better Stack, und wir sehen uns
00:05:08in den nächsten Videos wieder.
00:05:13Tschüss!
Community Posts
No posts yet. Be the first to write about this video!
Write about this video