00:00:00Die meisten Leute denken, dass man für ein leistungsstarkes Vision-Language-Modell eine riesige GPU
00:00:05oder ein kostenpflichtiges Abo für einen Cloud-Dienst benötigt.
00:00:08Liquid AI hat jedoch vor Kurzem eine Demo ihres neuesten LFM-Modells veröffentlicht, das komplett
00:00:14im Webbrowser läuft.
00:00:16Dank WebGPU und der ONNX-Runtime kann dieses Modell Bilder und Videos lokal verarbeiten.
00:00:23Das bedeutet, dass Ihre Daten Ihren Computer nie verlassen und Sie nicht einmal eine Internetverbindung benötigen,
00:00:28sobald das Modell auf Ihrem Gerät zwischengespeichert ist.
00:00:30Ich finde das ehrlich gesagt super cool. In diesem Video schauen wir uns also
00:00:34dieses Modell an, prüfen die Performance, machen einen kleinen Test und finden heraus, ob es wirklich so stark ist,
00:00:40wie behauptet wird.
00:00:41Das wird ein Riesenspaß, also legen wir direkt los.
00:00:48LFM steht übrigens für „Liquid Foundation Model“.
00:00:52Anstatt sich nur auf die Transformer-Architektur zu verlassen, nutzt Liquid AI ein Hybrid-Design.
00:00:58Es kombiniert Faltungsblöcke mit etwas, das sich „Grouped Query Attention“ nennt.
00:01:03Das Modell mit 1,6 Milliarden Parametern ist speziell auf Bild- und Sprachverarbeitung optimiert.
00:01:09Es wurde mit einem gewaltigen Datensatz von 28 Billionen Token trainiert, wodurch es weit über
00:01:15seiner eigentlichen Gewichtsklasse spielt.
00:01:16In Benchmarks erreicht es oft die Leistung von doppelt so großen Modellen, während es auf
00:01:21Edge-Geräten wie Laptops und Handys deutlich schneller ist.
00:01:26Jetzt fragen Sie sich vielleicht: Wie haben sie es geschafft, so viel Intelligenz in ein Paket zu packen,
00:01:31das weniger als ein Gigabyte RAM verbraucht?
00:01:34Im Gegensatz zu anderen winzigen Modellen, die gekürzte oder komprimierte Versionen riesiger Cloud-Modelle sind,
00:01:40setzt Liquid AI auf eine Philosophie namens „Efficiency by Design“.
00:01:44Das „Liquid“ im Namen bezieht sich auf ihre „Linear Input Varying“-Architektur, kurz LIV.
00:01:51Während der Speicher herkömmlicher Transformer wächst, je mehr man mit ihnen interagiert,
00:01:56nutzt das Liquid-Modell ein Hybridsystem aus adaptiven Faltungsblöcken.
00:02:01Diese Blöcke fungieren im Grunde wie intelligente Filter, die nur die relevantesten lokalen
00:02:07Informationen verarbeiten und die Daten beim Durchlaufen des Modells effektiv komprimieren.
00:02:11Dadurch kann das LFM sein riesiges Kontextfenster von 32.000 Token beibehalten, ohne die üblichen
00:02:18exponentiellen Verlangsamungen oder Speicherverbrauchsspitzen herkömmlicher Transformer.
00:02:23Es gibt zudem spezifische technische Details, durch die sich dieses Modell von der Masse abhebt.
00:02:28Erstens besitzt es eine native Auflösung.
00:02:30Es verarbeitet Bilder bis zu 512 mal 512 Pixel ohne Verzerrung oder Upscaling.
00:02:37Bei größeren Bildern nutzt es eine Tiling-Strategie, die das Bild in Segmente unterteilt,
00:02:42während ein Thumbnail für den globalen Kontext erhalten bleibt.
00:02:46Zweitens ist es extrem effizient.
00:02:47Aufgrund der Hybrid-Architektur hat es einen sehr geringen Speicherbedarf und läuft oft
00:02:52mit weniger als einem Gigabyte RAM.
00:02:54Am beeindruckendsten finde ich jedoch die WebGPU-Integration.
00:02:58Die Hugging Face Space Demo zeigt, wie man es für Webcam-Untertitelung in Echtzeit nutzen kann.
00:03:04Probieren wir es also selbst aus und sehen wir uns die Performance an.
00:03:08Alles klar, schauen wir mal, wie das Ganze in der Praxis funktioniert.
00:03:11Zuerst müssen wir wohl auswählen, welches Vision-Modell wir laden wollen.
00:03:15Nehmen wir das leistungsstärkste mit FP16.
00:03:18Und laden wir es direkt mal.
00:03:20Der Download dieses Modells nimmt einiges an Zeit in Anspruch.
00:03:23Das wird alles direkt auf Ihr Gerät heruntergeladen.
00:03:25Wenn Sie die Anwendung das nächste Mal öffnen, ist alles bereits im Cache.
00:03:28Alles klar.
00:03:29Wir haben jetzt das FP16-Quantisierungsmodell heruntergeladen.
00:03:34Klicken wir auf Start und schauen wir uns das Ergebnis an.
00:03:36Oh, seht euch das an.
00:03:38„Ein Mann mit Bart und Kapuzenpullover schaut in die Kamera.“
00:03:40Okay, es kann also erkennen, welche Objekte im Video zu sehen sind, was
00:03:45ziemlich cool ist.
00:03:46Wir können also so etwas wie Objekterkennung machen.
00:03:50Mal sehen, ob es ein Handy erkennt.
00:03:51Ja, es erkennt, dass ich ein iPhone mit einer schwarzen Hülle halte.
00:03:57Das ist echt klasse.
00:03:58Schaut euch das an.
00:04:00Es passiert wirklich in Echtzeit.
00:04:02Ich bin beeindruckt.
00:04:04Und was ist hiermit?
00:04:05Erkennt es das Peace-Zeichen in meiner Hand?
00:04:10Das ist wirklich cool.
00:04:12Wie wäre es mit einem Daumen nach oben?
00:04:13Ja, „Daumen nach oben“ wird angezeigt.
00:04:15Das Modell erkennt tatsächlich alles, was ich tue, in Echtzeit.
00:04:18Mal sehen, ob es mein Mikrofon erkennt.
00:04:21Oh, es erkennt sogar, dass „Rode“ darauf steht.
00:04:24Wahnsinn, es kann sogar Text vom Gehäuse lesen, was extrem cool ist.
00:04:29Dass wir diese Bildunterschriften in Echtzeit bekommen, zeigt wirklich,
00:04:33wie leistungsfähig dieses Modell ist.
00:04:35Ich versuche jetzt mal, das Internet auszuschalten, um zu sehen, ob es immer noch läuft.
00:04:40So, das WLAN ist aus und ja, wir bekommen immer noch die gleichen Ergebnisse, was
00:04:50einfach fantastisch ist.
00:04:51Da haben Sie es also.
00:04:52Das ist das neueste Liquid Foundation Model im Überblick.
00:04:56Es ist beeindruckend, wie weit sich diese KI-Modelle in Bezug auf Quantisierung entwickelt haben
00:05:01und dass sie auf Edge-Geräten wie meinem Laptop hier laufen.
00:05:05Vor zwei Jahren hätten wir kaum geglaubt, dass das Realität werden könnte, aber heute
00:05:10wird es immer normaler, solche Modelle über WebGPU zu betreiben.
00:05:14Was halten Sie vom Liquid Foundation Model?
00:05:16Haben Sie es schon ausprobiert?
00:05:17Werden Sie es nutzen?
00:05:18Was sind Ihrer Meinung nach die besten Anwendungsfälle für so ein Modell?
00:05:21Lassen Sie es uns unten in den Kommentaren wissen.
00:05:23Und Leute, wenn euch diese Art von technischen Analysen gefällt, zeigt es mir,
00:05:27indem ihr den Like-Button drückt und unseren Kanal abonniert.
00:05:32Ich bin Andris von Better Stack und wir sehen uns in den nächsten Videos.