Hör auf, Docker-Images für KI zu bauen. Nutze stattdessen dieses Tool. (RunPod Flash)
BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술
Transcript
00:00:00RunPod hat gerade ein ziemlich cooles neues Service-Tool namens RunPod Flash herausgebracht.
00:00:04Es soll die Bereitstellung von serverlosen GPU-Funktionen vereinfachen.
00:00:09Bisher war es so: Um ein lokales Python-Skript auf eine Cloud-GPU zu bringen, musste man ein Docker-Image erstellen,
00:00:14die Umgebung konfigurieren, es in die Registry pushen und ein separates Deployment verwalten.
00:00:19Flash nimmt einem diese Last ab, indem es Standard-Python-Funktionen
00:00:24über einfache Decorators in Cloud-Endpunkte verwandelt, die man bei Bedarf ausführen kann.
00:00:29Im heutigen Video schauen wir uns RunPod Flash genauer an, sehen uns an, wie es funktioniert,
00:00:33und testen es selbst, indem wir einen On-Demand-KI-Videogenerator bauen.
00:00:38Das wird ein Riesenspaß, also legen wir direkt los.
00:00:41RunPod Flash funktioniert im Grunde so, dass es die Infrastrukturschicht komplett abstrahiert.
00:00:50Anstatt dass Sie das Deployment verwalten, bündelt das Flash-SDK Ihren Code und Ihre Abhängigkeiten
00:00:55und überträgt sie an einen verwalteten Worker, der nur existiert, während Ihre Funktion läuft.
00:01:01Eines der besten Features ist die automatische Umgebungssynchronisierung.
00:01:04Ich programmiere hier auf einem Mac, aber Flash übernimmt die gesamte plattformübergreifende Arbeit,
00:01:09sodass jede Library korrekt für die Linux-GPU-Worker kompiliert wird, sobald ich auf Ausführen klicke.
00:01:15Es stellt dann im Hintergrund einen serverlosen Endpunkt für jede Funktion bereit,
00:01:20was bedeutet, dass Sie für jede Aufgabe eine unabhängige Skalierung und Hardware erhalten, ohne jemals
00:01:26eine Konfigurationsdatei anzufassen. Die wahre Magie zeigt sich aber bei der Integration in einen Backend-Dienst.
00:01:31Da jede dekorierte Funktion im Grunde ein Live-API-Endpunkt ist, können Sie diese
00:01:36über eine Web-App, einen Discord-Bot oder ein mobiles Backend triggern – ganz ohne Zusatzaufwand.
00:01:42Die Architektur ist perfekt für die Skalierung, da Sie Dutzende von Jobs gleichzeitig starten können.
00:01:48Wenn zum Beispiel 10 Nutzer auf ihre KI-Videos warten, startet Flash einfach 10
00:01:54unabhängige Worker und schaltet alles wieder ab, sobald sie fertig sind. Man muss also nicht
00:01:59warten, bis eine einzige GPU die ganze Warteschlange abgearbeitet hat. Die Infrastruktur wächst oder schrumpft einfach,
00:02:05je nach Traffic. Jetzt denken Sie vielleicht, dass eine solche mehrstufige Pipeline,
00:02:10die verschiedene Hardware und Daten kombiniert, eine komplexe Orchestrierungsebene erfordert. Aber in Flash
00:02:16reicht es buchstäblich aus, eine Variable von einer Funktion zur nächsten zu übergeben. Um zu zeigen, wie mächtig
00:02:21das ist, bauen wir eine mehrstufige Pipeline. Zuerst nutzen wir einen einfachen, günstigen CPU-Worker
00:02:27für das Preprocessing. In diesem Fall werden wir die Größe von Eingabebildern adaptiv anpassen. Und wir werden
00:02:33diese Daten, also das skalierte Bild, an eine High-End RTX 5090 GPU übergeben, um ein hochauflösendes
00:02:41Video mit dem CogVideoX-Modell zu generieren. So stellen wir sicher, dass wir kein Geld für teure GPUs verschwenden,
00:02:47nur um einfache Aufgaben wie Bildskalierung zu erledigen. Wir rufen sie nur für die Funktionen auf, die wirklich
00:02:52viel Rechenleistung benötigen. Zu Beginn erstellen wir eine virtuelle Umgebung mit UV, fügen RunPod Flash hinzu
00:02:59und laden die Umgebung neu, um sicherzustellen, dass alles funktioniert und die
00:03:03Umgebungsvariablen geladen sind. Dann müssen Sie sich über „flash login“ in Ihren RunPod-Account einloggen.
00:03:09Von dort aus können wir mit der Einrichtung unserer eigentlichen Endpunkte fortfahren. Hier habe ich eine einfache Python-Datei.
00:03:14Wie Sie sehen können, ist sie ziemlich kurz und hat zwei Flash-Endpunkte. Einer übernimmt
00:03:19die adaptive Skalierung der Eingabebilder, wie ich es vorhin erwähnt habe. Und wie man hier sieht,
00:03:24wird dafür nur eine einfache CPU genutzt und ein Bild-Resizer aufgerufen. Nichts Kompliziertes. Wir brauchen
00:03:31auch nichts Besonderes für so eine einfache Bildverarbeitung. Aber beim zweiten Endpunkt haben wir unsere eigene
00:03:37Videogenerator-Pipeline, für die wir eine dedizierte GPU-Instanz mit einer RTX 5090 starten. Wir nutzen
00:03:43den CogVideoX-Generator mit 5 Milliarden Parametern, um ein Video basierend auf unserem skalierten Bild zu erstellen.
00:03:51Schauen wir uns nun an, wie es in Aktion aussieht. Wir fügen einfach ein Bild von diesem Hund hinzu
00:03:57und geben einen Prompt ein, den wir für die Videogenerierung verwenden wollen. Wenn wir jetzt zurück
00:04:02zu RunPod gehen, sehen wir zwei dedizierte Worker mit einer aktiven Warteschlange, die
00:04:07unser Bild und unser Video verarbeiten. Ich sollte erwähnen: Wenn Sie diese Endpunkte zum
00:04:12ersten Mal ausführen, kann die Pipeline deutlich länger brauchen. Das liegt daran, dass RunPod
00:04:17erst alle Abhängigkeiten installieren und die Modellgewichte herunterladen muss. Aber jeder
00:04:22darauffolgende Durchlauf wird erheblich schneller sein. Warten wir jetzt noch ein paar Sekunden,
00:04:28bis die Pipeline fertig ist. Und bitteschön, da haben wir unser schönes kleines Video.
00:04:33Im RunPod-Analytics-Tab können wir außerdem verfolgen, wie viele Deployments wir hatten, wie viele
00:04:39erfolgreich waren und wie viele fehlgeschlagen sind. Auch die Abrechnung behalten wir dort im Blick. Das war also
00:04:43RunPod Flash im Schnelldurchlauf. Ich finde das Feature wirklich super, wenn man
00:04:49einen Backend-Dienst baut, der rechenintensive KI-Aufgaben wie Bildgenerierung,
00:04:56Videogenerierung oder komplexe Dokumentenanalysen bei Bedarf erfordert. Aber was halten Sie
00:05:01von RunPod Flash? Finden Sie das Feature nützlich? Haben Sie es schon probiert? Würden Sie es nutzen?
00:05:06Lassen Sie es uns unten in den Kommentaren wissen. Und Leute, wenn euch diese Art von technischen Analysen gefällt,
00:05:10zeigt mir das gerne, indem ihr den Like-Button unter dem Video drückt. Vergesst außerdem nicht,
00:05:15unseren Kanal zu abonnieren. Ich bin Andris von Betterstack und wir sehen uns in den nächsten Videos.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video