00:00:00RunPod hat gerade ein ziemlich cooles neues Service-Tool namens RunPod Flash herausgebracht.
00:00:04Es soll die Bereitstellung von serverlosen GPU-Funktionen vereinfachen.
00:00:09Bisher war es so: Um ein lokales Python-Skript auf eine Cloud-GPU zu bringen, musste man ein Docker-Image erstellen,
00:00:14die Umgebung konfigurieren, es in die Registry pushen und ein separates Deployment verwalten.
00:00:19Flash nimmt einem diese Last ab, indem es Standard-Python-Funktionen
00:00:24über einfache Decorators in Cloud-Endpunkte verwandelt, die man bei Bedarf ausführen kann.
00:00:29Im heutigen Video schauen wir uns RunPod Flash genauer an, sehen uns an, wie es funktioniert,
00:00:33und testen es selbst, indem wir einen On-Demand-KI-Videogenerator bauen.
00:00:38Das wird ein Riesenspaß, also legen wir direkt los.
00:00:41RunPod Flash funktioniert im Grunde so, dass es die Infrastrukturschicht komplett abstrahiert.
00:00:50Anstatt dass Sie das Deployment verwalten, bündelt das Flash-SDK Ihren Code und Ihre Abhängigkeiten
00:00:55und überträgt sie an einen verwalteten Worker, der nur existiert, während Ihre Funktion läuft.
00:01:01Eines der besten Features ist die automatische Umgebungssynchronisierung.
00:01:04Ich programmiere hier auf einem Mac, aber Flash übernimmt die gesamte plattformübergreifende Arbeit,
00:01:09sodass jede Library korrekt für die Linux-GPU-Worker kompiliert wird, sobald ich auf Ausführen klicke.
00:01:15Es stellt dann im Hintergrund einen serverlosen Endpunkt für jede Funktion bereit,
00:01:20was bedeutet, dass Sie für jede Aufgabe eine unabhängige Skalierung und Hardware erhalten, ohne jemals
00:01:26eine Konfigurationsdatei anzufassen. Die wahre Magie zeigt sich aber bei der Integration in einen Backend-Dienst.
00:01:31Da jede dekorierte Funktion im Grunde ein Live-API-Endpunkt ist, können Sie diese
00:01:36über eine Web-App, einen Discord-Bot oder ein mobiles Backend triggern – ganz ohne Zusatzaufwand.
00:01:42Die Architektur ist perfekt für die Skalierung, da Sie Dutzende von Jobs gleichzeitig starten können.
00:01:48Wenn zum Beispiel 10 Nutzer auf ihre KI-Videos warten, startet Flash einfach 10
00:01:54unabhängige Worker und schaltet alles wieder ab, sobald sie fertig sind. Man muss also nicht
00:01:59warten, bis eine einzige GPU die ganze Warteschlange abgearbeitet hat. Die Infrastruktur wächst oder schrumpft einfach,
00:02:05je nach Traffic. Jetzt denken Sie vielleicht, dass eine solche mehrstufige Pipeline,
00:02:10die verschiedene Hardware und Daten kombiniert, eine komplexe Orchestrierungsebene erfordert. Aber in Flash
00:02:16reicht es buchstäblich aus, eine Variable von einer Funktion zur nächsten zu übergeben. Um zu zeigen, wie mächtig
00:02:21das ist, bauen wir eine mehrstufige Pipeline. Zuerst nutzen wir einen einfachen, günstigen CPU-Worker
00:02:27für das Preprocessing. In diesem Fall werden wir die Größe von Eingabebildern adaptiv anpassen. Und wir werden
00:02:33diese Daten, also das skalierte Bild, an eine High-End RTX 5090 GPU übergeben, um ein hochauflösendes
00:02:41Video mit dem CogVideoX-Modell zu generieren. So stellen wir sicher, dass wir kein Geld für teure GPUs verschwenden,
00:02:47nur um einfache Aufgaben wie Bildskalierung zu erledigen. Wir rufen sie nur für die Funktionen auf, die wirklich
00:02:52viel Rechenleistung benötigen. Zu Beginn erstellen wir eine virtuelle Umgebung mit UV, fügen RunPod Flash hinzu
00:02:59und laden die Umgebung neu, um sicherzustellen, dass alles funktioniert und die
00:03:03Umgebungsvariablen geladen sind. Dann müssen Sie sich über „flash login“ in Ihren RunPod-Account einloggen.
00:03:09Von dort aus können wir mit der Einrichtung unserer eigentlichen Endpunkte fortfahren. Hier habe ich eine einfache Python-Datei.
00:03:14Wie Sie sehen können, ist sie ziemlich kurz und hat zwei Flash-Endpunkte. Einer übernimmt
00:03:19die adaptive Skalierung der Eingabebilder, wie ich es vorhin erwähnt habe. Und wie man hier sieht,
00:03:24wird dafür nur eine einfache CPU genutzt und ein Bild-Resizer aufgerufen. Nichts Kompliziertes. Wir brauchen
00:03:31auch nichts Besonderes für so eine einfache Bildverarbeitung. Aber beim zweiten Endpunkt haben wir unsere eigene
00:03:37Videogenerator-Pipeline, für die wir eine dedizierte GPU-Instanz mit einer RTX 5090 starten. Wir nutzen
00:03:43den CogVideoX-Generator mit 5 Milliarden Parametern, um ein Video basierend auf unserem skalierten Bild zu erstellen.
00:03:51Schauen wir uns nun an, wie es in Aktion aussieht. Wir fügen einfach ein Bild von diesem Hund hinzu
00:03:57und geben einen Prompt ein, den wir für die Videogenerierung verwenden wollen. Wenn wir jetzt zurück
00:04:02zu RunPod gehen, sehen wir zwei dedizierte Worker mit einer aktiven Warteschlange, die
00:04:07unser Bild und unser Video verarbeiten. Ich sollte erwähnen: Wenn Sie diese Endpunkte zum
00:04:12ersten Mal ausführen, kann die Pipeline deutlich länger brauchen. Das liegt daran, dass RunPod
00:04:17erst alle Abhängigkeiten installieren und die Modellgewichte herunterladen muss. Aber jeder
00:04:22darauffolgende Durchlauf wird erheblich schneller sein. Warten wir jetzt noch ein paar Sekunden,
00:04:28bis die Pipeline fertig ist. Und bitteschön, da haben wir unser schönes kleines Video.
00:04:33Im RunPod-Analytics-Tab können wir außerdem verfolgen, wie viele Deployments wir hatten, wie viele
00:04:39erfolgreich waren und wie viele fehlgeschlagen sind. Auch die Abrechnung behalten wir dort im Blick. Das war also
00:04:43RunPod Flash im Schnelldurchlauf. Ich finde das Feature wirklich super, wenn man
00:04:49einen Backend-Dienst baut, der rechenintensive KI-Aufgaben wie Bildgenerierung,
00:04:56Videogenerierung oder komplexe Dokumentenanalysen bei Bedarf erfordert. Aber was halten Sie
00:05:01von RunPod Flash? Finden Sie das Feature nützlich? Haben Sie es schon probiert? Würden Sie es nutzen?
00:05:06Lassen Sie es uns unten in den Kommentaren wissen. Und Leute, wenn euch diese Art von technischen Analysen gefällt,
00:05:10zeigt mir das gerne, indem ihr den Like-Button unter dem Video drückt. Vergesst außerdem nicht,
00:05:15unseren Kanal zu abonnieren. Ich bin Andris von Betterstack und wir sehen uns in den nächsten Videos.