00:00:00Letzte Woche hat Google Genie 3 enthüllt, ihr Flaggschiff unter den unendlichen Weltmodellen, mit dem man
00:00:05eine Umgebung simulieren und mit ihr interagieren kann wie in einem echten Videospiel.
00:00:10Und plötzlich stürzten alle Videospiel-Aktien massiv ab, aus Angst, dies könnte der
00:00:16Anfang vom Ende der Videospielindustrie sein.
00:00:20Doch dann geschah etwas noch Interessanteres.
00:00:22Ein chinesisches Tech-Unternehmen namens Robiant veröffentlichte einen eigenen Open-Source-Konkurrenten zu Genie,
00:00:28der offenbar eine noch bessere Grafik bietet als das Gegenstück von Google.
00:00:32Und jetzt sind plötzlich alle Schleusen geöffnet für das Rennen darum, welches Unternehmen
00:00:37als erstes traditionelle Videospiele durch diese neue Art von Gaming-Technologie ersetzen wird.
00:00:43Aber während alle diesen neuen Hype um unendliche Weltmodelle feiern, sage ich euch:
00:00:49Das Ganze könnte nur ein aufgeblasenes Versprechen ohne wirkliche Substanz sein.
00:00:54Warum ich mir da so sicher bin?
00:00:55Genau darüber sprechen wir im heutigen Video.
00:01:02Sobald Genie 3 veröffentlicht wurde, bin ich sofort auf die Seite geeilt, um es selbst zu testen.
00:01:07Doch sobald ich auf den Button zum Erkunden klickte, wurde mir nur ein enttäuschender 404-Fehler angezeigt.
00:01:14Und das liegt daran, dass ich in Kanada lebe.
00:01:16Vorerst erlaubt Google nur US-Bürgern, dieses
00:01:20hochmoderne technologische Wunderwerk auszuprobieren.
00:01:23Also habe ich natürlich mein VPN eingeschaltet und es erneut von einem US-Standort aus versucht.
00:01:27Diesmal erhielt ich eine weitere enttäuschende Absage: Ich müsse ein "UltraPlan"-Mitglied
00:01:33sein, um Zugriff auf diese revolutionäre Software zu erhalten.
00:01:37Und falls ihr euch fragt, was dieser UltraPlan kostet – nun ja, sagen wir einfach,
00:01:41es ist ein bisschen mehr, als ich bereit wäre zu zahlen, nur um dieses überhypte KI-Tool zu testen.
00:01:46Aber das wirft die Frage auf: Warum ist es überhaupt so schwer, an Genie 3 heranzukommen?
00:01:51Die Antwort darauf ist sehr wichtig für unsere Geschichte, aber darauf komme ich
00:01:56später in diesem Video noch zurück.
00:01:57Obwohl ich also weder Glück noch das nötige Kleingeld hatte, um Genie 3 zu testen, kam
00:02:04währenddessen auf der anderen Seite des Globus die chinesische Firma Robiont heraus –
00:02:09anscheinend eine Tochtergesellschaft der Ant Group, die wiederum mit der Alibaba Group verbunden ist,
00:02:15der Firma, der auch Qwen gehört. Sie präsentierten ihr eigenes unendliches Weltmodell
00:02:20namens Lingbot World, das überraschenderweise Open Source ist.
00:02:25Das bedeutet, wir können es tatsächlich testen und sehen, was es drauf hat.
00:02:29Die Beispiele sahen absolut beeindruckend aus.
00:02:32Doch als ich mir die Projektseite genauer ansah, folgte die nächste große Enttäuschung.
00:02:38Zwar ist die Projektseite voll von Beispielvideos, in denen man sich mit den Pfeiltasten frei
00:02:43im Raum bewegen kann, aber in der Realität befindet sich diese Version mit voller
00:02:48Charaktersteuerung noch in der Entwicklung.
00:02:51Sie planen die Veröffentlichung von "Lingbot Fast", was ein vollwertiges Äquivalent zu Genie 3 wäre,
00:02:56aber wir wissen noch nicht, wann es soweit ist.
00:02:57Derzeit haben wir Zugriff auf ihr Basismodell mit 14 Milliarden Parametern, das laut eigener Aussage
00:03:03"hochwertige, steuerbare und logisch konsistente Simulationen" bietet.
00:03:08Aber im Grunde kann dieses Modell momentan nur eines: ein Video generieren.
00:03:14Ja, nur ein Video.
00:03:16Ich war also etwas verwirrt: Wo bleibt da der Faktor der Steuerung?
00:03:20Nun, es gibt die Option, eigene intrinsische Kamerapositionswerte anzugeben, sodass man
00:03:25gewissermaßen die Kamerabewegung steuern kann – was wohl eine Alternative zur Navigation
00:03:31mit Pfeiltasten darstellt, aber man müsste das vorab aufzeichnen.
00:03:35Wie unterscheidet sich das also von jedem anderen Videogenerator da draußen, der ebenfalls
00:03:40eine Kamerasteuerung ermöglicht?
00:03:41Hier liegt der entscheidende Unterschied.
00:03:44In einem regulären KI-Videogenerator versucht das Modell immer, das nächste Einzelbild basierend
00:03:50auf dem Referenzvideo vorherzusagen. Wir haben in vielen Internet-Memes gesehen, wie furchtbar
00:03:55das schiefgeht, wenn das Video länger läuft. Das liegt daran, dass das Modell keine
00:04:00Informationen über das behält, was sich außerhalb des Bildausschnitts befindet.
00:04:04Wenn die Kamera von einem Objekt wegschwenkt und dann zurückkehrt, ist das Objekt
00:04:09vielleicht nicht mehr da, weil die gesamte Szene spontan generiert wird.
00:04:13Hier kommt das geometrische Gehirn des Lingbot-World-Modells mit seinen 14 Milliarden Parametern
00:04:18ins Spiel.
00:04:19Im Gegensatz zu einem Standardgenerator, der nur Pixel errät, nutzt Lingbot World
00:04:24Kameradaten und Posen mit 6 Freiheitsgraden, um jeden Pixel einem Punkt im 3D-Raum zuzuordnen.
00:04:31Es erschafft das, was Forscher "Objektpermanenz" nennen.
00:04:33Es versteht die mathematische Beziehung zwischen dem Kameraobjektiv und der Umgebung.
00:04:39Im Grunde merkt es sich, dass ein bestimmtes Objekt an bestimmten Koordinaten existiert.
00:04:42Und diese strukturelle Integrität ist der Grund, warum dieses Modell so riesig und rechenintensiv ist.
00:04:47Wie hungrig ist es?
00:04:52Oh Mann, lasst es mich euch sagen.
00:04:53Ich habe versucht, das Lingbot-World-Modell auf einer Instanz mit einer einzelnen RTX 1590 GPU
00:04:55zu installieren und die mitgelieferte Basis-Demo auszuführen – es ist sofort abgestürzt.
00:05:02Es war wohl naiv zu glauben, dass eine einzelne 1590 diese Last bewältigen könnte.
00:05:07Dann habe ich es mit zwei 1590ern versucht – nein, immer noch abgestürzt.
00:05:13Dann mit vier 1590ern – und wieder: Absturz.
00:05:18Schließlich habe ich einen Container mit acht RTX 1590 GPUs gestartet, um das Beispiel auszuführen,
00:05:23und es ist immer noch abgestürzt.
00:05:31Der Grund ist folgender: Wenn man dieses Modell über einen längeren Zeitraum laufen lässt,
00:05:32wächst die Datenmenge, die das Modell über die Szenen speichern muss, immer weiter an,
00:05:38bis man eine "Out of Memory"-Fehlermeldung erhält, weil schlichtweg der
00:05:44Arbeitsspeicher voll ist.
00:05:49Ich habe es schließlich geschafft, die Demo auf einem 8-GPU-Setup zum Laufen zu bringen, indem ich
00:05:50die Sample-Größe vom Standardwert 70 auf nur 20 gesenkt habe.
00:05:55Und ehrlich gesagt war der Unterschied zwischen 70 und 20 Samples gar nicht so auffällig.
00:05:59Aber das zeigt einfach, wie wahnsinnig rechenintensiv der Betrieb eines solchen
00:06:03unendlichen Weltmodells ist.
00:06:09Um auf Genie 3 zurückzukommen: Das ist genau der Grund, warum nur Ultra-Mitglieder Zugriff haben,
00:06:10weil Google irgendwie die GPU-Kosten für den Betrieb dieses Dings wieder reinholen muss.
00:06:16Und das ist auch der Grund, warum man nur wenige Sekunden für eine Demo bekommt – irgendwann
00:06:21bläht sich der Speicher so stark auf, dass das gesamte System zusammenbricht.
00:06:27Um euch eine Vorstellung zu geben, wie teuer der Betrieb auf Consumer-Hardware wäre:
00:06:32Eine einzelne RTX 1590 kostet bis zu 5.000 $.
00:06:37Jetzt nehmt acht davon – das Minimum, um das Ding überhaupt zu starten.
00:06:43Mann, allein das laut auszusprechen, klingt schon lächerlich.
00:06:48Acht Stück kosten bis zu 40.000 $, ganz zu schweigen von den anderen Komponenten
00:06:51und dem RAM, dessen Preis gerade ebenfalls explodiert.
00:06:57Wenn man das berücksichtigt – diesen Preis, das Zeitlimit von 60 Sekunden,
00:07:01auf das Genie die Durchläufe begrenzt, und das RAM-Speicherproblem – dann sieht man,
00:07:06dass dieses ganze Konzept der unendlichen Weltmodelle derzeit nur ein Hype ist.
00:07:12Mit der aktuellen Architektur ist das auf Consumer-Hardware absolut nicht machbar.
00:07:18Selbst die Entwickler beider Tools geben diese Probleme offen zu.
00:07:24Die hohen Inferenzkosten erfordern derzeit GPUs der Enterprise-Klasse,
00:07:28was die Technologie für normale Nutzer unzugänglich macht.
00:07:34Zudem fehlt der Simulation die Langzeitstabilität.
00:07:37Dies führt oft zu einem "Driften" der Umgebung, wobei die Szene über längere Zeit
00:07:39ihre strukturelle Integrität verliert.
00:07:44Exakt.
00:07:46Und wenigstens ist das Lingbot-Team ehrlich darüber. Sehen wir uns an, was Google dazu sagt.
00:07:48"Das Modell unterstützt eine kontinuierliche Interaktion von wenigen Minuten statt mehrerer Stunden."
00:07:51Ich meine, sie geben es nicht ganz so offen zu, aber wir wissen mittlerweile alle, warum das so ist.
00:07:53Deshalb sage ich euch: Traditionelle Videospiele werden so schnell nicht verschwinden.
00:07:59Das Ganze scheint momentan eher ein Wunschtraum zu sein. Vielleicht, ganz vielleicht,
00:08:04können wir in Zukunft darüber nachdenken, wenn sie diese Rechenprobleme gelöst haben.
00:08:09Aber im Moment? Bruh, kommt schon.
00:08:15Ich bin auch sehr gespannt darauf, Lingbot Fast auszuprobieren, wenn es endlich erscheint.
00:08:20Aber bis dahin glaube ich nicht, dass diese Technologie so bald den Massenmarkt erreicht.
00:08:23Wenn ihr Lingbot World trotzdem selbst ausprobieren wollt, hier mein Rat:
00:08:27Macht es nicht wie ich.
00:08:32Kauft euch keine acht RTX 1590, denn so ein Setup kostet auf Plattformen wie RunPod
00:08:37etwa 7 $ pro Stunde Laufzeit.
00:08:38Startet stattdessen einen einzelnen H200-Container, der nur 3,50 $ pro Stunde kostet,
00:08:45setzt das "nproc/node"-Flag auf 1, senkt die Sample-Zahl auf 50 oder 20 und schon
00:08:48kann es losgehen.
00:08:55Ihr könntet auch die 4-Bit-quantisierte Version des Nutzers Caelan Humphries verwenden,
00:09:01die den GPU-Speicherverbrauch deutlich reduziert und dabei eine vergleichbare visuelle Qualität bietet.
00:09:02Das könnte man technisch gesehen sogar auf einer einzelnen RTX 1590 zum Laufen bringen.
00:09:08Falls ihr das macht, lasst mich wissen, wie es lief.
00:09:13Ich selbst habe die Basis-Demo auf einem H200-Container laufen lassen und ja, im Grunde
00:09:15das gleiche Ergebnis wie auf ihrer Demo-Seite erhalten.
00:09:19Dann habe ich ein KI-Bild von einem Wikinger generiert, der gegen Loki kämpft,
00:09:21und dieses Bild in denselben Befehl eingespeist.
00:09:28Das ist das Ergebnis.
00:09:30Man sieht wohl ganz gut, wie das Modell die Integrität der Umgebung und der Burg
00:09:36über das gesamte Video beibehält, aber es entstehen immer noch seltsame Artefakte.
00:09:37Ehrlich gesagt weiß ich nicht so recht, was ich davon halten soll.
00:09:39Ich bin sicher, ich könnte ein besseres Gameplay-Video mit einer Standard ComfyUI-Pipeline erstellen.
00:09:44Falls ihr übrigens lernen wollt, wie man einen eigenen Videogenerator wie Sora baut,
00:09:48ohne diese extremen Rechenkosten, schaut euch mein Video dazu an.
00:09:52Das war also meine Einschätzung zu Genie 3, dem ganzen Hype und der Zukunft
00:09:59der Videospiele.
00:10:04Ich schätze es sehr, dass das Team hinter Lingbot seine Modelle als Open Source anbietet,
00:10:09damit wir einen besseren Einblick bekommen, wie ein Modell wie Genie funktioniert.
00:10:15Aber das ist nur meine Meinung dazu.
00:10:16Viel wichtiger ist: Was denkt ihr über diese unendlichen Weltmodelle?
00:10:20Ich bin gespannt auf eure Gedanken, also schreibt sie mir unten in die Kommentare.
00:10:25Und Leute, wenn euch dieses Video geholfen hat, zeigt es mir mit einem Klick auf den Like-Button.
00:10:27Vergesst auch nicht, unseren Kanal zu abonnieren, um mehr Videos dieser Art zu sehen.
00:10:30Ich bin Andris von Better Stack und wir sehen uns in den nächsten Videos.
00:10:35(aufgeweckte Musik)
00:10:36And folks, if you found this video useful, let me know by smashing that like button underneath
00:10:40the video.
00:10:41And also don't forget to subscribe to our channel for more videos like this one.
00:10:45This has been Andris from Better Stack and I will see you in the next videos.
00:11:00(upbeat music)