Googles Genie 3: Warum der Hype einen genaueren Blick verdient

BBetter Stack
Computing/SoftwareVideo & Computer GamesStocksConsumer Electronics

Transcript

00:00:00Letzte Woche hat Google Genie 3 enthüllt, ihr Flaggschiff unter den unendlichen Weltmodellen, mit dem man
00:00:05eine Umgebung simulieren und mit ihr interagieren kann wie in einem echten Videospiel.
00:00:10Und plötzlich stürzten alle Videospiel-Aktien massiv ab, aus Angst, dies könnte der
00:00:16Anfang vom Ende der Videospielindustrie sein.
00:00:20Doch dann geschah etwas noch Interessanteres.
00:00:22Ein chinesisches Tech-Unternehmen namens Robiant veröffentlichte einen eigenen Open-Source-Konkurrenten zu Genie,
00:00:28der offenbar eine noch bessere Grafik bietet als das Gegenstück von Google.
00:00:32Und jetzt sind plötzlich alle Schleusen geöffnet für das Rennen darum, welches Unternehmen
00:00:37als erstes traditionelle Videospiele durch diese neue Art von Gaming-Technologie ersetzen wird.
00:00:43Aber während alle diesen neuen Hype um unendliche Weltmodelle feiern, sage ich euch:
00:00:49Das Ganze könnte nur ein aufgeblasenes Versprechen ohne wirkliche Substanz sein.
00:00:54Warum ich mir da so sicher bin?
00:00:55Genau darüber sprechen wir im heutigen Video.
00:01:02Sobald Genie 3 veröffentlicht wurde, bin ich sofort auf die Seite geeilt, um es selbst zu testen.
00:01:07Doch sobald ich auf den Button zum Erkunden klickte, wurde mir nur ein enttäuschender 404-Fehler angezeigt.
00:01:14Und das liegt daran, dass ich in Kanada lebe.
00:01:16Vorerst erlaubt Google nur US-Bürgern, dieses
00:01:20hochmoderne technologische Wunderwerk auszuprobieren.
00:01:23Also habe ich natürlich mein VPN eingeschaltet und es erneut von einem US-Standort aus versucht.
00:01:27Diesmal erhielt ich eine weitere enttäuschende Absage: Ich müsse ein "UltraPlan"-Mitglied
00:01:33sein, um Zugriff auf diese revolutionäre Software zu erhalten.
00:01:37Und falls ihr euch fragt, was dieser UltraPlan kostet – nun ja, sagen wir einfach,
00:01:41es ist ein bisschen mehr, als ich bereit wäre zu zahlen, nur um dieses überhypte KI-Tool zu testen.
00:01:46Aber das wirft die Frage auf: Warum ist es überhaupt so schwer, an Genie 3 heranzukommen?
00:01:51Die Antwort darauf ist sehr wichtig für unsere Geschichte, aber darauf komme ich
00:01:56später in diesem Video noch zurück.
00:01:57Obwohl ich also weder Glück noch das nötige Kleingeld hatte, um Genie 3 zu testen, kam
00:02:04währenddessen auf der anderen Seite des Globus die chinesische Firma Robiont heraus –
00:02:09anscheinend eine Tochtergesellschaft der Ant Group, die wiederum mit der Alibaba Group verbunden ist,
00:02:15der Firma, der auch Qwen gehört. Sie präsentierten ihr eigenes unendliches Weltmodell
00:02:20namens Lingbot World, das überraschenderweise Open Source ist.
00:02:25Das bedeutet, wir können es tatsächlich testen und sehen, was es drauf hat.
00:02:29Die Beispiele sahen absolut beeindruckend aus.
00:02:32Doch als ich mir die Projektseite genauer ansah, folgte die nächste große Enttäuschung.
00:02:38Zwar ist die Projektseite voll von Beispielvideos, in denen man sich mit den Pfeiltasten frei
00:02:43im Raum bewegen kann, aber in der Realität befindet sich diese Version mit voller
00:02:48Charaktersteuerung noch in der Entwicklung.
00:02:51Sie planen die Veröffentlichung von "Lingbot Fast", was ein vollwertiges Äquivalent zu Genie 3 wäre,
00:02:56aber wir wissen noch nicht, wann es soweit ist.
00:02:57Derzeit haben wir Zugriff auf ihr Basismodell mit 14 Milliarden Parametern, das laut eigener Aussage
00:03:03"hochwertige, steuerbare und logisch konsistente Simulationen" bietet.
00:03:08Aber im Grunde kann dieses Modell momentan nur eines: ein Video generieren.
00:03:14Ja, nur ein Video.
00:03:16Ich war also etwas verwirrt: Wo bleibt da der Faktor der Steuerung?
00:03:20Nun, es gibt die Option, eigene intrinsische Kamerapositionswerte anzugeben, sodass man
00:03:25gewissermaßen die Kamerabewegung steuern kann – was wohl eine Alternative zur Navigation
00:03:31mit Pfeiltasten darstellt, aber man müsste das vorab aufzeichnen.
00:03:35Wie unterscheidet sich das also von jedem anderen Videogenerator da draußen, der ebenfalls
00:03:40eine Kamerasteuerung ermöglicht?
00:03:41Hier liegt der entscheidende Unterschied.
00:03:44In einem regulären KI-Videogenerator versucht das Modell immer, das nächste Einzelbild basierend
00:03:50auf dem Referenzvideo vorherzusagen. Wir haben in vielen Internet-Memes gesehen, wie furchtbar
00:03:55das schiefgeht, wenn das Video länger läuft. Das liegt daran, dass das Modell keine
00:04:00Informationen über das behält, was sich außerhalb des Bildausschnitts befindet.
00:04:04Wenn die Kamera von einem Objekt wegschwenkt und dann zurückkehrt, ist das Objekt
00:04:09vielleicht nicht mehr da, weil die gesamte Szene spontan generiert wird.
00:04:13Hier kommt das geometrische Gehirn des Lingbot-World-Modells mit seinen 14 Milliarden Parametern
00:04:18ins Spiel.
00:04:19Im Gegensatz zu einem Standardgenerator, der nur Pixel errät, nutzt Lingbot World
00:04:24Kameradaten und Posen mit 6 Freiheitsgraden, um jeden Pixel einem Punkt im 3D-Raum zuzuordnen.
00:04:31Es erschafft das, was Forscher "Objektpermanenz" nennen.
00:04:33Es versteht die mathematische Beziehung zwischen dem Kameraobjektiv und der Umgebung.
00:04:39Im Grunde merkt es sich, dass ein bestimmtes Objekt an bestimmten Koordinaten existiert.
00:04:42Und diese strukturelle Integrität ist der Grund, warum dieses Modell so riesig und rechenintensiv ist.
00:04:47Wie hungrig ist es?
00:04:52Oh Mann, lasst es mich euch sagen.
00:04:53Ich habe versucht, das Lingbot-World-Modell auf einer Instanz mit einer einzelnen RTX 1590 GPU
00:04:55zu installieren und die mitgelieferte Basis-Demo auszuführen – es ist sofort abgestürzt.
00:05:02Es war wohl naiv zu glauben, dass eine einzelne 1590 diese Last bewältigen könnte.
00:05:07Dann habe ich es mit zwei 1590ern versucht – nein, immer noch abgestürzt.
00:05:13Dann mit vier 1590ern – und wieder: Absturz.
00:05:18Schließlich habe ich einen Container mit acht RTX 1590 GPUs gestartet, um das Beispiel auszuführen,
00:05:23und es ist immer noch abgestürzt.
00:05:31Der Grund ist folgender: Wenn man dieses Modell über einen längeren Zeitraum laufen lässt,
00:05:32wächst die Datenmenge, die das Modell über die Szenen speichern muss, immer weiter an,
00:05:38bis man eine "Out of Memory"-Fehlermeldung erhält, weil schlichtweg der
00:05:44Arbeitsspeicher voll ist.
00:05:49Ich habe es schließlich geschafft, die Demo auf einem 8-GPU-Setup zum Laufen zu bringen, indem ich
00:05:50die Sample-Größe vom Standardwert 70 auf nur 20 gesenkt habe.
00:05:55Und ehrlich gesagt war der Unterschied zwischen 70 und 20 Samples gar nicht so auffällig.
00:05:59Aber das zeigt einfach, wie wahnsinnig rechenintensiv der Betrieb eines solchen
00:06:03unendlichen Weltmodells ist.
00:06:09Um auf Genie 3 zurückzukommen: Das ist genau der Grund, warum nur Ultra-Mitglieder Zugriff haben,
00:06:10weil Google irgendwie die GPU-Kosten für den Betrieb dieses Dings wieder reinholen muss.
00:06:16Und das ist auch der Grund, warum man nur wenige Sekunden für eine Demo bekommt – irgendwann
00:06:21bläht sich der Speicher so stark auf, dass das gesamte System zusammenbricht.
00:06:27Um euch eine Vorstellung zu geben, wie teuer der Betrieb auf Consumer-Hardware wäre:
00:06:32Eine einzelne RTX 1590 kostet bis zu 5.000 $.
00:06:37Jetzt nehmt acht davon – das Minimum, um das Ding überhaupt zu starten.
00:06:43Mann, allein das laut auszusprechen, klingt schon lächerlich.
00:06:48Acht Stück kosten bis zu 40.000 $, ganz zu schweigen von den anderen Komponenten
00:06:51und dem RAM, dessen Preis gerade ebenfalls explodiert.
00:06:57Wenn man das berücksichtigt – diesen Preis, das Zeitlimit von 60 Sekunden,
00:07:01auf das Genie die Durchläufe begrenzt, und das RAM-Speicherproblem – dann sieht man,
00:07:06dass dieses ganze Konzept der unendlichen Weltmodelle derzeit nur ein Hype ist.
00:07:12Mit der aktuellen Architektur ist das auf Consumer-Hardware absolut nicht machbar.
00:07:18Selbst die Entwickler beider Tools geben diese Probleme offen zu.
00:07:24Die hohen Inferenzkosten erfordern derzeit GPUs der Enterprise-Klasse,
00:07:28was die Technologie für normale Nutzer unzugänglich macht.
00:07:34Zudem fehlt der Simulation die Langzeitstabilität.
00:07:37Dies führt oft zu einem "Driften" der Umgebung, wobei die Szene über längere Zeit
00:07:39ihre strukturelle Integrität verliert.
00:07:44Exakt.
00:07:46Und wenigstens ist das Lingbot-Team ehrlich darüber. Sehen wir uns an, was Google dazu sagt.
00:07:48"Das Modell unterstützt eine kontinuierliche Interaktion von wenigen Minuten statt mehrerer Stunden."
00:07:51Ich meine, sie geben es nicht ganz so offen zu, aber wir wissen mittlerweile alle, warum das so ist.
00:07:53Deshalb sage ich euch: Traditionelle Videospiele werden so schnell nicht verschwinden.
00:07:59Das Ganze scheint momentan eher ein Wunschtraum zu sein. Vielleicht, ganz vielleicht,
00:08:04können wir in Zukunft darüber nachdenken, wenn sie diese Rechenprobleme gelöst haben.
00:08:09Aber im Moment? Bruh, kommt schon.
00:08:15Ich bin auch sehr gespannt darauf, Lingbot Fast auszuprobieren, wenn es endlich erscheint.
00:08:20Aber bis dahin glaube ich nicht, dass diese Technologie so bald den Massenmarkt erreicht.
00:08:23Wenn ihr Lingbot World trotzdem selbst ausprobieren wollt, hier mein Rat:
00:08:27Macht es nicht wie ich.
00:08:32Kauft euch keine acht RTX 1590, denn so ein Setup kostet auf Plattformen wie RunPod
00:08:37etwa 7 $ pro Stunde Laufzeit.
00:08:38Startet stattdessen einen einzelnen H200-Container, der nur 3,50 $ pro Stunde kostet,
00:08:45setzt das "nproc/node"-Flag auf 1, senkt die Sample-Zahl auf 50 oder 20 und schon
00:08:48kann es losgehen.
00:08:55Ihr könntet auch die 4-Bit-quantisierte Version des Nutzers Caelan Humphries verwenden,
00:09:01die den GPU-Speicherverbrauch deutlich reduziert und dabei eine vergleichbare visuelle Qualität bietet.
00:09:02Das könnte man technisch gesehen sogar auf einer einzelnen RTX 1590 zum Laufen bringen.
00:09:08Falls ihr das macht, lasst mich wissen, wie es lief.
00:09:13Ich selbst habe die Basis-Demo auf einem H200-Container laufen lassen und ja, im Grunde
00:09:15das gleiche Ergebnis wie auf ihrer Demo-Seite erhalten.
00:09:19Dann habe ich ein KI-Bild von einem Wikinger generiert, der gegen Loki kämpft,
00:09:21und dieses Bild in denselben Befehl eingespeist.
00:09:28Das ist das Ergebnis.
00:09:30Man sieht wohl ganz gut, wie das Modell die Integrität der Umgebung und der Burg
00:09:36über das gesamte Video beibehält, aber es entstehen immer noch seltsame Artefakte.
00:09:37Ehrlich gesagt weiß ich nicht so recht, was ich davon halten soll.
00:09:39Ich bin sicher, ich könnte ein besseres Gameplay-Video mit einer Standard ComfyUI-Pipeline erstellen.
00:09:44Falls ihr übrigens lernen wollt, wie man einen eigenen Videogenerator wie Sora baut,
00:09:48ohne diese extremen Rechenkosten, schaut euch mein Video dazu an.
00:09:52Das war also meine Einschätzung zu Genie 3, dem ganzen Hype und der Zukunft
00:09:59der Videospiele.
00:10:04Ich schätze es sehr, dass das Team hinter Lingbot seine Modelle als Open Source anbietet,
00:10:09damit wir einen besseren Einblick bekommen, wie ein Modell wie Genie funktioniert.
00:10:15Aber das ist nur meine Meinung dazu.
00:10:16Viel wichtiger ist: Was denkt ihr über diese unendlichen Weltmodelle?
00:10:20Ich bin gespannt auf eure Gedanken, also schreibt sie mir unten in die Kommentare.
00:10:25Und Leute, wenn euch dieses Video geholfen hat, zeigt es mir mit einem Klick auf den Like-Button.
00:10:27Vergesst auch nicht, unseren Kanal zu abonnieren, um mehr Videos dieser Art zu sehen.
00:10:30Ich bin Andris von Better Stack und wir sehen uns in den nächsten Videos.
00:10:35(aufgeweckte Musik)
00:10:36And folks, if you found this video useful, let me know by smashing that like button underneath
00:10:40the video.
00:10:41And also don't forget to subscribe to our channel for more videos like this one.
00:10:45This has been Andris from Better Stack and I will see you in the next videos.
00:11:00(upbeat music)

Key Takeaway

Unendliche Weltmodelle bieten zwar beeindruckende technologische Ansätze für die Zukunft des Gamings, scheitern jedoch aktuell an massiven Hardware-Kosten und mangelnder Langzeitstabilität.

Highlights

Googles Genie 3 und Robionts Lingbot World versprechen eine Revolution durch unendliche Weltmodelle.

Trotz des Hypes ist der Zugang zu Genie 3 stark eingeschränkt und an teure Abonnements gebunden.

Das Open-Source-Modell Lingbot World nutzt 14 Milliarden Parameter und ein geometrisches Gehirn für Objektpermanenz.

Extreme Hardware-Anforderungen machen den Betrieb auf Consumer-GPUs derzeit nahezu unmöglich.

Technisches Driften und mangelnde Langzeitstabilität gefährden die strukturelle Integrität der Simulationen.

Die hohen Inferenzkosten sind das Haupthindernis für eine baldige Ablösung traditioneller Videospiele.

Optimierungsmethoden wie die 4-Bit-Quantisierung bieten einen ersten Ausblick auf effizientere Nutzungsmöglichkeiten.

Timeline

Die Enthüllung von Genie 3 und die Marktreaktion

Google präsentierte mit Genie 3 ein Flaggschiff-Weltmodell, das interaktive Umgebungen wie in Videospielen simulieren kann. Diese Ankündigung sorgte kurzzeitig für einen massiven Einbruch bei Videospiel-Aktien aus Angst vor einer Disruption der Branche. Kurz darauf veröffentlichte das chinesische Unternehmen Robiont mit Lingbot World einen leistungsstarken Open-Source-Konkurrenten. Damit startete ein internationales Rennen um die Vorherrschaft bei dieser neuen Gaming-Technologie. Der Sprecher warnt jedoch direkt zu Beginn, dass der aktuelle Hype möglicherweise keine reale Substanz besitzt.

Hürden beim Zugriff auf Googles Technologie

Beim Versuch, Genie 3 selbst zu testen, stieß der Sprecher auf zahlreiche Barrieren wie Geoblocking und hohe Kosten. In Kanada war der Zugriff nur über ein VPN möglich, da Google das Tool vorerst nur für US-Bürger freigeschaltet hat. Zusätzlich ist eine Mitgliedschaft im extrem teuren "UltraPlan" erforderlich, um die Software überhaupt starten zu können. Diese künstliche Verknappung deutet bereits auf die enormen Betriebskosten hin, die im Hintergrund entstehen. Warum Google den Zugang so stark einschränkt, wird als zentrales Thema für den weiteren Verlauf des Videos angekündigt.

Lingbot World: Open Source und geometrische Logik

Als Alternative zu Google bietet Lingbot World von Robiont ein Modell mit 14 Milliarden Parametern an, das derzeit als Video-Generator fungiert. Im Gegensatz zu Standard-Generatoren nutzt dieses Modell Kameradaten und Posen mit 6 Freiheitsgraden, um eine echte Objektpermanenz zu erzeugen. Das System versteht die mathematische Beziehung zwischen der Kameralinse und dem 3D-Raum, was ein Verschwinden von Objekten beim Wegschwenken verhindert. Diese strukturelle Integrität unterscheidet es von herkömmlichen KI-Videos, die oft zu logischen Fehlern neigen. Allerdings befindet sich die volle Charaktersteuerung für das System noch in der Entwicklung.

Der Hardware-Albtraum: Rechenleistung und Speicher

Der Sprecher berichtet von seinen frustrierenden Versuchen, das Lingbot-Modell auf lokaler Hardware zu betreiben. Selbst ein Setup mit acht RTX 1590 GPUs, was einem Wert von etwa 40.000 Dollar entspricht, stürzte aufgrund von Speichermangel wiederholt ab. Das Problem liegt im exponentiellen Wachstum der Datenmenge, die für die Aufrechterhaltung der Welt im Arbeitsspeicher gehalten werden muss. Erst durch eine drastische Reduzierung der Sample-Größe konnte eine kurze Demo erfolgreich generiert werden. Dies verdeutlicht, warum Google den Zugriff auf wenige Sekunden begrenzt und nur zahlenden Kunden erlaubt.

Herausforderungen der Langzeitstabilität und Kosten

Ein großes Problem dieser Architektur ist das sogenannte "Driften", bei dem die Umgebung nach kurzer Zeit ihre Form verliert. Google gibt selbst zu, dass die Interaktion eher auf wenige Minuten als auf Stunden ausgelegt ist, was für echte Spiele unzureichend ist. Die extremen Inferenzkosten machen die Technologie für den Massenmarkt auf absehbare Zeit unzugänglich. Enterprise-GPUs sind derzeit zwingend erforderlich, um die komplexen mathematischen Berechnungen in Echtzeit durchzuführen. Daher werden traditionelle Videospiele laut Einschätzung des Sprechers vorerst nicht durch KI ersetzt werden.

Praktische Tipps und Fazit zur KI-Zukunft

Für Nutzer, die Lingbot World dennoch testen möchten, empfiehlt der Sprecher die Nutzung von H200-Containern auf Cloud-Plattformen oder eine quantisierte 4-Bit-Version. Diese optimierten Versionen reduzieren den VRAM-Verbrauch erheblich und ermöglichen den Betrieb auf einer einzelnen starken GPU. In einem eigenen Test mit einem Wikinger-Bild zeigt der Sprecher zwar gute räumliche Konsistenz, aber auch deutliche visuelle Artefakte. Er schließt mit der Feststellung ab, dass Open Source entscheidend ist, um die Funktionsweise dieser Modelle zu verstehen. Letztlich bleibt die Technologie beeindruckend, ist aber im aktuellen Stadium eher ein Versprechen als ein fertiges Produkt.

Community Posts

View all posts