Hype oder Game Changer? | Deep Dive
MMaximilian Schwarzmüller
Computing/SoftwareBusiness NewsInternet Technology
Transcript
00:00:00Vor ein paar Stunden gab es eine ziemlich große Ankündigung. Oder einen ziemlich großen Hype. Wir wissen
00:00:06es noch nicht und ich würde die Option mit dem Hype definitiv nicht ausschließen. Den sinnlosen Hype-Teil. Aber wenn
00:00:13es wahr ist, ist es in der Tat eine große Ankündigung. Denn Alexander Wedin, den ich nicht kannte und den Sie wahrscheinlich
00:00:20auch nicht kannten, kündigte Sub-Q an, was für sub-quadratisch steht – ein großer Durchbruch bei der
00:00:28LLM-Intelligenz. Und was er hier angekündigt hat, ist ein völlig neuer Typ von Large Language Model, der sich bei
00:00:36Long-Context-Aufgaben auszeichnet, ohne – zumindest behauptet er das – die "Intelligenz" zu verlieren –
00:00:45in Anführungszeichen, die Modelle generieren Token, aber das verleiht ihnen am Ende ihre Intelligenz – also
00:00:52ohne die Intelligenz zu verlieren, die Sie von aktuellen Spitzenmodellen wie Opus 4.7, GPT 5.5 und so weiter gewohnt sind.
00:00:59Was er nun in dem Ankündigungspost auf X erwähnt – und dann gibt es
00:01:04auch noch einen Ankündigungs-Blogpost mit mehr technischen Details, den wir uns ansehen werden,
00:01:08weil wir in dieser Episode und diesem Video hier tief eintauchen werden – was er hier ankündigt, ist ein Modell, das
00:01:16viel schneller bei der Inferenz von Aufgaben mit einem Kontext von einer Million Token ist und viel weniger kostet. Fünf Prozent
00:01:26von dem, was Opus kostet. Er verspricht auch, dass ihr erstes Modell ein Kontextfenster von 12 Millionen Token
00:01:35haben wird, was, um diese Zahl mal einzuordnen, bedeutet, dass man ganze Codebasen,
00:01:42riesige Codebasen in dieses Kontextfenster packen kann. Man kann mehrere große juristische Dokumente dort unterbringen,
00:01:49und das ist natürlich der Grund, warum Modelle wie dieses, falls sie existieren und funktionieren, super nützlich und absolut
00:01:57bahnbrechend sein könnten. Man kann es nicht anders ausdrücken. Wenn sie funktionieren – wir haben noch nicht viele Details,
00:02:02ich komme gleich darauf zurück – aber wenn sie funktionieren, bedeutet das natürlich, dass all diese Workarounds, die wir
00:02:08derzeit verwenden, wie Sub-Agents, RAG und so weiter, allesamt Workarounds für das Problem sind, dass
00:02:15das Modell nur einen kleinen Teil dessen sieht, was es sehen sollte. Wenn Sie also an einer Codebase arbeiten,
00:02:22können bestehende Spitzenmodelle, je nach Größe Ihrer Codebase, nicht die gesamte Codebase sehen.
00:02:28Sie können nicht die gesamte Codebase laden. Wenn Sie es also bitten, etwas zu ändern, müssen Sie hoffen,
00:02:33dass das Modell die richtigen Stellen in Ihrer Codebase findet, um die von Ihnen gewünschte Änderung vorzunehmen.
00:02:40And das wird natürlich umso mehr zum Problem, je größer die Codebase oder je größer
00:02:45die Menge an Dokumenten ist, an denen das Modell arbeiten soll. Wenn Sie also ein Modell haben, das ein
00:02:52Kontextfenster von 12 Millionen Token zuverlässig und mit guter Qualität nutzen kann, wäre das natürlich ein Gamechanger.
00:02:59Apropos bahnbrechend: Wir werden in diesem Video tief eintauchen, und ich werde in all meinen Kursen tief eintauchen. Wenn
00:03:06Sie also daran interessiert sind, zu lernen, wie man Werkzeuge wie Claude Code, Codex, andere KI-Aufgaben
00:03:13oder das Codieren praktisch nutzt, oder die Kombination aus all dem, dann könnten meine Kurse einen Blick wert sein. Sie sind praxisnah,
00:03:19sie sind interaktiv, sie sind tiefgehend, und Sie können die einzelnen Kurse oder die Mitgliedschaft erwerben,
00:03:24die Ihnen Zugang zu allen Kursen für einen monatlichen oder jährlichen Preis bietet. Links unten.
00:03:31Tauchen wir also nun etwas tiefer ein. Und wie bereits erwähnt, gibt es einen Ankündigungs-Blogpost mit
00:03:36einigen technischen Details, aber um hier ganz klar zu sein, nicht sehr vielen. Es fehlen eine Menge Informationen,
00:03:43und wir haben auch nicht viele Benchmarks. Konkret haben sie nur drei
00:03:49Benchmarks veröffentlicht. Den Ruler-Benchmark, der das Abruf- und Denkverhalten über die einfache
00:03:56Nadel-im-Heuhaufen-Suche hinaus testet, einschließlich Multi-Hop-Abruf, Aggregation, Variablen-Tracking und selektivem
00:04:01Filtern. Das ist also ein Benchmark, bei dem es am Ende vor allem darum geht, dass ein Modell mehrere Teile
00:04:06relevanter Informationen aus einem relativ großen Kontextfenster findet. 128.000 Token. Also kein super großes
00:04:15Kontextfenster, nicht annähernd die versprochenen 12 Millionen, aber auch nicht nur 5K oder so.
00:04:22Dies ist also ein Benchmark, der testet, wie gut ein Modell verschiedene Teile aus einem
00:04:28mehr oder weniger großen Kontextfenster oder einer Dokumentenbasis finden und zusammenfügen kann. Und hier liegt ihr Modell auf dem gleichen Niveau wie
00:04:36OPUS 4.6. In diesem Beitrag erwähnen sie auch einen weiteren Benchmark, den MRCRv2-Benchmark, bei dem es ebenfalls um Aufgaben des
00:04:45Langkontext-Abrufs geht, wo ihr Modell, wie sie angaben, im Bereich von OPUS 4.6 liegt. Obwohl es,
00:04:53ja, im selben Bereich liegt, wenn man sich all die anderen Ergebnisse hier ansieht, aber es ist definitiv schlechter.
00:05:00Was natürlich interessant ist, da ihre ganze Stärke hier der Abruf bei langem Kontext ist. Aber
00:05:07andererseits könnte man natürlich auch argumentieren, dass für Anwendungsfälle mit extrem langem Kontextfenster die anderen
00:05:15Modelle überhaupt nicht nutzbar sind, während ihres Ihnen immer noch sehr gute Ergebnisse liefern könnte, was vielleicht
00:05:22besser als nichts ist. Und natürlich können sich ihre Modelle im Laufe der Zeit auch definitiv verbessern. Ich würde
00:05:29dies also nicht als ein super schlechtes Zeichen für das erste Modell werten. Es ist nur eine Erwähnung wert. Und
00:05:35natürlich ist es auch erwähnenswert, dass es in dieser Tabelle weitaus besser abschneidet als beispielsweise Gemini 3.1 Pro oder OPUS 4.7.
00:05:43Und sie haben auch einen Benchmark veröffentlicht, den ich interessant fand und der sich auf codierungsbezogene Aufgaben bezieht.
00:05:49Nun muss ich sagen, dass ich von all diesen Benchmarks kein großer Fan bin. Wir alle wissen,
00:05:56dass sie gewissermaßen manipuliert werden können, zumindest viele von ihnen. Modelle können bewusst oder unbewusst
00:06:05darauf hin feingetunt oder optimiert werden, in Benchmarks gut abzuschneiden. Wir hatten in der Vergangenheit viele solcher Fälle,
00:06:12aber sie geben uns dennoch etwas, woran wir uns orientieren können. Und ich finde diesen Software-Engineering-Benchmark hier
00:06:20interessant, weil wir hier sehen können, dass ihr Modell ziemlich genau im Bereich der OPUS-Modelle
00:06:27liegt. Und das zeigt natürlich, dass es nicht nur in der Lage ist, Informationen in langen Kontextfenstern,
00:06:36in vielen Dokumenten und großen Codebasen zu finden, sondern dass es auch in der Lage ist, etwas Nützliches damit anzufangen,
00:06:42dass es in der Lage ist, als Ergebnis seiner Intelligenz und der abgerufenen Daten aussagekräftigen, guten Code
00:06:50in diesen langen Kontextfenstern zu generieren, sozusagen. Es geht also nicht nur um das Abrufen,
00:06:54sondern auch darum, nützliche Dinge zu tun. Und da scheint es gut zu sein. Aber wie bereits erwähnt, war es das im Wesentlichen.
00:07:00Wir haben keine weiteren tiefen Einblicke oder technischen Details erhalten. Es gibt noch keine Modellkarte (Model Card).
00:07:09Und daher haben wir im Grunde nur eine Beschreibung, wie ihr Modell Sparse Attention anstelle von Dense
00:07:16Attention verwendet, um diese Aufgaben mit langem Kontext zu bewältigen oder um das Modell in Szenarien
00:07:22mit langen Kontextfenstern effizient arbeiten zu lassen, und wie das Modell seine Beschleunigung und Kosteneffizienz erreicht,
00:07:29weil es schneller und billiger ist, richtig? Das ist es, was sie angekündigt haben. Werfen wir also
00:07:37einen Blick auf Dense versus Sparse Attention, um zu verstehen, was hier vor sich geht. Nun, Dense Attention ist
00:07:45das, was man in den aktuellen Spitzenmodellen findet. Also Ihr GPT 5.5, Opus 4.7 und all die anderen Modelle,
00:07:52das sind alles dichte (dense) Modelle, was im Wesentlichen bedeutet, dass für jedes neue Token, sagen wir Token D,
00:07:58um dieses Token zu generieren, alle anderen Token ausgewertet werden müssen und die Verbindungen zwischen
00:08:08diesen Token ausgewertet werden müssen, denn die ganze Idee bei Large Language Models ist ja,
00:08:13dass man ein zukünftiges Token ableitet, das ein ganzes Wort oder ein Teil eines Wortes sein kann, basierend auf dem, was vor
00:08:20diesem Token kam. Wenn Sie also beispielsweise einen Satz haben wie "Ein Vertrag kann jederzeit gekündigt werden unter Punkt Punkt Punkt",
00:08:28dann ist das nächste Wort danach das, was Sie vorhersagen wollen. Sie haben vielleicht ein Modell gefragt: "Hey,
00:08:35wann kann ich meinen Vertrag kündigen?" Und Sie haben diesen Vertrag vielleicht als PDF-Dokument oder als einfachen
00:08:42Text in Ihren Prompt eingefügt. Der Prompt vor diesem Satz, den das Modell
00:08:48als Ausgabe generiert, ist also Ihre Frage und dann vielleicht noch ein weiterer Kontext. Der Vertrag zum
00:08:57Beispiel, richtig? So nutzen wir Modelle derzeit. Und um dieses Token hier zu erzeugen,
00:09:03und um jedes Token zu erzeugen, das davor kam, hat das Modell im Grunde einen Blick auf die
00:09:10gesamte Konversation geworfen, auf all die Token darin. Das ist Ihre Frage und jeder zusätzliche Kontext,
00:09:16den Sie dort eingefügt haben. Und es hat das in mehrere Token aufgeteilt und dann all diese Token kombiniert oder
00:09:23Gewichtungen am Ende berechnet, basierend auf all den Kombinationen der vorherigen Token. Wenn das
00:09:30beispielsweise unsere gesamte Konversation wäre, natürlich bewusst kurz gehalten, da es ein Beispiel ist, dann ist dies der Weg,
00:09:38wie es für die GPT-5-Modelle beispielsweise in Token aufgeteilt worden wäre. Einige Token sind
00:09:46einfach ein Wort oder ein Wort mit einem Leerzeichen davor. Einige Token sind einfach Sonderzeichen.
00:09:51Und um das nächste Token zu generieren, werden am Ende alle vorherigen Token miteinander kombiniert,
00:09:58um schließlich die Bedeutung zu verstehen. Denn natürlich hat ein Fragezeichen eine ganz
00:10:05andere Bedeutung und Auswirkung auf ein zukünftiges Token, je nachdem, was vor diesem
00:10:11Fragezeichen kam. Dieses Fragezeichen wird also mit allen vorherigen Token kombiniert. Und es ist die Kombination
00:10:17all dieser Kombinationen am Ende, die dann verwendet wird, um das finale Token abzuleiten. Das ist auf einer
00:10:22sehr hohen Ebene die Art und Weise, wie man sich Dense Attention vorstellen kann und wie es funktioniert. Natürlich
00:10:29ist das sehr ineffizient, aber es ist im Moment das Beste, was wir haben, zumindest wenn es um die
00:10:36Intelligenz und die Qualität der Ausgabe geht. Aber es ist quadratisch, weil es n mal n ist,
00:10:44was bedeutet, dass wir alle vorherigen Token kombinieren müssen, um ein neues Token abzuleiten. Es gibt
00:10:49Optimierungsmechanismen wie das KV-Caching, das am Ende die Ergebnisse der berechneten Gewichtungen
00:10:56zwischenspeichert, die in der Vergangenheit berechnet wurden. Sodass man für ein neues Token nicht
00:11:01alle vorherigen Kombinationen neu berechnen muss, aber man muss dieses neue Token dennoch berechnen, indem man es mit all
00:11:08den vorherigen zwischengespeicherten Gewichtungen vergleicht. Man landet also immer noch in dieser quadratischen Situation hier. Und das ist
00:11:16natürlich ineffizient und langsam, weshalb diese Spitzenmodelle, die wir im Moment haben, sehr rechenintensiv und
00:11:24langsam sind, besonders wenn man in die Bereiche mit größeren Kontextfenstern vordringt, und warum es ziemlich
00:11:31strenge Limits für die Kontextfenstergröße gibt. Da es quadratisch ist, ist ein Kontextfenster der Größe von 12 Millionen
00:11:38natürlich so gut wie unmöglich zu berechnen. Es würde ewig dauern, und die Rechenzeit ist nur eine
00:11:46Dimension, der Speicher, der reserviert werden muss, ist eine andere. So funktionieren dichte Modelle kurz gesagt und das sind ihre Grenzen.
00:11:54Die Alternative oder ein anderer Ansatz, der von diesem neuen Modell verwendet wird,
00:12:00dem gestern angekündigten Sub-Q-Modell, ist die Verwendung von Sparse Attention. Nun,
00:12:06wie funktioniert Sparse Attention? Die Idee bei Sparse Attention ist, dass man zur Berechnung eines neuen
00:12:14Tokens nicht alle vorherigen Token betrachtet, man hat nicht die Kombinationen aller vorherigen
00:12:20Token, sondern nur von einigen ausgewählten Token. Wenn Sie beispielsweise das Token D hier ableiten
00:12:28wollen, betrachten Sie vielleicht nur B und C, aber nicht A. Nun ist natürlich die große Frage:
00:12:33Wie entscheidet man, welche vorherigen Token man betrachtet oder welche vorherigen Token interessant sind,” um
00:12:40dieses neue Token zu erzeugen. Und es gibt verschiedene Ansätze, die in der Vergangenheit verwendet wurden, denn
00:12:46dieses neue Modell ist nicht das erste Sparse-Attention-Modell. Aber der Grund, warum sie sich hier nicht wirklich
00:12:52durchgesetzt haben, ist, dass sie gravierende Einschränkungen haben. Ein Weg ist beispielsweise die Verwendung eines
00:12:59lokalen Fenster-Ansatzes. Was bedeutet das? Das bedeutet, dass wir zur Erzeugung eines neuen Tokens,
00:13:06sagen wir des Tokens Nummer fünf, dem fünften Token in einer Sequenz, beispielsweise nur
00:13:13die zwei Token davor betrachten. Also drei und vier zum Beispiel. Man hat also ein gleitendes Fenster von Token
00:13:22und betrachtet immer nur die Token direkt vor dem Token, das man gerade generieren möchte. Nun,
00:13:27wie Sie sich vorstellen können, hat dies einige gravierende Einschränkungen, denn wenn ich mir nur die letzten
00:13:33paar Token ansehe und mich beispielsweise frage, wann ein Vertrag gekündigt werden kann, liegt die Information
00:13:39vielleicht hier in dem zusätzlichen Kontext, den ich in den Prompt eingefügt habe, aber sie ist nicht Teil dieses lokalen Fensters,
00:13:45wenn das lokale Fenster beispielsweise nur die letzten paar Token umfasst. Das nächste Token, das vorhergesagt
00:13:50werden soll, hat also keine Ahnung von dem, was zuvor in diesem Kontext stand. Das ist also nicht nützlich. Man kann mit
00:13:55diesem Ansatz eine unbegrenzte Kontextfenstergröße haben, aber der gesamte Kontext spielt keine Rolle. Das ist eine
00:14:01offensichtliche Einschränkung. Ein anderer Ansatz ist der sogenannte Global-Token-Ansatz. Hier ist die Idee, dass man
00:14:09ein globales Zusammenfassungs-Token hat. Auf einer hohen Ebene kann man sich das wie ein spezielles Token vorstellen, das am
00:14:16Anfang der Token-Sequenz steht, das vom Modell am Anfang der Token-Sequenz eingefügt wird,
00:14:20sozusagen, welches die Token dahinter zusammenfasst. So kann man sich das in etwa vorstellen.
00:14:27Und für die Vorhersage des nächsten Tokens wird dann dieses globale Token berücksichtigt. Nun, das kann
00:14:34sehr gut funktionieren, wenn wir zu diesem Beispiel hier mit dem juristischen Text zurückkehren, den Sie vielleicht an ein Modell
00:14:40in Ihrem Prompt übergeben haben. Wenn diese Zusammenfassung, die hier für Ihre Konversation generiert wurde, beispielsweise die
00:14:46Vertragskündigungsbedingungen enthält, dann kann dieses nächste Token natürlich sehr gut
00:14:53basierend auf dieser Zusammenfassung vorhergesagt werden. Aber wenn Sie Pech haben und die Zusammenfassung diese Details nicht enthält,
00:15:00nun, dann haben Sie Pech gehabt und sind wieder in dem Zustand, in dem die Information völlig fehlt.
00:15:04Ein globaler Token-Ansatz kann also funktionieren, aber je länger Ihr Kontextfenster wird,
00:15:12desto allgemeiner wird natürlich die Zusammenfassung. Das kann man sich leicht vorstellen. Wenn Sie beispielsweise ein
00:15:16hundertseitiges PDF-Dokument haben und dieses in ein oder zwei Sätzen zusammenfassen müssten, wäre das sehr
00:15:22unspezifisch, richtig? Die Vorhersage des nächsten Tokens auf der Grundlage dieser Zusammenfassung wird also nicht wirklich funktionieren.
00:15:29Ein weiterer Ansatz wäre die Verwendung eines Routers, was bedeutet, dass man ein zusätzliches neuronales
00:15:37Netzwerk hat. Sie haben also im Wesentlichen zwei Modelle: Ihr Large Language Model und dann ein zusätzliches
00:15:43Routing-Modell. Und dieses Routing-Modell wirft einen Blick auf den Prompt des Benutzers oder auf den Kontext des
00:15:51nächsten zu generierenden Tokens und leitet dieses Token sozusagen an die anderen Token weiter, die es
00:15:59für relevant hält. Aber das bedeutet nun natürlich, dass Sie jetzt ein Routing-Modell haben, das irgendwie
00:16:04den Überblick über alle anderen Token behalten muss, die danach kommen. Das führt also wahrscheinlich wieder zurück in den quadratischen
00:16:10Attention-Bereich oder ist sehr unspezifisch und Sie verlassen sich darauf. Entweder kehren Sie also wieder zur
00:16:17quadratischen Komplexität zurück und gewinnen im Vergleich zu einem dichten Modell nicht so viel, oder Sie tun das nicht und
00:16:23haben wahrscheinlich einen Qualitätsverlust, weil der Router nicht sehr gut ist. Genau wie bei der
00:16:30Zusammenfassung müssten Sie also hoffen, dass der Router einen guten Job macht und die richtigen Token für die
00:16:37Vorhersage des nächsten Tokens aktiviert. Und aus diesem Grund ist Sparse Attention zwar interessant, hat sich aber bisher
00:16:46noch nicht wirklich durchgesetzt, da all diese verschiedenen Ansätze erhebliche Kompromisse erfordern und es bis zu
00:16:54diesem Zeitpunkt meines Wissens nach kein Sparse-Attention-Modell gab, das eine
00:17:00gleiche Qualität geliefert hätte, die mit den aktuellen dichten Spitzenmodellen vergleichbar wäre, und das über ein großes
00:17:07Kontextfenster hinweg agieren könnte. Und sie versprechen, dies mit ihrem neuen Modell zu ändern. In diesem Ankündigungs-Blogpost
00:17:14erwähnen sie, dass ihr Modell eine inhaltsabhängige Auswahl (content-dependent selection) durchführt. Für jede Abfrage wählt das Modell aus, welche
00:17:22Teile der Sequenz es wert sind, beachtet zu werden, und berechnet die Attention genau über diese Positionen. Am Ende
00:17:28sind wir also wieder bei diesem Routing-Ansatz, aber sie versprechen hier, erwähnen hier,
00:17:35dass ihr Mechanismus sehr effizient zu sein scheint, um die richtigen Token für die Vorhersage
00:17:43des nächsten Tokens zu aktivieren. Sie erwähnen, dass Dense Attention davon ausgeht, dass jedes Paar wichtig sein könnte, und daher
00:17:49alle bewertet. In der Praxis tut das fast keines. SSA, was für Sub-Quadratic Selective Attention steht,
00:17:55was ihr Ansatz ist, hebt diese Annahme auf. Es nähert die Attention nicht an. Es beschränkt
00:18:01die Attention auf die Positionen, die tatsächlich ein Signal tragen, und überspringt den Rest. Das ist ihr Ansatz.
00:18:08Sie führen ein inhaltsabhängiges Routing durch, um die richtigen Token zu aktivieren oder die richtigen Token für die
00:18:14Vorhersage des nächsten Tokens zu verwenden, und das ist es, was ihnen ihren Effizienzschub verleiht. Und wir müssen erst noch
00:18:21sehen, wie gut das tatsächlich funktioniert, da wir, wie bereits erwähnt, hier nur eine sehr begrenzte Auswahl an Benchmarks haben.
00:18:30Nicht viele andere oder gar keine anderen Benchmarks. Wir haben keine Modellkarte. Wir haben keine Details darüber, wie genau
00:18:36ihre inhaltsabhängige Auswahl funktioniert, und daher haben wir hier eine Menge Fragezeichen.
00:18:42Und wenn wir in den letzten Monaten und Jahren eines definitiv gelernt haben, dann ist es,
00:18:49dass KI offensichtlich ein nützliches Werkzeug ist, und ich verwende es jeden Tag. Sie verwenden es wahrscheinlich auch jeden Tag,
00:18:57und Werkzeuge wie Codex oder Claude Code sind sehr nützlich. Daran habe ich keinen Zweifel und, nun ja, das ist meine
00:19:04Erfahrung mit ihnen, aber wir haben auch gelernt, dass wir uns in einer Branche mit einer Menge Hype befinden. Wir befinden uns in einer
00:19:10Übergangsphase. Alles verändert sich oder vieles verändert sich gerade, und deshalb gibt es natürlich
00:19:16überall eine Menge Versprechungen, und nicht alle Versprechungen werden am Ende auch in etwas
00:19:26tatsächlich Nützliches umgesetzt. Nehmen Sie zum Beispiel die Modelle von Meta, bei denen es sich um dichte Modelle handelte. Die Llama 4-Modelle
00:19:35hatten erstaunliche Benchmark-Zahlen, waren aber nicht so großartig. Es gibt also viele hochgejubelte Beispiele,
00:19:42und das ist natürlich nur ein Beispiel. Es gibt viele Beispiele da draußen. Es ist definitiv ratsam,
00:19:49vorsichtig zu sein, aber wenn sie diese Modelle veröffentlichen – und man kann sich im Moment für den vorzeitigen Zugang bewerben,
00:19:56ich habe es getan, aber ich habe noch keinen Zugang erhalten – wenn diese Modelle halten, was sie versprechen, wenn sie über
00:20:05große Kontextfenster hinweg nützlich und intelligent sind, wird das natürlich eine Menge verändern. Das wird bei den
00:20:13Rechenkapazitäts-Engpässen helfen, die wir derzeit haben, denn es gibt weltweit nicht einmal annähernd genug Rechenleistung.
00:20:19Wir brauchen viel mehr Rechenzentren, Chips, Strom und alles andere. Ein Modell zu haben, das
00:20:25viel effizienter ist, würde dabei helfen. Nun, vielleicht würden wir es dann so viel mehr nutzen, dass das
00:20:33Problem dasselbe bleibt, aber dennoch würde es definitiv im Moment eine stärkere Nutzung ermöglichen. Und natürlich würde es
00:20:40völlig neue Anwendungsfälle erschließen. Es würde es möglich machen, einfach eine ganze Codebase dort hineinzuschieben
00:20:45und darauf zu agieren. All diese Workarounds, die wir derzeit verwenden, würden also wegfallen. Wir bräuchten
00:20:52nicht unbedingt Sub-Agents. Wir bräuchten keine RAG-Systeme, wenn das funktionieren würde. Aber das ist natürlich ein "würde",
00:21:00und wir müssen erst noch sehen, ob das die großen Versprechungen einlöst, die sie machen. Wenn ja,
00:21:07haben sie dort definitiv ein Milliarden-, Multi-Milliarden- oder Billionen-Dollar-Unternehmen gegründet.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video