Hype oder Game Changer? | Deep Dive

MMaximilian Schwarzmüller
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Vor ein paar Stunden gab es eine ziemlich große Ankündigung. Oder einen ziemlich großen Hype. Wir wissen
00:00:06es noch nicht und ich würde die Option mit dem Hype definitiv nicht ausschließen. Den sinnlosen Hype-Teil. Aber wenn
00:00:13es wahr ist, ist es in der Tat eine große Ankündigung. Denn Alexander Wedin, den ich nicht kannte und den Sie wahrscheinlich
00:00:20auch nicht kannten, kündigte Sub-Q an, was für sub-quadratisch steht – ein großer Durchbruch bei der
00:00:28LLM-Intelligenz. Und was er hier angekündigt hat, ist ein völlig neuer Typ von Large Language Model, der sich bei
00:00:36Long-Context-Aufgaben auszeichnet, ohne – zumindest behauptet er das – die "Intelligenz" zu verlieren –
00:00:45in Anführungszeichen, die Modelle generieren Token, aber das verleiht ihnen am Ende ihre Intelligenz – also
00:00:52ohne die Intelligenz zu verlieren, die Sie von aktuellen Spitzenmodellen wie Opus 4.7, GPT 5.5 und so weiter gewohnt sind.
00:00:59Was er nun in dem Ankündigungspost auf X erwähnt – und dann gibt es
00:01:04auch noch einen Ankündigungs-Blogpost mit mehr technischen Details, den wir uns ansehen werden,
00:01:08weil wir in dieser Episode und diesem Video hier tief eintauchen werden – was er hier ankündigt, ist ein Modell, das
00:01:16viel schneller bei der Inferenz von Aufgaben mit einem Kontext von einer Million Token ist und viel weniger kostet. Fünf Prozent
00:01:26von dem, was Opus kostet. Er verspricht auch, dass ihr erstes Modell ein Kontextfenster von 12 Millionen Token
00:01:35haben wird, was, um diese Zahl mal einzuordnen, bedeutet, dass man ganze Codebasen,
00:01:42riesige Codebasen in dieses Kontextfenster packen kann. Man kann mehrere große juristische Dokumente dort unterbringen,
00:01:49und das ist natürlich der Grund, warum Modelle wie dieses, falls sie existieren und funktionieren, super nützlich und absolut
00:01:57bahnbrechend sein könnten. Man kann es nicht anders ausdrücken. Wenn sie funktionieren – wir haben noch nicht viele Details,
00:02:02ich komme gleich darauf zurück – aber wenn sie funktionieren, bedeutet das natürlich, dass all diese Workarounds, die wir
00:02:08derzeit verwenden, wie Sub-Agents, RAG und so weiter, allesamt Workarounds für das Problem sind, dass
00:02:15das Modell nur einen kleinen Teil dessen sieht, was es sehen sollte. Wenn Sie also an einer Codebase arbeiten,
00:02:22können bestehende Spitzenmodelle, je nach Größe Ihrer Codebase, nicht die gesamte Codebase sehen.
00:02:28Sie können nicht die gesamte Codebase laden. Wenn Sie es also bitten, etwas zu ändern, müssen Sie hoffen,
00:02:33dass das Modell die richtigen Stellen in Ihrer Codebase findet, um die von Ihnen gewünschte Änderung vorzunehmen.
00:02:40And das wird natürlich umso mehr zum Problem, je größer die Codebase oder je größer
00:02:45die Menge an Dokumenten ist, an denen das Modell arbeiten soll. Wenn Sie also ein Modell haben, das ein
00:02:52Kontextfenster von 12 Millionen Token zuverlässig und mit guter Qualität nutzen kann, wäre das natürlich ein Gamechanger.
00:02:59Apropos bahnbrechend: Wir werden in diesem Video tief eintauchen, und ich werde in all meinen Kursen tief eintauchen. Wenn
00:03:06Sie also daran interessiert sind, zu lernen, wie man Werkzeuge wie Claude Code, Codex, andere KI-Aufgaben
00:03:13oder das Codieren praktisch nutzt, oder die Kombination aus all dem, dann könnten meine Kurse einen Blick wert sein. Sie sind praxisnah,
00:03:19sie sind interaktiv, sie sind tiefgehend, und Sie können die einzelnen Kurse oder die Mitgliedschaft erwerben,
00:03:24die Ihnen Zugang zu allen Kursen für einen monatlichen oder jährlichen Preis bietet. Links unten.
00:03:31Tauchen wir also nun etwas tiefer ein. Und wie bereits erwähnt, gibt es einen Ankündigungs-Blogpost mit
00:03:36einigen technischen Details, aber um hier ganz klar zu sein, nicht sehr vielen. Es fehlen eine Menge Informationen,
00:03:43und wir haben auch nicht viele Benchmarks. Konkret haben sie nur drei
00:03:49Benchmarks veröffentlicht. Den Ruler-Benchmark, der das Abruf- und Denkverhalten über die einfache
00:03:56Nadel-im-Heuhaufen-Suche hinaus testet, einschließlich Multi-Hop-Abruf, Aggregation, Variablen-Tracking und selektivem
00:04:01Filtern. Das ist also ein Benchmark, bei dem es am Ende vor allem darum geht, dass ein Modell mehrere Teile
00:04:06relevanter Informationen aus einem relativ großen Kontextfenster findet. 128.000 Token. Also kein super großes
00:04:15Kontextfenster, nicht annähernd die versprochenen 12 Millionen, aber auch nicht nur 5K oder so.
00:04:22Dies ist also ein Benchmark, der testet, wie gut ein Modell verschiedene Teile aus einem
00:04:28mehr oder weniger großen Kontextfenster oder einer Dokumentenbasis finden und zusammenfügen kann. Und hier liegt ihr Modell auf dem gleichen Niveau wie
00:04:36OPUS 4.6. In diesem Beitrag erwähnen sie auch einen weiteren Benchmark, den MRCRv2-Benchmark, bei dem es ebenfalls um Aufgaben des
00:04:45Langkontext-Abrufs geht, wo ihr Modell, wie sie angaben, im Bereich von OPUS 4.6 liegt. Obwohl es,
00:04:53ja, im selben Bereich liegt, wenn man sich all die anderen Ergebnisse hier ansieht, aber es ist definitiv schlechter.
00:05:00Was natürlich interessant ist, da ihre ganze Stärke hier der Abruf bei langem Kontext ist. Aber
00:05:07andererseits könnte man natürlich auch argumentieren, dass für Anwendungsfälle mit extrem langem Kontextfenster die anderen
00:05:15Modelle überhaupt nicht nutzbar sind, während ihres Ihnen immer noch sehr gute Ergebnisse liefern könnte, was vielleicht
00:05:22besser als nichts ist. Und natürlich können sich ihre Modelle im Laufe der Zeit auch definitiv verbessern. Ich würde
00:05:29dies also nicht als ein super schlechtes Zeichen für das erste Modell werten. Es ist nur eine Erwähnung wert. Und
00:05:35natürlich ist es auch erwähnenswert, dass es in dieser Tabelle weitaus besser abschneidet als beispielsweise Gemini 3.1 Pro oder OPUS 4.7.
00:05:43Und sie haben auch einen Benchmark veröffentlicht, den ich interessant fand und der sich auf codierungsbezogene Aufgaben bezieht.
00:05:49Nun muss ich sagen, dass ich von all diesen Benchmarks kein großer Fan bin. Wir alle wissen,
00:05:56dass sie gewissermaßen manipuliert werden können, zumindest viele von ihnen. Modelle können bewusst oder unbewusst
00:06:05darauf hin feingetunt oder optimiert werden, in Benchmarks gut abzuschneiden. Wir hatten in der Vergangenheit viele solcher Fälle,
00:06:12aber sie geben uns dennoch etwas, woran wir uns orientieren können. Und ich finde diesen Software-Engineering-Benchmark hier
00:06:20interessant, weil wir hier sehen können, dass ihr Modell ziemlich genau im Bereich der OPUS-Modelle
00:06:27liegt. Und das zeigt natürlich, dass es nicht nur in der Lage ist, Informationen in langen Kontextfenstern,
00:06:36in vielen Dokumenten und großen Codebasen zu finden, sondern dass es auch in der Lage ist, etwas Nützliches damit anzufangen,
00:06:42dass es in der Lage ist, als Ergebnis seiner Intelligenz und der abgerufenen Daten aussagekräftigen, guten Code
00:06:50in diesen langen Kontextfenstern zu generieren, sozusagen. Es geht also nicht nur um das Abrufen,
00:06:54sondern auch darum, nützliche Dinge zu tun. Und da scheint es gut zu sein. Aber wie bereits erwähnt, war es das im Wesentlichen.
00:07:00Wir haben keine weiteren tiefen Einblicke oder technischen Details erhalten. Es gibt noch keine Modellkarte (Model Card).
00:07:09Und daher haben wir im Grunde nur eine Beschreibung, wie ihr Modell Sparse Attention anstelle von Dense
00:07:16Attention verwendet, um diese Aufgaben mit langem Kontext zu bewältigen oder um das Modell in Szenarien
00:07:22mit langen Kontextfenstern effizient arbeiten zu lassen, und wie das Modell seine Beschleunigung und Kosteneffizienz erreicht,
00:07:29weil es schneller und billiger ist, richtig? Das ist es, was sie angekündigt haben. Werfen wir also
00:07:37einen Blick auf Dense versus Sparse Attention, um zu verstehen, was hier vor sich geht. Nun, Dense Attention ist
00:07:45das, was man in den aktuellen Spitzenmodellen findet. Also Ihr GPT 5.5, Opus 4.7 und all die anderen Modelle,
00:07:52das sind alles dichte (dense) Modelle, was im Wesentlichen bedeutet, dass für jedes neue Token, sagen wir Token D,
00:07:58um dieses Token zu generieren, alle anderen Token ausgewertet werden müssen und die Verbindungen zwischen
00:08:08diesen Token ausgewertet werden müssen, denn die ganze Idee bei Large Language Models ist ja,
00:08:13dass man ein zukünftiges Token ableitet, das ein ganzes Wort oder ein Teil eines Wortes sein kann, basierend auf dem, was vor
00:08:20diesem Token kam. Wenn Sie also beispielsweise einen Satz haben wie "Ein Vertrag kann jederzeit gekündigt werden unter Punkt Punkt Punkt",
00:08:28dann ist das nächste Wort danach das, was Sie vorhersagen wollen. Sie haben vielleicht ein Modell gefragt: "Hey,
00:08:35wann kann ich meinen Vertrag kündigen?" Und Sie haben diesen Vertrag vielleicht als PDF-Dokument oder als einfachen
00:08:42Text in Ihren Prompt eingefügt. Der Prompt vor diesem Satz, den das Modell
00:08:48als Ausgabe generiert, ist also Ihre Frage und dann vielleicht noch ein weiterer Kontext. Der Vertrag zum
00:08:57Beispiel, richtig? So nutzen wir Modelle derzeit. Und um dieses Token hier zu erzeugen,
00:09:03und um jedes Token zu erzeugen, das davor kam, hat das Modell im Grunde einen Blick auf die
00:09:10gesamte Konversation geworfen, auf all die Token darin. Das ist Ihre Frage und jeder zusätzliche Kontext,
00:09:16den Sie dort eingefügt haben. Und es hat das in mehrere Token aufgeteilt und dann all diese Token kombiniert oder
00:09:23Gewichtungen am Ende berechnet, basierend auf all den Kombinationen der vorherigen Token. Wenn das
00:09:30beispielsweise unsere gesamte Konversation wäre, natürlich bewusst kurz gehalten, da es ein Beispiel ist, dann ist dies der Weg,
00:09:38wie es für die GPT-5-Modelle beispielsweise in Token aufgeteilt worden wäre. Einige Token sind
00:09:46einfach ein Wort oder ein Wort mit einem Leerzeichen davor. Einige Token sind einfach Sonderzeichen.
00:09:51Und um das nächste Token zu generieren, werden am Ende alle vorherigen Token miteinander kombiniert,
00:09:58um schließlich die Bedeutung zu verstehen. Denn natürlich hat ein Fragezeichen eine ganz
00:10:05andere Bedeutung und Auswirkung auf ein zukünftiges Token, je nachdem, was vor diesem
00:10:11Fragezeichen kam. Dieses Fragezeichen wird also mit allen vorherigen Token kombiniert. Und es ist die Kombination
00:10:17all dieser Kombinationen am Ende, die dann verwendet wird, um das finale Token abzuleiten. Das ist auf einer
00:10:22sehr hohen Ebene die Art und Weise, wie man sich Dense Attention vorstellen kann und wie es funktioniert. Natürlich
00:10:29ist das sehr ineffizient, aber es ist im Moment das Beste, was wir haben, zumindest wenn es um die
00:10:36Intelligenz und die Qualität der Ausgabe geht. Aber es ist quadratisch, weil es n mal n ist,
00:10:44was bedeutet, dass wir alle vorherigen Token kombinieren müssen, um ein neues Token abzuleiten. Es gibt
00:10:49Optimierungsmechanismen wie das KV-Caching, das am Ende die Ergebnisse der berechneten Gewichtungen
00:10:56zwischenspeichert, die in der Vergangenheit berechnet wurden. Sodass man für ein neues Token nicht
00:11:01alle vorherigen Kombinationen neu berechnen muss, aber man muss dieses neue Token dennoch berechnen, indem man es mit all
00:11:08den vorherigen zwischengespeicherten Gewichtungen vergleicht. Man landet also immer noch in dieser quadratischen Situation hier. Und das ist
00:11:16natürlich ineffizient und langsam, weshalb diese Spitzenmodelle, die wir im Moment haben, sehr rechenintensiv und
00:11:24langsam sind, besonders wenn man in die Bereiche mit größeren Kontextfenstern vordringt, und warum es ziemlich
00:11:31strenge Limits für die Kontextfenstergröße gibt. Da es quadratisch ist, ist ein Kontextfenster der Größe von 12 Millionen
00:11:38natürlich so gut wie unmöglich zu berechnen. Es würde ewig dauern, und die Rechenzeit ist nur eine
00:11:46Dimension, der Speicher, der reserviert werden muss, ist eine andere. So funktionieren dichte Modelle kurz gesagt und das sind ihre Grenzen.
00:11:54Die Alternative oder ein anderer Ansatz, der von diesem neuen Modell verwendet wird,
00:12:00dem gestern angekündigten Sub-Q-Modell, ist die Verwendung von Sparse Attention. Nun,
00:12:06wie funktioniert Sparse Attention? Die Idee bei Sparse Attention ist, dass man zur Berechnung eines neuen
00:12:14Tokens nicht alle vorherigen Token betrachtet, man hat nicht die Kombinationen aller vorherigen
00:12:20Token, sondern nur von einigen ausgewählten Token. Wenn Sie beispielsweise das Token D hier ableiten
00:12:28wollen, betrachten Sie vielleicht nur B und C, aber nicht A. Nun ist natürlich die große Frage:
00:12:33Wie entscheidet man, welche vorherigen Token man betrachtet oder welche vorherigen Token interessant sind,” um
00:12:40dieses neue Token zu erzeugen. Und es gibt verschiedene Ansätze, die in der Vergangenheit verwendet wurden, denn
00:12:46dieses neue Modell ist nicht das erste Sparse-Attention-Modell. Aber der Grund, warum sie sich hier nicht wirklich
00:12:52durchgesetzt haben, ist, dass sie gravierende Einschränkungen haben. Ein Weg ist beispielsweise die Verwendung eines
00:12:59lokalen Fenster-Ansatzes. Was bedeutet das? Das bedeutet, dass wir zur Erzeugung eines neuen Tokens,
00:13:06sagen wir des Tokens Nummer fünf, dem fünften Token in einer Sequenz, beispielsweise nur
00:13:13die zwei Token davor betrachten. Also drei und vier zum Beispiel. Man hat also ein gleitendes Fenster von Token
00:13:22und betrachtet immer nur die Token direkt vor dem Token, das man gerade generieren möchte. Nun,
00:13:27wie Sie sich vorstellen können, hat dies einige gravierende Einschränkungen, denn wenn ich mir nur die letzten
00:13:33paar Token ansehe und mich beispielsweise frage, wann ein Vertrag gekündigt werden kann, liegt die Information
00:13:39vielleicht hier in dem zusätzlichen Kontext, den ich in den Prompt eingefügt habe, aber sie ist nicht Teil dieses lokalen Fensters,
00:13:45wenn das lokale Fenster beispielsweise nur die letzten paar Token umfasst. Das nächste Token, das vorhergesagt
00:13:50werden soll, hat also keine Ahnung von dem, was zuvor in diesem Kontext stand. Das ist also nicht nützlich. Man kann mit
00:13:55diesem Ansatz eine unbegrenzte Kontextfenstergröße haben, aber der gesamte Kontext spielt keine Rolle. Das ist eine
00:14:01offensichtliche Einschränkung. Ein anderer Ansatz ist der sogenannte Global-Token-Ansatz. Hier ist die Idee, dass man
00:14:09ein globales Zusammenfassungs-Token hat. Auf einer hohen Ebene kann man sich das wie ein spezielles Token vorstellen, das am
00:14:16Anfang der Token-Sequenz steht, das vom Modell am Anfang der Token-Sequenz eingefügt wird,
00:14:20sozusagen, welches die Token dahinter zusammenfasst. So kann man sich das in etwa vorstellen.
00:14:27Und für die Vorhersage des nächsten Tokens wird dann dieses globale Token berücksichtigt. Nun, das kann
00:14:34sehr gut funktionieren, wenn wir zu diesem Beispiel hier mit dem juristischen Text zurückkehren, den Sie vielleicht an ein Modell
00:14:40in Ihrem Prompt übergeben haben. Wenn diese Zusammenfassung, die hier für Ihre Konversation generiert wurde, beispielsweise die
00:14:46Vertragskündigungsbedingungen enthält, dann kann dieses nächste Token natürlich sehr gut
00:14:53basierend auf dieser Zusammenfassung vorhergesagt werden. Aber wenn Sie Pech haben und die Zusammenfassung diese Details nicht enthält,
00:15:00nun, dann haben Sie Pech gehabt und sind wieder in dem Zustand, in dem die Information völlig fehlt.
00:15:04Ein globaler Token-Ansatz kann also funktionieren, aber je länger Ihr Kontextfenster wird,
00:15:12desto allgemeiner wird natürlich die Zusammenfassung. Das kann man sich leicht vorstellen. Wenn Sie beispielsweise ein
00:15:16hundertseitiges PDF-Dokument haben und dieses in ein oder zwei Sätzen zusammenfassen müssten, wäre das sehr
00:15:22unspezifisch, richtig? Die Vorhersage des nächsten Tokens auf der Grundlage dieser Zusammenfassung wird also nicht wirklich funktionieren.
00:15:29Ein weiterer Ansatz wäre die Verwendung eines Routers, was bedeutet, dass man ein zusätzliches neuronales
00:15:37Netzwerk hat. Sie haben also im Wesentlichen zwei Modelle: Ihr Large Language Model und dann ein zusätzliches
00:15:43Routing-Modell. Und dieses Routing-Modell wirft einen Blick auf den Prompt des Benutzers oder auf den Kontext des
00:15:51nächsten zu generierenden Tokens und leitet dieses Token sozusagen an die anderen Token weiter, die es
00:15:59für relevant hält. Aber das bedeutet nun natürlich, dass Sie jetzt ein Routing-Modell haben, das irgendwie
00:16:04den Überblick über alle anderen Token behalten muss, die danach kommen. Das führt also wahrscheinlich wieder zurück in den quadratischen
00:16:10Attention-Bereich oder ist sehr unspezifisch und Sie verlassen sich darauf. Entweder kehren Sie also wieder zur
00:16:17quadratischen Komplexität zurück und gewinnen im Vergleich zu einem dichten Modell nicht so viel, oder Sie tun das nicht und
00:16:23haben wahrscheinlich einen Qualitätsverlust, weil der Router nicht sehr gut ist. Genau wie bei der
00:16:30Zusammenfassung müssten Sie also hoffen, dass der Router einen guten Job macht und die richtigen Token für die
00:16:37Vorhersage des nächsten Tokens aktiviert. Und aus diesem Grund ist Sparse Attention zwar interessant, hat sich aber bisher
00:16:46noch nicht wirklich durchgesetzt, da all diese verschiedenen Ansätze erhebliche Kompromisse erfordern und es bis zu
00:16:54diesem Zeitpunkt meines Wissens nach kein Sparse-Attention-Modell gab, das eine
00:17:00gleiche Qualität geliefert hätte, die mit den aktuellen dichten Spitzenmodellen vergleichbar wäre, und das über ein großes
00:17:07Kontextfenster hinweg agieren könnte. Und sie versprechen, dies mit ihrem neuen Modell zu ändern. In diesem Ankündigungs-Blogpost
00:17:14erwähnen sie, dass ihr Modell eine inhaltsabhängige Auswahl (content-dependent selection) durchführt. Für jede Abfrage wählt das Modell aus, welche
00:17:22Teile der Sequenz es wert sind, beachtet zu werden, und berechnet die Attention genau über diese Positionen. Am Ende
00:17:28sind wir also wieder bei diesem Routing-Ansatz, aber sie versprechen hier, erwähnen hier,
00:17:35dass ihr Mechanismus sehr effizient zu sein scheint, um die richtigen Token für die Vorhersage
00:17:43des nächsten Tokens zu aktivieren. Sie erwähnen, dass Dense Attention davon ausgeht, dass jedes Paar wichtig sein könnte, und daher
00:17:49alle bewertet. In der Praxis tut das fast keines. SSA, was für Sub-Quadratic Selective Attention steht,
00:17:55was ihr Ansatz ist, hebt diese Annahme auf. Es nähert die Attention nicht an. Es beschränkt
00:18:01die Attention auf die Positionen, die tatsächlich ein Signal tragen, und überspringt den Rest. Das ist ihr Ansatz.
00:18:08Sie führen ein inhaltsabhängiges Routing durch, um die richtigen Token zu aktivieren oder die richtigen Token für die
00:18:14Vorhersage des nächsten Tokens zu verwenden, und das ist es, was ihnen ihren Effizienzschub verleiht. Und wir müssen erst noch
00:18:21sehen, wie gut das tatsächlich funktioniert, da wir, wie bereits erwähnt, hier nur eine sehr begrenzte Auswahl an Benchmarks haben.
00:18:30Nicht viele andere oder gar keine anderen Benchmarks. Wir haben keine Modellkarte. Wir haben keine Details darüber, wie genau
00:18:36ihre inhaltsabhängige Auswahl funktioniert, und daher haben wir hier eine Menge Fragezeichen.
00:18:42Und wenn wir in den letzten Monaten und Jahren eines definitiv gelernt haben, dann ist es,
00:18:49dass KI offensichtlich ein nützliches Werkzeug ist, und ich verwende es jeden Tag. Sie verwenden es wahrscheinlich auch jeden Tag,
00:18:57und Werkzeuge wie Codex oder Claude Code sind sehr nützlich. Daran habe ich keinen Zweifel und, nun ja, das ist meine
00:19:04Erfahrung mit ihnen, aber wir haben auch gelernt, dass wir uns in einer Branche mit einer Menge Hype befinden. Wir befinden uns in einer
00:19:10Übergangsphase. Alles verändert sich oder vieles verändert sich gerade, und deshalb gibt es natürlich
00:19:16überall eine Menge Versprechungen, und nicht alle Versprechungen werden am Ende auch in etwas
00:19:26tatsächlich Nützliches umgesetzt. Nehmen Sie zum Beispiel die Modelle von Meta, bei denen es sich um dichte Modelle handelte. Die Llama 4-Modelle
00:19:35hatten erstaunliche Benchmark-Zahlen, waren aber nicht so großartig. Es gibt also viele hochgejubelte Beispiele,
00:19:42und das ist natürlich nur ein Beispiel. Es gibt viele Beispiele da draußen. Es ist definitiv ratsam,
00:19:49vorsichtig zu sein, aber wenn sie diese Modelle veröffentlichen – und man kann sich im Moment für den vorzeitigen Zugang bewerben,
00:19:56ich habe es getan, aber ich habe noch keinen Zugang erhalten – wenn diese Modelle halten, was sie versprechen, wenn sie über
00:20:05große Kontextfenster hinweg nützlich und intelligent sind, wird das natürlich eine Menge verändern. Das wird bei den
00:20:13Rechenkapazitäts-Engpässen helfen, die wir derzeit haben, denn es gibt weltweit nicht einmal annähernd genug Rechenleistung.
00:20:19Wir brauchen viel mehr Rechenzentren, Chips, Strom und alles andere. Ein Modell zu haben, das
00:20:25viel effizienter ist, würde dabei helfen. Nun, vielleicht würden wir es dann so viel mehr nutzen, dass das
00:20:33Problem dasselbe bleibt, aber dennoch würde es definitiv im Moment eine stärkere Nutzung ermöglichen. Und natürlich würde es
00:20:40völlig neue Anwendungsfälle erschließen. Es würde es möglich machen, einfach eine ganze Codebase dort hineinzuschieben
00:20:45und darauf zu agieren. All diese Workarounds, die wir derzeit verwenden, würden also wegfallen. Wir bräuchten
00:20:52nicht unbedingt Sub-Agents. Wir bräuchten keine RAG-Systeme, wenn das funktionieren würde. Aber das ist natürlich ein "würde",
00:21:00und wir müssen erst noch sehen, ob das die großen Versprechungen einlöst, die sie machen. Wenn ja,
00:21:07haben sie dort definitiv ein Milliarden-, Multi-Milliarden- oder Billionen-Dollar-Unternehmen gegründet.

Key Takeaway

Das neu angekündigte Sub-Q-Modell verspricht durch die Verwendung von Sub-Quadratic Selective Attention eine effiziente Verarbeitung von 12 Millionen Token Kontext zu einem Bruchteil der Kosten bisheriger Spitzenmodelle.

Highlights

  • Alexander Wedin kündigte das neue Large Language Model Sub-Q an, das ein Kontextfenster von 12 Millionen Token verspricht.

  • Das Modell nutzt anstelle von klassischer Dense Attention eine neue Methode namens Sub-Quadratic Selective Attention (SSA).

  • Durch den Wechsel zu Sparse Attention sollen die Inferenzkosten auf 5 % der Kosten aktueller Spitzenmodelle wie Opus 4.7 sinken.

  • Das Modell erreicht in Benchmarks wie Ruler und MRCRv2 ein ähnliches Leistungsniveau wie Opus 4.6.

  • Das System nutzt inhaltsabhängiges Routing, um nur die für das nächste Token relevanten Informationen zu verarbeiten und den Rest zu überspringen.

Timeline

Ankündigung und Versprechen von Sub-Q

  • Sub-Q steht für sub-quadratische LLM-Intelligenz.
  • Das Modell verspricht ein Kontextfenster von 12 Millionen Token.
  • Die Inferenzkosten liegen laut Ankündigung bei 5 % der Kosten von Opus-Modellen.

Die Ankündigung durch Alexander Wedin stellt ein Modell vor, das durch ein extrem großes Kontextfenster aktuelle Workarounds wie RAG oder Sub-Agents überflüssig machen soll. Bei einer Kapazität von 12 Millionen Token lassen sich komplette Codebasen und umfangreiche juristische Dokumente direkt in das Modell laden.

Analyse der verfügbaren Benchmarks

  • Das Modell performt in den Benchmarks Ruler und MRCRv2 auf dem Niveau von Opus 4.6.
  • Ein Software-Engineering-Benchmark zeigt eine vergleichbare Leistungsfähigkeit wie bei bestehenden dichten Spitzenmodellen.
  • Es fehlen detaillierte technische Dokumentationen und eine öffentliche Modellkarte.

Die spärlich veröffentlichten Daten deuten darauf hin, dass das Modell trotz des effizienteren Ansatzes bei Abruf- und Codierungsaufgaben mit etablierten Modellen mithalten kann. Die Datenbasis bleibt jedoch begrenzt, was eine abschließende Bewertung der tatsächlichen Intelligenz schwierig macht.

Technische Funktionsweise von SSA

  • Dense Attention ist aufgrund der quadratischen Komplexität (n mal n) bei großen Kontextfenstern extrem rechenintensiv.
  • Sparse Attention reduziert den Rechenaufwand, indem nicht alle Token miteinander kombiniert werden.
  • Sub-Quadratic Selective Attention (SSA) nutzt inhaltsabhängiges Routing zur gezielten Aktivierung relevanter Token.

Während Standard-Modelle jeden Token mit jedem vorherigen Token verknüpfen, verwendet Sub-Q einen selektiven Mechanismus. Anstatt wie bei einem lokalen Fenster-Ansatz oder globalen Zusammenfassungs-Token Informationen zu verlieren, entscheidet das Modell dynamisch, welche Sequenzteile tatsächlich ein Signal tragen.

Marktpotenzial und Risikobewertung

  • KI-Modelle mit hoher Effizienz könnten bestehende Engpässe bei Rechenzentren und Hardware mindern.
  • Hohe Versprechen in der KI-Branche müssen kritisch hinterfragt werden, da Benchmarks oft nicht die reale Leistung im Alltag widerspiegeln.
  • Die erfolgreiche Umsetzung dieser Technologie würde die Notwendigkeit für komplexe Workarounds bei großen Datenmengen beseitigen.

Sollte die Technologie die gemachten Versprechen einlösen, stellt sie einen signifikanten Fortschritt für die Branche dar. Dennoch zeigt die Erfahrung mit hochgejubelten Modellen der Vergangenheit, dass zwischen Marketing und tatsächlicher Anwendbarkeit oft eine große Lücke klafft.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video