Hype oder Game Changer? | Deep Dive

Deutschالعربية English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

MMaximilian Schwarzmüller

Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Vor ein paar Stunden gab es eine ziemlich große Ankündigung. Oder einen ziemlich großen Hype. Wir wissen

00:00:06es noch nicht und ich würde die Option mit dem Hype definitiv nicht ausschließen. Den sinnlosen Hype-Teil. Aber wenn

00:00:13es wahr ist, ist es in der Tat eine große Ankündigung. Denn Alexander Wedin, den ich nicht kannte und den Sie wahrscheinlich

00:00:20auch nicht kannten, kündigte Sub-Q an, was für sub-quadratisch steht – ein großer Durchbruch bei der

00:00:28LLM-Intelligenz. Und was er hier angekündigt hat, ist ein völlig neuer Typ von Large Language Model, der sich bei

00:00:36Long-Context-Aufgaben auszeichnet, ohne – zumindest behauptet er das – die "Intelligenz" zu verlieren –

00:00:45in Anführungszeichen, die Modelle generieren Token, aber das verleiht ihnen am Ende ihre Intelligenz – also

00:00:52ohne die Intelligenz zu verlieren, die Sie von aktuellen Spitzenmodellen wie Opus 4.7, GPT 5.5 und so weiter gewohnt sind.

00:00:59Was er nun in dem Ankündigungspost auf X erwähnt – und dann gibt es

00:01:04auch noch einen Ankündigungs-Blogpost mit mehr technischen Details, den wir uns ansehen werden,

00:01:08weil wir in dieser Episode und diesem Video hier tief eintauchen werden – was er hier ankündigt, ist ein Modell, das

00:01:16viel schneller bei der Inferenz von Aufgaben mit einem Kontext von einer Million Token ist und viel weniger kostet. Fünf Prozent

00:01:26von dem, was Opus kostet. Er verspricht auch, dass ihr erstes Modell ein Kontextfenster von 12 Millionen Token

00:01:35haben wird, was, um diese Zahl mal einzuordnen, bedeutet, dass man ganze Codebasen,

00:01:42riesige Codebasen in dieses Kontextfenster packen kann. Man kann mehrere große juristische Dokumente dort unterbringen,

00:01:49und das ist natürlich der Grund, warum Modelle wie dieses, falls sie existieren und funktionieren, super nützlich und absolut

00:01:57bahnbrechend sein könnten. Man kann es nicht anders ausdrücken. Wenn sie funktionieren – wir haben noch nicht viele Details,

00:02:02ich komme gleich darauf zurück – aber wenn sie funktionieren, bedeutet das natürlich, dass all diese Workarounds, die wir

00:02:08derzeit verwenden, wie Sub-Agents, RAG und so weiter, allesamt Workarounds für das Problem sind, dass

00:02:15das Modell nur einen kleinen Teil dessen sieht, was es sehen sollte. Wenn Sie also an einer Codebase arbeiten,

00:02:22können bestehende Spitzenmodelle, je nach Größe Ihrer Codebase, nicht die gesamte Codebase sehen.

00:02:28Sie können nicht die gesamte Codebase laden. Wenn Sie es also bitten, etwas zu ändern, müssen Sie hoffen,

00:02:33dass das Modell die richtigen Stellen in Ihrer Codebase findet, um die von Ihnen gewünschte Änderung vorzunehmen.

00:02:40And das wird natürlich umso mehr zum Problem, je größer die Codebase oder je größer

00:02:45die Menge an Dokumenten ist, an denen das Modell arbeiten soll. Wenn Sie also ein Modell haben, das ein

00:02:52Kontextfenster von 12 Millionen Token zuverlässig und mit guter Qualität nutzen kann, wäre das natürlich ein Gamechanger.

00:02:59Apropos bahnbrechend: Wir werden in diesem Video tief eintauchen, und ich werde in all meinen Kursen tief eintauchen. Wenn

00:03:06Sie also daran interessiert sind, zu lernen, wie man Werkzeuge wie Claude Code, Codex, andere KI-Aufgaben

00:03:13oder das Codieren praktisch nutzt, oder die Kombination aus all dem, dann könnten meine Kurse einen Blick wert sein. Sie sind praxisnah,

00:03:19sie sind interaktiv, sie sind tiefgehend, und Sie können die einzelnen Kurse oder die Mitgliedschaft erwerben,

00:03:24die Ihnen Zugang zu allen Kursen für einen monatlichen oder jährlichen Preis bietet. Links unten.

00:03:31Tauchen wir also nun etwas tiefer ein. Und wie bereits erwähnt, gibt es einen Ankündigungs-Blogpost mit

00:03:36einigen technischen Details, aber um hier ganz klar zu sein, nicht sehr vielen. Es fehlen eine Menge Informationen,

00:03:43und wir haben auch nicht viele Benchmarks. Konkret haben sie nur drei

00:03:49Benchmarks veröffentlicht. Den Ruler-Benchmark, der das Abruf- und Denkverhalten über die einfache

00:03:56Nadel-im-Heuhaufen-Suche hinaus testet, einschließlich Multi-Hop-Abruf, Aggregation, Variablen-Tracking und selektivem

00:04:01Filtern. Das ist also ein Benchmark, bei dem es am Ende vor allem darum geht, dass ein Modell mehrere Teile

00:04:06relevanter Informationen aus einem relativ großen Kontextfenster findet. 128.000 Token. Also kein super großes

00:04:15Kontextfenster, nicht annähernd die versprochenen 12 Millionen, aber auch nicht nur 5K oder so.

00:04:22Dies ist also ein Benchmark, der testet, wie gut ein Modell verschiedene Teile aus einem

00:04:28mehr oder weniger großen Kontextfenster oder einer Dokumentenbasis finden und zusammenfügen kann. Und hier liegt ihr Modell auf dem gleichen Niveau wie

00:04:36OPUS 4.6. In diesem Beitrag erwähnen sie auch einen weiteren Benchmark, den MRCRv2-Benchmark, bei dem es ebenfalls um Aufgaben des

00:04:45Langkontext-Abrufs geht, wo ihr Modell, wie sie angaben, im Bereich von OPUS 4.6 liegt. Obwohl es,

00:04:53ja, im selben Bereich liegt, wenn man sich all die anderen Ergebnisse hier ansieht, aber es ist definitiv schlechter.

00:05:00Was natürlich interessant ist, da ihre ganze Stärke hier der Abruf bei langem Kontext ist. Aber

00:05:07andererseits könnte man natürlich auch argumentieren, dass für Anwendungsfälle mit extrem langem Kontextfenster die anderen

00:05:15Modelle überhaupt nicht nutzbar sind, während ihres Ihnen immer noch sehr gute Ergebnisse liefern könnte, was vielleicht

00:05:22besser als nichts ist. Und natürlich können sich ihre Modelle im Laufe der Zeit auch definitiv verbessern. Ich würde

00:05:29dies also nicht als ein super schlechtes Zeichen für das erste Modell werten. Es ist nur eine Erwähnung wert. Und

00:05:35natürlich ist es auch erwähnenswert, dass es in dieser Tabelle weitaus besser abschneidet als beispielsweise Gemini 3.1 Pro oder OPUS 4.7.

00:05:43Und sie haben auch einen Benchmark veröffentlicht, den ich interessant fand und der sich auf codierungsbezogene Aufgaben bezieht.

00:05:49Nun muss ich sagen, dass ich von all diesen Benchmarks kein großer Fan bin. Wir alle wissen,

00:05:56dass sie gewissermaßen manipuliert werden können, zumindest viele von ihnen. Modelle können bewusst oder unbewusst

00:06:05darauf hin feingetunt oder optimiert werden, in Benchmarks gut abzuschneiden. Wir hatten in der Vergangenheit viele solcher Fälle,

00:06:12aber sie geben uns dennoch etwas, woran wir uns orientieren können. Und ich finde diesen Software-Engineering-Benchmark hier

00:06:20interessant, weil wir hier sehen können, dass ihr Modell ziemlich genau im Bereich der OPUS-Modelle

00:06:27liegt. Und das zeigt natürlich, dass es nicht nur in der Lage ist, Informationen in langen Kontextfenstern,

00:06:36in vielen Dokumenten und großen Codebasen zu finden, sondern dass es auch in der Lage ist, etwas Nützliches damit anzufangen,

00:06:42dass es in der Lage ist, als Ergebnis seiner Intelligenz und der abgerufenen Daten aussagekräftigen, guten Code

00:06:50in diesen langen Kontextfenstern zu generieren, sozusagen. Es geht also nicht nur um das Abrufen,

00:06:54sondern auch darum, nützliche Dinge zu tun. Und da scheint es gut zu sein. Aber wie bereits erwähnt, war es das im Wesentlichen.

00:07:00Wir haben keine weiteren tiefen Einblicke oder technischen Details erhalten. Es gibt noch keine Modellkarte (Model Card).

00:07:09Und daher haben wir im Grunde nur eine Beschreibung, wie ihr Modell Sparse Attention anstelle von Dense

00:07:16Attention verwendet, um diese Aufgaben mit langem Kontext zu bewältigen oder um das Modell in Szenarien

00:07:22mit langen Kontextfenstern effizient arbeiten zu lassen, und wie das Modell seine Beschleunigung und Kosteneffizienz erreicht,

00:07:29weil es schneller und billiger ist, richtig? Das ist es, was sie angekündigt haben. Werfen wir also

00:07:37einen Blick auf Dense versus Sparse Attention, um zu verstehen, was hier vor sich geht. Nun, Dense Attention ist

00:07:45das, was man in den aktuellen Spitzenmodellen findet. Also Ihr GPT 5.5, Opus 4.7 und all die anderen Modelle,

00:07:52das sind alles dichte (dense) Modelle, was im Wesentlichen bedeutet, dass für jedes neue Token, sagen wir Token D,

00:07:58um dieses Token zu generieren, alle anderen Token ausgewertet werden müssen und die Verbindungen zwischen

00:08:08diesen Token ausgewertet werden müssen, denn die ganze Idee bei Large Language Models ist ja,

00:08:13dass man ein zukünftiges Token ableitet, das ein ganzes Wort oder ein Teil eines Wortes sein kann, basierend auf dem, was vor

00:08:20diesem Token kam. Wenn Sie also beispielsweise einen Satz haben wie "Ein Vertrag kann jederzeit gekündigt werden unter Punkt Punkt Punkt",

00:08:28dann ist das nächste Wort danach das, was Sie vorhersagen wollen. Sie haben vielleicht ein Modell gefragt: "Hey,

00:08:35wann kann ich meinen Vertrag kündigen?" Und Sie haben diesen Vertrag vielleicht als PDF-Dokument oder als einfachen

00:08:42Text in Ihren Prompt eingefügt. Der Prompt vor diesem Satz, den das Modell

00:08:48als Ausgabe generiert, ist also Ihre Frage und dann vielleicht noch ein weiterer Kontext. Der Vertrag zum

00:08:57Beispiel, richtig? So nutzen wir Modelle derzeit. Und um dieses Token hier zu erzeugen,

00:09:03und um jedes Token zu erzeugen, das davor kam, hat das Modell im Grunde einen Blick auf die

00:09:10gesamte Konversation geworfen, auf all die Token darin. Das ist Ihre Frage und jeder zusätzliche Kontext,

00:09:16den Sie dort eingefügt haben. Und es hat das in mehrere Token aufgeteilt und dann all diese Token kombiniert oder

00:09:23Gewichtungen am Ende berechnet, basierend auf all den Kombinationen der vorherigen Token. Wenn das

00:09:30beispielsweise unsere gesamte Konversation wäre, natürlich bewusst kurz gehalten, da es ein Beispiel ist, dann ist dies der Weg,

00:09:38wie es für die GPT-5-Modelle beispielsweise in Token aufgeteilt worden wäre. Einige Token sind

00:09:46einfach ein Wort oder ein Wort mit einem Leerzeichen davor. Einige Token sind einfach Sonderzeichen.

00:09:51Und um das nächste Token zu generieren, werden am Ende alle vorherigen Token miteinander kombiniert,

00:09:58um schließlich die Bedeutung zu verstehen. Denn natürlich hat ein Fragezeichen eine ganz

00:10:05andere Bedeutung und Auswirkung auf ein zukünftiges Token, je nachdem, was vor diesem

00:10:11Fragezeichen kam. Dieses Fragezeichen wird also mit allen vorherigen Token kombiniert. Und es ist die Kombination

00:10:17all dieser Kombinationen am Ende, die dann verwendet wird, um das finale Token abzuleiten. Das ist auf einer

00:10:22sehr hohen Ebene die Art und Weise, wie man sich Dense Attention vorstellen kann und wie es funktioniert. Natürlich

00:10:29ist das sehr ineffizient, aber es ist im Moment das Beste, was wir haben, zumindest wenn es um die

00:10:36Intelligenz und die Qualität der Ausgabe geht. Aber es ist quadratisch, weil es n mal n ist,

00:10:44was bedeutet, dass wir alle vorherigen Token kombinieren müssen, um ein neues Token abzuleiten. Es gibt

00:10:49Optimierungsmechanismen wie das KV-Caching, das am Ende die Ergebnisse der berechneten Gewichtungen

00:10:56zwischenspeichert, die in der Vergangenheit berechnet wurden. Sodass man für ein neues Token nicht

00:11:01alle vorherigen Kombinationen neu berechnen muss, aber man muss dieses neue Token dennoch berechnen, indem man es mit all

00:11:08den vorherigen zwischengespeicherten Gewichtungen vergleicht. Man landet also immer noch in dieser quadratischen Situation hier. Und das ist

00:11:16natürlich ineffizient und langsam, weshalb diese Spitzenmodelle, die wir im Moment haben, sehr rechenintensiv und

00:11:24langsam sind, besonders wenn man in die Bereiche mit größeren Kontextfenstern vordringt, und warum es ziemlich

00:11:31strenge Limits für die Kontextfenstergröße gibt. Da es quadratisch ist, ist ein Kontextfenster der Größe von 12 Millionen

00:11:38natürlich so gut wie unmöglich zu berechnen. Es würde ewig dauern, und die Rechenzeit ist nur eine

00:11:46Dimension, der Speicher, der reserviert werden muss, ist eine andere. So funktionieren dichte Modelle kurz gesagt und das sind ihre Grenzen.

00:11:54Die Alternative oder ein anderer Ansatz, der von diesem neuen Modell verwendet wird,

00:12:00dem gestern angekündigten Sub-Q-Modell, ist die Verwendung von Sparse Attention. Nun,

00:12:06wie funktioniert Sparse Attention? Die Idee bei Sparse Attention ist, dass man zur Berechnung eines neuen

00:12:14Tokens nicht alle vorherigen Token betrachtet, man hat nicht die Kombinationen aller vorherigen

00:12:20Token, sondern nur von einigen ausgewählten Token. Wenn Sie beispielsweise das Token D hier ableiten

00:12:28wollen, betrachten Sie vielleicht nur B und C, aber nicht A. Nun ist natürlich die große Frage:

00:12:33Wie entscheidet man, welche vorherigen Token man betrachtet oder welche vorherigen Token interessant sind,” um

00:12:40dieses neue Token zu erzeugen. Und es gibt verschiedene Ansätze, die in der Vergangenheit verwendet wurden, denn

00:12:46dieses neue Modell ist nicht das erste Sparse-Attention-Modell. Aber der Grund, warum sie sich hier nicht wirklich

00:12:52durchgesetzt haben, ist, dass sie gravierende Einschränkungen haben. Ein Weg ist beispielsweise die Verwendung eines

00:12:59lokalen Fenster-Ansatzes. Was bedeutet das? Das bedeutet, dass wir zur Erzeugung eines neuen Tokens,

00:13:06sagen wir des Tokens Nummer fünf, dem fünften Token in einer Sequenz, beispielsweise nur

00:13:13die zwei Token davor betrachten. Also drei und vier zum Beispiel. Man hat also ein gleitendes Fenster von Token

00:13:22und betrachtet immer nur die Token direkt vor dem Token, das man gerade generieren möchte. Nun,

00:13:27wie Sie sich vorstellen können, hat dies einige gravierende Einschränkungen, denn wenn ich mir nur die letzten

00:13:33paar Token ansehe und mich beispielsweise frage, wann ein Vertrag gekündigt werden kann, liegt die Information

00:13:39vielleicht hier in dem zusätzlichen Kontext, den ich in den Prompt eingefügt habe, aber sie ist nicht Teil dieses lokalen Fensters,

00:13:45wenn das lokale Fenster beispielsweise nur die letzten paar Token umfasst. Das nächste Token, das vorhergesagt

00:13:50werden soll, hat also keine Ahnung von dem, was zuvor in diesem Kontext stand. Das ist also nicht nützlich. Man kann mit

00:13:55diesem Ansatz eine unbegrenzte Kontextfenstergröße haben, aber der gesamte Kontext spielt keine Rolle. Das ist eine

00:14:01offensichtliche Einschränkung. Ein anderer Ansatz ist der sogenannte Global-Token-Ansatz. Hier ist die Idee, dass man

00:14:09ein globales Zusammenfassungs-Token hat. Auf einer hohen Ebene kann man sich das wie ein spezielles Token vorstellen, das am

00:14:16Anfang der Token-Sequenz steht, das vom Modell am Anfang der Token-Sequenz eingefügt wird,

00:14:20sozusagen, welches die Token dahinter zusammenfasst. So kann man sich das in etwa vorstellen.

00:14:27Und für die Vorhersage des nächsten Tokens wird dann dieses globale Token berücksichtigt. Nun, das kann

00:14:34sehr gut funktionieren, wenn wir zu diesem Beispiel hier mit dem juristischen Text zurückkehren, den Sie vielleicht an ein Modell

00:14:40in Ihrem Prompt übergeben haben. Wenn diese Zusammenfassung, die hier für Ihre Konversation generiert wurde, beispielsweise die

00:14:46Vertragskündigungsbedingungen enthält, dann kann dieses nächste Token natürlich sehr gut

00:14:53basierend auf dieser Zusammenfassung vorhergesagt werden. Aber wenn Sie Pech haben und die Zusammenfassung diese Details nicht enthält,

00:15:00nun, dann haben Sie Pech gehabt und sind wieder in dem Zustand, in dem die Information völlig fehlt.

00:15:04Ein globaler Token-Ansatz kann also funktionieren, aber je länger Ihr Kontextfenster wird,

00:15:12desto allgemeiner wird natürlich die Zusammenfassung. Das kann man sich leicht vorstellen. Wenn Sie beispielsweise ein

00:15:16hundertseitiges PDF-Dokument haben und dieses in ein oder zwei Sätzen zusammenfassen müssten, wäre das sehr

00:15:22unspezifisch, richtig? Die Vorhersage des nächsten Tokens auf der Grundlage dieser Zusammenfassung wird also nicht wirklich funktionieren.

00:15:29Ein weiterer Ansatz wäre die Verwendung eines Routers, was bedeutet, dass man ein zusätzliches neuronales

00:15:37Netzwerk hat. Sie haben also im Wesentlichen zwei Modelle: Ihr Large Language Model und dann ein zusätzliches

00:15:43Routing-Modell. Und dieses Routing-Modell wirft einen Blick auf den Prompt des Benutzers oder auf den Kontext des

00:15:51nächsten zu generierenden Tokens und leitet dieses Token sozusagen an die anderen Token weiter, die es

00:15:59für relevant hält. Aber das bedeutet nun natürlich, dass Sie jetzt ein Routing-Modell haben, das irgendwie

00:16:04den Überblick über alle anderen Token behalten muss, die danach kommen. Das führt also wahrscheinlich wieder zurück in den quadratischen

00:16:10Attention-Bereich oder ist sehr unspezifisch und Sie verlassen sich darauf. Entweder kehren Sie also wieder zur

00:16:17quadratischen Komplexität zurück und gewinnen im Vergleich zu einem dichten Modell nicht so viel, oder Sie tun das nicht und

00:16:23haben wahrscheinlich einen Qualitätsverlust, weil der Router nicht sehr gut ist. Genau wie bei der

00:16:30Zusammenfassung müssten Sie also hoffen, dass der Router einen guten Job macht und die richtigen Token für die

00:16:37Vorhersage des nächsten Tokens aktiviert. Und aus diesem Grund ist Sparse Attention zwar interessant, hat sich aber bisher

00:16:46noch nicht wirklich durchgesetzt, da all diese verschiedenen Ansätze erhebliche Kompromisse erfordern und es bis zu

00:16:54diesem Zeitpunkt meines Wissens nach kein Sparse-Attention-Modell gab, das eine

00:17:00gleiche Qualität geliefert hätte, die mit den aktuellen dichten Spitzenmodellen vergleichbar wäre, und das über ein großes

00:17:07Kontextfenster hinweg agieren könnte. Und sie versprechen, dies mit ihrem neuen Modell zu ändern. In diesem Ankündigungs-Blogpost

00:17:14erwähnen sie, dass ihr Modell eine inhaltsabhängige Auswahl (content-dependent selection) durchführt. Für jede Abfrage wählt das Modell aus, welche

00:17:22Teile der Sequenz es wert sind, beachtet zu werden, und berechnet die Attention genau über diese Positionen. Am Ende

00:17:28sind wir also wieder bei diesem Routing-Ansatz, aber sie versprechen hier, erwähnen hier,

00:17:35dass ihr Mechanismus sehr effizient zu sein scheint, um die richtigen Token für die Vorhersage

00:17:43des nächsten Tokens zu aktivieren. Sie erwähnen, dass Dense Attention davon ausgeht, dass jedes Paar wichtig sein könnte, und daher

00:17:49alle bewertet. In der Praxis tut das fast keines. SSA, was für Sub-Quadratic Selective Attention steht,

00:17:55was ihr Ansatz ist, hebt diese Annahme auf. Es nähert die Attention nicht an. Es beschränkt

00:18:01die Attention auf die Positionen, die tatsächlich ein Signal tragen, und überspringt den Rest. Das ist ihr Ansatz.

00:18:08Sie führen ein inhaltsabhängiges Routing durch, um die richtigen Token zu aktivieren oder die richtigen Token für die

00:18:14Vorhersage des nächsten Tokens zu verwenden, und das ist es, was ihnen ihren Effizienzschub verleiht. Und wir müssen erst noch

00:18:21sehen, wie gut das tatsächlich funktioniert, da wir, wie bereits erwähnt, hier nur eine sehr begrenzte Auswahl an Benchmarks haben.

00:18:30Nicht viele andere oder gar keine anderen Benchmarks. Wir haben keine Modellkarte. Wir haben keine Details darüber, wie genau

00:18:36ihre inhaltsabhängige Auswahl funktioniert, und daher haben wir hier eine Menge Fragezeichen.

00:18:42Und wenn wir in den letzten Monaten und Jahren eines definitiv gelernt haben, dann ist es,

00:18:49dass KI offensichtlich ein nützliches Werkzeug ist, und ich verwende es jeden Tag. Sie verwenden es wahrscheinlich auch jeden Tag,

00:18:57und Werkzeuge wie Codex oder Claude Code sind sehr nützlich. Daran habe ich keinen Zweifel und, nun ja, das ist meine

00:19:04Erfahrung mit ihnen, aber wir haben auch gelernt, dass wir uns in einer Branche mit einer Menge Hype befinden. Wir befinden uns in einer

00:19:10Übergangsphase. Alles verändert sich oder vieles verändert sich gerade, und deshalb gibt es natürlich

00:19:16überall eine Menge Versprechungen, und nicht alle Versprechungen werden am Ende auch in etwas

00:19:26tatsächlich Nützliches umgesetzt. Nehmen Sie zum Beispiel die Modelle von Meta, bei denen es sich um dichte Modelle handelte. Die Llama 4-Modelle

00:19:35hatten erstaunliche Benchmark-Zahlen, waren aber nicht so großartig. Es gibt also viele hochgejubelte Beispiele,

00:19:42und das ist natürlich nur ein Beispiel. Es gibt viele Beispiele da draußen. Es ist definitiv ratsam,

00:19:49vorsichtig zu sein, aber wenn sie diese Modelle veröffentlichen – und man kann sich im Moment für den vorzeitigen Zugang bewerben,

00:19:56ich habe es getan, aber ich habe noch keinen Zugang erhalten – wenn diese Modelle halten, was sie versprechen, wenn sie über

00:20:05große Kontextfenster hinweg nützlich und intelligent sind, wird das natürlich eine Menge verändern. Das wird bei den

00:20:13Rechenkapazitäts-Engpässen helfen, die wir derzeit haben, denn es gibt weltweit nicht einmal annähernd genug Rechenleistung.

00:20:19Wir brauchen viel mehr Rechenzentren, Chips, Strom und alles andere. Ein Modell zu haben, das

00:20:25viel effizienter ist, würde dabei helfen. Nun, vielleicht würden wir es dann so viel mehr nutzen, dass das

00:20:33Problem dasselbe bleibt, aber dennoch würde es definitiv im Moment eine stärkere Nutzung ermöglichen. Und natürlich würde es

00:20:40völlig neue Anwendungsfälle erschließen. Es würde es möglich machen, einfach eine ganze Codebase dort hineinzuschieben

00:20:45und darauf zu agieren. All diese Workarounds, die wir derzeit verwenden, würden also wegfallen. Wir bräuchten

00:20:52nicht unbedingt Sub-Agents. Wir bräuchten keine RAG-Systeme, wenn das funktionieren würde. Aber das ist natürlich ein "würde",

00:21:00und wir müssen erst noch sehen, ob das die großen Versprechungen einlöst, die sie machen. Wenn ja,

00:21:07haben sie dort definitiv ein Milliarden-, Multi-Milliarden- oder Billionen-Dollar-Unternehmen gegründet.

Key Takeaway

Das neu angekündigte Sub-Q-Modell verspricht durch die Verwendung von Sub-Quadratic Selective Attention eine effiziente Verarbeitung von 12 Millionen Token Kontext zu einem Bruchteil der Kosten bisheriger Spitzenmodelle.

Highlights

Alexander Wedin kündigte das neue Large Language Model Sub-Q an, das ein Kontextfenster von 12 Millionen Token verspricht.
Das Modell nutzt anstelle von klassischer Dense Attention eine neue Methode namens Sub-Quadratic Selective Attention (SSA).
Durch den Wechsel zu Sparse Attention sollen die Inferenzkosten auf 5 % der Kosten aktueller Spitzenmodelle wie Opus 4.7 sinken.
Das Modell erreicht in Benchmarks wie Ruler und MRCRv2 ein ähnliches Leistungsniveau wie Opus 4.6.
Das System nutzt inhaltsabhängiges Routing, um nur die für das nächste Token relevanten Informationen zu verarbeiten und den Rest zu überspringen.

Timeline

Ankündigung und Versprechen von Sub-Q

Sub-Q steht für sub-quadratische LLM-Intelligenz.
Das Modell verspricht ein Kontextfenster von 12 Millionen Token.
Die Inferenzkosten liegen laut Ankündigung bei 5 % der Kosten von Opus-Modellen.

Die Ankündigung durch Alexander Wedin stellt ein Modell vor, das durch ein extrem großes Kontextfenster aktuelle Workarounds wie RAG oder Sub-Agents überflüssig machen soll. Bei einer Kapazität von 12 Millionen Token lassen sich komplette Codebasen und umfangreiche juristische Dokumente direkt in das Modell laden.

Analyse der verfügbaren Benchmarks

Das Modell performt in den Benchmarks Ruler und MRCRv2 auf dem Niveau von Opus 4.6.
Ein Software-Engineering-Benchmark zeigt eine vergleichbare Leistungsfähigkeit wie bei bestehenden dichten Spitzenmodellen.
Es fehlen detaillierte technische Dokumentationen und eine öffentliche Modellkarte.

Die spärlich veröffentlichten Daten deuten darauf hin, dass das Modell trotz des effizienteren Ansatzes bei Abruf- und Codierungsaufgaben mit etablierten Modellen mithalten kann. Die Datenbasis bleibt jedoch begrenzt, was eine abschließende Bewertung der tatsächlichen Intelligenz schwierig macht.

Technische Funktionsweise von SSA

Dense Attention ist aufgrund der quadratischen Komplexität (n mal n) bei großen Kontextfenstern extrem rechenintensiv.
Sparse Attention reduziert den Rechenaufwand, indem nicht alle Token miteinander kombiniert werden.
Sub-Quadratic Selective Attention (SSA) nutzt inhaltsabhängiges Routing zur gezielten Aktivierung relevanter Token.

Während Standard-Modelle jeden Token mit jedem vorherigen Token verknüpfen, verwendet Sub-Q einen selektiven Mechanismus. Anstatt wie bei einem lokalen Fenster-Ansatz oder globalen Zusammenfassungs-Token Informationen zu verlieren, entscheidet das Modell dynamisch, welche Sequenzteile tatsächlich ein Signal tragen.

Marktpotenzial und Risikobewertung

KI-Modelle mit hoher Effizienz könnten bestehende Engpässe bei Rechenzentren und Hardware mindern.
Hohe Versprechen in der KI-Branche müssen kritisch hinterfragt werden, da Benchmarks oft nicht die reale Leistung im Alltag widerspiegeln.
Die erfolgreiche Umsetzung dieser Technologie würde die Notwendigkeit für komplexe Workarounds bei großen Datenmengen beseitigen.

Sollte die Technologie die gemachten Versprechen einlösen, stellt sie einen signifikanten Fortschritt für die Branche dar. Dennoch zeigt die Erfahrung mit hochgejubelten Modellen der Vergangenheit, dass zwischen Marketing und tatsächlicher Anwendbarkeit oft eine große Lücke klafft.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video