Simple effet de mode ou véritable révolution ? | Analyse approfondie

MMaximilian Schwarzmüller
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Il y a quelques heures, il y a eu une annonce assez importante. Ou plutôt un énorme buzz. On ne
00:00:06sait pas encore, et je n'exclurais certainement pas l'option du buzz. Du buzz totalement inutile. Mais si c'est
00:00:13vrai, c'est effectivement une grande nouvelle. Car Alexander Wedin, que je ne connaissais pas et vous probablement
00:00:20non plus, a annoncé sub-q, qui signifie sub-quadratic, une avancée majeure dans l'intelligence
00:00:28des LLM. Et ce qu'il a annoncé ici, c'est un tout nouveau type de grand modèle de langage qui excelle dans
00:00:36les tâches à long contexte sans perdre — du moins c'est ce qu'il prétend — sans perdre "l'intelligence"
00:00:45— entre guillemets, les modèles génèrent des jetons mais c'est ce qui leur donne leur intelligence au bout du compte — donc
00:00:52sans perdre l'intelligence à laquelle vous êtes habitués avec les modèles de pointe actuels comme Opus 4.7,
00:00:59GPT 5.5 et ainsi de suite. Maintenant, ce qu'il mentionne dans son post d'annonce sur X — et il y a
00:01:04également un article de blog d'annonce avec plus de détails techniques que nous allons examiner
00:01:08car nous allons plonger en profondeur dans cet épisode et cette vidéo — ce qu'il annonce ici est un modèle qui est
00:01:16bien plus rapide lors de l'inférence sur des tâches de contexte d'un million de jetons, et qui coûte bien moins cher. Cinq pour cent
00:01:26de ce que coûte Opus. Il promet également que leur modèle initial aura une fenêtre de contexte
00:01:35de 12 millions de jetons, ce qui, juste pour mettre ce chiffre en perspective, signifie que vous pouvez y intégrer
00:01:42des bases de code entières, d'immenses bases de code dans cette fenêtre de contexte. Vous pouvez y insérer
00:01:49plusieurs grands documents juridiques et c'est bien sûr pourquoi des modèles comme celui-ci, s'ils existent et fonctionnent,
00:01:57pourraient être super utiles et changer totalement la donne. Il n'y a pas d'autre mot. S'ils fonctionnent — nous n'avons pas
00:02:02encore beaucoup de détails, j'y reviendrai — mais s'ils fonctionnent, cela signifie évidemment que toutes ces solutions de contournement
00:02:08que nous utilisons actuellement, comme les sous-agents, le RAG, etc., qui sont toutes des solutions de rechange au problème
00:02:15que le modèle ne voit qu'une petite partie de ce qu'il devrait voir. Donc, si vous travaillez sur une base de code,
00:02:22les modèles de pointe actuels, selon la taille de votre base de code, ne peuvent pas voir l'intégralité de la base de code.
00:02:28Ils ne peuvent pas charger toute la base de code. Donc, si vous lui demandez de modifier quelque chose, vous devez espérer
00:02:33que le modèle trouve les bonnes parties dans votre base de code pour effectuer le changement que vous demandez.
00:02:40Et cela devient évidemment un problème de plus en plus grand à mesure que la base de code ou la quantité
00:02:45de documents sur lesquels vous voulez que le modèle travaille augmente. Donc, si vous avez un modèle qui peut utiliser
00:02:52de manière fiable une fenêtre de contexte de 12 millions de jetons avec une bonne qualité, cela changerait naturellement la donne.
00:02:59En parlant de changer la donne, nous allons plonger en profondeur dans cette vidéo et je le fais dans tous mes cours. Donc,
00:03:06si vous souhaitez apprendre à utiliser concrètement des outils comme Claude Code, Codex, d'autres tâches d'IA,
00:03:13ou la programmation, ou la combinaison de tout cela, alors mes cours valent peut-être le coup d'œil. Ils sont pratiques,
00:03:19concrets, approfondis, et vous pouvez suivre les cours individuellement ou prendre l'abonnement,
00:03:24qui vous donne accès à tous les cours pour un prix mensuel ou annuel. Les liens sont ci-dessous.
00:03:31Plongeons donc un peu plus en profondeur maintenant. Et comme mentionné, il y a un article de blog d'annonce avec
00:03:36quelques détails techniques, mais pas énormément pour être très clair. Il y a beaucoup d'informations manquantes,
00:03:43et nous n'avons pas non plus beaucoup de benchmarks. Plus précisément, ils n'ont publié que trois
00:03:49benchmarks. Le benchmark RULER qui teste les comportements de récupération et de raisonnement au-delà de la simple
00:03:56recherche d'aiguille dans une botte de foin, y compris la récupération multi-sauts, l'agrégation, le suivi des variables et le filtrage
00:04:01sélectif. C'est donc un benchmark qui, au bout du compte, consiste à voir si un modèle peut trouver plusieurs éléments
00:04:06d'informations pertinents dans une fenêtre de contexte relativement grande. 128 000 jetons. Donc ce n'est pas une fenêtre
00:04:15de contexte super grande, on est loin des 12 millions promis, mais ce n'est pas non plus seulement 5K.
00:04:22C'est donc un benchmark qui teste la capacité d'un modèle à trouver et à assembler différentes parties à partir d'une
00:04:28fenêtre de contexte ou d'une base de documents plus ou moins grande. Et ici, leur modèle est au même niveau que
00:04:36OPUS 4.6. Dans ce post, ils mentionnent également un autre benchmark, le benchmark MRCRv2, qui concerne également les tâches
00:04:45de récupération à long contexte où leur modèle se situe, comme ils l'ont indiqué, dans la même gamme qu'OPUS 4.6. Même si,
00:04:53oui, il est dans la même gamme si vous regardez tous les autres résultats ici, mais il est définitivement moins bon.
00:05:00Ce qui est bien sûr intéressant puisque tout leur concept repose sur la récupération dans un long contexte ici. Mais d'un autre
00:05:07côté, on pourrait aussi soutenir que pour des cas d'utilisation avec des fenêtres de contexte super longues, les autres
00:05:15modèles ne sont pas du tout utilisables, alors que le leur pourrait encore donner de très bons résultats, ce qui serait
00:05:22mieux que rien. Et bien sûr, leurs modèles peuvent aussi s'améliorer avec le temps. Donc je ne
00:05:29prendrais pas cela comme un très mauvais signe pour le modèle initial. C'est juste quelque chose qui mérite d'être noté. Et bien
00:05:35sûr, il convient également de noter qu'il est bien meilleur que Gemini 3.1 Pro, par exemple, ou OPUS 4.7 dans
00:05:43ce tableau. Et ils ont également publié un benchmark, que j'ai trouvé intéressant, qui concerne les tâches liées
00:05:49au codage. Maintenant, je dois dire que tous ces benchmarks, je n'en suis pas un grand fan. Nous savons tous
00:05:56qu'ils peuvent être un peu biaisés, du moins pour beaucoup d'entre eux, les modèles peuvent être délibérément ou non
00:06:05ajustés ou optimisés pour obtenir de bons résultats dans les benchmarks. Nous avons eu de nombreux cas de ce genre dans le passé,
00:06:12mais ils nous donnent quand même des éléments à analyser. Et je trouve ce benchmark de génie logiciel
00:06:20intéressant, car nous pouvons voir ici que leur modèle se situe à peu près dans la même gamme que les modèles
00:06:27OPUS. Et cela montre, bien sûr, qu'il n'est pas seulement capable de trouver des informations dans des fenêtres de contexte
00:06:36longues, dans beaucoup de documents ou de grandes bases de code, mais qu'il est également capable d'en faire quelque chose d'utile,
00:06:42qu'il est capable de générer du code de bonne qualité et pertinent grâce à son intelligence et aux données qu'il est
00:06:50capable de récupérer dans ces longues fenêtres de contexte, pour ainsi dire. Il ne s'agit donc pas seulement de récupérer,
00:06:54il s'agit aussi de faire des choses utiles. Et il semble être bon là-dedans. Mais comme mentionné, c'est à peu près
00:07:00tout. Nous n'avons pas eu d'autres analyses approfondies ou de détails techniques. Il n'y a pas encore de fiche de modèle (model card). Et par conséquent,
00:07:09tout ce que nous avons, c'est une description de la manière dont leur modèle utilise l'attention parcimonieuse (sparse attention) au lieu de l'attention
00:07:16dense pour faire fonctionner ces tâches à long contexte ou pour faire fonctionner le modèle efficacement
00:07:22dans des scénarios de fenêtres de contexte longues, et comment le modèle parvient à accélérer et à réduire ses coûts,
00:07:29car il est plus rapide et moins cher, n'est-ce pas ? C'est ce qu'ils ont annoncé. Jetons donc un coup
00:07:37d'œil à la différence entre l'attention dense et l'attention parcimonieuse pour comprendre ce qui se passe ici. L'attention dense est
00:07:45ce que vous avez dans les modèles de pointe actuels. Donc votre GPT 5.5, Opus 4.7, tous les autres modèles,
00:07:52ce sont tous des modèles denses, ce qui signifie essentiellement que pour chaque nouveau jeton, disons le jeton D,
00:07:58afin de générer ce jeton, tous les autres jetons doivent être évalués et les connexions entre
00:08:08ces jetons doivent être évaluées car l'idée même des grands modèles de langage est que
00:08:13vous déduisez un futur jeton, qui pourrait être un mot entier ou une partie de mot, sur la base de ce qui l'a précédé.
00:08:20Donc, si vous avez, par exemple, une phrase comme "un contrat peut être résilié à tout..."
00:08:28alors le mot suivant est ce que vous voulez prédire. Vous avez peut-être demandé au modèle : "Hé,
00:08:35quand puis-je résilier mon contrat ?" Et vous avez peut-être fourni ce contrat sous forme de document PDF ou de texte
00:08:42brut dans votre invite également. Donc, l'invite avant cette phrase, que le modèle est
00:08:48en train de générer en tant que sortie, est votre question, puis peut-être un autre contexte. Le contrat, par
00:08:57exemple, n'est-ce pas ? C'est ainsi que nous utilisons actuellement les modèles. Et pour produire ce jeton ici,
00:09:03et pour produire chaque jeton qui l'a précédé, le modèle a fondamentalement analysé
00:09:10toute la conversation, tous les jetons qu'elle contient. C'est-à-dire votre question et tout contexte supplémentaire
00:09:16que vous y avez intégré. Et il a divisé cela en plusieurs jetons, puis a combiné tous ces jetons ou
00:09:23calculé des poids au final en se basant sur toutes les combinaisons des jetons précédents. Par exemple,
00:09:30si c'était notre conversation entière, délibérément courte car c'est un exemple, alors c'est
00:09:38ainsi qu'elle aurait été divisée en jetons pour les modèles GPT-5, par exemple. Certains jetons
00:09:46sont juste un mot ou un mot avec un espace devant. Certains jetons sont juste des caractères spéciaux.
00:09:51Et afin de générer ce jeton suivant, tous les jetons précédents sont finalement combinés les uns avec
00:09:58les autres pour en comprendre le sens. Car bien sûr, un point d'interrogation a une signification et
00:10:05une implication très différentes pour un futur jeton, selon ce qui a précédé ce
00:10:11point d'interrogation. Donc ce point d'interrogation est combiné avec tous les jetons précédents. Et c'est la combinaison
00:10:17de toutes ces combinaisons à la fin qui est ensuite utilisée pour déduire ce jeton final. C'est,
00:10:22à un niveau très général, comment vous pouvez concevoir l'attention dense et son fonctionnement. Maintenant, naturellement,
00:10:29c'est très inefficace, mais c'est un peu ce que nous avons de mieux en ce moment, du moins en ce qui concerne
00:10:36l'intelligence et la qualité du résultat. Mais c'est quadratique parce que c'est n fois n,
00:10:44ce qui signifie que pour obtenir un nouveau jeton, nous devons combiner tous les jetons précédents. Il existe
00:10:49des mécanismes d'optimisation comme le KV caching (mise en cache des clés et valeurs), qui au final met en cache les résultats des poids
00:10:56calculés par le passé. De sorte que pour un nouveau jeton, vous n'avez pas à recalculer
00:11:01toutes les combinaisons précédentes, mais vous devez toujours calculer ce nouveau jeton en le comparant à tous
00:11:08les poids précédents mis en cache. Vous vous retrouvez donc toujours dans cette situation quadratique ici. Et cela,
00:11:16bien sûr, est inefficace et lent, c'est pourquoi ces modèles de pointe que nous avons actuellement sont très gourmands en calcul,
00:11:24lents, surtout lorsque vous commencez à entrer dans des zones de fenêtres de contexte plus grandes, et c'est pourquoi il y a des limites
00:11:31assez strictes de taille de fenêtre de contexte. Comme c'est quadratique, bien sûr, une taille de fenêtre de contexte
00:11:38de 12 millions est quasiment impossible à calculer. Cela prendrait une éternité et le temps de calcul n'est qu'une
00:11:46dimension, la mémoire à réserver en est une autre. Voilà en résumé comment fonctionnent les modèles denses et leurs limites.
00:11:54Maintenant, l'opposé ou une approche alternative qui est utilisée par ce nouveau modèle,
00:12:00le modèle sub-q qui a été annoncé hier, consiste à utiliser l'attention parcimonieuse. Alors,
00:12:06comment fonctionne l'attention parcimonieuse ? L'idée avec l'attention parcimonieuse est que pour calculer un nouveau
00:12:14jeton, vous ne regardez pas tous les jetons précédents, vous n'avez pas les combinaisons de tous les jetons
00:12:20précédents, mais seulement de quelques jetons sélectionnés. Par exemple, si vous voulez déduire le jeton D ici,
00:12:28vous ne regarderez peut-être que B et C, mais pas A. Maintenant, la grande question est évidemment de savoir
00:12:33comment vous décidez quels jetons précédents regarder ou quels jetons précédents sont intéressants pour
00:12:40produire ce nouveau jeton. Et différentes approches ont été utilisées par le passé car
00:12:46ce nouveau modèle n'est pas le premier modèle à attention parcimonieuse. Mais la raison pour laquelle ils n'ont pas vraiment
00:12:52percé jusqu'ici, c'est qu'ils présentent de sérieuses limites. Par exemple, une méthode consiste à utiliser une
00:12:59approche de fenêtre locale. Qu'est-ce que cela signifie ? Cela signifie que pour produire un nouveau jeton,
00:13:06disons le jeton numéro cinq, le cinquième jeton d'une séquence, nous regardons, disons,
00:13:13juste les deux jetons qui le précèdent. Donc trois plus quatre, par exemple. Vous avez donc une fenêtre glissante de jetons
00:13:22et vous ne regardez toujours que les jetons situés juste devant celui que vous êtes sur le point de générer. Maintenant,
00:13:27comme vous pouvez l'imaginer, cela présente de sérieuses limites car si je ne regarde que les derniers
00:13:33jetons, si je me demande par exemple quand un contrat peut être résilié, l'information
00:13:39peut se trouver ici dans le contexte supplémentaire que j'ai transmis dans l'invite, mais elle ne fait pas partie de cette fenêtre locale
00:13:45si la fenêtre locale ne contient que les derniers jetons, par exemple. Donc ce jeton suivant qui est sur le point d'être
00:13:50prédit n'a aucune idée de ce qu'il y avait avant dans ce contexte. Ce n'est donc pas utile. Vous pouvez avoir une
00:13:55taille de fenêtre de contexte illimitée avec cette approche, mais tout le reste du contexte n'a pas d'importance. C'est donc une limite évidente.
00:14:01Une autre approche est celle dite du jeton global. Ici, l'idée est que vous
00:14:09avez un jeton de résumé global. À un niveau général, vous pouvez considérer cela comme un jeton spécial qui vient
00:14:16au début de la séquence de jetons, qui est inséré au début de la séquence de jetons
00:14:20par le modèle, pour ainsi dire, et qui résume les jetons qui le suivent. C'est un peu comme cela qu'il faut le voir.
00:14:27Et ensuite, pour prédire le jeton suivant, ce jeton global est pris en compte. Cela peut très bien fonctionner
00:14:34si nous revenons à cet exemple de texte juridique que vous avez pu transmettre à un modèle
00:14:40dans votre invite. Si ce résumé généré ici pour votre conversation inclut les
00:14:46conditions de résiliation du contrat, par exemple, alors bien sûr ce jeton suivant peut être très bien prédit
00:14:53sur la base de ce résumé. Mais si vous n'avez pas de chance et que le résumé n'inclut pas ces détails,
00:15:00eh bien vous n'avez pas de chance et vous revenez à l'état où l'information est totalement absente.
00:15:04Ainsi, l'approche par jeton global peut fonctionner, mais bien sûr plus votre fenêtre de contexte s'allonge,
00:15:12plus le résumé devient générique. C'est facile à imaginer. Si vous avez par exemple un
00:15:16document PDF de cent pages et que vous deviez le résumer en une phrase ou deux, ce serait très
00:15:22imprécis, n'est-ce pas ? Donc, bien sûr, prédire le jeton suivant sur la base de ce résumé ne fonctionnera pas vraiment.
00:15:29Maintenant, une autre approche consisterait à utiliser un routeur, c'est-à-dire que vous avez une sorte de réseau neuronal
00:15:37supplémentaire. Vous avez donc deux modèles, essentiellement votre grand modèle de langage, puis vous avez un modèle
00:15:43de routage supplémentaire. Et ce modèle de routage examine l'invite de l'utilisateur ou le contexte du
00:15:51prochain jeton à générer, puis oriente ce jeton, pour ainsi dire, vers les autres jetons qu'il juge
00:15:59pertinents. Mais cela signifie évidemment que vous avez maintenant un modèle de routage qui doit d'une manière ou d'une autre
00:16:04garder la trace de tous les autres jetons qui le suivent. On retourne donc probablement dans la zone de l'attention
00:16:10quadratique, ou bien c'est très imprécis et vous dépendez de cela. Soit vous revenez
00:16:17à la complexité quadratique et vous ne gagnez pas grand-chose par rapport à un modèle dense, soit vous ne le faites pas
00:16:23et vous aurez probablement une perte de qualité parce que le routeur n'est pas très bon. Donc, tout comme avec le
00:16:30résumé, vous espéreriez que le routeur fasse du bon travail et active les bons jetons pour
00:16:37prédire le jeton suivant. Et c'est pourquoi l'attention parcimonieuse est intéressante mais n'a pas vraiment percé
00:16:46jusqu'à présent, parce que toutes ces différentes approches ont des compromis importants et que jusqu'ici,
00:16:54à ma connaissance, il n'y a pas eu de modèle à attention parcimonieuse qui aurait produit
00:17:00une qualité égale ou comparable aux modèles denses de pointe actuels et qui serait capable d'agir sur une grande
00:17:07fenêtre de contexte. Et ils promettent de changer cela avec leur nouveau modèle. Dans cet article de blog d'annonce,
00:17:14ils mentionnent que leur modèle effectue une sélection dépendante du contenu. Pour chaque requête, le modèle sélectionne quelles
00:17:22parties de la séquence méritent de faire l'objet d'une attention particulière et calcule l'attention exactement sur ces positions. Donc
00:17:28au final, on revient à cette approche de routage, mais ils promettent ici, ils mentionnent ici,
00:17:35que leur mécanisme semble être très efficace pour activer les bons jetons pour prédire
00:17:43le jeton suivant. Ils mentionnent que l'attention dense suppose que chaque paire peut avoir de l'importance, donc elle les évalue
00:17:49toutes. En pratique, presque aucune n'en a. SSA, qui signifie sub-quadratic selective attention,
00:17:55qui est leur approche, supprime cette hypothèse. Elle n'effectue pas d'approximation de l'attention. Elle restreint
00:18:01l'attention aux positions qui portent réellement un signal et ignore le reste. C'est leur approche.
00:18:08Ils font du routage dépendant du contenu pour activer les bons jetons ou pour utiliser les bons jetons pour
00:18:14prédire le jeton suivant, et c'est ce qui leur donne leur gain d'efficacité. Et il reste à voir
00:18:21à quel point cela fonctionne réellement car, comme mentionné, nous avons un sous-ensemble très limité de benchmarks ici.
00:18:30Pas beaucoup d'autres voire aucun autre benchmark. Nous n'avons pas de fiche de modèle. Nous n'avons aucun détail sur la façon exacte
00:18:36dont fonctionne leur sélection dépendante du contenu et nous avons donc beaucoup de points d'interrogation ici.
00:18:42Et s'il y a bien une chose que nous avons apprise au cours des derniers mois et des dernières années,
00:18:49c'est que l'IA est évidemment un outil utile et je l'utilise tous les jours. Vous l'utilisez probablement tous les jours et
00:18:57des outils comme Codecs ou Claude Code sont très utiles. Je n'ai aucun doute là-dessus et, eh bien, c'est mon
00:19:04expérience avec eux, mais nous avons aussi appris que nous sommes dans un secteur avec beaucoup de buzz. Nous sommes dans
00:19:10une période de transition. Tout change ou beaucoup de choses changent en ce moment et par conséquent, bien sûr, il y a
00:19:16beaucoup de promesses partout et toutes les promesses ne se réalisent pas, ne se matérialisent pas pour donner
00:19:26quelque chose de réellement utile. Je veux dire, prenez les modèles de Meta par exemple, qui étaient des modèles denses. Les modèles
00:19:35Llama 4 avaient des chiffres de benchmark incroyables mais n'étaient pas si géniaux. Il y a donc beaucoup d'exemples surmédiatisés
00:19:42et ce n'est qu'un exemple bien sûr. Il y a beaucoup d'exemples sur le marché. Il convient de
00:19:49rester prudent, mais s'ils publient ces modèles — et vous pouvez demander un accès anticipé dès maintenant,
00:19:56je l'ai fait mais je ne l'ai pas encore obtenu — si ces modèles tiennent leurs promesses, s'ils sont utiles,
00:20:05intelligents sur de grandes tailles de fenêtres de contexte, cela changera évidemment beaucoup de choses. Cela aidera à surmonter
00:20:13les contraintes de calcul que nous avons actuellement, car nous sommes très loin d'avoir assez de puissance de calcul
00:20:19dans le monde. Nous avons besoin de beaucoup plus de centres de données, de puces, d'électricité et de tout le reste. Donc, avoir un modèle qui
00:20:25est beaucoup plus efficace aiderait à résoudre ce problème. Enfin, peut-être que nous l'utiliserions tellement plus que
00:20:33le problème resterait le même, mais cela permettrait tout de même un plus grand usage dès maintenant. Et bien sûr, cela
00:20:40ouvrirait la voie à de tout nouveaux cas d'utilisation. Cela permettrait simplement d'y injecter une base de code entière
00:20:45et de travailler dessus. Ainsi, toutes ces solutions de contournement que nous utilisons actuellement disparaîtraient. Nous n'aurions plus
00:20:52nécessairement besoin de sous-agents. Nous n'aurions plus besoin de systèmes RAG si cela fonctionnait. Mais c'est un grand "si"
00:21:00bien sûr, et il nous reste à voir si cela sera à la hauteur des grandes promesses qu'ils font. Si c'est le cas,
00:21:07ils ont définitivement fondé là une entreprise de plusieurs milliards ou dizaines de milliards de dollars.

Key Takeaway

L'introduction du modèle sub-q avec son architecture d'attention parcimonieuse SSA vise à surmonter les limites de coût et de calcul des modèles denses actuels, en permettant l'exploitation de fenêtres de contexte allant jusqu'à 12 millions de jetons.

Highlights

  • Alexander Wedin a annoncé un nouveau type de modèle de langage nommé “sub-q” (sub-quadratic), promettant une fenêtre de contexte de 12 millions de jetons.

  • Le modèle “sub-q” utilise une technique d'attention parcimonieuse (“sparse attention”) appelée SSA (Sub-Quadratic Selective Attention) au lieu de l'attention dense traditionnelle.

  • Le coût d'inférence revendiqué pour ce modèle est de 5% de celui des modèles actuels comme Opus 4.7.

  • L'approche SSA effectue une sélection dépendante du contenu pour ne calculer que les jetons pertinents, évitant ainsi la complexité quadratique ($n^2$) des modèles denses.

  • Les résultats des benchmarks limités (RULER, MRCRv2) placent le modèle dans une gamme de performance comparable aux modèles Opus 4.6 pour certaines tâches de récupération.

Timeline

Annonce de la technologie sub-q

  • Un nouveau type de LLM nommé sub-q a été annoncé par Alexander Wedin.
  • Le modèle promet une fenêtre de contexte massive de 12 millions de jetons.
  • Le coût d'inférence est annoncé à 5% de celui du modèle Opus 4.7.

Cette nouvelle technologie prétend résoudre les limites de contexte des modèles actuels. Une capacité de 12 millions de jetons permettrait d'analyser des bases de code entières ou de vastes documents juridiques sans recourir à des solutions de contournement complexes comme les sous-agents ou le RAG.

Analyse des benchmarks

  • Trois benchmarks ont été publiés pour tester le modèle : RULER, MRCRv2 et un test de codage.
  • Le modèle affiche des performances comparables aux modèles Opus 4.6 dans ces tests.
  • L'absence de fiche technique détaillée (“model card”) laisse de nombreuses interrogations sur la méthodologie.

Bien que les résultats initiaux soient encourageants, la quantité limitée de données de test et le manque de transparence technique imposent une certaine prudence. Le modèle semble démontrer une capacité à non seulement récupérer des informations, mais aussi à générer du code pertinent, ce qui valide son utilité potentielle.

Mécanisme de l'attention parcimonieuse

  • L'attention dense actuelle nécessite de comparer chaque jeton à tous les autres, ce qui est une opération quadratique inefficace.
  • L'attention parcimonieuse limite les calculs en ne sélectionnant que quelques jetons pertinents.
  • Les méthodes précédentes d'attention parcimonieuse, comme la fenêtre locale ou le jeton global, présentaient des limites de qualité importantes.

Les modèles denses fonctionnent en $n^2$ car ils évaluent toutes les combinaisons de jetons, ce qui rend les très grandes fenêtres de contexte extrêmement coûteuses et lentes. L'attention parcimonieuse tente de résoudre ce problème, mais jusqu'à présent, aucune implémentation n'avait réussi à maintenir une qualité égale aux modèles denses.

L'approche SSA et perspectives

  • Le modèle sub-q utilise l'approche SSA (Sub-Quadratic Selective Attention) basée sur une sélection dépendante du contenu.
  • Cette technique ignore les jetons inutiles et se concentre uniquement sur ceux porteurs de signal.
  • La viabilité réelle de ce modèle dépendra de sa capacité à confirmer ces promesses lors d'une utilisation réelle à grande échelle.

La promesse de l'approche SSA est d'éliminer l'approximation de l'attention en restreignant le calcul aux positions réellement significatives. Si les performances annoncées se confirment, ce modèle pourrait changer radicalement le paysage actuel en levant les contraintes de calcul qui limitent l'usage des grands contextes.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video