Claude Mythos est ENFIN arrivé (Fable 5)

Françaisالعربية Deutsch English Español हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00Claude Mythos est enfin arrivé.

00:00:01Anthropic vient de sortir un nouveau modèle nommé Fable 5,

00:00:03qui est un modèle de classe Mythos,

00:00:05juste avec énormément de garde-fous intégrés,

00:00:07mais il surpasse tous les modèles qu'ils ont jamais sortis,

00:00:09et peut-être n'importe quel autre.

00:00:11Il est à la pointe de la technologie sur presque chaque benchmark.

00:00:13Évidemment, cependant, cela va certainement vous coûter cher,

00:00:16et ils ont fait quelque chose d'un peu intéressant

00:00:17avec la tarification ici

00:00:18dont je ne pense pas que beaucoup de gens seront satisfaits.

00:00:25Normalement, je n'aime pas passer trop de temps

00:00:27sur les benchmarks, mais ce tableau est assez fou.

00:00:30Les bonds que ce modèle réalise

00:00:31sur certains de ces benchmarks,

00:00:32et le fait qu'il soit en tête sur presque chacun d'entre eux.

00:00:35Vous pouvez voir qu'il a un bond de 10 % en codage argentique

00:00:37sur SWE Bench Pro,

00:00:39et il est pratiquement 20 % devant GPT 5.5,

00:00:42et il a fait des bonds similaires sur le benchmark Frontier Code.

00:00:44Frontier Code est en fait un nouveau benchmark de Cognition,

00:00:47les gars derrière Devin,

00:00:48qui teste essentiellement ce qui aurait été maintenu

00:00:49qui a réellement fusionné le code que ce modèle produit.

00:00:52Sur ce graphique, vous pouvez voir que Fable 5 est en avance

00:00:54sur tous les autres modèles,

00:00:55même avec un effort de raisonnement moyen,

00:00:57mais je pense aussi que vous pouvez voir que ce modèle

00:00:58va être super cher.

00:01:00Il est aussi marginalement meilleur en utilisation informatique,

00:01:02pas un bond massif,

00:01:03et il en va de même pour Terminal Bench en bas,

00:01:05mais encore une fois, comme vous pouvez le voir,

00:01:06c'est un leader dans presque chaque catégorie.

00:01:09L'une des choses les plus importantes, cependant,

00:01:10qui devient de plus en plus pertinente

00:01:11sont les tâches de longue durée.

00:01:12Fable 5 peut apparemment travailler plus longtemps

00:01:14que n'importe quel autre modèle,

00:01:15et ils ont fait tester cela par Stripe,

00:01:17et apparemment, il a effectué une migration à l'échelle de la base de code

00:01:18d'une base de code Ruby de 50 millions de lignes

00:01:21en une seule journée.

00:01:22Probablement aidé par le fait qu'il est devenu

00:01:24bien meilleur en mémoire et en contexte long également.

00:01:26Il peut apparemment rester concentré sur des millions

00:01:28de jetons dans les tâches de longue durée,

00:01:29et il améliore ses propres résultats

00:01:31en utilisant ses propres notes.

00:01:32Maintenant, au-delà du simple codage,

00:01:33ses capacités de vision sont aussi assez impressionnantes.

00:01:36Apparemment, il peut battre Pokémon Fire Red

00:01:37avec un harnais minimal basé uniquement sur la vision maintenant,

00:01:39alors qu'auparavant ils devaient lui donner des outils supplémentaires,

00:01:42et il l'a encore à peine battu,

00:01:43mais maintenant il n'a aucun problème.

00:01:45Il va aussi apparemment joyeusement créer un site web

00:01:47à partir d'une capture d'écran.

00:01:48J'ai en fait testé cela en utilisant le site web de Linear,

00:01:50et cela est devenu vraiment un peu confus pour moi

00:01:52lequel est lequel ici,

00:01:53mais celui de droite est celui

00:01:55que Fable 5 a généré

00:01:56juste à partir d'une capture d'écran du site web de Linear.

00:01:58Il n'a pas utilisé de recherche web ou quoi que ce soit de ce genre,

00:02:00je lui ai juste donné une capture d'écran complète de cette page web,

00:02:02et je dirais qu'il a fait un travail assez impressionnant.

00:02:05Toutes les captures d'écran, tout,

00:02:06ont été générées avec du code,

00:02:08et vous pouvez voir qu'il a fait un très, très bon travail.

00:02:10Ce sont des choses comme les animations SVG

00:02:12qui ne vont pas être parfaites,

00:02:14mais dans l'ensemble, je dirais que je suis assez content

00:02:15de la façon dont il a recréé ce site web,

00:02:18et il a réussi pratiquement chaque section,

00:02:20ou du moins m'a amené à un point

00:02:21où je pouvais ensuite itérer dessus

00:02:22pour l'obtenir exactement comme je le voulais.

00:02:24Pendant qu'on y est,

00:02:24j'ai aussi décidé de tester ces modèles

00:02:25sur la construction d'un front-end et d'un back-end

00:02:27pour une application de tableau de bord financier

00:02:28à partir d'un dossier complètement vide en un seul essai,

00:02:31et c'est ce que Fable 5 m'a donné.

00:02:33J'ai tout testé,

00:02:34tout fonctionne,

00:02:35il communique avec l'API,

00:02:37et dans l'ensemble, le design a l'air vraiment sympa.

00:02:39C'est vraiment utilisable,

00:02:40mais c'est cette esthétique

00:02:41que les modèles Claude semblent donner récemment.

00:02:43Nous pouvons voir cela dans le résultat

00:02:44qu'Opus 4.8 m'a donné également.

00:02:45Encore une fois, je pense que ce site a l'air vraiment sympa,

00:02:47et pour être honnête avec vous,

00:02:48je dirais que ça a l'air mieux que celui de Fable 5,

00:02:50mais encore une fois, il a cette esthétique

00:02:51sur laquelle Claude a été entraîné,

00:02:53mais c'est aussi de ma faute.

00:02:54Je n'ai pas demandé à ce que cela suive un design particulier.

00:02:56Je suis sûr que si je l'avais fait,

00:02:57il aurait fait un excellent travail.

00:02:58Si nous comparons cela à ce que GPT 5.5 m'a donné,

00:03:00cependant,

00:03:01vous pouvez voir que ce n'est même pas proche.

00:03:03C'était à partir d'une seule invite,

00:03:04l'exacte même invite,

00:03:05et ils sont tout simplement à des kilomètres derrière en matière de design d'interface,

00:03:07à mon avis.

00:03:08J'espère vraiment que le prochain modèle GPT

00:03:10fera quelque chose à ce sujet.

00:03:11Fable 5 m'a en fait surpris sur ce test

00:03:13en étant le plus rapide.

00:03:14Il a fallu environ huit minutes

00:03:15pour finir ce tableau de bord financier,

00:03:17alors qu'Opus a pris 12 minutes,

00:03:18et GPT 5.5 a pris 15 minutes

00:03:20pour faire cette abomination.

00:03:22En plus de mes simples démos,

00:03:23l'une de mes préférées était Anthropic,

00:03:24montrant Fable 5 construisant un modèle CAO imprimable en 3D

00:03:27dans un éditeur CAO basé sur navigateur

00:03:28que Fable 5 lui-même a également créé.

00:03:31Genre, construire votre propre mini-logiciel

00:03:32est juste tellement réalisable maintenant,

00:03:34et il en va de même pour les médicaments.

00:03:36Apparemment, ce modèle est vraiment bon en conception de médicaments,

00:03:38mais vous n'avez probablement pas besoin d'en savoir plus à ce sujet,

00:03:40et oui, il est définitivement protégé,

00:03:43car c'est pratiquement tout

00:03:44ce qui touche à la cybersécurité,

00:03:45à moins que vous ne soyez l'une des entreprises

00:03:46dans ce programme spécial.

00:03:48Fable 5 va apparemment être très prudent,

00:03:51ce qui signifie qu'il va avoir

00:03:51quelques faux positifs,

00:03:53apparemment moins de 5 % des messages,

00:03:55mais cela me semble quand même assez élevé,

00:03:57et j'ai déjà rencontré des garde-fous d'Opus auparavant,

00:03:59donc celui-ci sera probablement pire.

00:04:01Apparemment, cependant,

00:04:02au lieu de dire non purement et simplement,

00:04:04il essaiera d'envoyer votre demande

00:04:05à Opus 4.8 d'abord

00:04:06pour voir s'il est sûr pour ce modèle de faire le travail,

00:04:09mais encore une fois, j'ai déjà rencontré ces garde-fous,

00:04:11donc je ne suis pas trop sûr de la façon dont cela va fonctionner.

00:04:13Ce benchmark montre en fait

00:04:14à quel point ces garde-fous pourraient être fous.

00:04:17En le testant sur des évaluations cyber,

00:04:19Fable 5 avec ses garde-fous

00:04:20réussit zéro de ces tests.

00:04:22Il refuse tout simplement de faire quoi que ce soit,

00:04:24et comme je l'ai dit plus tôt,

00:04:25si Opus me rejette parfois

00:04:27avec un taux de réussite de 88 % sur ce test,

00:04:29je vois beaucoup de gens

00:04:30rencontrer des garde-fous avec Mythos.

00:04:32La dernière chose à discuter alors

00:04:33est la tarification,

00:04:34et c'est là que les choses deviennent un peu intéressantes.

00:04:37C'est 10 $ pour un million de jetons d'entrée,

00:04:39et 50 $ pour un million de jetons de sortie,

00:04:41ce qui je ne pense pas en fait soit si mal,

00:04:42ce n'est pas le pire que nous ayons jamais vu,

00:04:44mais ce que je n'aime pas particulièrement

00:04:45est ce bloc suivant.

00:04:47Fable 5 est disponible dès aujourd'hui

00:04:48dans les plans Pro Max team et entreprise,

00:04:50mais ensuite dans quelques semaines

00:04:52le 23 juin,

00:04:53ils vont essentiellement supprimer Plus

00:04:54et retirer ces modèles,

00:04:56et après cela,

00:04:56cela va nécessiter des crédits d'utilisation.

00:04:58Puis après cela,

00:04:59ils disent qu'ils vont ajouter ces modèles

00:05:01de nouveau dans ces plans

00:05:02à une date indéterminée.

00:05:04Cela semble juste une façon bizarre de faire les choses,

00:05:05et je suppose que leur objectif

00:05:06est de vous rendre accro à ces modèles,

00:05:08puis de vous les enlever,

00:05:09et de vous faire dépenser plus d'argent pour eux,

00:05:11et je pense que cela signale

00:05:12juste à quel point ces modèles sont chers

00:05:13pour eux à faire fonctionner.

00:05:14Oh, et cela utilise aussi vos limites

00:05:16deux fois plus vite qu'Opus,

00:05:17donc je ne réglerais probablement pas cela

00:05:18comme votre modèle principal

00:05:19à moins que vous ne soyez une sorte de milliardaire.

00:05:21La note de bas de page finale

00:05:21que je pense être intéressante

00:05:23est leur nouvelle politique de rétention des données.

00:05:25Pour utiliser ces modèles,

00:05:25ils exigent en fait une rétention de 30 jours

00:05:27de tout le trafic

00:05:28sur les outils de première et de tierce partie,

00:05:30et supposément aucun entraînement

00:05:31ne va être effectué sur ces données,

00:05:33c'est juste encore pour essayer

00:05:34et bloquer les menaces de sécurité.

00:05:35Alors voilà,

00:05:36Mythos est enfin là.

00:05:37Que pensez-vous de cette sortie de modèle

00:05:39et de l'avenir du logiciel ?

00:05:40Faites-le-moi savoir dans les commentaires ci-dessous.

00:05:41Pendant que vous y êtes, abonnez-vous,

00:05:42et comme toujours,

00:05:43à la prochaine.

00:05:44Au revoir.

Key Takeaway

Fable 5 établit un nouveau standard de performance dans le codage et les tâches de longue durée, tout en imposant des coûts élevés et des restrictions de sécurité strictes qui limitent son usage professionnel autonome.

Highlights

Fable 5 surpasse les modèles existants avec une avance de 10 % sur SWE Bench Pro et de 20 % sur GPT 5.5.
Ce modèle traite des migrations de bases de code complexes, comme une architecture Ruby de 50 millions de lignes, en une seule journée.
La génération de sites web à partir de captures d'écran atteint une qualité utilisable sans recours à la recherche web externe.
La tarification est fixée à 10 $par million de jetons d'entrée et 50$ par million de jetons de sortie.
L'utilisation de Fable 5 impose une rétention obligatoire des données de trafic pendant 30 jours à des fins de sécurité.
Les garde-fous de sécurité intégrés bloquent systématiquement les tests liés à la cybersécurité.

Timeline

Performances et benchmarks de Fable 5

Fable 5 domine les benchmarks récents de codage, incluant SWE Bench Pro et Frontier Code.
Le modèle surpasse GPT 5.5 de 20 % sur les tâches de programmation.

Les performances de Fable 5 surpassent les standards technologiques actuels sur presque tous les benchmarks de référence. Bien que le coût d'utilisation soit élevé, le bond en matière de codage et de raisonnement complexe est notable, plaçant le modèle en tête des catégories de test.

Capacités opérationnelles et autonomie

Le modèle gère des bases de code massives de 50 millions de lignes en une journée.
La vision permet la création de sites web complets à partir de captures d'écran et la maîtrise de jeux vidéo.

Fable 5 démontre une efficacité accrue sur les tâches de longue durée grâce à une meilleure gestion du contexte et de la mémoire. Des tests montrent la génération rapide d'interfaces web fonctionnelles, surpassant les concurrents en rapidité et en qualité esthétique du design.

Restrictions, sécurité et tarification

Des garde-fous stricts empêchent l'exécution de tâches liées à la cybersécurité.
La politique impose une rétention de données de 30 jours pour tous les utilisateurs.
Le modèle consomme les limites de quota deux fois plus vite qu'Opus 4.8.

Le déploiement est marqué par des contraintes sur les accès, incluant une période d'ajustement où le modèle sera retiré des plans Plus pour basculer vers un système de crédits. Les mesures de sécurité provoquent de nombreux faux positifs, rendant certains domaines, comme l'audit de cybersécurité, inaccessibles.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video