Claude Mythos est ENFIN arrivé (Fable 5)

BBetter Stack
컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00Claude Mythos est enfin arrivé.
00:00:01Anthropic vient de sortir un nouveau modèle nommé Fable 5,
00:00:03qui est un modèle de classe Mythos,
00:00:05juste avec énormément de garde-fous intégrés,
00:00:07mais il surpasse tous les modèles qu'ils ont jamais sortis,
00:00:09et peut-être n'importe quel autre.
00:00:11Il est à la pointe de la technologie sur presque chaque benchmark.
00:00:13Évidemment, cependant, cela va certainement vous coûter cher,
00:00:16et ils ont fait quelque chose d'un peu intéressant
00:00:17avec la tarification ici
00:00:18dont je ne pense pas que beaucoup de gens seront satisfaits.
00:00:25Normalement, je n'aime pas passer trop de temps
00:00:27sur les benchmarks, mais ce tableau est assez fou.
00:00:30Les bonds que ce modèle réalise
00:00:31sur certains de ces benchmarks,
00:00:32et le fait qu'il soit en tête sur presque chacun d'entre eux.
00:00:35Vous pouvez voir qu'il a un bond de 10 % en codage argentique
00:00:37sur SWE Bench Pro,
00:00:39et il est pratiquement 20 % devant GPT 5.5,
00:00:42et il a fait des bonds similaires sur le benchmark Frontier Code.
00:00:44Frontier Code est en fait un nouveau benchmark de Cognition,
00:00:47les gars derrière Devin,
00:00:48qui teste essentiellement ce qui aurait été maintenu
00:00:49qui a réellement fusionné le code que ce modèle produit.
00:00:52Sur ce graphique, vous pouvez voir que Fable 5 est en avance
00:00:54sur tous les autres modèles,
00:00:55même avec un effort de raisonnement moyen,
00:00:57mais je pense aussi que vous pouvez voir que ce modèle
00:00:58va être super cher.
00:01:00Il est aussi marginalement meilleur en utilisation informatique,
00:01:02pas un bond massif,
00:01:03et il en va de même pour Terminal Bench en bas,
00:01:05mais encore une fois, comme vous pouvez le voir,
00:01:06c'est un leader dans presque chaque catégorie.
00:01:09L'une des choses les plus importantes, cependant,
00:01:10qui devient de plus en plus pertinente
00:01:11sont les tâches de longue durée.
00:01:12Fable 5 peut apparemment travailler plus longtemps
00:01:14que n'importe quel autre modèle,
00:01:15et ils ont fait tester cela par Stripe,
00:01:17et apparemment, il a effectué une migration à l'échelle de la base de code
00:01:18d'une base de code Ruby de 50 millions de lignes
00:01:21en une seule journée.
00:01:22Probablement aidé par le fait qu'il est devenu
00:01:24bien meilleur en mémoire et en contexte long également.
00:01:26Il peut apparemment rester concentré sur des millions
00:01:28de jetons dans les tâches de longue durée,
00:01:29et il améliore ses propres résultats
00:01:31en utilisant ses propres notes.
00:01:32Maintenant, au-delà du simple codage,
00:01:33ses capacités de vision sont aussi assez impressionnantes.
00:01:36Apparemment, il peut battre Pokémon Fire Red
00:01:37avec un harnais minimal basé uniquement sur la vision maintenant,
00:01:39alors qu'auparavant ils devaient lui donner des outils supplémentaires,
00:01:42et il l'a encore à peine battu,
00:01:43mais maintenant il n'a aucun problème.
00:01:45Il va aussi apparemment joyeusement créer un site web
00:01:47à partir d'une capture d'écran.
00:01:48J'ai en fait testé cela en utilisant le site web de Linear,
00:01:50et cela est devenu vraiment un peu confus pour moi
00:01:52lequel est lequel ici,
00:01:53mais celui de droite est celui
00:01:55que Fable 5 a généré
00:01:56juste à partir d'une capture d'écran du site web de Linear.
00:01:58Il n'a pas utilisé de recherche web ou quoi que ce soit de ce genre,
00:02:00je lui ai juste donné une capture d'écran complète de cette page web,
00:02:02et je dirais qu'il a fait un travail assez impressionnant.
00:02:05Toutes les captures d'écran, tout,
00:02:06ont été générées avec du code,
00:02:08et vous pouvez voir qu'il a fait un très, très bon travail.
00:02:10Ce sont des choses comme les animations SVG
00:02:12qui ne vont pas être parfaites,
00:02:14mais dans l'ensemble, je dirais que je suis assez content
00:02:15de la façon dont il a recréé ce site web,
00:02:18et il a réussi pratiquement chaque section,
00:02:20ou du moins m'a amené à un point
00:02:21où je pouvais ensuite itérer dessus
00:02:22pour l'obtenir exactement comme je le voulais.
00:02:24Pendant qu'on y est,
00:02:24j'ai aussi décidé de tester ces modèles
00:02:25sur la construction d'un front-end et d'un back-end
00:02:27pour une application de tableau de bord financier
00:02:28à partir d'un dossier complètement vide en un seul essai,
00:02:31et c'est ce que Fable 5 m'a donné.
00:02:33J'ai tout testé,
00:02:34tout fonctionne,
00:02:35il communique avec l'API,
00:02:37et dans l'ensemble, le design a l'air vraiment sympa.
00:02:39C'est vraiment utilisable,
00:02:40mais c'est cette esthétique
00:02:41que les modèles Claude semblent donner récemment.
00:02:43Nous pouvons voir cela dans le résultat
00:02:44qu'Opus 4.8 m'a donné également.
00:02:45Encore une fois, je pense que ce site a l'air vraiment sympa,
00:02:47et pour être honnête avec vous,
00:02:48je dirais que ça a l'air mieux que celui de Fable 5,
00:02:50mais encore une fois, il a cette esthétique
00:02:51sur laquelle Claude a été entraîné,
00:02:53mais c'est aussi de ma faute.
00:02:54Je n'ai pas demandé à ce que cela suive un design particulier.
00:02:56Je suis sûr que si je l'avais fait,
00:02:57il aurait fait un excellent travail.
00:02:58Si nous comparons cela à ce que GPT 5.5 m'a donné,
00:03:00cependant,
00:03:01vous pouvez voir que ce n'est même pas proche.
00:03:03C'était à partir d'une seule invite,
00:03:04l'exacte même invite,
00:03:05et ils sont tout simplement à des kilomètres derrière en matière de design d'interface,
00:03:07à mon avis.
00:03:08J'espère vraiment que le prochain modèle GPT
00:03:10fera quelque chose à ce sujet.
00:03:11Fable 5 m'a en fait surpris sur ce test
00:03:13en étant le plus rapide.
00:03:14Il a fallu environ huit minutes
00:03:15pour finir ce tableau de bord financier,
00:03:17alors qu'Opus a pris 12 minutes,
00:03:18et GPT 5.5 a pris 15 minutes
00:03:20pour faire cette abomination.
00:03:22En plus de mes simples démos,
00:03:23l'une de mes préférées était Anthropic,
00:03:24montrant Fable 5 construisant un modèle CAO imprimable en 3D
00:03:27dans un éditeur CAO basé sur navigateur
00:03:28que Fable 5 lui-même a également créé.
00:03:31Genre, construire votre propre mini-logiciel
00:03:32est juste tellement réalisable maintenant,
00:03:34et il en va de même pour les médicaments.
00:03:36Apparemment, ce modèle est vraiment bon en conception de médicaments,
00:03:38mais vous n'avez probablement pas besoin d'en savoir plus à ce sujet,
00:03:40et oui, il est définitivement protégé,
00:03:43car c'est pratiquement tout
00:03:44ce qui touche à la cybersécurité,
00:03:45à moins que vous ne soyez l'une des entreprises
00:03:46dans ce programme spécial.
00:03:48Fable 5 va apparemment être très prudent,
00:03:51ce qui signifie qu'il va avoir
00:03:51quelques faux positifs,
00:03:53apparemment moins de 5 % des messages,
00:03:55mais cela me semble quand même assez élevé,
00:03:57et j'ai déjà rencontré des garde-fous d'Opus auparavant,
00:03:59donc celui-ci sera probablement pire.
00:04:01Apparemment, cependant,
00:04:02au lieu de dire non purement et simplement,
00:04:04il essaiera d'envoyer votre demande
00:04:05à Opus 4.8 d'abord
00:04:06pour voir s'il est sûr pour ce modèle de faire le travail,
00:04:09mais encore une fois, j'ai déjà rencontré ces garde-fous,
00:04:11donc je ne suis pas trop sûr de la façon dont cela va fonctionner.
00:04:13Ce benchmark montre en fait
00:04:14à quel point ces garde-fous pourraient être fous.
00:04:17En le testant sur des évaluations cyber,
00:04:19Fable 5 avec ses garde-fous
00:04:20réussit zéro de ces tests.
00:04:22Il refuse tout simplement de faire quoi que ce soit,
00:04:24et comme je l'ai dit plus tôt,
00:04:25si Opus me rejette parfois
00:04:27avec un taux de réussite de 88 % sur ce test,
00:04:29je vois beaucoup de gens
00:04:30rencontrer des garde-fous avec Mythos.
00:04:32La dernière chose à discuter alors
00:04:33est la tarification,
00:04:34et c'est là que les choses deviennent un peu intéressantes.
00:04:37C'est 10 $ pour un million de jetons d'entrée,
00:04:39et 50 $ pour un million de jetons de sortie,
00:04:41ce qui je ne pense pas en fait soit si mal,
00:04:42ce n'est pas le pire que nous ayons jamais vu,
00:04:44mais ce que je n'aime pas particulièrement
00:04:45est ce bloc suivant.
00:04:47Fable 5 est disponible dès aujourd'hui
00:04:48dans les plans Pro Max team et entreprise,
00:04:50mais ensuite dans quelques semaines
00:04:52le 23 juin,
00:04:53ils vont essentiellement supprimer Plus
00:04:54et retirer ces modèles,
00:04:56et après cela,
00:04:56cela va nécessiter des crédits d'utilisation.
00:04:58Puis après cela,
00:04:59ils disent qu'ils vont ajouter ces modèles
00:05:01de nouveau dans ces plans
00:05:02à une date indéterminée.
00:05:04Cela semble juste une façon bizarre de faire les choses,
00:05:05et je suppose que leur objectif
00:05:06est de vous rendre accro à ces modèles,
00:05:08puis de vous les enlever,
00:05:09et de vous faire dépenser plus d'argent pour eux,
00:05:11et je pense que cela signale
00:05:12juste à quel point ces modèles sont chers
00:05:13pour eux à faire fonctionner.
00:05:14Oh, et cela utilise aussi vos limites
00:05:16deux fois plus vite qu'Opus,
00:05:17donc je ne réglerais probablement pas cela
00:05:18comme votre modèle principal
00:05:19à moins que vous ne soyez une sorte de milliardaire.
00:05:21La note de bas de page finale
00:05:21que je pense être intéressante
00:05:23est leur nouvelle politique de rétention des données.
00:05:25Pour utiliser ces modèles,
00:05:25ils exigent en fait une rétention de 30 jours
00:05:27de tout le trafic
00:05:28sur les outils de première et de tierce partie,
00:05:30et supposément aucun entraînement
00:05:31ne va être effectué sur ces données,
00:05:33c'est juste encore pour essayer
00:05:34et bloquer les menaces de sécurité.
00:05:35Alors voilà,
00:05:36Mythos est enfin là.
00:05:37Que pensez-vous de cette sortie de modèle
00:05:39et de l'avenir du logiciel ?
00:05:40Faites-le-moi savoir dans les commentaires ci-dessous.
00:05:41Pendant que vous y êtes, abonnez-vous,
00:05:42et comme toujours,
00:05:43à la prochaine.
00:05:44Au revoir.

Key Takeaway

Fable 5 établit un nouveau standard de performance dans le codage et les tâches de longue durée, tout en imposant des coûts élevés et des restrictions de sécurité strictes qui limitent son usage professionnel autonome.

Highlights

  • Fable 5 surpasse les modèles existants avec une avance de 10 % sur SWE Bench Pro et de 20 % sur GPT 5.5.

  • Ce modèle traite des migrations de bases de code complexes, comme une architecture Ruby de 50 millions de lignes, en une seule journée.

  • La génération de sites web à partir de captures d'écran atteint une qualité utilisable sans recours à la recherche web externe.

  • La tarification est fixée à 10 $par million de jetons d'entrée et 50$ par million de jetons de sortie.

  • L'utilisation de Fable 5 impose une rétention obligatoire des données de trafic pendant 30 jours à des fins de sécurité.

  • Les garde-fous de sécurité intégrés bloquent systématiquement les tests liés à la cybersécurité.

Timeline

Performances et benchmarks de Fable 5

  • Fable 5 domine les benchmarks récents de codage, incluant SWE Bench Pro et Frontier Code.
  • Le modèle surpasse GPT 5.5 de 20 % sur les tâches de programmation.

Les performances de Fable 5 surpassent les standards technologiques actuels sur presque tous les benchmarks de référence. Bien que le coût d'utilisation soit élevé, le bond en matière de codage et de raisonnement complexe est notable, plaçant le modèle en tête des catégories de test.

Capacités opérationnelles et autonomie

  • Le modèle gère des bases de code massives de 50 millions de lignes en une journée.
  • La vision permet la création de sites web complets à partir de captures d'écran et la maîtrise de jeux vidéo.

Fable 5 démontre une efficacité accrue sur les tâches de longue durée grâce à une meilleure gestion du contexte et de la mémoire. Des tests montrent la génération rapide d'interfaces web fonctionnelles, surpassant les concurrents en rapidité et en qualité esthétique du design.

Restrictions, sécurité et tarification

  • Des garde-fous stricts empêchent l'exécution de tâches liées à la cybersécurité.
  • La politique impose une rétention de données de 30 jours pour tous les utilisateurs.
  • Le modèle consomme les limites de quota deux fois plus vite qu'Opus 4.8.

Le déploiement est marqué par des contraintes sur les accès, incluant une période d'ajustement où le modèle sera retiré des plans Plus pour basculer vers un système de crédits. Les mesures de sécurité provoquent de nombreux faux positifs, rendant certains domaines, comme l'audit de cybersécurité, inaccessibles.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video