Transcript
00:00:00Claude Mythos est enfin arrivé.
00:00:01Anthropic vient de sortir un nouveau modèle nommé Fable 5,
00:00:03qui est un modèle de classe Mythos,
00:00:05juste avec énormément de garde-fous intégrés,
00:00:07mais il surpasse tous les modèles qu'ils ont jamais sortis,
00:00:09et peut-être n'importe quel autre.
00:00:11Il est à la pointe de la technologie sur presque chaque benchmark.
00:00:13Évidemment, cependant, cela va certainement vous coûter cher,
00:00:16et ils ont fait quelque chose d'un peu intéressant
00:00:17avec la tarification ici
00:00:18dont je ne pense pas que beaucoup de gens seront satisfaits.
00:00:25Normalement, je n'aime pas passer trop de temps
00:00:27sur les benchmarks, mais ce tableau est assez fou.
00:00:30Les bonds que ce modèle réalise
00:00:31sur certains de ces benchmarks,
00:00:32et le fait qu'il soit en tête sur presque chacun d'entre eux.
00:00:35Vous pouvez voir qu'il a un bond de 10 % en codage argentique
00:00:37sur SWE Bench Pro,
00:00:39et il est pratiquement 20 % devant GPT 5.5,
00:00:42et il a fait des bonds similaires sur le benchmark Frontier Code.
00:00:44Frontier Code est en fait un nouveau benchmark de Cognition,
00:00:47les gars derrière Devin,
00:00:48qui teste essentiellement ce qui aurait été maintenu
00:00:49qui a réellement fusionné le code que ce modèle produit.
00:00:52Sur ce graphique, vous pouvez voir que Fable 5 est en avance
00:00:54sur tous les autres modèles,
00:00:55même avec un effort de raisonnement moyen,
00:00:57mais je pense aussi que vous pouvez voir que ce modèle
00:00:58va être super cher.
00:01:00Il est aussi marginalement meilleur en utilisation informatique,
00:01:02pas un bond massif,
00:01:03et il en va de même pour Terminal Bench en bas,
00:01:05mais encore une fois, comme vous pouvez le voir,
00:01:06c'est un leader dans presque chaque catégorie.
00:01:09L'une des choses les plus importantes, cependant,
00:01:10qui devient de plus en plus pertinente
00:01:11sont les tâches de longue durée.
00:01:12Fable 5 peut apparemment travailler plus longtemps
00:01:14que n'importe quel autre modèle,
00:01:15et ils ont fait tester cela par Stripe,
00:01:17et apparemment, il a effectué une migration à l'échelle de la base de code
00:01:18d'une base de code Ruby de 50 millions de lignes
00:01:21en une seule journée.
00:01:22Probablement aidé par le fait qu'il est devenu
00:01:24bien meilleur en mémoire et en contexte long également.
00:01:26Il peut apparemment rester concentré sur des millions
00:01:28de jetons dans les tâches de longue durée,
00:01:29et il améliore ses propres résultats
00:01:31en utilisant ses propres notes.
00:01:32Maintenant, au-delà du simple codage,
00:01:33ses capacités de vision sont aussi assez impressionnantes.
00:01:36Apparemment, il peut battre Pokémon Fire Red
00:01:37avec un harnais minimal basé uniquement sur la vision maintenant,
00:01:39alors qu'auparavant ils devaient lui donner des outils supplémentaires,
00:01:42et il l'a encore à peine battu,
00:01:43mais maintenant il n'a aucun problème.
00:01:45Il va aussi apparemment joyeusement créer un site web
00:01:47à partir d'une capture d'écran.
00:01:48J'ai en fait testé cela en utilisant le site web de Linear,
00:01:50et cela est devenu vraiment un peu confus pour moi
00:01:52lequel est lequel ici,
00:01:53mais celui de droite est celui
00:01:55que Fable 5 a généré
00:01:56juste à partir d'une capture d'écran du site web de Linear.
00:01:58Il n'a pas utilisé de recherche web ou quoi que ce soit de ce genre,
00:02:00je lui ai juste donné une capture d'écran complète de cette page web,
00:02:02et je dirais qu'il a fait un travail assez impressionnant.
00:02:05Toutes les captures d'écran, tout,
00:02:06ont été générées avec du code,
00:02:08et vous pouvez voir qu'il a fait un très, très bon travail.
00:02:10Ce sont des choses comme les animations SVG
00:02:12qui ne vont pas être parfaites,
00:02:14mais dans l'ensemble, je dirais que je suis assez content
00:02:15de la façon dont il a recréé ce site web,
00:02:18et il a réussi pratiquement chaque section,
00:02:20ou du moins m'a amené à un point
00:02:21où je pouvais ensuite itérer dessus
00:02:22pour l'obtenir exactement comme je le voulais.
00:02:24Pendant qu'on y est,
00:02:24j'ai aussi décidé de tester ces modèles
00:02:25sur la construction d'un front-end et d'un back-end
00:02:27pour une application de tableau de bord financier
00:02:28à partir d'un dossier complètement vide en un seul essai,
00:02:31et c'est ce que Fable 5 m'a donné.
00:02:33J'ai tout testé,
00:02:34tout fonctionne,
00:02:35il communique avec l'API,
00:02:37et dans l'ensemble, le design a l'air vraiment sympa.
00:02:39C'est vraiment utilisable,
00:02:40mais c'est cette esthétique
00:02:41que les modèles Claude semblent donner récemment.
00:02:43Nous pouvons voir cela dans le résultat
00:02:44qu'Opus 4.8 m'a donné également.
00:02:45Encore une fois, je pense que ce site a l'air vraiment sympa,
00:02:47et pour être honnête avec vous,
00:02:48je dirais que ça a l'air mieux que celui de Fable 5,
00:02:50mais encore une fois, il a cette esthétique
00:02:51sur laquelle Claude a été entraîné,
00:02:53mais c'est aussi de ma faute.
00:02:54Je n'ai pas demandé à ce que cela suive un design particulier.
00:02:56Je suis sûr que si je l'avais fait,
00:02:57il aurait fait un excellent travail.
00:02:58Si nous comparons cela à ce que GPT 5.5 m'a donné,
00:03:00cependant,
00:03:01vous pouvez voir que ce n'est même pas proche.
00:03:03C'était à partir d'une seule invite,
00:03:04l'exacte même invite,
00:03:05et ils sont tout simplement à des kilomètres derrière en matière de design d'interface,
00:03:07à mon avis.
00:03:08J'espère vraiment que le prochain modèle GPT
00:03:10fera quelque chose à ce sujet.
00:03:11Fable 5 m'a en fait surpris sur ce test
00:03:13en étant le plus rapide.
00:03:14Il a fallu environ huit minutes
00:03:15pour finir ce tableau de bord financier,
00:03:17alors qu'Opus a pris 12 minutes,
00:03:18et GPT 5.5 a pris 15 minutes
00:03:20pour faire cette abomination.
00:03:22En plus de mes simples démos,
00:03:23l'une de mes préférées était Anthropic,
00:03:24montrant Fable 5 construisant un modèle CAO imprimable en 3D
00:03:27dans un éditeur CAO basé sur navigateur
00:03:28que Fable 5 lui-même a également créé.
00:03:31Genre, construire votre propre mini-logiciel
00:03:32est juste tellement réalisable maintenant,
00:03:34et il en va de même pour les médicaments.
00:03:36Apparemment, ce modèle est vraiment bon en conception de médicaments,
00:03:38mais vous n'avez probablement pas besoin d'en savoir plus à ce sujet,
00:03:40et oui, il est définitivement protégé,
00:03:43car c'est pratiquement tout
00:03:44ce qui touche à la cybersécurité,
00:03:45à moins que vous ne soyez l'une des entreprises
00:03:46dans ce programme spécial.
00:03:48Fable 5 va apparemment être très prudent,
00:03:51ce qui signifie qu'il va avoir
00:03:51quelques faux positifs,
00:03:53apparemment moins de 5 % des messages,
00:03:55mais cela me semble quand même assez élevé,
00:03:57et j'ai déjà rencontré des garde-fous d'Opus auparavant,
00:03:59donc celui-ci sera probablement pire.
00:04:01Apparemment, cependant,
00:04:02au lieu de dire non purement et simplement,
00:04:04il essaiera d'envoyer votre demande
00:04:05à Opus 4.8 d'abord
00:04:06pour voir s'il est sûr pour ce modèle de faire le travail,
00:04:09mais encore une fois, j'ai déjà rencontré ces garde-fous,
00:04:11donc je ne suis pas trop sûr de la façon dont cela va fonctionner.
00:04:13Ce benchmark montre en fait
00:04:14à quel point ces garde-fous pourraient être fous.
00:04:17En le testant sur des évaluations cyber,
00:04:19Fable 5 avec ses garde-fous
00:04:20réussit zéro de ces tests.
00:04:22Il refuse tout simplement de faire quoi que ce soit,
00:04:24et comme je l'ai dit plus tôt,
00:04:25si Opus me rejette parfois
00:04:27avec un taux de réussite de 88 % sur ce test,
00:04:29je vois beaucoup de gens
00:04:30rencontrer des garde-fous avec Mythos.
00:04:32La dernière chose à discuter alors
00:04:33est la tarification,
00:04:34et c'est là que les choses deviennent un peu intéressantes.
00:04:37C'est 10 $ pour un million de jetons d'entrée,
00:04:39et 50 $ pour un million de jetons de sortie,
00:04:41ce qui je ne pense pas en fait soit si mal,
00:04:42ce n'est pas le pire que nous ayons jamais vu,
00:04:44mais ce que je n'aime pas particulièrement
00:04:45est ce bloc suivant.
00:04:47Fable 5 est disponible dès aujourd'hui
00:04:48dans les plans Pro Max team et entreprise,
00:04:50mais ensuite dans quelques semaines
00:04:52le 23 juin,
00:04:53ils vont essentiellement supprimer Plus
00:04:54et retirer ces modèles,
00:04:56et après cela,
00:04:56cela va nécessiter des crédits d'utilisation.
00:04:58Puis après cela,
00:04:59ils disent qu'ils vont ajouter ces modèles
00:05:01de nouveau dans ces plans
00:05:02à une date indéterminée.
00:05:04Cela semble juste une façon bizarre de faire les choses,
00:05:05et je suppose que leur objectif
00:05:06est de vous rendre accro à ces modèles,
00:05:08puis de vous les enlever,
00:05:09et de vous faire dépenser plus d'argent pour eux,
00:05:11et je pense que cela signale
00:05:12juste à quel point ces modèles sont chers
00:05:13pour eux à faire fonctionner.
00:05:14Oh, et cela utilise aussi vos limites
00:05:16deux fois plus vite qu'Opus,
00:05:17donc je ne réglerais probablement pas cela
00:05:18comme votre modèle principal
00:05:19à moins que vous ne soyez une sorte de milliardaire.
00:05:21La note de bas de page finale
00:05:21que je pense être intéressante
00:05:23est leur nouvelle politique de rétention des données.
00:05:25Pour utiliser ces modèles,
00:05:25ils exigent en fait une rétention de 30 jours
00:05:27de tout le trafic
00:05:28sur les outils de première et de tierce partie,
00:05:30et supposément aucun entraînement
00:05:31ne va être effectué sur ces données,
00:05:33c'est juste encore pour essayer
00:05:34et bloquer les menaces de sécurité.
00:05:35Alors voilà,
00:05:36Mythos est enfin là.
00:05:37Que pensez-vous de cette sortie de modèle
00:05:39et de l'avenir du logiciel ?
00:05:40Faites-le-moi savoir dans les commentaires ci-dessous.
00:05:41Pendant que vous y êtes, abonnez-vous,
00:05:42et comme toujours,
00:05:43à la prochaine.
00:05:44Au revoir.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video