Transcript
00:00:00Claude Mythos ist endlich da.
00:00:01Anthropic hat gerade ein neues Modell namens Fable 5 veröffentlicht,
00:00:03das zur Mythos-Klasse gehört,
00:00:05nur eben mit einer Menge integrierter Sicherheitsvorkehrungen,
00:00:07aber es übertrifft jedes Modell, das sie jemals herausgebracht haben,
00:00:09und möglicherweise jedes andere.
00:00:11Es ist bei fast jedem einzelnen Benchmark auf dem neuesten Stand der Technik.
00:00:13Natürlich wird dich das definitiv etwas kosten,
00:00:16und sie haben sich etwas Interessantes
00:00:17bei der Preisgestaltung überlegt,
00:00:18von dem ich nicht glaube, dass viele Leute begeistert sein werden.
00:00:25Normalerweise verbringe ich nicht zu viel Zeit
00:00:27mit Benchmarks, aber diese Tabelle ist irgendwie verrückt.
00:00:30Die Sprünge, die dieses Modell
00:00:31bei einigen dieser Benchmarks macht,
00:00:32und die Tatsache, dass es bei fast jedem einzelnen vorne liegt.
00:00:35Man sieht, dass es einen 10%-Sprung beim argentischen Programmieren
00:00:37im SWE Bench Pro hat,
00:00:39und es liegt im Grunde 20% vor GPT 5.5,
00:00:42und es machte ähnliche Sprünge beim Frontier Code-Benchmark.
00:00:44Frontier Code ist eigentlich ein neuer Benchmark von Cognition,
00:00:47den Leuten hinter Devin,
00:00:48die im Wesentlichen testen würden,
00:00:49dass der Code, den dieses Modell produziert, tatsächlich zusammengeführt wird.
00:00:52Auf diesem Chart kannst du sehen, dass Fable 5 jedem anderen Modell
00:00:54voraus ist,
00:00:55selbst bei mittlerem Überlegungsaufwand,
00:00:57aber ich glaube auch, du kannst sehen, dass dieses Modell
00:00:58extrem teuer sein wird.
00:01:00Es ist auch geringfügig besser bei der Computernutzung,
00:01:02kein massiver Sprung,
00:01:03und das Gleiche gilt für Terminal Bench ganz unten,
00:01:05aber wie gesagt, wie du sehen kannst,
00:01:06ist es in fast jeder Kategorie führend.
00:01:09Eines der wichtigsten Dinge jedoch,
00:01:10die immer relevanter werden,
00:01:11sind lang laufende Aufgaben.
00:01:12Fable 5 kann anscheinend länger arbeiten
00:01:14als jedes andere Modell,
00:01:15und sie haben Stripe das testen lassen,
00:01:17und anscheinend hat es eine codebase-weite Migration
00:01:18einer 50 Millionen Zeilen umfassenden Ruby-Codebasis
00:01:21an einem einzigen Tag durchgeführt.
00:01:22Wahrscheinlich unterstützt durch die Tatsache, dass es
00:01:24viel besser bei Speicher und langem Kontext geworden ist.
00:01:26Es kann anscheinend über Millionen
00:01:28von Token bei lang laufenden Aufgaben fokussiert bleiben,
00:01:29und es verbessert seine eigenen Ausgaben,
00:01:31indem es seine eigenen Notizen verwendet.
00:01:32Nun, neben dem Programmieren,
00:01:33sind seine Vision-Fähigkeiten auch ziemlich beeindruckend.
00:01:36Anscheinend kann es Pokemon Fire Red
00:01:37jetzt mit einem minimalen, rein vision-basierten Harness schlagen,
00:01:39während man ihm früher zusätzliche Werkzeuge geben musste,
00:01:42und es hat es immer noch kaum geschafft,
00:01:43aber jetzt hat es kein Problem mehr.
00:01:45Es wird anscheinend auch gerne eine Website im Alleingang
00:01:47aus einem Screenshot erstellen.
00:01:48Ich habe das tatsächlich mit der Linear-Website getestet,
00:01:50und es war für mich ehrlich gesagt ein wenig verwirrend,
00:01:52was hier was ist,
00:01:53aber die auf der rechten Seite ist diejenige,
00:01:55die Fable 5 nur aus einem Screenshot
00:01:56der Linear-Website generiert hat.
00:01:58Es hat keine Websuche oder so etwas benutzt,
00:02:00ich habe ihm nur einen vollständigen Screenshot dieser Webseite gegeben,
00:02:02und ich würde sagen, es hat einen ziemlich tollen Job gemacht.
00:02:05Alle Screenshots, alles,
00:02:06wurden mit Code generiert,
00:02:08und man sieht, dass es einen sehr, sehr guten Job gemacht hat.
00:02:10Es sind Dinge wie die SVG-Animationen,
00:02:12die nicht perfekt sein werden,
00:02:14aber insgesamt würde ich sagen, ich bin ziemlich zufrieden
00:02:15mit der Art und Weise, wie es diese Webseite nachgebaut hat,
00:02:18und es hat so ziemlich jeden Abschnitt getroffen,
00:02:20oder mich zumindest an einen Punkt gebracht,
00:02:21an dem ich dann daran weiterarbeiten konnte,
00:02:22um es genau so zu bekommen, wie ich will.
00:02:24Während wir hier sind,
00:02:24habe ich auch beschlossen, diese Modelle zu testen,
00:02:25ob sie mir ein Frontend und ein Backend
00:02:27für eine Finanz-Dashboard-App bauen,
00:02:28aus einem völlig leeren Ordner in einem Durchgang,
00:02:31und das ist, was Fable 5 mir gegeben hat.
00:02:33Ich habe alles getestet,
00:02:34alles funktioniert,
00:02:35es spricht mit der API,
00:02:37und insgesamt sieht das Design wirklich gut aus.
00:02:39Es ist wirklich brauchbar,
00:02:40aber es ist diese Ästhetik,
00:02:41die Claude-Modelle in letzter Zeit zu haben scheinen.
00:02:43Wir können das auch an dem Ergebnis sehen,
00:02:44das mir Opus 4.8 gegeben hat.
00:02:45Wiederum finde ich, dass diese Seite wirklich gut aussieht,
00:02:47und um ehrlich mit dir zu sein,
00:02:48würde ich behaupten, dass das besser aussieht als das von Fable 5,
00:02:50aber auch hier hat es diese Ästhetik,
00:02:51auf die Claude trainiert wurde,
00:02:53aber das ist auch mein Fehler.
00:02:54Ich habe es nicht dazu aufgefordert, irgendein bestimmtes Design zu wählen.
00:02:56Ich bin sicher, wenn ich das getan hätte,
00:02:57hätte es einen großartigen Job gemacht.
00:02:58Wenn wir das mit dem vergleichen, was GPT 5.5 mir gegeben hat,
00:03:00allerdings,
00:03:01siehst du, dass es nicht einmal in die Nähe kommt.
00:03:03Das war von einem einzigen Prompt,
00:03:04dem exakt gleichen Prompt,
00:03:05und sie liegen beim UI-Design einfach meilenweit zurück,
00:03:07meiner Meinung nach.
00:03:08Ich hoffe wirklich, das nächste GPT-Modell
00:03:10tut etwas dagegen.
00:03:11Fable 5 hat mich bei diesem Test tatsächlich überrascht,
00:03:13indem es das Schnellste war.
00:03:14Es hat etwa acht Minuten gedauert,
00:03:15um das Finanz-Dashboard fertigzustellen,
00:03:17während Opus 12 Minuten brauchte,
00:03:18und GPT 5.5 15 Minuten brauchte,
00:03:20um diese Abscheulichkeit zu machen.
00:03:22Neben meinen Demos,
00:03:23war eines meiner Favoriten Anthropic,
00:03:24das zeigte, wie Fable 5 ein 3D-druckbares CAD-Modell
00:03:27in einem browserbasierten CAD-Editor baute,
00:03:28den Fable 5 selbst auch gemacht hat.
00:03:31Wie, seine eigene Mini-Software zu bauen,
00:03:32ist jetzt einfach so erreichbar,
00:03:34und das Gleiche gilt für Medikamente.
00:03:36Anscheinend ist dieses Modell wirklich gut beim Medikamentendesign,
00:03:38aber darüber musst du wahrscheinlich nicht Bescheid wissen,
00:03:40und ja, es ist definitiv abgesichert,
00:03:43da es im Grunde alles ist,
00:03:44was in die Nähe von Cybersicherheit kommt,
00:03:45es sei denn, du bist eines der Unternehmen
00:03:46in diesem speziellen Programm.
00:03:48Fable 5 wird anscheinend wirklich vorsichtig sein,
00:03:51was bedeutet, dass es eine
00:03:51ganze Reihe von Fehlalarmen haben wird,
00:03:53anscheinend weniger als 5% der Nachrichten,
00:03:55aber das scheint mir immer noch ziemlich hoch,
00:03:57und ich bin tatsächlich schon früher auf Opus-Sicherheitsvorkehrungen gestoßen,
00:03:59also wird dieses wahrscheinlich schlimmer sein.
00:04:01Anscheinend jedoch,
00:04:02anstatt einfach Nein zu sagen,
00:04:04wird es versuchen, deine Anfrage
00:04:05zuerst an Opus 4.8 zu senden,
00:04:06um zu sehen, ob es für dieses Modell sicher ist, die Arbeit zu erledigen,
00:04:09aber wieder, ich bin schon früher auf diese Sicherheitsvorkehrungen gestoßen,
00:04:11also bin ich mir nicht sicher, wie gut das funktionieren wird.
00:04:13Dieser Benchmark zeigt tatsächlich,
00:04:14wie verrückt diese Sicherheitsvorkehrungen sein könnten.
00:04:17Wenn man es bei Cyber-Auswertungen testet,
00:04:19besteht Fable 5 mit seinen Sicherheitsvorkehrungen
00:04:20null dieser Tests.
00:04:22Es weigert sich einfach rundheraus, irgendetwas zu tun,
00:04:24und wie ich vorhin sagte,
00:04:25wenn Opus mich manchmal ablehnt
00:04:27mit einer 88% Bestehensquote bei diesem Test,
00:04:29sehe ich viele Leute,
00:04:30die mit Mythos auf Sicherheitsvorkehrungen stoßen.
00:04:32Die letzte Sache, die es zu diskutieren gilt,
00:04:33ist die Preisgestaltung,
00:04:34und hier wird die Sache ein wenig interessant.
00:04:37Es sind 10 $ für eine Million Input-Token,
00:04:39und 50 $ für eine Million Output-Token,
00:04:41was ich eigentlich nicht allzu schlecht finde,
00:04:42es ist nicht das Schlimmste, das wir jemals gesehen haben,
00:04:44aber was mir nicht besonders gefällt,
00:04:45ist dieser nächste Block.
00:04:47Fable 5 ist ab heute
00:04:48in Pro-, Max-, Team- und Enterprise-Plänen verfügbar,
00:04:50aber dann in ein paar Wochen,
00:04:52am 23. Juni,
00:04:53werden sie im Wesentlichen Plus ausschalten
00:04:54und diese Modelle wegnehmen,
00:04:56und danach,
00:04:56wird es Nutzungsguthaben erfordern.
00:04:58Dann danach,
00:04:59sagen sie, werden sie diese Modelle
00:05:01wieder in diese Pläne hinzufügen,
00:05:02zu einem unbestimmten Datum.
00:05:04Es scheint einfach eine seltsame Art zu sein, Dinge zu tun,
00:05:05und ich nehme an, ihr Ziel
00:05:06ist es, dich süchtig nach diesen Modellen zu machen,
00:05:08und sie dann wegzunehmen,
00:05:09und dich mehr Geld dafür ausgeben zu lassen,
00:05:11und ich denke, es signalisiert,
00:05:12wie teuer diese Modelle für den Betrieb
00:05:13für sie sind.
00:05:14Oh, und es verbraucht auch deine Limits
00:05:16doppelt so schnell wie Opus,
00:05:17also würde ich das wahrscheinlich nicht als dein primäres Modell
00:05:18festlegen,
00:05:19es sei denn, du bist eine Art Milliardär.
00:05:21Die letzte Fußnote,
00:05:21die ich für interessant halte,
00:05:23ist ihre neue Richtlinie zur Datenaufbewahrung.
00:05:25Um diese Modelle zu benutzen,
00:05:25verlangen sie tatsächlich eine 30-tägige Aufbewahrung
00:05:27des gesamten Datenverkehrs
00:05:28sowohl bei Erstanbieter- als auch Drittanbieter-Tools,
00:05:30und angeblich wird kein Training
00:05:31mit diesen Daten durchgeführt,
00:05:33es ist nur wieder, um zu versuchen,
00:05:34Sicherheitsbedrohungen zu blockieren.
00:05:35Also, da haben wir es,
00:05:36Mythos ist endlich da.
00:05:37Was denkst du über diese Modellveröffentlichung
00:05:39und die Zukunft der Software?
00:05:40Lass es mich unten in den Kommentaren wissen.
00:05:41Während du dort bist, abonniere,
00:05:42und wie immer,
00:05:43bis zum nächsten Mal.
00:05:44Tschüss.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video