Transcript
00:00:00Claude Mythos наконец-то здесь.
00:00:01Anthropic только что выпустили новую модель под названием Fable 5,
00:00:03которая относится к классу Mythos,
00:00:05но с кучей встроенных средств защиты,
00:00:07и она превосходит любую модель, которую они когда-либо выпускали,
00:00:09и, возможно, вообще любую.
00:00:11Она является передовой практически по всем бенчмаркам.
00:00:13Разумеется, это будет стоить вам немалых денег,
00:00:16и они сделали кое-что интересное
00:00:17с ценообразованием,
00:00:18чем, я думаю, мало кто будет доволен.
00:00:25Обычно я не люблю подолгу останавливаться
00:00:27на бенчмарках, но эта таблица просто безумная.
00:00:30Скачки, которые делает эта модель
00:00:31на некоторых тестах,
00:00:32и тот факт, что она впереди почти по каждому из них.
00:00:35Вы можете видеть скачок в 10% в написании кода (Argentic Coding)
00:00:37в тесте SWE Bench Pro,
00:00:39и она в принципе на 20% опережает GPT 5.5,
00:00:42и сделала похожие рывки в бенчмарке Frontier Code.
00:00:44Frontier Code — это новый бенчмарк от Cognition,
00:00:47ребят, которые стоят за Devin,
00:00:48который по сути проверяет
00:00:49реальную интеграцию кода, который выдает модель.
00:00:52На этой диаграмме видно, что Fable 5 опережает
00:00:54все остальные модели,
00:00:55даже при среднем уровне усилий на рассуждения,
00:00:57но я также думаю, вы понимаете,
00:00:58что эта модель будет супердорогой.
00:01:00Она также немного лучше в компьютерном использовании,
00:01:02хоть и ненамного,
00:01:03то же самое касается Terminal Bench внизу,
00:01:05но, опять же, как видите,
00:01:06она лидирует почти во всех категориях.
00:01:09Одна из важнейших вещей,
00:01:10которая становится всё более актуальной,
00:01:11это длительные задачи.
00:01:12Fable 5, по-видимому, может работать дольше,
00:01:14чем любая другая модель,
00:01:15они просили Stripe протестировать это,
00:01:17и она вроде как выполнила миграцию
00:01:18кодовой базы Ruby в 50 миллионов строк
00:01:21всего за один день.
00:01:22Вероятно, помогло то, что она стала
00:01:24намного лучше работать с памятью и длинным контекстом.
00:01:26Она, судя по всему, может сохранять фокус на миллионах
00:01:28токенов при выполнении долгих задач,
00:01:29и улучшает свои собственные результаты,
00:01:31используя свои же заметки.
00:01:32Теперь, помимо кодинга,
00:01:33ее возможности в области зрения тоже впечатляют.
00:01:36Видимо, она может пройти Pokemon Fire Red
00:01:37с минимальной обвязкой только на базе зрения,
00:01:39тогда как раньше ей требовались дополнительные инструменты,
00:01:42и она всё равно с трудом справлялась,
00:01:43а сейчас для нее это не проблема.
00:01:45Она также, судя по всему, с легкостью с первого раза
00:01:47создает сайт по скриншоту.
00:01:48Я протестировал это на веб-сайте Linear,
00:01:50и мне стало немного путано,
00:01:52что где находится,
00:01:53но вариант справа — это тот,
00:01:55который Fable 5 сгенерировала
00:01:56просто по скриншоту веб-сайта Linear.
00:01:58Она не использовала поиск по вебу или что-то подобное,
00:02:00я просто дал ей полный скриншот этой веб-страницы,
00:02:02и я бы сказал, она проделала потрясающую работу.
00:02:05Все скриншоты, всё остальное —
00:02:06всё было сгенерировано кодом,
00:02:08и вы можете видеть, что она справилась очень, очень хорошо.
00:02:10Есть такие вещи, как SVG-анимации,
00:02:12которые не будут идеальными,
00:02:14но в целом, я бы сказал, что доволен
00:02:15тем, как она воссоздала этот сайт,
00:02:18она попала практически в каждый раздел,
00:02:20или, по крайней мере, довела меня до состояния,
00:02:21где я мог бы сам доработать его,
00:02:22чтобы сделать в точности так, как мне нужно.
00:02:24Раз уж мы здесь,
00:02:24я также решил протестировать эти модели
00:02:25на создании фронтенда и бэкенда
00:02:27для приложения финансовой панели
00:02:28с нуля, из полностью пустой папки за один раз,
00:02:31и вот что выдала мне Fable 5.
00:02:33Я всё протестировал,
00:02:34всё работает,
00:02:35она общается с API,
00:02:37и в целом дизайн выглядит очень неплохо.
00:02:39Он вполне пригоден для использования,
00:02:40но это именно та эстетика,
00:02:41которую модели Claude выдают в последнее время.
00:02:43Мы можем увидеть это в результате,
00:02:44который выдала мне модель Opus 4.8.
00:02:45Опять же, я думаю, этот сайт выглядит очень неплохо,
00:02:47и, честно говоря,
00:02:48я бы сказал, что это выглядит лучше, чем у Fable 5,
00:02:50но опять же, у нее та самая эстетика,
00:02:51на которой обучали Claude,
00:02:53но это также моя вина.
00:02:54Я не просил её сделать в каком-то определенном дизайне.
00:02:56Уверен, если бы я попросил,
00:02:57она бы отлично справилась.
00:02:58Если сравнить это с тем, что выдала мне GPT 5.5,
00:03:00однако,
00:03:01вы увидите, что это даже близко не стояло.
00:03:03Это было по одному запросу,
00:03:04точно по такому же запросу,
00:03:05и они просто на голову ниже в дизайне UI,
00:03:07на мой взгляд.
00:03:08Я очень надеюсь, что следующая модель GPT
00:03:10сделает что-нибудь с этим.
00:03:11Fable 5 действительно удивила меня в этом тесте,
00:03:13оказавшись самой быстрой.
00:03:14Ей потребовалось около восьми минут,
00:03:15чтобы закончить ту финансовую панель,
00:03:17тогда как Opus заняло 12 минут,
00:03:18а GPT 5.5 потребовалось 15 минут,
00:03:20чтобы создать это недоразумение.
00:03:22Помимо моих демо-версий,
00:03:23один из моих любимых примеров был от Anthropic,
00:03:24которые показали, как Fable 5 создает 3D-печатную CAD-модель
00:03:27в браузерном CAD-редакторе,
00:03:28который сама же Fable 5 и создала.
00:03:31Типа, создание собственного мини-софта
00:03:32сейчас стало таким доступным,
00:03:34и то же самое касается лекарств.
00:03:36Похоже, эта модель очень хороша в дизайне лекарств,
00:03:38но вам, вероятно, не нужно знать об этом,
00:03:40и да, она определенно защищена,
00:03:43как и, в принципе, всё,
00:03:44что касается кибербезопасности,
00:03:45если только вы не являетесь одним из предприятий
00:03:46из этой специальной программы.
00:03:48Fable 5, видимо, будет очень осторожной,
00:03:51что означает, что у нее будет
00:03:51довольно много ложных срабатываний,
00:03:53якобы менее 5% сообщений,
00:03:55но это всё равно кажется мне довольно высоким числом,
00:03:57и я уже сталкивался с защитными механизмами Opus ранее,
00:03:59так что с этой, вероятно, будет хуже.
00:04:01Видимо, однако,
00:04:02вместо простого отказа,
00:04:04она попытается отправить ваш запрос
00:04:05на модель Opus 4.8 сначала,
00:04:06чтобы проверить, безопасно ли этой модели выполнять работу,
00:04:09но опять же, я уже сталкивался с этими мерами защиты,
00:04:11так что я не уверен, насколько хорошо это будет работать.
00:04:13Этот бенчмарк на самом деле показывает,
00:04:14насколько безумными могут быть эти меры защиты.
00:04:17Тестируя ее на кибер-оценках,
00:04:19Fable 5 со своими мерами защиты
00:04:20не проходит ни один из этих тестов.
00:04:22Она просто в лоб отказывается делать что-либо,
00:04:24и, как я сказал ранее,
00:04:25если Opus иногда отклоняет меня
00:04:27с 88-процентным показателем прохождения в этом тесте,
00:04:29то я вижу, как много людей
00:04:30сталкиваются с защитой в Mythos.
00:04:32Последнее, что стоит обсудить,
00:04:33это ценообразование,
00:04:34и вот здесь всё становится немного интереснее.
00:04:37$10 за миллион входных токенов,
00:04:39и $50 за миллион выходных токенов,
00:04:41что, на мой взгляд, не так уж плохо,
00:04:42это не самое худшее, что мы видели,
00:04:44но что мне не особенно нравится,
00:04:45так это следующий блок.
00:04:47Fable 5 доступна с сегодняшнего дня
00:04:48в тарифных планах Pro, Max, Team и Enterprise,
00:04:50но через пару недель,
00:04:5223 июня,
00:04:53они по сути уберут эту модель из Plus,
00:04:54и заберут ее,
00:04:56и после этого,
00:04:56она будет требовать кредиты на использование.
00:04:58Затем после этого,
00:04:59они говорят, что добавят эти модели
00:05:01обратно в эти планы
00:05:02в какую-то неопределенную дату.
00:05:04Это кажется довольно странным способом вести дела,
00:05:05и я полагаю, их цель
00:05:06подсадить вас на эти модели,
00:05:08а затем забрать их у вас,
00:05:09и заставить потратить на них больше денег,
00:05:11и я думаю, это сигнализирует,
00:05:12насколько дороги эти модели
00:05:13в запуске для них.
00:05:14О, и еще она использует ваши лимиты
00:05:16в два раза быстрее, чем Opus,
00:05:17так что я, наверное, не стал бы устанавливать ее
00:05:18в качестве основной модели,
00:05:19если только вы не какой-то миллиардер.
00:05:21Последний нюанс,
00:05:21который, на мой взгляд, интересен,
00:05:23это их новая политика хранения данных.
00:05:25Чтобы использовать эти модели,
00:05:25они на самом деле требуют 30-дневного хранения
00:05:27всего трафика
00:05:28как на собственных, так и на сторонних инструментах,
00:05:30и, якобы, никакого обучения
00:05:31на этих данных проводиться не будет,
00:05:33это сделано лишь для попытки
00:05:34блокировки угроз безопасности.
00:05:35Вот так вот,
00:05:36Mythos наконец-то здесь.
00:05:37Что вы думаете об этом релизе модели
00:05:39и будущем программного обеспечения?
00:05:40Дайте знать в комментариях внизу.
00:05:41А пока вы там, подпишитесь,
00:05:42и, как всегда,
00:05:43увидимся в следующем видео.
00:05:44Пока.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video