Claude Mythos наконец-то здесь (Fable 5)

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Claude Mythos наконец-то здесь.
00:00:01Anthropic только что выпустили новую модель под названием Fable 5,
00:00:03которая относится к классу Mythos,
00:00:05но с кучей встроенных средств защиты,
00:00:07и она превосходит любую модель, которую они когда-либо выпускали,
00:00:09и, возможно, вообще любую.
00:00:11Она является передовой практически по всем бенчмаркам.
00:00:13Разумеется, это будет стоить вам немалых денег,
00:00:16и они сделали кое-что интересное
00:00:17с ценообразованием,
00:00:18чем, я думаю, мало кто будет доволен.
00:00:25Обычно я не люблю подолгу останавливаться
00:00:27на бенчмарках, но эта таблица просто безумная.
00:00:30Скачки, которые делает эта модель
00:00:31на некоторых тестах,
00:00:32и тот факт, что она впереди почти по каждому из них.
00:00:35Вы можете видеть скачок в 10% в написании кода (Argentic Coding)
00:00:37в тесте SWE Bench Pro,
00:00:39и она в принципе на 20% опережает GPT 5.5,
00:00:42и сделала похожие рывки в бенчмарке Frontier Code.
00:00:44Frontier Code — это новый бенчмарк от Cognition,
00:00:47ребят, которые стоят за Devin,
00:00:48который по сути проверяет
00:00:49реальную интеграцию кода, который выдает модель.
00:00:52На этой диаграмме видно, что Fable 5 опережает
00:00:54все остальные модели,
00:00:55даже при среднем уровне усилий на рассуждения,
00:00:57но я также думаю, вы понимаете,
00:00:58что эта модель будет супердорогой.
00:01:00Она также немного лучше в компьютерном использовании,
00:01:02хоть и ненамного,
00:01:03то же самое касается Terminal Bench внизу,
00:01:05но, опять же, как видите,
00:01:06она лидирует почти во всех категориях.
00:01:09Одна из важнейших вещей,
00:01:10которая становится всё более актуальной,
00:01:11это длительные задачи.
00:01:12Fable 5, по-видимому, может работать дольше,
00:01:14чем любая другая модель,
00:01:15они просили Stripe протестировать это,
00:01:17и она вроде как выполнила миграцию
00:01:18кодовой базы Ruby в 50 миллионов строк
00:01:21всего за один день.
00:01:22Вероятно, помогло то, что она стала
00:01:24намного лучше работать с памятью и длинным контекстом.
00:01:26Она, судя по всему, может сохранять фокус на миллионах
00:01:28токенов при выполнении долгих задач,
00:01:29и улучшает свои собственные результаты,
00:01:31используя свои же заметки.
00:01:32Теперь, помимо кодинга,
00:01:33ее возможности в области зрения тоже впечатляют.
00:01:36Видимо, она может пройти Pokemon Fire Red
00:01:37с минимальной обвязкой только на базе зрения,
00:01:39тогда как раньше ей требовались дополнительные инструменты,
00:01:42и она всё равно с трудом справлялась,
00:01:43а сейчас для нее это не проблема.
00:01:45Она также, судя по всему, с легкостью с первого раза
00:01:47создает сайт по скриншоту.
00:01:48Я протестировал это на веб-сайте Linear,
00:01:50и мне стало немного путано,
00:01:52что где находится,
00:01:53но вариант справа — это тот,
00:01:55который Fable 5 сгенерировала
00:01:56просто по скриншоту веб-сайта Linear.
00:01:58Она не использовала поиск по вебу или что-то подобное,
00:02:00я просто дал ей полный скриншот этой веб-страницы,
00:02:02и я бы сказал, она проделала потрясающую работу.
00:02:05Все скриншоты, всё остальное —
00:02:06всё было сгенерировано кодом,
00:02:08и вы можете видеть, что она справилась очень, очень хорошо.
00:02:10Есть такие вещи, как SVG-анимации,
00:02:12которые не будут идеальными,
00:02:14но в целом, я бы сказал, что доволен
00:02:15тем, как она воссоздала этот сайт,
00:02:18она попала практически в каждый раздел,
00:02:20или, по крайней мере, довела меня до состояния,
00:02:21где я мог бы сам доработать его,
00:02:22чтобы сделать в точности так, как мне нужно.
00:02:24Раз уж мы здесь,
00:02:24я также решил протестировать эти модели
00:02:25на создании фронтенда и бэкенда
00:02:27для приложения финансовой панели
00:02:28с нуля, из полностью пустой папки за один раз,
00:02:31и вот что выдала мне Fable 5.
00:02:33Я всё протестировал,
00:02:34всё работает,
00:02:35она общается с API,
00:02:37и в целом дизайн выглядит очень неплохо.
00:02:39Он вполне пригоден для использования,
00:02:40но это именно та эстетика,
00:02:41которую модели Claude выдают в последнее время.
00:02:43Мы можем увидеть это в результате,
00:02:44который выдала мне модель Opus 4.8.
00:02:45Опять же, я думаю, этот сайт выглядит очень неплохо,
00:02:47и, честно говоря,
00:02:48я бы сказал, что это выглядит лучше, чем у Fable 5,
00:02:50но опять же, у нее та самая эстетика,
00:02:51на которой обучали Claude,
00:02:53но это также моя вина.
00:02:54Я не просил её сделать в каком-то определенном дизайне.
00:02:56Уверен, если бы я попросил,
00:02:57она бы отлично справилась.
00:02:58Если сравнить это с тем, что выдала мне GPT 5.5,
00:03:00однако,
00:03:01вы увидите, что это даже близко не стояло.
00:03:03Это было по одному запросу,
00:03:04точно по такому же запросу,
00:03:05и они просто на голову ниже в дизайне UI,
00:03:07на мой взгляд.
00:03:08Я очень надеюсь, что следующая модель GPT
00:03:10сделает что-нибудь с этим.
00:03:11Fable 5 действительно удивила меня в этом тесте,
00:03:13оказавшись самой быстрой.
00:03:14Ей потребовалось около восьми минут,
00:03:15чтобы закончить ту финансовую панель,
00:03:17тогда как Opus заняло 12 минут,
00:03:18а GPT 5.5 потребовалось 15 минут,
00:03:20чтобы создать это недоразумение.
00:03:22Помимо моих демо-версий,
00:03:23один из моих любимых примеров был от Anthropic,
00:03:24которые показали, как Fable 5 создает 3D-печатную CAD-модель
00:03:27в браузерном CAD-редакторе,
00:03:28который сама же Fable 5 и создала.
00:03:31Типа, создание собственного мини-софта
00:03:32сейчас стало таким доступным,
00:03:34и то же самое касается лекарств.
00:03:36Похоже, эта модель очень хороша в дизайне лекарств,
00:03:38но вам, вероятно, не нужно знать об этом,
00:03:40и да, она определенно защищена,
00:03:43как и, в принципе, всё,
00:03:44что касается кибербезопасности,
00:03:45если только вы не являетесь одним из предприятий
00:03:46из этой специальной программы.
00:03:48Fable 5, видимо, будет очень осторожной,
00:03:51что означает, что у нее будет
00:03:51довольно много ложных срабатываний,
00:03:53якобы менее 5% сообщений,
00:03:55но это всё равно кажется мне довольно высоким числом,
00:03:57и я уже сталкивался с защитными механизмами Opus ранее,
00:03:59так что с этой, вероятно, будет хуже.
00:04:01Видимо, однако,
00:04:02вместо простого отказа,
00:04:04она попытается отправить ваш запрос
00:04:05на модель Opus 4.8 сначала,
00:04:06чтобы проверить, безопасно ли этой модели выполнять работу,
00:04:09но опять же, я уже сталкивался с этими мерами защиты,
00:04:11так что я не уверен, насколько хорошо это будет работать.
00:04:13Этот бенчмарк на самом деле показывает,
00:04:14насколько безумными могут быть эти меры защиты.
00:04:17Тестируя ее на кибер-оценках,
00:04:19Fable 5 со своими мерами защиты
00:04:20не проходит ни один из этих тестов.
00:04:22Она просто в лоб отказывается делать что-либо,
00:04:24и, как я сказал ранее,
00:04:25если Opus иногда отклоняет меня
00:04:27с 88-процентным показателем прохождения в этом тесте,
00:04:29то я вижу, как много людей
00:04:30сталкиваются с защитой в Mythos.
00:04:32Последнее, что стоит обсудить,
00:04:33это ценообразование,
00:04:34и вот здесь всё становится немного интереснее.
00:04:37$10 за миллион входных токенов,
00:04:39и $50 за миллион выходных токенов,
00:04:41что, на мой взгляд, не так уж плохо,
00:04:42это не самое худшее, что мы видели,
00:04:44но что мне не особенно нравится,
00:04:45так это следующий блок.
00:04:47Fable 5 доступна с сегодняшнего дня
00:04:48в тарифных планах Pro, Max, Team и Enterprise,
00:04:50но через пару недель,
00:04:5223 июня,
00:04:53они по сути уберут эту модель из Plus,
00:04:54и заберут ее,
00:04:56и после этого,
00:04:56она будет требовать кредиты на использование.
00:04:58Затем после этого,
00:04:59они говорят, что добавят эти модели
00:05:01обратно в эти планы
00:05:02в какую-то неопределенную дату.
00:05:04Это кажется довольно странным способом вести дела,
00:05:05и я полагаю, их цель
00:05:06подсадить вас на эти модели,
00:05:08а затем забрать их у вас,
00:05:09и заставить потратить на них больше денег,
00:05:11и я думаю, это сигнализирует,
00:05:12насколько дороги эти модели
00:05:13в запуске для них.
00:05:14О, и еще она использует ваши лимиты
00:05:16в два раза быстрее, чем Opus,
00:05:17так что я, наверное, не стал бы устанавливать ее
00:05:18в качестве основной модели,
00:05:19если только вы не какой-то миллиардер.
00:05:21Последний нюанс,
00:05:21который, на мой взгляд, интересен,
00:05:23это их новая политика хранения данных.
00:05:25Чтобы использовать эти модели,
00:05:25они на самом деле требуют 30-дневного хранения
00:05:27всего трафика
00:05:28как на собственных, так и на сторонних инструментах,
00:05:30и, якобы, никакого обучения
00:05:31на этих данных проводиться не будет,
00:05:33это сделано лишь для попытки
00:05:34блокировки угроз безопасности.
00:05:35Вот так вот,
00:05:36Mythos наконец-то здесь.
00:05:37Что вы думаете об этом релизе модели
00:05:39и будущем программного обеспечения?
00:05:40Дайте знать в комментариях внизу.
00:05:41А пока вы там, подпишитесь,
00:05:42и, как всегда,
00:05:43увидимся в следующем видео.
00:05:44Пока.

Key Takeaway

Выпуск Fable 5 от Anthropic устанавливает новый стандарт производительности в кодировании и работе с длинным контекстом, однако высокая стоимость и обязательное 30-дневное хранение данных создают значительные барьеры для массового использования.

Highlights

  • Модель Fable 5 класса Mythos лидирует в большинстве бенчмарков, опережая GPT 5.5 на 20% в задачах кодирования.

  • Производительность Fable 5 позволяет выполнить миграцию кодовой базы Ruby из 50 миллионов строк за один день.

  • Модель демонстрирует улучшенные способности компьютерного зрения, проходя игру Pokemon Fire Red без дополнительных инструментов.

  • Стоимость использования составляет 10 долларов за миллион входных токенов и 50 долларов за миллион выходных токенов.

  • С 23 июня 2026 года доступ к Fable 5 в планах Plus будет ограничен и потребует использования кредитов.

  • Использование модели требует согласия на 30-дневное хранение всего трафика данных в целях безопасности.

Timeline

Производительность и бенчмарки Fable 5

  • Fable 5 превосходит предыдущие модели Anthropic и конкурентов в большинстве тестов.
  • Преимущество в тестах SWE Bench Pro и Frontier Code составляет до 20% по сравнению с GPT 5.5.
  • Модель показывает лидерство в задачах компьютерного использования и интеграции кода.

Новая модель класса Mythos демонстрирует значительные скачки в производительности, особенно в написании кода. Тестирование на бенчмарке Frontier Code, оценивающем реальную интеграцию кода, подтверждает ее доминирование над другими существующими решениями даже при средних уровнях рассуждения.

Работа с длинным контекстом и зрение

  • Модель сохраняет фокус на миллионах токенов при выполнении длительных задач.
  • Возможности компьютерного зрения позволяют создавать сайты на основе одного скриншота без использования веб-поиска.
  • Миграция крупных кодовых баз объемом 50 миллионов строк выполняется за одни сутки.

Fable 5 эффективно обрабатывает масштабные задачи, используя заметки для улучшения результатов в процессе работы. Визуальные возможности модели позволяют ей успешно справляться с играми и версткой интерфейсов, воссоздавая сложные веб-страницы по изображениям с высокой точностью.

Примеры использования и ограничения безопасности

  • Скорость работы модели выше, чем у Opus и GPT 5.5, при создании финансовой панели с нуля.
  • Интегрированные механизмы безопасности часто приводят к ложным отказам в выполнении кибер-задач.
  • Запросы, вызывающие срабатывание защиты, предварительно перенаправляются на модель Opus 4.8.

В тестах на создание программного обеспечения Fable 5 показала лучшую скорость генерации кода по сравнению с конкурентами. Тем не менее, строгие защитные фильтры ограничивают выполнение определенных запросов, иногда полностью блокируя работу в рамках кибербезопасности.

Ценообразование и политика данных

  • Стоимость эксплуатации составляет 10 долларов за входные и 50 долларов за выходные токены на миллион единиц.
  • С 23 июня 2026 года модель станет платной через систему кредитов для пользователей текущих тарифов.
  • Политика использования требует 30-дневного хранения всего трафика для контроля угроз безопасности.

Модель потребляет лимиты в два раза быстрее, чем предыдущие версии, что делает ее экономически затратной для большинства пользователей. Обязательное 30-дневное хранение данных трафика применяется для отслеживания угроз, что является важным условием при использовании системы.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video