Transcript
00:00:00Компания Anthropic только что выпустила Claude Opus 4.8.
00:00:02В этом видео я очень быстро расскажу вам,
00:00:05что изменилось и на что вам нужно обратить внимание
00:00:08в этой новой модели.
00:00:09Давайте сразу перейдем к бенчмаркам.
00:00:12Итак, у нас здесь выделена Opus 4.8,
00:00:14и по сравнению с Opus 4.7, GPT 5.5 и Gemini 3.1 Pro,
00:00:20Opus практически обходит их всех в каждой категории,
00:00:24за исключением агентского программирования в терминале,
00:00:26что тестируется в Terminal Bench 2.1.
00:00:28Там она набирает 74,6 балла,
00:00:30что все равно является огромным шагом вперед по сравнению с Opus 4.7,
00:00:34но все же отстает от GPT 5.5.
00:00:37Но во всем остальном: SWE Bench Pro,
00:00:40мультидисциплинарные рассуждения, агентское использование компьютера,
00:00:42интеллектуальная работа, а также агентский финансовый анализ,
00:00:45она вырывается вперед.
00:00:47Конечно, ко всем бенчмаркам сейчас мы относимся
00:00:49с долей скепсиса, но приятно видеть такие большие скачки
00:00:53по сравнению с тем, что было у Opus 4.7,
00:00:56совсем недавно.
00:00:57Я имею в виду, всего пару месяцев назад
00:00:58вышла 4.7, а у нас уже есть 4.8,
00:01:01и мы поднялись с 64 до 69 в агентском кодинге.
00:01:04Это отличные результаты.
00:01:05Теперь, одно из главных улучшений 4.8 по сравнению с 4.7,
00:01:08по словам Anthropic, — это честность.
00:01:11И под честностью мы подразумеваем, что эта ИИ-модель,
00:01:14когда вы даете ей задачу,
00:01:15если она не может ее выполнить или не выполнила,
00:01:18она вам об этом скажет.
00:01:19Это очень важно,
00:01:20если вы хоть немного пользовались моделями
00:01:22за последние годы,
00:01:22когда вы просите сделать что-то вроде:
00:01:24«Эй, взгляни на эту огромную транскрипцию,
00:01:27прочитай ее и скажи, что ты сделал».
00:01:29А потом, когда вы смотрите на результат
00:01:31и начинаете его проверять,
00:01:32она отвечает что-то вроде:
00:01:33«Ну, я просто ее кратко пересказала.
00:01:35Я не читала все полностью».
00:01:35Это огромная проблема.
00:01:37И если вы используете ИИ для реальной работы,
00:01:40вы знаете, как важно создавать все эти тесты,
00:01:42чтобы действительно убедиться, что он делает то, что обещает.
00:01:46Но Anthropic утверждает:
00:01:47«Эй, с версией 4.8 эта проблема станет менее актуальной
00:01:50по сравнению с предыдущими моделями».
00:01:51В частности, они говорят,
00:01:52согласно их оценкам,
00:01:54которые можно изучить в их системной карте,
00:01:56объемом около 250 страниц,
00:01:59Opus 4.8 примерно в четыре раза реже,
00:02:01чем ее предшественница, оставляет ошибки в написанном коде
00:02:04без внимания.
00:02:07Так что, опять же, она будет гораздо честнее
00:02:09относительно того, что работает, а что нет,
00:02:12и не будет вас «газлайтить».
00:02:13Они также отмечают, что у 4.8 уровень девиантного поведения,
00:02:16например, обмана или содействия злоупотреблениям,
00:02:18существенно ниже, чем у Opus 4.7,
00:02:21и близок к показателям Mythos.
00:02:24Вы можете увидеть это девиантное поведение прямо здесь,
00:02:25где у Opus 4.7 и особенно у Sonnet 4.6
00:02:28наблюдались подобные тенденции,
00:02:31чего мы не видим в Mythos
00:02:33или Opus 4.8.
00:02:35Теперь о том, что еще нового,
00:02:36помимо самой модели, предложила Anthropic.
00:02:39Первое — это динамические рабочие процессы.
00:02:41Динамические рабочие процессы похожи на цели.
00:02:43Идея в том, что теперь мы можем поставить Claude Code
00:02:45на выполнение очень сложной задачи,
00:02:47и он будет работать над ней в течение долгого времени,
00:02:50запуская десятки или сотни параллельных агентов
00:02:52в одном сеансе,
00:02:53чтобы гарантировать завершение работы.
00:02:56Как вы знаете, существует множество задач,
00:02:57которые даже при работе в режиме планирования
00:02:59и разбивке на кучу подзадач
00:03:00слишком сложны для Claude Code за один раз.
00:03:03Динамические рабочие процессы — это решение данной проблемы,
00:03:05и я скоро сделаю глубокий разбор
00:03:06по динамическим рабочим процессам.
00:03:09Но если вы хотите попробовать их сегодня,
00:03:11есть два варианта.
00:03:12Первый — использовать обычный язык
00:03:13и сказать: «Эй, Claude, создай динамический рабочий процесс»,
00:03:15или включить новую специфическую настройку Claude Code
00:03:18под названием UltraCode.
00:03:20Еще одно большое изменение для Claude.ai,
00:03:22самого чат-бота и Cowork
00:03:24(с кодом это не совсем так),
00:03:26заключается в том, что теперь у них больше элементов управления
00:03:27при выборе того, сколько усилий
00:03:30Claude вкладывает в ответ.
00:03:31У нас это было в Claude Code уже давно,
00:03:33например, настройки “высокий” против “очень высокий” против “макс”.
00:03:35Теперь это есть и в вещах
00:03:36типа Claude.ai и Cowork.
00:03:38И последнее: если вы тот,
00:03:39кто использует Messages API,
00:03:41он теперь принимает системные записи внутри массива сообщений.
00:03:44Это очень здорово,
00:03:45потому что вы можете обновлять инструкции Claude прямо во время задачи.
00:03:47Это похоже на Codex
00:03:50и функцию управления (steer)
00:03:51по сравнению с функцией очереди,
00:03:52когда вы даете дополнительный запрос.
00:03:54Отмечу, что Opus по умолчанию использует высокий уровень усилий,
00:03:57не очень высокий.
00:03:59Помните, с Opus 4.7,
00:04:00когда нам показывали график,
00:04:01нам говорили:
00:04:03«Эй, очень высокий — это то, что вам нужно».
00:04:05Так что просто знайте: 4.8 стоит на высоком,
00:04:07и у вас есть еще два уровня выше этого,
00:04:09если вы хотите получить немного больше усилий
00:04:11от этой новой модели.
00:04:12И если вам интересно насчет использования токенов,
00:04:14они увеличили лимиты запросов в Claude Code,
00:04:16чтобы компенсировать более высокое потребление токенов
00:04:18на повышенных уровнях усилий,
00:04:20что действительно приятно.
00:04:21Вот такой краткий обзор
00:04:22совершенно нового Claude Opus 4.8.
00:04:24Помните, у него точно такое же ценообразование,
00:04:25как у Opus 4.7,
00:04:26так что вы не платите ничего лишнего
00:04:28за эту новую мощь.
00:04:29Как всегда, дайте знать, что вы думаете.
00:04:31Не забудьте заглянуть в Chase AI Plus
00:04:33в закрепленном комментарии,
00:04:34если хотите получить доступ
00:04:35к моему мастер-классу по Claude Code,
00:04:36и еще увидимся.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video