Anthropic выпускает БОМБУ: Opus 4.8

Русскийالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português 中文

Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Компания Anthropic только что выпустила Claude Opus 4.8.

00:00:02В этом видео я очень быстро расскажу вам,

00:00:05что изменилось и на что вам нужно обратить внимание

00:00:08в этой новой модели.

00:00:09Давайте сразу перейдем к бенчмаркам.

00:00:12Итак, у нас здесь выделена Opus 4.8,

00:00:14и по сравнению с Opus 4.7, GPT 5.5 и Gemini 3.1 Pro,

00:00:20Opus практически обходит их всех в каждой категории,

00:00:24за исключением агентского программирования в терминале,

00:00:26что тестируется в Terminal Bench 2.1.

00:00:28Там она набирает 74,6 балла,

00:00:30что все равно является огромным шагом вперед по сравнению с Opus 4.7,

00:00:34но все же отстает от GPT 5.5.

00:00:37Но во всем остальном: SWE Bench Pro,

00:00:40мультидисциплинарные рассуждения, агентское использование компьютера,

00:00:42интеллектуальная работа, а также агентский финансовый анализ,

00:00:45она вырывается вперед.

00:00:47Конечно, ко всем бенчмаркам сейчас мы относимся

00:00:49с долей скепсиса, но приятно видеть такие большие скачки

00:00:53по сравнению с тем, что было у Opus 4.7,

00:00:56совсем недавно.

00:00:57Я имею в виду, всего пару месяцев назад

00:00:58вышла 4.7, а у нас уже есть 4.8,

00:01:01и мы поднялись с 64 до 69 в агентском кодинге.

00:01:04Это отличные результаты.

00:01:05Теперь, одно из главных улучшений 4.8 по сравнению с 4.7,

00:01:08по словам Anthropic, — это честность.

00:01:11И под честностью мы подразумеваем, что эта ИИ-модель,

00:01:14когда вы даете ей задачу,

00:01:15если она не может ее выполнить или не выполнила,

00:01:18она вам об этом скажет.

00:01:19Это очень важно,

00:01:20если вы хоть немного пользовались моделями

00:01:22за последние годы,

00:01:22когда вы просите сделать что-то вроде:

00:01:24«Эй, взгляни на эту огромную транскрипцию,

00:01:27прочитай ее и скажи, что ты сделал».

00:01:29А потом, когда вы смотрите на результат

00:01:31и начинаете его проверять,

00:01:32она отвечает что-то вроде:

00:01:33«Ну, я просто ее кратко пересказала.

00:01:35Я не читала все полностью».

00:01:35Это огромная проблема.

00:01:37И если вы используете ИИ для реальной работы,

00:01:40вы знаете, как важно создавать все эти тесты,

00:01:42чтобы действительно убедиться, что он делает то, что обещает.

00:01:46Но Anthropic утверждает:

00:01:47«Эй, с версией 4.8 эта проблема станет менее актуальной

00:01:50по сравнению с предыдущими моделями».

00:01:51В частности, они говорят,

00:01:52согласно их оценкам,

00:01:54которые можно изучить в их системной карте,

00:01:56объемом около 250 страниц,

00:01:59Opus 4.8 примерно в четыре раза реже,

00:02:01чем ее предшественница, оставляет ошибки в написанном коде

00:02:04без внимания.

00:02:07Так что, опять же, она будет гораздо честнее

00:02:09относительно того, что работает, а что нет,

00:02:12и не будет вас «газлайтить».

00:02:13Они также отмечают, что у 4.8 уровень девиантного поведения,

00:02:16например, обмана или содействия злоупотреблениям,

00:02:18существенно ниже, чем у Opus 4.7,

00:02:21и близок к показателям Mythos.

00:02:24Вы можете увидеть это девиантное поведение прямо здесь,

00:02:25где у Opus 4.7 и особенно у Sonnet 4.6

00:02:28наблюдались подобные тенденции,

00:02:31чего мы не видим в Mythos

00:02:33или Opus 4.8.

00:02:35Теперь о том, что еще нового,

00:02:36помимо самой модели, предложила Anthropic.

00:02:39Первое — это динамические рабочие процессы.

00:02:41Динамические рабочие процессы похожи на цели.

00:02:43Идея в том, что теперь мы можем поставить Claude Code

00:02:45на выполнение очень сложной задачи,

00:02:47и он будет работать над ней в течение долгого времени,

00:02:50запуская десятки или сотни параллельных агентов

00:02:52в одном сеансе,

00:02:53чтобы гарантировать завершение работы.

00:02:56Как вы знаете, существует множество задач,

00:02:57которые даже при работе в режиме планирования

00:02:59и разбивке на кучу подзадач

00:03:00слишком сложны для Claude Code за один раз.

00:03:03Динамические рабочие процессы — это решение данной проблемы,

00:03:05и я скоро сделаю глубокий разбор

00:03:06по динамическим рабочим процессам.

00:03:09Но если вы хотите попробовать их сегодня,

00:03:11есть два варианта.

00:03:12Первый — использовать обычный язык

00:03:13и сказать: «Эй, Claude, создай динамический рабочий процесс»,

00:03:15или включить новую специфическую настройку Claude Code

00:03:18под названием UltraCode.

00:03:20Еще одно большое изменение для Claude.ai,

00:03:22самого чат-бота и Cowork

00:03:24(с кодом это не совсем так),

00:03:26заключается в том, что теперь у них больше элементов управления

00:03:27при выборе того, сколько усилий

00:03:30Claude вкладывает в ответ.

00:03:31У нас это было в Claude Code уже давно,

00:03:33например, настройки “высокий” против “очень высокий” против “макс”.

00:03:35Теперь это есть и в вещах

00:03:36типа Claude.ai и Cowork.

00:03:38И последнее: если вы тот,

00:03:39кто использует Messages API,

00:03:41он теперь принимает системные записи внутри массива сообщений.

00:03:44Это очень здорово,

00:03:45потому что вы можете обновлять инструкции Claude прямо во время задачи.

00:03:47Это похоже на Codex

00:03:50и функцию управления (steer)

00:03:51по сравнению с функцией очереди,

00:03:52когда вы даете дополнительный запрос.

00:03:54Отмечу, что Opus по умолчанию использует высокий уровень усилий,

00:03:57не очень высокий.

00:03:59Помните, с Opus 4.7,

00:04:00когда нам показывали график,

00:04:01нам говорили:

00:04:03«Эй, очень высокий — это то, что вам нужно».

00:04:05Так что просто знайте: 4.8 стоит на высоком,

00:04:07и у вас есть еще два уровня выше этого,

00:04:09если вы хотите получить немного больше усилий

00:04:11от этой новой модели.

00:04:12И если вам интересно насчет использования токенов,

00:04:14они увеличили лимиты запросов в Claude Code,

00:04:16чтобы компенсировать более высокое потребление токенов

00:04:18на повышенных уровнях усилий,

00:04:20что действительно приятно.

00:04:21Вот такой краткий обзор

00:04:22совершенно нового Claude Opus 4.8.

00:04:24Помните, у него точно такое же ценообразование,

00:04:25как у Opus 4.7,

00:04:26так что вы не платите ничего лишнего

00:04:28за эту новую мощь.

00:04:29Как всегда, дайте знать, что вы думаете.

00:04:31Не забудьте заглянуть в Chase AI Plus

00:04:33в закрепленном комментарии,

00:04:34если хотите получить доступ

00:04:35к моему мастер-классу по Claude Code,

00:04:36и еще увидимся.

Key Takeaway

Новая модель Claude Opus 4.8 предлагает повышенную надежность кода и возможности параллельной обработки задач через динамические рабочие процессы при сохранении прежней стоимости использования.

Highlights

Модель Claude Opus 4.8 превосходит предыдущие версии и конкурентов почти во всех категориях, кроме Terminal Bench 2.1.
Производительность модели в агентском кодинге выросла с 64 до 69 баллов по сравнению с версией 4.7.
Вероятность игнорирования ошибок в написанном коде у Opus 4.8 снизилась в четыре раза.
Функция динамических рабочих процессов позволяет выполнять сложные задачи через десятки или сотни параллельных агентов.
Модель по умолчанию использует высокий уровень усилий, но доступна настройка UltraCode для максимизации вычислительной мощности.
Стоимость использования Opus 4.8 осталась на уровне версии 4.7.

Timeline

Производительность и бенчмарки

Opus 4.8 лидирует в большинстве тестов, включая SWE Bench Pro и финансовый анализ.
Результат в агентском кодинге вырос до 69 баллов против 64 у предшественника.
GPT 5.5 опережает модель только в тестах терминального программирования.

Новая модель демонстрирует значительный прирост интеллектуальной мощности по сравнению с версией 4.7. Хотя к результатам бенчмарков рекомендуется относиться со сдержанностью, прогресс заметен во всех ключевых дисциплинах, кроме специализированного тестирования в терминале Terminal Bench 2.1.

Повышение надежности и этика

Модель реже игнорирует ошибки в коде и более открыто сообщает о невыполненных задачах.
Уровень девиантного поведения снижен до показателей модели Mythos.
Системная документация объемом 250 страниц подтверждает улучшение показателей честности.

Ключевым преимуществом 4.8 стала честность в ответах: при невозможности выполнить запрос модель открыто признает это, а не имитирует результат. Вероятность пропуска ошибок в коде сократилась в четыре раза по сравнению с Opus 4.7. Также значительно снижена склонность к обману или содействию злоупотреблениям.

Новые функциональные возможности

Динамические рабочие процессы позволяют запускать сотни параллельных агентов для решения сложных задач.
Настройка UltraCode активирует расширенные возможности модели.
Messages API теперь поддерживает системные инструкции внутри массива сообщений.

Внедрение динамических рабочих процессов решает проблему ограничения сложности задач за одну сессию, позволяя делегировать работу множеству параллельных агентов. Пользователи получили более тонкий контроль над интенсивностью вычислений через уровни усилий, доступные теперь в Claude.ai и Cowork. Лимиты запросов в Claude Code были увеличены для компенсации повышенного потребления токенов.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video