Новая лучшая модель уже здесь (GPT-5.4)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업경제 뉴스AI/미래기술

Transcript

00:00:00Можете обнулить счетчик «дней без происшествий», потому что вышла новая лучшая модель.
00:00:03На этот раз это GPT 5.4. Я ее уже протестировал и готов рассказать все, что вам нужно знать,
00:00:07а также разобрать плюсы и минусы всего за 5 минут и 40 секунд.
00:00:11Итак, вот основные тезисы.
00:00:17GPT 5.4 лучше справляется с интеллектуальной работой и поиском в сети, у нее есть нативные функции управления компьютером,
00:00:22появилась новая функция поиска инструментов (о ней чуть позже), и моделью можно управлять прямо в процессе ответа.
00:00:26Также завезли новый быстрый режим и контекстное окно в 1 миллион токенов.
00:00:30Судя по всему, целью версии 5.4 было объединить возможности кодинга Codex 5.3 со знаниями,
00:00:34поиском и профессиональными навыками GPT 5.2, чтобы сделать 5.4 по-настоящему универсальной
00:00:40моделью «все в одном».
00:00:41И согласно сторонним бенчмаркам от Artificial Analysis, этой цели удалось
00:00:45достичь.
00:00:46Она признана лучшей моделью для кодинга, лучшей агентной моделью и делит первое место
00:00:49с Gemini как самая интеллектуальная модель.
00:00:51Если выделить то, что показалось мне самым интересным, то это нативное управление
00:00:55компьютером.
00:00:56OpenAI, по всей видимости, создали свою первую модель общего назначения со встроенными функциями
00:01:00работы за ПК. Она должна отлично писать код для управления системой через такие библиотеки, как
00:01:04Playwright, а также отдавать команды мыши и клавиатуры, анализируя скриншоты.
00:01:08Они выпустили экспериментальный навык Playwright, и я решил его опробовать.
00:01:12В Codex, используя 5.4 и режим глубоких рассуждений, я дал задание создать интерактивную 3D-модель
00:01:16Тауэрского моста в Лондоне.
00:01:18Я также задействовал новый навык и функцию генерации изображений, чтобы модель сама создавала
00:01:22активы для использования в качестве текстур.
00:01:24Сам процесс был довольно похож на работу с Codex 5.3, которая до этого момента была моей
00:01:29любимой моделью.
00:01:30Примерно через 20 минут работы над задачей она начала использовать
00:01:33новый навык Playwright, и это было впечатляюще.
00:01:37Модель открывала браузер, кликала, перемещалась по сцене, находила визуальные огрехи,
00:01:41которые нужно было исправить (например, фон, не вписывающийся в окружение), а затем возвращалась
00:01:45к коду, исправляла их и повторяла цикл. Все выглядело очень плавно и естественно.
00:01:50Первая итерация проекта заняла около 30 минут и была выполнена полностью
00:01:54по одному промпту. После этого я отправил уточняющие запросы, попросив добавить детали
00:01:58и исправить пару багов (лодки плавали боком, а дорога «проваливалась» в текстуры).
00:02:03И она снова уходила работать над задачами примерно на полчаса по каждому запросу: открывала
00:02:07Chrome, проверяла, вносила правки и выдала финальную версию примерно за полтора часа
00:02:11работы и 3 промпта. Результат не идеален, но для полностью
00:02:16автономной разработки это, я считаю, очень недурно. На мой взгляд, эта модель — обязательное
00:02:20обновление для тех, кому уже нравился 5.3 Codex.
00:02:24Забавно, что спустя два часа использования система выдала уведомление:
00:02:27я мог бы сэкономить целый час времени, если бы переключился на новый быстрый режим.
00:02:31На самом деле это та же самая модель, с тем же интеллектом и функционалом, просто она выдает
00:02:35токены в 1,5 раза быстрее, а платите вы за это в двойном размере. По сути,
00:02:41это просто приоритетный доступ, а не какая-то другая модель.
00:02:44Еще один пункт, который показался мне особенно интересным в этом релизе — поиск инструментов.
00:02:48Это решает проблему загрузки всех определений инструментов в системный промпт
00:02:52заранее. Если у вас слишком много инструментов и MCP-серверов, вы тратите токены
00:02:56и раздуваете контекст, что может негативно сказаться на качестве ответов.
00:03:00В GPT 5.4 промпт содержит лишь краткий список доступных инструментов, а у модели есть функция
00:03:05поиска по ним. Когда ей действительно нужен инструмент, она просто находит
00:03:09его описание и добавляет в диалог именно в тот момент, когда это необходимо.
00:03:13OpenAI утверждает, что это снижает расход токенов на 47%. Они показали это в тесте
00:03:18с 36 MCP-серверами, где точность ответов осталась прежней.
00:03:22Помимо новых функций, эта модель сфокусирована на улучшении работы с инструментами:
00:03:26как она ими пользуется и когда решает их применить. И хотя
00:03:30бенчмарки это подтверждают, честно говоря, тут особо нечего
00:03:34рассказывать, кроме того, что да — новая модель лучше предыдущей.
00:03:38Плюсы можно резюмировать так: она умнее, дольше удерживает задачу и
00:03:42лучше владеет инструментами, а значит, справляется с более сложными заданиями.
00:03:47С новостями о достоинствах покончено, теперь давайте поговорим
00:03:51о минусах.
00:03:52Самый заметный для меня — это скорость.
00:03:54Я не против, когда модель задумывается на некоторое время, но порой кажется, что GPT 5.4
00:03:59делает это слишком долго. Или, возможно, сам процесс «размышления» идет медленно.
00:04:04И я точно не одинок в этом наблюдении.
00:04:05Результаты Artificial Analysis показали, что GPT 5.4 дольше всех выдает первый
00:04:09токен с довольно большим отрывом. То же самое касается и времени
00:04:14выдачи первых 500 токенов.
00:04:15Не уверен, проблема ли это самой модели или провайдера, так что, возможно,
00:04:19со временем станет лучше. Но есть пессимистичный взгляд: она медленная специально,
00:04:24чтобы вы переходили на платный быстрый режим.
00:04:26Другой минус — скачок цен для пользователей API.
00:04:29Базовая модель стоит $2,50 за миллион входных и $15 за миллион выходных токенов,
00:04:34но вот Pro-модель — это уже действительно дорого.
00:04:37$30 за миллион входных и $180 за миллион выходных токенов. А что
00:04:43еще хуже — если вы захотите использовать все окно в 1 миллион токенов, то любой ввод
00:04:47свыше 272 000 токенов будет тарифицироваться по двойной ставке.
00:04:52Так что пока советую максимально сжимать ваш контекст.
00:04:55Последний минус касается UI-дизайна. Хотя это субъективно, я попросил
00:04:59Opus 4.6 и GPT 5.4 сделать сайт для кафе. Думаю, здесь я отдам предпочтение Opus,
00:05:05хотя ни один из вариантов меня не поразил.
00:05:07Главная претензия к GPT 5.4 и другим моделям GPT в том,
00:05:11что у них у всех очень похожий интерфейс.
00:05:14Они обожают эти карточки с эффектом матового стекла и, конечно же, градиенты.
00:05:19Конечно, это был всего один тест, но в Design Arena эта модель тоже не на первых
00:05:23ролях, так что дизайн — это не самая сильная сторона OpenAI на данный момент.
00:05:27В целом же я буду использовать эту модель ежедневно, так как я фанат Codex, но мне любопытно
00:05:32узнать ваше мнение.
00:05:33Какую модель выбираете вы?
00:05:34Пишите в комментариях, подписывайтесь на канал и, как всегда, увидимся
00:05:37в следующем ролике.

Key Takeaway

GPT 5.4 представляет собой универсальный «все-в-одном» инструмент с упором на автономное управление ПК и оптимизацию работы с инструментами, несмотря на высокую стоимость и медлительность базового режима.

Highlights

GPT 5.4 объединяет возможности кодинга Codex 5.3 с широкими знаниями и поисковыми навыками версии 5.2

Внедрена нативная функция управления компьютером, позволяющая модели взаимодействовать с ОС через Playwright и скриншоты

Новая система поиска инструментов снижает потребление токенов на 47% за счет динамической подгрузки описаний

Добавлен «быстрый режим», увеличивающий скорость генерации в 1,5 раза при двукратном увеличении стоимости

Контекстное окно расширено до 1 миллиона токенов, но с прогрессивной шкалой оплаты после 272 тысяч

Модель признана лучшей для кодинга и агентных задач согласно внешним бенчмаркам Artificial Analysis

К основным недостаткам отнесены высокая стоимость Pro-версии API и задержки при выдаче первого токена

Timeline

Обзор и основные возможности GPT 5.4

Автор анонсирует выход новой флагманской модели GPT 5.4 и кратко перечисляет её ключевые улучшения в сфере интеллектуальной работы. Модель позиционируется как гибрид Codex 5.3 и GPT 5.2, созданный для достижения максимальной универсальности. Упоминаются такие новшества, как контекстное окно в 1 миллион токенов, нативное управление компьютером и оптимизированный поиск инструментов. Согласно сторонним бенчмаркам от Artificial Analysis, новинка уже лидирует в категориях кодинга и агентных систем. Этот раздел задает контекст того, почему версия 5.4 является важным шагом в развитии нейросетей OpenAI.

Нативное управление ПК и практический тест

В этой части детально рассматривается функция взаимодействия модели с интерфейсом операционной системы. Автор демонстрирует эксперимент по созданию интерактивной 3D-модели Тауэрского моста, где GPT 5.4 самостоятельно использовала браузер и библиотеку Playwright. Модель показала способность анализировать скриншоты, находить визуальные баги и исправлять код в автономном режиме. Весь процесс занял около полутора часов и потребовал всего три уточняющих промпта от пользователя. Данная технология делает модель полноценным ИИ-агентом, способным выполнять сложные технические задачи без постоянного контроля.

Быстрый режим и динамический поиск инструментов

Спикер описывает новый пользовательский опыт, включая уведомления о возможности переключения на ускоренный режим генерации. Этот режим сохраняет интеллект модели, но выдает текст в 1,5 раза быстрее за двойную плату, что фактически является приоритетным доступом. Особое внимание уделено функции «поиска инструментов», которая позволяет не загружать все инструкции в контекст заранее. По заявлению OpenAI, это снижает расход токенов почти вдвое (на 47%) и повышает точность работы с MCP-серверами. В итоге модель становится более эффективной и экономной при работе со сложными программными интерфейсами.

Анализ недостатков: скорость, цена и дизайн

Заключительный сегмент посвящен критике новой модели, начиная с низкой скорости отклика и долгого ожидания первого токена. Автор высказывает опасение, что медлительность может быть искусственной для стимуляции переходов на платные тарифы. Обсуждается также агрессивная ценовая политика API, где стоимость Pro-версии достигает $180 за миллион выходных токенов. Дополнительно критикуется однообразный визуальный стиль UI-дизайна с избытком градиентов и «матового стекла», в чем GPT уступает конкуренту Opus 4.6. Несмотря на минусы, автор планирует использовать модель ежедневно из-за её выдающихся способностей в программировании.

Community Posts

View all posts