Я сократил расходы на ИИ-агентов на 70% с помощью одного изменения (Manifest)

Русскийالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Это Manifest. Я перешел на него на выходных, и мои расходы на токены упали на 70%.

00:00:05Тот же агент, те же задачи, просто лучшая маршрутизация. Если вы создаете ИИ-агентов, есть большая вероятность,

00:00:11что вы платите гораздо больше, чем нужно. Большинству запросов не нужны GPT-4-0 или Claude Opus,

00:00:17но именно на них они и направляются. В итоге наш агент использует дорогие модели для

00:00:22базовых вещей, таких как классификация, маршрутизация, создание резюме, и так ваш счет незаметно

00:00:27становится в три-пять раз выше, чем должен быть. Как вообще работает Manifest? Давайте узнаем.

00:00:37Вот где начинаются проблемы. Агенты делают не просто несколько вызовов, они делают их тысячи.

00:00:44И большинство этих вызовов очень простые: выбрать инструмент, суммировать фрагмент, классифицировать входные данные. Но если

00:00:50все отправляется лучшей модели, вы переплачиваете за довольно простую работу. Вы могли бы,

00:00:57наверное, попытаться исправить это, написав логику маршрутизации, и теперь ваш код полон этих операторов if-else,

00:01:02которые ломаются, как только меняются ваши промпты. Окей, да, мы могли бы просто использовать OpenRouter,

00:01:08конечно, но за это берется комиссия. И ваши промпты покидают вашу систему. Думаю, есть

00:01:13еще нечто под названием LiteLLM, которое стоит попробовать, оно надежное, но вам все равно придется управлять маршрутизацией

00:01:18вручную. Так что настоящая проблема не в доступе к моделям, а в выборе правильной каждый раз.

00:01:25И именно это, дамы и господа, делает Manifest. Он встает между вашим агентом и моделями.

00:01:31Вы отправляете один запрос, он оценивает его по 23 измерениям и направляет самой дешевой модели,

00:01:36которая может с ним справиться. Никаких переписываний, просто одна конечная точка. Если вам нравятся советы по программированию и

00:01:41такие инструменты, обязательно подписывайтесь. У нас постоянно выходят новые видео. Ладно, отлично. Теперь я покажу вам.

00:01:47Тот же агент, та же задача. Я запускаю Manifest с помощью Docker здесь, простая команда curl, Docker Compose up,

00:01:55и теперь я указываю на него свою конечную точку OpenAI. Это единственное изменение. Теперь я могу связать разные здесь,

00:02:01как видите: Anthropic, OpenAI, Ollama. Я выбрал OpenAI, вставил свой ключ и подключил

00:02:08Ollama, чтобы он мог переключаться между ними. А теперь мы запустим этот Python-скрипт. Вы видите, что я использую

00:02:12здесь API-ключ Manifest. Это единственный ключ, который нам нужен, потому что остальные есть у Manifest, окей?

00:02:18Итак, когда мы запускаем это, агент начинает работать. И вместо отправки всего дорогой

00:02:24модели, Manifest принимает решение. Это простое — направь дешевле. Теперь вернемся сюда. Наша панель

00:02:31обновляется в реальном времени, показывая использование токенов, стоимость на агента и отслеживание бюджета. Итоговая цифра

00:02:38может меняться, но экономия может достигать 70%. Тот же вывод, меньшая стоимость, и поскольку

00:02:44это работает локально, ваши промпты не покидают вашу машину только для маршрутизации. Это не заняло

00:02:50много времени или ресурсов, так что это стоит интегрировать в ваш рабочий процесс, особенно если вы

00:02:55создаете и используете ИИ. Окей, так что же здесь происходит? Вы можете думать о Manifest как о

00:03:00контроллере, верно? Ваш агент отправляет один запрос, Manifest решает, куда он должен на самом деле пойти,

00:03:07это может быть API-модель, подписка, локальная модель, Ollama или llama.cpp.

00:03:14Он поддерживает сотни моделей от множества провайдеров, но вот важная часть

00:03:19всего этого. Он не вызывает другой LLM для принятия решения. Это было бы нелогично, к тому же

00:03:25медленно и дорого. Вместо этого он использует детерминированную оценку, поэтому маршрутизация происходит менее чем за две миллисекунды.

00:03:32Никаких дополнительных задержек. Manifest просто стоит посередине и принимает лучшие решения,

00:03:38и он явно создан для агентов. Плагин для открытых вызовов, отслеживание мультиагентных систем, все это у нас есть, и даже

00:03:44встроена наблюдаемость. Самая большая экономия идет не от сложных промптов. Она идет от всех тех

00:03:50небольших, скучных вызовов, которые наши агенты делают постоянно. Окей, итак, быстро, чем это

00:03:56отличается от уже известных нам инструментов, давайте быстро сравню. Я упоминал

00:04:01OpenRouter ранее. OpenRouter дает вам одну облачную конечную точку, но ваш трафик все равно покидает вашу

00:04:06систему. Manifest может работать полностью на собственном хостинге. Затем у нас есть инструмент, который я упоминал, LiteLLM. Он дает

00:04:13вам единый интерфейс, но маршрутизацию все равно нужно контролировать вручную. Manifest обрабатывает

00:04:19маршрутизацию автоматически. Существует также интеллект маршрутизации. Итак, где Manifest оценивает запросы по 23

00:04:25измерениям, это их версия интеллекта маршрутизации. Другие подобные инструменты полагаются на отработку отказов

00:04:31или правила. Затем у нас есть подписки. Да. Так что, хотя вы на самом деле не платите за Manifest, вам все еще

00:04:38очевидно нужны такие вещи, как API-ключ OpenAI или Claude, верно? Агентная фокусировка — это то, в чем

00:04:46Manifest действительно выделяется. Он создан для мультиагентных рабочих процессов. Так что разница проста.

00:04:51Если вам нужен доступ, просто используйте OpenRouter, верно? Если вам нужен контроль, есть LiteLLM. Но если ваша

00:04:57проблема на самом деле в расходах от агентов, потому что мы делаем все эти API-вызовы, Manifest создан

00:05:03для этого. Существует бесчисленное множество инструментов для снижения ваших затрат. Вам просто нужно их найти, и это один

00:05:08из способов. Теперь, буду честным, потому что это здорово, но с ИИ-инструментом вы получите некоторые

00:05:14вещи, которые могут заставить вас честно почесать затылок. Сначала хорошее. Первое — это экономия,

00:05:19особенно с маршрутизацией по подписке. Вы используете планы, за которые уже платите, вместо того чтобы

00:05:26снова платить за токен. Затем фоллбэки (резервные варианты), верно? Если что-то не срабатывает, ваш агент продолжает работать, что является

00:05:33огромной победой. Также у нас есть панель управления. Она отличная, потому что вы можете видеть, куда уходят ваши деньги

00:05:38по разным моделям, на каждого агента, на каждую задачу, все в реальном времени. И он работает с существующими

00:05:45клиентами без каких-либо серьезных переписываний. Но, как я сказал, есть вещи, которые мы бы ожидали от инструмента

00:05:50такого уровня. И знаете, есть вещи вроде того, что ваша оценка будет субъективной, верно?

00:05:56ИИ. Окей. Иногда он направляет дешевле, чем вы ожидали. Вы можете это переопределить, но вам нужно знать,

00:06:02что это происходит в фоновом режиме. Настройка тоже не нулевая, потому что вы все еще управляете ключами и связываете

00:06:07провайдеров, но это было до боли просто. Разработчикам все еще нужно больше SDK, больше вариантов хранения и больше

00:06:13функций. Так что да, это очень круто, но это все еще инфраструктура. Это не идеально. Некоторые вещи нужно

00:06:19подкрутить. Это определенно стоит того, если вы запускаете агентов каждый день или если ваши агенты делают много

00:06:25небольших вызовов. Черт, даже если вас заботит сохранение промптов локально, это здорово, но, может быть, не если

00:06:32вы хотите нулевую настройку. В таком случае, что-то вроде OpenRouter проще, но для большинства из нас, разработчиков, создающих

00:06:38агентов, это один из самых быстрых способов сократить расходы, потому что вы не меняете своего агента. Мы сохраняем

00:06:44все как есть. Вы просто меняете способ маршрутизации. Те же входные данные, те же выходные, меньший счет. И это

00:06:50главное здесь. Если вам нравятся советы по программированию и такие инструменты, не забудьте подписаться на канал BetterStack.

00:06:54Увидимся в следующем видео.

Key Takeaway

Внедрение инструмента Manifest позволяет сократить расходы на работу ИИ-агентов на 70% за счет автоматической маршрутизации простых задач на дешевые модели через детерминированную систему оценки запросов.

Highlights

Использование инструмента Manifest снижает расходы на токены ИИ-агентов на 70%.
Маршрутизация запросов происходит детерминированно менее чем за 2 миллисекунды без привлечения дополнительных моделей LLM.
Manifest оценивает каждый входящий запрос по 23 измерениям для подбора наиболее дешевой модели, способной выполнить задачу.
Система поддерживает интеграцию с API OpenAI, Anthropic, Ollama и другими провайдерами через одну конечную точку.
Инструмент позволяет запускать всю логику маршрутизации локально, исключая передачу промптов через сторонние облачные сервисы.

Timeline

Проблема избыточных расходов на ИИ-агентов

ИИ-агенты часто переплачивают за выполнение простых задач, используя дорогие модели типа GPT-4-0 или Claude Opus.
Ручная настройка логики маршрутизации с помощью условий if-else является хрупким решением, требующим постоянного обновления.
Использование OpenRouter вводит дополнительные комиссии, а передача данных через LiteLLM требует ручного контроля маршрутов.

Большинство задач агентов, таких как классификация или создание резюме, не требуют мощности топовых моделей. Однако по умолчанию запросы направляются самым дорогим вариантам, что раздувает счета в 3–5 раз. Попытки решить это через код создают сложные и ненадежные системы.

Принцип работы Manifest

Manifest выступает как промежуточный контроллер, направляющий запросы к наиболее подходящей модели.
Оценка запроса базируется на 23 измерениях, что исключает задержки, свойственные использованию LLM для принятия решений о маршрутизации.
Панель управления предоставляет отслеживание расходов на уровне каждого агента и задачи в реальном времени.

Система принимает один запрос и через детерминированные алгоритмы выбирает самый дешевый вариант из доступных API или локальных моделей типа Ollama. Интеграция требует лишь смены конечной точки в коде, сохраняя существующие промпты без изменений.

Сравнение с аналогами и ограничения

OpenRouter подходит для получения доступа к моделям, но требует отправки данных вовне, тогда как Manifest работает локально.
LiteLLM обеспечивает единый интерфейс, но не автоматизирует процесс выбора модели в отличие от Manifest.
Инструмент требует первоначальной настройки ключей доступа и связки провайдеров.

Manifest выделяется фокусировкой на мультиагентных рабочих процессах и автоматизации затрат. Несмотря на высокую эффективность, инструмент находится на стадии развития инфраструктуры, что подразумевает необходимость доработки некоторых функций и SDK для полноценного использования.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video