Я сократил расходы на ИИ-агентов на 70% с помощью одного изменения (Manifest)
BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술
Transcript
00:00:00Это Manifest. Я перешел на него на выходных, и мои расходы на токены упали на 70%.
00:00:05Тот же агент, те же задачи, просто лучшая маршрутизация. Если вы создаете ИИ-агентов, есть большая вероятность,
00:00:11что вы платите гораздо больше, чем нужно. Большинству запросов не нужны GPT-4-0 или Claude Opus,
00:00:17но именно на них они и направляются. В итоге наш агент использует дорогие модели для
00:00:22базовых вещей, таких как классификация, маршрутизация, создание резюме, и так ваш счет незаметно
00:00:27становится в три-пять раз выше, чем должен быть. Как вообще работает Manifest? Давайте узнаем.
00:00:37Вот где начинаются проблемы. Агенты делают не просто несколько вызовов, они делают их тысячи.
00:00:44И большинство этих вызовов очень простые: выбрать инструмент, суммировать фрагмент, классифицировать входные данные. Но если
00:00:50все отправляется лучшей модели, вы переплачиваете за довольно простую работу. Вы могли бы,
00:00:57наверное, попытаться исправить это, написав логику маршрутизации, и теперь ваш код полон этих операторов if-else,
00:01:02которые ломаются, как только меняются ваши промпты. Окей, да, мы могли бы просто использовать OpenRouter,
00:01:08конечно, но за это берется комиссия. И ваши промпты покидают вашу систему. Думаю, есть
00:01:13еще нечто под названием LiteLLM, которое стоит попробовать, оно надежное, но вам все равно придется управлять маршрутизацией
00:01:18вручную. Так что настоящая проблема не в доступе к моделям, а в выборе правильной каждый раз.
00:01:25И именно это, дамы и господа, делает Manifest. Он встает между вашим агентом и моделями.
00:01:31Вы отправляете один запрос, он оценивает его по 23 измерениям и направляет самой дешевой модели,
00:01:36которая может с ним справиться. Никаких переписываний, просто одна конечная точка. Если вам нравятся советы по программированию и
00:01:41такие инструменты, обязательно подписывайтесь. У нас постоянно выходят новые видео. Ладно, отлично. Теперь я покажу вам.
00:01:47Тот же агент, та же задача. Я запускаю Manifest с помощью Docker здесь, простая команда curl, Docker Compose up,
00:01:55и теперь я указываю на него свою конечную точку OpenAI. Это единственное изменение. Теперь я могу связать разные здесь,
00:02:01как видите: Anthropic, OpenAI, Ollama. Я выбрал OpenAI, вставил свой ключ и подключил
00:02:08Ollama, чтобы он мог переключаться между ними. А теперь мы запустим этот Python-скрипт. Вы видите, что я использую
00:02:12здесь API-ключ Manifest. Это единственный ключ, который нам нужен, потому что остальные есть у Manifest, окей?
00:02:18Итак, когда мы запускаем это, агент начинает работать. И вместо отправки всего дорогой
00:02:24модели, Manifest принимает решение. Это простое — направь дешевле. Теперь вернемся сюда. Наша панель
00:02:31обновляется в реальном времени, показывая использование токенов, стоимость на агента и отслеживание бюджета. Итоговая цифра
00:02:38может меняться, но экономия может достигать 70%. Тот же вывод, меньшая стоимость, и поскольку
00:02:44это работает локально, ваши промпты не покидают вашу машину только для маршрутизации. Это не заняло
00:02:50много времени или ресурсов, так что это стоит интегрировать в ваш рабочий процесс, особенно если вы
00:02:55создаете и используете ИИ. Окей, так что же здесь происходит? Вы можете думать о Manifest как о
00:03:00контроллере, верно? Ваш агент отправляет один запрос, Manifest решает, куда он должен на самом деле пойти,
00:03:07это может быть API-модель, подписка, локальная модель, Ollama или llama.cpp.
00:03:14Он поддерживает сотни моделей от множества провайдеров, но вот важная часть
00:03:19всего этого. Он не вызывает другой LLM для принятия решения. Это было бы нелогично, к тому же
00:03:25медленно и дорого. Вместо этого он использует детерминированную оценку, поэтому маршрутизация происходит менее чем за две миллисекунды.
00:03:32Никаких дополнительных задержек. Manifest просто стоит посередине и принимает лучшие решения,
00:03:38и он явно создан для агентов. Плагин для открытых вызовов, отслеживание мультиагентных систем, все это у нас есть, и даже
00:03:44встроена наблюдаемость. Самая большая экономия идет не от сложных промптов. Она идет от всех тех
00:03:50небольших, скучных вызовов, которые наши агенты делают постоянно. Окей, итак, быстро, чем это
00:03:56отличается от уже известных нам инструментов, давайте быстро сравню. Я упоминал
00:04:01OpenRouter ранее. OpenRouter дает вам одну облачную конечную точку, но ваш трафик все равно покидает вашу
00:04:06систему. Manifest может работать полностью на собственном хостинге. Затем у нас есть инструмент, который я упоминал, LiteLLM. Он дает
00:04:13вам единый интерфейс, но маршрутизацию все равно нужно контролировать вручную. Manifest обрабатывает
00:04:19маршрутизацию автоматически. Существует также интеллект маршрутизации. Итак, где Manifest оценивает запросы по 23
00:04:25измерениям, это их версия интеллекта маршрутизации. Другие подобные инструменты полагаются на отработку отказов
00:04:31или правила. Затем у нас есть подписки. Да. Так что, хотя вы на самом деле не платите за Manifest, вам все еще
00:04:38очевидно нужны такие вещи, как API-ключ OpenAI или Claude, верно? Агентная фокусировка — это то, в чем
00:04:46Manifest действительно выделяется. Он создан для мультиагентных рабочих процессов. Так что разница проста.
00:04:51Если вам нужен доступ, просто используйте OpenRouter, верно? Если вам нужен контроль, есть LiteLLM. Но если ваша
00:04:57проблема на самом деле в расходах от агентов, потому что мы делаем все эти API-вызовы, Manifest создан
00:05:03для этого. Существует бесчисленное множество инструментов для снижения ваших затрат. Вам просто нужно их найти, и это один
00:05:08из способов. Теперь, буду честным, потому что это здорово, но с ИИ-инструментом вы получите некоторые
00:05:14вещи, которые могут заставить вас честно почесать затылок. Сначала хорошее. Первое — это экономия,
00:05:19особенно с маршрутизацией по подписке. Вы используете планы, за которые уже платите, вместо того чтобы
00:05:26снова платить за токен. Затем фоллбэки (резервные варианты), верно? Если что-то не срабатывает, ваш агент продолжает работать, что является
00:05:33огромной победой. Также у нас есть панель управления. Она отличная, потому что вы можете видеть, куда уходят ваши деньги
00:05:38по разным моделям, на каждого агента, на каждую задачу, все в реальном времени. И он работает с существующими
00:05:45клиентами без каких-либо серьезных переписываний. Но, как я сказал, есть вещи, которые мы бы ожидали от инструмента
00:05:50такого уровня. И знаете, есть вещи вроде того, что ваша оценка будет субъективной, верно?
00:05:56ИИ. Окей. Иногда он направляет дешевле, чем вы ожидали. Вы можете это переопределить, но вам нужно знать,
00:06:02что это происходит в фоновом режиме. Настройка тоже не нулевая, потому что вы все еще управляете ключами и связываете
00:06:07провайдеров, но это было до боли просто. Разработчикам все еще нужно больше SDK, больше вариантов хранения и больше
00:06:13функций. Так что да, это очень круто, но это все еще инфраструктура. Это не идеально. Некоторые вещи нужно
00:06:19подкрутить. Это определенно стоит того, если вы запускаете агентов каждый день или если ваши агенты делают много
00:06:25небольших вызовов. Черт, даже если вас заботит сохранение промптов локально, это здорово, но, может быть, не если
00:06:32вы хотите нулевую настройку. В таком случае, что-то вроде OpenRouter проще, но для большинства из нас, разработчиков, создающих
00:06:38агентов, это один из самых быстрых способов сократить расходы, потому что вы не меняете своего агента. Мы сохраняем
00:06:44все как есть. Вы просто меняете способ маршрутизации. Те же входные данные, те же выходные, меньший счет. И это
00:06:50главное здесь. Если вам нравятся советы по программированию и такие инструменты, не забудьте подписаться на канал BetterStack.
00:06:54Увидимся в следующем видео.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video