Saya Memangkas Biaya Agen AI Sebesar 70% Dengan Satu Perubahan (Manifest)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Ini adalah Manifest. Saya beralih menggunakannya selama akhir pekan dan biaya token saya turun 70%.
00:00:05Agen yang sama, tugas yang sama, hanya perutean yang lebih baik. Jika Anda sedang membangun agen AI, ada kemungkinan besar
00:00:11Anda membayar jauh lebih banyak daripada yang seharusnya. Sebagian besar permintaan tidak membutuhkan GPT-4-0 atau Claude Opus,
00:00:17tetapi justru itulah yang mereka gunakan. Jadi agen kita akhirnya menggunakan model mahal untuk
00:00:22hal-hal dasar seperti klasifikasi, perutean, ringkasan, dan begitulah cara tagihan Anda perlahan-lahan
00:00:27menjadi tiga hingga lima kali lebih tinggi dari yang seharusnya. Bagaimana cara kerja Manifest? Mari kita cari tahu.
00:00:37Di sinilah masalahnya. Agen tidak hanya membuat beberapa panggilan, mereka membuat ribuan panggilan ini.
00:00:44Dan sebagian besar panggilan itu sangat sederhana. Memilih alat, meringkas potongan teks, mengklasifikasikan input. Tapi jika
00:00:50semuanya dikirim ke model terbaik, Anda membayar harga premium untuk pekerjaan yang cukup mendasar. Jadi, Anda bisa
00:00:57mencoba memperbaikinya, saya rasa dengan menulis logika perutean, dan sekarang kode Anda penuh dengan pernyataan
00:01:02if-else yang rusak begitu prompt Anda berubah. Oke, ya, kita bisa saja menggunakan OpenRouter,
00:01:08tentu saja, tapi ada biaya untuk itu. Dan kemudian prompt Anda benar-benar meninggalkan mesin. Saya rasa ada
00:01:13juga yang disebut Lite LLM yang bisa Anda coba, yang cukup solid, tetapi Anda masih harus mengelola perutean
00:01:18secara manual. Jadi masalah sebenarnya bukanlah akses ke model, melainkan memilih model yang tepat setiap saat.
00:01:25Dan itulah, hadirin sekalian, yang dilakukan Manifest. Ia berada di antara agen dan model Anda.
00:01:31Anda mengirim satu permintaan, ia menilainya di 23 dimensi, dan mengarahkannya ke model termurah
00:01:36yang bisa menanganinya. Tidak perlu penulisan ulang dan hanya satu endpoint. Jika Anda menikmati tips dan alat coding
00:01:41seperti ini, pastikan untuk berlangganan. Kami selalu merilis video baru. Baiklah, mantap. Sekarang izinkan saya tunjukkan.
00:01:47Agen yang sama, tugas yang sama. Saya menjalankan Manifest dengan Docker di sini, perintah curl sederhana, Docker Compose up,
00:01:55dan sekarang saya mengarahkan endpoint OpenAI saya ke sana. Itu satu-satunya perubahan di sini. Sekarang saya bisa menghubungkan berbagai model
00:02:01di sini, seperti yang Anda lihat, Anthropic, OpenAI, Ollama. Saya memilih OpenAI, memasukkan kunci saya, dan saya menghubungkan
00:02:08Ollama agar bisa beralih di antara keduanya. Dan sekarang kita akan menjalankan skrip Python ini. Anda bisa lihat saya menggunakan
00:02:12kunci API Manifest di sini. Itu satu-satunya kunci yang kita butuhkan karena Manifest memiliki kunci lainnya, oke?
00:02:18Jadi ketika kita menjalankan ini, agen mulai bekerja. Dan alih-alih mengirim semuanya ke model yang
00:02:24mahal, Manifest membuat keputusan. Yang ini sederhana. Arahkan ke yang lebih murah. Sekarang kembali ke sini. Dasbor kita
00:02:31diperbarui secara waktu nyata, menunjukkan penggunaan token, biaya per agen, dan pelacakan anggaran. Angka kuncinya
00:02:38bisa berubah, tetapi bisa menjadi hingga 70% lebih murah. Output yang sama, biaya lebih rendah, dan karena
00:02:44ini berjalan secara lokal, prompt Anda tidak meninggalkan mesin Anda hanya untuk diarahkan. Ini tidak memakan banyak
00:02:50waktu atau sumber daya, jadi ini sesuatu yang layak diintegrasikan ke dalam alur kerja Anda, terutama jika Anda sedang
00:02:55membangun dan menggunakan AI. Oke, jadi apa yang sebenarnya terjadi di sini? Anda bisa menganggap Manifest sebagai
00:03:00pengontrol, bukan? Agen Anda mengirim satu permintaan masuk, Manifest memutuskan ke mana seharusnya ia pergi,
00:03:07jadi itu bisa berupa model API, langganan, model lokal, Ollama atau Llama CPP.
00:03:14Ini mendukung ratusan model dari banyak penyedia, tetapi inilah bagian penting dari
00:03:19semua ini. Ia tidak memanggil LLM lain untuk memutuskan. Itu akan kontra-intuitif, jadi itu hanya akan menjadi
00:03:25lambat dan mahal. Sebaliknya, ia menggunakan penilaian deterministik, sehingga perutean terjadi di bawah dua milidetik.
00:03:32Tidak ada penambahan latensi untuk semua ini. Manifest hanya duduk di tengah, dan ia membuat keputusan yang lebih baik,
00:03:38dan ini jelas dibuat untuk agen. Plugin Open Call, pelacakan multi-agen, kami memilikinya, dan kami bahkan
00:03:44memiliki observabilitas yang sudah terpasang. Penghematan terbesar tidak datang dari prompt yang sulit. Mereka datang dari semua
00:03:50panggilan kecil yang dibuat agen kita secara konstan. Oke, jadi singkatnya, bagaimana ini
00:03:56berbeda dari alat yang sudah kita kenal, jadi saya akan membandingkan ini dengan sangat cepat? Saya menyebutkan
00:04:01OpenRouter tadi. Jadi OpenRouter memberi Anda satu endpoint cloud, tetapi lalu lintas Anda masih meninggalkan
00:04:06sistem Anda. Manifest bisa berjalan sepenuhnya secara self-hosted. Lalu ada alat yang saya sebutkan yaitu Lite LLM. Ini memberi
00:04:13Anda antarmuka terpadu, tetapi perutean masih merupakan sesuatu yang harus Anda kontrol secara manual. Manifest menangani
00:04:19perutean secara otomatis. Ada juga kecerdasan perutean. Nah, di mana Manifest menilai permintaan di 23
00:04:25dimensi, itu adalah versi kecerdasan perutean mereka. Hal lain seperti ini mengandalkan failover
00:04:31atau aturan. Lalu ada langganan. Ya. Jadi meskipun Anda tidak benar-benar membayar untuk Manifest, Anda masih
00:04:38jelas membutuhkan hal-hal seperti kunci API OpenAI atau Claude, bukan? Nah, fokus agen adalah sesuatu di mana
00:04:46Manifest benar-benar menonjol. Ini dibuat untuk alur kerja multi-agen. Jadi perbedaannya sederhana.
00:04:51Jika Anda ingin akses, gunakan saja OpenRouter, bukan? Jika Anda ingin kontrol, ada Lite LLM. Tapi jika
00:04:57masalah Anda sebenarnya adalah biaya dari agen, karena kita membuat semua panggilan API ini, Manifest dibuat untuk
00:05:03itu. Ada banyak alat untuk menurunkan biaya Anda. Anda hanya perlu menemukannya, dan ini adalah salah
00:05:08satu caranya. Nah, jujur saja di sini, karena ini hebat, tetapi dengan alat AI, Anda akan mendapatkan beberapa
00:05:14hal yang mungkin membuat Anda hanya garuk-garuk kepala. Pertama, hal baiknya. Yang pertama adalah
00:05:19penghematan, terutama dengan perutean langganan. Anda menggunakan paket yang sudah Anda bayar alih-alih
00:05:26membayar per token lagi. Lalu fallback, bukan? Jika ada sesuatu yang gagal, agen Anda terus berjalan, yang merupakan
00:05:33kemenangan besar. Lalu ada dasbor. Dasbornya hebat karena Anda benar-benar bisa melihat ke mana uang Anda
00:05:38pergi di berbagai model, per agen, per tugas, semuanya secara waktu nyata. Dan ini berfungsi dengan klien
00:05:45yang ada tanpa penulisan ulang besar. Tapi seperti yang saya katakan, ada hal-hal yang kita harapkan dimiliki alat seperti
00:05:50ini. Dan Anda tahu, ada hal-hal seperti penilaian Anda akan bersifat opini, bukan?
00:05:56AI. Oke. Jadi terkadang ia mengarahkan lebih murah daripada yang Anda harapkan. Anda bisa mengabaikan itu, tetapi Anda perlu tahu
00:06:02itu terjadi di latar belakang. Pengaturan juga tidak nol karena Anda masih mengelola kunci dan menyambungkan
00:06:07penyedia, tetapi sangat mudah. Dan pengembang masih menginginkan lebih banyak SDK, lebih banyak opsi penyimpanan, dan lebih banyak
00:06:13fitur. Jadi ya, ini sangat keren, tapi ini masih infrastruktur. Ini tidak sempurna. Beberapa hal perlu
00:06:19diubah. Ini jelas berharga jika Anda menjalankan agen setiap hari, atau jika agen Anda membuat banyak
00:06:25panggilan kecil. Bahkan jika Anda peduli untuk menjaga prompt tetap lokal, ini hebat, tapi mungkin tidak jika Anda
00:06:32ingin pengaturan nol. Dalam kasus itu, sesuatu seperti OpenRouter lebih sederhana, tetapi bagi kebanyakan dari kita pengembang yang membangun
00:06:38agen, ini adalah salah satu cara tercepat untuk mengurangi biaya karena Anda tidak mengubah agen Anda. Kami menjaga
00:06:44segalanya. Anda hanya mengubah bagaimana perutean dilakukan bersama. Input yang sama, output yang sama, tagihan lebih rendah. Dan itulah
00:06:50kuncinya di sini. Jika Anda menikmati tips dan alat coding seperti ini, pastikan untuk berlangganan saluran BetterStack.
00:06:54Sampai jumpa di video lainnya.

Key Takeaway

Penggunaan Manifest memungkinkan pengembang mengurangi biaya operasional agen AI hingga 70% dengan secara otomatis mengarahkan tugas dasar ke model yang lebih murah melalui perutean deterministik tanpa menambah latensi.

Highlights

  • Manifest menurunkan biaya penggunaan token agen AI hingga 70% melalui perutean model yang lebih efisien.

  • Banyak agen AI menghabiskan biaya berlebih dengan menggunakan model mahal seperti GPT-4o untuk tugas dasar seperti klasifikasi atau ringkasan teks.

  • Manifest menggunakan penilaian deterministik untuk mengarahkan setiap permintaan ke model termurah yang sesuai dalam waktu di bawah 2 milidetik.

  • Alat ini mendukung pengoperasian mandiri (self-hosted) sehingga prompt tidak perlu keluar dari sistem lokal.

  • Manifest berfungsi sebagai pengontrol di antara agen dan model, dengan integrasi yang hanya memerlukan perubahan endpoint API.

  • Dasbor bawaan menyediakan pelacakan penggunaan token dan biaya per agen secara waktu nyata.

Timeline

Masalah Biaya pada Agen AI

  • Agen AI sering menggunakan model mahal seperti GPT-4o untuk tugas dasar yang sebenarnya tidak memerlukan kecerdasan tinggi.
  • Penulisan logika perutean manual dengan pernyataan if-else menjadi rumit dan rapuh saat prompt berubah.
  • Solusi yang ada seperti OpenRouter atau LiteLLM memiliki keterbatasan dalam hal privasi data atau keharusan pengaturan rute secara manual.

Agen AI melakukan ribuan panggilan API untuk tugas sederhana seperti memilih alat, meringkas teks, dan mengklasifikasikan input. Jika semua panggilan diarahkan ke model terbaik, biaya operasional membengkak tiga hingga lima kali lipat. Manifest hadir untuk memecahkan masalah ini dengan menempatkan lapisan perutean cerdas di antara agen dan model.

Mekanisme Kerja dan Integrasi Manifest

  • Manifest menilai setiap permintaan dalam 23 dimensi untuk menentukan model termurah yang sanggup menanganinya.
  • Integrasi hanya memerlukan pengalihan endpoint OpenAI ke Manifest tanpa perlu menulis ulang kode agen.
  • Keputusan perutean bersifat deterministik dan terjadi di bawah dua milidetik, sehingga tidak menambah latensi pada sistem.

Manifest bertindak sebagai pengontrol terpusat yang mendukung ratusan model, termasuk penyedia API besar dan model lokal seperti Ollama. Karena berjalan secara lokal atau self-hosted, data prompt tetap berada dalam sistem pengguna. Dasbor pemantauan bawaan memberikan transparansi penuh terhadap penggunaan token dan anggaran per agen.

Perbandingan dengan Alat Lain dan Pertimbangan Penggunaan

  • Berbeda dengan OpenRouter, Manifest dapat dijalankan secara mandiri untuk menjaga privasi data.
  • Manifest mengotomatiskan perutean, sementara LiteLLM memerlukan konfigurasi manual untuk pemilihan model.
  • Alat ini sangat efektif bagi pengembang yang menjalankan agen setiap hari dan membuat banyak panggilan kecil ke API.

Manifest menonjol dalam alur kerja multi-agen dengan menyediakan observabilitas yang sudah terpasang. Meskipun memerlukan sedikit pengaturan awal untuk kunci API dan penyedia model, alat ini tidak mengharuskan perubahan besar pada agen yang ada. Ini adalah solusi infrastruktur yang dirancang khusus untuk efisiensi biaya, meskipun pengembang masih mengharapkan penambahan SDK dan fitur penyimpanan di masa depan.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video