Saya Memangkas Biaya Agen AI Sebesar 70% Dengan Satu Perubahan (Manifest)
BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술
Transcript
00:00:00Ini adalah Manifest. Saya beralih menggunakannya selama akhir pekan dan biaya token saya turun 70%.
00:00:05Agen yang sama, tugas yang sama, hanya perutean yang lebih baik. Jika Anda sedang membangun agen AI, ada kemungkinan besar
00:00:11Anda membayar jauh lebih banyak daripada yang seharusnya. Sebagian besar permintaan tidak membutuhkan GPT-4-0 atau Claude Opus,
00:00:17tetapi justru itulah yang mereka gunakan. Jadi agen kita akhirnya menggunakan model mahal untuk
00:00:22hal-hal dasar seperti klasifikasi, perutean, ringkasan, dan begitulah cara tagihan Anda perlahan-lahan
00:00:27menjadi tiga hingga lima kali lebih tinggi dari yang seharusnya. Bagaimana cara kerja Manifest? Mari kita cari tahu.
00:00:37Di sinilah masalahnya. Agen tidak hanya membuat beberapa panggilan, mereka membuat ribuan panggilan ini.
00:00:44Dan sebagian besar panggilan itu sangat sederhana. Memilih alat, meringkas potongan teks, mengklasifikasikan input. Tapi jika
00:00:50semuanya dikirim ke model terbaik, Anda membayar harga premium untuk pekerjaan yang cukup mendasar. Jadi, Anda bisa
00:00:57mencoba memperbaikinya, saya rasa dengan menulis logika perutean, dan sekarang kode Anda penuh dengan pernyataan
00:01:02if-else yang rusak begitu prompt Anda berubah. Oke, ya, kita bisa saja menggunakan OpenRouter,
00:01:08tentu saja, tapi ada biaya untuk itu. Dan kemudian prompt Anda benar-benar meninggalkan mesin. Saya rasa ada
00:01:13juga yang disebut Lite LLM yang bisa Anda coba, yang cukup solid, tetapi Anda masih harus mengelola perutean
00:01:18secara manual. Jadi masalah sebenarnya bukanlah akses ke model, melainkan memilih model yang tepat setiap saat.
00:01:25Dan itulah, hadirin sekalian, yang dilakukan Manifest. Ia berada di antara agen dan model Anda.
00:01:31Anda mengirim satu permintaan, ia menilainya di 23 dimensi, dan mengarahkannya ke model termurah
00:01:36yang bisa menanganinya. Tidak perlu penulisan ulang dan hanya satu endpoint. Jika Anda menikmati tips dan alat coding
00:01:41seperti ini, pastikan untuk berlangganan. Kami selalu merilis video baru. Baiklah, mantap. Sekarang izinkan saya tunjukkan.
00:01:47Agen yang sama, tugas yang sama. Saya menjalankan Manifest dengan Docker di sini, perintah curl sederhana, Docker Compose up,
00:01:55dan sekarang saya mengarahkan endpoint OpenAI saya ke sana. Itu satu-satunya perubahan di sini. Sekarang saya bisa menghubungkan berbagai model
00:02:01di sini, seperti yang Anda lihat, Anthropic, OpenAI, Ollama. Saya memilih OpenAI, memasukkan kunci saya, dan saya menghubungkan
00:02:08Ollama agar bisa beralih di antara keduanya. Dan sekarang kita akan menjalankan skrip Python ini. Anda bisa lihat saya menggunakan
00:02:12kunci API Manifest di sini. Itu satu-satunya kunci yang kita butuhkan karena Manifest memiliki kunci lainnya, oke?
00:02:18Jadi ketika kita menjalankan ini, agen mulai bekerja. Dan alih-alih mengirim semuanya ke model yang
00:02:24mahal, Manifest membuat keputusan. Yang ini sederhana. Arahkan ke yang lebih murah. Sekarang kembali ke sini. Dasbor kita
00:02:31diperbarui secara waktu nyata, menunjukkan penggunaan token, biaya per agen, dan pelacakan anggaran. Angka kuncinya
00:02:38bisa berubah, tetapi bisa menjadi hingga 70% lebih murah. Output yang sama, biaya lebih rendah, dan karena
00:02:44ini berjalan secara lokal, prompt Anda tidak meninggalkan mesin Anda hanya untuk diarahkan. Ini tidak memakan banyak
00:02:50waktu atau sumber daya, jadi ini sesuatu yang layak diintegrasikan ke dalam alur kerja Anda, terutama jika Anda sedang
00:02:55membangun dan menggunakan AI. Oke, jadi apa yang sebenarnya terjadi di sini? Anda bisa menganggap Manifest sebagai
00:03:00pengontrol, bukan? Agen Anda mengirim satu permintaan masuk, Manifest memutuskan ke mana seharusnya ia pergi,
00:03:07jadi itu bisa berupa model API, langganan, model lokal, Ollama atau Llama CPP.
00:03:14Ini mendukung ratusan model dari banyak penyedia, tetapi inilah bagian penting dari
00:03:19semua ini. Ia tidak memanggil LLM lain untuk memutuskan. Itu akan kontra-intuitif, jadi itu hanya akan menjadi
00:03:25lambat dan mahal. Sebaliknya, ia menggunakan penilaian deterministik, sehingga perutean terjadi di bawah dua milidetik.
00:03:32Tidak ada penambahan latensi untuk semua ini. Manifest hanya duduk di tengah, dan ia membuat keputusan yang lebih baik,
00:03:38dan ini jelas dibuat untuk agen. Plugin Open Call, pelacakan multi-agen, kami memilikinya, dan kami bahkan
00:03:44memiliki observabilitas yang sudah terpasang. Penghematan terbesar tidak datang dari prompt yang sulit. Mereka datang dari semua
00:03:50panggilan kecil yang dibuat agen kita secara konstan. Oke, jadi singkatnya, bagaimana ini
00:03:56berbeda dari alat yang sudah kita kenal, jadi saya akan membandingkan ini dengan sangat cepat? Saya menyebutkan
00:04:01OpenRouter tadi. Jadi OpenRouter memberi Anda satu endpoint cloud, tetapi lalu lintas Anda masih meninggalkan
00:04:06sistem Anda. Manifest bisa berjalan sepenuhnya secara self-hosted. Lalu ada alat yang saya sebutkan yaitu Lite LLM. Ini memberi
00:04:13Anda antarmuka terpadu, tetapi perutean masih merupakan sesuatu yang harus Anda kontrol secara manual. Manifest menangani
00:04:19perutean secara otomatis. Ada juga kecerdasan perutean. Nah, di mana Manifest menilai permintaan di 23
00:04:25dimensi, itu adalah versi kecerdasan perutean mereka. Hal lain seperti ini mengandalkan failover
00:04:31atau aturan. Lalu ada langganan. Ya. Jadi meskipun Anda tidak benar-benar membayar untuk Manifest, Anda masih
00:04:38jelas membutuhkan hal-hal seperti kunci API OpenAI atau Claude, bukan? Nah, fokus agen adalah sesuatu di mana
00:04:46Manifest benar-benar menonjol. Ini dibuat untuk alur kerja multi-agen. Jadi perbedaannya sederhana.
00:04:51Jika Anda ingin akses, gunakan saja OpenRouter, bukan? Jika Anda ingin kontrol, ada Lite LLM. Tapi jika
00:04:57masalah Anda sebenarnya adalah biaya dari agen, karena kita membuat semua panggilan API ini, Manifest dibuat untuk
00:05:03itu. Ada banyak alat untuk menurunkan biaya Anda. Anda hanya perlu menemukannya, dan ini adalah salah
00:05:08satu caranya. Nah, jujur saja di sini, karena ini hebat, tetapi dengan alat AI, Anda akan mendapatkan beberapa
00:05:14hal yang mungkin membuat Anda hanya garuk-garuk kepala. Pertama, hal baiknya. Yang pertama adalah
00:05:19penghematan, terutama dengan perutean langganan. Anda menggunakan paket yang sudah Anda bayar alih-alih
00:05:26membayar per token lagi. Lalu fallback, bukan? Jika ada sesuatu yang gagal, agen Anda terus berjalan, yang merupakan
00:05:33kemenangan besar. Lalu ada dasbor. Dasbornya hebat karena Anda benar-benar bisa melihat ke mana uang Anda
00:05:38pergi di berbagai model, per agen, per tugas, semuanya secara waktu nyata. Dan ini berfungsi dengan klien
00:05:45yang ada tanpa penulisan ulang besar. Tapi seperti yang saya katakan, ada hal-hal yang kita harapkan dimiliki alat seperti
00:05:50ini. Dan Anda tahu, ada hal-hal seperti penilaian Anda akan bersifat opini, bukan?
00:05:56AI. Oke. Jadi terkadang ia mengarahkan lebih murah daripada yang Anda harapkan. Anda bisa mengabaikan itu, tetapi Anda perlu tahu
00:06:02itu terjadi di latar belakang. Pengaturan juga tidak nol karena Anda masih mengelola kunci dan menyambungkan
00:06:07penyedia, tetapi sangat mudah. Dan pengembang masih menginginkan lebih banyak SDK, lebih banyak opsi penyimpanan, dan lebih banyak
00:06:13fitur. Jadi ya, ini sangat keren, tapi ini masih infrastruktur. Ini tidak sempurna. Beberapa hal perlu
00:06:19diubah. Ini jelas berharga jika Anda menjalankan agen setiap hari, atau jika agen Anda membuat banyak
00:06:25panggilan kecil. Bahkan jika Anda peduli untuk menjaga prompt tetap lokal, ini hebat, tapi mungkin tidak jika Anda
00:06:32ingin pengaturan nol. Dalam kasus itu, sesuatu seperti OpenRouter lebih sederhana, tetapi bagi kebanyakan dari kita pengembang yang membangun
00:06:38agen, ini adalah salah satu cara tercepat untuk mengurangi biaya karena Anda tidak mengubah agen Anda. Kami menjaga
00:06:44segalanya. Anda hanya mengubah bagaimana perutean dilakukan bersama. Input yang sama, output yang sama, tagihan lebih rendah. Dan itulah
00:06:50kuncinya di sini. Jika Anda menikmati tips dan alat coding seperti ini, pastikan untuk berlangganan saluran BetterStack.
00:06:54Sampai jumpa di video lainnya.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video