Transcript
00:00:00Penyiapan model lokal kita berjalan lancar, sampai kita butuh model yang berbeda.
00:00:04Sekarang kita harus mematikan server llama, mengganti port, memperbarui URL dasar OpenAI,
00:00:10menunggu muat ulang, dan berharap tidak ada yang eror.
00:00:13Semua karena model coding kita terlalu besar untuk chat cepat, dan model kecil Anda terlalu bodoh
00:00:18untuk kode sungguhan.
00:00:19LlamaSwap memperbaiki masalah itu.
00:00:21Satu titik akhir, banyak model, pertukaran otomatis, dan alat Anda tidak menyadari ada perubahan.
00:00:26Saya akan menunjukkan cara menyiapkannya dalam beberapa menit ke depan.
00:00:34Kebanyakan pengembang LLM lokal akhirnya menghadapi kendala yang sama.
00:00:37Awalnya Anda memakai yang praktis, llama, lmstudio, sesuatu yang langsung berfungsi.
00:00:44Karena memang berfungsi.
00:00:45Dan sejujurnya itu bagus, karena perkembangannya sudah jauh lebih baik.
00:00:48Tapi kemudian kita mulai menginginkan kontrol lebih.
00:00:51Anda ingin flag llama CPP yang tepat, penempatan layer GPU, ukuran konteks, backend kustom, atau
00:00:59bahkan model eksperimental.
00:01:01Jadi Anda beralih menggunakan server llama mentah, dan itu rasanya luar biasa.
00:01:06Sampai Anda sadar Anda hanya menukar satu masalah dengan masalah lain.
00:01:09Sekarang Anda melakukan ini.
00:01:11Anda mematikan server llama, memulai QuinCoder, lalu lima menit kemudian, apa
00:01:16yang Anda lakukan?
00:01:17Anda mematikan lagi server llama Anda.
00:01:18Anda terus berpindah-pindah di antara model-model ini.
00:01:20Dan setiap kali melakukannya, ada yang menunggu, menyambung ulang, gagal, atau diam-diam memakai
00:01:26model yang salah.
00:01:27Jadi yang sebenarnya Anda inginkan adalah menjaga satu titik akhir di depan, dan menukar model apa pun
00:01:31yang Anda inginkan di belakangnya.
00:01:33Itulah celah yang diisi oleh llama swap.
00:01:36Jika Anda menyukai alat coding yang mempercepat alur kerja, pastikan untuk subscribe.
00:01:39Kami punya video baru setiap saat.
00:01:41Sekarang biarkan saya tunjukkan cara kerjanya sebelum kita membahasnya lebih lanjut.
00:01:44Saat ini llama swap sedang berjalan secara lokal di satu port.
00:01:48Klien saya hanya tahu URL dasar ini, bukan satu URL untuk Quin, satu lagi untuk small LM,
00:01:55URL lain untuk embedding, cukup satu pintu masuk.
00:01:58Ini adalah konfigurasi kecil dengan dua model.
00:02:02Satu adalah QuinCoder, yang lainnya adalah small LM2.
00:02:06Dan masing-masing punya perintah sendiri.
00:02:09Masing-masing punya file model sendiri.
00:02:11Masing-masing punya ukuran konteks sendiri.
00:02:14Dan perbedaan di antara keduanya adalah masing-masing juga punya TTL sendiri.
00:02:19Sekarang saya akan meminta sesuatu pada model coding.
00:02:22Saya mengirim satu permintaan chat gaya OpenAI yang normal.
00:02:25Kolom model tertulis QuinCoder, oke, bagus.
00:02:30Mari kita lihat log-nya.
00:02:32Ia menunggu sampai backend sehat, lalu mengirimkan permintaannya.
00:02:36Nah, inilah hal yang tidak terjadi.
00:02:39Saya tidak mengubah URL-nya.
00:02:41Saya tidak memulai ulang open web UI.
00:02:43Saya tidak mengedit ini di cursor.
00:02:46Saya hanya mengubah satu kolom.
00:02:48Jadi model berubah dari QuinCoder ke small LM2, endpoint sama, klien sama, model berbeda.
00:02:55Dan saat model tidak aktif melewati batas TTL ini, llama swap bisa melepaskannya agar VRAM Anda
00:02:59tersedia kembali.
00:03:00Itulah intinya.
00:03:02Alat Anda mengira mereka sedang berbicara dengan satu API.
00:03:04Llama swap menangani bagian yang rumit di balik layar untuk mengontrol jalannya segala sesuatu.
00:03:09Oke, bagus.
00:03:10Jadi apa itu llama swap?
00:03:11Saya sudah mendemonstrasikannya di sini, kan?
00:03:12Anggap saja ini sebagai hub untuk model lokal Anda.
00:03:13Aplikasi Anda tidak berbicara langsung ke setiap server model.
00:03:16Mereka berbicara ke llama swap.
00:03:19Lalu llama swap melihat kolom model dan memutuskan apa yang harus terjadi.
00:03:21Jika model sudah berjalan, ia akan meneruskan permintaannya.
00:03:25Jika model belum berjalan, maka ia akan memulainya.
00:03:28Jika ada model lain yang harus mengalah, ia akan menghentikannya.
00:03:31Lalu klien Anda mendapatkan respons normal.
00:03:35Jadi tidak perlu mengganti URL dasar setiap 10 menit.
00:03:38Hanya ada satu biner, satu file konfigurasi, satu titik akhir API yang stabil.
00:03:41Ini dibuat dengan Go dan menggunakan konfigurasi YAML.
00:03:45Ini berfungsi sebagai proksi untuk API yang kompatibel dengan OpenAI dan Anthropic,
00:03:48dan bisa ditempatkan di depan backend seperti llama cpp, vllm, tabby API, dan lainnya.
00:03:53Jika beruntung, Anda mungkin punya 10 atau 20 model di disk, tapi VRAM hanya cukup untuk memuat
00:03:59satu atau dua saja.
00:04:05TTL membantu dalam hal itu.
00:04:06Jika model tidak aktif cukup lama, llama swap bisa melepaskannya.
00:04:08Jadi daripada GPU Anda tertahan oleh model yang sedang tidak digunakan,
00:04:11ia bisa membebaskan memori tersebut untuk permintaan berikutnya.
00:04:17Dulu Anda harus mengingat apa yang sedang berjalan.
00:04:20Sekarang konfigurasinya yang mengingat untuk Anda.
00:04:23Pada titik ini, pertanyaan jelasnya adalah mengapa tidak pakai llama, LM Studios, atau server
00:04:25llama biasa saja?
00:04:31Dan jawabannya adalah, yah, mungkin Anda memang menggunakannya.
00:04:32Llama swap tidak menggantikan itu semua setiap saat.
00:04:35Ia menyelesaikan masalah yang sangat spesifik.
00:04:37Dibandingkan llama, llama swap bukan toko model, pengunduh, atau CLI yang ramah pemula.
00:04:40Bukan itu intinya di sini.
00:04:47Poin utamanya adalah kontrol.
00:04:49Anda membawa build llama cpp sendiri, Anda membawa flag sendiri, Anda menentukan sendiri bagaimana
00:04:50setiap model dijalankan.
00:04:55Dibandingkan LM Studio, llama swap lebih mengutamakan server, tanpa perlu GUI.
00:04:57Ini lebih cocok untuk dev box, server lab rumah, Docker, atau mesin bersama di mana alat
00:05:02hanya butuh API yang stabil.
00:05:07Ini tidak semudah menjalankan “llama run llama 3”.
00:05:09Anda butuh file model Anda.
00:05:13Anda perlu memahami backend Anda.
00:05:15Anda harus menulis YAML.
00:05:17Anda perlu tahu flag mana yang sesuai dengan GPU Anda.
00:05:19Tidak ada galeri model bawaan yang otomatis mengunduh dan mengonfigurasi semuanya untuk Anda.
00:05:22Jadi jujur saja, pengaturannya cukup merepotkan.
00:05:26Tapi bagi sebagian pengembang, ini mengatasi masalah yang sangat spesifik.
00:05:29Masalah karena sudah tahu model apa yang diinginkan, tapi membuang waktu untuk mengatur ulang
00:05:32segala sesuatu di sekitarnya.
00:05:38Ini layak dicoba jika Anda memakai alat seperti cursor, continue, agen kustom, atau skrip lokal.
00:05:39Ini akan sangat berguna, tapi pengaturannya memang lebih intensif.
00:05:44Jadi itulah llama swap.
00:05:47Satu titik akhir API yang stabil, banyak model lokal di belakangnya, pertukaran otomatis,
00:05:49pelepasan saat tidak aktif, kontrol backend penuh.
00:05:54Ide utamanya sederhana saja.
00:05:56Klien Anda tidak perlu lagi peduli server model mana yang sedang berjalan.
00:05:58Llama swap menangani semua itu untuk mereka.
00:06:02Jika Anda menyukai alat coding seperti ini, pastikan untuk subscribe.
00:06:04Sampai jumpa di video lainnya.