Pengaturan llama-swap untuk Menghilangkan Jeda Perpindahan Model pada GPU di Bawah 12GB
2026년 5월 14일
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
Bagi pengguna GPU kelas menengah, VRAM selalu menjadi sumber daya yang terbatas. Saat menggunakan RTX 3060 atau 4060 dan mencoba menjalankan beberapa model sekaligus, Anda akan segera mencapai batasnya. Model Llama 3.1 8B yang telah melalui kuantisasi 4-bit (Q4_K_M) saja sudah memakan 5,2GB untuk bobotnya. Jika dikurangi penggunaan dasar Windows sebesar 1GB, ruang yang tersisa hanya sekitar 2GB. Jika Anda memaksakan untuk memuat model tambahan di sini, akan terjadi spillover yang menarik memori dari RAM sistem. Melihat kecepatan yang tadinya 15 token per detik merosot menjadi 1 token per detik akan membuat Anda ingin segera mematikan proses tersebut.
Untuk mencegah hambatan (bottleneck) ini, Anda harus menetapkan idle_timeout yang berbeda untuk setiap model di dalam config.yaml.
globalTTL ke 300 (5 menit). Tambahkan --ctx-size 8192 setelah perintah eksekusi model (cmd) untuk membatasi KV cache agar tidak melahap seluruh sisa memori, guna menghindari OOM (Out of Memory).ttl: 0, dan atur Qwen 2.5 Coder 7B yang berat ke ttl: 60 agar VRAM segera dikosongkan setelah selesai melakukan pengodean.Dengan pengaturan ini, Anda dapat menghemat setidaknya 20 menit waktu per hari yang biasanya terbuang karena menyalakan dan mematikan model secara manual.
Saat ingin beralih dari Ollama ke llama.cpp, sering terjadi bentrokan port dan perebutan hak akses sumber daya. llama-swap bertindak sebagai polisi lalu lintas yang merapikan kekacauan ini. Proksi ringan yang ditulis dalam bahasa Go ini akan mengirimkan sinyal SIGTERM ke proses yang ada untuk menurunkannya secara aman dan menaikkan model baru saat ada panggilan model baru yang masuk.
Cara penulisan YAML untuk integrasi yang stabil sangatlah jelas:
--flash-attn dan --mlock di bagian macros. Ini akan membuat file konfigurasi jauh lebih rapi.${PORT} di bawah item models untuk menentukan jalur eksekusi setiap model.http://localhost:11434 pada kolom proxy.Hasilnya, aplikasi Anda cukup merujuk ke satu alamat saja: http://localhost:8080/v1. Anda tidak perlu lagi peduli apakah engine atau model di baliknya telah berubah.
Alasan sebenarnya menggunakan LLM lokal adalah untuk menghemat uang sambil menjaga privasi data pribadi. Cursor pada dasarnya berbayar, tetapi dengan menggunakan pengaturan OpenAI Compatible, Anda dapat mengalihkannya melalui llama-swap lokal. Ini berarti Anda menghemat 20 dolar setiap bulan, atau 240 dolar dalam setahun.
Cara menghubungkannya sangat sederhana:
http://localhost:8080/v1 pada Base URL.gpt-4o pada model asli di pengaturan llama-swap, Cursor akan mengenalinya sebagai pasangannya dan langsung bekerja.nomic-embed-text dan tetapkan ttl: 0 di llama-swap.Bahkan saat Anda berpindah dari merapikan catatan ke jendela pengodean, model akan berpindah secara otomatis di latar belakang. Karena semua data hanya berputar di dalam komputer Anda, tidak ada lagi rasa khawatir tentang privasi.
Membuka terminal setiap saat untuk menyalakan proksi adalah hal yang sangat merepotkan. Agar AI bisa digunakan sebagai alat, ia harus tersedia secara senyap seperti udara. Bagi pengguna Windows, mendaftarkan llama-swap sebagai layanan menggunakan NSSM (Non-Sucking Service Manager) adalah cara yang paling rapi.
Langkahnya adalah sebagai berikut:
winget install NSSM, lalu ketik nssm install LlamaSwap dengan hak akses administrator.llama-swap.exe di bagian Path, dan masukkan --config config.yaml -watch-config di bagian Arguments.Sekarang, segera setelah komputer dinyalakan, API endpoint akan langsung aktif. Berkat opsi -watch-config, setiap kali Anda mengubah dan menyimpan file konfigurasi YAML, pengaturan baru akan langsung diterapkan tanpa perlu menyalakan ulang layanan.
Terputusnya percakapan atau matinya aplikasi saat model berganti sebagian besar disebabkan oleh kesalahan desain memori. Engine inferensi akan mencoba mengamankan memori sebanyak context window yang ditentukan saat dinyalakan. Jika ini tidak dikendalikan, Anda akan menghadapi kesalahan yang tidak terduga.
Berikut adalah tiga perangkat untuk memastikan stabilitas:
--ctx-size sekitar 8192 di kolom cmd. Jika dibiarkan tanpa batas, VRAM akan meledak.healthCheckTimeout cukup longgar, sekitar 300 detik, agar proksi tidak memutus koneksi selama proses pemuatan.--flash-attn wajib ada dalam opsi eksekusi. Dengan menggunakan ini, Anda dapat menggunakan konteks 20% lebih luas pada kapasitas VRAM yang sama.Untuk model 8B, perpindahan selesai dalam waktu sekitar 5 detik. Tingkat ini sudah cukup untuk tidak mengganggu alur kerja. Meskipun tidak memiliki workstation berperforma tinggi, Anda dapat menikmati lingkungan AI yang nyaman di atas meja kerja hanya dengan mengutak-atik beberapa nilai pengaturan.