Pengaturan llama-swap untuk Menghilangkan Jeda Perpindahan Model pada GPU di Bawah 12GB

Menghitung idle_timeout Secara Mandiri Berdasarkan Kapasitas VRAM

Bagi pengguna GPU kelas menengah, VRAM selalu menjadi sumber daya yang terbatas. Saat menggunakan RTX 3060 atau 4060 dan mencoba menjalankan beberapa model sekaligus, Anda akan segera mencapai batasnya. Model Llama 3.1 8B yang telah melalui kuantisasi 4-bit (Q4_K_M) saja sudah memakan 5,2GB untuk bobotnya. Jika dikurangi penggunaan dasar Windows sebesar 1GB, ruang yang tersisa hanya sekitar 2GB. Jika Anda memaksakan untuk memuat model tambahan di sini, akan terjadi spillover yang menarik memori dari RAM sistem. Melihat kecepatan yang tadinya 15 token per detik merosot menjadi 1 token per detik akan membuat Anda ingin segera mematikan proses tersebut.

Untuk mencegah hambatan (bottleneck) ini, Anda harus menetapkan idle_timeout yang berbeda untuk setiap model di dalam config.yaml.

8GB VRAM (RTX 3070/4060): Atur globalTTL ke 300 (5 menit). Tambahkan --ctx-size 8192 setelah perintah eksekusi model (cmd) untuk membatasi KV cache agar tidak melahap seluruh sisa memori, guna menghindari OOM (Out of Memory).
12GB VRAM (RTX 3060 12G): Biarkan Phi-3 Mini yang sering digunakan tetap berada di memori dengan ttl: 0, dan atur Qwen 2.5 Coder 7B yang berat ke ttl: 60 agar VRAM segera dikosongkan setelah selesai melakukan pengodean.

Dengan pengaturan ini, Anda dapat menghemat setidaknya 20 menit waktu per hari yang biasanya terbuang karena menyalakan dan mematikan model secara manual.

Konfigurasi YAML untuk Menyatukan Berbagai Engine Inferensi ke Dalam Satu Port

Saat ingin beralih dari Ollama ke llama.cpp, sering terjadi bentrokan port dan perebutan hak akses sumber daya. llama-swap bertindak sebagai polisi lalu lintas yang merapikan kekacauan ini. Proksi ringan yang ditulis dalam bahasa Go ini akan mengirimkan sinyal SIGTERM ke proses yang ada untuk menurunkannya secara aman dan menaikkan model baru saat ada panggilan model baru yang masuk.

Cara penulisan YAML untuk integrasi yang stabil sangatlah jelas:

Definisikan jalur file eksekusi dan flag umum seperti --flash-attn dan --mlock di bagian macros. Ini akan membuat file konfigurasi jauh lebih rapi.
Gunakan makro ${PORT} di bawah item models untuk menentukan jalur eksekusi setiap model.
Untuk layanan Ollama yang sudah berjalan, cukup hubungkan jalurnya dengan menuliskan http://localhost:11434 pada kolom proxy.

Hasilnya, aplikasi Anda cukup merujuk ke satu alamat saja: http://localhost:8080/v1. Anda tidak perlu lagi peduli apakah engine atau model di baliknya telah berubah.

Menghubungkan Cursor dan Obsidian ke Endpoint Lokal untuk Menghemat Biaya Langganan

Alasan sebenarnya menggunakan LLM lokal adalah untuk menghemat uang sambil menjaga privasi data pribadi. Cursor pada dasarnya berbayar, tetapi dengan menggunakan pengaturan OpenAI Compatible, Anda dapat mengalihkannya melalui llama-swap lokal. Ini berarti Anda menghemat 20 dolar setiap bulan, atau 240 dolar dalam setahun.

Cara menghubungkannya sangat sederhana:

Di Settings > Models pada Cursor, aktifkan OpenAI API Compatible dan masukkan http://localhost:8080/v1 pada Base URL.
Untuk API Key, Anda bisa memasukkan karakter apa saja. Jika Anda memberi alias gpt-4o pada model asli di pengaturan llama-swap, Cursor akan mengenalinya sebagai pasangannya dan langsung bekerja.
Di plugin Obsidian Copilot, sesuaikan model embedding ke nomic-embed-text dan tetapkan ttl: 0 di llama-swap.

Bahkan saat Anda berpindah dari merapikan catatan ke jendela pengodean, model akan berpindah secara otomatis di latar belakang. Karena semua data hanya berputar di dalam komputer Anda, tidak ada lagi rasa khawatir tentang privasi.

Pendaftaran Layanan Latar Belakang Menggunakan NSSM

Membuka terminal setiap saat untuk menyalakan proksi adalah hal yang sangat merepotkan. Agar AI bisa digunakan sebagai alat, ia harus tersedia secara senyap seperti udara. Bagi pengguna Windows, mendaftarkan llama-swap sebagai layanan menggunakan NSSM (Non-Sucking Service Manager) adalah cara yang paling rapi.

Langkahnya adalah sebagai berikut:

Instal melalui terminal dengan winget install NSSM, lalu ketik nssm install LlamaSwap dengan hak akses administrator.
Saat jendela pengaturan muncul, masukkan jalur llama-swap.exe di bagian Path, dan masukkan --config config.yaml -watch-config di bagian Arguments.
Di tab Process, naikkan prioritas ke High. Hal ini dilakukan agar kecepatan inferensi tidak terhambat oleh tugas lainnya.

Sekarang, segera setelah komputer dinyalakan, API endpoint akan langsung aktif. Berkat opsi -watch-config, setiap kali Anda mengubah dan menyimpan file konfigurasi YAML, pengaturan baru akan langsung diterapkan tanpa perlu menyalakan ulang layanan.

Mencegah Crash dengan Flash Attention dan Batasan Konteks

Terputusnya percakapan atau matinya aplikasi saat model berganti sebagian besar disebabkan oleh kesalahan desain memori. Engine inferensi akan mencoba mengamankan memori sebanyak context window yang ditentukan saat dinyalakan. Jika ini tidak dikendalikan, Anda akan menghadapi kesalahan yang tidak terduga.

Berikut adalah tiga perangkat untuk memastikan stabilitas:

Tentukan --ctx-size sekitar 8192 di kolom cmd. Jika dibiarkan tanpa batas, VRAM akan meledak.
Jika ukuran model besar, waktu pemuatan akan lama. Atur healthCheckTimeout cukup longgar, sekitar 300 detik, agar proksi tidak memutus koneksi selama proses pemuatan.
Flag --flash-attn wajib ada dalam opsi eksekusi. Dengan menggunakan ini, Anda dapat menggunakan konteks 20% lebih luas pada kapasitas VRAM yang sama.

Untuk model 8B, perpindahan selesai dalam waktu sekitar 5 detik. Tingkat ini sudah cukup untuk tidak mengganggu alur kerja. Meskipun tidak memiliki workstation berperforma tinggi, Anda dapat menikmati lingkungan AI yang nyaman di atas meja kerja hanya dengan mengutak-atik beberapa nilai pengaturan.

Pengaturan llama-swap untuk Menghilangkan Jeda Perpindahan Model pada GPU di Bawah 12GB

Menghitung idle_timeout Secara Mandiri Berdasarkan Kapasitas VRAM

Untuk mencegah hambatan (bottleneck) ini, Anda harus menetapkan idle_timeout yang berbeda untuk setiap model di dalam config.yaml.

8GB VRAM (RTX 3070/4060): Atur globalTTL ke 300 (5 menit). Tambahkan --ctx-size 8192 setelah perintah eksekusi model (cmd) untuk membatasi KV cache agar tidak melahap seluruh sisa memori, guna menghindari OOM (Out of Memory).
12GB VRAM (RTX 3060 12G): Biarkan Phi-3 Mini yang sering digunakan tetap berada di memori dengan ttl: 0, dan atur Qwen 2.5 Coder 7B yang berat ke ttl: 60 agar VRAM segera dikosongkan setelah selesai melakukan pengodean.

Dengan pengaturan ini, Anda dapat menghemat setidaknya 20 menit waktu per hari yang biasanya terbuang karena menyalakan dan mematikan model secara manual.

Konfigurasi YAML untuk Menyatukan Berbagai Engine Inferensi ke Dalam Satu Port

Cara penulisan YAML untuk integrasi yang stabil sangatlah jelas:

Definisikan jalur file eksekusi dan flag umum seperti --flash-attn dan --mlock di bagian macros. Ini akan membuat file konfigurasi jauh lebih rapi.
Gunakan makro ${PORT} di bawah item models untuk menentukan jalur eksekusi setiap model.
Untuk layanan Ollama yang sudah berjalan, cukup hubungkan jalurnya dengan menuliskan http://localhost:11434 pada kolom proxy.

Hasilnya, aplikasi Anda cukup merujuk ke satu alamat saja: http://localhost:8080/v1. Anda tidak perlu lagi peduli apakah engine atau model di baliknya telah berubah.

Menghubungkan Cursor dan Obsidian ke Endpoint Lokal untuk Menghemat Biaya Langganan

Cara menghubungkannya sangat sederhana:

Di Settings > Models pada Cursor, aktifkan OpenAI API Compatible dan masukkan http://localhost:8080/v1 pada Base URL.
Untuk API Key, Anda bisa memasukkan karakter apa saja. Jika Anda memberi alias gpt-4o pada model asli di pengaturan llama-swap, Cursor akan mengenalinya sebagai pasangannya dan langsung bekerja.
Di plugin Obsidian Copilot, sesuaikan model embedding ke nomic-embed-text dan tetapkan ttl: 0 di llama-swap.

Pendaftaran Layanan Latar Belakang Menggunakan NSSM

Langkahnya adalah sebagai berikut:

Instal melalui terminal dengan winget install NSSM, lalu ketik nssm install LlamaSwap dengan hak akses administrator.
Saat jendela pengaturan muncul, masukkan jalur llama-swap.exe di bagian Path, dan masukkan --config config.yaml -watch-config di bagian Arguments.
Di tab Process, naikkan prioritas ke High. Hal ini dilakukan agar kecepatan inferensi tidak terhambat oleh tugas lainnya.

Mencegah Crash dengan Flash Attention dan Batasan Konteks

Berikut adalah tiga perangkat untuk memastikan stabilitas:

Tentukan --ctx-size sekitar 8192 di kolom cmd. Jika dibiarkan tanpa batas, VRAM akan meledak.
Jika ukuran model besar, waktu pemuatan akan lama. Atur healthCheckTimeout cukup longgar, sekitar 300 detik, agar proksi tidak memutus koneksi selama proses pemuatan.
Flag --flash-attn wajib ada dalam opsi eksekusi. Dengan menggunakan ini, Anda dapat menggunakan konteks 20% lebih luas pada kapasitas VRAM yang sama.

Pengaturan llama-swap untuk Menghilangkan Jeda Perpindahan Model pada GPU di Bawah 12GB

Related Video

Llama-Swap: Solusi Masalah Paling Menyebalkan pada LLM Lokal

Pengaturan llama-swap untuk Menghilangkan Jeda Perpindahan Model pada GPU di Bawah 12GB

Menghitung idle_timeout Secara Mandiri Berdasarkan Kapasitas VRAM

Konfigurasi YAML untuk Menyatukan Berbagai Engine Inferensi ke Dalam Satu Port

Menghubungkan Cursor dan Obsidian ke Endpoint Lokal untuk Menghemat Biaya Langganan

Pendaftaran Layanan Latar Belakang Menggunakan NSSM

Mencegah Crash dengan Flash Attention dan Batasan Konteks

Comments (0)

Pengaturan llama-swap untuk Menghilangkan Jeda Perpindahan Model pada GPU di Bawah 12GB

Menghitung idle_timeout Secara Mandiri Berdasarkan Kapasitas VRAM

Konfigurasi YAML untuk Menyatukan Berbagai Engine Inferensi ke Dalam Satu Port

Menghubungkan Cursor dan Obsidian ke Endpoint Lokal untuk Menghemat Biaya Langganan

Pendaftaran Layanan Latar Belakang Menggunakan NSSM

Mencegah Crash dengan Flash Attention dan Batasan Konteks