MCP Tools Kini 10x Lebih Cepat di Claude Code

BBetter Stack
Computing/SoftwareInternet Technology

Transcript

00:00:00Tim Closco baru saja memperbaiki masalah terbesar dengan MCP dengan menambahkan fitur pencarian tool untuk mengurangi konteks hingga 95% hanya dengan mencari nama tool sebelum menggunakannya,
00:00:10alih-alih memuat semua tool yang tersedia ke dalam konteks,
00:00:14yang bisa menghabiskan puluhan ribu token bahkan sebelum Anda menulis prompt pertama.
00:00:18Tapi mengapa ini bukan cara kerjanya sejak awal?
00:00:21Dan apakah mereka mencuri teknik ini dari Cloudflare?
00:00:24Tekan subscribe dan mari kita bahas.
00:00:26Server MCP ada di mana-mana,
00:00:28ada untuk GitHub,
00:00:29Docker,
00:00:30Notion,
00:00:30bahkan ada yang untuk Better Stack yang katanya sangat bagus.
00:00:35Dan dengan orang-orang menggunakan Claude Code dan LLM untuk segala hal selain kode,
00:00:40sepertinya MCP tidak akan kemana-mana dalam waktu dekat.
00:00:43Tapi ada masalahnya,
00:00:44tabrakan penamaan,
00:00:45injeksi perintah,
00:00:46dan yang terbesar adalah inefisiensi token,
00:00:49karena semua tool dari server yang terhubung biasanya dimuat ke dalam jendela konteks model untuk memberikan visibilitas penuh kepada model.
00:00:57Jadi nama tool,
00:00:58deskripsi tool,
00:00:59dokumentasi skema JSON lengkap yang berisi parameter opsional dan wajib,
00:01:03tipe-tipenya,
00:01:04berbagai batasan,
00:01:05pada dasarnya banyak sekali data.
00:01:07Tim Redis menggunakan 167 tool dari empat server berbeda,
00:01:11yang menghabiskan lebih dari 60.000 token bahkan sebelum menulis prompt.
00:01:15Hampir setengah dari jendela konteks Opus yang 200k,
00:01:18dan ini bahkan di luar skills dan plugin.
00:01:21Jadi jika Anda punya banyak server,
00:01:23itu bisa menghabiskan sejumlah besar token.
00:01:25Ya,
00:01:26saya tahu ada model di luar sana,
00:01:27seperti Gemini,
00:01:28yang punya jendela konteks 1 juta token,
00:01:30tapi model cenderung berkinerja lebih buruk semakin banyak hal yang Anda tambahkan ke konteksnya.
00:01:35Jadi apa cara terbaik untuk memperbaiki ini?
00:01:37Nah,
00:01:37saya melihat dua pendekatan populer secara online,
00:01:40pendekatan programatik,
00:01:41yang dilakukan Cloudflare,
00:01:43dan pendekatan pencarian,
00:01:44yang dilakukan tim Claude Code.
00:01:46Saya akan membahas pendekatan programatik nanti,
00:01:49tapi pertama,
00:01:50mari kita bahas proses pencarian,
00:01:51yang bekerja seperti ini.
00:01:53Pertama,
00:01:54Claude memeriksa apakah tool MCP yang dimuat lebih dari 10% dari konteks.
00:01:59Jadi itu 20k token jika jendela konteks adalah 200k token.
00:02:04Jika tidak,
00:02:05maka tidak ada perubahan yang terjadi,
00:02:07dan model menggunakan tool MCP seperti biasa.
00:02:10Tapi jika ya,
00:02:11maka Claude secara dinamis menemukan tool yang tepat untuk digunakan menggunakan bahasa alami dan memuat tiga hingga lima tool yang paling relevan berdasarkan prompt.
00:02:22Tool-tool ini akan dimuat penuh ke dalam konteks agar model dapat menggunakannya seperti biasa.
00:02:27Ini sebenarnya fitur yang paling banyak diminta di GitHub mereka,
00:02:31dan cara kerjanya mirip dengan AgentSkills,
00:02:33yang hanya memuat nama dan deskripsi skill ke dalam konteks,
00:02:36dan ketika menemukan skill yang dianggap relevan atau skill yang disebutkan dalam prompt,
00:02:41barulah ia memuat semua detail skill spesifik tersebut ke dalam jendela konteks.
00:02:46Progressive disclosure secara singkat.
00:02:47Baik Anthropic maupun Cursor telah melihat manfaat besar dalam menggunakan pendekatan ini untuk tool MCP.
00:02:53Tapi bagaimana dengan pendekatan programatik?
00:02:55Ini bekerja dengan model yang mengorkestrasi tool melalui kode alih-alih melakukan panggilan API.
00:03:01Jadi untuk ketiga tool ini yang perlu bekerja satu demi satu berdasarkan respons sebelumnya,
00:03:06alih-alih melakukan panggilan tool API individual,
00:03:08Claude khususnya dapat menulis skrip Python untuk melakukan semua orkestrasi ini,
00:03:13kemudian mengeksekusi kode dan menyajikan hasilnya kembali ke model.
00:03:16Cloudflare telah membawa ini selangkah lebih jauh dengan membuat model menulis definisi TypeScript untuk semua tool yang tersedia dan kemudian menjalankan kode di dalam sandbox yang biasanya berupa worker.
00:03:27Tim Claude Code sebenarnya mencoba pendekatan programatik tapi menemukan pencarian bekerja lebih baik,
00:03:33yang menurut saya sangat sulit dipercaya mengingat Claude sangat bagus dalam menulis kode.
00:03:38Dan juga,
00:03:38browser agen CLI headless chromium yang dirilis oleh Vacel bekerja dengan sangat baik di Clawed code dan saya yakin jika Anda bisa mengonversi semua tool MCP menjadi perintah CLI menggunakan sesuatu seperti MCPorter,
00:03:50akan jauh lebih mudah dan efisien secara konteks bagi model untuk menjalankan perintah CLI spesifik untuk sebuah tool daripada memuat semuanya ke dalam konteks,
00:03:59tapi ya,
00:04:00itu hanya pendapat saya.
00:04:01Secara keseluruhan,
00:04:02saya senang masalah dengan server MCP sedang diteliti dan mungkin ini bisa meyakinkan saya untuk menginstal lebih dari satu server.

Key Takeaway

Anthropic mengatasi masalah inefisiensi token MCP dengan fitur pencarian tool yang secara dinamis memuat hanya 3-5 tool paling relevan, mengurangi penggunaan konteks hingga 95% dibanding memuat semua tool sekaligus.

Highlights

Anthropic menambahkan fitur pencarian tool MCP yang mengurangi penggunaan konteks hingga 95%

Server MCP sebelumnya memuat semua tool ke konteks, menghabiskan puluhan ribu token sebelum prompt pertama

Tim Redis menggunakan 167 tool dari 4 server yang menghabiskan 60.000+ token, hampir setengah konteks Opus 200k

Claude menggunakan pendekatan pencarian: hanya memuat 3-5 tool paling relevan berdasarkan prompt jika tool MCP >10% konteks

Pendekatan programatik Cloudflare menggunakan TypeScript untuk orkestrasi tool, tapi tim Claude Code menemukan pencarian bekerja lebih baik

Fitur ini adalah yang paling banyak diminta di GitHub Claude Code, mirip dengan cara AgentSkills bekerja

Alternatif: mengonversi tool MCP ke perintah CLI menggunakan MCPorter untuk efisiensi konteks lebih baik

Timeline

Pengenalan Masalah: Inefisiensi Token pada MCP Tools

Tim Anthropic (Closco) baru saja memperbaiki masalah terbesar dengan Model Context Protocol (MCP) dengan menambahkan fitur pencarian tool yang dapat mengurangi penggunaan konteks hingga 95%. Sebelumnya, sistem memuat semua tool yang tersedia ke dalam konteks, yang bisa menghabiskan puluhan ribu token bahkan sebelum pengguna menulis prompt pertama. Video ini mempertanyakan mengapa sistem tidak dirancang seperti ini sejak awal dan apakah teknik ini terinspirasi dari Cloudflare. Masalah inefisiensi token ini menjadi fokus utama yang akan dibahas lebih detail dalam video.

Ekosistem MCP dan Masalah yang Dihadapi

Server MCP kini tersedia untuk berbagai platform seperti GitHub, Docker, Notion, dan Better Stack, dengan penggunaan yang semakin meluas di Claude Code dan LLM untuk berbagai keperluan di luar coding. Namun, ada tiga masalah utama: tabrakan penamaan, injeksi perintah, dan yang terbesar adalah inefisiensi token. Semua tool dari server yang terhubung biasanya dimuat ke jendela konteks model, termasuk nama tool, deskripsi, dokumentasi skema JSON lengkap dengan parameter, tipe data, dan berbagai batasan. Sebagai contoh konkret, tim Redis menggunakan 167 tool dari empat server berbeda yang menghabiskan lebih dari 60.000 token sebelum menulis prompt, hampir setengah dari jendela konteks Opus yang 200k token, dan ini belum termasuk skills dan plugin.

Dampak Jumlah Server dan Performa Model

Jika pengguna memiliki banyak server MCP, sistem dapat menghabiskan sejumlah besar token yang signifikan. Meskipun ada model seperti Gemini dengan jendela konteks 1 juta token, model cenderung berkinerja lebih buruk semakin banyak hal yang ditambahkan ke konteksnya. Hal ini menimbulkan pertanyaan penting tentang cara terbaik untuk memperbaiki masalah inefisiensi ini. Performa model yang menurun dengan konteks yang terlalu penuh menjadi alasan krusial mengapa solusi diperlukan, bukan hanya soal kapasitas token semata.

Dua Pendekatan Solusi: Programatik vs Pencarian

Ada dua pendekatan populer untuk mengatasi masalah ini: pendekatan programatik yang digunakan Cloudflare dan pendekatan pencarian yang diimplementasikan tim Claude Code. Pendekatan pencarian bekerja dengan cara Claude pertama memeriksa apakah tool MCP yang dimuat lebih dari 10% dari konteks (20k token jika jendela konteks 200k token). Jika tidak melebihi threshold tersebut, tidak ada perubahan dan model menggunakan tool MCP seperti biasa. Namun jika melebihi, Claude secara dinamis menemukan tool yang tepat menggunakan bahasa alami dan memuat hanya tiga hingga lima tool yang paling relevan berdasarkan prompt. Tool-tool yang terpilih ini kemudian dimuat penuh ke dalam konteks agar model dapat menggunakannya seperti biasa.

Perbandingan dengan AgentSkills dan Keunggulan Pendekatan Pencarian

Fitur pencarian tool ini sebenarnya merupakan fitur yang paling banyak diminta di repository GitHub Claude Code. Cara kerjanya mirip dengan AgentSkills, yang hanya memuat nama dan deskripsi skill ke dalam konteks, dan ketika menemukan skill yang relevan atau disebutkan dalam prompt, barulah memuat semua detail skill spesifik tersebut ke jendela konteks. Konsep ini dikenal sebagai progressive disclosure secara singkat. Baik Anthropic maupun Cursor telah melihat manfaat besar dalam menggunakan pendekatan ini untuk tool MCP, membuktikan efektivitasnya dalam praktik nyata.

Pendekatan Programatik Cloudflare

Pendekatan programatik bekerja dengan model yang mengorkestrasi tool melalui kode alih-alih melakukan panggilan API. Untuk tiga tool yang perlu bekerja satu demi satu berdasarkan respons sebelumnya, alih-alih melakukan panggilan tool API individual, Claude dapat menulis skrip Python untuk melakukan semua orkestrasi, kemudian mengeksekusi kode dan menyajikan hasilnya kembali ke model. Cloudflare membawa pendekatan ini selangkah lebih jauh dengan membuat model menulis definisi TypeScript untuk semua tool yang tersedia dan menjalankan kode di dalam sandbox (biasanya worker). Namun, tim Claude Code mencoba pendekatan programatik dan menemukan bahwa pencarian bekerja lebih baik, yang cukup mengejutkan mengingat Claude sangat bagus dalam menulis kode.

Alternatif CLI dan Kesimpulan

Browser agen CLI headless chromium yang dirilis oleh Vercel bekerja dengan sangat baik di Claude Code, menunjukkan potensi pendekatan berbeda. Penulis berpendapat bahwa jika semua tool MCP bisa dikonversi menjadi perintah CLI menggunakan sesuatu seperti MCPorter, akan jauh lebih mudah dan efisien secara konteks bagi model untuk menjalankan perintah CLI spesifik daripada memuat semuanya ke dalam konteks. Secara keseluruhan, penulis senang bahwa masalah dengan server MCP sedang diteliti dan diperbaiki, dan perkembangan ini mungkin bisa meyakinkan pengguna untuk menginstal lebih dari satu server MCP. Inovasi ini menandai kemajuan penting dalam efisiensi penggunaan tool MCP.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video