00:00:00Bisakah Anda benar-benar melatih sebuah model untuk menjadi manajer yang lebih baik?
00:00:02Moonshot baru saja merilis Kimi 2.5 dan menyebutnya sebagai model sumber terbuka paling kuat saat ini.
00:00:08Klaim itu sebenarnya keliru karena model ini bersifat open-weight, bukan open-source.
00:00:11Memang ada perbedaannya, tapi bukan itu poin utamanya di sini.
00:00:13Kimi 2.5 menyampaikan dua klaim yang sebenarnya sangat menarik untuk diuji.
00:00:17Pertama, dikatakan bahwa model ini dilatih dari nol untuk mengatur kawanan agen AI,
00:00:21dengan hingga 100 sub-agen yang berjalan secara paralel.
00:00:23Sistem pembelajaran penguatannya tidak hanya memberi imbalan untuk jawaban yang benar,
00:00:27tetapi juga seberapa efektif model tersebut mendistribusikan pekerjaan ke seluruh agen.
00:00:30Kedua, ia mengklaim memiliki kecerdasan agen visual,
00:00:33dan dikatakan dapat menghasilkan animasi tingkat tinggi hanya dengan satu perintah.
00:00:37Sekarang, alih-alih orang lain yang mengaku membuatnya dalam sekali coba, justru penciptanya sendiri yang mengklaimnya.
00:00:42Jadi, kami meminta salah satu anggota tim kami untuk menguji keduanya.
00:00:44Beberapa temuan kami sesuai dengan ekspektasi, namun ada juga yang tidak.
00:00:48Seperti yang saya sebutkan, Kimi 2.5 mengaku sebagai model open-source.
00:00:51Sebenarnya, Kimi 2.5 bukanlah model open-source.
00:00:54Menurut definisi yang diberikan oleh Open Source Initiative,
00:00:57model open-source berarti kode, data pelatihan, dan metodologinya harus tersedia untuk umum,
00:01:02sehingga memungkinkan siapa pun untuk memeriksa, memodifikasi, dan mendistribusikannya.
00:01:05Namun untuk model ini, ia hanyalah model open-weight.
00:01:07Model open-weight hanya menyediakan bobot akhirnya saja,
00:01:10artinya baik kode pelatihan maupun dataset pelatihannya tidak dirilis ke publik.
00:01:14Ia hanya berisi bobot yang dirilis agar orang lain dapat menyempurnakan, mengadaptasi, atau menerapkan model tersebut untuk proyek mereka sendiri.
00:01:20Nah, arsitektur model ini sangat mirip dengan arsitektur model mixture-of-experts milik DeepSeek.
00:01:25Ia mengandung 1 triliun parameter, namun hanya 32 miliar parameter yang diaktifkan.
00:01:30Apakah itu berarti kita tidak menggunakan model tersebut pada kapasitas penuhnya?
00:01:33Ia menjawab dengan akurasi yang sama dengan model parameter 1 triliun,
00:01:36tetapi dengan daya pemrosesan dan biaya yang jauh lebih rendah.
00:01:39Perbedaan antara total parameter dan parameter yang diaktifkan ini
00:01:43adalah alasan utama mengapa model ini diklaim sebagai salah satu model open-weight tercepat yang ada.
00:01:47Hanya sedikit parameter yang aktif berarti hanya sedikit yang digunakan per kueri,
00:01:52dan ini mempercepat kinerja model secara signifikan.
00:01:54Inilah alasan inti mengapa harganya sangat murah dibandingkan dengan model lainnya.
00:01:57Mereka mengatakan ini adalah model multimodal asli dan memberikan kemampuan pengodean serta visi yang mutakhir.
00:02:03Tapi ini adalah klaim yang sama yang dibuat oleh setiap model tentang menjadi yang tercanggih, lebih baik dari yang lain, dan semacamnya.
00:02:08Jadi tim kami harus mengujinya untuk membuktikannya sendiri, dan kami akan menunjukkan temuan kami.
00:02:12Tapi sebelum kita lanjut ke kemampuannya yang unik, mari kita dengar pesan dari sponsor kami.
00:02:16Opera Neon. Ini adalah browser agen pertama dari Opera,
00:02:19dirancang khusus bagi pengguna tingkat lanjut yang siap merasakan masa depan.
00:02:23Neon menggunakan fitur "Tasks", yang menggantikan tab yang berantakan dengan ruang kerja terfokus
00:02:27di mana AI dapat menganalisis dan bertindak di beberapa tab dalam konteks yang sama.
00:02:32Bayangkan Anda butuh alat bantu cepat untuk bekerja.
00:02:34Alih-alih membuka IDE, cukup gunakan Neon Make.
00:02:37Ketik perintah seperti "Buat Pomodoro Timer gaya Cyberpunk"
00:02:40dan browser akan menjalankan mesin virtual untuk membuat agenda,
00:02:43menulis kodenya, dan langsung meluncurkan aplikasinya.
00:02:45Ini sangat menghemat waktu untuk alur kerja harian, memungkinkan Anda membuat prototipe konsep
00:02:50atau mengotomatiskan riset melalui Neon Do tanpa mengganggu fokus Anda.
00:02:53Ini berfungsi seperti asisten pengembang junior yang terintegrasi langsung ke dalam antarmuka.
00:02:56Saya pasti akan menggunakan kartu Neon ini untuk mengotomatiskan perintah-perintah saya.
00:02:59Anda bisa berlangganan Opera Neon hari ini. Jangan hanya menonton perubahan era agen ini.
00:03:03Jadilah bagian di dalamnya. Tautannya ada di deskripsi.
00:03:05Model Kimi mampu mengarahkan sekelompok agen, mengoordinasikan tugas di antara mereka.
00:03:10Sekarang Anda mungkin berpikir bahwa Claude juga melakukan hal yang sama dan memunculkan beberapa sub-agen berdasarkan tugas yang diperlukan.
00:03:15Tetapi inilah perbedaan model ini.
00:03:17Kimi 2.5 sebagai sebuah model telah belajar untuk mengarahkan sendiri kelompok agen hingga 100 sub-agen,
00:03:23menjalankan alur kerja paralel melalui 1.500 langkah terkoordinasi dengan penguatan pembelajaran agen paralel.
00:03:29Bagi yang belum tahu, reinforcement learning (pembelajaran penguatan) adalah proses di mana model diberi imbalan
00:03:33ketika kinerjanya baik dan diberi penalti ketika melenceng dari tujuan.
00:03:36Kebanyakan model diberi imbalan berdasarkan performa saja.
00:03:39Tetapi dalam hal ini, model juga diberi imbalan berdasarkan seberapa baik ia dapat memparalelkan langkah-langkah
00:03:43dan bertindak sebagai koordinator.
00:03:44Sederhananya, model Kimi dilatih untuk menjadi seorang pengatur alur kerja.
00:03:48Kriteria keberhasilannya adalah kemampuannya untuk membuat sub-agen dan menetapkan tugas.
00:03:53Pengatur ini dilengkapi dengan alat untuk membuat sub-agen, menetapkan tugas, dan fungsi terkait lainnya.
00:03:58Ia membuat sub-agen untuk berbagai tugas, memberikan tugas tersebut kepada mereka,
00:04:02menerima hasil dari mereka, dan kemudian mengoordinasikan semuanya menjadi hasil akhir.
00:04:06Menurut mereka, mereka menggunakan metode kawanan agen ini untuk meningkatkan performa pada tugas-tugas kompleks.
00:04:11Dan dalam evaluasi internal, hal ini menghasilkan pengurangan waktu proses ujung-ke-ujung sebesar 80%.
00:04:16Ini berarti mereka mampu menjalankan tugas-tugas jangka panjang yang jauh lebih kompleks.
00:04:20Mereka membandingkannya dengan model-model terbaik untuk tugas jangka panjang,
00:04:23yaitu Opus 4.5 dan Kimi 2.5 tanpa sistem agen,
00:04:26dan menemukan bahwa sistem agen Kimi 2.5 melampaui semua model di seluruh tolok ukur mereka.
00:04:32Mereka juga mampu menghemat waktu yang cukup banyak dengan menggunakan banyak agen alih-alih menjalankan satu agen saja.
00:04:36Jadi, itu semua adalah klaim berdasarkan apa yang mereka sampaikan.
00:04:39Untuk menguji klaim ini, kami memasang KimiCode CLI,
00:04:42yang merupakan agen pengodean baru yang dirilis bersama model ini.
00:04:45Kami sudah membangun sebuah antarmuka (UI) dan ingin memindahkannya ke struktur komponen yang berbeda.
00:04:49UI tersebut dibangun menggunakan ShadCN, dan kami ingin membangunnya kembali menggunakan Material UI.
00:04:53Proyek ini memiliki beberapa halaman,
00:04:55jadi kami meminta Kimi untuk mengubah UI seluruh proyek dari ShadCN ke Material UI,
00:05:00dan menggunakan agen untuk menangani setiap halaman,
00:05:02sehingga migrasi ini dapat dilakukan lebih cepat secara paralel.
00:05:05Ia mulai menjelajahi direktori, mirip dengan cara kerja ClaudeCode.
00:05:08Ia membuat daftar tugas yang berisi setiap halaman yang perlu diubah ke Material UI.
00:05:13Ia mengelompokkan halaman-halaman yang serupa,
00:05:15seperti halaman autentikasi seperti pendaftaran, masuk, dan lupa kata sandi agar bisa menanganinya dengan lebih efisien.
00:05:20Namun, ia memunculkan lebih banyak agen daripada yang kami harapkan,
00:05:23yang belakangan kami ketahui adalah karena adanya bug pada CLI-nya.
00:05:26Ia baru saja menggunakan lima agen untuk melakukan tugas tersebut,
00:05:28hal yang wajar untuk sebuah produk baru.
00:05:30Dibutuhkan waktu sekitar 15 menit untuk menyelesaikan tugas tersebut,
00:05:32yang kami kira waktunya akan lebih berkurang dengan bantuan agen paralel.
00:05:35Ia menyelesaikannya dengan memverifikasi dan membersihkan semuanya.
00:05:38Beberapa komponen tidak lagi digunakan setelah migrasi,
00:05:41dan ia juga membersihkan komponen-komponen tersebut.
00:05:43Ia memastikan semua dependensi terpasang dan diperbarui,
00:05:45termasuk file pengujian, dan memvalidasi sisanya.
00:05:48Setelah itu selesai, ia memastikan bahwa semua dependensi yang diperlukan untuk ShadCN dihapus,
00:05:53meninggalkan proyek tanpa ada dependensi yang tidak terpakai,
00:05:55hal yang sering dilupakan oleh kebanyakan agen AI dan akhirnya membuat proyek menjadi berat secara tidak perlu.
00:05:59Ia sedikit mengubah tampilan UI-nya.
00:06:01Misalnya, bagian hero awalnya menampilkan teks dan visual secara berdampingan,
00:06:05tetapi ia mengubahnya menjadi tersusun secara vertikal.
00:06:07Selain itu, semuanya terlihat hampir sama persis,
00:06:10hanya komponennya saja yang diganti.
00:06:12Meskipun tugasnya besar, ia hanya menggunakan 25% dari jendela konteks,
00:06:16artinya ia dapat berjalan efektif pada agen yang bekerja dalam waktu lama.
00:06:19Jadi sistem agen ini memang bekerja, tetapi tidak selalu lebih cepat
00:06:22dan akan memakan waktu lebih lama pada basis kode berskala besar.
00:06:24Anda mungkin menyadari bahwa kami membangun banyak hal di video-video ini.
00:06:27Semua perintah, kode, templat, yah,
00:06:29hal-hal yang biasanya harus Anda jeda dan salin dari layar.
00:06:32Semuanya ada di komunitas kami, baik untuk video ini maupun semua video sebelumnya.
00:06:35Tautannya ada di deskripsi.
00:06:37Nilai jual utama Kimi 2.5 adalah kecerdasan agen visualnya.
00:06:41Ia diklaim sangat kuat dalam kemampuan front-end.
00:06:44Ia dapat berinteraksi dengan dan mengimplementasikan tata letak interaktif serta animasi yang kaya,
00:06:48seperti teks yang bergulir.
00:06:50Mereka memberikan beberapa contoh animasi yang semuanya dibuat dengan sangat baik.
00:06:53Inilah bagian di mana ia benar-benar menonjol.
00:06:55Kimi 2.5 sangat mahir dalam pengodean berbasis visi, melampaui sekadar perintah teks dan gambar.
00:07:00Ia bahkan dapat menerima video sebagai masukan dan menghasilkan kode,
00:07:03menjadikannya salah satu model pertama yang mampu melakukannya.
00:07:06Ini membuat penjelasan alur kode menjadi jauh lebih mudah.
00:07:08Kemampuan multimodal ini tidak ditambahkan belakangan setelah pelatihan.
00:07:12Ia diintegrasikan selama proses pelatihan model.
00:07:14Kebanyakan model menyertakan kemampuan tambahan
00:07:16hanya setelah kemampuan teks mereka cukup kuat,
00:07:19yang sering kali menyebabkan adanya pertukaran antara kemampuan visi dan teks.
00:07:23Namun dengan metodologi pelatihan Kimi 2.5,
00:07:25pertukaran ini hilang dan kedua kemampuan tersebut meningkat secara bersamaan.
00:07:29Sekarang, kami harus mengujinya sendiri.
00:07:30Kami merekam layar saat menavigasi antarmuka halaman baru Notion dan menggunakan perintah garis miring.
00:07:35Kami menjaga rekaman tetap kecil karena dokumentasinya menyebutkan bahwa video dibatasi hingga 40 megabita.
00:07:40Kami memberikan jalur ke rekaman Notion tersebut dan memintanya untuk mengkloning situs web yang ditunjukkan dalam video.
00:07:45Kami tidak memberi tahu secara spesifik di dalam perintah tentang apa isi rekaman itu,
00:07:48jadi ia menggunakan alat pembaca file media untuk menganalisis videonya.
00:07:52Ia menyimpulkan bahwa antarmukanya mirip Notion, mengidentifikasi semua fiturnya,
00:07:56dan menetapkan bahwa itu adalah tiruan Notion dengan jendela bergaya Mac OS.
00:07:59Setelah ia mencantumkan apa saja yang ada di dalam file tersebut, ia mulai mengimplementasikannya.
00:08:02Jika Anda menggunakan pemrosesan video dalam proyek Anda sendiri, ingatlah ini.
00:08:06Video dan gambar dapat menghabiskan jendela konteks dengan cepat,
00:08:09jadi berhati-hatilah dengan file besar dan waspadai pembengkakan konteks.
00:08:12Saat ia mereplikasi antarmukanya, hasilnya akurat.
00:08:15UI-nya dapat diedit, termasuk ikon halaman dan fitur dari Notion,
00:08:18meskipun beberapa fitur awalnya tidak berfungsi penuh.
00:08:21Perintah garis miringnya belum berfungsi, tetapi UI keseluruhannya akurat.
00:08:25Akan lebih baik jika perintah garis miringnya langsung diterapkan, karena itu adalah bagian kunci dari alur kerjanya.
00:08:29Tapi ini hanyalah masalah kecil yang bisa diperbaiki melalui pengulangan.
00:08:32Jadi kami memberikan perintah baru, memintanya untuk memperbaiki masalah yang kami alami pada implementasinya.
00:08:37Dari sana, ia melakukan iterasi mandiri, menerapkan perbaikan, memeriksa hasilnya,
00:08:41dan memastikan fiturnya bekerja dengan benar tanpa memerlukan perintah tambahan dari kami.
00:08:46Iterasi ini akhirnya memperbaiki masalah perintah garis miring,
00:08:49membuat seluruh antarmukanya terasa seperti tiruan Notion yang fungsional.
00:08:52Jadi, ini memang membuktikan klaim dari model tersebut.
00:08:54Setelah melewati beberapa kendala, kami rasa model ini bisa menjadi alternatif yang lebih murah untuk Claude Code,
00:08:58mengingat paket harga Claude dikenal mahal, sedangkan paket harga Kimi lebih rendah.
00:09:03Itu membawa kita ke akhir video ini.
00:09:05Jika Anda ingin mendukung saluran ini dan membantu kami terus membuat video seperti ini,
00:09:08Anda dapat melakukannya dengan bergabung di AI Labs Pro.
00:09:10Seperti biasa, terima kasih telah menonton, dan sampai jumpa di video berikutnya.