Saya Belum Pernah Melihat Hal Seperti Ini

AAI LABS
Computing/SoftwareSmall Business/StartupsManagementInternet Technology

Transcript

00:00:00Bisakah Anda benar-benar melatih sebuah model untuk menjadi manajer yang lebih baik?
00:00:02Moonshot baru saja merilis Kimi 2.5 dan menyebutnya sebagai model sumber terbuka paling kuat saat ini.
00:00:08Klaim itu sebenarnya keliru karena model ini bersifat open-weight, bukan open-source.
00:00:11Memang ada perbedaannya, tapi bukan itu poin utamanya di sini.
00:00:13Kimi 2.5 menyampaikan dua klaim yang sebenarnya sangat menarik untuk diuji.
00:00:17Pertama, dikatakan bahwa model ini dilatih dari nol untuk mengatur kawanan agen AI,
00:00:21dengan hingga 100 sub-agen yang berjalan secara paralel.
00:00:23Sistem pembelajaran penguatannya tidak hanya memberi imbalan untuk jawaban yang benar,
00:00:27tetapi juga seberapa efektif model tersebut mendistribusikan pekerjaan ke seluruh agen.
00:00:30Kedua, ia mengklaim memiliki kecerdasan agen visual,
00:00:33dan dikatakan dapat menghasilkan animasi tingkat tinggi hanya dengan satu perintah.
00:00:37Sekarang, alih-alih orang lain yang mengaku membuatnya dalam sekali coba, justru penciptanya sendiri yang mengklaimnya.
00:00:42Jadi, kami meminta salah satu anggota tim kami untuk menguji keduanya.
00:00:44Beberapa temuan kami sesuai dengan ekspektasi, namun ada juga yang tidak.
00:00:48Seperti yang saya sebutkan, Kimi 2.5 mengaku sebagai model open-source.
00:00:51Sebenarnya, Kimi 2.5 bukanlah model open-source.
00:00:54Menurut definisi yang diberikan oleh Open Source Initiative,
00:00:57model open-source berarti kode, data pelatihan, dan metodologinya harus tersedia untuk umum,
00:01:02sehingga memungkinkan siapa pun untuk memeriksa, memodifikasi, dan mendistribusikannya.
00:01:05Namun untuk model ini, ia hanyalah model open-weight.
00:01:07Model open-weight hanya menyediakan bobot akhirnya saja,
00:01:10artinya baik kode pelatihan maupun dataset pelatihannya tidak dirilis ke publik.
00:01:14Ia hanya berisi bobot yang dirilis agar orang lain dapat menyempurnakan, mengadaptasi, atau menerapkan model tersebut untuk proyek mereka sendiri.
00:01:20Nah, arsitektur model ini sangat mirip dengan arsitektur model mixture-of-experts milik DeepSeek.
00:01:25Ia mengandung 1 triliun parameter, namun hanya 32 miliar parameter yang diaktifkan.
00:01:30Apakah itu berarti kita tidak menggunakan model tersebut pada kapasitas penuhnya?
00:01:33Ia menjawab dengan akurasi yang sama dengan model parameter 1 triliun,
00:01:36tetapi dengan daya pemrosesan dan biaya yang jauh lebih rendah.
00:01:39Perbedaan antara total parameter dan parameter yang diaktifkan ini
00:01:43adalah alasan utama mengapa model ini diklaim sebagai salah satu model open-weight tercepat yang ada.
00:01:47Hanya sedikit parameter yang aktif berarti hanya sedikit yang digunakan per kueri,
00:01:52dan ini mempercepat kinerja model secara signifikan.
00:01:54Inilah alasan inti mengapa harganya sangat murah dibandingkan dengan model lainnya.
00:01:57Mereka mengatakan ini adalah model multimodal asli dan memberikan kemampuan pengodean serta visi yang mutakhir.
00:02:03Tapi ini adalah klaim yang sama yang dibuat oleh setiap model tentang menjadi yang tercanggih, lebih baik dari yang lain, dan semacamnya.
00:02:08Jadi tim kami harus mengujinya untuk membuktikannya sendiri, dan kami akan menunjukkan temuan kami.
00:02:12Tapi sebelum kita lanjut ke kemampuannya yang unik, mari kita dengar pesan dari sponsor kami.
00:02:16Opera Neon. Ini adalah browser agen pertama dari Opera,
00:02:19dirancang khusus bagi pengguna tingkat lanjut yang siap merasakan masa depan.
00:02:23Neon menggunakan fitur "Tasks", yang menggantikan tab yang berantakan dengan ruang kerja terfokus
00:02:27di mana AI dapat menganalisis dan bertindak di beberapa tab dalam konteks yang sama.
00:02:32Bayangkan Anda butuh alat bantu cepat untuk bekerja.
00:02:34Alih-alih membuka IDE, cukup gunakan Neon Make.
00:02:37Ketik perintah seperti "Buat Pomodoro Timer gaya Cyberpunk"
00:02:40dan browser akan menjalankan mesin virtual untuk membuat agenda,
00:02:43menulis kodenya, dan langsung meluncurkan aplikasinya.
00:02:45Ini sangat menghemat waktu untuk alur kerja harian, memungkinkan Anda membuat prototipe konsep
00:02:50atau mengotomatiskan riset melalui Neon Do tanpa mengganggu fokus Anda.
00:02:53Ini berfungsi seperti asisten pengembang junior yang terintegrasi langsung ke dalam antarmuka.
00:02:56Saya pasti akan menggunakan kartu Neon ini untuk mengotomatiskan perintah-perintah saya.
00:02:59Anda bisa berlangganan Opera Neon hari ini. Jangan hanya menonton perubahan era agen ini.
00:03:03Jadilah bagian di dalamnya. Tautannya ada di deskripsi.
00:03:05Model Kimi mampu mengarahkan sekelompok agen, mengoordinasikan tugas di antara mereka.
00:03:10Sekarang Anda mungkin berpikir bahwa Claude juga melakukan hal yang sama dan memunculkan beberapa sub-agen berdasarkan tugas yang diperlukan.
00:03:15Tetapi inilah perbedaan model ini.
00:03:17Kimi 2.5 sebagai sebuah model telah belajar untuk mengarahkan sendiri kelompok agen hingga 100 sub-agen,
00:03:23menjalankan alur kerja paralel melalui 1.500 langkah terkoordinasi dengan penguatan pembelajaran agen paralel.
00:03:29Bagi yang belum tahu, reinforcement learning (pembelajaran penguatan) adalah proses di mana model diberi imbalan
00:03:33ketika kinerjanya baik dan diberi penalti ketika melenceng dari tujuan.
00:03:36Kebanyakan model diberi imbalan berdasarkan performa saja.
00:03:39Tetapi dalam hal ini, model juga diberi imbalan berdasarkan seberapa baik ia dapat memparalelkan langkah-langkah
00:03:43dan bertindak sebagai koordinator.
00:03:44Sederhananya, model Kimi dilatih untuk menjadi seorang pengatur alur kerja.
00:03:48Kriteria keberhasilannya adalah kemampuannya untuk membuat sub-agen dan menetapkan tugas.
00:03:53Pengatur ini dilengkapi dengan alat untuk membuat sub-agen, menetapkan tugas, dan fungsi terkait lainnya.
00:03:58Ia membuat sub-agen untuk berbagai tugas, memberikan tugas tersebut kepada mereka,
00:04:02menerima hasil dari mereka, dan kemudian mengoordinasikan semuanya menjadi hasil akhir.
00:04:06Menurut mereka, mereka menggunakan metode kawanan agen ini untuk meningkatkan performa pada tugas-tugas kompleks.
00:04:11Dan dalam evaluasi internal, hal ini menghasilkan pengurangan waktu proses ujung-ke-ujung sebesar 80%.
00:04:16Ini berarti mereka mampu menjalankan tugas-tugas jangka panjang yang jauh lebih kompleks.
00:04:20Mereka membandingkannya dengan model-model terbaik untuk tugas jangka panjang,
00:04:23yaitu Opus 4.5 dan Kimi 2.5 tanpa sistem agen,
00:04:26dan menemukan bahwa sistem agen Kimi 2.5 melampaui semua model di seluruh tolok ukur mereka.
00:04:32Mereka juga mampu menghemat waktu yang cukup banyak dengan menggunakan banyak agen alih-alih menjalankan satu agen saja.
00:04:36Jadi, itu semua adalah klaim berdasarkan apa yang mereka sampaikan.
00:04:39Untuk menguji klaim ini, kami memasang KimiCode CLI,
00:04:42yang merupakan agen pengodean baru yang dirilis bersama model ini.
00:04:45Kami sudah membangun sebuah antarmuka (UI) dan ingin memindahkannya ke struktur komponen yang berbeda.
00:04:49UI tersebut dibangun menggunakan ShadCN, dan kami ingin membangunnya kembali menggunakan Material UI.
00:04:53Proyek ini memiliki beberapa halaman,
00:04:55jadi kami meminta Kimi untuk mengubah UI seluruh proyek dari ShadCN ke Material UI,
00:05:00dan menggunakan agen untuk menangani setiap halaman,
00:05:02sehingga migrasi ini dapat dilakukan lebih cepat secara paralel.
00:05:05Ia mulai menjelajahi direktori, mirip dengan cara kerja ClaudeCode.
00:05:08Ia membuat daftar tugas yang berisi setiap halaman yang perlu diubah ke Material UI.
00:05:13Ia mengelompokkan halaman-halaman yang serupa,
00:05:15seperti halaman autentikasi seperti pendaftaran, masuk, dan lupa kata sandi agar bisa menanganinya dengan lebih efisien.
00:05:20Namun, ia memunculkan lebih banyak agen daripada yang kami harapkan,
00:05:23yang belakangan kami ketahui adalah karena adanya bug pada CLI-nya.
00:05:26Ia baru saja menggunakan lima agen untuk melakukan tugas tersebut,
00:05:28hal yang wajar untuk sebuah produk baru.
00:05:30Dibutuhkan waktu sekitar 15 menit untuk menyelesaikan tugas tersebut,
00:05:32yang kami kira waktunya akan lebih berkurang dengan bantuan agen paralel.
00:05:35Ia menyelesaikannya dengan memverifikasi dan membersihkan semuanya.
00:05:38Beberapa komponen tidak lagi digunakan setelah migrasi,
00:05:41dan ia juga membersihkan komponen-komponen tersebut.
00:05:43Ia memastikan semua dependensi terpasang dan diperbarui,
00:05:45termasuk file pengujian, dan memvalidasi sisanya.
00:05:48Setelah itu selesai, ia memastikan bahwa semua dependensi yang diperlukan untuk ShadCN dihapus,
00:05:53meninggalkan proyek tanpa ada dependensi yang tidak terpakai,
00:05:55hal yang sering dilupakan oleh kebanyakan agen AI dan akhirnya membuat proyek menjadi berat secara tidak perlu.
00:05:59Ia sedikit mengubah tampilan UI-nya.
00:06:01Misalnya, bagian hero awalnya menampilkan teks dan visual secara berdampingan,
00:06:05tetapi ia mengubahnya menjadi tersusun secara vertikal.
00:06:07Selain itu, semuanya terlihat hampir sama persis,
00:06:10hanya komponennya saja yang diganti.
00:06:12Meskipun tugasnya besar, ia hanya menggunakan 25% dari jendela konteks,
00:06:16artinya ia dapat berjalan efektif pada agen yang bekerja dalam waktu lama.
00:06:19Jadi sistem agen ini memang bekerja, tetapi tidak selalu lebih cepat
00:06:22dan akan memakan waktu lebih lama pada basis kode berskala besar.
00:06:24Anda mungkin menyadari bahwa kami membangun banyak hal di video-video ini.
00:06:27Semua perintah, kode, templat, yah,
00:06:29hal-hal yang biasanya harus Anda jeda dan salin dari layar.
00:06:32Semuanya ada di komunitas kami, baik untuk video ini maupun semua video sebelumnya.
00:06:35Tautannya ada di deskripsi.
00:06:37Nilai jual utama Kimi 2.5 adalah kecerdasan agen visualnya.
00:06:41Ia diklaim sangat kuat dalam kemampuan front-end.
00:06:44Ia dapat berinteraksi dengan dan mengimplementasikan tata letak interaktif serta animasi yang kaya,
00:06:48seperti teks yang bergulir.
00:06:50Mereka memberikan beberapa contoh animasi yang semuanya dibuat dengan sangat baik.
00:06:53Inilah bagian di mana ia benar-benar menonjol.
00:06:55Kimi 2.5 sangat mahir dalam pengodean berbasis visi, melampaui sekadar perintah teks dan gambar.
00:07:00Ia bahkan dapat menerima video sebagai masukan dan menghasilkan kode,
00:07:03menjadikannya salah satu model pertama yang mampu melakukannya.
00:07:06Ini membuat penjelasan alur kode menjadi jauh lebih mudah.
00:07:08Kemampuan multimodal ini tidak ditambahkan belakangan setelah pelatihan.
00:07:12Ia diintegrasikan selama proses pelatihan model.
00:07:14Kebanyakan model menyertakan kemampuan tambahan
00:07:16hanya setelah kemampuan teks mereka cukup kuat,
00:07:19yang sering kali menyebabkan adanya pertukaran antara kemampuan visi dan teks.
00:07:23Namun dengan metodologi pelatihan Kimi 2.5,
00:07:25pertukaran ini hilang dan kedua kemampuan tersebut meningkat secara bersamaan.
00:07:29Sekarang, kami harus mengujinya sendiri.
00:07:30Kami merekam layar saat menavigasi antarmuka halaman baru Notion dan menggunakan perintah garis miring.
00:07:35Kami menjaga rekaman tetap kecil karena dokumentasinya menyebutkan bahwa video dibatasi hingga 40 megabita.
00:07:40Kami memberikan jalur ke rekaman Notion tersebut dan memintanya untuk mengkloning situs web yang ditunjukkan dalam video.
00:07:45Kami tidak memberi tahu secara spesifik di dalam perintah tentang apa isi rekaman itu,
00:07:48jadi ia menggunakan alat pembaca file media untuk menganalisis videonya.
00:07:52Ia menyimpulkan bahwa antarmukanya mirip Notion, mengidentifikasi semua fiturnya,
00:07:56dan menetapkan bahwa itu adalah tiruan Notion dengan jendela bergaya Mac OS.
00:07:59Setelah ia mencantumkan apa saja yang ada di dalam file tersebut, ia mulai mengimplementasikannya.
00:08:02Jika Anda menggunakan pemrosesan video dalam proyek Anda sendiri, ingatlah ini.
00:08:06Video dan gambar dapat menghabiskan jendela konteks dengan cepat,
00:08:09jadi berhati-hatilah dengan file besar dan waspadai pembengkakan konteks.
00:08:12Saat ia mereplikasi antarmukanya, hasilnya akurat.
00:08:15UI-nya dapat diedit, termasuk ikon halaman dan fitur dari Notion,
00:08:18meskipun beberapa fitur awalnya tidak berfungsi penuh.
00:08:21Perintah garis miringnya belum berfungsi, tetapi UI keseluruhannya akurat.
00:08:25Akan lebih baik jika perintah garis miringnya langsung diterapkan, karena itu adalah bagian kunci dari alur kerjanya.
00:08:29Tapi ini hanyalah masalah kecil yang bisa diperbaiki melalui pengulangan.
00:08:32Jadi kami memberikan perintah baru, memintanya untuk memperbaiki masalah yang kami alami pada implementasinya.
00:08:37Dari sana, ia melakukan iterasi mandiri, menerapkan perbaikan, memeriksa hasilnya,
00:08:41dan memastikan fiturnya bekerja dengan benar tanpa memerlukan perintah tambahan dari kami.
00:08:46Iterasi ini akhirnya memperbaiki masalah perintah garis miring,
00:08:49membuat seluruh antarmukanya terasa seperti tiruan Notion yang fungsional.
00:08:52Jadi, ini memang membuktikan klaim dari model tersebut.
00:08:54Setelah melewati beberapa kendala, kami rasa model ini bisa menjadi alternatif yang lebih murah untuk Claude Code,
00:08:58mengingat paket harga Claude dikenal mahal, sedangkan paket harga Kimi lebih rendah.
00:09:03Itu membawa kita ke akhir video ini.
00:09:05Jika Anda ingin mendukung saluran ini dan membantu kami terus membuat video seperti ini,
00:09:08Anda dapat melakukannya dengan bergabung di AI Labs Pro.
00:09:10Seperti biasa, terima kasih telah menonton, dan sampai jumpa di video berikutnya.

Key Takeaway

Kimi 2.5 adalah model open-weight inovatif yang menonjol dalam koordinasi multi-agen secara paralel dan kecerdasan visual multimodal, menawarkan performa tinggi dengan biaya operasional yang jauh lebih rendah.

Highlights

Peluncuran Kimi 2.5 oleh Moonshot sebagai model open-weight yang sangat kuat dan efisien.

Kemampuan unik Kimi 2.5 dalam mengelola hingga 100 sub-agen secara paralel melalui sistem pembelajaran penguatan.

Arsitektur Mixture-of-Experts (MoE) dengan 1 triliun parameter

Timeline

Pengenalan Kimi 2.5 dan Klarifikasi Open-Weight

Video dimulai dengan memperkenalkan Kimi 2.5 dari Moonshot yang diklaim sebagai model sumber terbuka paling kuat saat ini. Narator memberikan klarifikasi penting bahwa Kimi 2.5 sebenarnya adalah model open-weight, bukan open-source murni menurut definisi Open Source Initiative. Hal ini berarti publik hanya memiliki akses ke bobot akhir model, bukan kode atau data pelatihannya secara utuh. Bagian ini menekankan dua klaim utama Kimi 2.5: kemampuan manajemen kawanan agen dan kecerdasan visual tingkat tinggi. Penjelasan ini sangat krusial agar penonton memahami batasan aksesibilitas model tersebut sejak awal.

Arsitektur Model dan Efisiensi Kinerja

Bagian ini membahas arsitektur teknis Kimi 2.5 yang menggunakan konsep Mixture-of-Experts (MoE) serupa dengan model DeepSeek. Model ini memiliki total 1 triliun parameter, namun secara cerdas hanya mengaktifkan 32 miliar parameter di setiap kueri. Penggunaan parameter yang selektif ini memungkinkan model bekerja dengan kecepatan tinggi dan biaya yang jauh lebih murah dibandingkan pesaingnya. Efisiensi ini diklaim tidak mengorbankan akurasi dibandingkan model berukuran penuh. Fokus utama di sini adalah bagaimana arsitektur tersebut memungkinkan Kimi 2.5 menjadi salah satu model open-weight tercepat di pasar.

Segmen Sponsor: Opera Neon

Narator memperkenalkan Opera Neon sebagai browser pertama yang dirancang khusus untuk era agen AI. Browser ini memiliki fitur unik yang disebut "Tasks" untuk menggantikan sistem tab konvensional yang sering kali berantakan. Salah satu fitur unggulannya adalah Neon Make, yang memungkinkan pengguna membangun aplikasi atau alat kecil melalui perintah teks sederhana di mesin virtual. Integrasi ini bertujuan untuk meningkatkan produktivitas pengembang atau peneliti dalam melakukan alur kerja harian. Sponsor ini relevan karena selaras dengan tema utama video mengenai otomatisasi dan asisten AI yang cerdas.

Sistem Koordinasi Kawanan Agen

Kimi 2.5 memiliki kemampuan unik untuk bertindak sebagai manajer atau pengatur alur kerja bagi hingga 100 sub-agen. Model ini dilatih menggunakan sistem pembelajaran penguatan (reinforcement learning) yang memberi imbalan atas efektivitas distribusi tugas antar agen. Klaim internal menunjukkan bahwa metode kawanan agen ini dapat mengurangi waktu proses tugas kompleks hingga 80%. Berbeda dengan model lain, Kimi 2.5 mengoordinasikan langkah-langkah paralel secara mandiri untuk mencapai hasil akhir yang koheren. Hal ini memposisikan model sebagai alat yang sangat kompetitif untuk menangani proyek berskala besar yang membutuhkan banyak langkah kerja.

Uji Coba Pengodean: Migrasi Proyek ke Material UI

Tim penguji mencoba KimiCode CLI untuk melakukan migrasi antarmuka pengguna dari ShadCN ke Material UI secara otomatis. Kimi 2.5 mulai bekerja dengan memetakan direktori, membuat daftar tugas, dan mengerahkan sub-agen untuk menangani halaman-halaman yang berbeda secara paralel. Meskipun ditemukan bug kecil pada CLI yang membatasi jumlah agen, tugas tersebut berhasil diselesaikan dalam waktu sekitar 15 menit. Menariknya, model ini cukup cerdas untuk membersihkan dependensi yang tidak terpakai dan memvalidasi file pengujian. Pengujian ini membuktikan bahwa sistem agennya benar-benar berfungsi meski masih ada ruang untuk perbaikan kecepatan pada basis kode besar.

Kecerdasan Visual dan Kloning Berbasis Video

Segmen ini menyoroti kemampuan multimodal asli Kimi 2.5 yang diintegrasikan langsung selama masa pelatihan tanpa penurunan kualitas teks. Model ini mampu menganalisis video hingga ukuran 40 MB dan menghasilkan kode berdasarkan visual yang ditangkap. Dalam eksperimen, model diminta untuk mengkloning antarmuka Notion hanya dari rekaman navigasi layar tanpa instruksi teks yang spesifik. Kimi 2.5 berhasil mengidentifikasi fitur-fitur seperti jendela gaya Mac OS dan mengimplementasikan tiruan yang fungsional. Melalui proses iterasi mandiri, model bahkan mampu memperbaiki fitur perintah garis miring yang awalnya belum sempurna secara otomatis.

Kesimpulan dan Penutup

Video diakhiri dengan penilaian bahwa Kimi 2.5 adalah alternatif yang solid dan lebih terjangkau dibandingkan Claude Code. Dengan paket harga yang lebih rendah namun memiliki kemampuan visual dan manajemen agen yang tangguh, model ini layak dipertimbangkan oleh para pengembang. Narator mengajak penonton untuk mengakses perintah dan kode yang digunakan dalam video melalui komunitas mereka. Terakhir, terdapat ajakan untuk mendukung saluran melalui program AI Labs Pro sebagai penutup. Kesimpulan ini memberikan pandangan akhir yang positif terhadap masa depan penggunaan model agen AI di dunia nyata.

Community Posts

View all posts