Apakah Ini Model AI TERCEPAT di Dunia?!! (Xiaomi MiMo V2.5 Pro UltraSpeed)
BBetter Stack
Computing/SoftwareVideo & Computer GamesConsumer Electronics
Transcript
00:00:00Ya ampun, ShowMe, kalian tahu perusahaan ponsel asal Tiongkok itu, baru saja membuat model AI yang
00:00:05mungkin menjadi yang tercepat di dunia. Namanya ShowMe Mimo V2.5 Ultra Speed dan ini benar-benar
00:00:13mencengangkan. Di video hari ini kita akan melihat model ini, melihat bagaimana cara kerjanya dan saya sebenarnya
00:00:18berhasil mendapatkan akses awal ke model ini jadi kita juga akan mengujinya dengan beberapa contoh menarik
00:00:24untuk melihat seberapa cepat sebenarnya model ini. Pasti akan seru jadi mari kita bahas.
00:00:30Sebelum kita melihat apa yang ada di balik model ini, mari kita lihat perbedaan masif apa yang sebenarnya
00:00:39sedang kita hadapi di sini. Jadi pada model Frontier seperti GPT 5.5 atau Claude 4 Opus, Anda sering kali harus melalui
00:00:46penundaan penalaran yang masif, hanya mencapai sekitar 50 atau 60 token per detik. Itu tidak buruk tapi
00:00:54terasa agak lambat. Tapi model Mimo Ultra Speed baru dari ShowMe mencatatkan lebih dari 1000 token per detik
00:01:00dan yang lebih gila lagi adalah fakta bahwa model ini ukurannya juga sangat masif. Ini adalah model 1 triliun parameter
00:01:07mixture of experts. Jadi mungkin Anda berpikir, oke mereka mungkin menggunakan semacam super
00:01:13pengaturan perangkat keras khusus yang canggih untuk ini. Sebenarnya tidak juga. ShowMe bekerja sama dengan
00:01:19mitra sistem mereka Tile RT dan mereka mencapai ini dengan hanya menggunakan satu server standar dengan delapan
00:01:25GPU komoditas. Tapi jika bukan itu jawabannya, maka muncul pertanyaan, bagaimana cara memaksa model
00:01:31triliunan parameter untuk mengeluarkan teks dengan kecepatan mikrodetik pada perangkat keras standar? Nah, mereka menemukan
00:01:39sesuatu yang mereka sebut desain bersama sistem model ekstrem. Mereka menyerang hambatan latensi
00:01:44dari tiga sudut berbeda secara bersamaan. Pertama, mereka mengoptimalkan bandwidth memori. Memindahkan triliunan
00:01:50parameter melalui memori GPU selama fase pembuatan teks menciptakan kemacetan lalu lintas yang masif. Untuk memperbaiki ini,
00:01:57ShowMe menggunakan kuantisasi MXFP4. Namun karena kompresi 4-bit biasanya dapat membuat AI
00:02:04kurang akurat, mereka menggunakan pelatihan sadar kuantisasi atau QAT dan mereka menjaga lapisan perutean inti pada
00:02:12presisi yang lebih tinggi. Ini mengurangi tekanan memori sambil menjaga kecerdasan model hampir identik
00:02:18dengan versi yang tidak dikompresi. Kedua, mereka mengubah cara model memprediksi kata. Jadi standar
00:02:25penalaran spekulatif bekerja dengan cara memiliki model draf kecil untuk menebak beberapa kata ke depan dan kemudian model
00:02:32utama yang masif memeriksa perhitungannya. Tapi ShowMe melakukan sesuatu yang berbeda di sini dengan apa yang mereka sebut D-Flash. Alih-alih menebak satu
00:02:39token sekaligus, model ini memprediksi seluruh blok token tersembunyi sekaligus dalam satu kali penerusan paralel. Dan
00:02:46melalui pengujian, mereka menemukan bahwa ketika Anda menggunakannya untuk tugas pengkodean, model utama benar-benar menyimpan
00:02:52rata-rata 6,3 dari setiap delapan token yang ditebak oleh D-Flash. Jadi ini pada dasarnya memungkinkan model melakukan
00:02:58lompatan masif delapan token sekaligus, alih-alih mengambil langkah kecil. Dan ketiga, mereka menggunakan mesin khusus
00:03:04yang memecahkan hambatan perangkat keras yang sangat menyebalkan. Jadi ketika Anda mendorong seribu token per detik,
00:03:11GPU standar sebenarnya tidak bisa mengimbangi logika instruksi. Biasanya, sebuah GPU meluncurkan operasi
00:03:17matematika, menyelesaikannya, mengosongkan memori, lalu menunggu untuk meluncurkan yang berikutnya. Dan meskipun jeda
00:03:23ini hanya berlangsung mikrodetik, itu benar-benar membunuh momentum Anda. Untuk memperbaikinya, TileRT membangun mesin persisten
00:03:30kernel yang terus berada di dalam GPU dan tidak pernah keluar. Mereka menggunakan trik yang disebut spesialisasi warp
00:03:37untuk menetapkan peran permanen ke berbagai bagian perangkat keras. Sementara satu bagian memindahkan data,
00:03:42bagian lain menjalankan perhitungan, dan bagian ketiga menangani komunikasi semuanya pada waktu yang tepat. Jadi alur kerja
00:03:48pipelinenya benar-benar tidak pernah berhenti bergerak. Dan ini sangat menarik karena saya baru saja membuat video tentang diffusion
00:03:55gemma, yang juga sangat cepat, tetapi menangani masalah yang sama dengan cara yang sangat berbeda. Jadi periksa
00:04:00video itu jika Anda tertarik. Dan begitulah teman-teman bagaimana ShowMe mencapai kecepatan 1000 token per detik,
00:04:07konon begitu. Tapi sekarang mari kita uji dan lihat apakah janji ini terbukti. Jadi untuk tes pertama saya,
00:04:14saya memutuskan untuk mengambil salah satu pertanyaan sulit dari LeetCode dan menjalankannya pada model. Dan itu sangat cepat.
00:04:20Gila sekali bukan? Ditambah lagi, seperti yang bisa kita lihat di sini, itu memuncak pada 3451 token per detik, yang benar-benar gila.
00:04:29Nah, mungkin ada kemungkinan bahwa pertanyaan LeetCode ini adalah bagian dari data pelatihan model.
00:04:34Jadi betapapun mengesankannya ini, mungkin ini bukan perbandingan yang adil. Jadi mari kita beralih ke sesuatu yang lebih canggih.
00:04:41Selanjutnya, saya memintanya untuk membangun dasbor keuangan pribadi UI sederhana dalam satu file HTML tunggal tanpa
00:04:48perpustakaan eksternal dan tidak ada yang terlalu mewah. Dan dalam tes ini, kita sekarang benar-benar bisa melihat betapa gila
00:04:54performanya. Rata-ratanya sekitar 700 token per detik untuk bagian penalaran dan sekitar 1000 token
00:05:02per detik untuk operasi output. Dan butuh waktu 65 detik bagi model untuk menyelesaikan tugas tersebut.
00:05:09Dan saya rasa hasilnya cukup bagus. Meskipun beberapa tombol tidak berfungsi dan beberapa
00:05:14tindakan rusak, namun desain keseluruhannya cukup bagus. Maksud saya, tidak buruk untuk tugas satu menit.
00:05:21Jadi kemudian saya memutuskan untuk menantang model untuk membangun sesuatu yang lebih canggih. Saya memintanya untuk
00:05:26membangun halaman web penjelas matematika gaya Khan Academy yang menampilkan 10 konsep matematika populer untuk melihat seberapa
00:05:34kompleks sebuah situs web yang bisa kita hasilkan di sini. Dan di sinilah segalanya mulai terasa agak sulit.
00:05:40Saya mencoba tes ini dua kali dan kedua kalinya setelah sekitar dua atau tiga menit, model hanya berhenti
00:05:45menghasilkan dan benar-benar membeku. Jadi saya berasumsi bahwa dengan tugas ini, saya mencapai batas konteks model atau
00:05:51mungkin ShowMe telah menempatkan pembatas kecepatan semacam itu. Jadi kemudian saya memutuskan untuk menyederhanakan tugasnya sedikit dengan memintanya
00:05:58untuk merancang halaman web dengan hanya lima konsep matematika. Dan kali ini akhirnya berhasil. Itu berhasil
00:06:04menyelesaikan tugas dalam 75 detik. Dan hasilnya sebenarnya cukup bagus. Dan tiga widget konsep
00:06:10matematika pertama sebenarnya berfungsi, tetapi segalanya setelah titik itu rusak, tidak berfungsi atau kosong.
00:06:17Jadi saya tidak tahu apa yang sebenarnya terjadi di sini. Mungkin model menjatuhkan beberapa konteksnya selama fase penalaran
00:06:23tetapi tetap saja, saya pikir ini adalah hasil yang cukup bagus, terutama dengan mempertimbangkan bahwa
00:06:29kami rata-rata mencapai 500 token per detik selama fase penalaran. Dan untuk tes terakhir saya, saya memutuskan untuk
00:06:34melakukan sesuatu yang sedikit lebih menyenangkan. Saya hanya meminta kalimat yang sangat singkat ini untuk membangun kloning subway surfer
00:06:41menggunakan tiga JS, dan itu benar-benar berhasil membangun kloning subway surfer yang berfungsi penuh hanya dalam 50
00:06:49detik. Sekarang itu gila. Saya harus mengatakan bahwa meskipun berfungsi, seperti yang Anda lihat di sini, itu
00:06:55tidak menyertakan rintangan atau koin atau semacamnya. Jadi agak membosankan. Jadi saya kemudian memutuskan untuk
00:07:01memberikan perintah tindak lanjut untuk memperbaiki masalah kecil ini. Dan setelah dua kali percobaan, itu berhasil
00:07:07menambahkan beberapa koin dan beberapa rintangan. Dan sejujurnya, ketika saya mengujinya, ini adalah demo yang sempurna.
00:07:14Fungsionalitasnya ada di sana. Semuanya berfungsi. Bahkan menyimpan skor tinggi saya setelah setiap putaran.
00:07:20Jadi demo khusus ini benar-benar mengejutkan saya dengan cara yang sangat positif. Saya yakin saat ini kita semua
00:07:26bisa membangun kloning subway surfer dengan model lain juga. Tapi fakta bahwa saya bisa mendapatkan prototipe yang berfungsi,
00:07:32yang tidak sepenuhnya buruk dan yang sebenarnya menyenangkan untuk dimainkan dan semua itu hanya dalam 50 detik dengan
00:07:39beberapa perintah tindak lanjut, itu cukup mengesankan. Jadi seperti yang kita semua lihat dalam tes, model berhasil
00:07:45mencapai rekor kecepatan lebih dari 3000 token per detik. Jadi ini memang model tercepat yang
00:07:52pernah saya lihat. Dan sejauh hasil yang keluar, maksud saya, ya tentu saja. Beberapa dari mereka rusak. Beberapa dari mereka
00:07:58setengah matang. Pastinya ini bukan Claude Opus atau GPT 5.5. Tapi saya yakin model Xiaomi pasti akan terus
00:08:06meningkat dari waktu ke waktu. Jadi akan sangat menarik untuk melihat apa yang akan mereka hasilkan di masa depan.
00:08:12Jadi begitulah, teman-teman. Itu adalah Xiaomi Mimo V2.5 Ultra Speed secara singkat. Jadi bagaimana menurut Anda
00:08:18tentang model ini? Apakah Anda terkesan? Kecewa? Tidak peduli? Beri tahu kami di bagian komentar di bawah.
00:08:24Dan teman-teman, jika Anda menyukai jenis perincian teknis ini, harap beri tahu saya dengan menekan
00:08:29tombol suka di bawah video. Dan juga jangan lupa untuk berlangganan saluran kami.
00:08:33Ini adalah Andrus dari BetterStack, dan saya akan melihat Anda di video berikutnya.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video