Apakah Ini Model AI TERCEPAT di Dunia?!! (Xiaomi MiMo V2.5 Pro UltraSpeed)

BBetter Stack
Computing/SoftwareVideo & Computer GamesConsumer Electronics

Transcript

00:00:00Ya ampun, ShowMe, kalian tahu perusahaan ponsel asal Tiongkok itu, baru saja membuat model AI yang
00:00:05mungkin menjadi yang tercepat di dunia. Namanya ShowMe Mimo V2.5 Ultra Speed dan ini benar-benar
00:00:13mencengangkan. Di video hari ini kita akan melihat model ini, melihat bagaimana cara kerjanya dan saya sebenarnya
00:00:18berhasil mendapatkan akses awal ke model ini jadi kita juga akan mengujinya dengan beberapa contoh menarik
00:00:24untuk melihat seberapa cepat sebenarnya model ini. Pasti akan seru jadi mari kita bahas.
00:00:30Sebelum kita melihat apa yang ada di balik model ini, mari kita lihat perbedaan masif apa yang sebenarnya
00:00:39sedang kita hadapi di sini. Jadi pada model Frontier seperti GPT 5.5 atau Claude 4 Opus, Anda sering kali harus melalui
00:00:46penundaan penalaran yang masif, hanya mencapai sekitar 50 atau 60 token per detik. Itu tidak buruk tapi
00:00:54terasa agak lambat. Tapi model Mimo Ultra Speed baru dari ShowMe mencatatkan lebih dari 1000 token per detik
00:01:00dan yang lebih gila lagi adalah fakta bahwa model ini ukurannya juga sangat masif. Ini adalah model 1 triliun parameter
00:01:07mixture of experts. Jadi mungkin Anda berpikir, oke mereka mungkin menggunakan semacam super
00:01:13pengaturan perangkat keras khusus yang canggih untuk ini. Sebenarnya tidak juga. ShowMe bekerja sama dengan
00:01:19mitra sistem mereka Tile RT dan mereka mencapai ini dengan hanya menggunakan satu server standar dengan delapan
00:01:25GPU komoditas. Tapi jika bukan itu jawabannya, maka muncul pertanyaan, bagaimana cara memaksa model
00:01:31triliunan parameter untuk mengeluarkan teks dengan kecepatan mikrodetik pada perangkat keras standar? Nah, mereka menemukan
00:01:39sesuatu yang mereka sebut desain bersama sistem model ekstrem. Mereka menyerang hambatan latensi
00:01:44dari tiga sudut berbeda secara bersamaan. Pertama, mereka mengoptimalkan bandwidth memori. Memindahkan triliunan
00:01:50parameter melalui memori GPU selama fase pembuatan teks menciptakan kemacetan lalu lintas yang masif. Untuk memperbaiki ini,
00:01:57ShowMe menggunakan kuantisasi MXFP4. Namun karena kompresi 4-bit biasanya dapat membuat AI
00:02:04kurang akurat, mereka menggunakan pelatihan sadar kuantisasi atau QAT dan mereka menjaga lapisan perutean inti pada
00:02:12presisi yang lebih tinggi. Ini mengurangi tekanan memori sambil menjaga kecerdasan model hampir identik
00:02:18dengan versi yang tidak dikompresi. Kedua, mereka mengubah cara model memprediksi kata. Jadi standar
00:02:25penalaran spekulatif bekerja dengan cara memiliki model draf kecil untuk menebak beberapa kata ke depan dan kemudian model
00:02:32utama yang masif memeriksa perhitungannya. Tapi ShowMe melakukan sesuatu yang berbeda di sini dengan apa yang mereka sebut D-Flash. Alih-alih menebak satu
00:02:39token sekaligus, model ini memprediksi seluruh blok token tersembunyi sekaligus dalam satu kali penerusan paralel. Dan
00:02:46melalui pengujian, mereka menemukan bahwa ketika Anda menggunakannya untuk tugas pengkodean, model utama benar-benar menyimpan
00:02:52rata-rata 6,3 dari setiap delapan token yang ditebak oleh D-Flash. Jadi ini pada dasarnya memungkinkan model melakukan
00:02:58lompatan masif delapan token sekaligus, alih-alih mengambil langkah kecil. Dan ketiga, mereka menggunakan mesin khusus
00:03:04yang memecahkan hambatan perangkat keras yang sangat menyebalkan. Jadi ketika Anda mendorong seribu token per detik,
00:03:11GPU standar sebenarnya tidak bisa mengimbangi logika instruksi. Biasanya, sebuah GPU meluncurkan operasi
00:03:17matematika, menyelesaikannya, mengosongkan memori, lalu menunggu untuk meluncurkan yang berikutnya. Dan meskipun jeda
00:03:23ini hanya berlangsung mikrodetik, itu benar-benar membunuh momentum Anda. Untuk memperbaikinya, TileRT membangun mesin persisten
00:03:30kernel yang terus berada di dalam GPU dan tidak pernah keluar. Mereka menggunakan trik yang disebut spesialisasi warp
00:03:37untuk menetapkan peran permanen ke berbagai bagian perangkat keras. Sementara satu bagian memindahkan data,
00:03:42bagian lain menjalankan perhitungan, dan bagian ketiga menangani komunikasi semuanya pada waktu yang tepat. Jadi alur kerja
00:03:48pipelinenya benar-benar tidak pernah berhenti bergerak. Dan ini sangat menarik karena saya baru saja membuat video tentang diffusion
00:03:55gemma, yang juga sangat cepat, tetapi menangani masalah yang sama dengan cara yang sangat berbeda. Jadi periksa
00:04:00video itu jika Anda tertarik. Dan begitulah teman-teman bagaimana ShowMe mencapai kecepatan 1000 token per detik,
00:04:07konon begitu. Tapi sekarang mari kita uji dan lihat apakah janji ini terbukti. Jadi untuk tes pertama saya,
00:04:14saya memutuskan untuk mengambil salah satu pertanyaan sulit dari LeetCode dan menjalankannya pada model. Dan itu sangat cepat.
00:04:20Gila sekali bukan? Ditambah lagi, seperti yang bisa kita lihat di sini, itu memuncak pada 3451 token per detik, yang benar-benar gila.
00:04:29Nah, mungkin ada kemungkinan bahwa pertanyaan LeetCode ini adalah bagian dari data pelatihan model.
00:04:34Jadi betapapun mengesankannya ini, mungkin ini bukan perbandingan yang adil. Jadi mari kita beralih ke sesuatu yang lebih canggih.
00:04:41Selanjutnya, saya memintanya untuk membangun dasbor keuangan pribadi UI sederhana dalam satu file HTML tunggal tanpa
00:04:48perpustakaan eksternal dan tidak ada yang terlalu mewah. Dan dalam tes ini, kita sekarang benar-benar bisa melihat betapa gila
00:04:54performanya. Rata-ratanya sekitar 700 token per detik untuk bagian penalaran dan sekitar 1000 token
00:05:02per detik untuk operasi output. Dan butuh waktu 65 detik bagi model untuk menyelesaikan tugas tersebut.
00:05:09Dan saya rasa hasilnya cukup bagus. Meskipun beberapa tombol tidak berfungsi dan beberapa
00:05:14tindakan rusak, namun desain keseluruhannya cukup bagus. Maksud saya, tidak buruk untuk tugas satu menit.
00:05:21Jadi kemudian saya memutuskan untuk menantang model untuk membangun sesuatu yang lebih canggih. Saya memintanya untuk
00:05:26membangun halaman web penjelas matematika gaya Khan Academy yang menampilkan 10 konsep matematika populer untuk melihat seberapa
00:05:34kompleks sebuah situs web yang bisa kita hasilkan di sini. Dan di sinilah segalanya mulai terasa agak sulit.
00:05:40Saya mencoba tes ini dua kali dan kedua kalinya setelah sekitar dua atau tiga menit, model hanya berhenti
00:05:45menghasilkan dan benar-benar membeku. Jadi saya berasumsi bahwa dengan tugas ini, saya mencapai batas konteks model atau
00:05:51mungkin ShowMe telah menempatkan pembatas kecepatan semacam itu. Jadi kemudian saya memutuskan untuk menyederhanakan tugasnya sedikit dengan memintanya
00:05:58untuk merancang halaman web dengan hanya lima konsep matematika. Dan kali ini akhirnya berhasil. Itu berhasil
00:06:04menyelesaikan tugas dalam 75 detik. Dan hasilnya sebenarnya cukup bagus. Dan tiga widget konsep
00:06:10matematika pertama sebenarnya berfungsi, tetapi segalanya setelah titik itu rusak, tidak berfungsi atau kosong.
00:06:17Jadi saya tidak tahu apa yang sebenarnya terjadi di sini. Mungkin model menjatuhkan beberapa konteksnya selama fase penalaran
00:06:23tetapi tetap saja, saya pikir ini adalah hasil yang cukup bagus, terutama dengan mempertimbangkan bahwa
00:06:29kami rata-rata mencapai 500 token per detik selama fase penalaran. Dan untuk tes terakhir saya, saya memutuskan untuk
00:06:34melakukan sesuatu yang sedikit lebih menyenangkan. Saya hanya meminta kalimat yang sangat singkat ini untuk membangun kloning subway surfer
00:06:41menggunakan tiga JS, dan itu benar-benar berhasil membangun kloning subway surfer yang berfungsi penuh hanya dalam 50
00:06:49detik. Sekarang itu gila. Saya harus mengatakan bahwa meskipun berfungsi, seperti yang Anda lihat di sini, itu
00:06:55tidak menyertakan rintangan atau koin atau semacamnya. Jadi agak membosankan. Jadi saya kemudian memutuskan untuk
00:07:01memberikan perintah tindak lanjut untuk memperbaiki masalah kecil ini. Dan setelah dua kali percobaan, itu berhasil
00:07:07menambahkan beberapa koin dan beberapa rintangan. Dan sejujurnya, ketika saya mengujinya, ini adalah demo yang sempurna.
00:07:14Fungsionalitasnya ada di sana. Semuanya berfungsi. Bahkan menyimpan skor tinggi saya setelah setiap putaran.
00:07:20Jadi demo khusus ini benar-benar mengejutkan saya dengan cara yang sangat positif. Saya yakin saat ini kita semua
00:07:26bisa membangun kloning subway surfer dengan model lain juga. Tapi fakta bahwa saya bisa mendapatkan prototipe yang berfungsi,
00:07:32yang tidak sepenuhnya buruk dan yang sebenarnya menyenangkan untuk dimainkan dan semua itu hanya dalam 50 detik dengan
00:07:39beberapa perintah tindak lanjut, itu cukup mengesankan. Jadi seperti yang kita semua lihat dalam tes, model berhasil
00:07:45mencapai rekor kecepatan lebih dari 3000 token per detik. Jadi ini memang model tercepat yang
00:07:52pernah saya lihat. Dan sejauh hasil yang keluar, maksud saya, ya tentu saja. Beberapa dari mereka rusak. Beberapa dari mereka
00:07:58setengah matang. Pastinya ini bukan Claude Opus atau GPT 5.5. Tapi saya yakin model Xiaomi pasti akan terus
00:08:06meningkat dari waktu ke waktu. Jadi akan sangat menarik untuk melihat apa yang akan mereka hasilkan di masa depan.
00:08:12Jadi begitulah, teman-teman. Itu adalah Xiaomi Mimo V2.5 Ultra Speed secara singkat. Jadi bagaimana menurut Anda
00:08:18tentang model ini? Apakah Anda terkesan? Kecewa? Tidak peduli? Beri tahu kami di bagian komentar di bawah.
00:08:24Dan teman-teman, jika Anda menyukai jenis perincian teknis ini, harap beri tahu saya dengan menekan
00:08:29tombol suka di bawah video. Dan juga jangan lupa untuk berlangganan saluran kami.
00:08:33Ini adalah Andrus dari BetterStack, dan saya akan melihat Anda di video berikutnya.

Key Takeaway

Model ShowMe Mimo V2.5 Ultra Speed mencapai kecepatan inferensi melampaui 1000 token per detik melalui kombinasi kuantisasi MXFP4, teknik prediksi blok D-Flash, dan mesin kernel GPU persisten.

Highlights

  • Model Mimo V2.5 Ultra Speed mencatatkan kecepatan lebih dari 1000 token per detik.

  • Optimasi memori menggunakan kuantisasi MXFP4 dengan Pelatihan Sadar Kuantisasi (QAT) menjaga kecerdasan model tetap setara dengan versi tanpa kompresi.

  • Teknik D-Flash memungkinkan model memprediksi blok token secara paralel, melompati rata-rata 6,3 dari delapan token dalam satu langkah.

  • Mesin kernel persisten dengan spesialisasi warp pada GPU mencegah jeda mikrodetik dalam alur kerja pemrosesan instruksi.

  • Uji performa mencapai puncak kecepatan hingga 3451 token per detik pada tugas pengkodean LeetCode.

  • Prototipe kloning Subway Surfer yang berfungsi penuh berhasil dibangun dalam waktu 50 detik.

Timeline

Arsitektur dan Metode Optimasi

  • Model ini merupakan Mixture of Experts dengan 1 triliun parameter.
  • Kuantisasi MXFP4 dikombinasikan dengan QAT menjaga akurasi model tetap tinggi.
  • Teknik D-Flash melakukan lompatan prediksi delapan token secara paralel.
  • Mesin kernel persisten memastikan GPU terus memproses data tanpa jeda instruksi.

Model ini melampaui batasan sistem standar yang biasanya hanya mencapai 50 hingga 60 token per detik pada model seperti GPT 5.5. Pengoptimalan dilakukan pada bandwidth memori untuk menangani triliunan parameter tanpa kemacetan lalu lintas data. Penggunaan spesialisasi warp membagi peran perangkat keras secara permanen, sehingga perpindahan data dan perhitungan terjadi secara simultan dalam alur kerja yang tidak pernah berhenti.

Pengujian Performa Tugas Kompleks

  • Kecepatan puncak mencapai 3451 token per detik pada soal LeetCode.
  • Pembuatan dasbor keuangan dalam 65 detik menghasilkan UI dasar yang berfungsi.
  • Tugas pengembangan situs web matematika dengan konten lebih kompleks mengalami kegagalan pada percobaan pertama.
  • Kloning permainan Subway Surfer berhasil dibuat dan dimainkan dengan beberapa perintah tambahan.

Pengujian pada berbagai tugas pengkodean menunjukkan kecepatan rata-rata antara 500 hingga 1000 token per detik. Meskipun beberapa hasil awal memiliki bagian yang rusak atau tidak berfungsi, model mampu memberikan prototipe yang bisa dimainkan dalam waktu sangat singkat. Batasan konteks atau pembatas kecepatan terdeteksi ketika model mencoba menangani tugas yang lebih besar dari kapasitasnya.

Evaluasi Akhir Model

  • Model ini secara konsisten mencatat kecepatan di atas 3000 token per detik dalam pengujian tertentu.
  • Kualitas hasil output masih di bawah model Frontier seperti Claude Opus atau GPT 5.5.
  • Potensi pengembangan di masa depan tetap tinggi mengingat kecepatan yang dicapai saat ini.

Kecepatan tinggi menjadi keunggulan utama dibandingkan model AI lainnya, meskipun akurasi dan kompleksitas hasil masih memerlukan penyempurnaan. Model ini membuktikan bahwa efisiensi perangkat keras standar dapat dioptimalkan secara ekstrem untuk kebutuhan inferensi cepat.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video