Apakah Ini Model AI TERCEPAT di Dunia?!! (Xiaomi MiMo V2.5 Pro UltraSpeed)

Bahasa Indonesiaالعربية Deutsch English Español Français हिन्दी 日本語 한국어 Português Русский 中文

Computing/SoftwareVideo & Computer GamesConsumer Electronics

Transcript

00:00:00Ya ampun, ShowMe, kalian tahu perusahaan ponsel asal Tiongkok itu, baru saja membuat model AI yang

00:00:05mungkin menjadi yang tercepat di dunia. Namanya ShowMe Mimo V2.5 Ultra Speed dan ini benar-benar

00:00:13mencengangkan. Di video hari ini kita akan melihat model ini, melihat bagaimana cara kerjanya dan saya sebenarnya

00:00:18berhasil mendapatkan akses awal ke model ini jadi kita juga akan mengujinya dengan beberapa contoh menarik

00:00:24untuk melihat seberapa cepat sebenarnya model ini. Pasti akan seru jadi mari kita bahas.

00:00:30Sebelum kita melihat apa yang ada di balik model ini, mari kita lihat perbedaan masif apa yang sebenarnya

00:00:39sedang kita hadapi di sini. Jadi pada model Frontier seperti GPT 5.5 atau Claude 4 Opus, Anda sering kali harus melalui

00:00:46penundaan penalaran yang masif, hanya mencapai sekitar 50 atau 60 token per detik. Itu tidak buruk tapi

00:00:54terasa agak lambat. Tapi model Mimo Ultra Speed baru dari ShowMe mencatatkan lebih dari 1000 token per detik

00:01:00dan yang lebih gila lagi adalah fakta bahwa model ini ukurannya juga sangat masif. Ini adalah model 1 triliun parameter

00:01:07mixture of experts. Jadi mungkin Anda berpikir, oke mereka mungkin menggunakan semacam super

00:01:13pengaturan perangkat keras khusus yang canggih untuk ini. Sebenarnya tidak juga. ShowMe bekerja sama dengan

00:01:19mitra sistem mereka Tile RT dan mereka mencapai ini dengan hanya menggunakan satu server standar dengan delapan

00:01:25GPU komoditas. Tapi jika bukan itu jawabannya, maka muncul pertanyaan, bagaimana cara memaksa model

00:01:31triliunan parameter untuk mengeluarkan teks dengan kecepatan mikrodetik pada perangkat keras standar? Nah, mereka menemukan

00:01:39sesuatu yang mereka sebut desain bersama sistem model ekstrem. Mereka menyerang hambatan latensi

00:01:44dari tiga sudut berbeda secara bersamaan. Pertama, mereka mengoptimalkan bandwidth memori. Memindahkan triliunan

00:01:50parameter melalui memori GPU selama fase pembuatan teks menciptakan kemacetan lalu lintas yang masif. Untuk memperbaiki ini,

00:01:57ShowMe menggunakan kuantisasi MXFP4. Namun karena kompresi 4-bit biasanya dapat membuat AI

00:02:04kurang akurat, mereka menggunakan pelatihan sadar kuantisasi atau QAT dan mereka menjaga lapisan perutean inti pada

00:02:12presisi yang lebih tinggi. Ini mengurangi tekanan memori sambil menjaga kecerdasan model hampir identik

00:02:18dengan versi yang tidak dikompresi. Kedua, mereka mengubah cara model memprediksi kata. Jadi standar

00:02:25penalaran spekulatif bekerja dengan cara memiliki model draf kecil untuk menebak beberapa kata ke depan dan kemudian model

00:02:32utama yang masif memeriksa perhitungannya. Tapi ShowMe melakukan sesuatu yang berbeda di sini dengan apa yang mereka sebut D-Flash. Alih-alih menebak satu

00:02:39token sekaligus, model ini memprediksi seluruh blok token tersembunyi sekaligus dalam satu kali penerusan paralel. Dan

00:02:46melalui pengujian, mereka menemukan bahwa ketika Anda menggunakannya untuk tugas pengkodean, model utama benar-benar menyimpan

00:02:52rata-rata 6,3 dari setiap delapan token yang ditebak oleh D-Flash. Jadi ini pada dasarnya memungkinkan model melakukan

00:02:58lompatan masif delapan token sekaligus, alih-alih mengambil langkah kecil. Dan ketiga, mereka menggunakan mesin khusus

00:03:04yang memecahkan hambatan perangkat keras yang sangat menyebalkan. Jadi ketika Anda mendorong seribu token per detik,

00:03:11GPU standar sebenarnya tidak bisa mengimbangi logika instruksi. Biasanya, sebuah GPU meluncurkan operasi

00:03:17matematika, menyelesaikannya, mengosongkan memori, lalu menunggu untuk meluncurkan yang berikutnya. Dan meskipun jeda

00:03:23ini hanya berlangsung mikrodetik, itu benar-benar membunuh momentum Anda. Untuk memperbaikinya, TileRT membangun mesin persisten

00:03:30kernel yang terus berada di dalam GPU dan tidak pernah keluar. Mereka menggunakan trik yang disebut spesialisasi warp

00:03:37untuk menetapkan peran permanen ke berbagai bagian perangkat keras. Sementara satu bagian memindahkan data,

00:03:42bagian lain menjalankan perhitungan, dan bagian ketiga menangani komunikasi semuanya pada waktu yang tepat. Jadi alur kerja

00:03:48pipelinenya benar-benar tidak pernah berhenti bergerak. Dan ini sangat menarik karena saya baru saja membuat video tentang diffusion

00:03:55gemma, yang juga sangat cepat, tetapi menangani masalah yang sama dengan cara yang sangat berbeda. Jadi periksa

00:04:00video itu jika Anda tertarik. Dan begitulah teman-teman bagaimana ShowMe mencapai kecepatan 1000 token per detik,

00:04:07konon begitu. Tapi sekarang mari kita uji dan lihat apakah janji ini terbukti. Jadi untuk tes pertama saya,

00:04:14saya memutuskan untuk mengambil salah satu pertanyaan sulit dari LeetCode dan menjalankannya pada model. Dan itu sangat cepat.

00:04:20Gila sekali bukan? Ditambah lagi, seperti yang bisa kita lihat di sini, itu memuncak pada 3451 token per detik, yang benar-benar gila.

00:04:29Nah, mungkin ada kemungkinan bahwa pertanyaan LeetCode ini adalah bagian dari data pelatihan model.

00:04:34Jadi betapapun mengesankannya ini, mungkin ini bukan perbandingan yang adil. Jadi mari kita beralih ke sesuatu yang lebih canggih.

00:04:41Selanjutnya, saya memintanya untuk membangun dasbor keuangan pribadi UI sederhana dalam satu file HTML tunggal tanpa

00:04:48perpustakaan eksternal dan tidak ada yang terlalu mewah. Dan dalam tes ini, kita sekarang benar-benar bisa melihat betapa gila

00:04:54performanya. Rata-ratanya sekitar 700 token per detik untuk bagian penalaran dan sekitar 1000 token

00:05:02per detik untuk operasi output. Dan butuh waktu 65 detik bagi model untuk menyelesaikan tugas tersebut.

00:05:09Dan saya rasa hasilnya cukup bagus. Meskipun beberapa tombol tidak berfungsi dan beberapa

00:05:14tindakan rusak, namun desain keseluruhannya cukup bagus. Maksud saya, tidak buruk untuk tugas satu menit.

00:05:21Jadi kemudian saya memutuskan untuk menantang model untuk membangun sesuatu yang lebih canggih. Saya memintanya untuk

00:05:26membangun halaman web penjelas matematika gaya Khan Academy yang menampilkan 10 konsep matematika populer untuk melihat seberapa

00:05:34kompleks sebuah situs web yang bisa kita hasilkan di sini. Dan di sinilah segalanya mulai terasa agak sulit.

00:05:40Saya mencoba tes ini dua kali dan kedua kalinya setelah sekitar dua atau tiga menit, model hanya berhenti

00:05:45menghasilkan dan benar-benar membeku. Jadi saya berasumsi bahwa dengan tugas ini, saya mencapai batas konteks model atau

00:05:51mungkin ShowMe telah menempatkan pembatas kecepatan semacam itu. Jadi kemudian saya memutuskan untuk menyederhanakan tugasnya sedikit dengan memintanya

00:05:58untuk merancang halaman web dengan hanya lima konsep matematika. Dan kali ini akhirnya berhasil. Itu berhasil

00:06:04menyelesaikan tugas dalam 75 detik. Dan hasilnya sebenarnya cukup bagus. Dan tiga widget konsep

00:06:10matematika pertama sebenarnya berfungsi, tetapi segalanya setelah titik itu rusak, tidak berfungsi atau kosong.

00:06:17Jadi saya tidak tahu apa yang sebenarnya terjadi di sini. Mungkin model menjatuhkan beberapa konteksnya selama fase penalaran

00:06:23tetapi tetap saja, saya pikir ini adalah hasil yang cukup bagus, terutama dengan mempertimbangkan bahwa

00:06:29kami rata-rata mencapai 500 token per detik selama fase penalaran. Dan untuk tes terakhir saya, saya memutuskan untuk

00:06:34melakukan sesuatu yang sedikit lebih menyenangkan. Saya hanya meminta kalimat yang sangat singkat ini untuk membangun kloning subway surfer

00:06:41menggunakan tiga JS, dan itu benar-benar berhasil membangun kloning subway surfer yang berfungsi penuh hanya dalam 50

00:06:49detik. Sekarang itu gila. Saya harus mengatakan bahwa meskipun berfungsi, seperti yang Anda lihat di sini, itu

00:06:55tidak menyertakan rintangan atau koin atau semacamnya. Jadi agak membosankan. Jadi saya kemudian memutuskan untuk

00:07:01memberikan perintah tindak lanjut untuk memperbaiki masalah kecil ini. Dan setelah dua kali percobaan, itu berhasil

00:07:07menambahkan beberapa koin dan beberapa rintangan. Dan sejujurnya, ketika saya mengujinya, ini adalah demo yang sempurna.

00:07:14Fungsionalitasnya ada di sana. Semuanya berfungsi. Bahkan menyimpan skor tinggi saya setelah setiap putaran.

00:07:20Jadi demo khusus ini benar-benar mengejutkan saya dengan cara yang sangat positif. Saya yakin saat ini kita semua

00:07:26bisa membangun kloning subway surfer dengan model lain juga. Tapi fakta bahwa saya bisa mendapatkan prototipe yang berfungsi,

00:07:32yang tidak sepenuhnya buruk dan yang sebenarnya menyenangkan untuk dimainkan dan semua itu hanya dalam 50 detik dengan

00:07:39beberapa perintah tindak lanjut, itu cukup mengesankan. Jadi seperti yang kita semua lihat dalam tes, model berhasil

00:07:45mencapai rekor kecepatan lebih dari 3000 token per detik. Jadi ini memang model tercepat yang

00:07:52pernah saya lihat. Dan sejauh hasil yang keluar, maksud saya, ya tentu saja. Beberapa dari mereka rusak. Beberapa dari mereka

00:07:58setengah matang. Pastinya ini bukan Claude Opus atau GPT 5.5. Tapi saya yakin model Xiaomi pasti akan terus

00:08:06meningkat dari waktu ke waktu. Jadi akan sangat menarik untuk melihat apa yang akan mereka hasilkan di masa depan.

00:08:12Jadi begitulah, teman-teman. Itu adalah Xiaomi Mimo V2.5 Ultra Speed secara singkat. Jadi bagaimana menurut Anda

00:08:18tentang model ini? Apakah Anda terkesan? Kecewa? Tidak peduli? Beri tahu kami di bagian komentar di bawah.

00:08:24Dan teman-teman, jika Anda menyukai jenis perincian teknis ini, harap beri tahu saya dengan menekan

00:08:29tombol suka di bawah video. Dan juga jangan lupa untuk berlangganan saluran kami.

00:08:33Ini adalah Andrus dari BetterStack, dan saya akan melihat Anda di video berikutnya.

Key Takeaway

Model ShowMe Mimo V2.5 Ultra Speed mencapai kecepatan inferensi melampaui 1000 token per detik melalui kombinasi kuantisasi MXFP4, teknik prediksi blok D-Flash, dan mesin kernel GPU persisten.

Highlights

Model Mimo V2.5 Ultra Speed mencatatkan kecepatan lebih dari 1000 token per detik.
Optimasi memori menggunakan kuantisasi MXFP4 dengan Pelatihan Sadar Kuantisasi (QAT) menjaga kecerdasan model tetap setara dengan versi tanpa kompresi.
Teknik D-Flash memungkinkan model memprediksi blok token secara paralel, melompati rata-rata 6,3 dari delapan token dalam satu langkah.
Mesin kernel persisten dengan spesialisasi warp pada GPU mencegah jeda mikrodetik dalam alur kerja pemrosesan instruksi.
Uji performa mencapai puncak kecepatan hingga 3451 token per detik pada tugas pengkodean LeetCode.
Prototipe kloning Subway Surfer yang berfungsi penuh berhasil dibangun dalam waktu 50 detik.

Timeline

Arsitektur dan Metode Optimasi

Model ini merupakan Mixture of Experts dengan 1 triliun parameter.
Kuantisasi MXFP4 dikombinasikan dengan QAT menjaga akurasi model tetap tinggi.
Teknik D-Flash melakukan lompatan prediksi delapan token secara paralel.
Mesin kernel persisten memastikan GPU terus memproses data tanpa jeda instruksi.

Model ini melampaui batasan sistem standar yang biasanya hanya mencapai 50 hingga 60 token per detik pada model seperti GPT 5.5. Pengoptimalan dilakukan pada bandwidth memori untuk menangani triliunan parameter tanpa kemacetan lalu lintas data. Penggunaan spesialisasi warp membagi peran perangkat keras secara permanen, sehingga perpindahan data dan perhitungan terjadi secara simultan dalam alur kerja yang tidak pernah berhenti.

Pengujian Performa Tugas Kompleks

Kecepatan puncak mencapai 3451 token per detik pada soal LeetCode.
Pembuatan dasbor keuangan dalam 65 detik menghasilkan UI dasar yang berfungsi.
Tugas pengembangan situs web matematika dengan konten lebih kompleks mengalami kegagalan pada percobaan pertama.
Kloning permainan Subway Surfer berhasil dibuat dan dimainkan dengan beberapa perintah tambahan.

Pengujian pada berbagai tugas pengkodean menunjukkan kecepatan rata-rata antara 500 hingga 1000 token per detik. Meskipun beberapa hasil awal memiliki bagian yang rusak atau tidak berfungsi, model mampu memberikan prototipe yang bisa dimainkan dalam waktu sangat singkat. Batasan konteks atau pembatas kecepatan terdeteksi ketika model mencoba menangani tugas yang lebih besar dari kapasitasnya.

Evaluasi Akhir Model

Model ini secara konsisten mencatat kecepatan di atas 3000 token per detik dalam pengujian tertentu.
Kualitas hasil output masih di bawah model Frontier seperti Claude Opus atau GPT 5.5.
Potensi pengembangan di masa depan tetap tinggi mengingat kecepatan yang dicapai saat ini.

Kecepatan tinggi menjadi keunggulan utama dibandingkan model AI lainnya, meskipun akurasi dan kompleksitas hasil masih memerlukan penyempurnaan. Model ini membuktikan bahwa efisiensi perangkat keras standar dapat dioptimalkan secara ekstrem untuk kebutuhan inferensi cepat.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video