GLM 5.2 adalah model favorit saya yang baru...
BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00model terbuka terbaik di dunia saat ini bukan berasal dari perusahaan bernama open ai melainkan tentu saja dari
00:00:04lab Tiongkok dan model ini adalah glm 5.2 dari zai, model ini sangat mengesankan, menyamai gpt 5.5 pada
00:00:10tolok ukur tertentu dan bahkan ada kategori di mana model ini tampaknya mengalahkan fable, sembari
00:00:15berlisensi mit terbuka, mari kita lihat. jadi glm 5.2 adalah model dengan total 744 miliar parameter
00:00:26dengan 40 miliar parameter aktif dan ukurannya sebenarnya sama dengan pendahulunya glm 5.1
00:00:31itulah mengapa sangat mengesankan mereka membuat lompatan besar pada indeks kecerdasan
00:00:35dari analisis buatan, ini adalah skor gabungan dari berbagai tolok ukur, jadi penalaran, pengodean
00:00:40sains, dan semuanya. glm 5.2 di sini mendapat skor 51 yang berarti 11 poin di atas iterasi sebelumnya
00:00:45dan menjadi model terbuka teratas dengan margin yang cukup sehat. anda bisa melihat quen 3.7 ada di berikutnya, lalu minimax m3
00:00:51diikuti oleh kimmy k 2.6. ini sebenarnya menempatkannya di ranah yang sama dengan gemini 3.5 flash dan gpt 5.4 pada
00:00:57upaya maksimal, yang cukup gila dan pada beberapa tolok ukur yang disertakan dalam indeks ini seperti gpt val
00:01:03sebenarnya mengungguli gpt 5.5. jika kita fokus pada pengodean secara khusus, model ini masih sangat hebat pada indeks pengodean
00:01:09ia mencetak skor yang sama dengan gemini 3.1 pro dan sebenarnya mengalahkan sonic 4.6 serta tidak terlalu jauh tertinggal dari
00:01:14model-model perbatasan teratas. model ini juga jauh lebih unggul dari kimmy k 2.7 code yang merupakan model terbaru kami yang saya tahu banyak
00:01:19orang termasuk saya sendiri adalah penggemar beratnya. saya selalu merasa model kimmy memiliki kesan yang
00:01:23sangat nyaman. di luar indeks pengodean, tolok ukur lain yang sepertinya disukai banyak orang akhir-akhir
00:01:27ini adalah deep swe, jadi jika kita lihat, model ini sebenarnya mengungguli opus 4.7 pada upaya menengah
00:01:33itu sungguh sangat mengesankan, namun perlu dicatat di sini bahwa tidak setiap model telah
00:01:38diuji pada tolok ukur ini dan pengait yang digunakan sebenarnya adalah clawed code, anda hanya perlu melakukan sedikit trik api
00:01:42untuk mengarah ke zai alih-alih anthropic. rangkaian tolok ukur terakhir yang saya suka adalah design arenas
00:01:47dan di sinilah segalanya menjadi menarik. glm 5.2 baru saja meraih tempat pertama secara keseluruhan di papan peringkat desain web html satu putaran
00:01:53design arena, menjadi model pertama yang pernah mengalahkan lini clawed
00:01:58termasuk fable 5. tampaknya ini mungkin menjadi area fokus dari model tersebut karena penyelidikan lebih lanjut
00:02:02oleh design arena tampaknya menunjukkan bahwa glm 5.2 memiliki seperangkat templat ahli yang menghindari anti-pola
00:02:08ai yang umum, jadi anda seharusnya mendapatkan lebih sedikit gradien ungu dan model ini juga tampaknya bekerja sangat baik
00:02:12dengan pustaka umum seperti chart.js 3.js dan tailwind. model ini memang memiliki sedikit kekurangan yaitu
00:02:18sedikit lebih lambat, tapi saya akan kembali ke sana nanti. model ini juga bukan nomor satu di mana-mana di design arena
00:02:22ia berada di posisi kedua pada pengembangan game, data viz, dan 3d, serta keempat untuk komponen ui, namun itu
00:02:28tetap sangat mengesankan. saya pikir saya akan mencobanya pada beberapa aplikasi demo, dan yang pertama sebenarnya adalah
00:02:32membuat ulang linear, tapi salah satu hal yang menjengkelkan tentang glm 5.2 yang merupakan sedikit kerugian
00:02:37adalah model ini hanya menerima modalitas teks, jadi anda tidak bisa mengunggah tangkapan layar dan mengatakan buat ulang ini
00:02:42jadi apa yang saya lakukan adalah mengirim tangkapan layar ke claude dan mengatakan beri saya perintah untuk membuat ulang ini
00:02:46dan itulah perintah yang akhirnya saya berikan kepada glm 5.2. terlepas dari itu, hasil yang saya dapatkan sangat
00:02:51mengesankan. di sebelah kiri di sini saya memiliki halaman web linear yang asli dan di sebelah kanan di sini kita memiliki hasil buatan glm
00:02:55reka ulang. anda bisa melihat model ini mendapatkan elemen keseluruhan dengan benar dan untuk tangkapan layar di sini sebenarnya hanya
00:02:59membuat ulang ui yang menurut saya sangat keren. saat kita gulir ke bawah anda bisa melihat bahwa model ini mendapatkan suasana
00:03:04keseluruhan dari situs web linear dan saya benar-benar berpikir ini terlihat sangat bagus, jadi model ini memang memiliki keterampilan desain ui
00:03:09yang kuat. jelas tidak sempurna karena tidak bisa mengambil tangkapan layar, jadi model ini semacam melakukan ini sebagai
00:03:14reka ulang dari perintah teks yang saya tunjukkan tadi, tapi halaman web ini terlihat sangat bagus sebagai perbandingan
00:03:19di sebelah kiri saya memiliki apa yang diberikan claude opus 4.8 kepada saya dengan perintah yang persis sama dan yang ini adalah
00:03:23kimmy k 2.7 code dan sekali lagi mereka semua melakukan pekerjaan yang cukup baik dalam membuat ulang situs web hanya dari perintah
00:03:29tersebut dan saya sebenarnya berpikir saya mungkin paling menyukai kimmy k 2.7. model ini hanya memiliki semacam suasana
00:03:34terbaik secara keseluruhan dan terlihat paling lengkap menurut pendapat saya. berikutnya saya pikir ada baiknya untuk
00:03:38memberikan situs web baru yang mungkin belum pernah dilihat oleh model-model ini sebelumnya karena linear mungkin ada dalam
00:03:42data pelatihan banyak dari model-model ini, jadi saya hanya mengatakan desain dan bangun situs web satu halaman yang indah
00:03:46untuk produk fiktif bernama north star, ini adalah aplikasi perencanaan pribadi bertenaga ai. anda bisa melihat
00:03:50ada juga beberapa arahan desain di bawah sini seperti kami menginginkan bagian hero, beberapa bukti sosial, bagian harga
00:03:56semua hal biasa dan di bawah sini arahan desainnya adalah estetika sas premium yang bersih, gradien lembut, tipografi kuat, kartu bulat, dan sebagainya.
00:04:00ini adalah hasil yang saya dapatkan dari dua model dan saya akan memberi tahu anda mana yang mana di akhir, tetapi anda bisa melihat saat kita
00:04:06gulir ke bawah, saya pikir ini terlihat sangat bagus dan menurut saya model ini telah melakukan pekerjaan yang cukup baik. ini adalah situs web startup yang cukup dasar dengan
00:04:10bagian harga normal anda dan seterusnya dan sama di sebelah kanan di sini. saya mungkin sedikit lebih menyukai gaya ini
00:04:15tetapi anda bisa melihat model ini telah memilih semacam tampilan ai gradien ungu itu, tapi saya pikir ada sesuatu
00:04:20tentang situs web ini yang terlihat sedikit lebih bersih dan lebih lengkap bagi saya, tetapi itu
00:04:25sepenuhnya subjektif. jika anda memiliki yang favorit, beri tahu saya di komentar di bawah dan juga berlangganan
00:04:29selagi anda di sana. yang di sebelah kiri di sini sebenarnya adalah glm 5.2 dan yang ini adalah clawed opus 4.8
00:04:33untuk kelengkapan, ini adalah apa yang diberikan kimmy k 2.7 code kepada saya dan saya benar-benar berpikir yang satu ini jatuh ke dalam semacam
00:04:39tampilan dan nuansa ai dengan gradien ungu ini, sedikit mirip dengan yang clawed hanya dengan lebih sedikit
00:04:43animasi dan lebih sedikit polesan. saya juga ingin melihat dengan cepat di sini apa yang akan dilakukan glm 5.2 jika saya tidak memberinya
00:04:48arahan desain, jadi saya hanya memberinya bagian awal dari perintah tersebut dan saya tidak berpikir
00:04:53hasilnya terlihat buruk, tetapi saya tidak yakin saya setuju dengan design arena bahwa ini tidak memiliki
00:04:56tampilan ai yang biasa. ini benar-benar menggunakan gradien ungu itu secara maksimal. untuk pengujian berikutnya saya kemudian
00:05:01berpikir untuk menguji mereka pada aplikasi 3gs satu kali jalan dan saya hanya mengatakan bangun game 3gs
00:05:05di mana saya bisa membalap mobil f1 di sekitar silverstone. anda bisa melihat yang satu ini mulai bekerja di sini dan ini memakan waktu
00:05:10total sekitar 10 menit. jika kita gulir sampai ke bawah, menggunakan 40.000 token dan menelan biaya 32
00:05:15sen. ini adalah output yang diberikan glm 5.2 kepada kita, anda bisa melihat tulisan silverstone f1 dan nyalakan
00:05:20mesin anda. ngomong-ngomong, lewis hamilton baru saja menang untuk ferrari, itu benar-benar mengagumkan. saya senang melihat kita punya
00:05:25mobil merah di sini sebagai ferrari juga meskipun kita pasti sedikit lebih lambat dari yang saya inginkan
00:05:30dan satu hal yang saya perhatikan di sini adalah jika saya menekan a, saya tampaknya pergi ke kanan dan d ke kiri, jadi kontrolnya
00:05:35terbalik, tapi tampaknya tidak pada tombol panah dan ini jelas bukan kecepatan yang saya inginkan
00:05:40untuk sebuah ferrari mengelilingi silverstone, tapi maksud saya ini tidak terlalu buruk untuk percobaan pertama. sebenarnya
00:05:45tampaknya saya melaju lebih cepat jika saya mundur, jadi mungkin jika saya hanya mundur di sekitar lintasan itu akan lebih baik. saya mencoba
00:05:51tes yang sama dengan kimmy k 2.7 code tapi saya sebenarnya tidak mendapatkan contoh yang berfungsi dalam satu
00:05:55perintah. di suatu tempat di bawah sini saya memiliki beberapa kesalahan konsol yang terus berulang, jadi saya harus
00:05:59memberitahunya bahwa saya memiliki beberapa kesalahan, tetapi kemudian model itu memperbaikinya pada perintah kedua dan anda bisa melihat
00:06:04yang satu ini sebenarnya menggunakan lebih banyak token yaitu 110.000 dan menelan biaya 81 sen. hasil yang saya dapatkan juga
00:06:08sedikit kurang bisa dimainkan. tampaknya kita memiliki kecepatan yang sedikit lebih tinggi tetapi lingkaran belok kita sangat buruk. saya
00:06:14tidak berpikir saya pernah melihat pembalap f1 berbelok seperti ini dan kita juga bisa menembus beberapa bangunan
00:06:19di sini. keren mereka mendapatkan nama tikungan di silverstone tapi tidak ada lintasan, hanya
00:06:23tampaknya hanya tonggak pembatas. yang terakhir adalah clawed opus 4.8 dan yang ini sedikit lebih bisa dimainkan
00:06:27di samping fakta bahwa saya tidak berpikir ada pohon di tengah lintasan silverstone. maksud saya
00:06:33terakhir kali saya periksa tidak ada. dan ya, secara keseluruhan ini adalah game yang cukup bagus, kita memiliki beberapa kontrol kamera
00:06:37di sini. roda saya mungkin tidak akan menyukainya jika saya seorang pembalap f1, tetapi tampaknya menangani
00:06:42semuanya dengan baik dan lintasannya sendiri sebenarnya juga salah satu lintasan paling membingungkan yang menurut saya pernah saya
00:06:47lihat orang berlomba di sana. ada banyak tumpang tindih di sini dan saya tidak benar-benar tahu harus ke mana
00:06:52tetapi saya akan mengatakan bahwa opus 4.8 memberi kita demo yang paling bisa dimainkan dalam satu perintah. pengujian terakhir yang saya lakukan
00:06:57sedikit lebih terlibat, yaitu front end dan back end dari awal dari manajemen keuangan pribadi
00:07:02dasbor dengan beberapa fitur yang bisa anda lihat terdaftar di sini dan ide umumnya di sini adalah
00:07:07melihat tumpukan apa yang dipilihnya ketika memulai dari baru dan juga apakah ia bisa menghubungkan front end dan back end
00:07:11semuanya dalam perintah tunggal itu tanpa kesalahan. ini upaya glm 5.2 dan saya harus mengatakan ya, ini
00:07:16dasbor yang terlihat cukup dasar. tidak ada yang mewah, tapi juga tidak banyak hal mewah yang bisa anda
00:07:22lakukan dengan perintah yang saya berikan. semuanya tampak berfungsi, saya telah menambahkan hal-hal ke basis data
00:07:26saya membayar langganan fable 5 saya di sini. semua halaman ini bisa diklik dan semuanya benar-benar mentransfer
00:07:32di antara mereka saat saya mengklik ini. saya telah mengujinya, jadi model ini tampaknya telah melakukan pekerjaan yang sangat baik dari
00:07:37perintah tunggal itu. saya selalu penasaran tumpukan apa yang dipilihnya juga dan yang satu ini menggunakan next js
00:07:41aplikasi dan menggunakan prisma untuk basis data dan kita bisa melihat itu di sini kita juga memiliki basis data
00:07:46pengembangan. saya mungkin lebih suka jika menggunakan drizzle dan mungkin tan stack tapi saya tidak bisa benar-benar
00:07:50mengeluh, saya tidak memberinya arahan. ini sebenarnya apa yang diberikan kimmy k 2.7 code kepada saya dan anda bisa melihat ini
00:07:55hampir persis aplikasi yang sama, hanya saja saya akan mengatakan tidak semewah itu. mereka jelas memiliki beberapa
00:07:59templat yang sama dalam pelatihan mereka di suatu tempat yang terlihat persis seperti ini dan lagi, ya saya tidak bisa
00:08:04mengeluh terlalu banyak tentang ini, tetapi ini kehilangan semua tambahan dengan tombol untuk bisa
00:08:09mentransfer. saya mendapatkan fitur tambah akun dan tambah transaksi, semuanya berfungsi, tetapi saya hanya mengatakan
00:08:13ui keseluruhan dari ini dan pengalaman penggunanya sedikit lebih buruk karena tidak memiliki informasi itu
00:08:18yang bisa diklik di atas sini. tumpukan default yang dipilihnya, saya juga akan berpendapat sedikit lebih buruk. model ini menggunakan react di sini dengan
00:08:23hanya pengaturan vt biasa dan react router yang tidak saya masalahkan, tetapi back end-nya memilih
00:08:28express dan jika kita melihat file basis data yang sebenarnya, itu hanya menggunakan node sqlite untuk menulis ke dalamnya dan
00:08:33menulis skema di teks di sini, yang menurut saya akan sedikit kurang bisa ditingkatkan. jika saya
00:08:39benar-benar melakukan vibe coding dan tidak tahu apa-apa tentang tumpukan itu, saya mungkin akan menginginkan glm 5.2, tapi jika saya
00:08:43menggunakan kimike 2.7 code saya mungkin akan memberinya arahan untuk menggunakan drizzle next yes dan
00:08:48berbagai hal lainnya juga, jadi itu hanya bervariasi berdasarkan apa yang anda sukai. berbicara tentang subjektif juga, ini
00:08:53sebenarnya apa yang diberikan claude opus 4.8 kepada saya. model ini jelas menggunakan gaya yang sama sekali berbeda
00:08:58dengan yang telah kita lihat sebelumnya, tetapi ini semacam gaya teks yang disukai claude pada
00:09:03saat ini. ini jelas apa yang mereka masukkan ke dalam data pelatihan atau sedang mendorongnya ke arah tersebut dan semua
00:09:07ini bekerja dengan sangat baik dan ya, saya pikir ini terlihat sangat bagus. saya mungkin akan meminta ini untuk mungkin menggunakan
00:09:11font yang berbeda dan skema warna yang berbeda, tetapi semacam dasar keseluruhannya sangat bagus. tidak
00:09:16benar-benar melakukan halaman terpisah untuk ini, itu hanya melakukan bagian terpisah, jadi mungkin itu lebih buruk, tapi sekali lagi
00:09:20itu tergantung pada perintahnya. semua fitur dan segala sesuatu seperti itu berfungsi. melihat
00:09:25pada kode sebenarnya yang diberikan opus kepada saya, saya sebenarnya berpikir glm 5.2 mungkin telah memenangkan yang satu ini. apa yang opus
00:09:29lakukan adalah hanya menggunakan aplikasi react biasa, itu bahkan tidak repot-repot dengan react router karena
00:09:34semuanya ada pada satu halaman itu dan itu juga menggunakan express untuk back end-nya tetapi kemudian tidak
00:09:38benar-benar melakukan koneksi apa pun ke basis data. semuanya sebenarnya hanya penyimpanan dalam memori yang bisa kita lihat
00:09:43di sini di mana model ini memasukkan data dan hanya menjalankan semuanya dari objek javascript yang lagi-lagi mungkin
00:09:48bukan yang saya inginkan jika saya akan meningkatkan ini di masa depan, tetapi kembali pada perintahnya. saya pikir
00:09:53itu semacam kunci yang saya ambil saat menguji model ini selama beberapa hari terakhir. saya pikir untuk banyak
00:09:58tugas anda bisa diam-diam menukar glm 5.2 di tempat sonnet atau bahkan opus untuk tugas yang lebih sederhana dan saya
00:10:02mungkin tidak akan menyadarinya. ini adalah model yang sangat mampu dan jika anda memberinya arahan yang tepat anda mendapatkan
00:10:07hasil yang sangat bagus. ini adalah salah satu model terbuka pertama yang tidak membuat saya merasa seperti saya harus berjuang
00:10:12untuk menggunakannya dan juga salah satu model terbuka pertama di mana menggunakannya saya tidak memiliki perasaan bahwa saya tahu claude
00:10:16bisa melakukan ini lebih baik atau lebih cepat. hal-hal terakhir untuk disebutkan untuk melengkapi ini adalah token, biaya, dan
00:10:21kecepatan. salah satu kelemahan glm 5.2 bisa jadi adalah sedikit lebih haus token jika dibandingkan dengan
00:10:25model lain di kelasnya. model ini menggunakan rata-rata 43.000 token per tugas yang lebih banyak daripada kimmy k 2.6
00:10:31minimax dan deep seek, tapi kabar baiknya adalah model ini tidak benar-benar memakan banyak biaya tergantung pada
00:10:37penyedianya. sekitar 1,40 dolar untuk satu juta token input dan 4,40 dolar untuk satu juta token output dan pada
00:10:41tolok ukur analisis buatan, model ini sebenarnya menelan biaya sekitar 50 sen per tugas dan anda bisa melihat ini adalah
00:10:47posisi yang cukup baik ketika kita melakukan perbandingan biaya versus kecerdasan. abaikan label gemini di sini, ini sebenarnya titik biru
00:10:52ini dan anda bisa melihat ini adalah grafik yang cukup ramai tetapi apa yang sebenarnya ditunjukkan ini adalah pada tingkat
00:10:57kecerdasannya, glm 5.2 adalah model termurah, meskipun saya akan mengatakan di sini jika anda bisa sedikit menurunkan kecerdasan
00:11:02saya pikir minimax dan terutama deep seek v4 sangat bagus untuk harga itu. ketika berbicara tentang kecepatan
00:11:07glm 5.2 sebenarnya tidak buruk sama sekali. model ini mengungguli sebagian besar model terbuka di tingkat kecerdasannya
00:11:12jadi deep seek v4 kimmy 2.7 code dan minimax dan sedikit di belakang model perbatasan seperti gemini 3.1 pro
00:11:17yang memiliki tingkat kecerdasan yang sama tetapi itu adalah model perbatasan dan saya juga ingin sekali melihat gemini
00:11:243.5 pro ditambahkan ke daftar ini. google tolong rilis itu. ketika berbicara tentang kecepatan juga, design arena
00:11:28tampaknya mendapatkan hasil yang sedikit berbeda di mana mereka mengatakan bahwa glm 5.2 mencetak skor tertinggi pada
00:11:33preferensi pengguna atas desain tersebut, tetapi itu juga yang paling lambat dari model-model teratas, meskipun juga
00:11:38perlu dicatat di sana bahwa semua model teratas itu adalah model perbatasan dan bukan model terbuka. secara keseluruhan, benar-benar
00:11:42terasa seperti kita berada di titik di mana model-model terbuka ini tertinggal empat hingga enam bulan. jadi
00:11:47mungkin terlalu optimis kita bisa melihat model fable pada tahun depan dan maksud saya mereka sendiri
00:11:51sebenarnya menjanjikan pada q1 dan saya benci setuju dengan orang berikutnya ini tentang apa pun, tetapi dia memang membuat
00:11:56poin yang bagus di sini bahwa mungkin pada tolok ukur mereka bisa mengejar fable, tetapi kegunaan yang sebenarnya terasa
00:12:01sedikit berbeda dan inilah yang sangat dikuasai anthropic. sangat jarang melihatnya benar-benar
00:12:06memberi mereka pujian di sana, tetapi saya harus setuju dengan sentimen di mana penggunaan sebenarnya
00:12:10dari model-model ini terasa sedikit berbeda, tapi saya pikir glm 5.2 adalah salah satu yang pertama yang telah memecahkan
00:12:14siklus itu bagi saya. saya pikir jika anda memberi tahu saya setahun yang lalu bahwa model-model terbuka ini akan berada di dekat
00:12:19sebagus ini, saya akan benar-benar terkejut dan mungkin tidak akan mempercayai anda dan saya sebenarnya tidak
00:12:23seorang prepper kiamat, tetapi saya merasa dengan larangan fable baru-baru ini saya hanya ingin mengunduh glm 5.2 dan menyimpannya
00:12:27di ssd untuk berjaga-jaga jika saya membutuhkannya nanti. beri tahu saya apa pendapat anda tentang model ini di komentar
00:12:31di bawah ini dan juga beri tahu saya apa model terbuka favorit anda untuk digunakan selagi anda di sana, berlangganan
00:12:36dan seperti biasa, sampai jumpa di video berikutnya.
00:12:40...