Saya Menguji GLM 5.2 vs Opus 4.8 vs GPT 5.5

CChase AI
Computing/SoftwareVideo & Computer GamesInternet Technology

Transcript

00:00:00GLM 5.2 baru saja dirilis minggu ini, dan ini adalah model sumber terbuka terkuat yang pernah kita
00:00:04lihat. Dan dalam beberapa tolok ukur, seperti yang Anda lihat di sini, model ini bahkan menunjukkan performa yang mengungguli raksasa
00:00:10seperti Opus 4.8 milik Anthropic dan 5.5 milik OpenAI. Tapi apakah tolok ukur ini sah? Bagaimana model ini
00:00:18dibandingkan secara langsung dengan Opus 4.8 dan GPT 5.5? Nah, itulah yang akan kita jawab
00:00:25di video hari ini, saat saya melakukan berbagai tes dengan ketiga model besar ini dan melihat
00:00:31bagaimana performanya di dunia nyata. Selain itu, kita akan mendalami
00:00:35satu tolok ukur tertentu yang menurut saya cukup penting, serta membedah apa yang sebenarnya
00:00:40kami maksud dengan GLM 5.2 yang lebih baik dalam beberapa hal daripada Opus dan GPT 5.5. Apakah kita berbicara tentang
00:00:47efisiensinya yang lebih tinggi, biaya yang lebih murah, atau apakah model ini benar-benar melakukan semuanya dengan lebih baik pada saat yang
00:00:51bersamaan? Jadi tanpa basa-basi lagi, mari langsung kita mulai. Nah, sebelum kita masuk ke tes
00:00:56perbandingan, mari kita lihat dulu beberapa tolok ukur yang sudah ada yang membandingkan ketiga
00:00:59model ini. Yang benar-benar ingin saya perhatikan adalah DeepSuite. Nah, DeepSuite adalah
00:01:04tolok ukur yang relatif baru, dan dimaksudkan untuk menjadi peningkatan dari hal-hal seperti Terminal
00:01:08Bench dan Terminal Bench Pro. Sekarang, saya tidak akan membahas terlalu dalam mengenai tolok ukur ini, Anda
00:01:12bisa melihat situs web atau repositori GitHub mereka, yang menjelaskannya secara lebih rinci. Namun, ini berfokus
00:01:17pada tugas-tugas agenik yang berjalan lama, khususnya 113 tugas di TypeScript, Go, Python, JavaScript,
00:01:23dan Rust dengan lingkungan terisolasi dan pemverifikasi berbasis program. Dan di sini pada grafik ini, kita bisa melihat
00:01:29skor, persentase yang benar di sisi kiri, serta biaya rata-rata
00:01:34per tugas. Sekarang, kita ingin berada di posisi atas ke kanan. Area yang paling efisien ada di sini di kanan
00:01:39atas. Di situlah kita mendapatkan skor tertinggi dengan biaya terendah. Dan kita bisa melihat di sini, GLM 5.2
00:01:44max memberikan skor 44% dengan biaya $3,92 per tugas. Jika kita membandingkannya dengan Opus 4.8 dan GPT 5.5, kita bisa melihat
00:01:55performa mereka jauh lebih baik. Pada pengaturan max, Opus 4.8 mencapai 59%, dan 5.5 mencapai 67% pada pengaturan extra high. Jelas,
00:02:04pada pengaturan extra high dan max, kita memiliki biaya yang cukup tinggi. Untuk GPT 5.5, biayanya $7,23. $13 untuk Opus,
00:02:12dan untuk GLM, biayanya $3,92. Jadi jauh lebih murah. Namun, ketika kita melihat tingkat upaya yang berbeda
00:02:19pada 5.5 dan Opus, jika kita berada pada tingkat medium, misalnya, dengan Opus 4.8, kita akan mendapatkan skor
00:02:25yang lebih tinggi daripada GLM 5.2, dan biayanya lebih murah. Jadi 49% dengan biaya $3,44 dibandingkan 44% dengan biaya $3,92. Dan itu
00:02:36signifikan pada 5.5 dengan 54% pada biaya $2,75 dibandingkan 44% pada biaya $3,92. Jadi langsung saja, pada tolok ukur ini,
00:02:47jika kita mengambilnya dengan nilai nominal, 4.8 dan 5.5 berada satu tingkat di atas GLM 5.2. Dan itu tidak mengherankan. Ini
00:02:55adalah model-model perbatasan terbaik dari yang terbaik. Mereka bukan sumber terbuka. Dan jika kita benar-benar tancap gas,
00:03:01mereka akan mengalahkan GLM 5.2 dalam tugas-tugas berjangka panjang seperti ini, sesuatu yang sudah diduga.
00:03:07Yang mungkin tidak Anda duga adalah fakta bahwa model ini bisa bekerja lebih baik dengan harga lebih murah,
00:03:11yang merupakan sebuah masalah. Dan saya hanya ingin menyampaikan hal itu karena saya tahu ada banyak
00:03:16pembicaraan dan banyak sekali hype saat ini tentang GLM 5.2 dan fakta bahwa model ini sumber terbuka. Dan, Anda
00:03:21tahu, itu secara langsung menyiratkan, oh, ini sangat, sangat murah. Dan kita bisa melakukan hal-hal hebat.
00:03:25Nah, menurut angka, ini bagus, tapi bukan 4.8 atau 5.5 berdasarkan tolok ukur ini. Dan ingat,
00:03:33angka 4.8 dan 5.5 ini didasarkan pada biaya API. Jika saya menggunakan paket max, biayanya sekitar 10x lebih murah dari
00:03:40ini. Sama halnya jika saya hanya menggunakan paket $100 sebulan atau $200 sebulan dari OpenAI. Jadi
00:03:46itu hal lain yang harus diperhitungkan. Jadi saya hanya ingin sedikit mengerem pembicaraan seperti
00:03:50GLM jauh lebih murah karena sebenarnya tidak. Dan meskipun ini sumber terbuka,
00:03:56GLM 5.2, model sumber terbuka yang mendapatkan angka-angka ini, ini tidak sepenuhnya sumber terbuka. Maksudnya
00:04:01Anda tidak bisa begitu saja mengunduhnya di komputer Anda. Ini sumber terbuka dalam arti, Anda bisa melihat kodenya,
00:04:05Anda bisa melihat bobotnya. Ini bukan sumber terbuka dalam arti, oh, saya bisa begitu saja mendapatkannya
00:04:09di OLLAMA. Saya bisa menjalankannya di PC pribadi saya. Tidak, Anda tidak bisa. Tidak, Anda tidak bisa. Ini hampir
00:04:14satu triliun parameter. Ini membutuhkan banyak sekali perangkat keras untuk menjalankannya. Jadi jangan bingung karena saya tahu
00:04:20ada sebagian populasi yang bingung, tetapi ini hanya untuk menyiapkan panggung. Dan sekali lagi,
00:04:24ini ada pada hal-hal deep sweet. Ini adalah tugas-tugas yang sangat intens yang diberikan. Dan
00:04:30hari ini kita akan melakukan beberapa tes berbeda yang sedikit lebih rendah levelnya dan yang
00:04:35mungkin lebih mencerminkan apa yang Anda, rata-rata pengguna, jalankan. Jadi sesuatu yang perlu diingat.
00:04:39Dan supaya kita semua memiliki pemahaman yang sama, inilah yang kita lihat dalam hal biaya
00:04:44per token. Ingat, alasan biaya lebih murah untuk Opus 4.8 dan 5.5 adalah karena model tersebut menggunakan lebih sedikit
00:04:50token untuk melakukan apa yang perlu dilakukan. Model tersebut pada akhirnya lebih efisien, namun berdasarkan per token.
00:04:55Dan ingat untuk input dan output, ini per juta token, GLM 5.2, $1,40 untuk input,
00:05:01$4,40 untuk output. Dan Opus 4.8 adalah 5,7 kali lebih mahal. Dan 5.5 dari GPT adalah 6,8 kali lebih
00:05:10mahal. Jadi berdasarkan per token, jauh lebih murah. Tapi ingat, kita peduli dengan hasil untuk sebuah tugas,
00:05:16bukan sekadar perbandingan token satu lawan satu. Dan sekarang sebelum kita masuk ke tes yang sebenarnya,
00:05:21pesan singkat dari sponsor hari ini, yaitu saya sendiri. Jadi saya baru saja merilis Masterclass Cloud Code saya di dalam
00:05:26Chase AI Plus dan itu adalah cara nomor satu untuk beralih dari nol menjadi pengembang AI, terutama jika Anda tidak berasal
00:05:30dari latar belakang teknis. Saya memperbarui ini setiap minggu dan ini juga mencakup masterclass untuk codec
00:05:35dan untuk membuat OS agenik Anda sendiri. Jadi jika ini adalah sesuatu yang ingin Anda pelajari lebih lanjut dan Anda
00:05:40tidak yakin harus mulai dari mana, Chase AI Plus adalah tempat untuk Anda. Ada tautan ke sana di komentar yang disematkan.
00:05:46Jadi inilah cara kita menjalankan tes ini. Kita akan memberikan perintah yang sama kepada setiap model
00:05:49dan mode rencana. Model akan memberi kita rencana. Kita mungkin akan melakukan beberapa komunikasi bolak-balik,
00:05:53tergantung pada pendapat kita tentang rencana yang dibuatnya. Dan setelah itu, kita akan membiarkannya mengeksekusi.
00:05:58Setelah mengeksekusi, saya akan menerapkan kriteria penilaian saya yang sangat subjektif terhadap hasil akhir dan memberi tahu Anda
00:06:03mana yang paling saya sukai. Jika Anda tidak menyukai kriteria penilaian saya atau apa yang saya putuskan sebagai yang terbaik, pastikan untuk
00:06:08meninggalkan komentar. Saya juga akan memastikan untuk menghapus komentar Anda. Nah, di sini di sebelah kiri, kita memiliki
00:06:14GPT 5.5 di dalam Codex pada pengaturan extra high. Kita memiliki OpenCode di tengah menjalankan GLM 5.2 pada extra high
00:06:21yang dirutekan melalui OpenRouter. Dan di sini di sebelah kanan, kita memiliki Cloud Code yang menjalankan Opus 4.8
00:06:26pada pengaturan high. Nah, mengapa saya memilih pengaturan upaya ini? Karena begitulah kebanyakan orang
00:06:32menggunakan model-model ini dalam kehidupan nyata. Dan kemungkinan besar Anda berada di paket max atau Anda berada di
00:06:37beberapa jenis paket AI terbuka dan Anda mungkin tidak menjalankannya pada pengaturan Medium. Mari kita jujur. Jadi menurut saya ini
00:06:42adalah cerminan yang lebih baik tentang bagaimana rata-rata pengguna Anda benar-benar menggunakan model-model ini dari hari ke hari.
00:06:47Jadi untuk perintah pertama kita, kita akan memintanya membangun game balap 3D yang dapat dimainkan yang berjalan di
00:06:51peramban. Dan yang penting, kita menjaga perintah ini tetap samar. Saya mengatakan Anda memiliki kebebasan penuh untuk
00:06:56mencari di web dan memilih tumpukan teknologi dan pustaka apa pun yang menurut Anda terbaik untuk mengeksekusi ini. Dan jadi
00:07:02mari kita jalankan dan lihat apa yang terjadi. Jadi kita memiliki ketiga model yang berjalan dalam mode rencana.
00:07:08Dan sekali lagi, pemikiran di balik membuat perintah yang agak samar adalah agar kita melihat sebanyak mungkin
00:07:12divergensi dari model-model ini. Jika saya memberikan peta jalan yang tepat, cara melakukan setiap hal,
00:07:18yah, maka kita benar-benar tidak bisa melihat bagaimana model-model ini berpikir dan bagaimana mereka mendekati masalah yang lebih
00:07:23berantakan. Jadi setelah 13 menit, Opus 4.8 adalah yang pertama selesai membuat game balap.
00:07:29Jadi mari kita lihat apa yang dibuatnya. Jadi di sini kita agak low poly. Ini memang memiliki
00:07:37beberapa suara. Bergerak cukup lancar. Sepertinya kita memiliki kemampuan untuk melakukan drift di sini juga.
00:07:44Oke, rumputnya sebenarnya agak mengganggu cara kerja fisika. Secara keseluruhan, cukup lancar, tapi Anda
00:07:54tahu, agak relatif membosankan, bukan? Seperti ini adalah lintasan balap yang cukup dasar. Tidak ada yang gila, tidak menambahkan
00:07:59semacam AI atau apa pun seperti itu. Jadi saya tertarik melihat bagaimana model lain melakukannya dalam hal
00:08:04kompleksitas dan apa yang mungkin akan saya lakukan setelah tes pertama ini jika semuanya agak seperti
00:08:09visi yang hambar. Kita mungkin akan memberikan perintah lain yang meningkatkan taruhan. Selanjutnya
00:08:13adalah GLM 5.2. Jadi butuh waktu sekitar lima menit lebih lama dari Claude Code. Sebagai referensi, GPT 5.5 masih
00:08:20bekerja, yang tidak terlalu mengejutkan saya. Model ini cenderung sedikit lebih lambat. Dalam hal perbandingan token,
00:08:26Claude Code menggunakan sekitar 100.000 token untuk membuat itu. Dan GLM 5.2 memakan lebih dari satu juta. Dan kita bisa melihat
00:08:33ke dalam Open Router untuk hasil ini, di mana total pengeluaran adalah $1,21. Dan total volume token adalah 1,35
00:08:41juta untuk membuat game ini. Jadi langsung saja, trek yang menarik yang kita miliki.
00:08:48Sangat kontrolnya cukup melompat-lompat, dibandingkan dengan apa yang kita miliki dengan Claude Code. Seperti saya bergerak
00:08:53sangat cepat relatif terhadap trek itu sendiri. Sangat cepat. Seperti saya berteriak melewati ini. Dan kita juga seperti
00:09:00semacam hanya ada tidak ada diferensiasi yang nyata antara trek dan ladang itu sendiri. Dan dalam
00:09:09instansi tertentu, saya bisa hampir seperti yang Anda lihat di sana, seperti melewati trek, tapi tidak benar-benar.
00:09:15Jadi juga mobil itu sendiri sedikit kurang detail daripada apa yang kita lihat di dalam Claude Code. Maksud saya,
00:09:23jadi ada trek, itu memiliki pengatur waktu. Dalam hal gameplay yang sebenarnya, sedikit janky untuk apa itu
00:09:30adanya, tidak hampir semulus itu. Dan juga sekali lagi, seperti dengan situasi low poly seperti yang kita lihat dengan
00:09:36Opus. Dan jadi saya ingin melihat apa yang dilakukannya jika kita memberi tahu untuk benar-benar menciptakan sesuatu yang terlihat
00:09:40lebih baik. Dan juga trek ini sendiri sebenarnya tidak masuk akal. Jadi sekarang kita melihat
00:09:44apa yang dibuat GPT 5.5. Ini menyebutnya sirkuit pengecoran, uji waktu shift malam tiga putaran
00:09:50melalui pekerjaan baja. Jadi sesuatu yang berbeda, kurasa, daripada trek generik yang telah kita lihat di
00:09:54dua terakhir. Jadi mari kita mulai ini. Dan mari kita pergi. Yah, saya sebenarnya tidak tahu ke mana saya
00:10:04seharusnya pergi. Oh, kurasa ini treknya. Roda terlihat agak menarik. Mereka agak
00:10:10berputar ke arah yang salah. Jadi itu sesuatu. Oke, itu memiliki suara-suara yang sangat menjengkelkan, sebenarnya.
00:10:21Dan saya agak tidak bisa melupakan roda yang berputar horizontal, atau bagaimana pun Anda menggambarkan ini.
00:10:28Trek itu sendiri baik-baik saja bisa agak bergerak. Ya, Anda bisa melewati trek dan itu memperlambat Anda. Tapi itu tidak
00:10:35seperti jelas bahwa ini adalah trek beraspal, seperti yang kita lihat dengan apa yang Opus bangun. Dan seperti sisanya adalah,
00:10:41Anda tahu, katakanlah, Anda tahu, ladang. Jadi grafis yang agak aneh, jujur. Juga, ketika Anda mempertimbangkan
00:10:48fakta bahwa dua kali lebih lama dari Opus agak aneh. Ya, jujur, agak aneh. Sekali lagi,
00:10:55seperti mengapa, mengapa ia melakukan ini dengan rodanya? Saya tidak tahu. Sekali lagi, memilih hal low poly.
00:11:00Dan itu hanya seperti sangat gelap, untuk alasan yang tampaknya tidak ada. Jadi maksud saya, seperti, saya hampir, saya merasa seperti
00:11:06ini lebih fungsional daripada apa yang kita dapatkan dengan GLM 5.2, tapi seperti, tidak jauh lebih baik. Dan Anda juga
00:11:12mempertimbangkan fakta bahwa ini ada pada extra high pada 5.5. Nah, dalam hal penggunaan token untuk 5.5,
00:11:17hasilnya kira-kira seperti yang kita lihat dengan Claude Code. Itu menggunakan 7% dari jendela lima jamnya. Jadi hampir
00:11:22tidak ada apa-apa. Nah, peringkat keseluruhan, saya akan menempatkan Opus 4.8 dengan jelas di depan GLM 5.2 dan 5.5. Saya pikir
00:11:28dua yang terakhir agak janky, tapi kita sebenarnya akan memberi mereka kesempatan lagi karena
00:11:32kita akan memberi tahu mereka untuk melihat lagi kodenya, melakukan lintasan lain. Dan kita juga ingin mereka
00:11:36untuk melakukan jauh lebih baik dalam hal grafis. Saya tidak ingin hal low poly. Saya ingin ini terlihat
00:11:40seperti game triple A atau sedekat mungkin dengannya. Jadi mari kita lihat apa yang terjadi ketika kita memberi mereka
00:11:46percobaan nomor dua. Jadi Opus dan GLM menyelesaikan lintasan kedua mereka dan 5.5 sedang menyelesaikannya di sana. Jadi
00:11:50mari kita lihat Opus 4.8 dulu. Jadi langsung saja, kita melihat mobil yang jauh lebih baik. Seperti ini adalah peningkatan besar
00:11:58terkait mobil daripada apa yang kita lihat sebelumnya. Kita juga melihat pencahayaan yang jauh berbeda.
00:12:04Seperti Anda bisa melihat matahari terpantul di tanah itu sendiri dan semuanya terlihat jauh lebih mulus. Maksud saya,
00:12:10pohon-pohon itu sendiri adalah jenis low polygon, tapi pencahayaan dan terutama mobil
00:12:15adalah langkah maju yang besar. Dan itu masih menjaga semacam gameplay yang mulus yang sama. Maksud saya, di samping
00:12:20fakta kita memiliki pohon di jalan, tapi pohon-pohon itu sendiri juga diberi bayangan. Dan untuk satu tambahan
00:12:26lintasan yang memakan waktu 10 menit dan sekitar 50.000 token, tidak buruk. Sekarang kita akan melihat GLM. Dan pada titik ini,
00:12:32itu memakan waktu sekitar 1,2 juta token lagi untuk membuat pembaruan ini, menempatkan total pengeluaran kita pada $1,83.
00:12:38Jadi mari kita mulai. Dan sepertinya mencoba menambahkan semacam pencahayaan berbeda. Mobil terlihat
00:12:46sedikit lebih baik, tapi pencahayaan itu sendiri agak aneh. Seperti itu hanya sangat menyilaukan. Trek
00:12:52itu sendiri belum berubah banyak. Anda tahu, itu masih hanya seperti rumput di mana-mana. Dan
00:12:57kontrolnya masih sangat melompat, benar? Seperti saya pergi sangat cepat relatif terhadap trek. Masalah yang sama
00:13:04yang saya miliki sebelumnya di mana seperti beberapa trek saya bisa melewati beberapa, saya tidak bisa. Jadi maksud saya,
00:13:10grafis untuk mobil terlihat lebih baik, tapi saya akan berargumen pencahayaan dan silau sangat mengganggu.
00:13:15Itu mungkin agak penurunan dari apa yang kita miliki sebelumnya. Dan di sini adalah lintasan kedua dengan 5.5. Sekarang
00:13:21mobil terlihat sedikit lebih baik, tapi melihat hal lain, ini agak sama. Yah,
00:13:29rodanya lebih baik. Kami memperbaiki masalah roda. Mereka benar-benar berputar seperti seharusnya roda,
00:13:34tapi masih memiliki suara-suara yang mengganggu. Dan tidak ada diferensiasi nyata lagi, antara seperti jalur
00:13:42dan seperti rumput. Jadi rasanya seperti semacam hal yang persis sama yang dilakukan pertama kali dengan
00:13:49mobil yang sedikit lebih baik. Tapi Anda tahu, ketika kita memberi tahu untuk pergi untuk estetika triple A, saya tidak akan mengatakan
00:13:55itu mencapai sasaran. Dan sekali lagi, saya merasa seperti gambaran besar. Kita melihat ketiga GM dan 5.5, jelas satu langkah
00:14:02di bawah Opus. Sekarang untuk tes kita berikutnya, kita akan memintanya membangunkan kita sebuah situs web. Dan perintah yang akan kita
00:14:07gunakan adalah ini. Kita ingin membangun halaman landas palsu untuk produk, yaitu kacamata pintar bertenaga AI
00:14:12berpikir seperti Meta Ray-Bans. Sekali lagi, kita memberi model-model ini kebebasan penuh dalam
00:14:16hal tumpukan dan desain. Kita memberi tahu untuk memilih apa pun yang menurut kita terbaik, instal apa yang
00:14:20kita butuhkan dan cari praktik terbaik untuk membuat halaman landas. Kita memberi tahu, Hei, silakan dan temukan
00:14:25gambar dan jepretan produk. Dan jangan hanya mengandalkan membuat barang HTML Anda sendiri. Dan yang penting,
00:14:31kita mengatakan, buat terlihat seperti situs penghargaan. Kita tidak ingin itu terlihat seperti slop AI. Kita ingin visual hierarki nyata,
00:14:35tipografi yang disengaja, dan gerakan di mana itu masuk akal. Jadi halaman landas untuk kacamata pintar
00:14:42pintar, kita ingin itu menjadi jenis penghargaan. Jadi mari kita lihat apa yang mereka hasilkan. Jadi ketiga
00:14:46dari mereka selesai untuk referensi, GLM menggunakan sekitar satu juta token untuk mengeksekusi ini sementara Opus dan 5.5
00:14:53menggunakan sekitar seratus ribu, kurang lebih. Jadi pertama kita memiliki apa yang Opus bangunkan untuk kita latar belakang yang sangat gelap.
00:14:58Itu memiliki semacam kacamata ini yang dibuatnya, dan teksnya semacam terpotong tepat di sini, yang
00:15:04disayangkan. Saat kita menggulir ke bawah, ini juga semacam ditempatkan dengan aneh karena kita bisa melihat teks gulir
00:15:12semacam di atasnya. Tapi saat saya mengarahkan kursor ke atas, Anda bisa melihat semacam bergerak dan itu berubah
00:15:18warna, yang agak keren. Saat saya menggulir ke bawah, kita memiliki beberapa animasi pemuatan bergulir
00:15:24untuk semuanya. Tapi secara keseluruhan, itu terlihat baik-baik saja untuk kacamata itu sendiri yang menggunakan seperti HTML.
00:15:31Jadi itu seperti, apa yang sebenarnya Anda dapatkan dari ini? Itu bahkan tidak menemukan semacam kacamata
00:15:35untuk digunakan. Dan itu memiliki, Anda tahu, hei, inilah cara Anda bisa memesannya dan inilah cara Anda bisa membelinya. Jadi
00:15:41itu baik-baik saja. Sekali lagi, kita tidak memberi banyak arahan, tapi kita memberi tahu untuk pergi untuk semacam penghargaan
00:15:45jenis tampilan. Saya tidak akan menganggapnya pada level semacam itu. Sekarang mari kita lihat apa yang GLM bangunkan untuk kita.
00:15:51Dan saya sebenarnya tidak tahu apa yang sedang terjadi di sini sama sekali. Faktanya, ini semacam seperti hampir tidak dimuat.
00:15:59Itu menunjukkan kepada kita beberapa kacamata, tapi seperti situs web ini semacam seperti bencana. Itu seperti itu bahkan tidak
00:16:04benar-benar menyelesaikan ini. Itu hampir seperti hanya melemparkannya semua bersama-sama. Ya. Ya, perintahnya tidak super
00:16:13detail, tapi itu seharusnya bisa melakukan lebih dari ini berdasarkan apa yang saya berikan. Ini seperti sebenarnya
00:16:19mengerikan. Saya tidak tahu apa sebenarnya yang mencoba dicapai di sini. Dan terakhir, kita memiliki GPT 5.5. Jadi
00:16:25ini sedikit menarik. Saya pikir itu terlihat agak keren, meskipun kacamata
00:16:30agak tumpang tindih dengan teks di sini. Dan kita memiliki banyak ruang mati, yang bisa Anda argumen itu sesuatu
00:16:34dari pilihan desain. Dan kita memiliki spanduk yang benar-benar bergerak, Anda akan ingat versi
00:16:39Opus memang memiliki spanduk, tapi itu tidak bergerak. Dan kemudian saat kita menggulir ke bawah, Anda juga akan melihat
00:16:44kursornya semacam berwarna-warni. Dan saat kita menggulir ke bawah, sepertinya itu menciptakan beberapa aset
00:16:50jenis HTML. Maksud saya, aneh, bukan? Kita memberi tahu, hei, Anda bisa pergi menemukan apa yang perlu Anda temukan online
00:16:55jika Anda mau. Tapi secara keseluruhan, mungkin yang terbaik dari ketiganya. Tapi, Anda tahu, saya tidak akan mengatakan saya jatuh
00:17:04cinta dengan salah satu dari ini semacam menunjukkan kepada Anda betapa kuatnya tangan yang perlu Anda ambil saat melakukan
00:17:09semacam desain visual atau semacam hal UI seperti bahkan model-model paling canggih ini berjuang seperti
00:17:14Saya sebenarnya tidak tahu apa yang sedang terjadi. Seperti ini adalah ini adalah kekacauan. Jadi secara keseluruhan, Opus adalah
00:17:21oke. 5.5 adalah yang terbaik dari kelompoknya dan GLM adalah seperti benar-benar kegagalan total. Dan sama seperti yang kita lakukan dengan
00:17:26versi game, kita akan memberi mereka lintasan kedua pada ini dan melihat apakah mereka bisa membersihkan apa yang salah
00:17:30yang salah. Dan di atas itu, kita akan meminta mereka untuk mengintegrasikan mirip dengan, sekali lagi, game yang kita miliki mereka
00:17:36buat beberapa semacam elemen tiga JS, seperti kita benar-benar ingin melihat bagaimana itu bisa semacam mendorong kemampuannya dengan
00:17:42semacam gerakan dan grafis dan semacam hal itu. Dan perintah baru itu terlihat seperti ini ambil
00:17:46halaman landas kacamata pintar yang baru saja Anda bangun dan bangun kembali sebagai pengalaman 3d yang imersif menggunakan
00:17:51tiga dot JS. Jadi kita ingin adegan 3d interaktif yang sebenarnya. Dan sekali lagi, kita memberinya kebebasan penuh untuk
00:17:56mengeksekusinya seperti yang dianggap tepat. Dan jadi inilah yang kita dapatkan dengan Opus 4.8. Anda bisa melihat sekarang bahwa itu menambahkan
00:18:02beberapa tiga JS, kacamata ini semacam bergerak. Tapi di luar itu, kita memiliki beberapa masalah asli,
00:18:08benar, teks terpotong, itu ditulis ulang tepat di sini. Dan sisanya ini semacam hanya menjadi
00:18:13seperti, man, seperti ini cukup jelas bahwa AI menciptakan ini. Oh, catatan akhir, seperti biaya token
00:18:21hampir sama pada lintasan kedua di seluruh papan ke lintasan pertama untuk semua ini. Selanjutnya,
00:18:27kita memiliki GLM 5.2. Dan kali ini itu sebenarnya membuat situs web yang masuk akal. Kita memiliki kacamata ini,
00:18:32meskipun kacamata yang dibuatnya semacam hanya, Anda tahu,
00:18:36tidak ada kacamata yang benar-benar akan terlihat seperti itu dalam teks juga terpotong di sini. Tapi kita memiliki spanduk
00:18:42yang menggulir saat saya menggulir di atasnya, itu berhenti. Dan saya akan mengatakan secara keseluruhan, dalam hal
00:18:48bagaimana tata letak situs webnya, saya mungkin akan memberikannya keunggulan atas Opus. Sekarang, saya tidak berpikir
00:18:55salah satu dari mereka sangat bagus. Dan kita semacam memberi mereka kebebasan untuk melakukan apa pun yang mereka inginkan. Tapi
00:18:59saya akan menempatkan ini di atas semacam pengaturan ini. Meskipun dalam hal bagian pahlawan itu sendiri,
00:19:05saya memang menyukai Opus 4.8 lebih baik. Sekarang, GPT 5.5, saya pikir adalah pemenangnya di sini. Saya pikir ini terlihat
00:19:10lebih baik secara keseluruhan dari sudut pandang desain subjektif. Dan saya pikir tiga JS semacam gerakan
00:19:18grafis yang ditambahkan di sini cukup keren. Saya pikir itu masuk akal dalam konteks apa yang diciptakannya. Seperti kita memiliki
00:19:22semua ruang putih ini di atas dan kacamata semacam, Anda tahu, dapat hidup di sana. Dan untuk sisa
00:19:27situs webnya, saya pikir itu terlihat baik-baik saja. Sekali lagi, itu masih terlihat sangat, tanda kutip,
00:19:32slop AI dalam arti bahwa AI pasti menciptakan ini, tapi tidak terlihat buruk. Dan seperti dari atas
00:19:37ke bawah, saya memang lebih suka apa yang 5.5 berikan kepada kita daripada yang lainnya. Dan jadi ketika kita melihat ini seluruh
00:19:42hal ini, membawa masuk tolok ukur yang lebih canggih ini, seperti deep sweet bersamaan dengan
00:19:48apa yang baru saja kita lakukan hari ini, saya pikir ini adalah apa yang kita harapkan. Saya tidak berpikir GLM berkinerja sangat buruk
00:19:56dalam arti kata apa pun, tapi itu jelas terasa seperti satu langkah di bawah GPT 5.5 atau 4.8 atau di
00:20:03skenario di mana, Anda tahu, di bagian pertama di mana Opus lebih baik dari mereka semua. Dan di
00:20:07bagian kedua di mana GPT lebih baik dari mereka semua, GLM selalu berada di dekat bagian bawah. Itu tidak
00:20:12sangat lebih buruk dari mereka semua, tapi itu tentu saja tidak lebih baik. Dan itu juga menggunakan token yang jauh lebih banyak.
00:20:17Dan jadi ketika kita melihat sesuatu seperti ini, skor deep sweet, di mana seperti,
00:20:21hei, GLM semacam di bagian bawah dan sebenarnya kurang efisien daripada 5.5 dan 4.8, baik dalam hal
00:20:27biaya dan seberapa baik itu dilakukan. Itu masuk akal. Saya pikir ini adalah apa yang kita lihat. Dan jadi besar
00:20:35gambaran, adalah GLM model sumber terbuka yang hebat? Pasti. Tapi apakah itu mengalami beberapa masalah yang sumber terbuka
00:20:41model miliki secara umum, yaitu, mereka tidak sekuat? Ya. Dan selanjutnya, jika Anda adalah seseorang yang
00:20:47sumber terbuka maxing, pahami ini bukan sesuatu yang akan Anda jalankan di PC Anda, benar? Ini membutuhkan
00:20:52banyak perangkat keras untuk digunakan. Dan saya pikir apa yang hilang dalam percakapan adalah apa yang kita bicarakan di
00:20:57awal, yaitu, oke, biaya sudah menjadi masalah untuk GLM 5.2. Namun ini tidak
00:21:05bahkan memperhitungkan subsidi besar yang Anda dapatkan di paket Anthropic Max atau OpenAI
00:21:12paket Max. Jadi Anda ingat itu dan seperti, oke, seperti bukan perdebatan.
00:21:16Itu benar-benar bukan perdebatan. Jadi apakah saya sarankan menggunakan GLM 5.2 untuk rata-rata orang Anda? Tidak,
00:21:24tidak terlalu. Saya pikir mungkin jika Anda melakukan tugas tingkat yang lebih rendah dan Anda seseorang yang membandingkan
00:21:29itu murni pada harga API, mungkin, mungkin. Tapi itu, Anda tahu, saya pikir sulit untuk berargumen bahwa
00:21:38karena lalu apa yang kita lakukan ketika berikutnya, ketika, Anda tahu, Sonnet 5 keluar minggu depan? Seperti,
00:21:42apakah Anda hanya akan melompat dari sana ke sana? Seperti ada sesuatu yang bisa dikatakan dengan hanya seperti
00:21:46tetap dengan model, terutama ketika kita berbicara lebih banyak tingkat tim perusahaan,
00:21:50di mana biaya API benar-benar mulai bertambah. Karena sekali lagi, untuk rata-rata pengguna tunggal yang akan menjadi
00:21:55menggunakan salah satu paket bersubsidi dan tidak membayar biaya API langsung, saya tidak melihat argumen untuk
00:22:01GLM 5.2. Jadi itulah di mana saya akan meninggalkan kalian untuk hari ini. Semoga saya menjelaskan
00:22:05seluruh perdebatan GLM dan semua hype yang Anda lihat keluar di sekitarnya. Seperti biasa, beri tahu saya apa yang
00:22:09Anda pikirkan di komentar. Pastikan untuk memeriksa Chase AI Plus jika Anda ingin mendapatkan tangan Anda di
00:22:13Masterclass Cloud Code, dan saya akan melihat Anda di sekitar.

Key Takeaway

Meskipun GLM 5.2 menawarkan aksesibilitas sebagai model sumber terbuka, Opus 4.8 dan GPT 5.5 tetap melampauinya dalam hal efisiensi biaya nyata, kualitas hasil akhir, dan performa pada tugas kompleks.

Highlights

  • GLM 5.2 mencatatkan skor 44% pada tolok ukur DeepSuite dengan biaya $3,92 per tugas, tertinggal dari Opus 4.8 (59%) dan GPT 5.5 (67%).

  • Opus 4.8 dan GPT 5.5 lebih efisien dalam penggunaan token, terbukti dengan penggunaan token yang jauh lebih sedikit dibandingkan GLM 5.2 untuk tugas yang sama.

  • Biaya API per juta token untuk GLM 5.2 adalah $1,40 (input) dan $4,40 (output), namun efisiensi eksekusi tugas tetap lebih tinggi pada Opus 4.8 dan GPT 5.5.

  • GLM 5.2 memerlukan perangkat keras berskala besar karena ukurannya yang mencapai hampir satu triliun parameter, sehingga tidak dapat dijalankan secara lokal pada PC standar.

  • Dalam pengujian praktis membangun aplikasi web dan game 3D, Opus 4.8 dan GPT 5.5 secara konsisten menghasilkan output visual dan fungsional yang lebih berkualitas daripada GLM 5.2.

Timeline

Analisis Tolok Ukur DeepSuite

  • GLM 5.2 mencapai skor 44% pada DeepSuite, sedangkan Opus 4.8 dan GPT 5.5 masing-masing mencapai 59% dan 67%.
  • Opus 4.8 dan GPT 5.5 terbukti lebih efisien dalam menyelesaikan tugas per unit biaya.
  • GLM 5.2 bukan model sumber terbuka yang dapat dijalankan secara lokal karena memerlukan infrastruktur perangkat keras masif.

Tolok ukur DeepSuite mengevaluasi performa model pada 113 tugas pemrograman dalam bahasa TypeScript, Go, Python, JavaScript, dan Rust. Meskipun biaya per tugas GLM 5.2 terlihat murah secara nominal ($3,92), efisiensi total yang lebih baik dimiliki oleh model berbayar karena kemampuan mereka menyelesaikan tugas dengan lebih sedikit token.

Pengujian Game Balap 3D

  • Opus 4.8 menyelesaikan tugas dalam waktu 13 menit dengan kualitas visual dan gameplay paling stabil.
  • GLM 5.2 menggunakan token hingga 1,35 juta untuk menghasilkan game yang memiliki kendali tidak stabil dan grafis kurang mendetail.
  • GPT 5.5 mampu menghasilkan fungsionalitas game yang dapat dijalankan namun memiliki masalah estetika pada rotasi roda.

Ketiga model diminta membuat game balap 3D berbasis peramban dari instruksi samar. Opus 4.8 unggul dalam menciptakan pengalaman berkendara yang halus, sementara GLM 5.2 dan GPT 5.5 menunjukkan hasil yang tidak konsisten, seperti masalah pada deteksi jalur lintasan dan detail grafis yang buruk.

Pengujian Halaman Landas Produk

  • GPT 5.5 menghasilkan situs web terbaik secara estetika dibandingkan Opus 4.8 dan GLM 5.2.
  • GLM 5.2 gagal menyajikan halaman web yang berfungsi dengan baik pada percobaan pertama.
  • Opus 4.8 dan GPT 5.5 jauh lebih efisien dalam penggunaan token, hanya membutuhkan sekitar 100.000 token dibandingkan GLM yang mencapai satu juta token.

Pengujian pembuatan halaman landas untuk kacamata pintar menunjukkan keterbatasan model dalam menangani desain UI visual. Meskipun GPT 5.5 unggul dalam desain dan integrasi animasi tiga JS, ketiga model masih memerlukan intervensi manusia yang signifikan untuk mencapai kualitas desain yang profesional.

Community Posts

View all posts