Saya Menguji GLM 5.2 vs Opus 4.8 vs GPT 5.5
CChase AI
Computing/SoftwareVideo & Computer GamesInternet Technology
Transcript
00:00:00GLM 5.2 baru saja dirilis minggu ini, dan ini adalah model sumber terbuka terkuat yang pernah kita
00:00:04lihat. Dan dalam beberapa tolok ukur, seperti yang Anda lihat di sini, model ini bahkan menunjukkan performa yang mengungguli raksasa
00:00:10seperti Opus 4.8 milik Anthropic dan 5.5 milik OpenAI. Tapi apakah tolok ukur ini sah? Bagaimana model ini
00:00:18dibandingkan secara langsung dengan Opus 4.8 dan GPT 5.5? Nah, itulah yang akan kita jawab
00:00:25di video hari ini, saat saya melakukan berbagai tes dengan ketiga model besar ini dan melihat
00:00:31bagaimana performanya di dunia nyata. Selain itu, kita akan mendalami
00:00:35satu tolok ukur tertentu yang menurut saya cukup penting, serta membedah apa yang sebenarnya
00:00:40kami maksud dengan GLM 5.2 yang lebih baik dalam beberapa hal daripada Opus dan GPT 5.5. Apakah kita berbicara tentang
00:00:47efisiensinya yang lebih tinggi, biaya yang lebih murah, atau apakah model ini benar-benar melakukan semuanya dengan lebih baik pada saat yang
00:00:51bersamaan? Jadi tanpa basa-basi lagi, mari langsung kita mulai. Nah, sebelum kita masuk ke tes
00:00:56perbandingan, mari kita lihat dulu beberapa tolok ukur yang sudah ada yang membandingkan ketiga
00:00:59model ini. Yang benar-benar ingin saya perhatikan adalah DeepSuite. Nah, DeepSuite adalah
00:01:04tolok ukur yang relatif baru, dan dimaksudkan untuk menjadi peningkatan dari hal-hal seperti Terminal
00:01:08Bench dan Terminal Bench Pro. Sekarang, saya tidak akan membahas terlalu dalam mengenai tolok ukur ini, Anda
00:01:12bisa melihat situs web atau repositori GitHub mereka, yang menjelaskannya secara lebih rinci. Namun, ini berfokus
00:01:17pada tugas-tugas agenik yang berjalan lama, khususnya 113 tugas di TypeScript, Go, Python, JavaScript,
00:01:23dan Rust dengan lingkungan terisolasi dan pemverifikasi berbasis program. Dan di sini pada grafik ini, kita bisa melihat
00:01:29skor, persentase yang benar di sisi kiri, serta biaya rata-rata
00:01:34per tugas. Sekarang, kita ingin berada di posisi atas ke kanan. Area yang paling efisien ada di sini di kanan
00:01:39atas. Di situlah kita mendapatkan skor tertinggi dengan biaya terendah. Dan kita bisa melihat di sini, GLM 5.2
00:01:44max memberikan skor 44% dengan biaya $3,92 per tugas. Jika kita membandingkannya dengan Opus 4.8 dan GPT 5.5, kita bisa melihat
00:01:55performa mereka jauh lebih baik. Pada pengaturan max, Opus 4.8 mencapai 59%, dan 5.5 mencapai 67% pada pengaturan extra high. Jelas,
00:02:04pada pengaturan extra high dan max, kita memiliki biaya yang cukup tinggi. Untuk GPT 5.5, biayanya $7,23. $13 untuk Opus,
00:02:12dan untuk GLM, biayanya $3,92. Jadi jauh lebih murah. Namun, ketika kita melihat tingkat upaya yang berbeda
00:02:19pada 5.5 dan Opus, jika kita berada pada tingkat medium, misalnya, dengan Opus 4.8, kita akan mendapatkan skor
00:02:25yang lebih tinggi daripada GLM 5.2, dan biayanya lebih murah. Jadi 49% dengan biaya $3,44 dibandingkan 44% dengan biaya $3,92. Dan itu
00:02:36signifikan pada 5.5 dengan 54% pada biaya $2,75 dibandingkan 44% pada biaya $3,92. Jadi langsung saja, pada tolok ukur ini,
00:02:47jika kita mengambilnya dengan nilai nominal, 4.8 dan 5.5 berada satu tingkat di atas GLM 5.2. Dan itu tidak mengherankan. Ini
00:02:55adalah model-model perbatasan terbaik dari yang terbaik. Mereka bukan sumber terbuka. Dan jika kita benar-benar tancap gas,
00:03:01mereka akan mengalahkan GLM 5.2 dalam tugas-tugas berjangka panjang seperti ini, sesuatu yang sudah diduga.
00:03:07Yang mungkin tidak Anda duga adalah fakta bahwa model ini bisa bekerja lebih baik dengan harga lebih murah,
00:03:11yang merupakan sebuah masalah. Dan saya hanya ingin menyampaikan hal itu karena saya tahu ada banyak
00:03:16pembicaraan dan banyak sekali hype saat ini tentang GLM 5.2 dan fakta bahwa model ini sumber terbuka. Dan, Anda
00:03:21tahu, itu secara langsung menyiratkan, oh, ini sangat, sangat murah. Dan kita bisa melakukan hal-hal hebat.
00:03:25Nah, menurut angka, ini bagus, tapi bukan 4.8 atau 5.5 berdasarkan tolok ukur ini. Dan ingat,
00:03:33angka 4.8 dan 5.5 ini didasarkan pada biaya API. Jika saya menggunakan paket max, biayanya sekitar 10x lebih murah dari
00:03:40ini. Sama halnya jika saya hanya menggunakan paket $100 sebulan atau $200 sebulan dari OpenAI. Jadi
00:03:46itu hal lain yang harus diperhitungkan. Jadi saya hanya ingin sedikit mengerem pembicaraan seperti
00:03:50GLM jauh lebih murah karena sebenarnya tidak. Dan meskipun ini sumber terbuka,
00:03:56GLM 5.2, model sumber terbuka yang mendapatkan angka-angka ini, ini tidak sepenuhnya sumber terbuka. Maksudnya
00:04:01Anda tidak bisa begitu saja mengunduhnya di komputer Anda. Ini sumber terbuka dalam arti, Anda bisa melihat kodenya,
00:04:05Anda bisa melihat bobotnya. Ini bukan sumber terbuka dalam arti, oh, saya bisa begitu saja mendapatkannya
00:04:09di OLLAMA. Saya bisa menjalankannya di PC pribadi saya. Tidak, Anda tidak bisa. Tidak, Anda tidak bisa. Ini hampir
00:04:14satu triliun parameter. Ini membutuhkan banyak sekali perangkat keras untuk menjalankannya. Jadi jangan bingung karena saya tahu
00:04:20ada sebagian populasi yang bingung, tetapi ini hanya untuk menyiapkan panggung. Dan sekali lagi,
00:04:24ini ada pada hal-hal deep sweet. Ini adalah tugas-tugas yang sangat intens yang diberikan. Dan
00:04:30hari ini kita akan melakukan beberapa tes berbeda yang sedikit lebih rendah levelnya dan yang
00:04:35mungkin lebih mencerminkan apa yang Anda, rata-rata pengguna, jalankan. Jadi sesuatu yang perlu diingat.
00:04:39Dan supaya kita semua memiliki pemahaman yang sama, inilah yang kita lihat dalam hal biaya
00:04:44per token. Ingat, alasan biaya lebih murah untuk Opus 4.8 dan 5.5 adalah karena model tersebut menggunakan lebih sedikit
00:04:50token untuk melakukan apa yang perlu dilakukan. Model tersebut pada akhirnya lebih efisien, namun berdasarkan per token.
00:04:55Dan ingat untuk input dan output, ini per juta token, GLM 5.2, $1,40 untuk input,
00:05:01$4,40 untuk output. Dan Opus 4.8 adalah 5,7 kali lebih mahal. Dan 5.5 dari GPT adalah 6,8 kali lebih
00:05:10mahal. Jadi berdasarkan per token, jauh lebih murah. Tapi ingat, kita peduli dengan hasil untuk sebuah tugas,
00:05:16bukan sekadar perbandingan token satu lawan satu. Dan sekarang sebelum kita masuk ke tes yang sebenarnya,
00:05:21pesan singkat dari sponsor hari ini, yaitu saya sendiri. Jadi saya baru saja merilis Masterclass Cloud Code saya di dalam
00:05:26Chase AI Plus dan itu adalah cara nomor satu untuk beralih dari nol menjadi pengembang AI, terutama jika Anda tidak berasal
00:05:30dari latar belakang teknis. Saya memperbarui ini setiap minggu dan ini juga mencakup masterclass untuk codec
00:05:35dan untuk membuat OS agenik Anda sendiri. Jadi jika ini adalah sesuatu yang ingin Anda pelajari lebih lanjut dan Anda
00:05:40tidak yakin harus mulai dari mana, Chase AI Plus adalah tempat untuk Anda. Ada tautan ke sana di komentar yang disematkan.
00:05:46Jadi inilah cara kita menjalankan tes ini. Kita akan memberikan perintah yang sama kepada setiap model
00:05:49dan mode rencana. Model akan memberi kita rencana. Kita mungkin akan melakukan beberapa komunikasi bolak-balik,
00:05:53tergantung pada pendapat kita tentang rencana yang dibuatnya. Dan setelah itu, kita akan membiarkannya mengeksekusi.
00:05:58Setelah mengeksekusi, saya akan menerapkan kriteria penilaian saya yang sangat subjektif terhadap hasil akhir dan memberi tahu Anda
00:06:03mana yang paling saya sukai. Jika Anda tidak menyukai kriteria penilaian saya atau apa yang saya putuskan sebagai yang terbaik, pastikan untuk
00:06:08meninggalkan komentar. Saya juga akan memastikan untuk menghapus komentar Anda. Nah, di sini di sebelah kiri, kita memiliki
00:06:14GPT 5.5 di dalam Codex pada pengaturan extra high. Kita memiliki OpenCode di tengah menjalankan GLM 5.2 pada extra high
00:06:21yang dirutekan melalui OpenRouter. Dan di sini di sebelah kanan, kita memiliki Cloud Code yang menjalankan Opus 4.8
00:06:26pada pengaturan high. Nah, mengapa saya memilih pengaturan upaya ini? Karena begitulah kebanyakan orang
00:06:32menggunakan model-model ini dalam kehidupan nyata. Dan kemungkinan besar Anda berada di paket max atau Anda berada di
00:06:37beberapa jenis paket AI terbuka dan Anda mungkin tidak menjalankannya pada pengaturan Medium. Mari kita jujur. Jadi menurut saya ini
00:06:42adalah cerminan yang lebih baik tentang bagaimana rata-rata pengguna Anda benar-benar menggunakan model-model ini dari hari ke hari.
00:06:47Jadi untuk perintah pertama kita, kita akan memintanya membangun game balap 3D yang dapat dimainkan yang berjalan di
00:06:51peramban. Dan yang penting, kita menjaga perintah ini tetap samar. Saya mengatakan Anda memiliki kebebasan penuh untuk
00:06:56mencari di web dan memilih tumpukan teknologi dan pustaka apa pun yang menurut Anda terbaik untuk mengeksekusi ini. Dan jadi
00:07:02mari kita jalankan dan lihat apa yang terjadi. Jadi kita memiliki ketiga model yang berjalan dalam mode rencana.
00:07:08Dan sekali lagi, pemikiran di balik membuat perintah yang agak samar adalah agar kita melihat sebanyak mungkin
00:07:12divergensi dari model-model ini. Jika saya memberikan peta jalan yang tepat, cara melakukan setiap hal,
00:07:18yah, maka kita benar-benar tidak bisa melihat bagaimana model-model ini berpikir dan bagaimana mereka mendekati masalah yang lebih
00:07:23berantakan. Jadi setelah 13 menit, Opus 4.8 adalah yang pertama selesai membuat game balap.
00:07:29Jadi mari kita lihat apa yang dibuatnya. Jadi di sini kita agak low poly. Ini memang memiliki
00:07:37beberapa suara. Bergerak cukup lancar. Sepertinya kita memiliki kemampuan untuk melakukan drift di sini juga.
00:07:44Oke, rumputnya sebenarnya agak mengganggu cara kerja fisika. Secara keseluruhan, cukup lancar, tapi Anda
00:07:54tahu, agak relatif membosankan, bukan? Seperti ini adalah lintasan balap yang cukup dasar. Tidak ada yang gila, tidak menambahkan
00:07:59semacam AI atau apa pun seperti itu. Jadi saya tertarik melihat bagaimana model lain melakukannya dalam hal
00:08:04kompleksitas dan apa yang mungkin akan saya lakukan setelah tes pertama ini jika semuanya agak seperti
00:08:09visi yang hambar. Kita mungkin akan memberikan perintah lain yang meningkatkan taruhan. Selanjutnya
00:08:13adalah GLM 5.2. Jadi butuh waktu sekitar lima menit lebih lama dari Claude Code. Sebagai referensi, GPT 5.5 masih
00:08:20bekerja, yang tidak terlalu mengejutkan saya. Model ini cenderung sedikit lebih lambat. Dalam hal perbandingan token,
00:08:26Claude Code menggunakan sekitar 100.000 token untuk membuat itu. Dan GLM 5.2 memakan lebih dari satu juta. Dan kita bisa melihat
00:08:33ke dalam Open Router untuk hasil ini, di mana total pengeluaran adalah $1,21. Dan total volume token adalah 1,35
00:08:41juta untuk membuat game ini. Jadi langsung saja, trek yang menarik yang kita miliki.
00:08:48Sangat kontrolnya cukup melompat-lompat, dibandingkan dengan apa yang kita miliki dengan Claude Code. Seperti saya bergerak
00:08:53sangat cepat relatif terhadap trek itu sendiri. Sangat cepat. Seperti saya berteriak melewati ini. Dan kita juga seperti
00:09:00semacam hanya ada tidak ada diferensiasi yang nyata antara trek dan ladang itu sendiri. Dan dalam
00:09:09instansi tertentu, saya bisa hampir seperti yang Anda lihat di sana, seperti melewati trek, tapi tidak benar-benar.
00:09:15Jadi juga mobil itu sendiri sedikit kurang detail daripada apa yang kita lihat di dalam Claude Code. Maksud saya,
00:09:23jadi ada trek, itu memiliki pengatur waktu. Dalam hal gameplay yang sebenarnya, sedikit janky untuk apa itu
00:09:30adanya, tidak hampir semulus itu. Dan juga sekali lagi, seperti dengan situasi low poly seperti yang kita lihat dengan
00:09:36Opus. Dan jadi saya ingin melihat apa yang dilakukannya jika kita memberi tahu untuk benar-benar menciptakan sesuatu yang terlihat
00:09:40lebih baik. Dan juga trek ini sendiri sebenarnya tidak masuk akal. Jadi sekarang kita melihat
00:09:44apa yang dibuat GPT 5.5. Ini menyebutnya sirkuit pengecoran, uji waktu shift malam tiga putaran
00:09:50melalui pekerjaan baja. Jadi sesuatu yang berbeda, kurasa, daripada trek generik yang telah kita lihat di
00:09:54dua terakhir. Jadi mari kita mulai ini. Dan mari kita pergi. Yah, saya sebenarnya tidak tahu ke mana saya
00:10:04seharusnya pergi. Oh, kurasa ini treknya. Roda terlihat agak menarik. Mereka agak
00:10:10berputar ke arah yang salah. Jadi itu sesuatu. Oke, itu memiliki suara-suara yang sangat menjengkelkan, sebenarnya.
00:10:21Dan saya agak tidak bisa melupakan roda yang berputar horizontal, atau bagaimana pun Anda menggambarkan ini.
00:10:28Trek itu sendiri baik-baik saja bisa agak bergerak. Ya, Anda bisa melewati trek dan itu memperlambat Anda. Tapi itu tidak
00:10:35seperti jelas bahwa ini adalah trek beraspal, seperti yang kita lihat dengan apa yang Opus bangun. Dan seperti sisanya adalah,
00:10:41Anda tahu, katakanlah, Anda tahu, ladang. Jadi grafis yang agak aneh, jujur. Juga, ketika Anda mempertimbangkan
00:10:48fakta bahwa dua kali lebih lama dari Opus agak aneh. Ya, jujur, agak aneh. Sekali lagi,
00:10:55seperti mengapa, mengapa ia melakukan ini dengan rodanya? Saya tidak tahu. Sekali lagi, memilih hal low poly.
00:11:00Dan itu hanya seperti sangat gelap, untuk alasan yang tampaknya tidak ada. Jadi maksud saya, seperti, saya hampir, saya merasa seperti
00:11:06ini lebih fungsional daripada apa yang kita dapatkan dengan GLM 5.2, tapi seperti, tidak jauh lebih baik. Dan Anda juga
00:11:12mempertimbangkan fakta bahwa ini ada pada extra high pada 5.5. Nah, dalam hal penggunaan token untuk 5.5,
00:11:17hasilnya kira-kira seperti yang kita lihat dengan Claude Code. Itu menggunakan 7% dari jendela lima jamnya. Jadi hampir
00:11:22tidak ada apa-apa. Nah, peringkat keseluruhan, saya akan menempatkan Opus 4.8 dengan jelas di depan GLM 5.2 dan 5.5. Saya pikir
00:11:28dua yang terakhir agak janky, tapi kita sebenarnya akan memberi mereka kesempatan lagi karena
00:11:32kita akan memberi tahu mereka untuk melihat lagi kodenya, melakukan lintasan lain. Dan kita juga ingin mereka
00:11:36untuk melakukan jauh lebih baik dalam hal grafis. Saya tidak ingin hal low poly. Saya ingin ini terlihat
00:11:40seperti game triple A atau sedekat mungkin dengannya. Jadi mari kita lihat apa yang terjadi ketika kita memberi mereka
00:11:46percobaan nomor dua. Jadi Opus dan GLM menyelesaikan lintasan kedua mereka dan 5.5 sedang menyelesaikannya di sana. Jadi
00:11:50mari kita lihat Opus 4.8 dulu. Jadi langsung saja, kita melihat mobil yang jauh lebih baik. Seperti ini adalah peningkatan besar
00:11:58terkait mobil daripada apa yang kita lihat sebelumnya. Kita juga melihat pencahayaan yang jauh berbeda.
00:12:04Seperti Anda bisa melihat matahari terpantul di tanah itu sendiri dan semuanya terlihat jauh lebih mulus. Maksud saya,
00:12:10pohon-pohon itu sendiri adalah jenis low polygon, tapi pencahayaan dan terutama mobil
00:12:15adalah langkah maju yang besar. Dan itu masih menjaga semacam gameplay yang mulus yang sama. Maksud saya, di samping
00:12:20fakta kita memiliki pohon di jalan, tapi pohon-pohon itu sendiri juga diberi bayangan. Dan untuk satu tambahan
00:12:26lintasan yang memakan waktu 10 menit dan sekitar 50.000 token, tidak buruk. Sekarang kita akan melihat GLM. Dan pada titik ini,
00:12:32itu memakan waktu sekitar 1,2 juta token lagi untuk membuat pembaruan ini, menempatkan total pengeluaran kita pada $1,83.
00:12:38Jadi mari kita mulai. Dan sepertinya mencoba menambahkan semacam pencahayaan berbeda. Mobil terlihat
00:12:46sedikit lebih baik, tapi pencahayaan itu sendiri agak aneh. Seperti itu hanya sangat menyilaukan. Trek
00:12:52itu sendiri belum berubah banyak. Anda tahu, itu masih hanya seperti rumput di mana-mana. Dan
00:12:57kontrolnya masih sangat melompat, benar? Seperti saya pergi sangat cepat relatif terhadap trek. Masalah yang sama
00:13:04yang saya miliki sebelumnya di mana seperti beberapa trek saya bisa melewati beberapa, saya tidak bisa. Jadi maksud saya,
00:13:10grafis untuk mobil terlihat lebih baik, tapi saya akan berargumen pencahayaan dan silau sangat mengganggu.
00:13:15Itu mungkin agak penurunan dari apa yang kita miliki sebelumnya. Dan di sini adalah lintasan kedua dengan 5.5. Sekarang
00:13:21mobil terlihat sedikit lebih baik, tapi melihat hal lain, ini agak sama. Yah,
00:13:29rodanya lebih baik. Kami memperbaiki masalah roda. Mereka benar-benar berputar seperti seharusnya roda,
00:13:34tapi masih memiliki suara-suara yang mengganggu. Dan tidak ada diferensiasi nyata lagi, antara seperti jalur
00:13:42dan seperti rumput. Jadi rasanya seperti semacam hal yang persis sama yang dilakukan pertama kali dengan
00:13:49mobil yang sedikit lebih baik. Tapi Anda tahu, ketika kita memberi tahu untuk pergi untuk estetika triple A, saya tidak akan mengatakan
00:13:55itu mencapai sasaran. Dan sekali lagi, saya merasa seperti gambaran besar. Kita melihat ketiga GM dan 5.5, jelas satu langkah
00:14:02di bawah Opus. Sekarang untuk tes kita berikutnya, kita akan memintanya membangunkan kita sebuah situs web. Dan perintah yang akan kita
00:14:07gunakan adalah ini. Kita ingin membangun halaman landas palsu untuk produk, yaitu kacamata pintar bertenaga AI
00:14:12berpikir seperti Meta Ray-Bans. Sekali lagi, kita memberi model-model ini kebebasan penuh dalam
00:14:16hal tumpukan dan desain. Kita memberi tahu untuk memilih apa pun yang menurut kita terbaik, instal apa yang
00:14:20kita butuhkan dan cari praktik terbaik untuk membuat halaman landas. Kita memberi tahu, Hei, silakan dan temukan
00:14:25gambar dan jepretan produk. Dan jangan hanya mengandalkan membuat barang HTML Anda sendiri. Dan yang penting,
00:14:31kita mengatakan, buat terlihat seperti situs penghargaan. Kita tidak ingin itu terlihat seperti slop AI. Kita ingin visual hierarki nyata,
00:14:35tipografi yang disengaja, dan gerakan di mana itu masuk akal. Jadi halaman landas untuk kacamata pintar
00:14:42pintar, kita ingin itu menjadi jenis penghargaan. Jadi mari kita lihat apa yang mereka hasilkan. Jadi ketiga
00:14:46dari mereka selesai untuk referensi, GLM menggunakan sekitar satu juta token untuk mengeksekusi ini sementara Opus dan 5.5
00:14:53menggunakan sekitar seratus ribu, kurang lebih. Jadi pertama kita memiliki apa yang Opus bangunkan untuk kita latar belakang yang sangat gelap.
00:14:58Itu memiliki semacam kacamata ini yang dibuatnya, dan teksnya semacam terpotong tepat di sini, yang
00:15:04disayangkan. Saat kita menggulir ke bawah, ini juga semacam ditempatkan dengan aneh karena kita bisa melihat teks gulir
00:15:12semacam di atasnya. Tapi saat saya mengarahkan kursor ke atas, Anda bisa melihat semacam bergerak dan itu berubah
00:15:18warna, yang agak keren. Saat saya menggulir ke bawah, kita memiliki beberapa animasi pemuatan bergulir
00:15:24untuk semuanya. Tapi secara keseluruhan, itu terlihat baik-baik saja untuk kacamata itu sendiri yang menggunakan seperti HTML.
00:15:31Jadi itu seperti, apa yang sebenarnya Anda dapatkan dari ini? Itu bahkan tidak menemukan semacam kacamata
00:15:35untuk digunakan. Dan itu memiliki, Anda tahu, hei, inilah cara Anda bisa memesannya dan inilah cara Anda bisa membelinya. Jadi
00:15:41itu baik-baik saja. Sekali lagi, kita tidak memberi banyak arahan, tapi kita memberi tahu untuk pergi untuk semacam penghargaan
00:15:45jenis tampilan. Saya tidak akan menganggapnya pada level semacam itu. Sekarang mari kita lihat apa yang GLM bangunkan untuk kita.
00:15:51Dan saya sebenarnya tidak tahu apa yang sedang terjadi di sini sama sekali. Faktanya, ini semacam seperti hampir tidak dimuat.
00:15:59Itu menunjukkan kepada kita beberapa kacamata, tapi seperti situs web ini semacam seperti bencana. Itu seperti itu bahkan tidak
00:16:04benar-benar menyelesaikan ini. Itu hampir seperti hanya melemparkannya semua bersama-sama. Ya. Ya, perintahnya tidak super
00:16:13detail, tapi itu seharusnya bisa melakukan lebih dari ini berdasarkan apa yang saya berikan. Ini seperti sebenarnya
00:16:19mengerikan. Saya tidak tahu apa sebenarnya yang mencoba dicapai di sini. Dan terakhir, kita memiliki GPT 5.5. Jadi
00:16:25ini sedikit menarik. Saya pikir itu terlihat agak keren, meskipun kacamata
00:16:30agak tumpang tindih dengan teks di sini. Dan kita memiliki banyak ruang mati, yang bisa Anda argumen itu sesuatu
00:16:34dari pilihan desain. Dan kita memiliki spanduk yang benar-benar bergerak, Anda akan ingat versi
00:16:39Opus memang memiliki spanduk, tapi itu tidak bergerak. Dan kemudian saat kita menggulir ke bawah, Anda juga akan melihat
00:16:44kursornya semacam berwarna-warni. Dan saat kita menggulir ke bawah, sepertinya itu menciptakan beberapa aset
00:16:50jenis HTML. Maksud saya, aneh, bukan? Kita memberi tahu, hei, Anda bisa pergi menemukan apa yang perlu Anda temukan online
00:16:55jika Anda mau. Tapi secara keseluruhan, mungkin yang terbaik dari ketiganya. Tapi, Anda tahu, saya tidak akan mengatakan saya jatuh
00:17:04cinta dengan salah satu dari ini semacam menunjukkan kepada Anda betapa kuatnya tangan yang perlu Anda ambil saat melakukan
00:17:09semacam desain visual atau semacam hal UI seperti bahkan model-model paling canggih ini berjuang seperti
00:17:14Saya sebenarnya tidak tahu apa yang sedang terjadi. Seperti ini adalah ini adalah kekacauan. Jadi secara keseluruhan, Opus adalah
00:17:21oke. 5.5 adalah yang terbaik dari kelompoknya dan GLM adalah seperti benar-benar kegagalan total. Dan sama seperti yang kita lakukan dengan
00:17:26versi game, kita akan memberi mereka lintasan kedua pada ini dan melihat apakah mereka bisa membersihkan apa yang salah
00:17:30yang salah. Dan di atas itu, kita akan meminta mereka untuk mengintegrasikan mirip dengan, sekali lagi, game yang kita miliki mereka
00:17:36buat beberapa semacam elemen tiga JS, seperti kita benar-benar ingin melihat bagaimana itu bisa semacam mendorong kemampuannya dengan
00:17:42semacam gerakan dan grafis dan semacam hal itu. Dan perintah baru itu terlihat seperti ini ambil
00:17:46halaman landas kacamata pintar yang baru saja Anda bangun dan bangun kembali sebagai pengalaman 3d yang imersif menggunakan
00:17:51tiga dot JS. Jadi kita ingin adegan 3d interaktif yang sebenarnya. Dan sekali lagi, kita memberinya kebebasan penuh untuk
00:17:56mengeksekusinya seperti yang dianggap tepat. Dan jadi inilah yang kita dapatkan dengan Opus 4.8. Anda bisa melihat sekarang bahwa itu menambahkan
00:18:02beberapa tiga JS, kacamata ini semacam bergerak. Tapi di luar itu, kita memiliki beberapa masalah asli,
00:18:08benar, teks terpotong, itu ditulis ulang tepat di sini. Dan sisanya ini semacam hanya menjadi
00:18:13seperti, man, seperti ini cukup jelas bahwa AI menciptakan ini. Oh, catatan akhir, seperti biaya token
00:18:21hampir sama pada lintasan kedua di seluruh papan ke lintasan pertama untuk semua ini. Selanjutnya,
00:18:27kita memiliki GLM 5.2. Dan kali ini itu sebenarnya membuat situs web yang masuk akal. Kita memiliki kacamata ini,
00:18:32meskipun kacamata yang dibuatnya semacam hanya, Anda tahu,
00:18:36tidak ada kacamata yang benar-benar akan terlihat seperti itu dalam teks juga terpotong di sini. Tapi kita memiliki spanduk
00:18:42yang menggulir saat saya menggulir di atasnya, itu berhenti. Dan saya akan mengatakan secara keseluruhan, dalam hal
00:18:48bagaimana tata letak situs webnya, saya mungkin akan memberikannya keunggulan atas Opus. Sekarang, saya tidak berpikir
00:18:55salah satu dari mereka sangat bagus. Dan kita semacam memberi mereka kebebasan untuk melakukan apa pun yang mereka inginkan. Tapi
00:18:59saya akan menempatkan ini di atas semacam pengaturan ini. Meskipun dalam hal bagian pahlawan itu sendiri,
00:19:05saya memang menyukai Opus 4.8 lebih baik. Sekarang, GPT 5.5, saya pikir adalah pemenangnya di sini. Saya pikir ini terlihat
00:19:10lebih baik secara keseluruhan dari sudut pandang desain subjektif. Dan saya pikir tiga JS semacam gerakan
00:19:18grafis yang ditambahkan di sini cukup keren. Saya pikir itu masuk akal dalam konteks apa yang diciptakannya. Seperti kita memiliki
00:19:22semua ruang putih ini di atas dan kacamata semacam, Anda tahu, dapat hidup di sana. Dan untuk sisa
00:19:27situs webnya, saya pikir itu terlihat baik-baik saja. Sekali lagi, itu masih terlihat sangat, tanda kutip,
00:19:32slop AI dalam arti bahwa AI pasti menciptakan ini, tapi tidak terlihat buruk. Dan seperti dari atas
00:19:37ke bawah, saya memang lebih suka apa yang 5.5 berikan kepada kita daripada yang lainnya. Dan jadi ketika kita melihat ini seluruh
00:19:42hal ini, membawa masuk tolok ukur yang lebih canggih ini, seperti deep sweet bersamaan dengan
00:19:48apa yang baru saja kita lakukan hari ini, saya pikir ini adalah apa yang kita harapkan. Saya tidak berpikir GLM berkinerja sangat buruk
00:19:56dalam arti kata apa pun, tapi itu jelas terasa seperti satu langkah di bawah GPT 5.5 atau 4.8 atau di
00:20:03skenario di mana, Anda tahu, di bagian pertama di mana Opus lebih baik dari mereka semua. Dan di
00:20:07bagian kedua di mana GPT lebih baik dari mereka semua, GLM selalu berada di dekat bagian bawah. Itu tidak
00:20:12sangat lebih buruk dari mereka semua, tapi itu tentu saja tidak lebih baik. Dan itu juga menggunakan token yang jauh lebih banyak.
00:20:17Dan jadi ketika kita melihat sesuatu seperti ini, skor deep sweet, di mana seperti,
00:20:21hei, GLM semacam di bagian bawah dan sebenarnya kurang efisien daripada 5.5 dan 4.8, baik dalam hal
00:20:27biaya dan seberapa baik itu dilakukan. Itu masuk akal. Saya pikir ini adalah apa yang kita lihat. Dan jadi besar
00:20:35gambaran, adalah GLM model sumber terbuka yang hebat? Pasti. Tapi apakah itu mengalami beberapa masalah yang sumber terbuka
00:20:41model miliki secara umum, yaitu, mereka tidak sekuat? Ya. Dan selanjutnya, jika Anda adalah seseorang yang
00:20:47sumber terbuka maxing, pahami ini bukan sesuatu yang akan Anda jalankan di PC Anda, benar? Ini membutuhkan
00:20:52banyak perangkat keras untuk digunakan. Dan saya pikir apa yang hilang dalam percakapan adalah apa yang kita bicarakan di
00:20:57awal, yaitu, oke, biaya sudah menjadi masalah untuk GLM 5.2. Namun ini tidak
00:21:05bahkan memperhitungkan subsidi besar yang Anda dapatkan di paket Anthropic Max atau OpenAI
00:21:12paket Max. Jadi Anda ingat itu dan seperti, oke, seperti bukan perdebatan.
00:21:16Itu benar-benar bukan perdebatan. Jadi apakah saya sarankan menggunakan GLM 5.2 untuk rata-rata orang Anda? Tidak,
00:21:24tidak terlalu. Saya pikir mungkin jika Anda melakukan tugas tingkat yang lebih rendah dan Anda seseorang yang membandingkan
00:21:29itu murni pada harga API, mungkin, mungkin. Tapi itu, Anda tahu, saya pikir sulit untuk berargumen bahwa
00:21:38karena lalu apa yang kita lakukan ketika berikutnya, ketika, Anda tahu, Sonnet 5 keluar minggu depan? Seperti,
00:21:42apakah Anda hanya akan melompat dari sana ke sana? Seperti ada sesuatu yang bisa dikatakan dengan hanya seperti
00:21:46tetap dengan model, terutama ketika kita berbicara lebih banyak tingkat tim perusahaan,
00:21:50di mana biaya API benar-benar mulai bertambah. Karena sekali lagi, untuk rata-rata pengguna tunggal yang akan menjadi
00:21:55menggunakan salah satu paket bersubsidi dan tidak membayar biaya API langsung, saya tidak melihat argumen untuk
00:22:01GLM 5.2. Jadi itulah di mana saya akan meninggalkan kalian untuk hari ini. Semoga saya menjelaskan
00:22:05seluruh perdebatan GLM dan semua hype yang Anda lihat keluar di sekitarnya. Seperti biasa, beri tahu saya apa yang
00:22:09Anda pikirkan di komentar. Pastikan untuk memeriksa Chase AI Plus jika Anda ingin mendapatkan tangan Anda di
00:22:13Masterclass Cloud Code, dan saya akan melihat Anda di sekitar.