00:00:00Tim ZAI baru saja meluncurkan GLM 4.7,
00:00:02dan dengan harga $29 per tahun,
00:00:04ini sangat murah untuk model yang mereka klaim mencapai 73% di SWE bench,
00:00:10setara dengan Sonnet 4.5.
00:00:11Waktu peluncurannya bukan kebetulan.
00:00:13Mereka akan go public dan perlu menunjukkan traksi di pasar barat..
00:00:15Mereka bahkan mengadakan sesi Q&A langsung di Reddit,
00:00:17yang belum pernah saya lihat dari lab AI China.
00:00:19Tapi 4.6 punya masalah nyata.
00:00:21Apakah 4.7 benar-benar sudah diperbaiki?.
00:00:23Halo semuanya,
00:00:23jika ini pertama kali Anda di sini,
00:00:25ini adalah AI Labs,
00:00:26dan selamat datang di episode lain dari Debunked,
00:00:28sebuah series di mana kami menguji alat dan model AI secara langsung,
00:00:30menghilangkan hype marketing,
00:00:32dan menunjukkan apa yang bisa mereka lakukan dengan pengujian nyata dan hasil jujur.
00:00:35Model baru ini terutama ditingkatkan melalui post-training,
00:00:38bukan perubahan arsitektur.
00:00:40Model ini sangat dioptimalkan untuk Claude code,
00:00:42dan tim ZAI secara eksplisit mengatakan ini adalah framework prioritas mereka.
00:00:46Saat ini,
00:00:46model ini benar-benar mengalahkan banyak model tier teratas,
00:00:49termasuk GPT-5,
00:00:50terutama pada benchmark coding.
00:00:52Di semua paket coding mereka,
00:00:53satu hal tambahan yang mereka tambahkan adalah tools MCP baru ini,
00:00:57yang tidak terintegrasi langsung.
00:00:58Ini adalah server MCP terpisah.
00:01:00Mereka telah mencantumkan tiga sekarang..
00:01:02Dan untuk semua itu berfungsi, Anda hanya perlu API key.
00:01:04Itulah mengapa mereka disertakan dalam paket,
00:01:06tapi terpisah dari model..
00:01:07Mengenai batasan penggunaan, praktis sama seperti di 4.6.
00:01:11Tapi jika Anda tidak tahu bagaimana sebelumnya,
00:01:13saya sebenarnya membuat laporan tentang itu.
00:01:15Yang lucu adalah saya pertama kali mencoba membuat laporan itu dengan Gemini 3,
00:01:18dan entah mengapa tidak bisa memberikan perbandingan paket yang tepat.
00:01:22Saya beralih ke Claude lagi,
00:01:23dan model itu meneliti dengan baik.
00:01:24Pada dasarnya,
00:01:25yang perlu Anda tahu adalah untuk paket entry-level,
00:01:27Anda mendapatkan 10 hingga 40 prompt di Claude code,
00:01:30sementara di GLM coding,
00:01:31Anda mendapatkan 120 prompt hanya dengan $3,
00:01:33yang merupakan perbedaan besar.
00:01:34Ini hanya meningkat saat Anda naik ke tier yang lebih tinggi,
00:01:38di mana paket $200 memberi Anda hingga 800 prompt dalam jendela 5 jam dengan Claude,
00:01:42sementara $30 memberi Anda 2.400.
00:01:44Semua tarif ini didiskon untuk bulan pertama,
00:01:46kemudian berlipat ganda.
00:01:48Tapi jika Anda menggunakan paket tahunan,
00:01:49jauh lebih terjangkau.
00:01:50Benchmark signifikan lainnya adalah ujian terakhir kemanusiaan.
00:01:53Bagi yang tidak tahu,
00:01:54ini adalah salah satu benchmark yang belum jenuh,
00:01:56dan sebagian besar model yang lebih baru masih mendapat skor rendah karena itu benar-benar sulit.
00:02:00Untuk benar-benar menguji UI,
00:02:02kami memiliki prompt ini,
00:02:03yang tidak terlalu fokus pada arsitektur.
00:02:05Ini terutama fokus pada logika desain yang seharusnya diimplementasikan oleh model,
00:02:09sambil memberikan beberapa opsi desain.
00:02:11Kemudian kami dapat melihat,
00:02:13berdasarkan perusahaan yang saya usulkan,
00:02:14dalam hal ini adalah platform review kode bertenaga AI,
00:02:17apa yang dibuatnya.
00:02:18Kami juga berlangganan paket MAX,
00:02:19dan ada dua cara Anda bisa menghubungkannya dengan Claude code.
00:02:22Dalam kedua kasus,
00:02:23Anda mengubah settings.json,
00:02:25tapi satu berlokasi di root proyek Anda,
00:02:27yang mengubah pengaturan global.
00:02:29Jika Anda melakukannya di dalam proyek Anda,
00:02:31maka itu hanya mengubahnya untuk proyek itu saja.
00:02:33Kami melakukan ini agar bisa membandingkannya dengan Sonnet 4.5.
00:02:36Ini adalah apa yang dihasilkan Sonnet 4.5.
00:02:38Prompt itu sebenarnya sangat bagus,
00:02:39dan kami telah menggunakannya untuk benar-benar mengidentifikasi model mana yang membangun UI dan seberapa kreatif mereka dalam melakukannya.
00:02:45Ini adalah vanilla JS sederhana,
00:02:46jadi kami tidak melihat arsitektur sekarang,
00:02:48hanya desainnya.
00:02:49Ini adalah apa yang dihasilkan GLM 4.7.
00:02:52Dalam hal desain,
00:02:52itu cukup bagus,
00:02:53tapi ada kesalahan di sini di mana tidak benar-benar memperhitungkan panjangnya,
00:02:57itulah mengapa artifak sedikit rusak.
00:02:59Selain itu,
00:02:59desainnya solid,
00:03:00tapi saya benar-benar tidak suka emoji ini sama sekali.
00:03:02Sonnet tidak menggunakan emoji apa pun,
00:03:04yang bagus dan sesuai dengan bahasa desain.
00:03:06Untuk benar-benar mengujinya,
00:03:08saya memiliki proyek Next.js siap pakai ini,
00:03:10yang memiliki konteks ini yang diinisialisasi bahwa itu perlu membangun UI yang scalable dan siap backend.
00:03:15Bagian ini penting karena,
00:03:17saat saya akan mengevaluasi alasan mengapa GLM mengejutkan berkinerja lebih baik,
00:03:21itu akan kembali ke poin ini.
00:03:22Framer Motion dan komponen ShadCN telah diinstal sebelumnya agar bisa membangun UI.
00:03:27Keduanya diminta untuk membangun halaman browser utama untuk platform streaming seperti Netflix.
00:03:32Mereka telah ditentukan apa yang sebenarnya harus dibangun dan apa yang harus ada di halaman.
00:03:35Jika berbicara tentang kegunaan model GLM dengan Claude code,
00:03:39satu masalah dengan GLM 4.6 adalah sangat lambat dalam code generation.
00:03:43Di sini,
00:03:44masalah itu,
00:03:45dalam pengalaman saya,
00:03:46belum terpecahkan.
00:03:47Masih sangat lambat..
00:03:48Tapi ada satu perubahan.
00:03:49Dengan GLM 4.6,
00:03:50model itu sebenarnya tidak berpikir,
00:03:52yang berarti tidak berpikir di dalam Claude code..
00:03:54Transkrip terperinci yang Anda dapatkan di sini jelas menunjukkan pemikiran,
00:03:58tapi itu tidak ditampilkan di 4.6.
00:03:59Anda bisa melihat dengan jelas di sini bahwa itu berpikir dengan model 4.7,
00:04:02jadi itu sudah diperbaiki.
00:04:04Selain itu, ada beberapa keanehan yang perlu Anda ketahui.
00:04:07GLM 4.7 tidak terlalu otonom..
00:04:09Saya menemukan ini selama pengujian saya.
00:04:10Seperti yang Anda lihat di sini,
00:04:12folder GLM ini sudah memiliki folder benchmark UI di mana model harus mengimplementasikan app,
00:04:16tapi dia memilih untuk mengabaikannya..
00:04:18Meskipun itu jelas ditulis di dalam konteks,
00:04:19dia melanjutkan dan membuat aplikasi Next.js lain dengan sendirinya.
00:04:22Dia bahkan tidak menginisialisasinya,
00:04:24hanya mulai menulis kode.
00:04:25Kadang-kadang itu bertindak sangat bodoh..
00:04:27Tapi setelah saya memperbaikinya dan mengarahkannya ke arah yang tepat,
00:04:30dalam hal implementasi,
00:04:31inilah yang dibuat Claude.
00:04:32Sekali lagi,
00:04:33menjadi model yang lebih tinggi,
00:04:34itu cukup bagus dengan UI.
00:04:35Ini adalah apa yang dibuat GLM 4.7.
00:04:37Claude jelas membuat UI yang lebih baik karena,
00:04:39menurut pendapat kami,
00:04:40itu masih lebih baik dalam desain..
00:04:42Untuk harganya, itu bisa diterima.
00:04:43Tapi setelah saya melihat kode dan menggalinya lebih dalam,
00:04:46karena mereka diberitahu bahwa ini seharusnya siap backend dan untuk sekarang mereka perlu menggunakan mock data,
00:04:51model GLM sebenarnya mengimplementasikan arsitektur yang lebih baik dengan menempatkan semua mock data dalam satu file..
00:04:56Kemudian ketika kami perlu menukarnya,
00:04:57kami hanya perlu mengubah file itu karena import terhubung di sana,
00:05:00berlawanan dengan apa yang diimplementasikan Claude di mana setiap komponen lain memiliki import-nya sendiri.
00:05:05Ketika kami benar-benar mengimplementasikan backend,
00:05:07kami harus mengubah semua file itu satu per satu.
00:05:09Dalam hal arsitektur dasar dan kualitas kode,
00:05:12GLM sebenarnya berkinerja cukup baik,
00:05:13dan itu mengejutkan saya karena 4.6 tidak sebagus ini dalam pengujian saya.
00:05:17Paket sebelumnya tidak benar-benar dibenarkan oleh seberapa banyak saya harus mengarahkannya dan berapa banyak kesalahan yang dia buat,
00:05:22tapi yang ini pasti lompatan besar.
00:05:24Benchmark itu pasti dibenarkan oleh pengujian yang telah saya lakukan.
00:05:27Saya juga melihat beberapa hal kecil lainnya dalam kode,
00:05:30dan GLM 4.7 sebenarnya adalah model yang bagus.
00:05:32Mengingat hasil yang tidak terduga ini,
00:05:34kami dengan jujur merekomendasikan semua orang mendapatkan paket $29 per tahun.
00:05:38Jika Anda sudah memiliki paket Claude $20,
00:05:40ini pada dasarnya tidak ada artinya dibandingkannya.
00:05:42Yang mengatakan,
00:05:43ini masih bukan model yang akan Anda gunakan untuk coding yang sepenuhnya otonom.
00:05:46Meskipun Claude benar-benar berantakan di arsitektur di sini,
00:05:49itu cukup baik sehingga dapat memperbaiki dan meningkatkan itu nanti.
00:05:52Tapi dengan keanehan kecil yang masih ada di GLM,
00:05:54kami tidak berpikir itu ide bagus untuk sepenuhnya bergantung padanya.
00:05:57Itu membawa kami ke akhir video ini.
00:05:58Jika Anda ingin mendukung channel dan membantu kami terus membuat video seperti ini,
00:06:02Anda bisa melakukannya dengan menggunakan tombol super thanks di bawah.
00:06:05Seperti biasa,
00:06:05terima kasih telah menonton dan saya akan melihat Anda di yang berikutnya.