GLM 4.7 Sangat GILA Untuk Software Dev...

AAI LABS
Computing/SoftwareSmall Business/StartupsTelecommutingInternet Technology

Transcript

00:00:00Tim ZAI baru saja meluncurkan GLM 4.7,
00:00:02dan dengan harga $29 per tahun,
00:00:04ini sangat murah untuk model yang mereka klaim mencapai 73% di SWE bench,
00:00:10setara dengan Sonnet 4.5.
00:00:11Waktu peluncurannya bukan kebetulan.
00:00:13Mereka akan go public dan perlu menunjukkan traksi di pasar barat..
00:00:15Mereka bahkan mengadakan sesi Q&A langsung di Reddit,
00:00:17yang belum pernah saya lihat dari lab AI China.
00:00:19Tapi 4.6 punya masalah nyata.
00:00:21Apakah 4.7 benar-benar sudah diperbaiki?.
00:00:23Halo semuanya,
00:00:23jika ini pertama kali Anda di sini,
00:00:25ini adalah AI Labs,
00:00:26dan selamat datang di episode lain dari Debunked,
00:00:28sebuah series di mana kami menguji alat dan model AI secara langsung,
00:00:30menghilangkan hype marketing,
00:00:32dan menunjukkan apa yang bisa mereka lakukan dengan pengujian nyata dan hasil jujur.
00:00:35Model baru ini terutama ditingkatkan melalui post-training,
00:00:38bukan perubahan arsitektur.
00:00:40Model ini sangat dioptimalkan untuk Claude code,
00:00:42dan tim ZAI secara eksplisit mengatakan ini adalah framework prioritas mereka.
00:00:46Saat ini,
00:00:46model ini benar-benar mengalahkan banyak model tier teratas,
00:00:49termasuk GPT-5,
00:00:50terutama pada benchmark coding.
00:00:52Di semua paket coding mereka,
00:00:53satu hal tambahan yang mereka tambahkan adalah tools MCP baru ini,
00:00:57yang tidak terintegrasi langsung.
00:00:58Ini adalah server MCP terpisah.
00:01:00Mereka telah mencantumkan tiga sekarang..
00:01:02Dan untuk semua itu berfungsi, Anda hanya perlu API key.
00:01:04Itulah mengapa mereka disertakan dalam paket,
00:01:06tapi terpisah dari model..
00:01:07Mengenai batasan penggunaan, praktis sama seperti di 4.6.
00:01:11Tapi jika Anda tidak tahu bagaimana sebelumnya,
00:01:13saya sebenarnya membuat laporan tentang itu.
00:01:15Yang lucu adalah saya pertama kali mencoba membuat laporan itu dengan Gemini 3,
00:01:18dan entah mengapa tidak bisa memberikan perbandingan paket yang tepat.
00:01:22Saya beralih ke Claude lagi,
00:01:23dan model itu meneliti dengan baik.
00:01:24Pada dasarnya,
00:01:25yang perlu Anda tahu adalah untuk paket entry-level,
00:01:27Anda mendapatkan 10 hingga 40 prompt di Claude code,
00:01:30sementara di GLM coding,
00:01:31Anda mendapatkan 120 prompt hanya dengan $3,
00:01:33yang merupakan perbedaan besar.
00:01:34Ini hanya meningkat saat Anda naik ke tier yang lebih tinggi,
00:01:38di mana paket $200 memberi Anda hingga 800 prompt dalam jendela 5 jam dengan Claude,
00:01:42sementara $30 memberi Anda 2.400.
00:01:44Semua tarif ini didiskon untuk bulan pertama,
00:01:46kemudian berlipat ganda.
00:01:48Tapi jika Anda menggunakan paket tahunan,
00:01:49jauh lebih terjangkau.
00:01:50Benchmark signifikan lainnya adalah ujian terakhir kemanusiaan.
00:01:53Bagi yang tidak tahu,
00:01:54ini adalah salah satu benchmark yang belum jenuh,
00:01:56dan sebagian besar model yang lebih baru masih mendapat skor rendah karena itu benar-benar sulit.
00:02:00Untuk benar-benar menguji UI,
00:02:02kami memiliki prompt ini,
00:02:03yang tidak terlalu fokus pada arsitektur.
00:02:05Ini terutama fokus pada logika desain yang seharusnya diimplementasikan oleh model,
00:02:09sambil memberikan beberapa opsi desain.
00:02:11Kemudian kami dapat melihat,
00:02:13berdasarkan perusahaan yang saya usulkan,
00:02:14dalam hal ini adalah platform review kode bertenaga AI,
00:02:17apa yang dibuatnya.
00:02:18Kami juga berlangganan paket MAX,
00:02:19dan ada dua cara Anda bisa menghubungkannya dengan Claude code.
00:02:22Dalam kedua kasus,
00:02:23Anda mengubah settings.json,
00:02:25tapi satu berlokasi di root proyek Anda,
00:02:27yang mengubah pengaturan global.
00:02:29Jika Anda melakukannya di dalam proyek Anda,
00:02:31maka itu hanya mengubahnya untuk proyek itu saja.
00:02:33Kami melakukan ini agar bisa membandingkannya dengan Sonnet 4.5.
00:02:36Ini adalah apa yang dihasilkan Sonnet 4.5.
00:02:38Prompt itu sebenarnya sangat bagus,
00:02:39dan kami telah menggunakannya untuk benar-benar mengidentifikasi model mana yang membangun UI dan seberapa kreatif mereka dalam melakukannya.
00:02:45Ini adalah vanilla JS sederhana,
00:02:46jadi kami tidak melihat arsitektur sekarang,
00:02:48hanya desainnya.
00:02:49Ini adalah apa yang dihasilkan GLM 4.7.
00:02:52Dalam hal desain,
00:02:52itu cukup bagus,
00:02:53tapi ada kesalahan di sini di mana tidak benar-benar memperhitungkan panjangnya,
00:02:57itulah mengapa artifak sedikit rusak.
00:02:59Selain itu,
00:02:59desainnya solid,
00:03:00tapi saya benar-benar tidak suka emoji ini sama sekali.
00:03:02Sonnet tidak menggunakan emoji apa pun,
00:03:04yang bagus dan sesuai dengan bahasa desain.
00:03:06Untuk benar-benar mengujinya,
00:03:08saya memiliki proyek Next.js siap pakai ini,
00:03:10yang memiliki konteks ini yang diinisialisasi bahwa itu perlu membangun UI yang scalable dan siap backend.
00:03:15Bagian ini penting karena,
00:03:17saat saya akan mengevaluasi alasan mengapa GLM mengejutkan berkinerja lebih baik,
00:03:21itu akan kembali ke poin ini.
00:03:22Framer Motion dan komponen ShadCN telah diinstal sebelumnya agar bisa membangun UI.
00:03:27Keduanya diminta untuk membangun halaman browser utama untuk platform streaming seperti Netflix.
00:03:32Mereka telah ditentukan apa yang sebenarnya harus dibangun dan apa yang harus ada di halaman.
00:03:35Jika berbicara tentang kegunaan model GLM dengan Claude code,
00:03:39satu masalah dengan GLM 4.6 adalah sangat lambat dalam code generation.
00:03:43Di sini,
00:03:44masalah itu,
00:03:45dalam pengalaman saya,
00:03:46belum terpecahkan.
00:03:47Masih sangat lambat..
00:03:48Tapi ada satu perubahan.
00:03:49Dengan GLM 4.6,
00:03:50model itu sebenarnya tidak berpikir,
00:03:52yang berarti tidak berpikir di dalam Claude code..
00:03:54Transkrip terperinci yang Anda dapatkan di sini jelas menunjukkan pemikiran,
00:03:58tapi itu tidak ditampilkan di 4.6.
00:03:59Anda bisa melihat dengan jelas di sini bahwa itu berpikir dengan model 4.7,
00:04:02jadi itu sudah diperbaiki.
00:04:04Selain itu, ada beberapa keanehan yang perlu Anda ketahui.
00:04:07GLM 4.7 tidak terlalu otonom..
00:04:09Saya menemukan ini selama pengujian saya.
00:04:10Seperti yang Anda lihat di sini,
00:04:12folder GLM ini sudah memiliki folder benchmark UI di mana model harus mengimplementasikan app,
00:04:16tapi dia memilih untuk mengabaikannya..
00:04:18Meskipun itu jelas ditulis di dalam konteks,
00:04:19dia melanjutkan dan membuat aplikasi Next.js lain dengan sendirinya.
00:04:22Dia bahkan tidak menginisialisasinya,
00:04:24hanya mulai menulis kode.
00:04:25Kadang-kadang itu bertindak sangat bodoh..
00:04:27Tapi setelah saya memperbaikinya dan mengarahkannya ke arah yang tepat,
00:04:30dalam hal implementasi,
00:04:31inilah yang dibuat Claude.
00:04:32Sekali lagi,
00:04:33menjadi model yang lebih tinggi,
00:04:34itu cukup bagus dengan UI.
00:04:35Ini adalah apa yang dibuat GLM 4.7.
00:04:37Claude jelas membuat UI yang lebih baik karena,
00:04:39menurut pendapat kami,
00:04:40itu masih lebih baik dalam desain..
00:04:42Untuk harganya, itu bisa diterima.
00:04:43Tapi setelah saya melihat kode dan menggalinya lebih dalam,
00:04:46karena mereka diberitahu bahwa ini seharusnya siap backend dan untuk sekarang mereka perlu menggunakan mock data,
00:04:51model GLM sebenarnya mengimplementasikan arsitektur yang lebih baik dengan menempatkan semua mock data dalam satu file..
00:04:56Kemudian ketika kami perlu menukarnya,
00:04:57kami hanya perlu mengubah file itu karena import terhubung di sana,
00:05:00berlawanan dengan apa yang diimplementasikan Claude di mana setiap komponen lain memiliki import-nya sendiri.
00:05:05Ketika kami benar-benar mengimplementasikan backend,
00:05:07kami harus mengubah semua file itu satu per satu.
00:05:09Dalam hal arsitektur dasar dan kualitas kode,
00:05:12GLM sebenarnya berkinerja cukup baik,
00:05:13dan itu mengejutkan saya karena 4.6 tidak sebagus ini dalam pengujian saya.
00:05:17Paket sebelumnya tidak benar-benar dibenarkan oleh seberapa banyak saya harus mengarahkannya dan berapa banyak kesalahan yang dia buat,
00:05:22tapi yang ini pasti lompatan besar.
00:05:24Benchmark itu pasti dibenarkan oleh pengujian yang telah saya lakukan.
00:05:27Saya juga melihat beberapa hal kecil lainnya dalam kode,
00:05:30dan GLM 4.7 sebenarnya adalah model yang bagus.
00:05:32Mengingat hasil yang tidak terduga ini,
00:05:34kami dengan jujur merekomendasikan semua orang mendapatkan paket $29 per tahun.
00:05:38Jika Anda sudah memiliki paket Claude $20,
00:05:40ini pada dasarnya tidak ada artinya dibandingkannya.
00:05:42Yang mengatakan,
00:05:43ini masih bukan model yang akan Anda gunakan untuk coding yang sepenuhnya otonom.
00:05:46Meskipun Claude benar-benar berantakan di arsitektur di sini,
00:05:49itu cukup baik sehingga dapat memperbaiki dan meningkatkan itu nanti.
00:05:52Tapi dengan keanehan kecil yang masih ada di GLM,
00:05:54kami tidak berpikir itu ide bagus untuk sepenuhnya bergantung padanya.
00:05:57Itu membawa kami ke akhir video ini.
00:05:58Jika Anda ingin mendukung channel dan membantu kami terus membuat video seperti ini,
00:06:02Anda bisa melakukannya dengan menggunakan tombol super thanks di bawah.
00:06:05Seperti biasa,
00:06:05terima kasih telah menonton dan saya akan melihat Anda di yang berikutnya.

Key Takeaway

GLM 4.7 adalah terobosan signifikan dalam aksesibilitas AI untuk pengembang software dengan harga terjangkau dan performa coding yang kompetitif, meskipun masih memiliki keterbatasan dalam otonomi dan kecepatan.

Highlights

GLM 4.7 diluncurkan dengan harga $29 per tahun dan mencapai 73% di SWE bench, setara dengan Sonnet 4.5, menjadikannya sangat terjangkau untuk model berkinerja tinggi

Model ini dioptimalkan melalui post-training dan khususnya didesain untuk Claude Code dengan peningkatan signifikan dalam kemampuan thinking yang tidak ada di versi 4.6

Paket coding GLM menawarkan value proposition yang jauh lebih baik dibanding Claude: paket $3 memberikan 120 prompt vs 10-40 prompt di Claude dengan harga lebih murah

GLM 4.7 menunjukkan arsitektur kode yang lebih baik dalam implementasi backend dengan mengelola mock data dalam satu file terpusat, berbeda dengan pendekatan Claude

Model ini masih memiliki kekurangan termasuk kecepatan generasi kode yang lambat dan kurangnya otonomi dalam mengikuti instruksi konteks

Performa UI/desain GLM 4.7 solid namun lebih sederhana dibanding Claude Sonnet 4.5, dengan penggunaan emoji yang tidak konsisten dengan prinsip desain modern

Peluncuran strategis GLM 4.7 bertepatan dengan IPO perusahaan ZAI dan upaya penetrasi pasar barat melalui transparansi dan engagement komunitas

Timeline

Pengenalan GLM 4.7 dan Konteks Peluncuran

Video dibuka dengan pengumuman bahwa tim ZAI meluncurkan GLM 4.7 dengan harga yang sangat kompetitif yaitu $29 per tahun, dan model ini diklaim mencapai 73% di SWE bench yang setara dengan Sonnet 4.5. Timing peluncuran bukan kebetulan karena perusahaan akan go public dan perlu menunjukkan traksi di pasar barat, bahkan melakukan sesi Q&A langsung di Reddit yang belum pernah dilakukan lab AI China sebelumnya. Penyaji mengidentifikasi diri sebagai AI Labs dan menjelaskan bahwa episode ini adalah bagian dari series 'Debunked' yang menguji alat dan model AI secara langsung untuk menghilangkan hype marketing dan menunjukkan hasil yang jujur. Context ini penting untuk memahami motivasi komersial di balik peluncuran dan komitmen perusahaan terhadap transparansi pasar.

Spesifikasi Teknis dan Peningkatan Model GLM 4.7

GLM 4.7 mengalami peningkatan terutama melalui post-training bukan perubahan arsitektur, dan dioptimalkan khusus untuk Claude Code sebagai framework prioritas tim ZAI. Model ini mengalahkan banyak model tier teratas termasuk GPT-5 pada benchmark coding, dengan kemampuan thinking yang ditingkatkan di Claude Code (fitur yang tidak ada di GLM 4.6). Paket coding GLM dilengkapi dengan tools MCP baru yang merupakan server terpisah dan tidak terintegrasi langsung ke dalam model. Batasan penggunaan pratik sama dengan versi 4.6, namun value proposition jauh lebih baik: paket entry-level $3 memberikan 120 prompt di GLM coding versus hanya 10-40 prompt di Claude Code, dan perbedaan ini semakin besar di tier yang lebih tinggi di mana paket $30 GLM memberikan 2.400 prompt dalam 5 jam dibanding $200 Claude untuk 800 prompt.

Pengujian UI dan Desain dengan Prompt Humanity Exam

Pengujian menggunakan benchmark 'ujian terakhir kemanusiaan' yang merupakan salah satu benchmark yang belum jenuh dan masih sulit dilewati kebanyakan model modern. Prompt difokuskan pada logika desain yang harus diimplementasikan model sambil memberikan beberapa opsi desain untuk platform review kode bertenaga AI. Sonnet 4.5 menghasilkan vanilla JavaScript dengan desain yang elegan tanpa emoji dan sesuai dengan bahasa desain profesional, sementara GLM 4.7 menghasilkan desain yang solid namun ada kesalahan perhitungan panjang yang menyebabkan artifact rusak dan penggunaan emoji yang tidak sesuai dengan standar desain. Perbandingan ini menunjukkan bahwa meskipun GLM 4.7 kompeten dalam desain, Claude Sonnet 4.5 masih unggul dalam aspek kreativitas dan konsistensi desain visual.

Pengujian Next.js dan Implementasi Backend Architecture

Pengujian dilanjutkan dengan proyek Next.js siap pakai yang memerlukan pembangunan UI yang scalable dan siap backend untuk platform streaming seperti Netflix, dengan Framer Motion dan ShadCN components sudah terinstal. Masalah utama ditemukan adalah GLM 4.7 tidak terlalu otonom: meskipun konteks jelas menunjukkan folder benchmark UI yang ada, model memilih untuk mengabaikannya dan membuat aplikasi Next.js baru dengan sendirinya tanpa inisialisasi yang tepat. Namun, setelah pengarahan yang benar, perbedaan signifikan terungkap dalam arsitektur kode: GLM 4.7 mengimplementasikan desain yang lebih baik dengan mengelola semua mock data dalam satu file terpusat sehingga mudah ditukar kemudian, sedangkan Claude mengimplementasikan import terpisah di setiap komponen yang memerlukan perubahan file-by-file saat migrasi ke backend. Meskipun Claude menghasilkan UI yang secara visual lebih baik, GLM 4.7 menunjukkan kematangan dalam pemahaman arsitektur kode dan best practices untuk maintainability jangka panjang.

Kinerja, Keterbatasan, dan Rekomendasi

Dalam hal arsitektur dasar dan kualitas kode, GLM 4.7 berkinerja cukup baik dan menunjukkan lompatan besar dari versi 4.6, dengan benchmark yang dibenarkan oleh hasil pengujian praktis meskipun masih ada beberapa keanehan minor. Penyaji merekomendasikan semua orang mendapatkan paket $29 per tahun karena value proposition yang luar biasa, terutama bagi pengguna baru, meskipun kurang relevan bagi yang sudah memiliki paket Claude $20. Namun GLM 4.7 masih bukan model untuk coding yang sepenuhnya otonom karena kekurangan dalam otonomi dan keputusan konteks, meskipun performa teknis membuatnya valuable untuk development kerja sama antara manusia-AI. Kesimpulannya, GLM 4.7 merepresentasikan nilai signifikan dalam aksesibilitas AI untuk pengembang dengan harga terjangkau dan performa kompetitif, namun memerlukan guidance manusia untuk hasil optimal, dan peluncuran ini menandai strategi ZAI untuk memasuki pasar barat sebelum IPO.

Community Posts

View all posts