00:00:00Anthropic baru saja merilis Claude Opus 4.6 dan model ini meraih skor tertinggi di Terminal Bench 2.0 dibandingkan model mana pun
00:00:06Maaf menyela kegiatan pemrograman Anda di sini
00:00:10Tapi ternyata GPT 5.3 codecs baru saja keluar dan itu mengalahkan Opus 4.6 di Terminal Bench lebih dari 10%
00:00:16Jadi sepertinya kejayaan Anthropic benar-benar hanya bertahan beberapa menit. Persaingan antara keduanya semakin sengit
00:00:23Jadi saya sangat penasaran untuk melihat apa yang baru di model-model ini dan mencari tahu mana yang paling enak digunakan akhir-akhir ini
00:00:29Sebenarnya GPT 5.2 yang terasa lebih baik
00:00:31Jadi saya penasaran apakah Claude bisa merebut kembali keunggulannya atau apakah OpenAI sudah siap dengan GPT 5.3 codecs
00:00:37Pertama-tama, ringkasan singkat tentang apa yang baru di model-model ini karena kita semua tahu mereka akan lebih baik dari versi sebelumnya dalam benchmark
00:00:48Yang akan saya tunjukkan di akhir, tapi apakah ada hal lain yang benar-benar berubah dari model-model tersebut?
00:00:52Nah untuk Opus
00:00:53Mereka mengklaim bisa merencanakan dengan lebih teliti, mempertahankan tugas agentik lebih lama, dan beroperasi lebih andal di basis kode yang lebih besar dengan hasil yang lebih baik
00:01:00Kemampuan peninjauan kode dan debugging untuk mendeteksi kesalahannya sendiri
00:01:02Ini sebenarnya beberapa hal yang menurut saya merupakan titik terlemah Opus dibandingkan GPT 5.2. Dalam pengalaman saya
00:01:08Biasanya ia mulai mengode lebih cepat namun cenderung membuat sedikit lebih banyak kesalahan
00:01:12Sedangkan GPT 5.2 butuh waktu sedikit lebih lama untuk mulai mengode dan memahami konteks repositorinya
00:01:17Semoga perubahan ini meningkatkan Opus di sini dan kemungkinan juga akan didukung oleh total 1 juta baru miliknya
00:01:23jendela konteks
00:01:24Meskipun disebutkan ini masih dalam tahap beta dan serupa dengan penyedia lainnya
00:01:27Anda juga akan dikenakan biaya tambahan dengan perintah yang melebihi 200.000 token seharga $10 per juta token input dan
00:01:33$37,50 per juta token output. Beralih ke codecs 5.3
00:01:38OpenAI menyatakan bahwa model ini memajukan performa coding mutakhir dari GPT 5.2 codecs serta kemampuan penalaran dan pengetahuan profesional
00:01:45Kemampuan GPT 5.2 digabung dalam satu model, yang juga 25% lebih cepat
00:01:51Ini memungkinkannya menangani tugas yang berjalan lama yang melibatkan riset, penggunaan alat, dan eksekusi yang kompleks
00:01:57Jadi sepertinya mereka mendorong model ini menjadi serba bisa dengan pengetahuan GPT 5.2 dan kemampuan coding yang ditingkatkan
00:02:03Tapi itu semua hanyalah bahasa pemasaran
00:02:05Mari kita uji model-model ini dalam tes dunia nyata dan yang pertama saya coba adalah memperbarui paket agen convex untuk mendukung AI
00:02:11SDK v6. Akhir-akhir ini saya sangat menyukai convex sebagai basis data saya dan paket ini intinya membantu menghubungkan AI SDK dengan basis data
00:02:19Jadi Anda mendapatkan performa yang sangat bagus, tapi masalahnya paket ini belum ditingkatkan ke versi terbaru
00:02:23Bisa dilihat di sini pada dokumentasi cells bahwa migrasi dari v5 ke v6 bukanlah migrasi yang mudah dilakukan
00:02:28Mereka melakukan banyak perubahan drastis dan mengubah banyak tipe
00:02:32Jadi yang saya lakukan adalah membuat aplikasi chat dasar di convex yang sudah berfungsi menggunakan paket agen tersebut
00:02:36Tapi kemudian saya meningkatkan paket ke v6 dan saya mendapatkan banyak kesalahan build dan tipe
00:02:40Saya langsung meminta model-model tersebut untuk memperbaikinya. Anda bisa melihat perintah yang saya gunakan di sini di codecs
00:02:44Saya katakan saya sedang membangun aplikasi chat dengan convex dan saya punya versi yang sudah berfungsi
00:02:46Tapi kemudian saya upgrade ke v6 dan saya perlu memperbaiki kesalahan tipe dan build
00:02:50Saya memberikan panduan migrasinya agar bisa digunakan sebagai konteks jika diperlukan dan saya katakan saya ingin semua pengujian
00:02:55Lulus, hindari trik typescript seperti “as any” sebisa mungkin karena saya sering melihat banyak model melakukan ini
00:02:59Jadi saya secara khusus ingin mengatakan tolong jangan lakukan itu karena ada cukup banyak tipe kompleks di AI
00:03:03SDK sekarang. Karena kita sudah di codecs, kita bisa melihat bagaimana performa 5.3 codecs; ia memulai dengan
00:03:09Memahami repositori, Anda bisa melihat ia tahu itu adalah mono repo dengan paket slash agent yang kita miliki, lalu ia mengidentifikasi beberapa
00:03:15akar masalah dan beberapa paket yang perlu ditingkatkan dan menjabarkan dengan tepat bagaimana ia akan menyelesaikan tugas ini dan setelah itu
00:03:22Ia langsung mulai mengode, melakukan beberapa perubahan, menjalankan build sesekali, dan terus bekerja
00:03:27Memperbaiki semua kesalahan tipe itu dan secara keseluruhan kami benar-benar berjalan selama sekitar 40 menit tanpa gangguan sama sekali
00:03:32Saya sangat terkesan, Anda bisa melihat ia menambahkan
00:03:35545 baris kode dan menghapus 111 baris. Di sisi kode Claude
00:03:39Saya memberikan salinan proyek yang persis sama dan menggunakan perintah yang sama persis dan sekali lagi ini mengerjakan tugas selama sekitar 40
00:03:44menit dan memang ada beberapa kesalahan build saat saya mencoba menjalankannya
00:03:48Jadi saya harus mengirim satu perintah lagi agar Opus memberi saya versi kode yang berfungsi
00:03:53Tapi sekali lagi, pengalamannya cukup mirip dengan yang kita lihat di codecs
00:03:56Tapi satu hal yang harus saya katakan, saya sangat suka antarmuka codecs. Saya lebih suka itu daripada antarmuka terminal. Maaf ya
00:04:02Bagaimanapun, saya bisa mengonfirmasi setelah satu perintah dengan codecs 5.3 dan dua perintah dengan Opus 4.6
00:04:06Keduanya berhasil meningkatkan paket agen ke versi baru AI SDK tanpa kesalahan tipe
00:04:11Tanpa kesalahan build dan semua pengujian lulus tetapi mereka menanganinya dengan cara yang berbeda di sini
00:04:16Saya menempatkan codecs di kiri dan perubahan yang dilakukan Opus di kanan
00:04:19Anda bisa melihat Opus melakukan lebih banyak perubahan pada proyek dibandingkan codecs
00:04:23Mereka menangani beberapa fitur dengan sedikit berbeda
00:04:25Salah satu hal yang dilakukan codecs dengan sangat baik adalah adanya logika permintaan persetujuan alat di sini
00:04:30Ini adalah sesuatu yang baru di AI SDK v6. Saya sepertinya tidak menemukan penyebutan ini di Opus
00:04:35Sepertinya ia melewatkannya begitu saja dan tidak benar-benar menambahkannya ke dalam kode
00:04:40tapi satu hal yang menurut saya dilakukan codecs dengan sangat buruk adalah jika kita melihat pesan UI, ia menambahkan
00:04:46fungsi buatannya sendiri untuk mengubah pesan UI menjadi pesan model
00:04:50Jika Anda tidak tahu, AI SDK sebenarnya sudah memiliki fungsi untuk melakukan ini dan ia seharusnya menggunakan itu saja
00:04:57Anda bisa melihat perbandingannya di sini bahwa Opus melakukan ini dengan benar
00:05:00Ia hanya menggunakan fungsi “convert to model messages” yang berasal dari AI SDK
00:05:04Dan ini berarti di masa depan jika mereka meningkatkan paket ini
00:05:07Saya tidak perlu khawatir untuk melakukan perubahan apa pun pada versi saya sendiri di sini karena saya seharusnya menggunakan versi yang datang
00:05:13dari paketnya
00:05:14Jadi ini hal yang sedikit mengganggu dan menjadi peringatan bagi saya saat meninjau kode ini
00:05:19Tapi untuk mendapatkan pendapat kedua tentang tinjauan kode saya
00:05:20Saya memasukkan kembali hasilnya ke codecs 5.3 dan memintanya melakukan peninjauan bersama saya dan Anda lihat ia menjabarkan
00:05:26kelebihan dan kekurangan dari setiap pendekatan di sini
00:05:29Tapi di bagian bawah ia memberi saya kesimpulan dan codecs 5.3 sebenarnya lebih memilih versi chat Opus yang memiliki arsitektur migrasi
00:05:36yang lebih baik jika harus memilih satu basis kode untuk dirilis dengan aman
00:05:39Ia akan memilih chat Opus lalu mengambil penanganan persetujuan dan penolakan dari chat codecs
00:05:43Jadi fungsi ekstra yang kita lihat untuk permintaan persetujuan alat tadi
00:05:46Dikatakan cukup ambil itu dari versi codecs dan tambahkan ke versi Opus maka kita akan mendapatkan migrasi yang lebih baik
00:05:51Setidaknya senang melihat codecs 5.3 tidak bias dan tidak memilih dirinya sendiri
00:05:55Tapi saya harus mengakui cara keduanya menangani migrasi cukup mirip dan saya mungkin bisa mengarahkan mereka ke arah yang
00:06:01benar, tapi satu tes saja tidak cukup
00:06:03Jadi untuk tes berikutnya, sedikit kurang serius, tapi saya bertanya kepada keduanya apakah mereka bisa membuatkan saya klon Club Penguin
00:06:08Menggunakan Three.js. Sekarang, saya tidak akan memberi tahu Anda mana yang mana, tapi ini adalah game pertama yang kita dapatkan
00:06:13Anda bisa melihat saya punya fitur buat penguin di sini dan kita melihat avatarnya berubah di atas
00:06:17Saya bisa menambahkan topi di sini. Ada topi pesta, baling-baling, mahkota
00:06:21Saya akan memilih topi baling-baling di sini dan klik main dan jika Anda tahu sesuatu tentang Club Penguin
00:06:26Saya rasa ini sudah lumayan meniru pusat kota yang kita kenal meskipun piza-nya tidak ada di sebelah sini
00:06:32Biasanya ada pusat disko di sini dan Anda tidak bisa masuk ke bangunan-bangunan ini
00:06:35Bisa dilihat belum ada yang bersifat solid
00:06:37Tapi yang dilakukannya dengan cukup baik adalah jika kita ke peta, kita bisa pergi ke berbagai zona di sini
00:06:41Ada desa ski, jika saya klik dan bergerak di sini
00:06:44Saya pikir penguin saya terlihat oke untuk sesuatu di Three.js di mana saya tidak memberinya aset atau apa pun
00:06:49Ia melakukan ini semua dari pelatihannya sendiri dan kita bisa masuk dan memainkan game balap seluncur di sini
00:06:54Yang merupakan favorit saya di Club Penguin dan memang ada beberapa hal yang kurang
00:06:59Saya harus akui tapi ini hasil yang cukup bagus untuk percobaan pertama dalam satu perintah saja
00:07:04Saya bahkan bisa mengonfirmasi bahwa versi ini mencoba membuat game cart surfer di sini
00:07:07Yang merupakan favorit saya di Club Penguin, tapi yang ini sepertinya sedikit rusak
00:07:11Anda hanya bisa bergerak dari sisi ke sisi dan sekarang sepertinya saya berada di bawah peta. Sekarang juga sangat gelap
00:07:15Inilah hasil yang diberikan model satunya lagi dan saya ingin Anda menulis di komentar
00:07:18Model mana yang menurut Anda melakukan pekerjaan lebih baik dan apakah Anda bisa menebak model mana yang membuat setiap versi?
00:07:22Saya akan memberi tahu Anda di akhir tes ini. Anda lihat di versi ini
00:07:25Kita punya pemilih warna yang sama dengan yang ada di perintah
00:07:27Kita juga punya topi dan aksesori di sini. Jadi saya pilih mahkota kali ini dan kita klik mulai menjelajah
00:07:31Penguinnya sedikit lebih gemuk di versi ini. Saya harus katakan tampilannya lebih lucu tapi sekali lagi, saya tidak memberinya aset apa pun
00:07:36Ini dibuat dari nol di Three.js
00:07:38Masalahnya sama, Anda bisa menembus bangunan
00:07:41Tapi kita punya peta dan semua zona yang berbeda di sini
00:07:44Jadi jika saya pergi ke desa ski
00:07:46Saya seharusnya bisa memainkan game-nya jadi saya bisa main balap seluncur di sini dan sejujurnya
00:07:50Ini cukup mirip dengan versi lain dari game balap seluncur yang kita miliki tadi
00:07:53Bisa dilihat ada beberapa pohon muncul di kejauhan
00:07:56Kita punya tiga nyawa dan penghitung nyawanya benar-benar berfungsi
00:07:58Tapi sepertinya kita tidak bisa melompat di versi ini
00:08:01Namun model ini juga memberi saya versi game cart surfer
00:08:04Tapi lagi-alih, yang ini sedikit aneh
00:08:06Meskipun saya rasa lebih fungsional karena Anda bisa melihat sesuatu di versi ini dan bisa melompat tapi
00:08:11Saya tidak yakin di mana sebenarnya saya berselancar. Tidak ada rel dan secara keseluruhan ya, ini bukan game cart surfer
00:08:17yang saya ingat dari Club Penguin, tapi secara keseluruhan
00:08:19Saya selalu terkesan dengan apa yang bisa dilakukan model-model ini dalam satu perintah terutama dengan Three.js dan jika Anda penasaran mana model yang mengerjakan mana
00:08:25Yang pertama adalah Opus 4.6 dan yang kedua adalah codecs 5.3, dan saya rasa saya lebih suka yang pertama
00:08:30Jadi saya rasa Opus 4.6 menang di tes Club Penguin saya. Sekarang tes terakhir
00:08:34Yang saya jalankan pada model-model ini adalah untuk melihat seberapa bagus mereka dalam desain UI karena model-model ini semakin mahir dalam hal itu
00:08:38Jadi saya memberi keduanya perintah untuk membuatkan saya halaman landas untuk situs media sosial khusus AI
00:08:42Jadi mirip dengan molt book dan halamannya harus berkesan sinis dan menekankan masa depan serta khusus AI, dan lakukan semua ini dalam satu
00:08:49file HTML. Inilah hasil yang saya dapatkan dari kedua perintah tersebut dan saya harus akui saya sangat terkesan dengan codecs di sini
00:08:55Ada codecs 5.3 di kiri dan Opus 4.6 di kanan dan saya sangat suka arah yang diambil codecs
00:09:005.3 dengan situs ini
00:09:01Ia memilih desain neo-brutalisme dan ini sedikit lebih menyenangkan daripada situs-situs bergaya vibe lainnya
00:09:06Saya rasa Opus 4.6 di sini meskipun desainnya bagus, hanya terlihat seperti aplikasi bergaya vibe pada umumnya. Hasilnya sangat bagus
00:09:13Saya harus akui tapi sekali lagi
00:09:14Ada gradasi ungu dan segala hal tentang ini menunjukkan kesan aplikasi bergaya vibe, sedangkan menurut saya versi codecs
00:09:205.3 terlihat seperti ada lebih banyak masukan manual dari seseorang, mungkin diarahkan untuk ke sana
00:09:25Padahal saya memberi mereka perintah yang sama persis
00:09:27Satu-satunya hal yang menurut saya dilakukan Opus 4.6 sedikit lebih baik adalah halamannya sebenarnya sedikit lebih fungsional
00:09:32Bisa dilihat ada tab tren di bawah sini. Ada aturan, model teratas minggu ini
00:09:36Ada subreddit populer dan juga umpan populer sedangkan versi codecs 5.3 sedikit lebih kosong
00:09:41Dan kita hanya punya tab tren di bawah sini dan itu saja
00:09:44Jadi saya penasaran melihat bagaimana skor mereka di Design Arena karena mereka baru saja keluar
00:09:47Jadi mereka belum masuk peringkat, tapi saat ini GLM 4.7 masih memimpin
00:09:51Jadi saya ingin melihat apakah codecs 5.3 atau Opus 4.6 bisa merebut posisi itu secara keseluruhan
00:09:55Kedua model sangat mumpuni dan cukup sulit untuk menentukan mana yang akan menjadi yang terbaik
00:09:59Secara pribadi saya mungkin lebih condong ke codecs 5.3
00:10:03Tapi murni karena saya suka aplikasi codecs dan pengalaman keseluruhan saya saat memberi perintah pada model OpenAI jika kita ingin membandingkan
00:10:09mereka pada benchmark, seperti yang saya sebutkan di pembukaan, codecs memiliki keunggulan besar di Terminal Bench 2.0
00:10:15Yang sebenarnya merupakan lompatan luar biasa dan itu pada dasarnya satu-satunya benchmark yang bisa kita bandingkan saat ini karena saya rasa
00:10:21Anthropic belum siap OpenAI merilis model ini dan menjengkelkannya mereka tidak menggunakan benchmark yang sama di postingan blog mereka
00:10:28Saya sudah memeriksa Artificial Analysis dan sejauh ini mereka baru mem-benchmark Opus 4.6 untuk coding tapi hanya versi non-reasoning saja
00:10:35Tapi saya rasa cukup mengesankan bahwa versi non-reasoning 4.6 sebenarnya memiliki performa sebaik versi reasoning 4.5
00:10:42Opus, perasaan pribadi saya saat ini adalah lompatan Opus 4.5 ke 4.6 sedikit lebih tipis daripada codecs 5.2 ke 5.3
00:10:49Tapi saya harus menggunakan keduanya dan melihat bagaimana rasanya di dunia nyata
00:10:53Ada beberapa fitur ekstra terakhir di kedua rilis ini
00:10:55Dan salah satu yang paling keren adalah kedua model ini kabarnya telah meningkatkan kemampuan keamanan siber dengan OpenAI mengatakan bahwa GPT
00:11:015.3 codecs adalah model pertama yang mereka klasifikasikan berkemampuan tinggi untuk tugas terkait keamanan siber dan yang pertama yang secara langsung dilatih untuk mengidentifikasi
00:11:09kerentanan perangkat lunak dan Anthropic pada dasarnya mengatakan hal yang sama di postingan blog yang panjang ini. Satu fitur codecs yang sangat saya nantikan
00:11:16adalah ia bisa diarahkan selagi ia bekerja; mereka bilang alih-alih menunggu hasil akhir
00:11:21Anda sebenarnya bisa berinteraksi secara real-time mengajukan pertanyaan dan mendiskusikan pendekatan serta mengarahkannya menuju solusi
00:11:27Dan saya rasa pendekatan ini sedikit lebih baik karena saya selalu bimbang apakah saya harus membiarkan model selesai dulu atau
00:11:32harus menyela dan menghentikannya saat ia melakukan sesuatu ketika saya ingin membuat perubahan
00:11:35Dan menurut saya terutama ketika kita sekarang memiliki tugas yang bisa berjalan dalam waktu yang cukup lama
00:11:40Ini akan menjadi pengalaman pengguna yang jauh lebih menyenangkan. Kita benar-benar bisa berbicara dengannya selagi ia bekerja
00:11:44Terakhir, kita punya beberapa fitur baru untuk Claude juga. Yang pertama adalah Claude Code
00:11:48Anda sekarang bisa menggunakan tim agen untuk mengerjakan tugas bersama atau dikenal sebagai sub-agen. Richard sebenarnya membuat video tentang ini awal minggu ini
00:11:55Jadi tontonlah jika Anda tertarik belajar lebih lanjut dan ada juga beberapa fitur API keren seperti Claude sekarang punya fitur pemadatan
00:12:01yang terintegrasi ke dalam API sehingga Anda bisa menggunakannya untuk meringkas konteksnya dan melakukan tugas yang berjalan lebih lama
00:12:06Dan ada juga mode berpikir adaptif baru
00:12:08Jadi intinya Anda membiarkan model menangkap petunjuk kontekstual untuk melihat seberapa banyak ia harus menggunakan pemikiran panjangnya
00:12:13Begitulah, model-model coding telah berkembang sangat jauh
00:12:16Jika Anda belum tahu, sebenarnya belum genap setahun sejak Claude Code dirilis
00:12:20Beri tahu saya pendapat Anda tentang semua model ini di kolom komentar selagi di sana jangan lupa subscribe dan seperti biasa sampai jumpa di video berikutnya
00:12:31(musik ceria)