OpenAI Menang... (Opus 4.6 + Codex 5.3)

Bahasa Indonesiaالعربية Deutsch English Español Français हिन्दी 日本語 한국어 Português Русский 中文

Computing/SoftwareBusiness NewsVideo & Computer GamesInternet Technology

Transcript

00:00:00Anthropic baru saja merilis Claude Opus 4.6 dan model ini meraih skor tertinggi di Terminal Bench 2.0 dibandingkan model mana pun

00:00:06Maaf menyela kegiatan pemrograman Anda di sini

00:00:10Tapi ternyata GPT 5.3 codecs baru saja keluar dan itu mengalahkan Opus 4.6 di Terminal Bench lebih dari 10%

00:00:16Jadi sepertinya kejayaan Anthropic benar-benar hanya bertahan beberapa menit. Persaingan antara keduanya semakin sengit

00:00:23Jadi saya sangat penasaran untuk melihat apa yang baru di model-model ini dan mencari tahu mana yang paling enak digunakan akhir-akhir ini

00:00:29Sebenarnya GPT 5.2 yang terasa lebih baik

00:00:31Jadi saya penasaran apakah Claude bisa merebut kembali keunggulannya atau apakah OpenAI sudah siap dengan GPT 5.3 codecs

00:00:37Pertama-tama, ringkasan singkat tentang apa yang baru di model-model ini karena kita semua tahu mereka akan lebih baik dari versi sebelumnya dalam benchmark

00:00:48Yang akan saya tunjukkan di akhir, tapi apakah ada hal lain yang benar-benar berubah dari model-model tersebut?

00:00:52Nah untuk Opus

00:00:53Mereka mengklaim bisa merencanakan dengan lebih teliti, mempertahankan tugas agentik lebih lama, dan beroperasi lebih andal di basis kode yang lebih besar dengan hasil yang lebih baik

00:01:00Kemampuan peninjauan kode dan debugging untuk mendeteksi kesalahannya sendiri

00:01:02Ini sebenarnya beberapa hal yang menurut saya merupakan titik terlemah Opus dibandingkan GPT 5.2. Dalam pengalaman saya

00:01:08Biasanya ia mulai mengode lebih cepat namun cenderung membuat sedikit lebih banyak kesalahan

00:01:12Sedangkan GPT 5.2 butuh waktu sedikit lebih lama untuk mulai mengode dan memahami konteks repositorinya

00:01:17Semoga perubahan ini meningkatkan Opus di sini dan kemungkinan juga akan didukung oleh total 1 juta baru miliknya

00:01:23jendela konteks

00:01:24Meskipun disebutkan ini masih dalam tahap beta dan serupa dengan penyedia lainnya

00:01:27Anda juga akan dikenakan biaya tambahan dengan perintah yang melebihi 200.000 token seharga $10 per juta token input dan

00:01:33$37,50 per juta token output. Beralih ke codecs 5.3

00:01:38OpenAI menyatakan bahwa model ini memajukan performa coding mutakhir dari GPT 5.2 codecs serta kemampuan penalaran dan pengetahuan profesional

00:01:45Kemampuan GPT 5.2 digabung dalam satu model, yang juga 25% lebih cepat

00:01:51Ini memungkinkannya menangani tugas yang berjalan lama yang melibatkan riset, penggunaan alat, dan eksekusi yang kompleks

00:01:57Jadi sepertinya mereka mendorong model ini menjadi serba bisa dengan pengetahuan GPT 5.2 dan kemampuan coding yang ditingkatkan

00:02:03Tapi itu semua hanyalah bahasa pemasaran

00:02:05Mari kita uji model-model ini dalam tes dunia nyata dan yang pertama saya coba adalah memperbarui paket agen convex untuk mendukung AI

00:02:11SDK v6. Akhir-akhir ini saya sangat menyukai convex sebagai basis data saya dan paket ini intinya membantu menghubungkan AI SDK dengan basis data

00:02:19Jadi Anda mendapatkan performa yang sangat bagus, tapi masalahnya paket ini belum ditingkatkan ke versi terbaru

00:02:23Bisa dilihat di sini pada dokumentasi cells bahwa migrasi dari v5 ke v6 bukanlah migrasi yang mudah dilakukan

00:02:28Mereka melakukan banyak perubahan drastis dan mengubah banyak tipe

00:02:32Jadi yang saya lakukan adalah membuat aplikasi chat dasar di convex yang sudah berfungsi menggunakan paket agen tersebut

00:02:36Tapi kemudian saya meningkatkan paket ke v6 dan saya mendapatkan banyak kesalahan build dan tipe

00:02:40Saya langsung meminta model-model tersebut untuk memperbaikinya. Anda bisa melihat perintah yang saya gunakan di sini di codecs

00:02:44Saya katakan saya sedang membangun aplikasi chat dengan convex dan saya punya versi yang sudah berfungsi

00:02:46Tapi kemudian saya upgrade ke v6 dan saya perlu memperbaiki kesalahan tipe dan build

00:02:50Saya memberikan panduan migrasinya agar bisa digunakan sebagai konteks jika diperlukan dan saya katakan saya ingin semua pengujian

00:02:55Lulus, hindari trik typescript seperti “as any” sebisa mungkin karena saya sering melihat banyak model melakukan ini

00:02:59Jadi saya secara khusus ingin mengatakan tolong jangan lakukan itu karena ada cukup banyak tipe kompleks di AI

00:03:03SDK sekarang. Karena kita sudah di codecs, kita bisa melihat bagaimana performa 5.3 codecs; ia memulai dengan

00:03:09Memahami repositori, Anda bisa melihat ia tahu itu adalah mono repo dengan paket slash agent yang kita miliki, lalu ia mengidentifikasi beberapa

00:03:15akar masalah dan beberapa paket yang perlu ditingkatkan dan menjabarkan dengan tepat bagaimana ia akan menyelesaikan tugas ini dan setelah itu

00:03:22Ia langsung mulai mengode, melakukan beberapa perubahan, menjalankan build sesekali, dan terus bekerja

00:03:27Memperbaiki semua kesalahan tipe itu dan secara keseluruhan kami benar-benar berjalan selama sekitar 40 menit tanpa gangguan sama sekali

00:03:32Saya sangat terkesan, Anda bisa melihat ia menambahkan

00:03:35545 baris kode dan menghapus 111 baris. Di sisi kode Claude

00:03:39Saya memberikan salinan proyek yang persis sama dan menggunakan perintah yang sama persis dan sekali lagi ini mengerjakan tugas selama sekitar 40

00:03:44menit dan memang ada beberapa kesalahan build saat saya mencoba menjalankannya

00:03:48Jadi saya harus mengirim satu perintah lagi agar Opus memberi saya versi kode yang berfungsi

00:03:53Tapi sekali lagi, pengalamannya cukup mirip dengan yang kita lihat di codecs

00:03:56Tapi satu hal yang harus saya katakan, saya sangat suka antarmuka codecs. Saya lebih suka itu daripada antarmuka terminal. Maaf ya

00:04:02Bagaimanapun, saya bisa mengonfirmasi setelah satu perintah dengan codecs 5.3 dan dua perintah dengan Opus 4.6

00:04:06Keduanya berhasil meningkatkan paket agen ke versi baru AI SDK tanpa kesalahan tipe

00:04:11Tanpa kesalahan build dan semua pengujian lulus tetapi mereka menanganinya dengan cara yang berbeda di sini

00:04:16Saya menempatkan codecs di kiri dan perubahan yang dilakukan Opus di kanan

00:04:19Anda bisa melihat Opus melakukan lebih banyak perubahan pada proyek dibandingkan codecs

00:04:23Mereka menangani beberapa fitur dengan sedikit berbeda

00:04:25Salah satu hal yang dilakukan codecs dengan sangat baik adalah adanya logika permintaan persetujuan alat di sini

00:04:30Ini adalah sesuatu yang baru di AI SDK v6. Saya sepertinya tidak menemukan penyebutan ini di Opus

00:04:35Sepertinya ia melewatkannya begitu saja dan tidak benar-benar menambahkannya ke dalam kode

00:04:40tapi satu hal yang menurut saya dilakukan codecs dengan sangat buruk adalah jika kita melihat pesan UI, ia menambahkan

00:04:46fungsi buatannya sendiri untuk mengubah pesan UI menjadi pesan model

00:04:50Jika Anda tidak tahu, AI SDK sebenarnya sudah memiliki fungsi untuk melakukan ini dan ia seharusnya menggunakan itu saja

00:04:57Anda bisa melihat perbandingannya di sini bahwa Opus melakukan ini dengan benar

00:05:00Ia hanya menggunakan fungsi “convert to model messages” yang berasal dari AI SDK

00:05:04Dan ini berarti di masa depan jika mereka meningkatkan paket ini

00:05:07Saya tidak perlu khawatir untuk melakukan perubahan apa pun pada versi saya sendiri di sini karena saya seharusnya menggunakan versi yang datang

00:05:13dari paketnya

00:05:14Jadi ini hal yang sedikit mengganggu dan menjadi peringatan bagi saya saat meninjau kode ini

00:05:19Tapi untuk mendapatkan pendapat kedua tentang tinjauan kode saya

00:05:20Saya memasukkan kembali hasilnya ke codecs 5.3 dan memintanya melakukan peninjauan bersama saya dan Anda lihat ia menjabarkan

00:05:26kelebihan dan kekurangan dari setiap pendekatan di sini

00:05:29Tapi di bagian bawah ia memberi saya kesimpulan dan codecs 5.3 sebenarnya lebih memilih versi chat Opus yang memiliki arsitektur migrasi

00:05:36yang lebih baik jika harus memilih satu basis kode untuk dirilis dengan aman

00:05:39Ia akan memilih chat Opus lalu mengambil penanganan persetujuan dan penolakan dari chat codecs

00:05:43Jadi fungsi ekstra yang kita lihat untuk permintaan persetujuan alat tadi

00:05:46Dikatakan cukup ambil itu dari versi codecs dan tambahkan ke versi Opus maka kita akan mendapatkan migrasi yang lebih baik

00:05:51Setidaknya senang melihat codecs 5.3 tidak bias dan tidak memilih dirinya sendiri

00:05:55Tapi saya harus mengakui cara keduanya menangani migrasi cukup mirip dan saya mungkin bisa mengarahkan mereka ke arah yang

00:06:01benar, tapi satu tes saja tidak cukup

00:06:03Jadi untuk tes berikutnya, sedikit kurang serius, tapi saya bertanya kepada keduanya apakah mereka bisa membuatkan saya klon Club Penguin

00:06:08Menggunakan Three.js. Sekarang, saya tidak akan memberi tahu Anda mana yang mana, tapi ini adalah game pertama yang kita dapatkan

00:06:13Anda bisa melihat saya punya fitur buat penguin di sini dan kita melihat avatarnya berubah di atas

00:06:17Saya bisa menambahkan topi di sini. Ada topi pesta, baling-baling, mahkota

00:06:21Saya akan memilih topi baling-baling di sini dan klik main dan jika Anda tahu sesuatu tentang Club Penguin

00:06:26Saya rasa ini sudah lumayan meniru pusat kota yang kita kenal meskipun piza-nya tidak ada di sebelah sini

00:06:32Biasanya ada pusat disko di sini dan Anda tidak bisa masuk ke bangunan-bangunan ini

00:06:35Bisa dilihat belum ada yang bersifat solid

00:06:37Tapi yang dilakukannya dengan cukup baik adalah jika kita ke peta, kita bisa pergi ke berbagai zona di sini

00:06:41Ada desa ski, jika saya klik dan bergerak di sini

00:06:44Saya pikir penguin saya terlihat oke untuk sesuatu di Three.js di mana saya tidak memberinya aset atau apa pun

00:06:49Ia melakukan ini semua dari pelatihannya sendiri dan kita bisa masuk dan memainkan game balap seluncur di sini

00:06:54Yang merupakan favorit saya di Club Penguin dan memang ada beberapa hal yang kurang

00:06:59Saya harus akui tapi ini hasil yang cukup bagus untuk percobaan pertama dalam satu perintah saja

00:07:04Saya bahkan bisa mengonfirmasi bahwa versi ini mencoba membuat game cart surfer di sini

00:07:07Yang merupakan favorit saya di Club Penguin, tapi yang ini sepertinya sedikit rusak

00:07:11Anda hanya bisa bergerak dari sisi ke sisi dan sekarang sepertinya saya berada di bawah peta. Sekarang juga sangat gelap

00:07:15Inilah hasil yang diberikan model satunya lagi dan saya ingin Anda menulis di komentar

00:07:18Model mana yang menurut Anda melakukan pekerjaan lebih baik dan apakah Anda bisa menebak model mana yang membuat setiap versi?

00:07:22Saya akan memberi tahu Anda di akhir tes ini. Anda lihat di versi ini

00:07:25Kita punya pemilih warna yang sama dengan yang ada di perintah

00:07:27Kita juga punya topi dan aksesori di sini. Jadi saya pilih mahkota kali ini dan kita klik mulai menjelajah

00:07:31Penguinnya sedikit lebih gemuk di versi ini. Saya harus katakan tampilannya lebih lucu tapi sekali lagi, saya tidak memberinya aset apa pun

00:07:36Ini dibuat dari nol di Three.js

00:07:38Masalahnya sama, Anda bisa menembus bangunan

00:07:41Tapi kita punya peta dan semua zona yang berbeda di sini

00:07:44Jadi jika saya pergi ke desa ski

00:07:46Saya seharusnya bisa memainkan game-nya jadi saya bisa main balap seluncur di sini dan sejujurnya

00:07:50Ini cukup mirip dengan versi lain dari game balap seluncur yang kita miliki tadi

00:07:53Bisa dilihat ada beberapa pohon muncul di kejauhan

00:07:56Kita punya tiga nyawa dan penghitung nyawanya benar-benar berfungsi

00:07:58Tapi sepertinya kita tidak bisa melompat di versi ini

00:08:01Namun model ini juga memberi saya versi game cart surfer

00:08:04Tapi lagi-alih, yang ini sedikit aneh

00:08:06Meskipun saya rasa lebih fungsional karena Anda bisa melihat sesuatu di versi ini dan bisa melompat tapi

00:08:11Saya tidak yakin di mana sebenarnya saya berselancar. Tidak ada rel dan secara keseluruhan ya, ini bukan game cart surfer

00:08:17yang saya ingat dari Club Penguin, tapi secara keseluruhan

00:08:19Saya selalu terkesan dengan apa yang bisa dilakukan model-model ini dalam satu perintah terutama dengan Three.js dan jika Anda penasaran mana model yang mengerjakan mana

00:08:25Yang pertama adalah Opus 4.6 dan yang kedua adalah codecs 5.3, dan saya rasa saya lebih suka yang pertama

00:08:30Jadi saya rasa Opus 4.6 menang di tes Club Penguin saya. Sekarang tes terakhir

00:08:34Yang saya jalankan pada model-model ini adalah untuk melihat seberapa bagus mereka dalam desain UI karena model-model ini semakin mahir dalam hal itu

00:08:38Jadi saya memberi keduanya perintah untuk membuatkan saya halaman landas untuk situs media sosial khusus AI

00:08:42Jadi mirip dengan molt book dan halamannya harus berkesan sinis dan menekankan masa depan serta khusus AI, dan lakukan semua ini dalam satu

00:08:49file HTML. Inilah hasil yang saya dapatkan dari kedua perintah tersebut dan saya harus akui saya sangat terkesan dengan codecs di sini

00:08:55Ada codecs 5.3 di kiri dan Opus 4.6 di kanan dan saya sangat suka arah yang diambil codecs

00:09:005.3 dengan situs ini

00:09:01Ia memilih desain neo-brutalisme dan ini sedikit lebih menyenangkan daripada situs-situs bergaya vibe lainnya

00:09:06Saya rasa Opus 4.6 di sini meskipun desainnya bagus, hanya terlihat seperti aplikasi bergaya vibe pada umumnya. Hasilnya sangat bagus

00:09:13Saya harus akui tapi sekali lagi

00:09:14Ada gradasi ungu dan segala hal tentang ini menunjukkan kesan aplikasi bergaya vibe, sedangkan menurut saya versi codecs

00:09:205.3 terlihat seperti ada lebih banyak masukan manual dari seseorang, mungkin diarahkan untuk ke sana

00:09:25Padahal saya memberi mereka perintah yang sama persis

00:09:27Satu-satunya hal yang menurut saya dilakukan Opus 4.6 sedikit lebih baik adalah halamannya sebenarnya sedikit lebih fungsional

00:09:32Bisa dilihat ada tab tren di bawah sini. Ada aturan, model teratas minggu ini

00:09:36Ada subreddit populer dan juga umpan populer sedangkan versi codecs 5.3 sedikit lebih kosong

00:09:41Dan kita hanya punya tab tren di bawah sini dan itu saja

00:09:44Jadi saya penasaran melihat bagaimana skor mereka di Design Arena karena mereka baru saja keluar

00:09:47Jadi mereka belum masuk peringkat, tapi saat ini GLM 4.7 masih memimpin

00:09:51Jadi saya ingin melihat apakah codecs 5.3 atau Opus 4.6 bisa merebut posisi itu secara keseluruhan

00:09:55Kedua model sangat mumpuni dan cukup sulit untuk menentukan mana yang akan menjadi yang terbaik

00:09:59Secara pribadi saya mungkin lebih condong ke codecs 5.3

00:10:03Tapi murni karena saya suka aplikasi codecs dan pengalaman keseluruhan saya saat memberi perintah pada model OpenAI jika kita ingin membandingkan

00:10:09mereka pada benchmark, seperti yang saya sebutkan di pembukaan, codecs memiliki keunggulan besar di Terminal Bench 2.0

00:10:15Yang sebenarnya merupakan lompatan luar biasa dan itu pada dasarnya satu-satunya benchmark yang bisa kita bandingkan saat ini karena saya rasa

00:10:21Anthropic belum siap OpenAI merilis model ini dan menjengkelkannya mereka tidak menggunakan benchmark yang sama di postingan blog mereka

00:10:28Saya sudah memeriksa Artificial Analysis dan sejauh ini mereka baru mem-benchmark Opus 4.6 untuk coding tapi hanya versi non-reasoning saja

00:10:35Tapi saya rasa cukup mengesankan bahwa versi non-reasoning 4.6 sebenarnya memiliki performa sebaik versi reasoning 4.5

00:10:42Opus, perasaan pribadi saya saat ini adalah lompatan Opus 4.5 ke 4.6 sedikit lebih tipis daripada codecs 5.2 ke 5.3

00:10:49Tapi saya harus menggunakan keduanya dan melihat bagaimana rasanya di dunia nyata

00:10:53Ada beberapa fitur ekstra terakhir di kedua rilis ini

00:10:55Dan salah satu yang paling keren adalah kedua model ini kabarnya telah meningkatkan kemampuan keamanan siber dengan OpenAI mengatakan bahwa GPT

00:11:015.3 codecs adalah model pertama yang mereka klasifikasikan berkemampuan tinggi untuk tugas terkait keamanan siber dan yang pertama yang secara langsung dilatih untuk mengidentifikasi

00:11:09kerentanan perangkat lunak dan Anthropic pada dasarnya mengatakan hal yang sama di postingan blog yang panjang ini. Satu fitur codecs yang sangat saya nantikan

00:11:16adalah ia bisa diarahkan selagi ia bekerja; mereka bilang alih-alih menunggu hasil akhir

00:11:21Anda sebenarnya bisa berinteraksi secara real-time mengajukan pertanyaan dan mendiskusikan pendekatan serta mengarahkannya menuju solusi

00:11:27Dan saya rasa pendekatan ini sedikit lebih baik karena saya selalu bimbang apakah saya harus membiarkan model selesai dulu atau

00:11:32harus menyela dan menghentikannya saat ia melakukan sesuatu ketika saya ingin membuat perubahan

00:11:35Dan menurut saya terutama ketika kita sekarang memiliki tugas yang bisa berjalan dalam waktu yang cukup lama

00:11:40Ini akan menjadi pengalaman pengguna yang jauh lebih menyenangkan. Kita benar-benar bisa berbicara dengannya selagi ia bekerja

00:11:44Terakhir, kita punya beberapa fitur baru untuk Claude juga. Yang pertama adalah Claude Code

00:11:48Anda sekarang bisa menggunakan tim agen untuk mengerjakan tugas bersama atau dikenal sebagai sub-agen. Richard sebenarnya membuat video tentang ini awal minggu ini

00:11:55Jadi tontonlah jika Anda tertarik belajar lebih lanjut dan ada juga beberapa fitur API keren seperti Claude sekarang punya fitur pemadatan

00:12:01yang terintegrasi ke dalam API sehingga Anda bisa menggunakannya untuk meringkas konteksnya dan melakukan tugas yang berjalan lebih lama

00:12:06Dan ada juga mode berpikir adaptif baru

00:12:08Jadi intinya Anda membiarkan model menangkap petunjuk kontekstual untuk melihat seberapa banyak ia harus menggunakan pemikiran panjangnya

00:12:13Begitulah, model-model coding telah berkembang sangat jauh

00:12:16Jika Anda belum tahu, sebenarnya belum genap setahun sejak Claude Code dirilis

00:12:20Beri tahu saya pendapat Anda tentang semua model ini di kolom komentar selagi di sana jangan lupa subscribe dan seperti biasa sampai jumpa di video berikutnya

00:12:31(musik ceria)

Key Takeaway

Persaingan antara OpenAI dan Anthropic semakin sengit dengan peluncuran model yang berfokus pada efisiensi pengodean, kemampuan agen otonom, dan fitur keamanan siber yang lebih canggih.

Highlights

OpenAI merilis GPT 5.3 Codecs yang mengalahkan Claude Opus 4.6 di Terminal Bench 2.0 dengan margin lebih dari 10%.
Claude Opus 4.6 memperkenalkan jendela konteks hingga 1 juta token dalam tahap beta dengan peningkatan pada kemampuan perencanaan tugas agentik.
GPT 5.3 Codecs menawarkan performa yang 25% lebih cepat dibandingkan versi 5.2 serta integrasi penalaran dan pengetahuan profesional dalam satu model.
Uji coba dunia nyata menunjukkan Opus 4.6 lebih unggul dalam pemilihan fungsi bawaan SDK, sementara Codecs 5.3 unggul dalam logika persetujuan alat.
Kedua model menunjukkan kemajuan signifikan dalam pembuatan aplikasi grafis menggunakan Three.js dan desain antarmuka pengguna (UI).
Fitur keamanan siber baru diimplementasikan pada kedua model untuk mengidentifikasi kerentanan perangkat lunak secara lebih proaktif.
Claude memperkenalkan fitur 'Claude Code' dan 'Adaptive Thinking Mode' untuk mengoptimalkan penggunaan daya nalar model secara kontekstual.

Timeline

Perang Benchmark: GPT 5.3 Codecs vs Claude Opus 4.6

Video dimulai dengan pengumuman mengejutkan bahwa GPT 5.3 Codecs dari OpenAI berhasil melampaui skor Claude Opus 4.6 di Terminal Bench 2.0 hanya beberapa menit setelah rilis Anthropic. Narator mencatat bahwa keunggulan Anthropic di puncak benchmark terasa sangat singkat karena respons cepat dari OpenAI. Fokus utama bagian ini adalah persaingan ketat dalam performa pengodean yang semakin dinamis antara kedua perusahaan AI raksasa tersebut. Hal ini penting karena menunjukkan betapa cepatnya standar 'state-of-the-art' berubah dalam industri teknologi saat ini. Penonton diajak untuk melihat perbandingan mendalam guna menentukan model mana yang paling andal untuk penggunaan sehari-hari.

Fitur Baru dan Jendela Konteks 1 Juta Token

Bagian ini merinci pembaruan teknis pada kedua model, di mana Opus 4.6 kini mengklaim kemampuan perencanaan yang lebih teliti dan jendela konteks hingga 1 juta token. Narator menjelaskan struktur biaya baru untuk input dan output token dalam tahap beta ini, yang mencapai $37,50 per juta token output. Di sisi lain, GPT 5.3 Codecs dijanjikan 25% lebih cepat dan menggabungkan kemampuan penalaran tingkat tinggi dengan pengetahuan profesional dalam satu model tunggal. Peningkatan ini ditujukan untuk menangani tugas yang berjalan lama seperti riset kompleks dan eksekusi alat otomatis. Konteks ini sangat krusial bagi pengembang yang membutuhkan model untuk bekerja pada basis kode (codebase) yang sangat besar tanpa kehilangan memori jangka pendek.

Uji Coba Migrasi Kode Dunia Nyata: Convex dan AI SDK v6

Narator melakukan pengujian praktis dengan meminta kedua AI untuk melakukan migrasi paket agen Convex ke AI SDK v6 yang memiliki banyak perubahan tipe data. GPT 5.3 Codecs menunjukkan keunggulan dalam memahami struktur monorepo dan berhasil menyelesaikan tugas dalam waktu sekitar 40 menit tanpa gangguan. Namun, Claude Opus 4.6 dinilai lebih cerdas dalam pemilihan fungsi karena menggunakan fungsi bawaan SDK dibandingkan membuat fungsi kustom sendiri. Menariknya, saat diminta meninjau hasil kerja satu sama lain, Codecs 5.3 secara objektif lebih memilih arsitektur migrasi milik Opus yang dianggap lebih aman. Bagian ini membuktikan bahwa meskipun benchmark penting, implementasi praktis menunjukkan kekuatan unik dari masing-masing model.

Eksperimen Grafis: Kloning Club Penguin dengan Three.js

Eksperimen beralih ke sisi kreatif dengan perintah untuk membuat klon game Club Penguin menggunakan pustaka Three.js dalam satu instruksi saja. Model Opus 4.6 menghasilkan lingkungan yang lebih mirip dengan pusat kota yang dikenal secara nostalgia, meskipun beberapa fitur fisik seperti tabrakan bangunan masih kurang sempurna. Sementara itu, versi Codecs 5.3 menghasilkan avatar penguin yang lebih lucu dan fungsionalitas permainan seluncur yang sedikit lebih baik. Narator memberikan apresiasi besar pada kemampuan kedua model dalam menghasilkan kode grafis yang kompleks tanpa bantuan aset eksternal. Hasil akhir dari tes ini menunjukkan bahwa Opus 4.6 sedikit lebih unggul dalam menangkap esensi desain visual dari permintaan pengguna.

Desain UI dan Kemampuan Keamanan Siber

Fokus pengujian terakhir adalah desain antarmuka pengguna (UI) untuk platform media sosial khusus AI dengan gaya sinis. Codecs 5.3 dipuji karena memilih gaya neo-brutalisme yang terasa lebih unik dan memiliki sentuhan 'manual', sedangkan Opus cenderung menggunakan gaya gradasi ungu standar. Selain estetika, narator menyoroti peningkatan signifikan dalam fitur keamanan siber pada kedua model untuk mendeteksi kerentanan perangkat lunak secara otomatis. OpenAI bahkan mengklaim model mereka sebagai yang pertama yang secara khusus dilatih untuk tugas-tugas defensif keamanan siber tingkat tinggi. Hal ini menandai pergeseran peran AI dari sekadar pembantu kode menjadi penjaga keamanan sistem informasi.

Interaksi Real-Time dan Fitur API Claude

Video ditutup dengan ulasan fitur interaksi real-time pada Codecs yang memungkinkan pengguna mengarahkan model saat sedang bekerja tanpa harus menunggu proses selesai. Claude juga tidak kalah dengan memperkenalkan 'Claude Code' yang mendukung penggunaan tim sub-agen untuk menyelesaikan tugas kolaboratif yang lebih besar. Terdapat juga fitur 'Context Compaction' pada API Claude untuk meringkas konteks secara otomatis guna efisiensi biaya dan performa. Narator juga menyebutkan 'Adaptive Thinking Mode' yang memungkinkan model menentukan seberapa dalam proses penalaran yang dibutuhkan untuk sebuah tugas tertentu. Semua inovasi ini menunjukkan bahwa dalam waktu kurang dari satu tahun, ekosistem asisten pengodean AI telah berkembang secara eksponensial.

Community Posts

Write about this video