OpenAI Menang... (Opus 4.6 + Codex 5.3)

BBetter Stack
컴퓨터/소프트웨어경제 뉴스게임/e스포츠AI/미래기술

Transcript

00:00:00Anthropic baru saja merilis Claude Opus 4.6 dan model ini meraih skor tertinggi di Terminal Bench 2.0 dibandingkan model mana pun
00:00:06Maaf menyela kegiatan pemrograman Anda di sini
00:00:10Tapi ternyata GPT 5.3 codecs baru saja keluar dan itu mengalahkan Opus 4.6 di Terminal Bench lebih dari 10%
00:00:16Jadi sepertinya kejayaan Anthropic benar-benar hanya bertahan beberapa menit. Persaingan antara keduanya semakin sengit
00:00:23Jadi saya sangat penasaran untuk melihat apa yang baru di model-model ini dan mencari tahu mana yang paling enak digunakan akhir-akhir ini
00:00:29Sebenarnya GPT 5.2 yang terasa lebih baik
00:00:31Jadi saya penasaran apakah Claude bisa merebut kembali keunggulannya atau apakah OpenAI sudah siap dengan GPT 5.3 codecs
00:00:37Pertama-tama, ringkasan singkat tentang apa yang baru di model-model ini karena kita semua tahu mereka akan lebih baik dari versi sebelumnya dalam benchmark
00:00:48Yang akan saya tunjukkan di akhir, tapi apakah ada hal lain yang benar-benar berubah dari model-model tersebut?
00:00:52Nah untuk Opus
00:00:53Mereka mengklaim bisa merencanakan dengan lebih teliti, mempertahankan tugas agentik lebih lama, dan beroperasi lebih andal di basis kode yang lebih besar dengan hasil yang lebih baik
00:01:00Kemampuan peninjauan kode dan debugging untuk mendeteksi kesalahannya sendiri
00:01:02Ini sebenarnya beberapa hal yang menurut saya merupakan titik terlemah Opus dibandingkan GPT 5.2. Dalam pengalaman saya
00:01:08Biasanya ia mulai mengode lebih cepat namun cenderung membuat sedikit lebih banyak kesalahan
00:01:12Sedangkan GPT 5.2 butuh waktu sedikit lebih lama untuk mulai mengode dan memahami konteks repositorinya
00:01:17Semoga perubahan ini meningkatkan Opus di sini dan kemungkinan juga akan didukung oleh total 1 juta baru miliknya
00:01:23jendela konteks
00:01:24Meskipun disebutkan ini masih dalam tahap beta dan serupa dengan penyedia lainnya
00:01:27Anda juga akan dikenakan biaya tambahan dengan perintah yang melebihi 200.000 token seharga $10 per juta token input dan
00:01:33$37,50 per juta token output. Beralih ke codecs 5.3
00:01:38OpenAI menyatakan bahwa model ini memajukan performa coding mutakhir dari GPT 5.2 codecs serta kemampuan penalaran dan pengetahuan profesional
00:01:45Kemampuan GPT 5.2 digabung dalam satu model, yang juga 25% lebih cepat
00:01:51Ini memungkinkannya menangani tugas yang berjalan lama yang melibatkan riset, penggunaan alat, dan eksekusi yang kompleks
00:01:57Jadi sepertinya mereka mendorong model ini menjadi serba bisa dengan pengetahuan GPT 5.2 dan kemampuan coding yang ditingkatkan
00:02:03Tapi itu semua hanyalah bahasa pemasaran
00:02:05Mari kita uji model-model ini dalam tes dunia nyata dan yang pertama saya coba adalah memperbarui paket agen convex untuk mendukung AI
00:02:11SDK v6. Akhir-akhir ini saya sangat menyukai convex sebagai basis data saya dan paket ini intinya membantu menghubungkan AI SDK dengan basis data
00:02:19Jadi Anda mendapatkan performa yang sangat bagus, tapi masalahnya paket ini belum ditingkatkan ke versi terbaru
00:02:23Bisa dilihat di sini pada dokumentasi cells bahwa migrasi dari v5 ke v6 bukanlah migrasi yang mudah dilakukan
00:02:28Mereka melakukan banyak perubahan drastis dan mengubah banyak tipe
00:02:32Jadi yang saya lakukan adalah membuat aplikasi chat dasar di convex yang sudah berfungsi menggunakan paket agen tersebut
00:02:36Tapi kemudian saya meningkatkan paket ke v6 dan saya mendapatkan banyak kesalahan build dan tipe
00:02:40Saya langsung meminta model-model tersebut untuk memperbaikinya. Anda bisa melihat perintah yang saya gunakan di sini di codecs
00:02:44Saya katakan saya sedang membangun aplikasi chat dengan convex dan saya punya versi yang sudah berfungsi
00:02:46Tapi kemudian saya upgrade ke v6 dan saya perlu memperbaiki kesalahan tipe dan build
00:02:50Saya memberikan panduan migrasinya agar bisa digunakan sebagai konteks jika diperlukan dan saya katakan saya ingin semua pengujian
00:02:55Lulus, hindari trik typescript seperti “as any” sebisa mungkin karena saya sering melihat banyak model melakukan ini
00:02:59Jadi saya secara khusus ingin mengatakan tolong jangan lakukan itu karena ada cukup banyak tipe kompleks di AI
00:03:03SDK sekarang. Karena kita sudah di codecs, kita bisa melihat bagaimana performa 5.3 codecs; ia memulai dengan
00:03:09Memahami repositori, Anda bisa melihat ia tahu itu adalah mono repo dengan paket slash agent yang kita miliki, lalu ia mengidentifikasi beberapa
00:03:15akar masalah dan beberapa paket yang perlu ditingkatkan dan menjabarkan dengan tepat bagaimana ia akan menyelesaikan tugas ini dan setelah itu
00:03:22Ia langsung mulai mengode, melakukan beberapa perubahan, menjalankan build sesekali, dan terus bekerja
00:03:27Memperbaiki semua kesalahan tipe itu dan secara keseluruhan kami benar-benar berjalan selama sekitar 40 menit tanpa gangguan sama sekali
00:03:32Saya sangat terkesan, Anda bisa melihat ia menambahkan
00:03:35545 baris kode dan menghapus 111 baris. Di sisi kode Claude
00:03:39Saya memberikan salinan proyek yang persis sama dan menggunakan perintah yang sama persis dan sekali lagi ini mengerjakan tugas selama sekitar 40
00:03:44menit dan memang ada beberapa kesalahan build saat saya mencoba menjalankannya
00:03:48Jadi saya harus mengirim satu perintah lagi agar Opus memberi saya versi kode yang berfungsi
00:03:53Tapi sekali lagi, pengalamannya cukup mirip dengan yang kita lihat di codecs
00:03:56Tapi satu hal yang harus saya katakan, saya sangat suka antarmuka codecs. Saya lebih suka itu daripada antarmuka terminal. Maaf ya
00:04:02Bagaimanapun, saya bisa mengonfirmasi setelah satu perintah dengan codecs 5.3 dan dua perintah dengan Opus 4.6
00:04:06Keduanya berhasil meningkatkan paket agen ke versi baru AI SDK tanpa kesalahan tipe
00:04:11Tanpa kesalahan build dan semua pengujian lulus tetapi mereka menanganinya dengan cara yang berbeda di sini
00:04:16Saya menempatkan codecs di kiri dan perubahan yang dilakukan Opus di kanan
00:04:19Anda bisa melihat Opus melakukan lebih banyak perubahan pada proyek dibandingkan codecs
00:04:23Mereka menangani beberapa fitur dengan sedikit berbeda
00:04:25Salah satu hal yang dilakukan codecs dengan sangat baik adalah adanya logika permintaan persetujuan alat di sini
00:04:30Ini adalah sesuatu yang baru di AI SDK v6. Saya sepertinya tidak menemukan penyebutan ini di Opus
00:04:35Sepertinya ia melewatkannya begitu saja dan tidak benar-benar menambahkannya ke dalam kode
00:04:40tapi satu hal yang menurut saya dilakukan codecs dengan sangat buruk adalah jika kita melihat pesan UI, ia menambahkan
00:04:46fungsi buatannya sendiri untuk mengubah pesan UI menjadi pesan model
00:04:50Jika Anda tidak tahu, AI SDK sebenarnya sudah memiliki fungsi untuk melakukan ini dan ia seharusnya menggunakan itu saja
00:04:57Anda bisa melihat perbandingannya di sini bahwa Opus melakukan ini dengan benar
00:05:00Ia hanya menggunakan fungsi “convert to model messages” yang berasal dari AI SDK
00:05:04Dan ini berarti di masa depan jika mereka meningkatkan paket ini
00:05:07Saya tidak perlu khawatir untuk melakukan perubahan apa pun pada versi saya sendiri di sini karena saya seharusnya menggunakan versi yang datang
00:05:13dari paketnya
00:05:14Jadi ini hal yang sedikit mengganggu dan menjadi peringatan bagi saya saat meninjau kode ini
00:05:19Tapi untuk mendapatkan pendapat kedua tentang tinjauan kode saya
00:05:20Saya memasukkan kembali hasilnya ke codecs 5.3 dan memintanya melakukan peninjauan bersama saya dan Anda lihat ia menjabarkan
00:05:26kelebihan dan kekurangan dari setiap pendekatan di sini
00:05:29Tapi di bagian bawah ia memberi saya kesimpulan dan codecs 5.3 sebenarnya lebih memilih versi chat Opus yang memiliki arsitektur migrasi
00:05:36yang lebih baik jika harus memilih satu basis kode untuk dirilis dengan aman
00:05:39Ia akan memilih chat Opus lalu mengambil penanganan persetujuan dan penolakan dari chat codecs
00:05:43Jadi fungsi ekstra yang kita lihat untuk permintaan persetujuan alat tadi
00:05:46Dikatakan cukup ambil itu dari versi codecs dan tambahkan ke versi Opus maka kita akan mendapatkan migrasi yang lebih baik
00:05:51Setidaknya senang melihat codecs 5.3 tidak bias dan tidak memilih dirinya sendiri
00:05:55Tapi saya harus mengakui cara keduanya menangani migrasi cukup mirip dan saya mungkin bisa mengarahkan mereka ke arah yang
00:06:01benar, tapi satu tes saja tidak cukup
00:06:03Jadi untuk tes berikutnya, sedikit kurang serius, tapi saya bertanya kepada keduanya apakah mereka bisa membuatkan saya klon Club Penguin
00:06:08Menggunakan Three.js. Sekarang, saya tidak akan memberi tahu Anda mana yang mana, tapi ini adalah game pertama yang kita dapatkan
00:06:13Anda bisa melihat saya punya fitur buat penguin di sini dan kita melihat avatarnya berubah di atas
00:06:17Saya bisa menambahkan topi di sini. Ada topi pesta, baling-baling, mahkota
00:06:21Saya akan memilih topi baling-baling di sini dan klik main dan jika Anda tahu sesuatu tentang Club Penguin
00:06:26Saya rasa ini sudah lumayan meniru pusat kota yang kita kenal meskipun piza-nya tidak ada di sebelah sini
00:06:32Biasanya ada pusat disko di sini dan Anda tidak bisa masuk ke bangunan-bangunan ini
00:06:35Bisa dilihat belum ada yang bersifat solid
00:06:37Tapi yang dilakukannya dengan cukup baik adalah jika kita ke peta, kita bisa pergi ke berbagai zona di sini
00:06:41Ada desa ski, jika saya klik dan bergerak di sini
00:06:44Saya pikir penguin saya terlihat oke untuk sesuatu di Three.js di mana saya tidak memberinya aset atau apa pun
00:06:49Ia melakukan ini semua dari pelatihannya sendiri dan kita bisa masuk dan memainkan game balap seluncur di sini
00:06:54Yang merupakan favorit saya di Club Penguin dan memang ada beberapa hal yang kurang
00:06:59Saya harus akui tapi ini hasil yang cukup bagus untuk percobaan pertama dalam satu perintah saja
00:07:04Saya bahkan bisa mengonfirmasi bahwa versi ini mencoba membuat game cart surfer di sini
00:07:07Yang merupakan favorit saya di Club Penguin, tapi yang ini sepertinya sedikit rusak
00:07:11Anda hanya bisa bergerak dari sisi ke sisi dan sekarang sepertinya saya berada di bawah peta. Sekarang juga sangat gelap
00:07:15Inilah hasil yang diberikan model satunya lagi dan saya ingin Anda menulis di komentar
00:07:18Model mana yang menurut Anda melakukan pekerjaan lebih baik dan apakah Anda bisa menebak model mana yang membuat setiap versi?
00:07:22Saya akan memberi tahu Anda di akhir tes ini. Anda lihat di versi ini
00:07:25Kita punya pemilih warna yang sama dengan yang ada di perintah
00:07:27Kita juga punya topi dan aksesori di sini. Jadi saya pilih mahkota kali ini dan kita klik mulai menjelajah
00:07:31Penguinnya sedikit lebih gemuk di versi ini. Saya harus katakan tampilannya lebih lucu tapi sekali lagi, saya tidak memberinya aset apa pun
00:07:36Ini dibuat dari nol di Three.js
00:07:38Masalahnya sama, Anda bisa menembus bangunan
00:07:41Tapi kita punya peta dan semua zona yang berbeda di sini
00:07:44Jadi jika saya pergi ke desa ski
00:07:46Saya seharusnya bisa memainkan game-nya jadi saya bisa main balap seluncur di sini dan sejujurnya
00:07:50Ini cukup mirip dengan versi lain dari game balap seluncur yang kita miliki tadi
00:07:53Bisa dilihat ada beberapa pohon muncul di kejauhan
00:07:56Kita punya tiga nyawa dan penghitung nyawanya benar-benar berfungsi
00:07:58Tapi sepertinya kita tidak bisa melompat di versi ini
00:08:01Namun model ini juga memberi saya versi game cart surfer
00:08:04Tapi lagi-alih, yang ini sedikit aneh
00:08:06Meskipun saya rasa lebih fungsional karena Anda bisa melihat sesuatu di versi ini dan bisa melompat tapi
00:08:11Saya tidak yakin di mana sebenarnya saya berselancar. Tidak ada rel dan secara keseluruhan ya, ini bukan game cart surfer
00:08:17yang saya ingat dari Club Penguin, tapi secara keseluruhan
00:08:19Saya selalu terkesan dengan apa yang bisa dilakukan model-model ini dalam satu perintah terutama dengan Three.js dan jika Anda penasaran mana model yang mengerjakan mana
00:08:25Yang pertama adalah Opus 4.6 dan yang kedua adalah codecs 5.3, dan saya rasa saya lebih suka yang pertama
00:08:30Jadi saya rasa Opus 4.6 menang di tes Club Penguin saya. Sekarang tes terakhir
00:08:34Yang saya jalankan pada model-model ini adalah untuk melihat seberapa bagus mereka dalam desain UI karena model-model ini semakin mahir dalam hal itu
00:08:38Jadi saya memberi keduanya perintah untuk membuatkan saya halaman landas untuk situs media sosial khusus AI
00:08:42Jadi mirip dengan molt book dan halamannya harus berkesan sinis dan menekankan masa depan serta khusus AI, dan lakukan semua ini dalam satu
00:08:49file HTML. Inilah hasil yang saya dapatkan dari kedua perintah tersebut dan saya harus akui saya sangat terkesan dengan codecs di sini
00:08:55Ada codecs 5.3 di kiri dan Opus 4.6 di kanan dan saya sangat suka arah yang diambil codecs
00:09:005.3 dengan situs ini
00:09:01Ia memilih desain neo-brutalisme dan ini sedikit lebih menyenangkan daripada situs-situs bergaya vibe lainnya
00:09:06Saya rasa Opus 4.6 di sini meskipun desainnya bagus, hanya terlihat seperti aplikasi bergaya vibe pada umumnya. Hasilnya sangat bagus
00:09:13Saya harus akui tapi sekali lagi
00:09:14Ada gradasi ungu dan segala hal tentang ini menunjukkan kesan aplikasi bergaya vibe, sedangkan menurut saya versi codecs
00:09:205.3 terlihat seperti ada lebih banyak masukan manual dari seseorang, mungkin diarahkan untuk ke sana
00:09:25Padahal saya memberi mereka perintah yang sama persis
00:09:27Satu-satunya hal yang menurut saya dilakukan Opus 4.6 sedikit lebih baik adalah halamannya sebenarnya sedikit lebih fungsional
00:09:32Bisa dilihat ada tab tren di bawah sini. Ada aturan, model teratas minggu ini
00:09:36Ada subreddit populer dan juga umpan populer sedangkan versi codecs 5.3 sedikit lebih kosong
00:09:41Dan kita hanya punya tab tren di bawah sini dan itu saja
00:09:44Jadi saya penasaran melihat bagaimana skor mereka di Design Arena karena mereka baru saja keluar
00:09:47Jadi mereka belum masuk peringkat, tapi saat ini GLM 4.7 masih memimpin
00:09:51Jadi saya ingin melihat apakah codecs 5.3 atau Opus 4.6 bisa merebut posisi itu secara keseluruhan
00:09:55Kedua model sangat mumpuni dan cukup sulit untuk menentukan mana yang akan menjadi yang terbaik
00:09:59Secara pribadi saya mungkin lebih condong ke codecs 5.3
00:10:03Tapi murni karena saya suka aplikasi codecs dan pengalaman keseluruhan saya saat memberi perintah pada model OpenAI jika kita ingin membandingkan
00:10:09mereka pada benchmark, seperti yang saya sebutkan di pembukaan, codecs memiliki keunggulan besar di Terminal Bench 2.0
00:10:15Yang sebenarnya merupakan lompatan luar biasa dan itu pada dasarnya satu-satunya benchmark yang bisa kita bandingkan saat ini karena saya rasa
00:10:21Anthropic belum siap OpenAI merilis model ini dan menjengkelkannya mereka tidak menggunakan benchmark yang sama di postingan blog mereka
00:10:28Saya sudah memeriksa Artificial Analysis dan sejauh ini mereka baru mem-benchmark Opus 4.6 untuk coding tapi hanya versi non-reasoning saja
00:10:35Tapi saya rasa cukup mengesankan bahwa versi non-reasoning 4.6 sebenarnya memiliki performa sebaik versi reasoning 4.5
00:10:42Opus, perasaan pribadi saya saat ini adalah lompatan Opus 4.5 ke 4.6 sedikit lebih tipis daripada codecs 5.2 ke 5.3
00:10:49Tapi saya harus menggunakan keduanya dan melihat bagaimana rasanya di dunia nyata
00:10:53Ada beberapa fitur ekstra terakhir di kedua rilis ini
00:10:55Dan salah satu yang paling keren adalah kedua model ini kabarnya telah meningkatkan kemampuan keamanan siber dengan OpenAI mengatakan bahwa GPT
00:11:015.3 codecs adalah model pertama yang mereka klasifikasikan berkemampuan tinggi untuk tugas terkait keamanan siber dan yang pertama yang secara langsung dilatih untuk mengidentifikasi
00:11:09kerentanan perangkat lunak dan Anthropic pada dasarnya mengatakan hal yang sama di postingan blog yang panjang ini. Satu fitur codecs yang sangat saya nantikan
00:11:16adalah ia bisa diarahkan selagi ia bekerja; mereka bilang alih-alih menunggu hasil akhir
00:11:21Anda sebenarnya bisa berinteraksi secara real-time mengajukan pertanyaan dan mendiskusikan pendekatan serta mengarahkannya menuju solusi
00:11:27Dan saya rasa pendekatan ini sedikit lebih baik karena saya selalu bimbang apakah saya harus membiarkan model selesai dulu atau
00:11:32harus menyela dan menghentikannya saat ia melakukan sesuatu ketika saya ingin membuat perubahan
00:11:35Dan menurut saya terutama ketika kita sekarang memiliki tugas yang bisa berjalan dalam waktu yang cukup lama
00:11:40Ini akan menjadi pengalaman pengguna yang jauh lebih menyenangkan. Kita benar-benar bisa berbicara dengannya selagi ia bekerja
00:11:44Terakhir, kita punya beberapa fitur baru untuk Claude juga. Yang pertama adalah Claude Code
00:11:48Anda sekarang bisa menggunakan tim agen untuk mengerjakan tugas bersama atau dikenal sebagai sub-agen. Richard sebenarnya membuat video tentang ini awal minggu ini
00:11:55Jadi tontonlah jika Anda tertarik belajar lebih lanjut dan ada juga beberapa fitur API keren seperti Claude sekarang punya fitur pemadatan
00:12:01yang terintegrasi ke dalam API sehingga Anda bisa menggunakannya untuk meringkas konteksnya dan melakukan tugas yang berjalan lebih lama
00:12:06Dan ada juga mode berpikir adaptif baru
00:12:08Jadi intinya Anda membiarkan model menangkap petunjuk kontekstual untuk melihat seberapa banyak ia harus menggunakan pemikiran panjangnya
00:12:13Begitulah, model-model coding telah berkembang sangat jauh
00:12:16Jika Anda belum tahu, sebenarnya belum genap setahun sejak Claude Code dirilis
00:12:20Beri tahu saya pendapat Anda tentang semua model ini di kolom komentar selagi di sana jangan lupa subscribe dan seperti biasa sampai jumpa di video berikutnya
00:12:31(musik ceria)

Key Takeaway

Persaingan antara OpenAI dan Anthropic semakin sengit dengan peluncuran model yang berfokus pada efisiensi pengodean, kemampuan agen otonom, dan fitur keamanan siber yang lebih canggih.

Highlights

OpenAI merilis GPT 5.3 Codecs yang mengalahkan Claude Opus 4.6 di Terminal Bench 2.0 dengan margin lebih dari 10%.

Claude Opus 4.6 memperkenalkan jendela konteks hingga 1 juta token dalam tahap beta dengan peningkatan pada kemampuan perencanaan tugas agentik.

GPT 5.3 Codecs menawarkan performa yang 25% lebih cepat dibandingkan versi 5.2 serta integrasi penalaran dan pengetahuan profesional dalam satu model.

Uji coba dunia nyata menunjukkan Opus 4.6 lebih unggul dalam pemilihan fungsi bawaan SDK, sementara Codecs 5.3 unggul dalam logika persetujuan alat.

Kedua model menunjukkan kemajuan signifikan dalam pembuatan aplikasi grafis menggunakan Three.js dan desain antarmuka pengguna (UI).

Fitur keamanan siber baru diimplementasikan pada kedua model untuk mengidentifikasi kerentanan perangkat lunak secara lebih proaktif.

Claude memperkenalkan fitur 'Claude Code' dan 'Adaptive Thinking Mode' untuk mengoptimalkan penggunaan daya nalar model secara kontekstual.

Timeline

Perang Benchmark: GPT 5.3 Codecs vs Claude Opus 4.6

Video dimulai dengan pengumuman mengejutkan bahwa GPT 5.3 Codecs dari OpenAI berhasil melampaui skor Claude Opus 4.6 di Terminal Bench 2.0 hanya beberapa menit setelah rilis Anthropic. Narator mencatat bahwa keunggulan Anthropic di puncak benchmark terasa sangat singkat karena respons cepat dari OpenAI. Fokus utama bagian ini adalah persaingan ketat dalam performa pengodean yang semakin dinamis antara kedua perusahaan AI raksasa tersebut. Hal ini penting karena menunjukkan betapa cepatnya standar 'state-of-the-art' berubah dalam industri teknologi saat ini. Penonton diajak untuk melihat perbandingan mendalam guna menentukan model mana yang paling andal untuk penggunaan sehari-hari.

Fitur Baru dan Jendela Konteks 1 Juta Token

Bagian ini merinci pembaruan teknis pada kedua model, di mana Opus 4.6 kini mengklaim kemampuan perencanaan yang lebih teliti dan jendela konteks hingga 1 juta token. Narator menjelaskan struktur biaya baru untuk input dan output token dalam tahap beta ini, yang mencapai $37,50 per juta token output. Di sisi lain, GPT 5.3 Codecs dijanjikan 25% lebih cepat dan menggabungkan kemampuan penalaran tingkat tinggi dengan pengetahuan profesional dalam satu model tunggal. Peningkatan ini ditujukan untuk menangani tugas yang berjalan lama seperti riset kompleks dan eksekusi alat otomatis. Konteks ini sangat krusial bagi pengembang yang membutuhkan model untuk bekerja pada basis kode (codebase) yang sangat besar tanpa kehilangan memori jangka pendek.

Uji Coba Migrasi Kode Dunia Nyata: Convex dan AI SDK v6

Narator melakukan pengujian praktis dengan meminta kedua AI untuk melakukan migrasi paket agen Convex ke AI SDK v6 yang memiliki banyak perubahan tipe data. GPT 5.3 Codecs menunjukkan keunggulan dalam memahami struktur monorepo dan berhasil menyelesaikan tugas dalam waktu sekitar 40 menit tanpa gangguan. Namun, Claude Opus 4.6 dinilai lebih cerdas dalam pemilihan fungsi karena menggunakan fungsi bawaan SDK dibandingkan membuat fungsi kustom sendiri. Menariknya, saat diminta meninjau hasil kerja satu sama lain, Codecs 5.3 secara objektif lebih memilih arsitektur migrasi milik Opus yang dianggap lebih aman. Bagian ini membuktikan bahwa meskipun benchmark penting, implementasi praktis menunjukkan kekuatan unik dari masing-masing model.

Eksperimen Grafis: Kloning Club Penguin dengan Three.js

Eksperimen beralih ke sisi kreatif dengan perintah untuk membuat klon game Club Penguin menggunakan pustaka Three.js dalam satu instruksi saja. Model Opus 4.6 menghasilkan lingkungan yang lebih mirip dengan pusat kota yang dikenal secara nostalgia, meskipun beberapa fitur fisik seperti tabrakan bangunan masih kurang sempurna. Sementara itu, versi Codecs 5.3 menghasilkan avatar penguin yang lebih lucu dan fungsionalitas permainan seluncur yang sedikit lebih baik. Narator memberikan apresiasi besar pada kemampuan kedua model dalam menghasilkan kode grafis yang kompleks tanpa bantuan aset eksternal. Hasil akhir dari tes ini menunjukkan bahwa Opus 4.6 sedikit lebih unggul dalam menangkap esensi desain visual dari permintaan pengguna.

Desain UI dan Kemampuan Keamanan Siber

Fokus pengujian terakhir adalah desain antarmuka pengguna (UI) untuk platform media sosial khusus AI dengan gaya sinis. Codecs 5.3 dipuji karena memilih gaya neo-brutalisme yang terasa lebih unik dan memiliki sentuhan 'manual', sedangkan Opus cenderung menggunakan gaya gradasi ungu standar. Selain estetika, narator menyoroti peningkatan signifikan dalam fitur keamanan siber pada kedua model untuk mendeteksi kerentanan perangkat lunak secara otomatis. OpenAI bahkan mengklaim model mereka sebagai yang pertama yang secara khusus dilatih untuk tugas-tugas defensif keamanan siber tingkat tinggi. Hal ini menandai pergeseran peran AI dari sekadar pembantu kode menjadi penjaga keamanan sistem informasi.

Interaksi Real-Time dan Fitur API Claude

Video ditutup dengan ulasan fitur interaksi real-time pada Codecs yang memungkinkan pengguna mengarahkan model saat sedang bekerja tanpa harus menunggu proses selesai. Claude juga tidak kalah dengan memperkenalkan 'Claude Code' yang mendukung penggunaan tim sub-agen untuk menyelesaikan tugas kolaboratif yang lebih besar. Terdapat juga fitur 'Context Compaction' pada API Claude untuk meringkas konteks secara otomatis guna efisiensi biaya dan performa. Narator juga menyebutkan 'Adaptive Thinking Mode' yang memungkinkan model menentukan seberapa dalam proses penalaran yang dibutuhkan untuk sebuah tugas tertentu. Semua inovasi ini menunjukkan bahwa dalam waktu kurang dari satu tahun, ekosistem asisten pengodean AI telah berkembang secara eksponensial.

Community Posts

View all posts