Rusak Sudah… Perdebatan Claude Code Vs Codex Akhirnya Berakhir

AAI LABS
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Untuk waktu yang lama, model pilihan semua orang untuk coding adalah Claude.
00:00:03Bukan hanya karena kinerjanya yang baik, tetapi karena tidak ada pilihan lain di tingkat yang sama.
00:00:07Kemudian model GPT melangkah maju dan menutup celah tersebut, terutama dengan rilis GPT 5.5, yang
00:00:12membuat perbedaannya hampir tidak ada.
00:00:14Untuk membandingkan keduanya, kita perlu menempatkannya di lingkungan yang dirancang terbaik bagi mereka, yang
00:00:18berarti CLI mereka sendiri.
00:00:19Jadi, kita menguji Opus 4.7 dan GPT 5.5 untuk melihat bagaimana performa mereka satu sama
00:00:25lain.
00:00:26Kita akan menguji mereka di 9 kategori untuk mengetahui mana yang benar-benar unggul dan
00:00:29pada akhirnya, Anda akan tahu mana yang layak mendapatkan tempat di alur kerja Anda.
00:00:33Kegunaan adalah hal di mana Claude Code mulai mengecewakan kami.
00:00:36Kami telah menggunakannya untuk sebagian besar tugas kami, baik coding maupun non-coding, tetapi itu hanya bagus
00:00:40sampai pembaruan 2.1.0.
00:00:43Setelah itu, keadaan mulai memburuk untuk Claude Code.
00:00:46UI adalah bagian yang paling menjengkelkan karena memiliki dampak terbesar pada pengalaman pengguna.
00:00:50Terminal mengalami glitch, rendering rusak, dan banyak hal yang dulu terasa halus sekarang terasa
00:00:55aneh.
00:00:56Dulu ini adalah salah satu TUI terbaik, tetapi hanya sampai ia mulai diprogram secara asal-asalan.
00:00:59Sekarang terasa lebih rusak dengan berbagai bug seperti masalah rendering, kebocoran cache, yang
00:01:03bukan hanya kami yang mengeluhkannya.
00:01:05Masalah yang lebih besar adalah mereka menghapus mode izin "dangerously skipped" dan menggantinya
00:01:09dengan mode otomatis secara default.
00:01:11Kami biasanya menjalankan mode tanpa izin untuk sebagian besar tugas kami, dengan hook yang disiapkan untuk
00:01:15file mana pun yang tidak kami ingin Claude sentuh.
00:01:17Sekarang ia meminta izin bahkan dalam mode itu, saat kami memberikan instruksi kepada Claude untuk membuat skill,
00:01:22beralih ke sesi Claude lain untuk melakukan hal lain, dan baru kemudian menyadari bahwa pembuatan skill tersebut
00:01:27terhambat oleh permintaan izin untuk menulis ke folder .claude selama ini.
00:01:32Kami kembali dengan harapan skill sudah dibuat, dan ternyata ia hanya diam menunggu.
00:01:36Codex menangani ini lebih baik karena mode YOLO-nya tidak meminta izin apa pun seperti
00:01:40yang dilakukan mode otomatis Claude Code.
00:01:42CLI-nya dibangun di atas Rust, jadi UI-nya jauh lebih lancar daripada pengaturan berbasis React milik Claude Code,
00:01:47dan bahkan setelah sesi yang panjang, tidak ada yang rusak.
00:01:49Konfigurasi kepribadian adalah poin lain di mana Codex lebih unggul.
00:01:53Kita dapat mengatur kepribadiannya ke bahasa yang lebih lugas dan ringkas.
00:01:56Ini karena GPT 5.5 secara signifikan lebih menjilat dan setuju dengan setiap prompt
00:02:02daripada Opus 4.7.
00:02:04Inilah sebabnya mengubah kepribadian di Codex mencegah perilaku default tersebut pada model.
00:02:08Untuk membuat Opus 4.7 lugas, kita harus mengandalkan instruksi dalam Claude.md, sementara Codex melakukan
00:02:14itu hanya dengan perubahan pengaturan.
00:02:16Skill bawaan adalah perbedaan lainnya.
00:02:18Codex hadir dengan banyak skill yang tidak dimiliki Claude Code, termasuk skill browser agen.
00:02:22Itu penting bagi siapa pun yang membangun aplikasi, karena di Codex kita tidak perlu menghubungkan
00:02:26MCP secara eksplisit untuk verifikasi browser.
00:02:29Ia melakukannya secara otomatis setelah mengimplementasikan fitur apa pun.
00:02:31Ia juga memiliki pembuat skill bawaan, jadi saat kita menginginkan skill baru, ia menghasilkan yang
00:02:35lengkap dengan struktur dan file referensi yang tepat.
00:02:38Di Claude, kita perlu menginstal pembuat skill secara terpisah untuk mendapatkan skill yang
00:02:42terstruktur dengan benar.
00:02:43Jika tidak, ia hanya menulis file MD saja.
00:02:45Namun, masih ada dua hal yang dilakukan Claude Code dengan lebih baik.
00:02:47Codex tidak menawarkan fitur rewind, yang merupakan fitur yang paling sering kami gunakan, jadi tidak memilikinya
00:02:51adalah kekurangan yang nyata.
00:02:52Claude Code juga memungkinkan kita melihat proses berpikirnya dengan memperluasnya menggunakan Ctrl+O, yang tidak
00:02:57dilakukan Codex dengan baik.
00:02:58Melihat penalaran itu sangat membantu karena kita bisa mengoreksi pendekatan di tengah tugas alih-alih
00:03:02menunggu implementasi selesai dan kemudian mengulanginya.
00:03:05Jadi melihat bagaimana pengalaman pengguna Claude Code menurun di setiap pembaruan baru, Codex mendapatkan
00:03:10poin untuk kegunaan.
00:03:11Terkait biaya, Claude Code adalah alat yang lebih mahal dengan selisih yang lebar.
00:03:15Bukan dalam hal harga aktual, tetapi berdasarkan kegunaan per harga yang sama.
00:03:19Claude Code tidak tersedia di tingkat gratis sama sekali dan hanya tersedia mulai dari
00:03:23paket Pro dan Max.
00:03:24Paket-paket tersebut memiliki harga yang hampir identik.
00:03:26Paket Pro pada dasarnya tidak dapat digunakan untuk aplikasi skala besar karena mencapai
00:03:30batasnya hanya dalam beberapa tugas.
00:03:32Kami bahkan tidak bisa menggunakan Opus 4.7 dengan benar untuk tugas yang berarti di paket Pro.
00:03:36Batasnya habis dengan sangat cepat bahkan di paket Max yang kami gunakan.
00:03:39Codex berada di posisi yang lebih baik sejak awal.
00:03:41Ia tersedia bahkan di paket gratis dengan penggunaan terbatas.
00:03:44Keduanya menggunakan mekanisme jendela 5 jam yang serupa, jadi untuk melihat mana yang bisa menyelesaikan lebih banyak pekerjaan
00:03:49kita menjalankannya pada tugas dengan skala yang sama.
00:03:51Claude Code sudah memiliki perintah konteks yang memvisualisasikan berapa banyak token yang digunakan dalam satu sesi,
00:03:56tetapi Codex tidak memiliki padanan bawaan, jadi kami harus mencari cara lain untuk perbandingannya.
00:04:00Kedua alat tersebut menyimpan sesi mereka sebagai file JSON, hanya saja diatur secara berbeda.
00:04:04Jadi kami membuat alat kecil yang membacanya dan menghitung token yang digunakan di setiap sesi.
00:04:08Pada aplikasi yang sama dan tingkat debugging yang serupa, Opus 4.7 menghabiskan 173.000 token sementara
00:04:15GPT 5.5 hanya menggunakan 82.000 token.
00:04:18Ini karena GPT 5.5 menyelesaikan pekerjaan dengan lebih sedikit token dan jauh lebih sedikit percobaan ulang.
00:04:23Jadi Codex bertahan jauh lebih lama dan terbukti jauh lebih efisien secara biaya untuk pekerjaan yang sama.
00:04:28Tapi sebelum kita lanjut, mari dengarkan sepatah kata dari sponsor kami, Stream.
00:04:32Anda sedang membangun aplikasi dan pengguna Anda perlu mengobrol, streaming, dan terhubung.
00:04:35Anda mencoba menanganinya sendiri dan 3 bulan kemudian, Anda masih melakukan debugging alih-alih merilisnya.
00:04:39Stream memangkas semua itu.
00:04:40Stream memberi Anda segalanya langsung jadi, mulai dari obrolan dalam aplikasi dan panggilan video hingga
00:04:44umpan aktivitas dan moderasi AI sehingga Anda merilis fitur, bukan membangun infrastruktur dari nol.
00:04:49Kita bicara tentang perpesanan gaya WhatsApp, panggilan video gaya Zoom, dan umpan gaya Instagram, semuanya sudah tersedia.
00:04:55Yang benar-benar menonjol adalah peluncuran baru Stream, Vision Agents.
00:04:58Anda dapat membangun agen AI cerdas yang dapat melihat, mendengar, dan bertindak pada video dan audio langsung, semuanya
00:05:02dalam Python hanya dengan beberapa baris kode.
00:05:05Semuanya berjalan di jaringan edge global untuk latensi rendah di mana saja.
00:05:08Dari startup hingga aplikasi skala besar, platform terkemuka di bidang sosial, kebugaran, dan komunitas mengandalkan
00:05:13Stream untuk melayani lebih dari satu miliar pengguna akhir.
00:05:16Jika Anda seorang pengembang yang membangun aplikasi besar berikutnya, Stream berkembang bersama Anda sejak hari pertama.
00:05:20Mulai secara gratis di getstream.io, tautan ada di komentar yang disematkan.
00:05:24Ujian sesungguhnya bagi kedua model ini adalah bagaimana mereka membangun produk.
00:05:27Seperti yang kami katakan sebelumnya, GPT 5.5 lebih cepat dan mengonsumsi lebih sedikit token, sehingga merilis aplikasi yang berfungsi lebih cepat.
00:05:33Opus 4.7 menghabiskan lebih banyak token untuk berpikir, merencanakan lebih dalam, dan melakukan iterasi pada semua aspek
00:05:38aplikasi secara bersamaan.
00:05:40Perencanaan adalah hal pertama yang ingin kami uji.
00:05:42Kami telah menggunakan mode perencanaan Claude Code untuk waktu yang lama.
00:05:45Ini mencakup sebagian besar hal, memiliki beberapa kekurangan, tetapi masih cukup bisa digunakan.
00:05:48Jadi kami ingin melihat bagaimana performa GPT 5.5 dalam perencanaan, karena OpenAI mengeklaim ia lebih baik
00:05:53dalam tugas perencanaan dan pengeksekusiannya.
00:05:55Kami mengaktifkan mode rencana dan membukanya di folder yang sudah berisi backend untuk sebuah aplikasi
00:06:00berupa API yang dibangun menggunakan FastAPI dan memintanya untuk membangun frontend untuk itu.
00:06:04Ia menjelajahi proyek secara menyeluruh dan mengajukan beberapa pertanyaan, tetapi pertanyaannya cukup
00:06:08sederhana.
00:06:09Ia bisa saja menggali lebih dalam tentang bagaimana kami ingin tampilan frontend-nya, karena untuk pekerjaan
00:06:13frontend, hal itu penting.
00:06:14Rencana yang dihasilkannya sangat sederhana.
00:06:16Itu mencakup ringkasan alur utama, perubahan kunci, halaman yang akan ditambahkan, dan cara menguji
00:06:20halaman-halaman tersebut.
00:06:21Satu hal yang dilakukannya dengan baik adalah memisahkan asumsinya dengan jelas, sehingga kami tahu persis apa yang
00:06:25ia anggap sudah beres.
00:06:26Kami menyuruhnya lanjut dan ia selesai dalam waktu sekitar 8 menit.
00:06:28Tugas yang sama pada Claude Code memakan waktu 24 menit.
00:06:31Tetapi rencana Opus 4.7 jauh lebih mendalam, mempertimbangkan lebih banyak aspek aplikasi,
00:06:36dan bahkan memasukkan ShadCN UI untuk meningkatkan pengalaman pengguna.
00:06:39Jadi Opus 4.7 lebih baik dalam hal perencanaan.
00:06:42Selanjutnya, kami ingin menguji keduanya pada aplikasi baru (Greenfield).
00:06:45Kami memberikan prompt yang sama yaitu untuk membuat mono repo dengan backend Python Flask dan
00:06:50frontend Next.js, beserta seluruh pipeline dan persyaratan utama bagaimana aplikasi tersebut harus
00:06:55bekerja.
00:06:56Ia beralih ke mode perencanaan dengan sendirinya karena desain sistem kendalinya.
00:06:59Codex tidak beralih ke mode perencanaan dan sebaliknya mulai mengimplementasikan secara langsung.
00:07:04Ia selesai jauh lebih cepat daripada Claude Code, yang memakan waktu sekitar 16 menit karena adanya langkah
00:07:08perencanaan.
00:07:09Versi aplikasi GPT 5.5 memiliki UI yang jauh lebih sederhana dan terutama berfokus untuk memastikan aplikasi
00:07:14tersebut berfungsi.
00:07:15Awalnya tidak berjalan dengan baik, jadi kami melakukan debugging secara berulang.
00:07:17Satu hal yang kami perhatikan adalah prompt wawancara diatur secara statis (hardcoded) karena kami belum memberikan
00:07:22API key apa pun.
00:07:23Prompt tersebut menetapkan penggunaan Gemini API sebagai backend, tetapi karena tidak ada key yang tersedia,
00:07:27ia mengimplementasikan mekanisme cadangan (fallback) agar aplikasi tidak crash sepenuhnya.
00:07:30Codex sebenarnya telah menggunakan pertanyaan lanjutan lokal tanpa prompt eksplisit apa pun.
00:07:35Kami menyukai ini karena mekanisme fallback seperti ini berguna dalam produksi karena mencegah
00:07:39terjadinya crash.
00:07:40Setelah beberapa iterasi dan menambahkan API key, alur aplikasi berjalan dengan benar meskipun
00:07:44UI-nya masih sederhana.
00:07:46Jadi GPT 5.5 memperhatikan kasus-kasus ekstrem (edge cases) dan mengimplementasikan mekanisme untuk mengisi celah tersebut.
00:07:51Opus 4.7, di sisi lain, meminta kami untuk memberikannya API key sebelum ia mulai implementasi
00:07:57dan membangun seluruh aplikasi berdasarkan hal itu.
00:07:59Jadi Opus 4.7, tidak seperti GPT 5.5, tidak bersiap untuk fallback dan hanya butuh semuanya tersedia
00:08:05di awal.
00:08:06Karena itu, saat API-nya tidak ada, aplikasinya tidak memiliki fallback dan hanya memberikan error.
00:08:10Claude Code memang berfokus pada pengalaman pengguna dan fungsionalitas secara bersamaan, jadi implementasinya
00:08:15terlihat lebih realistis.
00:08:16Ini menunjukkan kekuatan UI Opus 4.7, yang sudah kami bahas di video sebelumnya di mana
00:08:21kami katakan Opus 4.7 jauh lebih baik dalam menangani UI, tetapi implementasinya juga memiliki masalah.
00:08:26Saat kami memintanya untuk melakukan debug, ia tidak secara langsung memeriksa implementasinya seperti yang dilakukan Codex.
00:08:31Sebaliknya, ia mulai mengajukan pertanyaan kepada kami tentang apa yang mungkin menyebabkan masalah dan mengandalkan
00:08:35pengujian kami.
00:08:36Ia menambahkan titik-titik debug seperti indikator di UI dan log konsol serta meminta kami untuk memeriksa status
00:08:41dan melaporkan baliknya.
00:08:42Setelah proses tanya jawab, akhirnya ia memperbaiki masalahnya dan fitur wawancara pun berfungsi.
00:08:46Kami lebih suka bagaimana Codex menggunakan browser agen untuk melakukan debug sendiri.
00:08:49Jadi dalam hal kemandirian kerja, implementasi Codex lebih baik, dan dalam hal
00:08:53pengalaman pengguna, Claude Code melakukan pekerjaan yang jauh lebih baik.
00:08:56Kami juga ingin menguji bagaimana keduanya menangani perintah init.
00:08:59Perintah init Claude Code berjalan tanpa memperluas prompt secara langsung (inline).
00:09:02Ia membuat file Claude.md sederhana yang berisikan sekitar 90 baris dan mencakup arsitektur, alur aplikasi,
00:09:08struktur front-end dan back-end, serta semua perintah yang diperlukan untuk menjalankan aplikasi.
00:09:12Banyak informasi tersebut yang mubazir dan tidak benar-benar menguntungkan bagi agen, itulah
00:09:15sebabnya tidak selalu perlu untuk menyimpan semuanya.
00:09:18Pengaturan Codex lebih rapi.
00:09:20Itu mencakup panduan commit, panduan pull request, dan instruksi keamanan dengan benar
00:09:24sambil menjaga bagian struktur proyek tetap singkat alih-alih membebaninya dengan detail yang berlebihan.
00:09:28Keduanya tidak sempurna, tetapi Codex menangani agents.md dengan lebih baik.
00:09:32Sekarang kami juga ingin menguji performa keduanya dalam peninjauan kode (code review).
00:09:35Kami memberikan prompt yang sama untuk tinjauan keandalan kepada Codex dan Claude Code, meminta mereka
00:09:40untuk mendokumentasikan tinjauan tersebut dalam file terpisah sambil bekerja pada basis kode yang sama.
00:09:44Setelah keduanya menghasilkan laporan, kami membuka sesi baru dan meminta Claude untuk mengeluarkan
00:09:48perbedaan (diff) antara kedua file tersebut, membandingkan temuannya.
00:09:51Tinjauan Claude jauh lebih rinci.
00:09:53Ia mengatur setiap temuan berdasarkan prioritas dan menyertakan komponen serta potongan kode yang tepat
00:09:57di balik masalah tersebut.
00:09:59Laporan Codex menyebutkan nomor baris tetapi tidak menyertakan potongan kode yang sebenarnya.
00:10:03Kedua laporan itu teliti, membagikan beberapa temuan yang sama sementara masing-masing menemukan beberapa hal yang
00:10:07terlewatkan oleh yang lain.
00:10:08Claude Code juga melaporkan masalah keamanan seperti kebocoran API key dan kerentanan.
00:10:12Tugasnya sebenarnya adalah tinjauan keandalan, dan masalah-masalah itu di luar cakupan.
00:10:17Claude Code melaporkan setiap masalah ekstra yang ditemuinya di sepanjang jalan sementara Codex tetap patuh
00:10:21pada keandalan.
00:10:22Jadi laporan Codex lebih selaras dengan permintaan awal sementara laporan Claude Code lebih luas
00:10:27tetapi kurang fokus pada tugas spesifik.
00:10:29Jika kita harus mendeskripsikan keduanya dalam hal membangun, GPT 5.5 terasa lebih seperti insinyur backend
00:10:34yang fokus pada penyampaian fungsionalitas aplikasi dengan benar terlebih dahulu, sementara Opus 4.7 terasa
00:10:40lebih seperti insinyur full stack yang mencoba menyeimbangkan fungsionalitas dan pengalaman pengguna.
00:10:45Dalam hal manajemen konteks, Codex bekerja jauh lebih baik daripada Claude Code.
00:10:48Claude Code memiliki pengeditan konteks dalam-sesi yang menghapus panggilan alat dan langkah penalaran
00:10:53yang tidak lagi penting dari percakapan.
00:10:55Ini membersihkan informasi mubazir dari sesi untuk menghindari kelebihan beban.
00:10:58Pemadatan (compaction) ini tidak sempurna, tetapi setidaknya ia tidak menyimpan bagian yang tidak perlu dalam konteks
00:11:02saat melakukan pemadatan.
00:11:03Codex tidak mengedit konteks mereka.
00:11:05Ia memadatkan seluruh percakapan persis seperti saat terjadi.
00:11:08Satu hal yang dilakukannya dengan lebih baik adalah menyimpan 20.000 token terakhir dalam memori dan tidak memadatkan
00:11:13bagian tersebut sama sekali.
00:11:14Hal itu membantu mencegah penurunan performa di Codex setelah pemadatan sehingga percakapan
00:11:18dapat mengalir lancar dari prompt berikutnya dan seterusnya.
00:11:21Kami menguji performanya dan Codex berkinerja lebih baik setelah pemadatan dibandingkan Claude Code.
00:11:25Jadi, meskipun Claude Code mengikuti proses pemadatan multi-langkah yang lebih mendetail, bagian akhir
00:11:30yang dipertahankan Codex membuat agen tersebut lebih berguna dalam praktiknya.
00:11:33Memori bekerja secara berbeda di antara keduanya.
00:11:35Harness Claude Code sebagian besar bersifat stateless di seluruh sesi, artinya setiap sesi dimulai
00:11:39tanpa konteks apa pun dari sesi sebelumnya.
00:11:41Sekarang ia memiliki fitur memori yang dapat menyimpan preferensi atau instruksi yang persisten.
00:11:46Jadi jika kita menyuruhnya untuk menghindari melakukan sesuatu dengan cara tertentu, ia akan menyimpannya dan menerapkannya
00:11:50lagi nanti dalam proyek yang sama.
00:11:52Hal ini membantu saat bekerja berulang kali dalam satu proyek.
00:11:54Namun memorinya berskala proyek, jadi beralih proyek akan menghilangkan perilaku yang tersimpan tersebut.
00:11:58Codex mengambil rute yang berlawanan.
00:12:00Ia mengonsolidasikan informasi dari beberapa sesi seiring waktu dan membangun memori global di seluruh
00:12:05interaksi sehingga dapat mempertahankan pola di luar satu proyek saja.
00:12:08Hal ini dapat membantu konsistensi di berbagai tugas yang berbeda.
00:12:11Singkatnya, Claude Code menjaga memori lebih terbatas dalam sebuah proyek sementara Codex mengambil
00:12:15pendekatan lintas sesi dan lintas proyek yang mengubah cara masing-masing beradaptasi seiring
00:12:19berjalannya waktu.
00:12:20Karena Claude Code sudah ada lebih lama dan terus dikembangkan untuk meningkatkan
00:12:24pengalaman pengembang, ia menawarkan lebih banyak hal dibandingkan Codex.
00:12:27Claude Code memiliki sistem hook yang memungkinkan kita menjalankan skrip sendiri pada titik-titik tertentu dalam
00:12:32siklus hidup agen, seperti sebelum atau sesudah alat dijalankan, di antara titik-titik lainnya, untuk hal-hal
00:12:36seperti memblokir perintah yang tidak aman, menjalankan formatter, dan banyak lagi.
00:12:39Kita juga dapat menjalankan sub-agen dalam work tree khusus sehingga performanya tidak saling
00:12:43memengaruhi satu sama lain.
00:12:44Kita bisa mengontrol tingkat upaya model, dan kita bahkan bisa menggunakan kata kunci seperti "ultra-think"
00:12:48untuk mendorong penalaran hingga maksimal pada tugas tertentu.
00:12:51Tidak ada yang setara dengan itu di Codex saat ini.
00:12:54Ekosistem adalah kemenangan telak lainnya bagi Claude Code.
00:12:56Kita bisa menjalankan sesi melalui aplikasi desktop Claude dan mendelegasikan tugas dari aplikasi seluler.
00:13:01Melalui Claude Code, aplikasi desktop, aplikasi web, dan ekstensi peramban, jangkauannya jauh
00:13:06lebih luas daripada Codex, yang utamanya terdiri dari aplikasi web dan aplikasi desktop yang baru saja
00:13:11dirilis dan tidak terasa begitu kuat saat kami mengujinya.
00:13:14Sesi juga berpindah antar lingkungan dengan lebih mudah di Claude Code, yang membuatnya lebih
00:13:18nyaman untuk bekerja di berbagai antarmuka yang berbeda.
00:13:20Codex juga memiliki banyak fitur menarik.
00:13:22Di cloud, ia memiliki flag percobaan yang menjalankan tugas yang sama sebanyak n kali.
00:13:26Ia menghasilkan beberapa implementasi dan memilih yang terbaik.
00:13:29Claude Code bisa melakukan hal serupa tetapi hanya melalui konfigurasi dan instruksi, bukan
00:13:33sebagai sebuah flag.
00:13:34Fitur khusus Codex lainnya, yang membedakannya dari yang lain, adalah integrasinya dengan
00:13:38model gambar OpenAI.
00:13:39Ia dapat menggunakannya secara langsung di CLI untuk menghasilkan gambar bagi situs web yang sedang dikerjakan.
00:13:44Claude sebagian besar mengandalkan pembuatan visual berbasis SVG, yang bahkan tidak dapat bersaing secara
00:13:49kualitas karena ia belum memiliki model gambar apa pun.
00:13:52Jika kita membangun UI yang membutuhkan citra nyata, Codex adalah satu-satunya dari keduanya yang bisa
00:13:56melakukannya, bahkan tanpa disuruh secara eksplisit.
00:13:58Selain itu, jika Anda menikmati konten kami, pertimbangkan untuk menekan tombol hype karena itu membantu kami
00:14:03membuat lebih banyak konten seperti ini dan menjangkau lebih banyak orang.
00:14:06Keduanya menggunakan sub-agen, meskipun konsepnya diperkenalkan oleh Claude terlebih dahulu.
00:14:10Karena hadir lebih dulu di Claude Code, integrasinya lebih matang karena sudah berpusat pada agen
00:14:15dan fokus pada pengalaman pengodean jauh lebih lama daripada OpenAI.
00:14:19Ia mendukung agen yang dapat diatur melalui sesi jarak jauh, sementara Codex utamanya
00:14:23mendukung alur kerja multi-agen di dalam lingkungan terminal.
00:14:27Perbedaan terbesarnya adalah bagaimana masing-masing memanggil sub-agen.
00:14:29Claude Code dapat memunculkan agen tanpa pemanggilan eksplisit, sementara Codex hanya membuat agen
00:14:35jika kita memintanya secara eksplisit dalam prompt.
00:14:37Saat Codex memunculkan agen, ia memberi mereka nama dan memberikan prompt yang sesuai juga.
00:14:41Dalam performa pengodean, keduanya cukup mirip, tetapi pilihan desain di baliknya berbeda.
00:14:46Sub-agen Claude Code menggunakan daftar izin eksplisit, artinya agen induk menentukan secara tepat
00:14:51alat mana yang dapat diakses oleh sub-agen, sementara sub-agen Codex mewarisi akses alat dari
00:14:55induknya secara default.
00:14:57Claude Code juga memberikan jendela konteks yang sepenuhnya baru kepada setiap sub-agen.
00:15:01Sub-agen tidak memiliki akses ke riwayat percakapan dan hanya melihat prompt dari induknya,
00:15:06ditambah prompt sistem dan aturan global apa pun, karena Claude berfokus pada isolasi konteks.
00:15:10Codex CLI melakukan hal yang sebaliknya.
00:15:12Ia mencabangkan riwayat lengkap ke dalam sesi sub-agen, dengan prompt induk yang dilapisi di atasnya.
00:15:17Agen Codex mempertahankan lebih banyak konteks tentang apa yang sudah dibahas, yang memang membantu meningkatkan
00:15:22performa mereka.
00:15:23Dalam praktiknya, isolasi ketat Claude Code merugikan sub-agen riset kami.
00:15:27Saat kami menggunakannya, hasilnya tidak cukup baik, karena mereka hanya melihat prompt
00:15:30langsung dan tidak memiliki konteks sebelumnya.
00:15:33Agen Codex mendapatkan seluruh riwayat, dapat melakukan iterasi dengan lebih efektif, dan berkinerja lebih baik pada tugas
00:15:38di mana kontinuitas itu penting.
00:15:39Hal itu membawa kita ke akhir video ini.
00:15:41Jika Anda ingin mendukung saluran ini dan membantu kami terus membuat video seperti ini, Anda dapat melakukannya
00:15:45dengan menggunakan tombol super thanks di bawah.
00:15:48Seperti biasa, terima kasih telah menonton dan sampai jumpa di video berikutnya.

Key Takeaway

Codex dengan GPT 5.5 mengungguli Claude Code dalam efisiensi biaya sebesar 50%, kecepatan eksekusi 3x lebih cepat, dan kemandirian debugging melalui fitur agen browser terintegrasi.

Highlights

  • GPT 5.5 hanya menggunakan 82.000 token untuk menyelesaikan tugas yang sama dengan Opus 4.7 yang menghabiskan 173.000 token.

  • Codex dibangun di atas Rust sehingga antarmuka pengguna jauh lebih lancar dibandingkan Claude Code yang berbasis React.

  • GPT 5.5 menyelesaikan tugas membangun frontend dari backend API dalam waktu 8 menit, sementara Opus 4.7 membutuhkan 24 menit.

  • Codex memiliki fitur agen browser bawaan yang melakukan verifikasi dan debugging secara otomatis tanpa perlu konfigurasi MCP eksternal.

  • Claude Code menerapkan isolasi konteks ketat pada sub-agen, sedangkan Codex mencabangkan seluruh riwayat percakapan ke sesi sub-agen.

  • Integrasi model gambar OpenAI memungkinkan Codex menghasilkan visual situs web secara langsung melalui perintah teks di terminal.

  • Fitur memori Codex bersifat global lintas proyek, berbeda dengan Claude Code yang membatasi memori hanya di dalam lingkup satu proyek.

Timeline

Masalah Kegunaan dan Antarmuka Pengguna

  • Pembaruan versi 2.1.0 menyebabkan penurunan performa signifikan pada antarmuka Claude Code.
  • Bug rendering dan kebocoran cache menjadi kendala utama dalam pengalaman pengguna Claude Code saat ini.
  • Codex yang berbasis Rust menawarkan stabilitas UI yang lebih tinggi daripada sistem berbasis React milik Claude.

Pengalaman pengguna pada Claude Code mengalami degradasi sejak versi 2.1.0 dengan munculnya glitch terminal dan rendering yang rusak. Mode otomatis baru pada Claude sering menghambat alur kerja karena meminta izin penulisan folder secara berulang di tengah tugas. Sebaliknya, Codex menyediakan mode YOLO yang memungkinkan eksekusi tanpa instruksi izin manual yang mengganggu.

Perbandingan Kustomisasi dan Fitur Bawaan

  • Pengaturan kepribadian Codex memungkinkan penggunaan bahasa yang lebih lugas tanpa perlu instruksi tambahan di file Markdown.
  • Codex menyertakan kemampuan agen browser dan pembuat skill yang terintegrasi secara langsung.
  • Claude Code unggul dalam fitur rewind dan transparansi proses berpikir melalui pintasan Ctrl+O.

GPT 5.5 cenderung memiliki gaya bicara yang terlalu setuju, namun Codex memungkinkan pengguna mengubah kepribadian model menjadi ringkas melalui pengaturan sederhana. Dalam hal pengembangan, Codex secara otomatis memverifikasi fitur menggunakan browser setelah implementasi selesai. Claude Code tetap kompetitif bagi pengguna yang membutuhkan koreksi di tengah jalan berkat visualisasi penalaran real-time.

Analisis Efisiensi Biaya dan Konsumsi Token

  • Claude Code memerlukan paket berbayar Pro atau Max untuk dapat digunakan.
  • GPT 5.5 terbukti 2x lebih efisien dalam penggunaan token dibandingkan Opus 4.7 untuk beban kerja yang identik.
  • Penggunaan token yang lebih rendah pada Codex disebabkan oleh jumlah percobaan ulang yang jauh lebih sedikit.

Uji coba pada aplikasi skala besar menunjukkan bahwa Opus 4.7 menghabiskan 173.000 token, sedangkan GPT 5.5 hanya memerlukan 82.000 token. Hal ini membuat Codex lebih berkelanjutan untuk penggunaan jangka panjang dalam satu sesi kerja. Selain itu, ketersediaan tingkat gratis pada Codex memberikan aksesibilitas yang lebih luas bagi pengembang dengan anggaran terbatas.

Kualitas Implementasi dan Perencanaan Produk

  • Opus 4.7 menghasilkan rencana pengembangan yang lebih mendalam dan memperhatikan estetika UI.
  • GPT 5.5 lebih unggul dalam menangani kasus ekstrem dengan mengimplementasikan mekanisme fallback secara otomatis.
  • Kemandirian kerja Codex lebih tinggi karena kemampuan melakukan debug sendiri menggunakan agen browser.

Dalam pengujian pembuatan frontend, GPT 5.5 menyelesaikan tugas dalam 8 menit dengan fokus pada fungsionalitas murni. Opus 4.7 membutuhkan 24 menit tetapi menyertakan integrasi pustaka UI modern seperti ShadCN untuk hasil yang lebih realistis. Namun, saat terjadi kesalahan API, aplikasi buatan Codex tetap berjalan berkat logika cadangan, sementara aplikasi Claude Code hanya menampilkan pesan error.

Manajemen Konteks, Memori, dan Ekosistem

  • Codex mempertahankan 20.000 token terakhir dalam memori tanpa pemadatan untuk menjaga performa.
  • Sistem hook dan fitur ultra-think pada Claude Code memberikan kontrol teknis yang lebih granular bagi pengembang.
  • Isolasi konteks pada sub-agen Claude Code menghambat efektivitas tugas riset dibandingkan pendekatan pencabangan riwayat pada Codex.

Claude Code menawarkan ekosistem yang lebih matang dengan integrasi antar aplikasi seluler, desktop, dan web. Fitur hook memungkinkan otomatisasi skrip seperti pemblokiran perintah tidak aman atau pemformatan kode secara otomatis. Namun, dalam skenario multi-agen, sub-agen Codex lebih efektif karena mereka mewarisi riwayat percakapan lengkap dari agen induk, memungkinkan kontinuitas kerja yang lebih baik.

Community Posts

View all posts