Transcript
00:00:00Untuk waktu yang lama, model pilihan semua orang untuk coding adalah Claude.
00:00:03Bukan hanya karena kinerjanya yang baik, tetapi karena tidak ada pilihan lain di tingkat yang sama.
00:00:07Kemudian model GPT melangkah maju dan menutup celah tersebut, terutama dengan rilis GPT 5.5, yang
00:00:12membuat perbedaannya hampir tidak ada.
00:00:14Untuk membandingkan keduanya, kita perlu menempatkannya di lingkungan yang dirancang terbaik bagi mereka, yang
00:00:18berarti CLI mereka sendiri.
00:00:19Jadi, kita menguji Opus 4.7 dan GPT 5.5 untuk melihat bagaimana performa mereka satu sama
00:00:25lain.
00:00:26Kita akan menguji mereka di 9 kategori untuk mengetahui mana yang benar-benar unggul dan
00:00:29pada akhirnya, Anda akan tahu mana yang layak mendapatkan tempat di alur kerja Anda.
00:00:33Kegunaan adalah hal di mana Claude Code mulai mengecewakan kami.
00:00:36Kami telah menggunakannya untuk sebagian besar tugas kami, baik coding maupun non-coding, tetapi itu hanya bagus
00:00:40sampai pembaruan 2.1.0.
00:00:43Setelah itu, keadaan mulai memburuk untuk Claude Code.
00:00:46UI adalah bagian yang paling menjengkelkan karena memiliki dampak terbesar pada pengalaman pengguna.
00:00:50Terminal mengalami glitch, rendering rusak, dan banyak hal yang dulu terasa halus sekarang terasa
00:00:55aneh.
00:00:56Dulu ini adalah salah satu TUI terbaik, tetapi hanya sampai ia mulai diprogram secara asal-asalan.
00:00:59Sekarang terasa lebih rusak dengan berbagai bug seperti masalah rendering, kebocoran cache, yang
00:01:03bukan hanya kami yang mengeluhkannya.
00:01:05Masalah yang lebih besar adalah mereka menghapus mode izin "dangerously skipped" dan menggantinya
00:01:09dengan mode otomatis secara default.
00:01:11Kami biasanya menjalankan mode tanpa izin untuk sebagian besar tugas kami, dengan hook yang disiapkan untuk
00:01:15file mana pun yang tidak kami ingin Claude sentuh.
00:01:17Sekarang ia meminta izin bahkan dalam mode itu, saat kami memberikan instruksi kepada Claude untuk membuat skill,
00:01:22beralih ke sesi Claude lain untuk melakukan hal lain, dan baru kemudian menyadari bahwa pembuatan skill tersebut
00:01:27terhambat oleh permintaan izin untuk menulis ke folder .claude selama ini.
00:01:32Kami kembali dengan harapan skill sudah dibuat, dan ternyata ia hanya diam menunggu.
00:01:36Codex menangani ini lebih baik karena mode YOLO-nya tidak meminta izin apa pun seperti
00:01:40yang dilakukan mode otomatis Claude Code.
00:01:42CLI-nya dibangun di atas Rust, jadi UI-nya jauh lebih lancar daripada pengaturan berbasis React milik Claude Code,
00:01:47dan bahkan setelah sesi yang panjang, tidak ada yang rusak.
00:01:49Konfigurasi kepribadian adalah poin lain di mana Codex lebih unggul.
00:01:53Kita dapat mengatur kepribadiannya ke bahasa yang lebih lugas dan ringkas.
00:01:56Ini karena GPT 5.5 secara signifikan lebih menjilat dan setuju dengan setiap prompt
00:02:02daripada Opus 4.7.
00:02:04Inilah sebabnya mengubah kepribadian di Codex mencegah perilaku default tersebut pada model.
00:02:08Untuk membuat Opus 4.7 lugas, kita harus mengandalkan instruksi dalam Claude.md, sementara Codex melakukan
00:02:14itu hanya dengan perubahan pengaturan.
00:02:16Skill bawaan adalah perbedaan lainnya.
00:02:18Codex hadir dengan banyak skill yang tidak dimiliki Claude Code, termasuk skill browser agen.
00:02:22Itu penting bagi siapa pun yang membangun aplikasi, karena di Codex kita tidak perlu menghubungkan
00:02:26MCP secara eksplisit untuk verifikasi browser.
00:02:29Ia melakukannya secara otomatis setelah mengimplementasikan fitur apa pun.
00:02:31Ia juga memiliki pembuat skill bawaan, jadi saat kita menginginkan skill baru, ia menghasilkan yang
00:02:35lengkap dengan struktur dan file referensi yang tepat.
00:02:38Di Claude, kita perlu menginstal pembuat skill secara terpisah untuk mendapatkan skill yang
00:02:42terstruktur dengan benar.
00:02:43Jika tidak, ia hanya menulis file MD saja.
00:02:45Namun, masih ada dua hal yang dilakukan Claude Code dengan lebih baik.
00:02:47Codex tidak menawarkan fitur rewind, yang merupakan fitur yang paling sering kami gunakan, jadi tidak memilikinya
00:02:51adalah kekurangan yang nyata.
00:02:52Claude Code juga memungkinkan kita melihat proses berpikirnya dengan memperluasnya menggunakan Ctrl+O, yang tidak
00:02:57dilakukan Codex dengan baik.
00:02:58Melihat penalaran itu sangat membantu karena kita bisa mengoreksi pendekatan di tengah tugas alih-alih
00:03:02menunggu implementasi selesai dan kemudian mengulanginya.
00:03:05Jadi melihat bagaimana pengalaman pengguna Claude Code menurun di setiap pembaruan baru, Codex mendapatkan
00:03:10poin untuk kegunaan.
00:03:11Terkait biaya, Claude Code adalah alat yang lebih mahal dengan selisih yang lebar.
00:03:15Bukan dalam hal harga aktual, tetapi berdasarkan kegunaan per harga yang sama.
00:03:19Claude Code tidak tersedia di tingkat gratis sama sekali dan hanya tersedia mulai dari
00:03:23paket Pro dan Max.
00:03:24Paket-paket tersebut memiliki harga yang hampir identik.
00:03:26Paket Pro pada dasarnya tidak dapat digunakan untuk aplikasi skala besar karena mencapai
00:03:30batasnya hanya dalam beberapa tugas.
00:03:32Kami bahkan tidak bisa menggunakan Opus 4.7 dengan benar untuk tugas yang berarti di paket Pro.
00:03:36Batasnya habis dengan sangat cepat bahkan di paket Max yang kami gunakan.
00:03:39Codex berada di posisi yang lebih baik sejak awal.
00:03:41Ia tersedia bahkan di paket gratis dengan penggunaan terbatas.
00:03:44Keduanya menggunakan mekanisme jendela 5 jam yang serupa, jadi untuk melihat mana yang bisa menyelesaikan lebih banyak pekerjaan
00:03:49kita menjalankannya pada tugas dengan skala yang sama.
00:03:51Claude Code sudah memiliki perintah konteks yang memvisualisasikan berapa banyak token yang digunakan dalam satu sesi,
00:03:56tetapi Codex tidak memiliki padanan bawaan, jadi kami harus mencari cara lain untuk perbandingannya.
00:04:00Kedua alat tersebut menyimpan sesi mereka sebagai file JSON, hanya saja diatur secara berbeda.
00:04:04Jadi kami membuat alat kecil yang membacanya dan menghitung token yang digunakan di setiap sesi.
00:04:08Pada aplikasi yang sama dan tingkat debugging yang serupa, Opus 4.7 menghabiskan 173.000 token sementara
00:04:15GPT 5.5 hanya menggunakan 82.000 token.
00:04:18Ini karena GPT 5.5 menyelesaikan pekerjaan dengan lebih sedikit token dan jauh lebih sedikit percobaan ulang.
00:04:23Jadi Codex bertahan jauh lebih lama dan terbukti jauh lebih efisien secara biaya untuk pekerjaan yang sama.
00:04:28Tapi sebelum kita lanjut, mari dengarkan sepatah kata dari sponsor kami, Stream.
00:04:32Anda sedang membangun aplikasi dan pengguna Anda perlu mengobrol, streaming, dan terhubung.
00:04:35Anda mencoba menanganinya sendiri dan 3 bulan kemudian, Anda masih melakukan debugging alih-alih merilisnya.
00:04:39Stream memangkas semua itu.
00:04:40Stream memberi Anda segalanya langsung jadi, mulai dari obrolan dalam aplikasi dan panggilan video hingga
00:04:44umpan aktivitas dan moderasi AI sehingga Anda merilis fitur, bukan membangun infrastruktur dari nol.
00:04:49Kita bicara tentang perpesanan gaya WhatsApp, panggilan video gaya Zoom, dan umpan gaya Instagram, semuanya sudah tersedia.
00:04:55Yang benar-benar menonjol adalah peluncuran baru Stream, Vision Agents.
00:04:58Anda dapat membangun agen AI cerdas yang dapat melihat, mendengar, dan bertindak pada video dan audio langsung, semuanya
00:05:02dalam Python hanya dengan beberapa baris kode.
00:05:05Semuanya berjalan di jaringan edge global untuk latensi rendah di mana saja.
00:05:08Dari startup hingga aplikasi skala besar, platform terkemuka di bidang sosial, kebugaran, dan komunitas mengandalkan
00:05:13Stream untuk melayani lebih dari satu miliar pengguna akhir.
00:05:16Jika Anda seorang pengembang yang membangun aplikasi besar berikutnya, Stream berkembang bersama Anda sejak hari pertama.
00:05:20Mulai secara gratis di getstream.io, tautan ada di komentar yang disematkan.
00:05:24Ujian sesungguhnya bagi kedua model ini adalah bagaimana mereka membangun produk.
00:05:27Seperti yang kami katakan sebelumnya, GPT 5.5 lebih cepat dan mengonsumsi lebih sedikit token, sehingga merilis aplikasi yang berfungsi lebih cepat.
00:05:33Opus 4.7 menghabiskan lebih banyak token untuk berpikir, merencanakan lebih dalam, dan melakukan iterasi pada semua aspek
00:05:38aplikasi secara bersamaan.
00:05:40Perencanaan adalah hal pertama yang ingin kami uji.
00:05:42Kami telah menggunakan mode perencanaan Claude Code untuk waktu yang lama.
00:05:45Ini mencakup sebagian besar hal, memiliki beberapa kekurangan, tetapi masih cukup bisa digunakan.
00:05:48Jadi kami ingin melihat bagaimana performa GPT 5.5 dalam perencanaan, karena OpenAI mengeklaim ia lebih baik
00:05:53dalam tugas perencanaan dan pengeksekusiannya.
00:05:55Kami mengaktifkan mode rencana dan membukanya di folder yang sudah berisi backend untuk sebuah aplikasi
00:06:00berupa API yang dibangun menggunakan FastAPI dan memintanya untuk membangun frontend untuk itu.
00:06:04Ia menjelajahi proyek secara menyeluruh dan mengajukan beberapa pertanyaan, tetapi pertanyaannya cukup
00:06:08sederhana.
00:06:09Ia bisa saja menggali lebih dalam tentang bagaimana kami ingin tampilan frontend-nya, karena untuk pekerjaan
00:06:13frontend, hal itu penting.
00:06:14Rencana yang dihasilkannya sangat sederhana.
00:06:16Itu mencakup ringkasan alur utama, perubahan kunci, halaman yang akan ditambahkan, dan cara menguji
00:06:20halaman-halaman tersebut.
00:06:21Satu hal yang dilakukannya dengan baik adalah memisahkan asumsinya dengan jelas, sehingga kami tahu persis apa yang
00:06:25ia anggap sudah beres.
00:06:26Kami menyuruhnya lanjut dan ia selesai dalam waktu sekitar 8 menit.
00:06:28Tugas yang sama pada Claude Code memakan waktu 24 menit.
00:06:31Tetapi rencana Opus 4.7 jauh lebih mendalam, mempertimbangkan lebih banyak aspek aplikasi,
00:06:36dan bahkan memasukkan ShadCN UI untuk meningkatkan pengalaman pengguna.
00:06:39Jadi Opus 4.7 lebih baik dalam hal perencanaan.
00:06:42Selanjutnya, kami ingin menguji keduanya pada aplikasi baru (Greenfield).
00:06:45Kami memberikan prompt yang sama yaitu untuk membuat mono repo dengan backend Python Flask dan
00:06:50frontend Next.js, beserta seluruh pipeline dan persyaratan utama bagaimana aplikasi tersebut harus
00:06:55bekerja.
00:06:56Ia beralih ke mode perencanaan dengan sendirinya karena desain sistem kendalinya.
00:06:59Codex tidak beralih ke mode perencanaan dan sebaliknya mulai mengimplementasikan secara langsung.
00:07:04Ia selesai jauh lebih cepat daripada Claude Code, yang memakan waktu sekitar 16 menit karena adanya langkah
00:07:08perencanaan.
00:07:09Versi aplikasi GPT 5.5 memiliki UI yang jauh lebih sederhana dan terutama berfokus untuk memastikan aplikasi
00:07:14tersebut berfungsi.
00:07:15Awalnya tidak berjalan dengan baik, jadi kami melakukan debugging secara berulang.
00:07:17Satu hal yang kami perhatikan adalah prompt wawancara diatur secara statis (hardcoded) karena kami belum memberikan
00:07:22API key apa pun.
00:07:23Prompt tersebut menetapkan penggunaan Gemini API sebagai backend, tetapi karena tidak ada key yang tersedia,
00:07:27ia mengimplementasikan mekanisme cadangan (fallback) agar aplikasi tidak crash sepenuhnya.
00:07:30Codex sebenarnya telah menggunakan pertanyaan lanjutan lokal tanpa prompt eksplisit apa pun.
00:07:35Kami menyukai ini karena mekanisme fallback seperti ini berguna dalam produksi karena mencegah
00:07:39terjadinya crash.
00:07:40Setelah beberapa iterasi dan menambahkan API key, alur aplikasi berjalan dengan benar meskipun
00:07:44UI-nya masih sederhana.
00:07:46Jadi GPT 5.5 memperhatikan kasus-kasus ekstrem (edge cases) dan mengimplementasikan mekanisme untuk mengisi celah tersebut.
00:07:51Opus 4.7, di sisi lain, meminta kami untuk memberikannya API key sebelum ia mulai implementasi
00:07:57dan membangun seluruh aplikasi berdasarkan hal itu.
00:07:59Jadi Opus 4.7, tidak seperti GPT 5.5, tidak bersiap untuk fallback dan hanya butuh semuanya tersedia
00:08:05di awal.
00:08:06Karena itu, saat API-nya tidak ada, aplikasinya tidak memiliki fallback dan hanya memberikan error.
00:08:10Claude Code memang berfokus pada pengalaman pengguna dan fungsionalitas secara bersamaan, jadi implementasinya
00:08:15terlihat lebih realistis.
00:08:16Ini menunjukkan kekuatan UI Opus 4.7, yang sudah kami bahas di video sebelumnya di mana
00:08:21kami katakan Opus 4.7 jauh lebih baik dalam menangani UI, tetapi implementasinya juga memiliki masalah.
00:08:26Saat kami memintanya untuk melakukan debug, ia tidak secara langsung memeriksa implementasinya seperti yang dilakukan Codex.
00:08:31Sebaliknya, ia mulai mengajukan pertanyaan kepada kami tentang apa yang mungkin menyebabkan masalah dan mengandalkan
00:08:35pengujian kami.
00:08:36Ia menambahkan titik-titik debug seperti indikator di UI dan log konsol serta meminta kami untuk memeriksa status
00:08:41dan melaporkan baliknya.
00:08:42Setelah proses tanya jawab, akhirnya ia memperbaiki masalahnya dan fitur wawancara pun berfungsi.
00:08:46Kami lebih suka bagaimana Codex menggunakan browser agen untuk melakukan debug sendiri.
00:08:49Jadi dalam hal kemandirian kerja, implementasi Codex lebih baik, dan dalam hal
00:08:53pengalaman pengguna, Claude Code melakukan pekerjaan yang jauh lebih baik.
00:08:56Kami juga ingin menguji bagaimana keduanya menangani perintah init.
00:08:59Perintah init Claude Code berjalan tanpa memperluas prompt secara langsung (inline).
00:09:02Ia membuat file Claude.md sederhana yang berisikan sekitar 90 baris dan mencakup arsitektur, alur aplikasi,
00:09:08struktur front-end dan back-end, serta semua perintah yang diperlukan untuk menjalankan aplikasi.
00:09:12Banyak informasi tersebut yang mubazir dan tidak benar-benar menguntungkan bagi agen, itulah
00:09:15sebabnya tidak selalu perlu untuk menyimpan semuanya.
00:09:18Pengaturan Codex lebih rapi.
00:09:20Itu mencakup panduan commit, panduan pull request, dan instruksi keamanan dengan benar
00:09:24sambil menjaga bagian struktur proyek tetap singkat alih-alih membebaninya dengan detail yang berlebihan.
00:09:28Keduanya tidak sempurna, tetapi Codex menangani agents.md dengan lebih baik.
00:09:32Sekarang kami juga ingin menguji performa keduanya dalam peninjauan kode (code review).
00:09:35Kami memberikan prompt yang sama untuk tinjauan keandalan kepada Codex dan Claude Code, meminta mereka
00:09:40untuk mendokumentasikan tinjauan tersebut dalam file terpisah sambil bekerja pada basis kode yang sama.
00:09:44Setelah keduanya menghasilkan laporan, kami membuka sesi baru dan meminta Claude untuk mengeluarkan
00:09:48perbedaan (diff) antara kedua file tersebut, membandingkan temuannya.
00:09:51Tinjauan Claude jauh lebih rinci.
00:09:53Ia mengatur setiap temuan berdasarkan prioritas dan menyertakan komponen serta potongan kode yang tepat
00:09:57di balik masalah tersebut.
00:09:59Laporan Codex menyebutkan nomor baris tetapi tidak menyertakan potongan kode yang sebenarnya.
00:10:03Kedua laporan itu teliti, membagikan beberapa temuan yang sama sementara masing-masing menemukan beberapa hal yang
00:10:07terlewatkan oleh yang lain.
00:10:08Claude Code juga melaporkan masalah keamanan seperti kebocoran API key dan kerentanan.
00:10:12Tugasnya sebenarnya adalah tinjauan keandalan, dan masalah-masalah itu di luar cakupan.
00:10:17Claude Code melaporkan setiap masalah ekstra yang ditemuinya di sepanjang jalan sementara Codex tetap patuh
00:10:21pada keandalan.
00:10:22Jadi laporan Codex lebih selaras dengan permintaan awal sementara laporan Claude Code lebih luas
00:10:27tetapi kurang fokus pada tugas spesifik.
00:10:29Jika kita harus mendeskripsikan keduanya dalam hal membangun, GPT 5.5 terasa lebih seperti insinyur backend
00:10:34yang fokus pada penyampaian fungsionalitas aplikasi dengan benar terlebih dahulu, sementara Opus 4.7 terasa
00:10:40lebih seperti insinyur full stack yang mencoba menyeimbangkan fungsionalitas dan pengalaman pengguna.
00:10:45Dalam hal manajemen konteks, Codex bekerja jauh lebih baik daripada Claude Code.
00:10:48Claude Code memiliki pengeditan konteks dalam-sesi yang menghapus panggilan alat dan langkah penalaran
00:10:53yang tidak lagi penting dari percakapan.
00:10:55Ini membersihkan informasi mubazir dari sesi untuk menghindari kelebihan beban.
00:10:58Pemadatan (compaction) ini tidak sempurna, tetapi setidaknya ia tidak menyimpan bagian yang tidak perlu dalam konteks
00:11:02saat melakukan pemadatan.
00:11:03Codex tidak mengedit konteks mereka.
00:11:05Ia memadatkan seluruh percakapan persis seperti saat terjadi.
00:11:08Satu hal yang dilakukannya dengan lebih baik adalah menyimpan 20.000 token terakhir dalam memori dan tidak memadatkan
00:11:13bagian tersebut sama sekali.
00:11:14Hal itu membantu mencegah penurunan performa di Codex setelah pemadatan sehingga percakapan
00:11:18dapat mengalir lancar dari prompt berikutnya dan seterusnya.
00:11:21Kami menguji performanya dan Codex berkinerja lebih baik setelah pemadatan dibandingkan Claude Code.
00:11:25Jadi, meskipun Claude Code mengikuti proses pemadatan multi-langkah yang lebih mendetail, bagian akhir
00:11:30yang dipertahankan Codex membuat agen tersebut lebih berguna dalam praktiknya.
00:11:33Memori bekerja secara berbeda di antara keduanya.
00:11:35Harness Claude Code sebagian besar bersifat stateless di seluruh sesi, artinya setiap sesi dimulai
00:11:39tanpa konteks apa pun dari sesi sebelumnya.
00:11:41Sekarang ia memiliki fitur memori yang dapat menyimpan preferensi atau instruksi yang persisten.
00:11:46Jadi jika kita menyuruhnya untuk menghindari melakukan sesuatu dengan cara tertentu, ia akan menyimpannya dan menerapkannya
00:11:50lagi nanti dalam proyek yang sama.
00:11:52Hal ini membantu saat bekerja berulang kali dalam satu proyek.
00:11:54Namun memorinya berskala proyek, jadi beralih proyek akan menghilangkan perilaku yang tersimpan tersebut.
00:11:58Codex mengambil rute yang berlawanan.
00:12:00Ia mengonsolidasikan informasi dari beberapa sesi seiring waktu dan membangun memori global di seluruh
00:12:05interaksi sehingga dapat mempertahankan pola di luar satu proyek saja.
00:12:08Hal ini dapat membantu konsistensi di berbagai tugas yang berbeda.
00:12:11Singkatnya, Claude Code menjaga memori lebih terbatas dalam sebuah proyek sementara Codex mengambil
00:12:15pendekatan lintas sesi dan lintas proyek yang mengubah cara masing-masing beradaptasi seiring
00:12:19berjalannya waktu.
00:12:20Karena Claude Code sudah ada lebih lama dan terus dikembangkan untuk meningkatkan
00:12:24pengalaman pengembang, ia menawarkan lebih banyak hal dibandingkan Codex.
00:12:27Claude Code memiliki sistem hook yang memungkinkan kita menjalankan skrip sendiri pada titik-titik tertentu dalam
00:12:32siklus hidup agen, seperti sebelum atau sesudah alat dijalankan, di antara titik-titik lainnya, untuk hal-hal
00:12:36seperti memblokir perintah yang tidak aman, menjalankan formatter, dan banyak lagi.
00:12:39Kita juga dapat menjalankan sub-agen dalam work tree khusus sehingga performanya tidak saling
00:12:43memengaruhi satu sama lain.
00:12:44Kita bisa mengontrol tingkat upaya model, dan kita bahkan bisa menggunakan kata kunci seperti "ultra-think"
00:12:48untuk mendorong penalaran hingga maksimal pada tugas tertentu.
00:12:51Tidak ada yang setara dengan itu di Codex saat ini.
00:12:54Ekosistem adalah kemenangan telak lainnya bagi Claude Code.
00:12:56Kita bisa menjalankan sesi melalui aplikasi desktop Claude dan mendelegasikan tugas dari aplikasi seluler.
00:13:01Melalui Claude Code, aplikasi desktop, aplikasi web, dan ekstensi peramban, jangkauannya jauh
00:13:06lebih luas daripada Codex, yang utamanya terdiri dari aplikasi web dan aplikasi desktop yang baru saja
00:13:11dirilis dan tidak terasa begitu kuat saat kami mengujinya.
00:13:14Sesi juga berpindah antar lingkungan dengan lebih mudah di Claude Code, yang membuatnya lebih
00:13:18nyaman untuk bekerja di berbagai antarmuka yang berbeda.
00:13:20Codex juga memiliki banyak fitur menarik.
00:13:22Di cloud, ia memiliki flag percobaan yang menjalankan tugas yang sama sebanyak n kali.
00:13:26Ia menghasilkan beberapa implementasi dan memilih yang terbaik.
00:13:29Claude Code bisa melakukan hal serupa tetapi hanya melalui konfigurasi dan instruksi, bukan
00:13:33sebagai sebuah flag.
00:13:34Fitur khusus Codex lainnya, yang membedakannya dari yang lain, adalah integrasinya dengan
00:13:38model gambar OpenAI.
00:13:39Ia dapat menggunakannya secara langsung di CLI untuk menghasilkan gambar bagi situs web yang sedang dikerjakan.
00:13:44Claude sebagian besar mengandalkan pembuatan visual berbasis SVG, yang bahkan tidak dapat bersaing secara
00:13:49kualitas karena ia belum memiliki model gambar apa pun.
00:13:52Jika kita membangun UI yang membutuhkan citra nyata, Codex adalah satu-satunya dari keduanya yang bisa
00:13:56melakukannya, bahkan tanpa disuruh secara eksplisit.
00:13:58Selain itu, jika Anda menikmati konten kami, pertimbangkan untuk menekan tombol hype karena itu membantu kami
00:14:03membuat lebih banyak konten seperti ini dan menjangkau lebih banyak orang.
00:14:06Keduanya menggunakan sub-agen, meskipun konsepnya diperkenalkan oleh Claude terlebih dahulu.
00:14:10Karena hadir lebih dulu di Claude Code, integrasinya lebih matang karena sudah berpusat pada agen
00:14:15dan fokus pada pengalaman pengodean jauh lebih lama daripada OpenAI.
00:14:19Ia mendukung agen yang dapat diatur melalui sesi jarak jauh, sementara Codex utamanya
00:14:23mendukung alur kerja multi-agen di dalam lingkungan terminal.
00:14:27Perbedaan terbesarnya adalah bagaimana masing-masing memanggil sub-agen.
00:14:29Claude Code dapat memunculkan agen tanpa pemanggilan eksplisit, sementara Codex hanya membuat agen
00:14:35jika kita memintanya secara eksplisit dalam prompt.
00:14:37Saat Codex memunculkan agen, ia memberi mereka nama dan memberikan prompt yang sesuai juga.
00:14:41Dalam performa pengodean, keduanya cukup mirip, tetapi pilihan desain di baliknya berbeda.
00:14:46Sub-agen Claude Code menggunakan daftar izin eksplisit, artinya agen induk menentukan secara tepat
00:14:51alat mana yang dapat diakses oleh sub-agen, sementara sub-agen Codex mewarisi akses alat dari
00:14:55induknya secara default.
00:14:57Claude Code juga memberikan jendela konteks yang sepenuhnya baru kepada setiap sub-agen.
00:15:01Sub-agen tidak memiliki akses ke riwayat percakapan dan hanya melihat prompt dari induknya,
00:15:06ditambah prompt sistem dan aturan global apa pun, karena Claude berfokus pada isolasi konteks.
00:15:10Codex CLI melakukan hal yang sebaliknya.
00:15:12Ia mencabangkan riwayat lengkap ke dalam sesi sub-agen, dengan prompt induk yang dilapisi di atasnya.
00:15:17Agen Codex mempertahankan lebih banyak konteks tentang apa yang sudah dibahas, yang memang membantu meningkatkan
00:15:22performa mereka.
00:15:23Dalam praktiknya, isolasi ketat Claude Code merugikan sub-agen riset kami.
00:15:27Saat kami menggunakannya, hasilnya tidak cukup baik, karena mereka hanya melihat prompt
00:15:30langsung dan tidak memiliki konteks sebelumnya.
00:15:33Agen Codex mendapatkan seluruh riwayat, dapat melakukan iterasi dengan lebih efektif, dan berkinerja lebih baik pada tugas
00:15:38di mana kontinuitas itu penting.
00:15:39Hal itu membawa kita ke akhir video ini.
00:15:41Jika Anda ingin mendukung saluran ini dan membantu kami terus membuat video seperti ini, Anda dapat melakukannya
00:15:45dengan menggunakan tombol super thanks di bawah.
00:15:48Seperti biasa, terima kasih telah menonton dan sampai jumpa di video berikutnya.