Claude Code + Codex = DEWA AI

CChase AI
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Jadi sekarang kita bisa menggunakan Codex di dalam Claude Code.
00:00:03OpenAI telah membuatnya.
00:00:04Jadi kompetitor nomor satu untuk Opus 4.6
00:00:08kini menjadi sesuatu yang bisa Anda gunakan
00:00:09di dalam ekosistem Anthropic.
00:00:11Dan ini adalah kabar gembira bagi semua penikmat Claude Code,
00:00:15terutama jika Anda adalah seseorang yang sedang kesulitan
00:00:18dengan tingkat penggunaan, karena sejujurnya,
00:00:20Codex memberikan keuntungan yang jauh lebih besar
00:00:23dalam hal rasio dolar terhadap kredit atau token.
00:00:26Dan dalam video ini, saya akan menunjukkan cara mengaturnya
00:00:28dan kita akan membahas apa yang sebenarnya bisa dilakukan Codex
00:00:31dengan dukungan Claude Code di atasnya.
00:00:33Dan yang lebih penting, apa yang bisa kita lakukan menggunakan Claude Code
00:00:38dengan Opus 4.6 dan Codex secara bersamaan, kan?
00:00:40Bagaimana kita bisa memadukan kedua model ini
00:00:43untuk mendapatkan hasil yang lebih besar dari bagian-bagiannya?
00:00:46Sekarang sebelum kita melakukan instalasi, mari kita ulas sejenak
00:00:48apa yang dibawa oleh plugin Claude Code ini,
00:00:50karena ada beberapa hal.
00:00:51Nah, dua hal yang paling penting menurut saya
00:00:54adalah peninjauan kode, kan?
00:00:56Kemampuan untuk memintanya melihat
00:00:58sesuatu yang telah ditulis oleh Opus.
00:00:59Dan itu terbagi menjadi beberapa tahap.
00:01:01Pertama, ada peninjauan standar Codex,
00:01:03yang hanya berupa peninjauan netral.
00:01:06Anda tahu, ia hanya melihat, sifatnya hanya baca-saja.
00:01:08Yang kedua adalah peninjauan adversarial, yang saya sukai.
00:01:12Jadi ini pada dasarnya memberitahu Codex seperti,
00:01:13"Hei, coba lihat apa yang telah dibangun Opus"
00:01:15"atau apa yang telah dibangun oleh agen pengodean apa pun,"
00:01:17"tapi dengan mata yang sangat jeli."
00:01:20"Anggap saja mereka melakukan kesalahan"
00:01:22"dan cari tahu apa yang bisa kita lakukan untuk memperbaikinya."
00:01:25Jadi ini adalah cara yang luar biasa untuk meningkatkan hasil kita,
00:01:28karena salah satu masalah dengan Opus
00:01:31dan sebenarnya banyak model AI pada umumnya
00:01:33adalah mereka cenderung buruk dalam mengevaluasi kode mereka sendiri.
00:01:36Ini adalah sesuatu yang dibahas Anthropic
00:01:38dalam blog teknik mereka yang dirilis minggu lalu.
00:01:40Jadi sesuatu seperti peninjauan adversarial, sempurna, saya suka ini.
00:01:44Selain itu, kita juga bisa menggunakan Codex Rescue,
00:01:46yang memungkinkan kita meminta Codex membuat sesuatu sendirian
00:01:49seperti yang Anda lakukan dengan Opus di dalam Claude Code.
00:01:52Dan selebihnya, hanya seperti info status,
00:01:54seperti melihat sejauh mana progres pekerjaannya.
00:01:58Jadi mari kita pelajari ini dan lihat cara instalasinya.
00:02:01Sekarang untuk menginstal ini cukup sederhana.
00:02:02Anda hanya perlu menjalankan perintah ini
00:02:04untuk menambahkannya ke marketplace.
00:02:06Dan saya akan menyertakan semua perintah ini di deskripsi.
00:02:08Dan kemudian jalankan perintah plugin ini untuk menginstalnya,
00:02:11codex@openai-codex.
00:02:13Seperti biasa, ia akan bertanya di mana Anda ingin menginstalnya.
00:02:14Saya akan memilih lingkup pengguna (user scope).
00:02:16Lalu kita hanya perlu memuat ulang plugin
00:02:17agar bisa mulai berfungsi.
00:02:18Dan terakhir, kita ingin menjalankan codex colon setup.
00:02:21Jika Anda belum tahu, ada juga repositori GitHub
00:02:24untuk ini, yang juga membahas semua perintah instalasi.
00:02:27Jadi saya akan menautkannya di deskripsi juga.
00:02:29Dan tingkat penggunaan terikat dengan akun ChatGPT Anda,
00:02:32bahkan jika Anda menggunakan akun gratis, sepertinya.
00:02:34Jadi pahamilah bahwa ini akan mengambil
00:02:36dari penggunaan Codex Anda.
00:02:37Ia akan bertanya apakah Anda ingin menginstal Codex, ya.
00:02:39Untuk itu, Anda masuk dan itu akan mengarahkan Anda ke browser
00:02:42di mana ia menjalankan proses autentikasi.
00:02:44Sekarang ada dua kasus penggunaan yang jelas
00:02:47untuk alat Codex ini di dalam Claude Code.
00:02:49Yang pertama adalah menangani batas penggunaan
00:02:52di dalam Claude Code.
00:02:53Biasanya, jika Anda menggunakan paket pro Anthropic
00:02:55atau batas maksimal 5x, Anda bisa mencapai batas itu dengan sangat cepat,
00:02:58terutama dengan beberapa bug CLI
00:03:00yang kita lihat dalam seminggu terakhir.
00:03:02Jika demikian, apa yang mungkin ingin Anda lakukan
00:03:03adalah menggunakan Opus 4.6 untuk merencanakan dan Codex untuk mengeksekusi.
00:03:07Dan untuk melakukan itu, sekali lagi, sangat sederhana.
00:03:09Anda cukup melakukan codex rescue.
00:03:11Dan dari sana, Anda akan memberikan perintah (prompt).
00:03:14Dan Anda juga bisa menentukan banyak hal.
00:03:16Seperti yang Anda lihat semua parameternya di sini,
00:03:18termasuk tingkat upaya dan semacamnya.
00:03:20Dan ingat, Codex, modelnya sangat solid.
00:03:24Dan sekali lagi, biayanya bahkan tidak mendekati
00:03:26apa yang dikenakan oleh Anthropic.
00:03:27Tapi menurut saya kasus penggunaan yang lebih menarik
00:03:28adalah apa yang saya bicarakan sebelumnya,
00:03:29yaitu peninjauan adversarial.
00:03:30Jadi mari kita uji hal itu.
00:03:32Saya akan memintanya untuk melihat
00:03:33bot riset/interaksi Twitter saya.
00:03:37Ini adalah aplikasi web yang saya minta buatkan oleh Claude Code.
00:03:39Pada dasarnya yang dilakukannya adalah memindai tweet di bidang AI
00:03:43setiap sekitar 30 hingga 45 menit.
00:03:45Ia memiliki filter kualitas.
00:03:47Ia memiliki sinyal penilaian
00:03:48berdasarkan sejumlah parameter yang berbeda.
00:03:50Ini terhubung ke Supabase
00:03:51untuk memastikan tweet tidak terulang.
00:03:53Ada sistem penilaian dan mengintegrasikan softmax, PIX.
00:03:56Semuanya dikirim ke Telegram.
00:03:58Dan saya juga punya AI di sana untuk membantu respons.
00:04:00Jadi ada cukup banyak hal yang terjadi.
00:04:02Dan di atas semua itu,
00:04:03ia juga melacak semua respons saya
00:04:06sehingga kita bisa memiliki loop umpan balik.
00:04:07Jadi ini relatif, tidak terlalu rumit,
00:04:10tapi ini bukan sekadar landing page yang kita lihat.
00:04:13Jadi kita akan melihat hasil dari Codex.
00:04:16Saat kita melakukan tinjauan adversarial pada kodenya, kan?
00:04:20Mari kita lihat hasilnya.
00:04:22Jadi kita akan membiarkannya terbuka untuk interpretasi.
00:04:23Kita memberi tahu Codex,
00:04:24lihatlah basis kode ini dan beri tahu pendapatmu.
00:04:27Dan hal pertama yang dikatakannya adalah,
00:04:28hei, kami akan memperkirakan ukuran tinjauan
00:04:30untuk menentukan mode terbaik.
00:04:32Dan dari sana ia berkata, hei,
00:04:33apakah Anda ingin menjalankannya di latar belakang
00:04:34atau Anda ingin menunggu hasilnya?
00:04:35Jadi kita akan menunggu hasilnya saja.
00:04:37Dan ia memberi tahu cakupan tinjauan mencakup seluruh basis kode
00:04:39ditambah sembilan perubahan pohon kerja, satu file yang dimodifikasi,
00:04:42delapan file yang tidak dilacak.
00:04:43Jadi ia tahu ada cukup banyak,
00:04:44ada banyak hal yang perlu ia tinjau.
00:04:46Dan selagi itu diproses,
00:04:47mari kita bahas cara kerja tinjauan adversarial sebenarnya.
00:04:49Kita baru saja melihat empat bagian pertama, kan?
00:04:52Ia mengurai argumennya.
00:04:54Kita tidak memasukkan flag apa pun,
00:04:55jadi ia hanya berjalan dengan pengaturan defaultnya.
00:04:57Dan kemudian ia memperkirakan ukuran tinjauan,
00:04:59menetapkan target, dan mengumpulkan beberapa konteks.
00:05:01Itu semua teks tentang, hei, Anda tahu,
00:05:03kita punya perubahan yang tidak dilacak ini
00:05:04dan ini akan memakan waktu lama.
00:05:05Sekarang, setelah empat langkah pertama itu,
00:05:06ia kemudian akan membangun prompt adversarial
00:05:09dan ada tujuh permukaan serangan
00:05:11yang akan ia perhatikan secara khusus.
00:05:13Yaitu autentikasi, kehilangan data, rollback,
00:05:17race conditions, dependensi yang menurun,
00:05:20perbedaan versi, dan celah observabilitas, kan?
00:05:23Jadi tujuh hal yang ada di bawah permukaan
00:05:26yang bisa sangat mengacaukan kita
00:05:27jika kita mencoba mendorong ini ke produksi
00:05:29dan kita tidak bisa menanganinya.
00:05:30Dari sana, ia akan mengirimkan semua informasi tersebut
00:05:31kembali ke server OpenAI, agar Codex bisa meninjaunya.
00:05:34Dan kemudian ia akan memberi kita output JSON terstruktur
00:05:37dan kita bisa mengharapkan tampilannya seperti ini, kan?
00:05:41Dan ia akan memberi tingkat keparahan dari temuannya,
00:05:43antara kritis, tinggi, sedang, dan rendah,
00:05:46serta rekomendasi dan langkah selanjutnya.
00:05:48Yang perlu Anda lakukan hanyalah duduk di dalam Claude Code
00:05:51dan menunggu responsnya.
00:05:52Jadi Codex kembali dengan empat masalah pada basis kode kita
00:05:54dan semuanya memiliki tingkat keparahan tinggi
00:05:57dan saya menempelkan ini ke Excalidraw
00:05:58agar lebih mudah bagi kita untuk memeriksanya.
00:06:00Jadi untuk masing-masing ini, ia memberikan tingkat keparahan,
00:06:02area, masalah sebenarnya, file-filenya,
00:06:06serta baris kode yang sebenarnya
00:06:08yang perlu kita periksa.
00:06:09Dan yang penting, apa dampak sebenarnya di sini
00:06:12serta perbaikannya.
00:06:13Jadi nomor satu, ia mengatakan ada masalah
00:06:15dengan logika deduplikasi kami.
00:06:16Nomor dua adalah cara kami menangani polling Telegram.
00:06:19Ketiga adalah penyimpangan skema kami.
00:06:21Dan terakhir adalah build dasbor kami yang sebenarnya.
00:06:24Jadi ini sebenarnya hal-hal yang relatif penting
00:06:27dan untungnya sepertinya perbaikannya
00:06:29tidak akan terlalu sulit untuk diterapkan.
00:06:31Tapi yang membuat saya tertarik adalah,
00:06:33oke, ini yang diberikan Codex kepada kita.
00:06:35Apa yang akan diberikan Claude jika kita meminta hal serupa,
00:06:40tinjauan adversarial pada basis kodenya sendiri?
00:06:43Karena menurut saya itu akan cukup mencerahkan
00:06:45melihat mereka beradu secara langsung
00:06:46dan apa perbedaan nyata Codex dibandingkan yang lain.
00:06:48Karena siapa tahu, mereka mungkin sama persis
00:06:50dan seluruh video ini tidak ada gunanya.
00:06:52Jadi sekarang saya meminta Opus menjalankan hal yang sama,
00:06:55semacam tinjauan kode adversarial.
00:06:56Saya meminta Codex membuat sebuah prompt tertentu.
00:06:59Jadi intinya ia hanya mengatakan,
00:07:00hei, saya ingin Anda menantang implementasi ini,
00:07:02pilihan desainnya.
00:07:04Ini beberapa hal yang saya ingin Anda evaluasi.
00:07:05Dan kemudian ini format output-nya.
00:07:07Mari kita lihat apa hasilnya.
00:07:09Dan inilah rincian hasilnya.
00:07:11Pertama-tama, mereka memiliki satu temuan yang sama.
00:07:13Jadi mereka berdua setuju bahwa masalah Telegram adalah gangguan.
00:07:17Jadi ini adalah satu-satunya masalah yang mereka berdua temukan
00:07:20dan yang menurut mereka berkategori tinggi atau kritis.
00:07:23Codex mengatakan itu hanya tinggi,
00:07:24sedangkan Opus mengatakan itu kritis.
00:07:26Opus sendiri menemukan tujuh masalah tambahan lainnya
00:07:30dengan peringkat tinggi atau kritis yang tidak ditemukan Codex.
00:07:32Sekarang, kami tidak mengatakan bahwa hanya karena
00:07:36menemukan lebih banyak masalah, maka Opus
00:07:37tentu lebih baik daripada Codex.
00:07:39Hanya menunjukkan bahwa ia menemukan tujuh hal
00:07:41yang mungkin ingin kita periksa yang dilewatkan Codex.
00:07:43Lalu tentu saja di sisi lain,
00:07:45kami menemukan tiga masalah pada Codex yang terlewat oleh Opus.
00:07:48Jadi apa artinya ini
00:07:49jika kita melihat ini secara keseluruhan?
00:07:50Apakah ini berarti Opus lebih baik daripada Codex
00:07:51karena menemukan lebih banyak, atau Codex lebih baik daripada Opus
00:07:54karena ia fokus pada empat hal
00:07:56dan tidak membawa kita ke jalur yang aneh?
00:07:58Saya pikir apa yang Anda simpulkan dari ini
00:07:59tergantung pada perspektif Anda masing-masing.
00:08:01Dan kemungkinan besarnya adalah ada nilai tertentu
00:08:04dengan memiliki kedua sistem ini.
00:08:05Coba lihat saja, kan?
00:08:06Sudut pandang kedua dibandingkan membiarkan Opus menilai Opus
00:08:09setiap saat.
00:08:10Saya rasa ada semacam kelemahan mendasar
00:08:13jika menggunakan sistem AI yang sama untuk merencanakan,
00:08:16membuat, dan mengevaluasi.
00:08:17Dan jika kita bisa dengan sangat mudah melibatkan Codex,
00:08:20terutama dengan harga yang ditawarkannya,
00:08:22bahkan hanya untuk melakukan hal-hal seperti ini,
00:08:24seperti tinjauan adversarial,
00:08:25sekali lagi, itu adalah salah satu pemanfaatan AI coding
00:08:28yang sangat menguntungkan, jadi mengapa tidak?
00:08:30Jika Anda sudah membayar untuk ChatGPT,
00:08:34jika Anda sudah membayar 20 dolar per bulan,
00:08:35dan sekarang saya bisa membawa ini dan membiarkan Codex
00:08:37melihat apa pun,
00:08:38sesederhana ini, apa ruginya?
00:08:43Maksud saya, saya rasa tes cepat seperti ini
00:08:47tidak akan memberikan jawaban definitif seperti,
00:08:48oh, Codex lebih baik dibandingkan Opus.
00:08:50Dan saya pikir seluruh percakapan itu
00:08:51agak meleset dari intinya.
00:08:52Ini hanyalah satu lagi alat dalam kotak peralatan kita
00:08:54dan sekarang kita bisa menggunakannya.
00:08:55Jadi menurut saya ini bagus.
00:08:56Sekarang kita bisa menjadi jauh lebih spesifik
00:08:58dengan tinjauan adversarial juga,
00:09:00karena perintah kita tadi cukup terbuka dan umum
00:09:03dan ia mampu menafsirkannya dalam banyak cara berbeda,
00:09:06tapi hanya berdasarkan contoh-contoh GitHub, kan?
00:09:08Anda bisa menjadi sangat spesifik
00:09:09tentang apa yang Anda ingin Codex periksa.
00:09:11Jadi secara keseluruhan, saya rasa ini tambahan yang bagus
00:09:13untuk ekosistem Cloud Code.
00:09:14Semakin banyak alat, semakin baik,
00:09:15terutama jika Anda adalah seseorang yang, antara A,
00:09:17sudah membayar untuk ChatGPT,
00:09:19atau B, sedang menggunakan paket Anthropic Pro,
00:09:22dan mungkin Anda membayar untuk ChatGPT juga,
00:09:23seratus dolar sebulan mungkin agak mahal,
00:09:25dua ratus dolar tentu saja terlalu mahal.
00:09:28Sepertinya ini memberi kita jalan tengah
00:09:30antara langganan $20 dan langganan $100,
00:09:33karena Codex benar-benar pilihan yang sangat bernilai.
00:09:36Jadi pastikan untuk mencobanya, pengaturannya sangat mudah.
00:09:39Beri tahu saya apa pendapat Anda,
00:09:41dan seperti biasa, sampai jumpa lagi.

Key Takeaway

Sinergi antara Claude Code dan Codex meningkatkan kualitas pengembangan perangkat lunak melalui tinjauan adversarial lintas model yang mendeteksi celah keamanan yang sering terlewatkan oleh evaluasi mandiri satu model AI.

Highlights

Integrasi Codex ke dalam Claude Code memungkinkan penggunaan model OpenAI sebagai peninjau kode dalam ekosistem Anthropic.

Fitur adversarial review mengidentifikasi masalah kritis pada tujuh area permukaan serangan termasuk autentikasi, race conditions, dan data loss.

Metode Codex Rescue memungkinkan pembagian tugas di mana Opus 4.6 menyusun rencana dan Codex mengeksekusi kode untuk menghemat kuota token.

Perbandingan langsung menunjukkan Opus 4.6 menemukan tujuh masalah tambahan sementara Codex menemukan tiga masalah spesifik yang terlewat oleh Opus.

Proses instalasi dilakukan melalui marketplace Claude Code dengan perintah plugin add codex@openai-codex dan sinkronisasi akun ChatGPT.

Timeline

Integrasi dan Efisiensi Biaya Model

  • Codex kini berfungsi sebagai komponen komplementer bagi Opus 4.6 di dalam terminal Claude Code.
  • Rasio dolar terhadap jumlah token pada Codex memberikan keuntungan finansial lebih besar dibandingkan penggunaan murni model Anthropic.

Pengguna dapat mengoptimalkan anggaran pengembangan dengan memanfaatkan struktur harga Codex yang lebih kompetitif. Integrasi ini memposisikan model OpenAI sebagai mitra strategis dalam alur kerja yang sebelumnya didominasi oleh Anthropic. Keuntungan utama terletak pada skalabilitas penggunaan tanpa harus bergantung sepenuhnya pada batas kredit Opus yang lebih ketat.

Mekanisme Peninjauan Kode Adversarial

  • Peninjauan adversarial memaksa AI untuk mencari kesalahan pada kode yang dibuat oleh agen pengodean lain dengan asumsi adanya kegagalan.
  • Model AI secara inheren memiliki performa rendah dalam mengevaluasi efektivitas dan keamanan kode buatan mereka sendiri.

Terdapat dua jenis peninjauan utama yaitu peninjauan standar yang bersifat pasif dan peninjauan adversarial yang bersifat kritis. Anthropic mengonfirmasi dalam laporan teknik mereka bahwa model cenderung bias saat memeriksa pekerjaan sendiri. Codex mengisi celah ini dengan memberikan perspektif eksternal yang tajam untuk mendeteksi bug logika dan celah keamanan.

Prosedur Instalasi dan Autentikasi

  • Instalasi memerlukan eksekusi perintah codex@openai-codex di lingkup pengguna untuk integrasi marketplace.
  • Tingkat penggunaan alat ini terikat langsung dengan status langganan dan limitasi akun ChatGPT pengguna.

Proses pengaturan melibatkan pemuatan ulang plugin dan menjalankan perintah codex:setup untuk sinkronisasi. Autentikasi dilakukan melalui browser yang menghubungkan lingkungan lokal dengan server OpenAI. Pengguna akun gratis tetap dapat mengakses fitur ini selama memiliki kuota penggunaan Codex yang tersedia di akun mereka.

Optimasi Alur Kerja Plan-and-Execute

  • Strategi penggunaan terbaik melibatkan Opus 4.6 sebagai arsitek perencanaan dan Codex sebagai pelaksana teknis melalui fitur rescue.
  • Pemisahan tugas ini mencegah terlampauinya batas penggunaan harian pada paket Anthropic Pro.

Batas penggunaan pada Claude Code sering kali tercapai dengan cepat karena adanya bug CLI atau kompleksitas tugas yang tinggi. Dengan menjalankan perintah codex rescue, beban kerja dipindahkan ke model OpenAI yang tetap solid secara teknis namun lebih murah. Metode ini memastikan produktivitas tetap terjaga meskipun batas kuota pada model utama hampir habis.

Analisis Tujuh Permukaan Serangan

  • Codex mengevaluasi basis kode berdasarkan parameter autentikasi, rollback, race conditions, dan observabilitas.
  • Output tinjauan disajikan dalam format JSON terstruktur yang mencakup tingkat keparahan, lokasi baris kode, dan langkah perbaikan.

Dalam pengujian pada bot interaksi Twitter, Codex berhasil mengidentifikasi empat masalah tingkat tinggi yang mencakup logika deduplikasi data dan polling API. Sistem ini juga memeriksa dependensi yang menurun dan perbedaan versi yang dapat mengganggu stabilitas produksi. Setiap temuan disertai dengan dampak nyata bagi aplikasi sehingga pengembang dapat memprioritaskan perbaikan secara akurat.

Perbandingan Performa Opus vs Codex

  • Kedua model menunjukkan konsensus pada masalah kritis terkait integrasi Telegram.
  • Penggunaan sistem AI ganda menghilangkan kelemahan mendasar dari proses perencanaan, pembuatan, dan evaluasi oleh satu model tunggal.

Opus 4.6 menemukan lebih banyak masalah secara kuantitas, namun Codex menemukan celah spesifik yang diabaikan oleh Opus. Hal ini menunjukkan bahwa nilai utama bukan pada model mana yang lebih unggul, melainkan pada diversifikasi evaluasi. Integrasi ini menawarkan solusi jalan tengah bagi pengembang yang menginginkan performa tinggi tanpa harus membayar biaya langganan perusahaan yang sangat mahal.

Community Posts

View all posts