Saya Menguji DeepSeek V4 vs Claude Code vs Codex

CChase AI
Computing/SoftwareInternet Technology

Transcript

00:00:00Dalam 24 jam terakhir, ada pembaruan besar
00:00:02pada dua model AI terbesar di planet ini.
00:00:04Pertama, dirilisnya GPT 5.5,
00:00:07yang membanggakan skor tolok ukur tertentu
00:00:10yang mengungguli mythos Claude.
00:00:12Kedua, dirilisnya DeepSeek V4,
00:00:15yaitu model open source dengan bobot terbuka
00:00:18yang memiliki tolok ukur yang menyaingi pemain besar terdepan.
00:00:22Jadi dengan semua model baru yang bisa dipilih ini,
00:00:24apa yang harus Anda, pengguna rata-rata lakukan?
00:00:27Nah, hari ini saya akan membantu Anda menjawab pertanyaan itu
00:00:29saat saya mengadu Opus 4.7, GPT 5.5,
00:00:33dan DeepSeek V4 satu sama lain,
00:00:36sehingga Anda bisa melihat mana yang benar-benar masuk akal untuk Anda.
00:00:39Sekarang, sebelum kita memulai tes head-to-head-to-head ini
00:00:41antara GPT 5.5 di dalam codecs,
00:00:45DeepSeek V4 di dalam open code,
00:00:47dan Opus 4.7 di dalam Claude code,
00:00:51mari kita lihat sekilas tolok ukurnya,
00:00:53terutama dua model terbaru ini
00:00:54yang dirilis dalam 24 jam terakhir.
00:00:56Sekarang mari kita bicara tentang biaya.
00:00:58Nah, DeepSeek V4, seperti yang Anda tahu,
00:01:00adalah model open source dengan bobot terbuka,
00:01:01tetapi bukan berarti Anda bisa menjalankannya di komputer Anda
00:01:04karena ukurannya sangat besar.
00:01:05Maksud saya 1,6 triliun parameter.
00:01:08Anda butuh perangkat keras yang mumpuni untuk menjalankannya.
00:01:10Jadi kita tetap harus membayarnya.
00:01:11Kita tetap harus menggunakan API,
00:01:13tetapi jauh lebih murah daripada kompetitor,
00:01:15sekitar delapan kali lebih murah.
00:01:18Dan dari ketiga model tersebut,
00:01:19GPT 5.5 yang baru sebenarnya adalah yang paling mahal,
00:01:22yang cukup mengejutkan karena secara umum,
00:01:24OpenAI lebih murah daripada kompetisi anthropic-nya.
00:01:28Dalam hal biaya yang harus Anda keluarkan
00:01:30per 1 juta token output.
00:01:32Untuk GPT 5.5, harganya $30.
00:01:35Untuk anthropic, harganya $25.
00:01:38Dan untuk DeepSeek, harganya $3,48.
00:01:41Sekarang jika kita bicara tentang token input,
00:01:44yang merupakan bagian kecil dari keseluruhan,
00:01:46GPT 5.5 dan Opus 5.7 sama saja.
00:01:49Harganya $5 per 1 juta input.
00:01:53Dan untuk DeepSeek, sekitar $1,70.
00:01:57Jadi jauh lebih murah untuk input dan jauh lebih murah untuk output.
00:02:01Meskipun demikian, jika bicara soal 5.5,
00:02:03ini dua kali lebih mahal daripada 5.4.
00:02:06Namun, OpenAI mengklaim bahwa model ini justru menggunakan lebih sedikit token
00:02:10karena kekuatannya.
00:02:11Jadi meskipun dua kali lipat harga 5.4,
00:02:14mereka mengatakan dalam hal penggunaan token sebenarnya dan biaya aktual,
00:02:17untuk tugas yang sama, akhirnya hanya sekitar 20%
00:02:20lebih mahal saat semuanya selesai dihitung.
00:02:21Jadi ingatlah hal itu.
00:02:24Jadi kita sudah membahas biayanya.
00:02:25Sekarang mari kita bicara tentang tolok ukurnya.
00:02:26Seberapa bagus model-model ini di atas kertas?
00:02:27Saya tahu kita semua agak kebal terhadap tolok ukur secara umum.
00:02:31Kita perlu menyikapinya dengan hati-hati,
00:02:32tetapi tetap layak untuk dilihat,
00:02:33terutama saat kita melihat angka-angka
00:02:36yang dilaporkan oleh masing-masing pemain pada tolok ukur yang sama.
00:02:39Jadi ada tiga kategori pengodean
00:02:42yang ketiganya melaporkan angkanya.
00:02:43Itu adalah SWE bench verified, SWE bench pro
00:02:46dan terminal bench 2.0.
00:02:48Nah, untuk SWE bench verified dan SWE bench pro,
00:02:50Opus adalah pemenangnya di sana.
00:02:52Pada terminal bench 2.0, GPT adalah pemenangnya dengan selisih jauh di 87,2,
00:02:56yang mana, angka ini lebih tinggi
00:02:59daripada yang dilaporkan Anthropic untuk Mythos.
00:03:02Oh, Mythos, maaf.
00:03:03Yang menurut saya cukup gila.
00:03:05Anda tahu, model super rahasia yang tidak bisa mereka rilis,
00:03:07ternyata berkinerja lebih buruk pada terminal bench 2 daripada GPT 5.5.
00:03:10Sekarang terminal bench 2.0 adalah pencilan terbesar di sini.
00:03:13Opus 4.7 dan V4 Pro jauh tertinggal,
00:03:16tapi lihatlah Opus 4.7 dibandingkan dengan V4 Pro.
00:03:20Kurang dari dua poin sementara delapan kali lebih murah.
00:03:23Dan Anda melihat cerita yang sama di sini
00:03:24dengan SWE bench verified dan SWE bench pro.
00:03:26Ya, Opus menang.
00:03:28Tapi ketika kita membandingkan peringkat kedua dengan peringkat ketiga
00:03:31dan V4 selalu di peringkat ketiga,
00:03:33tidak ada kesenjangan besar seperti yang Anda harapkan.
00:03:36Maksud saya, lima poin itu bukan apa-apa, Anda tahu,
00:03:38pada SWE bench verified, 85 ke 86.
00:03:41Tapi sekali lagi, delapan kali lebih murah, open source.
00:03:45Anda tahu, ada beberapa pengorbanan nyata di sini
00:03:46yang bisa kita buat jika kita tidak membutuhkan kekuatan paling besar.
00:03:49Hal lain yang menarik untuk dibahas
00:03:51adalah konteks panjang di mana anehnya Opus 4.7 sangat buruk
00:03:55berdasarkan angkanya, secara signifikan lebih buruk daripada 4.6,
00:03:58yang membuat saya takjub.
00:04:00Dan ketika kita berbicara tentang konteks panjang
00:04:01di mana kita mencoba mengambil hal-hal
00:04:03antara 500.000 token dan 1 juta token,
00:04:064.7 sebenarnya sangat buruk.
00:04:08Dan kinerjanya jauh lebih buruk daripada DeepSeek dan GPT 5.5.
00:04:12Sekarang Anda bisa berdiskusi panjang lebar tentang
00:04:14mengapa Anda harus berada di kisaran 500.000 hingga 1 juta token?
00:04:17Seberapa banyak orang yang benar-benar beroperasi di sana
00:04:20karena kita akan terkena pembusukan konteks apa pun kondisinya
00:04:22di tempat itu, tidak peduli model apa yang Anda gunakan.
00:04:24Tapi menarik bahwa entah mengapa,
00:04:26kita melihat adanya regresi
00:04:27ketika berkaitan dengan model anthropic.
00:04:29Tapi gambaran besarnya, saya rasa poin pentingnya adalah
00:04:325.5 sangat kuat.
00:04:33Model ini mengalahkan Opus 4.7 dalam metrik tertentu,
00:04:36kalah dalam metrik tertentu,
00:04:37tapi ini adalah model yang sangat tangguh.
00:04:39Dan selain itu, V4 Pro, Anda tahu,
00:04:42secara umum agak tertinggal.
00:04:45Masih dalam jarak yang bisa dicapai sementara jauh lebih murah,
00:04:48yang sekali lagi merupakan pilihan bagus untuk pelanggan rata-rata Anda.
00:04:52Karena saat ini rasanya Anda tidak punya banyak
00:04:54pilihan di sisi open source yang benar-benar bisa bersaing.
00:04:56Sekarang mari kita mulai tes head-to-head-to-head yang sebenarnya
00:04:59dengan ketiga model ini.
00:05:00Dan kita menggunakan harness untuk masing-masing model ini.
00:05:02Dengan 5.5, yaitu codecs.
00:05:04Dengan Opus 4.7, yaitu Claude code.
00:05:07Dan dengan DeepSeek V4 Pro, saya menggunakan open code.
00:05:10Dan untuk tes pertama, apa yang akan kita lakukan adalah
00:05:11kita akan meminta mereka membuat simulator penerbangan
00:05:14untuk kita di 3JS yang berjalan di browser.
00:05:17Anda bisa melihat perintahnya di sini.
00:05:18Saya katakan, saya ingin terasa enak saat terbang.
00:05:20Saya ingin ada beban di dalamnya.
00:05:21Saya ingin visual yang kuat dan saya ingin menggunakan struktur
00:05:25dan alat apa pun yang menurutnya benar.
00:05:27Jadi ini cukup mudah sehingga mereka tahu apa yang harus dilakukan,
00:05:30namun ada cukup kelonggaran agar kita bisa melihat perbedaan
00:05:33antar model tersebut.
00:05:34Dan sementara kita akan melihat apa yang bisa mereka lakukan
00:05:36dalam satu kali percobaan, kita akan melalui beberapa iterasi
00:05:38dari ini dan memberikan perintah tindak lanjut.
00:05:40Karena sekeren apa pun melihat seberapa baik kinerjanya dalam sekali coba,
00:05:44bukan seperti itu cara kita bekerja di kehidupan nyata, bukan?
00:05:46Saya ingin melihat kinerjanya saat saya memberikan perintah tindak lanjut
00:05:49dan seberapa cepat hingga sampai ke sesuatu yang saya suka.
00:05:52Dan ketika kita membandingkan ketiga model ini,
00:05:54sebenarnya ada empat hal yang akan saya perhatikan.
00:05:55Itu adalah waktu.
00:05:57Berapa lama waktu yang dibutuhkan untuk membangun ini?
00:05:58Biaya, berapa banyak token yang kita gunakan?
00:06:01Kualitas, seberapa bagus hasilnya?
00:06:02Dan kemudian empat adalah semacam suasana (vibes).
00:06:04Dan itu berkaitan dengan kualitas.
00:06:06Ini sangat subjektif.
00:06:06Mana yang sebenarnya lebih saya sukai?
00:06:09Dan juga perlu dicatat, ketiga model, ketiga harness
00:06:11juga menggunakan keterampilan yang persis sama.
00:06:13Jadi mari kita mulai dengan pertanyaan yang diajukan deepseek kepada kita.
00:06:16Ia menanyakan model penerbangan seperti apa yang kita inginkan.
00:06:18Mari kita pilih simulasi penuh.
00:06:20Ia merekomendasikan lautan dan pulau untuk medannya.
00:06:22Kita ikuti itu saja.
00:06:23Mari kita lihat, dan kemudian ia menanyakan preferensi kamera.
00:06:25Mari lakukan keduanya.
00:06:26Mari lihat apakah ia bisa memberi kita tombol
00:06:27untuk orang pertama dan orang ketiga.
00:06:29Kita ikuti preferensi alat yang direkomendasikannya.
00:06:32Dan kita pilih model low poly saja
00:06:33untuk pesawat dan visualnya sendiri.
00:06:35Sekarang beralih ke codecs, pertanyaan yang serupa.
00:06:38Meskipun hanya menanyakan tiga hal kepada kita.
00:06:40Mengatakan penerbangan seperti apa yang harus dioptimalkan oleh rencana ini?
00:06:42Mari kita pilih simulasi keras.
00:06:44Pengalaman bermain apa yang paling penting untuk browser?
00:06:48Mari lakukan lepas landas di pulau.
00:06:50Cukup menarik bagaimana mereka semua memiliki hal yang sama.
00:06:52Dan apa kamera serta presentasi pesawatnya?
00:06:54Saya akan melakukan tombol untuk ini juga.
00:06:56Dan untuk Claude code, kita akan melakukan pembelajaran simulasi studi
00:06:58untuk input rasa lautan dan pulau.
00:07:02Kita akan menggunakan keyboard dan mouse.
00:07:04Itu tidak akan membiarkannya pergi bekerja.
00:07:05Jadi mode rencana secara besar, sangat mirip di ketiga model.
00:07:09Kurang lebih pertanyaan yang sama seperti,
00:07:11fisika seperti apa yang Anda inginkan?
00:07:12Seperti apa medan yang Anda inginkan?
00:07:13Sudut kamera seperti apa yang Anda inginkan?
00:07:15Jadi tidak ada perbedaan besar di sana.
00:07:17Dan mari lihat apa yang mereka hasilkan dalam bentuk rencana.
00:07:19Baiklah, jadi ketiga rencana sudah lengkap.
00:07:20Jadi mari kita telusuri satu per satu dengan cukup cepat
00:07:22dan melihat beberapa perbedaannya.
00:07:24Yang pertama kita lihat di sini adalah DeepSeek.
00:07:26Dan rencana yang disajikannya cukup mendasar.
00:07:29Jadi ia memberi kita struktur proyek
00:07:31dan kemudian berbicara sangat singkat tentang fisika penerbangan,
00:07:33lingkungan, kamera, dan overlay HUD,
00:07:35dan benar-benar hanya beberapa poin penting.
00:07:37Di sisi lain, saat kita melihat 5.5 di dalam codecs,
00:07:40karena ini ringkasan, perubahan kunci,
00:07:43masuk ke detail implementasi, rencana pengujian,
00:07:46serta asumsi-asumsi
00:07:47yang menjabarkan semua hal itu untuk kita.
00:07:49Dan kemudian kita punya rencana Claude Code, yang memakan waktu paling lama.
00:07:50Butuh waktu sekitar lima menit, tapi sejauh ini adalah yang paling menyeluruh
00:07:53karena itu mencakup konteks, tumpukan teknologi.
00:07:55Tata letaknya membahas model penerbangan.
00:07:57Itu membahas seperti momen-momen yang berbeda,
00:08:00membahas tentang stall, seperti bel stall.
00:08:02Maksudnya, ini sangat, sangat mendetail.
00:08:03Membahas kontrol, dunia, mod,
00:08:06pesawat sebenarnya yang akan kita gunakan, performa,
00:08:08dan terus berlanjut tanpa henti.
00:08:10Jadi sangat mendetail.
00:08:11Jadi sekarang kita akan meminta ketiganya mengimplementasikan rencana mereka,
00:08:14dan kita akan lihat seperti apa hasil akhirnya.
00:08:15Jadi GPT 5.5 di dalam codecs adalah yang pertama selesai.
00:08:19Mari kita lihat seperti apa hasilnya.
00:08:20Jadi ini simulator penerbangan yang dibuatnya untuk kita.
00:08:22Ada awan di langit.
00:08:26Ada indikator AOA di sana.
00:08:31Ada kecepatan kita di bawah,
00:08:34dan mari kita lihat apakah kita bisa menerbangkan
00:08:35benda ini.
00:08:36Saya perhatikan tidak ada landasan pacu.
00:08:38Hanya rumput biasa.
00:08:39Padahal rencananya seperti sesuatu di pulau.
00:08:42Meskipun saat kameranya agak kacau,
00:08:45Anda bisa melihat landasan pacu di bawah sana sebentar.
00:08:48Baiklah, kita mengalami stall dan kita hanya,
00:08:50kita bahkan tidak bisa lepas landas, ya?
00:08:51Jadi yang ini sebenarnya sedikit,
00:08:54sebenarnya cukup sulit.
00:08:55Jadi apa yang akan saya lakukan adalah saya akan memberinya
00:09:00perintah kedua memintanya untuk membuatnya sedikit lebih mudah
00:09:03untuk diterbangkan, karena terlalu banyak hal di sini,
00:09:05tapi ini sulit.
00:09:06Jadi saya tulis, ini sangat sulit untuk diterbangkan.
00:09:08Bisakah kita membuatnya lebih mudah digunakan?
00:09:10Alias sedikit lebih bergaya arcade.
00:09:12Dan grafisnya juga perlu ditingkatkan.
00:09:15Jadi mari kita lihat hasilnya.
00:09:16Perlu dicatat, 5.5 butuh sekitar tujuh menit
00:09:21untuk membuat percobaan pertama itu bagi kita.
00:09:23Dan butuh 63.000 token.
00:09:26Baiklah, katanya sudah dibuat sedikit lebih mudah
00:09:28untuk diterbangkan dan grafisnya diperbarui.
00:09:29Jadi mari kita lihat seperti apa percobaan kedua.
00:09:32Jadi inilah yang kita dapatkan.
00:09:32Grafisnya jelas terlihat lebih baik,
00:09:34tapi mari kita lihat apakah kita bisa lepas landas
00:09:36kali ini.
00:09:37Oke, throttle seratus persen,
00:09:4150, 60, tujuh.
00:09:43Berapa kecepatan rotasi pesawat Cessna?
00:09:46Oke, 70, 80, 90.
00:09:49Kita pasti bisa lepas landas sekarang.
00:09:51Oke, salah arah.
00:09:53Ayo, lepas landas, lepas landas.
00:09:56Tidak, ini mungkin akan membuat saya stall, kan?
00:09:58Ya, stall.
00:09:59Oke, ini masih perlu perbaikan.
00:10:02Jadi mari kita beri Codex satu kesempatan lagi.
00:10:05Mari beri 5.5 satu kesempatan lagi
00:10:07untuk membuatnya benar-benar dapat dimainkan.
00:10:08Jadi saya katakan padanya saya bahkan tidak bisa membuat pesawat
00:10:10lepas landas dan masuk ke penerbangan.
00:10:11Kita benar-benar harus membuatnya mudah untuk lepas landas
00:10:12dan benar-benar menerbangkannya.
00:10:14Oke, katanya masalah lepas landas sudah diperbaiki.
00:10:16Ternyata remnya terkunci sebelumnya.
00:10:19Saya tidak tahu apakah itu alasan kita tidak bisa melakukannya.
00:10:21Oh, ternyata tidak otomatis diatur untuk lepas landas.
00:10:24Flaps, ya, ini,
00:10:25kita menggunakan mode simulator super.
00:10:29Tapi inilah percobaan nomor tiga di simulator penerbangan kita.
00:10:32Mari kita lihat bagaimana hasilnya.
00:10:34Jadi, bisakah kita lepas landas?
00:10:36Oh, kita memantul di landasan
00:10:37kali ini.
00:10:38Baiklah, keren, kita sudah lepas landas.
00:10:41Kita benar-benar bergerak.
00:10:44Mari kita lihat apakah kita bisa masuk ke salah satu cincin ini.
00:10:45Maksud saya, grafisnya tidak terlalu buruk, Anda tahu,
00:10:49untuk sesuatu yang dihasilkan dalam waktu kurang dari 10 menit.
00:10:52Tampaknya cukup akurat dalam hal,
00:10:56itu memberi saya vertikal saya, Anda tahu,
00:10:59kaki per menit di bagian bawah,
00:11:00ketinggian saya yang sebenarnya, kecepatan, heading, AGL.
00:11:04Jadi ini relatif canggih
00:11:06dalam hal melacak semuanya.
00:11:08Maksud saya, indikator kecil di depan ini,
00:11:10kelihatannya seperti indikator sudut serang (angle of attack),
00:11:13yang cukup keren.
00:11:14Jadi ada beberapa hal bagus yang terjadi.
00:11:18Kontrolnya sebenarnya sedikit aneh.
00:11:21Seperti yang Anda lihat, saya tidak bisa mengendalikannya sama sekali,
00:11:23tapi secara umum, lumayan.
00:11:25Anda tahu, kita bisa melakukan kamikaze
00:11:27dan melihat apa yang terjadi pada, Anda tahu, 18.000 kaki per menit.
00:11:31Tapi ya, Anda tahu, untuk 66.000 token,
00:11:36sekitar 10 menit, 15 menit atau lebih, kurang lebih,
00:11:40Anda tahu, dengan bolak-balik,
00:11:41menurut saya itu tidak buruk sama sekali.
00:11:42Jadi sekarang mari kita lihat DeepSeek.
00:11:44Butuh sekitar 10 menit untuk melakukan ini.
00:11:46Dan dalam hal token, 63.000 dan 44 sen.
00:11:51Jadi 44 sen, 10 menit.
00:11:53Dan inilah yang dihasilkan DeepSeek untuk kita.
00:11:56Saya tidak tahu sama sekali
00:12:00apa yang saya lihat.
00:12:03Ini seharusnya orang ketiga.
00:12:06Ini seharusnya kokpit.
00:12:07Dan jelas percobaan pertama kita dengan DeepSeek
00:12:11adalah bencana lainnya.
00:12:13Jadi saya katakan pada DeepSeek simulatornya berantakan total.
00:12:16Grafisnya benar-benar buggy
00:12:17dan saya tidak bisa menerbangkan apa pun.
00:12:20Tolong diperbaiki.
00:12:21Dan inilah percobaan kedua kita.
00:12:24Saya masih tidak tahu.
00:12:26Sama sekali tidak tahu.
00:12:28Apa sebenarnya DeepSeek ini.
00:12:30Oh, hei, ada pesawat.
00:12:32Oh, ada sesuatu.
00:12:33Saya, ya, ini, ini brutal.
00:12:38Dan jujur saja, saya merasa bahkan untuk memberinya perintah lagi
00:12:42untuk melakukan ini, saya harus mulai menjadi sangat, sangat spesifik
00:12:44tentang apa yang ingin kita lakukan, yang sekali lagi,
00:12:47cukup jauh dari apa yang kita lakukan dengan Codex.
00:12:49Itu adalah perintah yang sangat umum.
00:12:51Saya bisa mendapatkan sesuatu yang setidaknya mendekati,
00:12:53bahkan pada percobaan pertama.
00:12:54Ini jelas sangat kesulitan
00:12:57dengan grafisnya.
00:12:58Kita hanya, saya bahkan tidak tahu bagaimana menggambarkannya,
00:13:01tapi hei, itu sangat murah.
00:13:03Jadi sekarang mari kita lihat apa yang Claude Code
00:13:07bisa berikan untuk referensi.
00:13:09Butuh 13 menit untuk benar-benar menjalankan rencananya.
00:13:12Rencananya sendiri butuh lima menit.
00:13:13Jadi mari kita sebut 20 menit untuk mendapatkan percobaan pertama.
00:13:17Dan kemudian untuk total token,
00:13:19proses ini butuh sekitar 15% ditambah 5% sebelum rencana.
00:13:22Jadi kita melihat, yah, maaf,
00:13:24kita melihat 11% konteks ditambah 5% sebelumnya.
00:13:28Jadi anggap saja 20 menit, 150.000 token untuk Claude Code,
00:13:33yang jelas merupakan yang paling mahal
00:13:34dan paling lambat dari semuanya.
00:13:36Dan inilah percobaan Claude Code untuk ini.
00:13:39Entah mengapa, kita langsung berada di udara.
00:13:43Kita mengalami stall.
00:13:44Kita dalam IFR.
00:13:45Saya tidak tahu apa yang terjadi.
00:13:48Kita akan menabrak sesuatu.
00:13:50Bisakah kita menyelamatkan ini?
00:13:51Bisakah kita menariknya dari posisi menukik?
00:13:53Tidak, kita stall, tidak, kita mati.
00:13:54Oke, itu menarik.
00:13:56Sekali lagi, itu langsung melontarkan kita ke udara.
00:14:00Kita berada di awan.
00:14:02Kita stall.
00:14:03Saya tidak tahu apa yang terjadi.
00:14:05Kita butuh, kita butuh percobaan kedua.
00:14:08Jadi saya menulis saat memuat, saya langsung dilempar ke udara.
00:14:11Sulit untuk dikendalikan.
00:14:12Saya ingin mulai di landasan pacu dan saya ingin lebih mudah diterbangkan.
00:14:15Oh, dan omong-omong, tingkatkan juga grafisnya.
00:14:17Jadi butuh sekitar empat menit, tapi ada beberapa perubahan.
00:14:20Kita akan muncul di landasan pacu.
00:14:22Itu mengubah roda pendaratan.
00:14:23Jadi sekarang roda tiga dan beberapa hal lainnya.
00:14:24Mari kita lihat seperti apa.
00:14:26Baik, jadi inilah dia.
00:14:27Sekali lagi, kita langsung dilempar ke dalam kabut.
00:14:29Saya mencoba mengendalikan benda ini.
00:14:31Dan saya hanya, ya, tidak ada kendali sama sekali.
00:14:33Baiklah, kita akan memberi,
00:14:34kita akan memberi Claude Code satu kesempatan lagi di sini.
00:14:37Jadi saya katakan padanya itu masih langsung melemparkan saya
00:14:39ke langit.
00:14:40Saya katakan, mari gunakan kontrol yang lebih terasa arcade.
00:14:42Saya pikir mungkin seharusnya kita melakukan itu
00:14:43dengan perintah awal untuk ketiganya.
00:14:44Saya pikir jika menggunakan simulator yang lebih realistis,
00:14:46itu sangat sulit,
00:14:50untuk melakukannya dengan cara yang ramah pengguna.
00:14:53Saya pikir ini mungkin melakukan pekerjaan yang baik di balik layar
00:14:57dalam hal, oke, seperti sudut serang.
00:14:59Baik, Anda stall pada ini, Anda tahu,
00:15:01sudut terhadap kecepatan dan sebagainya.
00:15:02Tapi sebenarnya memanipulasi ini dari komputer
00:15:04pada dasarnya tidak mungkin.
00:15:07Meskipun menurut saya kabut itu sangat aneh.
00:15:09Jadi mari kita lihat apakah setelah putaran kedua perintah,
00:15:12itu bisa melakukannya sedikit lebih baik
00:15:15karena saat ini GPT 5.5 melakukan jauh, jauh lebih baik.
00:15:16Jadi Claude Code membuat beberapa perubahan lagi,
00:15:20membuatnya lebih ramah pengguna.
00:15:22Dan mari kita lihat apakah saya masih mencoba
00:15:23untuk penilaian instrumen saya kali ini.
00:15:24kali ini untuk mendapatkan peringkat instrumen saya.
00:15:26Jadi ya, kami masih melanjutkannya.
00:15:28Kami masih mengejar peringkat instrumen.
00:15:30Kami berada di sini, tapi Anda tahu, saya bisa melihatnya.
00:15:33Anda tahu, saya bisa memeriksa panel instrumen saya.
00:15:35Baiklah, kita lepas landas dari landasan pacu.
00:15:37Ya, oke.
00:15:42Bisakah saya, mengapa ada pohon di landasan pacu?
00:15:44Saya mencoba untuk naik.
00:15:46Bisakah saya naik?
00:15:47Bisakah saya melakukan pitch?
00:15:49Klik kanvas untuk mengunci kursor, apa?
00:15:53Oh, kita sudah di udara.
00:15:54Tidak, tidak, kita mati.
00:15:57Jadi ya, saya pikir yang satu ini cukup jelas.
00:16:02GPT 5.5, jelas pemenangnya, menurut saya.
00:16:06Cloud Code berada di posisi kedua.
00:16:08Saya akan memberikannya peringkat kedua.
00:16:10Anda tahu, itu benar-benar berjuang
00:16:13bahkan dengan perintah yang kami berikan.
00:16:14Kami tidak memberinya perintah yang bagus, sejujurnya.
00:16:16Saya pikir dengan lebih banyak waktu, perintah yang lebih baik,
00:16:19beberapa kali bolak-balik lagi,
00:16:20kita bisa membuatnya ke tempat yang kita inginkan.
00:16:21Setidaknya ia punya pesawat, punya landasan pacu.
00:16:25Ada pohon di landasan pacu,
00:16:26tapi ia memiliki hal-hal aktual yang kita butuhkan
00:16:29dibandingkan DeepSeek dengan OpenCODE.
00:16:32Saya tidak tahu apa yang terjadi di sana.
00:16:34Itu benar-benar berantakan.
00:16:35Saya merasa harus memulainya kembali
00:16:36dari awal, seperti memberinya perintah yang sangat spesifik.
00:16:38Itu bahkan tidak mendekati bisa digunakan,
00:16:39tapi GPT 5.5 langsung dari awal, Anda tahu,
00:16:42itu adalah perintah yang cukup samar.
00:16:44Menurut saya itu melakukannya dengan sangat baik.
00:16:455.5 juga menggunakan total 66 ribu token.
00:16:48Kita lihat di sini dengan Opus secara keseluruhan,
00:16:52sekitar 200.000 token.
00:16:53Jadi seperempat dari token, pada dasarnya seperempat dari biayanya.
00:16:56Dan itu sedikit lebih cepat.
00:16:58Maksud saya, pada titik ini, saya bahkan tidak peduli
00:16:59tentang bagaimana OpenCODE sebenarnya memakan waktu lebih lama daripada GPT 5.5 juga.
00:17:03Dan itu benar-benar buruk, mari jujur saja, itu sangat buruk.
00:17:07Sekarang mari kita lanjutkan ke tes nomor dua.
00:17:10Kali ini kita akan meminta mereka
00:17:12untuk membuat halaman landas yang memamerkan hasil kerja shader WebGPU
00:17:16menggunakan 3JS.
00:17:18Sekarang pekerjaan shader WebGPU adalah jenis hal yang Anda lihat
00:17:21di situs web penghargaan.
00:17:23Saya berbicara tentang situs web seperti Igloo, hal semacam ini,
00:17:26seperti grafis kelas atas.
00:17:28Terlihat seperti video game.
00:17:29Pada dasarnya menggunakan kartu grafis komputer Anda
00:17:32untuk merender semua hal ini.
00:17:34Sekarang saya tidak mengharapkan satu pun dari mereka untuk mendapatkan sesuatu yang mendekati
00:17:37apa yang kita lihat di sini, tetapi saya ingin melihat apa yang bisa mereka lakukan
00:17:40menggunakan teknologi shader pada dasarnya.
00:17:42Ini jelas selangkah di atas dasar Anda
00:17:45halaman landas templat SaaS.
00:17:46Saya ingin melihat apa yang bisa mereka lakukan dan mendorong mereka
00:17:48hingga batasnya di dunia desain web.
00:17:50Sekarang saya telah memberi mereka semua keahlian yang sebenarnya merinci
00:17:53cara melakukan hal semacam ini.
00:17:55Jadi bukan berarti mereka benar-benar dalam kegelapan
00:17:57dan satu juga tidak memiliki keunggulan dibandingkan yang lain.
00:18:00Satu-satunya hal yang saya katakan kepada mereka adalah saya ingin itu terasa modern
00:18:02dan mencolok secara visual, sesuatu yang akan Anda lihat pada penghargaan
00:18:05dan untuk memanfaatkan komputasi GPU dengan cerdas.
00:18:08Jadi mereka bisa memilih tumpukan dan struktur proyek apa pun
00:18:10yang mereka sukai dan menggunakan penilaian yang baik pada konsep hero,
00:18:13UI, dan interaksi.
00:18:15Dan sama seperti tes pertama, mereka semua dalam mode rencana.
00:18:17Jadi mari kita mulai.
00:18:18Oke, jadi mereka semua menyelesaikan rencana mereka dan lucunya,
00:18:21tidak ada dari mereka yang menanyakan pertanyaan apa pun,
00:18:22meskipun kami menempatkan mereka dalam mode rencana.
00:18:24Jadi mari kita lihat GPT 5.5 terlebih dahulu.
00:18:28Jadi ini memberi tahu kita bahwa ia akan melakukan full bleed
00:18:30hero interaktif yang didorong oleh GPU.
00:18:32Konsepnya adalah medan sinyal yang hidup
00:18:34dengan semacam benda partikel padat yang akan dilakukannya.
00:18:36Kita akan lihat seperti apa akhirnya nanti.
00:18:38Dan secara keseluruhan ini adalah salinan halaman landas gaya penghargaan minimal.
00:18:41Adegan WebGPU yang sepenuhnya interaktif
00:18:43dengan simulasi komputasi reaktif penunjuk.
00:18:46Baiklah, untuk DeepSeek rencananya cukup singkat dan manis,
00:18:50sama seperti yang kita lihat pada simulator penerbangan.
00:18:53Semoga kita mendapatkan output yang lebih baik kali ini,
00:18:54tapi bagian hero dengan 75.000 partikel komputer GPU.
00:18:58Saya menebak bahwa mereka semua akan memilih
00:19:01semacam tema partikel pada hero.
00:19:04Jadi itu akan memiliki interaksi mouse, integrasi.
00:19:08Itu akan memiliki inisialisasi satu kali.
00:19:10Dan kemudian kita seharusnya melihat hal-hal seperti bloom,
00:19:13aberasi kromatik, vinyet kustom, dan sedikit efek film grain.
00:19:16Jadi kita akan lihat seperti apa sebenarnya hasilnya.
00:19:19Dan kemudian kita memiliki rencana Opus 4.7 lagi,
00:19:21memilih hal partikel ini dengan bloom
00:19:23dan itu akan interaktif dengan mouse.
00:19:25Jadi kita akan lihat apakah ada dari ini yang benar-benar terlihat berbeda
00:19:27karena di permukaan, semua rencana mereka terdengar sangat mirip.
00:19:29Jadi yang pertama selesai adalah 5.5.
00:19:32Itu memakan waktu sekitar enam menit.
00:19:34Dan dalam hal token, kami telah menggunakan 107 ribu.
00:19:37Jadi mari kita lihat apa yang dibangunnya untuk kita.
00:19:40Dan inilah yang dibuatnya untuk kita.
00:19:42Sekarang, ini sangat terang.
00:19:45Jadi sulit untuk melihat partikel yang sebenarnya,
00:19:47tapi Anda tahu, saat kita menggulir ke atas dan ke bawah,
00:19:50itu memang memiliki animasi yang berjalan di latar belakang
00:19:52serta, Anda tahu, beberapa perubahan warna yang halus.
00:19:56Sepertinya saat ini mouse kita seharusnya
00:20:00menarik partikel-partikel tersebut.
00:20:01Dan kita punya, saya akan memindahkan ini ke sini.
00:20:03Itu memberikan beberapa opsi seperti menolak versus drift.
00:20:08Tapi sekali lagi, cukup sulit untuk melihatnya
00:20:11karena betapa terangnya itu.
00:20:12Jadi saya memberitahunya bahwa sulit untuk benar-benar melihat partikel
00:20:14karena kecerahannya.
00:20:14Itu juga mengambil alih banyak teknologi hero.
00:20:16Jadi bisakah kita sedikit menurunkan kecerahannya
00:20:18dan juga sedikit lebih mendorongnya ke kanan?
00:20:20Karena saat ini itu cukup mendominasi.
00:20:23Anda bahkan tidak bisa benar-benar membaca teks di sini di sebelah kiri
00:20:25karena betapa sangat terangnya partikel-partikel ini.
00:20:27Dan inilah pembaruan setelah putaran kedua.
00:20:30Itu sedikit lebih baik.
00:20:31Itu tidak terlalu mendominasi dan menyisakan ruang untuk teks.
00:20:35Meskipun saya akan mengatakan itu hampir agak buram,
00:20:39tapi Anda tahu, itu tidak buruk.
00:20:41Seperti itu diatur untuk melakukan apa yang kami perintahkan
00:20:44mengingat masalah yang agak samar.
00:20:46Jadi saya tidak terpesona oleh jenis desain yang muncul,
00:20:49tapi saya juga tidak kesal karenanya.
00:20:51Sekarang mari kita lihat Claude Code
00:20:52karena saat kita melakukan semua ini,
00:20:55DeepSeek masih di sini di parit
00:20:57mencoba mencari tahu ini.
00:20:58Dan inilah yang diberikan Claude Code kepada kita.
00:21:01Jadi seperti tidak ada apa-apa.
00:21:06Saya tidak yakin apakah itu mengatakan latar belakangnya,
00:21:10Saya kira seluruh latar belakang seharusnya menjadi
00:21:14WebGL, saya berasumsi.
00:21:19Itu sangat bersahaja,
00:21:21yang saya kira adalah sesuatu yang bisa Anda lakukan sepenuhnya.
00:21:24Maksud saya, seperti di layar itu tidak terlihat,
00:21:25seperti itu terlihat cukup keren, tapi saya akan jujur,
00:21:28saya mencari sesuatu yang sedikit lebih mencolok.
00:21:31Jadi pada putaran kedua,
00:21:31ketika saya menyuruhnya untuk membuatnya sedikit lebih mencolok,
00:21:34tidak ada perbedaan besar.
00:21:35Meskipun itu sangat halus.
00:21:38Ada semacam efek film grain,
00:21:40hampir seperti blur yang bergerak dari bawah ke atas.
00:21:43Jadi itu hal yang cukup halus.
00:21:45Dan Anda bisa melihat di sini di bagian bawah,
00:21:47itu melacak seperti frame per detik.
00:21:49Itu menggunakan 250.000 partikel.
00:21:51Jadi, maksud saya, jujur itu terlihat keren.
00:21:54Hanya saja tidak terlalu mencolok.
00:21:56Jadi itu jelas masalah selera.
00:21:58Sekarang total token di sisi Cloud Code sekitar 175 ribu,
00:22:01dan itu memakan waktu sedikit lebih lama daripada 5.5 di dalam Codex.
00:22:05Sekarang mari kita lihat DeepSeek,
00:22:07yang telah mengambil 116 ribu token pada titik ini.
00:22:10Itu juga memakan waktu paling lama,
00:22:12tapi total biaya kita bicara lagi, di bawah satu dolar.
00:22:15Dan inilah yang diberikannya kepada kita.
00:22:17Jadi ini semacam hal bidang partikel
00:22:21yang agak mengikuti mouse saya.
00:22:25Menarik.
00:22:27Saya pikir itu mungkin bisa membuat Anda terkena kejang epilepsi.
00:22:29Jujur di luar itu, itu cukup hambar.
00:22:35Flux, Anda tahu, X-ray di sini agak mengubah warna,
00:22:39tapi ya, hampir hanya membuat hal ini.
00:22:43Setelah menyuruh DeepSeek untuk melakukan putaran lain,
00:22:45itu kemudian datang kembali dengan ini,
00:22:46di mana sekarang ia memiliki semacam efek paralaks yang aneh.
00:22:49Ada beberapa hal biru yang terjadi di latar belakang.
00:22:53Dan sekarang benda ini seperti UFO,
00:22:55yang agak merespons mouse Anda,
00:22:58tapi ya, itu sesuatu.
00:23:02Dan secara keseluruhan, jumlah token dari DeepSeek adalah 130 ribu token
00:23:05datang dengan harga $1,43.
00:23:08Jadi setelah semua tes itu, di mana itu sebenarnya meninggalkan kita?
00:23:13Jadi sekarang mari kita bicara tentang hasil akhir.
00:23:15Ketika berbicara tentang tes nomor satu,
00:23:16yaitu simulator penerbangan, pemenang yang jelas.
00:23:18Itu adalah GPT 5.5 di dalam Codex.
00:23:21Itu lebih cepat daripada Opus 4.7 di dalam Claude Code.
00:23:25Itu juga lebih cepat dan hasil akhirnya sejauh ini yang terbaik.
00:23:29DeepSeek berkinerja buruk di simulator penerbangan.
00:23:32Itu bahkan tidak mendekati apa yang kami coba lakukan.
00:23:34Saya harus terus memintanya,
00:23:35memintanya, memintanya agar setidaknya mendekati
00:23:38ke putaran pertama dari 5.5 dan Opus 4.7 dan Claude Code
00:23:43seperti, eh, itu tidak mengerikan.
00:23:46Seperti itu benar-benar tidak berhasil di awal,
00:23:48tapi setelah beberapa perintah, Anda bisa tahu,
00:23:50kita bisa membuatnya setara
00:23:52dengan apa yang dilakukan GPT 5.5.
00:23:54Itu akan membutuhkan lebih banyak perintah.
00:23:55Itu akan memakan lebih banyak waktu
00:23:57dan pada akhirnya akan lebih mahal.
00:23:59Jadi, pemenangnya jelas 5.5.
00:24:01Untuk urusan halaman arahan Web GPU,
00:24:03sekali lagi, DeepSeek kesulitan di sini.
00:24:04Saya tidak menyukainya.
00:24:06Saya tidak begitu mengerti apa maksudnya ini.
00:24:08Memang, saya tidak memberikan perintah yang sangat bagus,
00:24:10tapi apakah ini yang akan kita dapatkan
00:24:13sebagai hasil dasar rata-rata?
00:24:16Jika saya tidak mengendalikan DeepSeek dengan ketat
00:24:19dan benar-benar memaksanya melakukan sesuatu, sepertinya begitu.
00:24:22Sekarang, jika kita bandingkan Opus dan 5.5,
00:24:24saya akan memilih Opus 4.7 dan Claude Code
00:24:27terkait cara penanganan masalah Web GPU tersebut.
00:24:29Saya rasa itu lebih ke arah masalah selera.
00:24:31Ya, Anda bisa berargumen bahwa 5.5 lebih mencolok,
00:24:35tapi menurut saya itu agak jelek.
00:24:37Sekali lagi, dalam semua tes ini, kami menjaga perintah tetap agak samar
00:24:41untuk melihat jalur mana yang akan dipilihnya.
00:24:43Jadi saya jelas akan memberikan keunggulan pada Opus di sini,
00:24:46meskipun lebih mahal
00:24:48dan juga memakan waktu sedikit lebih lama.
00:24:50Jadi jika mereka diberikan perintah yang lebih praktis
00:24:55yang sangat spesifik tentang apa yang ingin dilakukan,
00:24:57karena 5.5 memang melakukan apa yang kita inginkan.
00:24:59Ya, ia memang membuat halaman arahan Web GPU.
00:25:02Saya hanya berpikir itu jelek.
00:25:04Jadi ia tetap menyelesaikan tugasnya.
00:25:06Hanya saja tidak menyelesaikannya sebaik Opus, menurut saya.
00:25:08Sekarang, gambaran besarnya, apa artinya
00:25:09jika kita menggabungkan semuanya?
00:25:11Yah, saya rasa itu kabar baik
00:25:13bagi siapa pun yang menggunakan decoder agen.
00:25:16Kita punya pilihan, kan?
00:25:18Anda bisa menggunakan Opus dan Claude Code,
00:25:20atau Anda bisa menggunakan GPT 5.5 dan Codec.
00:25:23Anda tidak akan salah memilih salah satunya.
00:25:25Saya pikir ini benar-benar masalah preferensi pribadi saat ini.
00:25:28Dan bagian terbaiknya adalah jika Anda menempuh rute Claude Code,
00:25:31itu semua hampir sepenuhnya berlaku untuk Codec.
00:25:33Jika Anda menempuh rute Codec,
00:25:34itu semua hampir sepenuhnya berlaku untuk Claude Code.
00:25:37Jadi saya tidak benar-benar merasa ada penguncian vendor seperti,
00:25:40oh, saya hanya belajar tentang Claude Code.
00:25:42Jadi saya tidak bisa beralih ke Codec atau sebaliknya.
00:25:44Itu sama sekali tidak benar.
00:25:45Jika Anda melakukan ini dengan cara yang benar,
00:25:46apa yang sebenarnya Anda pelajari adalah dasar-dasar AI
00:25:48dan cara membangun sesuatu.
00:25:49Dan itu berlaku untuk keduanya.
00:25:51Dan semakin banyak kompetisi,
00:25:53semakin baik bagi kita sebagai konsumen.
00:25:54Sekarang, soal DeepSeek, entahlah.
00:25:59Saya tidak terlalu terkesan.
00:26:00Ini mungkin situasi di mana, oke,
00:26:02DeepSeek masuk akal jika kita mengerjakan tugas-tugas yang lebih sederhana
00:26:04di mana kita tidak membutuhkan kekuatan seperti Opus,
00:26:06atau kita tidak membutuhkan kekuatan seperti GPT 5.5.
00:26:10Karena ingat, kita berbicara tentang sesuatu
00:26:11yang delapan kali lebih murah.
00:26:13Namun jelas itu adalah sesuatu yang perlu kita pertimbangkan.
00:26:16yang dibuatnya, tapi apakah hasilnya delapan kali lebih buruk?
00:26:19Mungkin, mungkin juga tidak.
00:26:21Agak sulit untuk benar-benar, Anda tahu,
00:26:23mengartikulasikan dan menguantifikasi itu.
00:26:24Tapi jelas itu adalah sesuatu yang perlu kita pertimbangkan.
00:26:27Jadi, sejujurnya saya rasa ini bukan kompetisi
00:26:30bagi 4.7 atau 5.5.
00:26:33Namun saya rasa, jika Anda mengerjakan tugas-tugas yang lebih sederhana
00:26:35dan Anda sangat sadar akan token, sangat sadar akan biaya,
00:26:38maka hei, mungkin DeepSeek masuk akal untuk Anda.
00:26:41Jadi hanya itu yang saya punya untuk kalian hari ini.
00:26:42Saya harap itu memberikan pencerahan tentang ketiga model ini
00:26:45dan bagaimana mereka dibandingkan satu sama lain.
00:26:47Saya pikir ini saat yang tepat untuk berada di bidang ini.
00:26:49Lebih banyak kompetisi lebih baik untuk semua orang.
00:26:51Jadi seperti biasa, jika Anda ingin mendapatkan akses
00:26:53ke Kelas Master Claude Code,
00:26:55pastikan untuk memeriksa Chase AI Plus.
00:26:56Tautan ke sana ada di deskripsi.
00:26:58Dan sampai jumpa lagi.

Key Takeaway

GPT 5.5 di dalam Codecs menawarkan keseimbangan terbaik antara kinerja pemrograman dan efisiensi biaya dibandingkan Opus 4.7 dan DeepSeek V4 yang memerlukan kompromi pada kualitas hasil atau intensitas perintah.

Highlights

  • GPT 5.5 berharga $30 per 1 juta token output, sementara Anthropic Opus 4.7 seharga $25, dan DeepSeek V4 jauh lebih ekonomis dengan harga $3,48.

  • Dalam pengujian Terminal Bench 2.0, GPT 5.5 unggul dengan skor 87,2, melampaui kinerja model Anthropic Mythos.

  • GPT 5.5 menyelesaikan tugas simulator penerbangan dengan hasil yang paling dapat dimainkan dibandingkan dengan DeepSeek V4 dan Opus 4.7.

  • Claude Code dan Opus 4.7 memberikan hasil desain shader WebGPU yang lebih estetis dan halus dibandingkan GPT 5.5.

  • DeepSeek V4 membutuhkan interaksi berulang yang intensif dan spesifik untuk mencapai fungsionalitas yang mendekati model kelas atas lainnya dalam tugas pemrograman kompleks.

  • Claude Code menggunakan sekitar 200.000 token untuk menyelesaikan tugas simulator, sementara GPT 5.5 hanya menghabiskan 66.000 token untuk hasil yang lebih baik.

Timeline

Perbandingan Biaya dan Tolok Ukur Model AI

  • Biaya output GPT 5.5 mencapai $30 per 1 juta token, sedangkan DeepSeek V4 hanya $3,48.
  • Opus 4.7 unggul pada tolok ukur SWE bench, tetapi GPT 5.5 memimpin di Terminal Bench 2.0 dengan skor 87,2.
  • DeepSeek V4, meskipun open source, memerlukan API untuk dijalankan karena ukurannya yang mencapai 1,6 triliun parameter.

Pembaruan model AI terbaru dalam 24 jam terakhir menyajikan perbedaan signifikan dalam struktur biaya dan tolok ukur. Meskipun GPT 5.5 tercatat sebagai yang paling mahal, OpenAI mengklaim efisiensi penggunaan token membuat biaya aktual tugas hanya meningkat 20% dibandingkan versi sebelumnya. Data menunjukkan Opus 4.7 menunjukkan regresi pada pengolahan konteks panjang di atas 500.000 token dibandingkan versi 4.6.

Uji Coba Simulator Penerbangan

  • GPT 5.5 menghasilkan simulator penerbangan yang fungsional dengan data instrumen yang akurat dalam 10 menit.
  • DeepSeek V4 gagal menghasilkan simulator yang dapat digunakan, meskipun telah melalui beberapa iterasi perintah.
  • Claude Code menghasilkan simulator yang berjalan, namun membutuhkan lebih banyak waktu dan token dibandingkan GPT 5.5.

Pengujian melibatkan pembuatan simulator penerbangan 3JS. GPT 5.5 menunjukkan kemampuan untuk menangani instruksi umum dengan hasil terbaik, termasuk indikator kecepatan dan sudut serang yang berfungsi. Claude Code memerlukan durasi lebih lama dan konsumsi token yang lebih tinggi, sementara DeepSeek V4 menunjukkan kesulitan besar dalam merender grafis dan menangani logika kontrol pesawat.

Uji Coba Halaman Landas WebGPU

  • Claude Code memberikan hasil desain shader WebGPU yang paling halus dan estetis untuk situs web penghargaan.
  • GPT 5.5 berhasil menjalankan tugas, tetapi kecerahan partikel yang dihasilkan mengaburkan elemen teks.
  • DeepSeek V4 menghasilkan efek visual partikel yang kurang intuitif dan memerlukan iterasi perintah yang sangat spesifik.

Tugas ini menguji kemampuan model dalam menangani shader WebGPU 3JS untuk situs modern. Claude Code dinilai sebagai pemenang subjektif karena gaya visual yang lebih halus, meskipun GPT 5.5 secara teknis memenuhi instruksi desain. DeepSeek V4 tetap kesulitan memberikan hasil yang konsisten atau menarik secara visual tanpa panduan input yang sangat ketat.

Kesimpulan Kompetisi Model AI

  • GPT 5.5 adalah pilihan utama untuk efisiensi tugas teknis kompleks saat ini.
  • Claude Code menawarkan kualitas desain visual yang lebih tinggi bagi pengguna yang mengutamakan estetika.
  • DeepSeek V4 layak dipertimbangkan untuk tugas sederhana yang sangat sensitif terhadap biaya token.

Persaingan antara model AI memberikan fleksibilitas bagi pengembang untuk memilih berdasarkan kebutuhan spesifik. Tidak ada penguncian vendor yang signifikan karena keahlian yang dipelajari pada Claude Code dapat diterapkan pada penggunaan Codec. Kompetisi ini menguntungkan pengguna dengan memberikan opsi yang lebih murah dan kuat.

Community Posts

View all posts