Transcript
00:00:00Dalam 24 jam terakhir, ada pembaruan besar
00:00:02pada dua model AI terbesar di planet ini.
00:00:04Pertama, dirilisnya GPT 5.5,
00:00:07yang membanggakan skor tolok ukur tertentu
00:00:10yang mengungguli mythos Claude.
00:00:12Kedua, dirilisnya DeepSeek V4,
00:00:15yaitu model open source dengan bobot terbuka
00:00:18yang memiliki tolok ukur yang menyaingi pemain besar terdepan.
00:00:22Jadi dengan semua model baru yang bisa dipilih ini,
00:00:24apa yang harus Anda, pengguna rata-rata lakukan?
00:00:27Nah, hari ini saya akan membantu Anda menjawab pertanyaan itu
00:00:29saat saya mengadu Opus 4.7, GPT 5.5,
00:00:33dan DeepSeek V4 satu sama lain,
00:00:36sehingga Anda bisa melihat mana yang benar-benar masuk akal untuk Anda.
00:00:39Sekarang, sebelum kita memulai tes head-to-head-to-head ini
00:00:41antara GPT 5.5 di dalam codecs,
00:00:45DeepSeek V4 di dalam open code,
00:00:47dan Opus 4.7 di dalam Claude code,
00:00:51mari kita lihat sekilas tolok ukurnya,
00:00:53terutama dua model terbaru ini
00:00:54yang dirilis dalam 24 jam terakhir.
00:00:56Sekarang mari kita bicara tentang biaya.
00:00:58Nah, DeepSeek V4, seperti yang Anda tahu,
00:01:00adalah model open source dengan bobot terbuka,
00:01:01tetapi bukan berarti Anda bisa menjalankannya di komputer Anda
00:01:04karena ukurannya sangat besar.
00:01:05Maksud saya 1,6 triliun parameter.
00:01:08Anda butuh perangkat keras yang mumpuni untuk menjalankannya.
00:01:10Jadi kita tetap harus membayarnya.
00:01:11Kita tetap harus menggunakan API,
00:01:13tetapi jauh lebih murah daripada kompetitor,
00:01:15sekitar delapan kali lebih murah.
00:01:18Dan dari ketiga model tersebut,
00:01:19GPT 5.5 yang baru sebenarnya adalah yang paling mahal,
00:01:22yang cukup mengejutkan karena secara umum,
00:01:24OpenAI lebih murah daripada kompetisi anthropic-nya.
00:01:28Dalam hal biaya yang harus Anda keluarkan
00:01:30per 1 juta token output.
00:01:32Untuk GPT 5.5, harganya $30.
00:01:35Untuk anthropic, harganya $25.
00:01:38Dan untuk DeepSeek, harganya $3,48.
00:01:41Sekarang jika kita bicara tentang token input,
00:01:44yang merupakan bagian kecil dari keseluruhan,
00:01:46GPT 5.5 dan Opus 5.7 sama saja.
00:01:49Harganya $5 per 1 juta input.
00:01:53Dan untuk DeepSeek, sekitar $1,70.
00:01:57Jadi jauh lebih murah untuk input dan jauh lebih murah untuk output.
00:02:01Meskipun demikian, jika bicara soal 5.5,
00:02:03ini dua kali lebih mahal daripada 5.4.
00:02:06Namun, OpenAI mengklaim bahwa model ini justru menggunakan lebih sedikit token
00:02:10karena kekuatannya.
00:02:11Jadi meskipun dua kali lipat harga 5.4,
00:02:14mereka mengatakan dalam hal penggunaan token sebenarnya dan biaya aktual,
00:02:17untuk tugas yang sama, akhirnya hanya sekitar 20%
00:02:20lebih mahal saat semuanya selesai dihitung.
00:02:21Jadi ingatlah hal itu.
00:02:24Jadi kita sudah membahas biayanya.
00:02:25Sekarang mari kita bicara tentang tolok ukurnya.
00:02:26Seberapa bagus model-model ini di atas kertas?
00:02:27Saya tahu kita semua agak kebal terhadap tolok ukur secara umum.
00:02:31Kita perlu menyikapinya dengan hati-hati,
00:02:32tetapi tetap layak untuk dilihat,
00:02:33terutama saat kita melihat angka-angka
00:02:36yang dilaporkan oleh masing-masing pemain pada tolok ukur yang sama.
00:02:39Jadi ada tiga kategori pengodean
00:02:42yang ketiganya melaporkan angkanya.
00:02:43Itu adalah SWE bench verified, SWE bench pro
00:02:46dan terminal bench 2.0.
00:02:48Nah, untuk SWE bench verified dan SWE bench pro,
00:02:50Opus adalah pemenangnya di sana.
00:02:52Pada terminal bench 2.0, GPT adalah pemenangnya dengan selisih jauh di 87,2,
00:02:56yang mana, angka ini lebih tinggi
00:02:59daripada yang dilaporkan Anthropic untuk Mythos.
00:03:02Oh, Mythos, maaf.
00:03:03Yang menurut saya cukup gila.
00:03:05Anda tahu, model super rahasia yang tidak bisa mereka rilis,
00:03:07ternyata berkinerja lebih buruk pada terminal bench 2 daripada GPT 5.5.
00:03:10Sekarang terminal bench 2.0 adalah pencilan terbesar di sini.
00:03:13Opus 4.7 dan V4 Pro jauh tertinggal,
00:03:16tapi lihatlah Opus 4.7 dibandingkan dengan V4 Pro.
00:03:20Kurang dari dua poin sementara delapan kali lebih murah.
00:03:23Dan Anda melihat cerita yang sama di sini
00:03:24dengan SWE bench verified dan SWE bench pro.
00:03:26Ya, Opus menang.
00:03:28Tapi ketika kita membandingkan peringkat kedua dengan peringkat ketiga
00:03:31dan V4 selalu di peringkat ketiga,
00:03:33tidak ada kesenjangan besar seperti yang Anda harapkan.
00:03:36Maksud saya, lima poin itu bukan apa-apa, Anda tahu,
00:03:38pada SWE bench verified, 85 ke 86.
00:03:41Tapi sekali lagi, delapan kali lebih murah, open source.
00:03:45Anda tahu, ada beberapa pengorbanan nyata di sini
00:03:46yang bisa kita buat jika kita tidak membutuhkan kekuatan paling besar.
00:03:49Hal lain yang menarik untuk dibahas
00:03:51adalah konteks panjang di mana anehnya Opus 4.7 sangat buruk
00:03:55berdasarkan angkanya, secara signifikan lebih buruk daripada 4.6,
00:03:58yang membuat saya takjub.
00:04:00Dan ketika kita berbicara tentang konteks panjang
00:04:01di mana kita mencoba mengambil hal-hal
00:04:03antara 500.000 token dan 1 juta token,
00:04:064.7 sebenarnya sangat buruk.
00:04:08Dan kinerjanya jauh lebih buruk daripada DeepSeek dan GPT 5.5.
00:04:12Sekarang Anda bisa berdiskusi panjang lebar tentang
00:04:14mengapa Anda harus berada di kisaran 500.000 hingga 1 juta token?
00:04:17Seberapa banyak orang yang benar-benar beroperasi di sana
00:04:20karena kita akan terkena pembusukan konteks apa pun kondisinya
00:04:22di tempat itu, tidak peduli model apa yang Anda gunakan.
00:04:24Tapi menarik bahwa entah mengapa,
00:04:26kita melihat adanya regresi
00:04:27ketika berkaitan dengan model anthropic.
00:04:29Tapi gambaran besarnya, saya rasa poin pentingnya adalah
00:04:325.5 sangat kuat.
00:04:33Model ini mengalahkan Opus 4.7 dalam metrik tertentu,
00:04:36kalah dalam metrik tertentu,
00:04:37tapi ini adalah model yang sangat tangguh.
00:04:39Dan selain itu, V4 Pro, Anda tahu,
00:04:42secara umum agak tertinggal.
00:04:45Masih dalam jarak yang bisa dicapai sementara jauh lebih murah,
00:04:48yang sekali lagi merupakan pilihan bagus untuk pelanggan rata-rata Anda.
00:04:52Karena saat ini rasanya Anda tidak punya banyak
00:04:54pilihan di sisi open source yang benar-benar bisa bersaing.
00:04:56Sekarang mari kita mulai tes head-to-head-to-head yang sebenarnya
00:04:59dengan ketiga model ini.
00:05:00Dan kita menggunakan harness untuk masing-masing model ini.
00:05:02Dengan 5.5, yaitu codecs.
00:05:04Dengan Opus 4.7, yaitu Claude code.
00:05:07Dan dengan DeepSeek V4 Pro, saya menggunakan open code.
00:05:10Dan untuk tes pertama, apa yang akan kita lakukan adalah
00:05:11kita akan meminta mereka membuat simulator penerbangan
00:05:14untuk kita di 3JS yang berjalan di browser.
00:05:17Anda bisa melihat perintahnya di sini.
00:05:18Saya katakan, saya ingin terasa enak saat terbang.
00:05:20Saya ingin ada beban di dalamnya.
00:05:21Saya ingin visual yang kuat dan saya ingin menggunakan struktur
00:05:25dan alat apa pun yang menurutnya benar.
00:05:27Jadi ini cukup mudah sehingga mereka tahu apa yang harus dilakukan,
00:05:30namun ada cukup kelonggaran agar kita bisa melihat perbedaan
00:05:33antar model tersebut.
00:05:34Dan sementara kita akan melihat apa yang bisa mereka lakukan
00:05:36dalam satu kali percobaan, kita akan melalui beberapa iterasi
00:05:38dari ini dan memberikan perintah tindak lanjut.
00:05:40Karena sekeren apa pun melihat seberapa baik kinerjanya dalam sekali coba,
00:05:44bukan seperti itu cara kita bekerja di kehidupan nyata, bukan?
00:05:46Saya ingin melihat kinerjanya saat saya memberikan perintah tindak lanjut
00:05:49dan seberapa cepat hingga sampai ke sesuatu yang saya suka.
00:05:52Dan ketika kita membandingkan ketiga model ini,
00:05:54sebenarnya ada empat hal yang akan saya perhatikan.
00:05:55Itu adalah waktu.
00:05:57Berapa lama waktu yang dibutuhkan untuk membangun ini?
00:05:58Biaya, berapa banyak token yang kita gunakan?
00:06:01Kualitas, seberapa bagus hasilnya?
00:06:02Dan kemudian empat adalah semacam suasana (vibes).
00:06:04Dan itu berkaitan dengan kualitas.
00:06:06Ini sangat subjektif.
00:06:06Mana yang sebenarnya lebih saya sukai?
00:06:09Dan juga perlu dicatat, ketiga model, ketiga harness
00:06:11juga menggunakan keterampilan yang persis sama.
00:06:13Jadi mari kita mulai dengan pertanyaan yang diajukan deepseek kepada kita.
00:06:16Ia menanyakan model penerbangan seperti apa yang kita inginkan.
00:06:18Mari kita pilih simulasi penuh.
00:06:20Ia merekomendasikan lautan dan pulau untuk medannya.
00:06:22Kita ikuti itu saja.
00:06:23Mari kita lihat, dan kemudian ia menanyakan preferensi kamera.
00:06:25Mari lakukan keduanya.
00:06:26Mari lihat apakah ia bisa memberi kita tombol
00:06:27untuk orang pertama dan orang ketiga.
00:06:29Kita ikuti preferensi alat yang direkomendasikannya.
00:06:32Dan kita pilih model low poly saja
00:06:33untuk pesawat dan visualnya sendiri.
00:06:35Sekarang beralih ke codecs, pertanyaan yang serupa.
00:06:38Meskipun hanya menanyakan tiga hal kepada kita.
00:06:40Mengatakan penerbangan seperti apa yang harus dioptimalkan oleh rencana ini?
00:06:42Mari kita pilih simulasi keras.
00:06:44Pengalaman bermain apa yang paling penting untuk browser?
00:06:48Mari lakukan lepas landas di pulau.
00:06:50Cukup menarik bagaimana mereka semua memiliki hal yang sama.
00:06:52Dan apa kamera serta presentasi pesawatnya?
00:06:54Saya akan melakukan tombol untuk ini juga.
00:06:56Dan untuk Claude code, kita akan melakukan pembelajaran simulasi studi
00:06:58untuk input rasa lautan dan pulau.
00:07:02Kita akan menggunakan keyboard dan mouse.
00:07:04Itu tidak akan membiarkannya pergi bekerja.
00:07:05Jadi mode rencana secara besar, sangat mirip di ketiga model.
00:07:09Kurang lebih pertanyaan yang sama seperti,
00:07:11fisika seperti apa yang Anda inginkan?
00:07:12Seperti apa medan yang Anda inginkan?
00:07:13Sudut kamera seperti apa yang Anda inginkan?
00:07:15Jadi tidak ada perbedaan besar di sana.
00:07:17Dan mari lihat apa yang mereka hasilkan dalam bentuk rencana.
00:07:19Baiklah, jadi ketiga rencana sudah lengkap.
00:07:20Jadi mari kita telusuri satu per satu dengan cukup cepat
00:07:22dan melihat beberapa perbedaannya.
00:07:24Yang pertama kita lihat di sini adalah DeepSeek.
00:07:26Dan rencana yang disajikannya cukup mendasar.
00:07:29Jadi ia memberi kita struktur proyek
00:07:31dan kemudian berbicara sangat singkat tentang fisika penerbangan,
00:07:33lingkungan, kamera, dan overlay HUD,
00:07:35dan benar-benar hanya beberapa poin penting.
00:07:37Di sisi lain, saat kita melihat 5.5 di dalam codecs,
00:07:40karena ini ringkasan, perubahan kunci,
00:07:43masuk ke detail implementasi, rencana pengujian,
00:07:46serta asumsi-asumsi
00:07:47yang menjabarkan semua hal itu untuk kita.
00:07:49Dan kemudian kita punya rencana Claude Code, yang memakan waktu paling lama.
00:07:50Butuh waktu sekitar lima menit, tapi sejauh ini adalah yang paling menyeluruh
00:07:53karena itu mencakup konteks, tumpukan teknologi.
00:07:55Tata letaknya membahas model penerbangan.
00:07:57Itu membahas seperti momen-momen yang berbeda,
00:08:00membahas tentang stall, seperti bel stall.
00:08:02Maksudnya, ini sangat, sangat mendetail.
00:08:03Membahas kontrol, dunia, mod,
00:08:06pesawat sebenarnya yang akan kita gunakan, performa,
00:08:08dan terus berlanjut tanpa henti.
00:08:10Jadi sangat mendetail.
00:08:11Jadi sekarang kita akan meminta ketiganya mengimplementasikan rencana mereka,
00:08:14dan kita akan lihat seperti apa hasil akhirnya.
00:08:15Jadi GPT 5.5 di dalam codecs adalah yang pertama selesai.
00:08:19Mari kita lihat seperti apa hasilnya.
00:08:20Jadi ini simulator penerbangan yang dibuatnya untuk kita.
00:08:22Ada awan di langit.
00:08:26Ada indikator AOA di sana.
00:08:31Ada kecepatan kita di bawah,
00:08:34dan mari kita lihat apakah kita bisa menerbangkan
00:08:35benda ini.
00:08:36Saya perhatikan tidak ada landasan pacu.
00:08:38Hanya rumput biasa.
00:08:39Padahal rencananya seperti sesuatu di pulau.
00:08:42Meskipun saat kameranya agak kacau,
00:08:45Anda bisa melihat landasan pacu di bawah sana sebentar.
00:08:48Baiklah, kita mengalami stall dan kita hanya,
00:08:50kita bahkan tidak bisa lepas landas, ya?
00:08:51Jadi yang ini sebenarnya sedikit,
00:08:54sebenarnya cukup sulit.
00:08:55Jadi apa yang akan saya lakukan adalah saya akan memberinya
00:09:00perintah kedua memintanya untuk membuatnya sedikit lebih mudah
00:09:03untuk diterbangkan, karena terlalu banyak hal di sini,
00:09:05tapi ini sulit.
00:09:06Jadi saya tulis, ini sangat sulit untuk diterbangkan.
00:09:08Bisakah kita membuatnya lebih mudah digunakan?
00:09:10Alias sedikit lebih bergaya arcade.
00:09:12Dan grafisnya juga perlu ditingkatkan.
00:09:15Jadi mari kita lihat hasilnya.
00:09:16Perlu dicatat, 5.5 butuh sekitar tujuh menit
00:09:21untuk membuat percobaan pertama itu bagi kita.
00:09:23Dan butuh 63.000 token.
00:09:26Baiklah, katanya sudah dibuat sedikit lebih mudah
00:09:28untuk diterbangkan dan grafisnya diperbarui.
00:09:29Jadi mari kita lihat seperti apa percobaan kedua.
00:09:32Jadi inilah yang kita dapatkan.
00:09:32Grafisnya jelas terlihat lebih baik,
00:09:34tapi mari kita lihat apakah kita bisa lepas landas
00:09:36kali ini.
00:09:37Oke, throttle seratus persen,
00:09:4150, 60, tujuh.
00:09:43Berapa kecepatan rotasi pesawat Cessna?
00:09:46Oke, 70, 80, 90.
00:09:49Kita pasti bisa lepas landas sekarang.
00:09:51Oke, salah arah.
00:09:53Ayo, lepas landas, lepas landas.
00:09:56Tidak, ini mungkin akan membuat saya stall, kan?
00:09:58Ya, stall.
00:09:59Oke, ini masih perlu perbaikan.
00:10:02Jadi mari kita beri Codex satu kesempatan lagi.
00:10:05Mari beri 5.5 satu kesempatan lagi
00:10:07untuk membuatnya benar-benar dapat dimainkan.
00:10:08Jadi saya katakan padanya saya bahkan tidak bisa membuat pesawat
00:10:10lepas landas dan masuk ke penerbangan.
00:10:11Kita benar-benar harus membuatnya mudah untuk lepas landas
00:10:12dan benar-benar menerbangkannya.
00:10:14Oke, katanya masalah lepas landas sudah diperbaiki.
00:10:16Ternyata remnya terkunci sebelumnya.
00:10:19Saya tidak tahu apakah itu alasan kita tidak bisa melakukannya.
00:10:21Oh, ternyata tidak otomatis diatur untuk lepas landas.
00:10:24Flaps, ya, ini,
00:10:25kita menggunakan mode simulator super.
00:10:29Tapi inilah percobaan nomor tiga di simulator penerbangan kita.
00:10:32Mari kita lihat bagaimana hasilnya.
00:10:34Jadi, bisakah kita lepas landas?
00:10:36Oh, kita memantul di landasan
00:10:37kali ini.
00:10:38Baiklah, keren, kita sudah lepas landas.
00:10:41Kita benar-benar bergerak.
00:10:44Mari kita lihat apakah kita bisa masuk ke salah satu cincin ini.
00:10:45Maksud saya, grafisnya tidak terlalu buruk, Anda tahu,
00:10:49untuk sesuatu yang dihasilkan dalam waktu kurang dari 10 menit.
00:10:52Tampaknya cukup akurat dalam hal,
00:10:56itu memberi saya vertikal saya, Anda tahu,
00:10:59kaki per menit di bagian bawah,
00:11:00ketinggian saya yang sebenarnya, kecepatan, heading, AGL.
00:11:04Jadi ini relatif canggih
00:11:06dalam hal melacak semuanya.
00:11:08Maksud saya, indikator kecil di depan ini,
00:11:10kelihatannya seperti indikator sudut serang (angle of attack),
00:11:13yang cukup keren.
00:11:14Jadi ada beberapa hal bagus yang terjadi.
00:11:18Kontrolnya sebenarnya sedikit aneh.
00:11:21Seperti yang Anda lihat, saya tidak bisa mengendalikannya sama sekali,
00:11:23tapi secara umum, lumayan.
00:11:25Anda tahu, kita bisa melakukan kamikaze
00:11:27dan melihat apa yang terjadi pada, Anda tahu, 18.000 kaki per menit.
00:11:31Tapi ya, Anda tahu, untuk 66.000 token,
00:11:36sekitar 10 menit, 15 menit atau lebih, kurang lebih,
00:11:40Anda tahu, dengan bolak-balik,
00:11:41menurut saya itu tidak buruk sama sekali.
00:11:42Jadi sekarang mari kita lihat DeepSeek.
00:11:44Butuh sekitar 10 menit untuk melakukan ini.
00:11:46Dan dalam hal token, 63.000 dan 44 sen.
00:11:51Jadi 44 sen, 10 menit.
00:11:53Dan inilah yang dihasilkan DeepSeek untuk kita.
00:11:56Saya tidak tahu sama sekali
00:12:00apa yang saya lihat.
00:12:03Ini seharusnya orang ketiga.
00:12:06Ini seharusnya kokpit.
00:12:07Dan jelas percobaan pertama kita dengan DeepSeek
00:12:11adalah bencana lainnya.
00:12:13Jadi saya katakan pada DeepSeek simulatornya berantakan total.
00:12:16Grafisnya benar-benar buggy
00:12:17dan saya tidak bisa menerbangkan apa pun.
00:12:20Tolong diperbaiki.
00:12:21Dan inilah percobaan kedua kita.
00:12:24Saya masih tidak tahu.
00:12:26Sama sekali tidak tahu.
00:12:28Apa sebenarnya DeepSeek ini.
00:12:30Oh, hei, ada pesawat.
00:12:32Oh, ada sesuatu.
00:12:33Saya, ya, ini, ini brutal.
00:12:38Dan jujur saja, saya merasa bahkan untuk memberinya perintah lagi
00:12:42untuk melakukan ini, saya harus mulai menjadi sangat, sangat spesifik
00:12:44tentang apa yang ingin kita lakukan, yang sekali lagi,
00:12:47cukup jauh dari apa yang kita lakukan dengan Codex.
00:12:49Itu adalah perintah yang sangat umum.
00:12:51Saya bisa mendapatkan sesuatu yang setidaknya mendekati,
00:12:53bahkan pada percobaan pertama.
00:12:54Ini jelas sangat kesulitan
00:12:57dengan grafisnya.
00:12:58Kita hanya, saya bahkan tidak tahu bagaimana menggambarkannya,
00:13:01tapi hei, itu sangat murah.
00:13:03Jadi sekarang mari kita lihat apa yang Claude Code
00:13:07bisa berikan untuk referensi.
00:13:09Butuh 13 menit untuk benar-benar menjalankan rencananya.
00:13:12Rencananya sendiri butuh lima menit.
00:13:13Jadi mari kita sebut 20 menit untuk mendapatkan percobaan pertama.
00:13:17Dan kemudian untuk total token,
00:13:19proses ini butuh sekitar 15% ditambah 5% sebelum rencana.
00:13:22Jadi kita melihat, yah, maaf,
00:13:24kita melihat 11% konteks ditambah 5% sebelumnya.
00:13:28Jadi anggap saja 20 menit, 150.000 token untuk Claude Code,
00:13:33yang jelas merupakan yang paling mahal
00:13:34dan paling lambat dari semuanya.
00:13:36Dan inilah percobaan Claude Code untuk ini.
00:13:39Entah mengapa, kita langsung berada di udara.
00:13:43Kita mengalami stall.
00:13:44Kita dalam IFR.
00:13:45Saya tidak tahu apa yang terjadi.
00:13:48Kita akan menabrak sesuatu.
00:13:50Bisakah kita menyelamatkan ini?
00:13:51Bisakah kita menariknya dari posisi menukik?
00:13:53Tidak, kita stall, tidak, kita mati.
00:13:54Oke, itu menarik.
00:13:56Sekali lagi, itu langsung melontarkan kita ke udara.
00:14:00Kita berada di awan.
00:14:02Kita stall.
00:14:03Saya tidak tahu apa yang terjadi.
00:14:05Kita butuh, kita butuh percobaan kedua.
00:14:08Jadi saya menulis saat memuat, saya langsung dilempar ke udara.
00:14:11Sulit untuk dikendalikan.
00:14:12Saya ingin mulai di landasan pacu dan saya ingin lebih mudah diterbangkan.
00:14:15Oh, dan omong-omong, tingkatkan juga grafisnya.
00:14:17Jadi butuh sekitar empat menit, tapi ada beberapa perubahan.
00:14:20Kita akan muncul di landasan pacu.
00:14:22Itu mengubah roda pendaratan.
00:14:23Jadi sekarang roda tiga dan beberapa hal lainnya.
00:14:24Mari kita lihat seperti apa.
00:14:26Baik, jadi inilah dia.
00:14:27Sekali lagi, kita langsung dilempar ke dalam kabut.
00:14:29Saya mencoba mengendalikan benda ini.
00:14:31Dan saya hanya, ya, tidak ada kendali sama sekali.
00:14:33Baiklah, kita akan memberi,
00:14:34kita akan memberi Claude Code satu kesempatan lagi di sini.
00:14:37Jadi saya katakan padanya itu masih langsung melemparkan saya
00:14:39ke langit.
00:14:40Saya katakan, mari gunakan kontrol yang lebih terasa arcade.
00:14:42Saya pikir mungkin seharusnya kita melakukan itu
00:14:43dengan perintah awal untuk ketiganya.
00:14:44Saya pikir jika menggunakan simulator yang lebih realistis,
00:14:46itu sangat sulit,
00:14:50untuk melakukannya dengan cara yang ramah pengguna.
00:14:53Saya pikir ini mungkin melakukan pekerjaan yang baik di balik layar
00:14:57dalam hal, oke, seperti sudut serang.
00:14:59Baik, Anda stall pada ini, Anda tahu,
00:15:01sudut terhadap kecepatan dan sebagainya.
00:15:02Tapi sebenarnya memanipulasi ini dari komputer
00:15:04pada dasarnya tidak mungkin.
00:15:07Meskipun menurut saya kabut itu sangat aneh.
00:15:09Jadi mari kita lihat apakah setelah putaran kedua perintah,
00:15:12itu bisa melakukannya sedikit lebih baik
00:15:15karena saat ini GPT 5.5 melakukan jauh, jauh lebih baik.
00:15:16Jadi Claude Code membuat beberapa perubahan lagi,
00:15:20membuatnya lebih ramah pengguna.
00:15:22Dan mari kita lihat apakah saya masih mencoba
00:15:23untuk penilaian instrumen saya kali ini.
00:15:24kali ini untuk mendapatkan peringkat instrumen saya.
00:15:26Jadi ya, kami masih melanjutkannya.
00:15:28Kami masih mengejar peringkat instrumen.
00:15:30Kami berada di sini, tapi Anda tahu, saya bisa melihatnya.
00:15:33Anda tahu, saya bisa memeriksa panel instrumen saya.
00:15:35Baiklah, kita lepas landas dari landasan pacu.
00:15:37Ya, oke.
00:15:42Bisakah saya, mengapa ada pohon di landasan pacu?
00:15:44Saya mencoba untuk naik.
00:15:46Bisakah saya naik?
00:15:47Bisakah saya melakukan pitch?
00:15:49Klik kanvas untuk mengunci kursor, apa?
00:15:53Oh, kita sudah di udara.
00:15:54Tidak, tidak, kita mati.
00:15:57Jadi ya, saya pikir yang satu ini cukup jelas.
00:16:02GPT 5.5, jelas pemenangnya, menurut saya.
00:16:06Cloud Code berada di posisi kedua.
00:16:08Saya akan memberikannya peringkat kedua.
00:16:10Anda tahu, itu benar-benar berjuang
00:16:13bahkan dengan perintah yang kami berikan.
00:16:14Kami tidak memberinya perintah yang bagus, sejujurnya.
00:16:16Saya pikir dengan lebih banyak waktu, perintah yang lebih baik,
00:16:19beberapa kali bolak-balik lagi,
00:16:20kita bisa membuatnya ke tempat yang kita inginkan.
00:16:21Setidaknya ia punya pesawat, punya landasan pacu.
00:16:25Ada pohon di landasan pacu,
00:16:26tapi ia memiliki hal-hal aktual yang kita butuhkan
00:16:29dibandingkan DeepSeek dengan OpenCODE.
00:16:32Saya tidak tahu apa yang terjadi di sana.
00:16:34Itu benar-benar berantakan.
00:16:35Saya merasa harus memulainya kembali
00:16:36dari awal, seperti memberinya perintah yang sangat spesifik.
00:16:38Itu bahkan tidak mendekati bisa digunakan,
00:16:39tapi GPT 5.5 langsung dari awal, Anda tahu,
00:16:42itu adalah perintah yang cukup samar.
00:16:44Menurut saya itu melakukannya dengan sangat baik.
00:16:455.5 juga menggunakan total 66 ribu token.
00:16:48Kita lihat di sini dengan Opus secara keseluruhan,
00:16:52sekitar 200.000 token.
00:16:53Jadi seperempat dari token, pada dasarnya seperempat dari biayanya.
00:16:56Dan itu sedikit lebih cepat.
00:16:58Maksud saya, pada titik ini, saya bahkan tidak peduli
00:16:59tentang bagaimana OpenCODE sebenarnya memakan waktu lebih lama daripada GPT 5.5 juga.
00:17:03Dan itu benar-benar buruk, mari jujur saja, itu sangat buruk.
00:17:07Sekarang mari kita lanjutkan ke tes nomor dua.
00:17:10Kali ini kita akan meminta mereka
00:17:12untuk membuat halaman landas yang memamerkan hasil kerja shader WebGPU
00:17:16menggunakan 3JS.
00:17:18Sekarang pekerjaan shader WebGPU adalah jenis hal yang Anda lihat
00:17:21di situs web penghargaan.
00:17:23Saya berbicara tentang situs web seperti Igloo, hal semacam ini,
00:17:26seperti grafis kelas atas.
00:17:28Terlihat seperti video game.
00:17:29Pada dasarnya menggunakan kartu grafis komputer Anda
00:17:32untuk merender semua hal ini.
00:17:34Sekarang saya tidak mengharapkan satu pun dari mereka untuk mendapatkan sesuatu yang mendekati
00:17:37apa yang kita lihat di sini, tetapi saya ingin melihat apa yang bisa mereka lakukan
00:17:40menggunakan teknologi shader pada dasarnya.
00:17:42Ini jelas selangkah di atas dasar Anda
00:17:45halaman landas templat SaaS.
00:17:46Saya ingin melihat apa yang bisa mereka lakukan dan mendorong mereka
00:17:48hingga batasnya di dunia desain web.
00:17:50Sekarang saya telah memberi mereka semua keahlian yang sebenarnya merinci
00:17:53cara melakukan hal semacam ini.
00:17:55Jadi bukan berarti mereka benar-benar dalam kegelapan
00:17:57dan satu juga tidak memiliki keunggulan dibandingkan yang lain.
00:18:00Satu-satunya hal yang saya katakan kepada mereka adalah saya ingin itu terasa modern
00:18:02dan mencolok secara visual, sesuatu yang akan Anda lihat pada penghargaan
00:18:05dan untuk memanfaatkan komputasi GPU dengan cerdas.
00:18:08Jadi mereka bisa memilih tumpukan dan struktur proyek apa pun
00:18:10yang mereka sukai dan menggunakan penilaian yang baik pada konsep hero,
00:18:13UI, dan interaksi.
00:18:15Dan sama seperti tes pertama, mereka semua dalam mode rencana.
00:18:17Jadi mari kita mulai.
00:18:18Oke, jadi mereka semua menyelesaikan rencana mereka dan lucunya,
00:18:21tidak ada dari mereka yang menanyakan pertanyaan apa pun,
00:18:22meskipun kami menempatkan mereka dalam mode rencana.
00:18:24Jadi mari kita lihat GPT 5.5 terlebih dahulu.
00:18:28Jadi ini memberi tahu kita bahwa ia akan melakukan full bleed
00:18:30hero interaktif yang didorong oleh GPU.
00:18:32Konsepnya adalah medan sinyal yang hidup
00:18:34dengan semacam benda partikel padat yang akan dilakukannya.
00:18:36Kita akan lihat seperti apa akhirnya nanti.
00:18:38Dan secara keseluruhan ini adalah salinan halaman landas gaya penghargaan minimal.
00:18:41Adegan WebGPU yang sepenuhnya interaktif
00:18:43dengan simulasi komputasi reaktif penunjuk.
00:18:46Baiklah, untuk DeepSeek rencananya cukup singkat dan manis,
00:18:50sama seperti yang kita lihat pada simulator penerbangan.
00:18:53Semoga kita mendapatkan output yang lebih baik kali ini,
00:18:54tapi bagian hero dengan 75.000 partikel komputer GPU.
00:18:58Saya menebak bahwa mereka semua akan memilih
00:19:01semacam tema partikel pada hero.
00:19:04Jadi itu akan memiliki interaksi mouse, integrasi.
00:19:08Itu akan memiliki inisialisasi satu kali.
00:19:10Dan kemudian kita seharusnya melihat hal-hal seperti bloom,
00:19:13aberasi kromatik, vinyet kustom, dan sedikit efek film grain.
00:19:16Jadi kita akan lihat seperti apa sebenarnya hasilnya.
00:19:19Dan kemudian kita memiliki rencana Opus 4.7 lagi,
00:19:21memilih hal partikel ini dengan bloom
00:19:23dan itu akan interaktif dengan mouse.
00:19:25Jadi kita akan lihat apakah ada dari ini yang benar-benar terlihat berbeda
00:19:27karena di permukaan, semua rencana mereka terdengar sangat mirip.
00:19:29Jadi yang pertama selesai adalah 5.5.
00:19:32Itu memakan waktu sekitar enam menit.
00:19:34Dan dalam hal token, kami telah menggunakan 107 ribu.
00:19:37Jadi mari kita lihat apa yang dibangunnya untuk kita.
00:19:40Dan inilah yang dibuatnya untuk kita.
00:19:42Sekarang, ini sangat terang.
00:19:45Jadi sulit untuk melihat partikel yang sebenarnya,
00:19:47tapi Anda tahu, saat kita menggulir ke atas dan ke bawah,
00:19:50itu memang memiliki animasi yang berjalan di latar belakang
00:19:52serta, Anda tahu, beberapa perubahan warna yang halus.
00:19:56Sepertinya saat ini mouse kita seharusnya
00:20:00menarik partikel-partikel tersebut.
00:20:01Dan kita punya, saya akan memindahkan ini ke sini.
00:20:03Itu memberikan beberapa opsi seperti menolak versus drift.
00:20:08Tapi sekali lagi, cukup sulit untuk melihatnya
00:20:11karena betapa terangnya itu.
00:20:12Jadi saya memberitahunya bahwa sulit untuk benar-benar melihat partikel
00:20:14karena kecerahannya.
00:20:14Itu juga mengambil alih banyak teknologi hero.
00:20:16Jadi bisakah kita sedikit menurunkan kecerahannya
00:20:18dan juga sedikit lebih mendorongnya ke kanan?
00:20:20Karena saat ini itu cukup mendominasi.
00:20:23Anda bahkan tidak bisa benar-benar membaca teks di sini di sebelah kiri
00:20:25karena betapa sangat terangnya partikel-partikel ini.
00:20:27Dan inilah pembaruan setelah putaran kedua.
00:20:30Itu sedikit lebih baik.
00:20:31Itu tidak terlalu mendominasi dan menyisakan ruang untuk teks.
00:20:35Meskipun saya akan mengatakan itu hampir agak buram,
00:20:39tapi Anda tahu, itu tidak buruk.
00:20:41Seperti itu diatur untuk melakukan apa yang kami perintahkan
00:20:44mengingat masalah yang agak samar.
00:20:46Jadi saya tidak terpesona oleh jenis desain yang muncul,
00:20:49tapi saya juga tidak kesal karenanya.
00:20:51Sekarang mari kita lihat Claude Code
00:20:52karena saat kita melakukan semua ini,
00:20:55DeepSeek masih di sini di parit
00:20:57mencoba mencari tahu ini.
00:20:58Dan inilah yang diberikan Claude Code kepada kita.
00:21:01Jadi seperti tidak ada apa-apa.
00:21:06Saya tidak yakin apakah itu mengatakan latar belakangnya,
00:21:10Saya kira seluruh latar belakang seharusnya menjadi
00:21:14WebGL, saya berasumsi.
00:21:19Itu sangat bersahaja,
00:21:21yang saya kira adalah sesuatu yang bisa Anda lakukan sepenuhnya.
00:21:24Maksud saya, seperti di layar itu tidak terlihat,
00:21:25seperti itu terlihat cukup keren, tapi saya akan jujur,
00:21:28saya mencari sesuatu yang sedikit lebih mencolok.
00:21:31Jadi pada putaran kedua,
00:21:31ketika saya menyuruhnya untuk membuatnya sedikit lebih mencolok,
00:21:34tidak ada perbedaan besar.
00:21:35Meskipun itu sangat halus.
00:21:38Ada semacam efek film grain,
00:21:40hampir seperti blur yang bergerak dari bawah ke atas.
00:21:43Jadi itu hal yang cukup halus.
00:21:45Dan Anda bisa melihat di sini di bagian bawah,
00:21:47itu melacak seperti frame per detik.
00:21:49Itu menggunakan 250.000 partikel.
00:21:51Jadi, maksud saya, jujur itu terlihat keren.
00:21:54Hanya saja tidak terlalu mencolok.
00:21:56Jadi itu jelas masalah selera.
00:21:58Sekarang total token di sisi Cloud Code sekitar 175 ribu,
00:22:01dan itu memakan waktu sedikit lebih lama daripada 5.5 di dalam Codex.
00:22:05Sekarang mari kita lihat DeepSeek,
00:22:07yang telah mengambil 116 ribu token pada titik ini.
00:22:10Itu juga memakan waktu paling lama,
00:22:12tapi total biaya kita bicara lagi, di bawah satu dolar.
00:22:15Dan inilah yang diberikannya kepada kita.
00:22:17Jadi ini semacam hal bidang partikel
00:22:21yang agak mengikuti mouse saya.
00:22:25Menarik.
00:22:27Saya pikir itu mungkin bisa membuat Anda terkena kejang epilepsi.
00:22:29Jujur di luar itu, itu cukup hambar.
00:22:35Flux, Anda tahu, X-ray di sini agak mengubah warna,
00:22:39tapi ya, hampir hanya membuat hal ini.
00:22:43Setelah menyuruh DeepSeek untuk melakukan putaran lain,
00:22:45itu kemudian datang kembali dengan ini,
00:22:46di mana sekarang ia memiliki semacam efek paralaks yang aneh.
00:22:49Ada beberapa hal biru yang terjadi di latar belakang.
00:22:53Dan sekarang benda ini seperti UFO,
00:22:55yang agak merespons mouse Anda,
00:22:58tapi ya, itu sesuatu.
00:23:02Dan secara keseluruhan, jumlah token dari DeepSeek adalah 130 ribu token
00:23:05datang dengan harga $1,43.
00:23:08Jadi setelah semua tes itu, di mana itu sebenarnya meninggalkan kita?
00:23:13Jadi sekarang mari kita bicara tentang hasil akhir.
00:23:15Ketika berbicara tentang tes nomor satu,
00:23:16yaitu simulator penerbangan, pemenang yang jelas.
00:23:18Itu adalah GPT 5.5 di dalam Codex.
00:23:21Itu lebih cepat daripada Opus 4.7 di dalam Claude Code.
00:23:25Itu juga lebih cepat dan hasil akhirnya sejauh ini yang terbaik.
00:23:29DeepSeek berkinerja buruk di simulator penerbangan.
00:23:32Itu bahkan tidak mendekati apa yang kami coba lakukan.
00:23:34Saya harus terus memintanya,
00:23:35memintanya, memintanya agar setidaknya mendekati
00:23:38ke putaran pertama dari 5.5 dan Opus 4.7 dan Claude Code
00:23:43seperti, eh, itu tidak mengerikan.
00:23:46Seperti itu benar-benar tidak berhasil di awal,
00:23:48tapi setelah beberapa perintah, Anda bisa tahu,
00:23:50kita bisa membuatnya setara
00:23:52dengan apa yang dilakukan GPT 5.5.
00:23:54Itu akan membutuhkan lebih banyak perintah.
00:23:55Itu akan memakan lebih banyak waktu
00:23:57dan pada akhirnya akan lebih mahal.
00:23:59Jadi, pemenangnya jelas 5.5.
00:24:01Untuk urusan halaman arahan Web GPU,
00:24:03sekali lagi, DeepSeek kesulitan di sini.
00:24:04Saya tidak menyukainya.
00:24:06Saya tidak begitu mengerti apa maksudnya ini.
00:24:08Memang, saya tidak memberikan perintah yang sangat bagus,
00:24:10tapi apakah ini yang akan kita dapatkan
00:24:13sebagai hasil dasar rata-rata?
00:24:16Jika saya tidak mengendalikan DeepSeek dengan ketat
00:24:19dan benar-benar memaksanya melakukan sesuatu, sepertinya begitu.
00:24:22Sekarang, jika kita bandingkan Opus dan 5.5,
00:24:24saya akan memilih Opus 4.7 dan Claude Code
00:24:27terkait cara penanganan masalah Web GPU tersebut.
00:24:29Saya rasa itu lebih ke arah masalah selera.
00:24:31Ya, Anda bisa berargumen bahwa 5.5 lebih mencolok,
00:24:35tapi menurut saya itu agak jelek.
00:24:37Sekali lagi, dalam semua tes ini, kami menjaga perintah tetap agak samar
00:24:41untuk melihat jalur mana yang akan dipilihnya.
00:24:43Jadi saya jelas akan memberikan keunggulan pada Opus di sini,
00:24:46meskipun lebih mahal
00:24:48dan juga memakan waktu sedikit lebih lama.
00:24:50Jadi jika mereka diberikan perintah yang lebih praktis
00:24:55yang sangat spesifik tentang apa yang ingin dilakukan,
00:24:57karena 5.5 memang melakukan apa yang kita inginkan.
00:24:59Ya, ia memang membuat halaman arahan Web GPU.
00:25:02Saya hanya berpikir itu jelek.
00:25:04Jadi ia tetap menyelesaikan tugasnya.
00:25:06Hanya saja tidak menyelesaikannya sebaik Opus, menurut saya.
00:25:08Sekarang, gambaran besarnya, apa artinya
00:25:09jika kita menggabungkan semuanya?
00:25:11Yah, saya rasa itu kabar baik
00:25:13bagi siapa pun yang menggunakan decoder agen.
00:25:16Kita punya pilihan, kan?
00:25:18Anda bisa menggunakan Opus dan Claude Code,
00:25:20atau Anda bisa menggunakan GPT 5.5 dan Codec.
00:25:23Anda tidak akan salah memilih salah satunya.
00:25:25Saya pikir ini benar-benar masalah preferensi pribadi saat ini.
00:25:28Dan bagian terbaiknya adalah jika Anda menempuh rute Claude Code,
00:25:31itu semua hampir sepenuhnya berlaku untuk Codec.
00:25:33Jika Anda menempuh rute Codec,
00:25:34itu semua hampir sepenuhnya berlaku untuk Claude Code.
00:25:37Jadi saya tidak benar-benar merasa ada penguncian vendor seperti,
00:25:40oh, saya hanya belajar tentang Claude Code.
00:25:42Jadi saya tidak bisa beralih ke Codec atau sebaliknya.
00:25:44Itu sama sekali tidak benar.
00:25:45Jika Anda melakukan ini dengan cara yang benar,
00:25:46apa yang sebenarnya Anda pelajari adalah dasar-dasar AI
00:25:48dan cara membangun sesuatu.
00:25:49Dan itu berlaku untuk keduanya.
00:25:51Dan semakin banyak kompetisi,
00:25:53semakin baik bagi kita sebagai konsumen.
00:25:54Sekarang, soal DeepSeek, entahlah.
00:25:59Saya tidak terlalu terkesan.
00:26:00Ini mungkin situasi di mana, oke,
00:26:02DeepSeek masuk akal jika kita mengerjakan tugas-tugas yang lebih sederhana
00:26:04di mana kita tidak membutuhkan kekuatan seperti Opus,
00:26:06atau kita tidak membutuhkan kekuatan seperti GPT 5.5.
00:26:10Karena ingat, kita berbicara tentang sesuatu
00:26:11yang delapan kali lebih murah.
00:26:13Namun jelas itu adalah sesuatu yang perlu kita pertimbangkan.
00:26:16yang dibuatnya, tapi apakah hasilnya delapan kali lebih buruk?
00:26:19Mungkin, mungkin juga tidak.
00:26:21Agak sulit untuk benar-benar, Anda tahu,
00:26:23mengartikulasikan dan menguantifikasi itu.
00:26:24Tapi jelas itu adalah sesuatu yang perlu kita pertimbangkan.
00:26:27Jadi, sejujurnya saya rasa ini bukan kompetisi
00:26:30bagi 4.7 atau 5.5.
00:26:33Namun saya rasa, jika Anda mengerjakan tugas-tugas yang lebih sederhana
00:26:35dan Anda sangat sadar akan token, sangat sadar akan biaya,
00:26:38maka hei, mungkin DeepSeek masuk akal untuk Anda.
00:26:41Jadi hanya itu yang saya punya untuk kalian hari ini.
00:26:42Saya harap itu memberikan pencerahan tentang ketiga model ini
00:26:45dan bagaimana mereka dibandingkan satu sama lain.
00:26:47Saya pikir ini saat yang tepat untuk berada di bidang ini.
00:26:49Lebih banyak kompetisi lebih baik untuk semua orang.
00:26:51Jadi seperti biasa, jika Anda ingin mendapatkan akses
00:26:53ke Kelas Master Claude Code,
00:26:55pastikan untuk memeriksa Chase AI Plus.
00:26:56Tautan ke sana ada di deskripsi.
00:26:58Dan sampai jumpa lagi.