00:00:00Model terbaik baru telah hadir, Opus 4.7. Ini terlihat seperti pembaruan yang cukup bagus, tentu saja
00:00:05ia lebih baik dalam pemrograman tetapi juga memiliki peningkatan visi, verifikasi mandiri, dan konon
00:00:09lebih baik dalam membuat UI, menjadikannya lebih berselera dan kreatif.
00:00:12Namun kekurangannya adalah meskipun biayanya tidak berubah, tokenizer-nya berubah, jadi
00:00:17prompt input yang sama persis sekarang bisa menghabiskan hingga 35% lebih banyak token dan ia juga lebih banyak berpikir,
00:00:22jadi itu lebih banyak token untuk dibakar. Pasti ada beberapa detail yang sangat menarik dalam rilis ini
00:00:26dan mungkin ada perubahan yang ingin Anda buat pada Claude Code sekarang, jadi mari kita mulai, lihat apa yang
00:00:30baru dan mengujinya.
00:00:31Sekarang saya sebenarnya akan mulai dengan benchmark karena saya agak berbohong tadi ketika mengatakan ini
00:00:40adalah model terbaik yang baru. Ini adalah yang terbaik yang tersedia secara publik, tetapi benchmark ini juga mencakup
00:00:44Mythos, model yang begitu kuat sehingga kita belum diizinkan untuk menggunakannya.
00:00:47Menurut Anthropic, Opus 4.7 sebenarnya sedang menguji pengamanan siber baru untuk memblokir permintaan
00:00:52yang mengindikasikan penggunaan keamanan siber yang dilarang atau berisiko tinggi, dan apa yang mereka pelajari dari hal itu
00:00:56akan membantu mereka bekerja menuju rilis luas model kelas Mythos, jadi semoga di masa depan
00:01:00saya bisa membuat video tentang rilis Mythos dan bagaimana itu adalah akhir dari pengembangan perangkat lunak
00:01:03seperti yang kita kenal. Jadi berlanggananlah jika Anda tidak ingin melewatkan itu.
00:01:06Untuk saat ini saya akan mengabaikan Mythos dan fokus pada yang sebenarnya bisa kita gunakan yaitu
00:01:10Opus 4.7, dan ini sebenarnya telah membuat kemajuan besar pada benchmark.
00:01:13Sekarang saya tidak akan menjelaskan terlalu detail tentang ini dan Anda bisa menjeda layar jika ingin
00:01:16membaca satu per satu. Anda bisa melihat pada benchmark seperti SWE Bench Pro, ia sebenarnya melompat 10%
00:01:21di atas Opus 4.6, dan pada versi verified ia naik 7%, dan pola itu berlanjut
00:01:26untuk sisa benchmark lainnya kecuali dalam keamanan siber di mana ia sebenarnya sedikit turun, tampaknya
00:01:30terkait dengan pengamanan yang saya sebutkan tadi, sepertinya mereka sengaja
00:01:34menjaga skor ini tetap rendah untuk mencoba menyelamatkan dunia atau semacamnya.
00:01:37Saya juga menemukan benchmark yang sangat menarik di kartu sistem tersebut yang menunjukkan bahwa
00:01:40performa konteks panjang tampaknya merosot dibandingkan dengan Opus 4.6 saat menggunakan
00:01:45tes needle-in-a-haystack, jadi saya cukup penasaran bagaimana hal itu akan memengaruhi penggunaan sebenarnya
00:01:50seiring waktu. Di luar benchmark, ada juga beberapa peningkatan penting lainnya yang bahkan
00:01:54mungkin mengubah cara Anda menggunakan Claude. Yang pertama adalah ia memiliki kepatuhan instruksi yang lebih baik
00:01:58yang berarti Anda mungkin mendapatkan hasil yang tidak terduga dengan prompt yang sudah Anda gunakan
00:02:01sebelumnya, karena model lama menafsirkan instruksi secara longgar atau melewatkan beberapa bagian, sedangkan Opus 4.7
00:02:07sangat fokus pada mengikuti instruksi secara harfiah, jadi Anda mungkin perlu melakukan beberapa penyesuaian prompt.
00:02:11Selanjutnya, ia memiliki dukungan multimodal yang ditingkatkan sehingga dapat menerima gambar resolusi lebih tinggi
00:02:16tiga kali lipat dari model lama, sehingga ini seharusnya membuatnya lebih baik dalam tugas-tugas seperti penggunaan komputer dan
00:02:20ekstraksi data. Penggunaan memorinya juga meningkat sehingga Opus 4.7 seharusnya lebih baik dalam menggunakan memori
00:02:25berbasis sistem file di mana ia mengingat catatan penting di seluruh pekerjaan multi-sesi yang panjang dan menggunakan
00:02:30catatan itu untuk beralih ke tugas baru yang akibatnya membutuhkan lebih sedikit konteks awal. Jadi mungkin itu akan
00:02:34menghemat beberapa token bagi saya, yang cukup penting sekarang karena perubahan berikutnya adalah pada tokenizer
00:02:39dan proses berpikir. Opus 4.7 menggunakan tokenizer yang diperbarui yang meningkatkan cara model memproses teks
00:02:45tetapi itu juga berarti prompt input yang sama dapat memakan biaya hingga 35% lebih banyak token, dan ketika Anda
00:02:49menggabungkan ini dengan fakta bahwa Opus 4.7 lebih banyak berpikir pada tingkat upaya yang lebih tinggi, model ini
00:02:54benar-benar akan membakar banyak token. Untuk memperburuk keadaan, ada juga tingkat
00:02:58upaya ekstra tinggi yang baru, dan itu sebenarnya disetel sebagai standar di Claude Code, jadi saya sangat menyarankan
00:03:02Anda pergi dan menguji berbagai tingkat upaya tersebut dan temukan yang paling cocok untuk Anda untuk melihat
00:03:05apakah Anda mungkin bisa menurunkannya tanpa menyadari adanya dampak. Sebagai perbandingan, tingkat
00:03:09upaya ekstra tinggi yang baru menggunakan jumlah token yang kira-kira sama dengan tingkat upaya maksimal Opus 4.6,
00:03:14dan tingkat upaya tinggi Opus 4.7 sebenarnya mengungguli tingkat upaya maksimal Opus 4.6 dengan
00:03:19token yang lebih sedikit digunakan. Jadi jika Anda sudah merasa nyaman dengan apa yang Anda miliki sebelumnya, saya akan menggunakan grafik itu
00:03:24untuk membandingkan, karena bagi saya, saya mungkin akan mengubah ini menjadi menggunakan tingkat upaya tinggi
00:03:27dalam banyak kasus. Dengan ringkasan apa yang baru sudah selesai, saya akan menghabiskan
00:03:31kuota saya dan menguji ini. Hal pertama yang akan saya periksa adalah apakah ia lebih baik dalam desain UI
00:03:35jadi saya memberinya prompt yang sangat sederhana untuk membuat situs web kafe hanya dengan index.html saja, dan
00:03:40saya menggunakan tingkat upaya maksimal pada semua model yang saya uji, jadi saya akan mencoba ini
00:03:43di Opus 4.7, 4.6, Gemini 3.1, dan GPT 5.4. Ini adalah hasil yang saya dapatkan dari Opus 4.7
00:03:51dan menurut saya ini terlihat cukup bagus, memiliki nuansa kafe yang menyenangkan, menggunakan
00:03:55font yang bagus, dan mengambil gambar dari Unsplash di sini. Secara keseluruhan saya tidak bisa mengeluh, ini
00:03:59situs web yang cukup sederhana, memiliki bagian menu yang bagus, semuanya responsif dan secara keseluruhan
00:04:04ya, saya katakan ini terlihat cukup bagus. Jika kita membandingkan ini dengan apa yang diberikan Opus 4.6, Anda bisa melihat ia
00:04:09memilih gaya yang sedikit berbeda di sini tetapi memiliki font yang serupa dan bagian menu yang serupa
00:04:12dan secara keseluruhan sedikit lebih buruk menurut saya hanya karena ia tidak menggunakan latar belakang
00:04:16yang bagus di sini dan gradien ini bukan peralihan yang bagus sama sekali, tetapi tetap tidak bisa mengeluh
00:04:20terlalu banyak, saya katakan Opus 4.7 hanya sedikit selangkah di atas ini. Gemini 3.1 di sisi
00:04:25lain, menurut saya memberi saya hasil terbaik, setidaknya ini favorit saya, jadi beri tahu saya di
00:04:29kolom komentar di bawah mana yang jadi favorit Anda. Saya sangat suka karena ia memiliki latar belakang yang tidak
00:04:33bergerak saat kita menggulir. Saya pikir ia melakukannya dengan sangat baik pada bagian gambar di bagian
00:04:36kisah kami, menunya terlihat mirip dengan yang lain tetapi sekali lagi menurut saya ini ditata
00:04:40dengan bagus, begitu juga dengan footer-nya, jadi menurut saya 3.1 menang dalam hal ini bagi saya. Datang
00:04:45di posisi terakhir adalah GPT 5.4, ini benar-benar memiliki tampilan dan nuansa khas GPT
00:04:50ia sangat suka kartu seperti ini yang memiliki efek blur yang bagus, dan ini bukan
00:04:55situs web kafe yang bagus menurut saya, ini hanya terlihat seperti setiap aplikasi GPT lain yang pernah saya lihat, jadi
00:04:59Opus 4.7 pasti bagus dalam UI dan kemungkinan akan menanganinya lebih baik lagi jika diberikan
00:05:04arahan lebih lanjut. Saat ini di arena desain, Opus 4.6 sebenarnya memimpin untuk situs web,
00:05:09jadi saya berharap 4.7 akan menggantikan posisinya. Sekarang jelas tes itu cukup sederhana,
00:05:13jadi selanjutnya saya akan memberi mereka semua tugas yang lebih canggih. Anda bisa melihat di sini di Claude Code,
00:05:17dengan Opus 4.6 saya meminta dasbor manajemen keuangan pribadi yang menawarkan
00:05:21gambaran detail kesehatan keuangan individu dengan banyak fitur yang saya sertakan dalam
00:05:25prompt di sini dan saya tidak memberikan indikasi stack apa yang harus digunakannya, ia akan
00:05:30memilih semua itu dan mulai dari awal. Pertama ada hasil dari Opus 4.7 dan
00:05:34ia melakukan ini semua dalam satu prompt dalam waktu sekitar 20 menit dan reaksi awal saya hanyalah
00:05:39wah, ini terlihat sangat bagus, UI-nya sangat bersih, memiliki grafik yang sangat bagus di sini, semuanya
00:05:44ditata dengan rapi, menggunakan skema warna yang bagus, dan sejujurnya tidak banyak
00:05:48yang akan saya tingkatkan sendiri, ia telah melakukan pekerjaan yang fantastis di sisi UI
00:05:53dan juga memiliki semua halaman individual yang saya minta, kita bisa melihat semua akun kita,
00:05:57kita bisa melihat transaksi dan anggaran kita, kita sebenarnya tidak bisa menambahkan anggaran baru saat ini,
00:06:02sepertinya itu bukan sebuah fitur, begitu juga dengan target tabungan, tetapi kita bisa
00:06:05menambah ke target kita di sini dan angkanya memang naik serta memperbarui API back-end
00:06:10yang ia buat, dan hal yang sama berlaku jika kita mengirim uang ke orang lain juga, jadi jika saya
00:06:14mengetes pembayaran langganan Claude Code saya di sini, ini seharusnya terkirim dengan sukses dan saya bisa
00:06:17melihatnya telah dikirim dan kembali di dasbor kekayaan bersih saya telah diperbarui dengan transaksi tersebut
00:06:22jadi semuanya berfungsi di sana dan ia menggunakan database di back-end dan kita juga
00:06:26melihatnya muncul di transaksi terbaru kita. Melihat kode yang mereka hasilkan, semuanya
00:06:30terlihat cukup bagus, ia menggunakan React dan Vite untuk front-end saya, hal yang sama yang akan saya
00:06:34lakukan, dan ia juga menggunakan React Router, mungkin saya akan menggunakan TanStack tetapi itu tidak terlalu
00:06:38bermasalah, keduanya adalah pilihan yang cukup bagus. Di semua ini Anda bisa melihat semuanya tertata
00:06:42rapi, kita punya semua komponen UI individual, secara keseluruhan front-end-nya dilakukan dengan cukup baik.
00:06:46Hal yang akan saya beri nilai kurang adalah di bagian back-end karena kita menggunakan
00:06:51server Express, tidak ada yang salah dengan itu tapi saya mungkin akan memilih sesuatu
00:06:54seperti Bun atau Hono mengingat betapa sederhananya aplikasi ini, dan juga cara ia sebenarnya
00:06:59menyimpan data ini semuanya di memori, jadi jika sekarang saya mematikan layanan back-end dan menyalakannya
00:07:04lagi, ia akan memuat data dari skrip seed ini dan ini hanyalah
00:07:08array lokal, ia tidak memiliki database untuk mencadangkan ini. Berlanjut ke hasil Opus 4.6,
00:07:13saya harus katakan segera bahwa Opus 4.7 pasti melakukan pekerjaan yang lebih baik dalam hal desain UI,
00:07:18ada sesuatu tentang UI ini yang tidak terlalu saya sukai, saya tidak tahu apakah itu karena
00:07:21terlalu banyak padding atau fakta bahwa ini dalam mode terang sedangkan yang satunya tadi
00:07:24dalam mode gelap, saya jelas lebih suka yang Opus 4.7 secara keseluruhan. Ia memiliki komponen yang cukup serupa
00:07:29Anda bisa melihat kita punya kartu dengan kekayaan bersih kita, kita punya grafik tren kekayaan bersih,
00:07:33transaksi terbaru, dan target keuangan kita, dan kita juga punya halaman individual untuk melacak
00:07:38ini juga. Selain UI kita juga bisa mencoba beberapa fitur, jadi saya akan tambah transaksi
00:07:42baru di sini, yang ini akan sebesar seratus lima puluh dolar untuk belanja bulanan,
00:07:46terlihat kita mendapat pembaruan di sini dan juga kembali di dasbor kekayaan bersih saya diperbarui
00:07:50jadi tampaknya berfungsi di sana. Satu hal di mana Opus 4.6 mungkin sebenarnya mengalahkan Opus
00:07:544.7 dalam satu prompt adalah saya bisa menambah akun di sini, jadi saya baru saja menambah akun ini
00:07:58dan hal yang sama berlaku untuk target dan anggaran, jadi saya juga menambah anggaran pendidikan,
00:08:03jadi sepertinya Opus 4.6 menambahkan beberapa fitur lagi tetapi sejujurnya saya tinggal
00:08:07meminta Opus 4.7 untuk menambahkannya bagi saya, jelas biasanya Anda tidak akan melakukan satu prompt saja.
00:08:12Melihat kodenya, Opus 4.6 mengambil rute yang sama dengan aplikasi Vite React tetapi
00:08:16satu hal menarik yang baru saja saya sadari adalah ini menggunakan React 19 dan React Router
00:08:20DOM 7 sedangkan Opus 4.7 menggunakan React 18 dan juga React Router 6 meskipun saya cukup
00:08:27yakin Opus 4.7 memiliki batas pengetahuan yang lebih baru. Selain itu, kemenangan lain untuk Opus 4.6 adalah
00:08:32ia menggunakan database untuk back-end sehingga datanya akan tersimpan, Anda bisa melihat ia menggunakan
00:08:36SQLite di sini dan kita punya beberapa databasenya, jadi itu jelas sebuah kemenangan, tapi di mana
00:08:40ia kalah adalah ia tampaknya menggunakan JavaScript untuk semua proyek ini sedangkan Opus 4.7 dengan benar
00:08:45menggunakan TypeScript. Berikutnya ada hasil dari GPT 5.4 dan sejujurnya saya tidak
00:08:50tahu apa yang dilakukannya di sini, ini bukan UI yang bisa digunakan, ini terlihat sangat buruk menurut saya, semuanya
00:08:55sangat berantakan, saya tidak suka font-nya dan ya saya tidak akan menghabiskan
00:08:59banyak waktu untuk ini, ini terlihat jauh lebih buruk daripada yang Claude. Saya bisa konfirmasi
00:09:03bahwa itu berfungsi ketika kita menambah uang kecuali ia me-refresh seluruh halaman juga, itu
00:09:07tidak menjadi jauh lebih baik di kodenya juga, tampaknya GPT 5.4 hanya tidak ingin memulai
00:09:11proyek penuh dari ini jadi ia hanya menggunakan pendekatan yang sangat sederhana di mana kita hanya punya
00:09:14index.html, file JavaScript kita, dan gaya kita, dan untuk database-nya itu juga hanya
00:09:19skrip JavaScript tunggal saja, ia tidak benar-benar menggunakan database, ia melakukan semuanya
00:09:23di memori seperti Opus 4.7 dan sekali lagi ia juga menggunakan JavaScript untuk semuanya alih-alih
00:09:28TypeScript. Adapun Gemini 3.1 sejujurnya saya mengalami banyak masalah saat mencoba menjalankan
00:09:32aplikasi ini dan sebenarnya harus mengirim beberapa prompt tindak lanjut hanya karena saya penasaran
00:09:36seperti apa tampilannya sebenarnya dan ini agak terlihat persis seperti yang Opus 4.6, saya tidak
00:09:41tahu apakah mereka memiliki data pelatihan yang sama saat mereka membuat UI-nya, tetapi sangat mirip
00:09:45dan tidak ada fitur ini yang benar-benar berfungsi dan tidak ada tab ini yang bisa diklik. Gemini 3.1
00:09:50mungkin melakukan yang terburuk meskipun 5.4 juga bersaing di sana hanya karena cara ia membuat
00:09:54aplikasinya. Saya akan katakan Gemini 3.1 sebenarnya mencoba mengambil pendekatan yang baik, ia sebenarnya
00:09:59menggunakan Next.js alih-alih React Router yang merupakan ide bagus karena itu berarti Anda
00:10:02bisa menggunakan rute server API dan ini adalah aplikasi yang cukup sederhana jadi saya tidak keberatan melakukan
00:10:07itu, tetapi saya akan katakan ia menggunakan Prisma padahal saya lebih suka sesuatu seperti Drizzle.
00:10:10Tes-tes ini jujur mengejutkan saya karena sampai sekarang saya adalah pengguna berat Codex
00:10:15dan saya sudah beralih dari Claude Code, tapi Opus 4.7 mungkin akan menarik saya kembali karena ia memiliki
00:10:19desain UI yang sangat bagus dan sebagian besar aplikasinya tampaknya berfungsi. Tentu saja itu tergantung
00:10:24pada kualitas prompt dan saya tadi memberikan prompt yang cukup samar tentang stack-nya, biasanya saya akan memberikan prompt
00:10:28dengan hal-hal tepat yang saya inginkan tapi tetap saja saya cukup terkesan dengan hasil yang
00:10:32kita dapatkan di sini. Saya penasaran apa pendapat Anda, model apa pilihan Anda saat ini, beri tahu
00:10:36saya di deskripsi di bawah selagi Anda di sana, berlanggananlah, dan seperti biasa sampai jumpa di
00:10:49video berikutnya.