Opus 4.7 SANGAT Mantap (kecuali boros tokennya)

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Model terbaik baru telah hadir, Opus 4.7. Ini terlihat seperti pembaruan yang cukup bagus, tentu saja
00:00:05ia lebih baik dalam pemrograman tetapi juga memiliki peningkatan visi, verifikasi mandiri, dan konon
00:00:09lebih baik dalam membuat UI, menjadikannya lebih berselera dan kreatif.
00:00:12Namun kekurangannya adalah meskipun biayanya tidak berubah, tokenizer-nya berubah, jadi
00:00:17prompt input yang sama persis sekarang bisa menghabiskan hingga 35% lebih banyak token dan ia juga lebih banyak berpikir,
00:00:22jadi itu lebih banyak token untuk dibakar. Pasti ada beberapa detail yang sangat menarik dalam rilis ini
00:00:26dan mungkin ada perubahan yang ingin Anda buat pada Claude Code sekarang, jadi mari kita mulai, lihat apa yang
00:00:30baru dan mengujinya.
00:00:31Sekarang saya sebenarnya akan mulai dengan benchmark karena saya agak berbohong tadi ketika mengatakan ini
00:00:40adalah model terbaik yang baru. Ini adalah yang terbaik yang tersedia secara publik, tetapi benchmark ini juga mencakup
00:00:44Mythos, model yang begitu kuat sehingga kita belum diizinkan untuk menggunakannya.
00:00:47Menurut Anthropic, Opus 4.7 sebenarnya sedang menguji pengamanan siber baru untuk memblokir permintaan
00:00:52yang mengindikasikan penggunaan keamanan siber yang dilarang atau berisiko tinggi, dan apa yang mereka pelajari dari hal itu
00:00:56akan membantu mereka bekerja menuju rilis luas model kelas Mythos, jadi semoga di masa depan
00:01:00saya bisa membuat video tentang rilis Mythos dan bagaimana itu adalah akhir dari pengembangan perangkat lunak
00:01:03seperti yang kita kenal. Jadi berlanggananlah jika Anda tidak ingin melewatkan itu.
00:01:06Untuk saat ini saya akan mengabaikan Mythos dan fokus pada yang sebenarnya bisa kita gunakan yaitu
00:01:10Opus 4.7, dan ini sebenarnya telah membuat kemajuan besar pada benchmark.
00:01:13Sekarang saya tidak akan menjelaskan terlalu detail tentang ini dan Anda bisa menjeda layar jika ingin
00:01:16membaca satu per satu. Anda bisa melihat pada benchmark seperti SWE Bench Pro, ia sebenarnya melompat 10%
00:01:21di atas Opus 4.6, dan pada versi verified ia naik 7%, dan pola itu berlanjut
00:01:26untuk sisa benchmark lainnya kecuali dalam keamanan siber di mana ia sebenarnya sedikit turun, tampaknya
00:01:30terkait dengan pengamanan yang saya sebutkan tadi, sepertinya mereka sengaja
00:01:34menjaga skor ini tetap rendah untuk mencoba menyelamatkan dunia atau semacamnya.
00:01:37Saya juga menemukan benchmark yang sangat menarik di kartu sistem tersebut yang menunjukkan bahwa
00:01:40performa konteks panjang tampaknya merosot dibandingkan dengan Opus 4.6 saat menggunakan
00:01:45tes needle-in-a-haystack, jadi saya cukup penasaran bagaimana hal itu akan memengaruhi penggunaan sebenarnya
00:01:50seiring waktu. Di luar benchmark, ada juga beberapa peningkatan penting lainnya yang bahkan
00:01:54mungkin mengubah cara Anda menggunakan Claude. Yang pertama adalah ia memiliki kepatuhan instruksi yang lebih baik
00:01:58yang berarti Anda mungkin mendapatkan hasil yang tidak terduga dengan prompt yang sudah Anda gunakan
00:02:01sebelumnya, karena model lama menafsirkan instruksi secara longgar atau melewatkan beberapa bagian, sedangkan Opus 4.7
00:02:07sangat fokus pada mengikuti instruksi secara harfiah, jadi Anda mungkin perlu melakukan beberapa penyesuaian prompt.
00:02:11Selanjutnya, ia memiliki dukungan multimodal yang ditingkatkan sehingga dapat menerima gambar resolusi lebih tinggi
00:02:16tiga kali lipat dari model lama, sehingga ini seharusnya membuatnya lebih baik dalam tugas-tugas seperti penggunaan komputer dan
00:02:20ekstraksi data. Penggunaan memorinya juga meningkat sehingga Opus 4.7 seharusnya lebih baik dalam menggunakan memori
00:02:25berbasis sistem file di mana ia mengingat catatan penting di seluruh pekerjaan multi-sesi yang panjang dan menggunakan
00:02:30catatan itu untuk beralih ke tugas baru yang akibatnya membutuhkan lebih sedikit konteks awal. Jadi mungkin itu akan
00:02:34menghemat beberapa token bagi saya, yang cukup penting sekarang karena perubahan berikutnya adalah pada tokenizer
00:02:39dan proses berpikir. Opus 4.7 menggunakan tokenizer yang diperbarui yang meningkatkan cara model memproses teks
00:02:45tetapi itu juga berarti prompt input yang sama dapat memakan biaya hingga 35% lebih banyak token, dan ketika Anda
00:02:49menggabungkan ini dengan fakta bahwa Opus 4.7 lebih banyak berpikir pada tingkat upaya yang lebih tinggi, model ini
00:02:54benar-benar akan membakar banyak token. Untuk memperburuk keadaan, ada juga tingkat
00:02:58upaya ekstra tinggi yang baru, dan itu sebenarnya disetel sebagai standar di Claude Code, jadi saya sangat menyarankan
00:03:02Anda pergi dan menguji berbagai tingkat upaya tersebut dan temukan yang paling cocok untuk Anda untuk melihat
00:03:05apakah Anda mungkin bisa menurunkannya tanpa menyadari adanya dampak. Sebagai perbandingan, tingkat
00:03:09upaya ekstra tinggi yang baru menggunakan jumlah token yang kira-kira sama dengan tingkat upaya maksimal Opus 4.6,
00:03:14dan tingkat upaya tinggi Opus 4.7 sebenarnya mengungguli tingkat upaya maksimal Opus 4.6 dengan
00:03:19token yang lebih sedikit digunakan. Jadi jika Anda sudah merasa nyaman dengan apa yang Anda miliki sebelumnya, saya akan menggunakan grafik itu
00:03:24untuk membandingkan, karena bagi saya, saya mungkin akan mengubah ini menjadi menggunakan tingkat upaya tinggi
00:03:27dalam banyak kasus. Dengan ringkasan apa yang baru sudah selesai, saya akan menghabiskan
00:03:31kuota saya dan menguji ini. Hal pertama yang akan saya periksa adalah apakah ia lebih baik dalam desain UI
00:03:35jadi saya memberinya prompt yang sangat sederhana untuk membuat situs web kafe hanya dengan index.html saja, dan
00:03:40saya menggunakan tingkat upaya maksimal pada semua model yang saya uji, jadi saya akan mencoba ini
00:03:43di Opus 4.7, 4.6, Gemini 3.1, dan GPT 5.4. Ini adalah hasil yang saya dapatkan dari Opus 4.7
00:03:51dan menurut saya ini terlihat cukup bagus, memiliki nuansa kafe yang menyenangkan, menggunakan
00:03:55font yang bagus, dan mengambil gambar dari Unsplash di sini. Secara keseluruhan saya tidak bisa mengeluh, ini
00:03:59situs web yang cukup sederhana, memiliki bagian menu yang bagus, semuanya responsif dan secara keseluruhan
00:04:04ya, saya katakan ini terlihat cukup bagus. Jika kita membandingkan ini dengan apa yang diberikan Opus 4.6, Anda bisa melihat ia
00:04:09memilih gaya yang sedikit berbeda di sini tetapi memiliki font yang serupa dan bagian menu yang serupa
00:04:12dan secara keseluruhan sedikit lebih buruk menurut saya hanya karena ia tidak menggunakan latar belakang
00:04:16yang bagus di sini dan gradien ini bukan peralihan yang bagus sama sekali, tetapi tetap tidak bisa mengeluh
00:04:20terlalu banyak, saya katakan Opus 4.7 hanya sedikit selangkah di atas ini. Gemini 3.1 di sisi
00:04:25lain, menurut saya memberi saya hasil terbaik, setidaknya ini favorit saya, jadi beri tahu saya di
00:04:29kolom komentar di bawah mana yang jadi favorit Anda. Saya sangat suka karena ia memiliki latar belakang yang tidak
00:04:33bergerak saat kita menggulir. Saya pikir ia melakukannya dengan sangat baik pada bagian gambar di bagian
00:04:36kisah kami, menunya terlihat mirip dengan yang lain tetapi sekali lagi menurut saya ini ditata
00:04:40dengan bagus, begitu juga dengan footer-nya, jadi menurut saya 3.1 menang dalam hal ini bagi saya. Datang
00:04:45di posisi terakhir adalah GPT 5.4, ini benar-benar memiliki tampilan dan nuansa khas GPT
00:04:50ia sangat suka kartu seperti ini yang memiliki efek blur yang bagus, dan ini bukan
00:04:55situs web kafe yang bagus menurut saya, ini hanya terlihat seperti setiap aplikasi GPT lain yang pernah saya lihat, jadi
00:04:59Opus 4.7 pasti bagus dalam UI dan kemungkinan akan menanganinya lebih baik lagi jika diberikan
00:05:04arahan lebih lanjut. Saat ini di arena desain, Opus 4.6 sebenarnya memimpin untuk situs web,
00:05:09jadi saya berharap 4.7 akan menggantikan posisinya. Sekarang jelas tes itu cukup sederhana,
00:05:13jadi selanjutnya saya akan memberi mereka semua tugas yang lebih canggih. Anda bisa melihat di sini di Claude Code,
00:05:17dengan Opus 4.6 saya meminta dasbor manajemen keuangan pribadi yang menawarkan
00:05:21gambaran detail kesehatan keuangan individu dengan banyak fitur yang saya sertakan dalam
00:05:25prompt di sini dan saya tidak memberikan indikasi stack apa yang harus digunakannya, ia akan
00:05:30memilih semua itu dan mulai dari awal. Pertama ada hasil dari Opus 4.7 dan
00:05:34ia melakukan ini semua dalam satu prompt dalam waktu sekitar 20 menit dan reaksi awal saya hanyalah
00:05:39wah, ini terlihat sangat bagus, UI-nya sangat bersih, memiliki grafik yang sangat bagus di sini, semuanya
00:05:44ditata dengan rapi, menggunakan skema warna yang bagus, dan sejujurnya tidak banyak
00:05:48yang akan saya tingkatkan sendiri, ia telah melakukan pekerjaan yang fantastis di sisi UI
00:05:53dan juga memiliki semua halaman individual yang saya minta, kita bisa melihat semua akun kita,
00:05:57kita bisa melihat transaksi dan anggaran kita, kita sebenarnya tidak bisa menambahkan anggaran baru saat ini,
00:06:02sepertinya itu bukan sebuah fitur, begitu juga dengan target tabungan, tetapi kita bisa
00:06:05menambah ke target kita di sini dan angkanya memang naik serta memperbarui API back-end
00:06:10yang ia buat, dan hal yang sama berlaku jika kita mengirim uang ke orang lain juga, jadi jika saya
00:06:14mengetes pembayaran langganan Claude Code saya di sini, ini seharusnya terkirim dengan sukses dan saya bisa
00:06:17melihatnya telah dikirim dan kembali di dasbor kekayaan bersih saya telah diperbarui dengan transaksi tersebut
00:06:22jadi semuanya berfungsi di sana dan ia menggunakan database di back-end dan kita juga
00:06:26melihatnya muncul di transaksi terbaru kita. Melihat kode yang mereka hasilkan, semuanya
00:06:30terlihat cukup bagus, ia menggunakan React dan Vite untuk front-end saya, hal yang sama yang akan saya
00:06:34lakukan, dan ia juga menggunakan React Router, mungkin saya akan menggunakan TanStack tetapi itu tidak terlalu
00:06:38bermasalah, keduanya adalah pilihan yang cukup bagus. Di semua ini Anda bisa melihat semuanya tertata
00:06:42rapi, kita punya semua komponen UI individual, secara keseluruhan front-end-nya dilakukan dengan cukup baik.
00:06:46Hal yang akan saya beri nilai kurang adalah di bagian back-end karena kita menggunakan
00:06:51server Express, tidak ada yang salah dengan itu tapi saya mungkin akan memilih sesuatu
00:06:54seperti Bun atau Hono mengingat betapa sederhananya aplikasi ini, dan juga cara ia sebenarnya
00:06:59menyimpan data ini semuanya di memori, jadi jika sekarang saya mematikan layanan back-end dan menyalakannya
00:07:04lagi, ia akan memuat data dari skrip seed ini dan ini hanyalah
00:07:08array lokal, ia tidak memiliki database untuk mencadangkan ini. Berlanjut ke hasil Opus 4.6,
00:07:13saya harus katakan segera bahwa Opus 4.7 pasti melakukan pekerjaan yang lebih baik dalam hal desain UI,
00:07:18ada sesuatu tentang UI ini yang tidak terlalu saya sukai, saya tidak tahu apakah itu karena
00:07:21terlalu banyak padding atau fakta bahwa ini dalam mode terang sedangkan yang satunya tadi
00:07:24dalam mode gelap, saya jelas lebih suka yang Opus 4.7 secara keseluruhan. Ia memiliki komponen yang cukup serupa
00:07:29Anda bisa melihat kita punya kartu dengan kekayaan bersih kita, kita punya grafik tren kekayaan bersih,
00:07:33transaksi terbaru, dan target keuangan kita, dan kita juga punya halaman individual untuk melacak
00:07:38ini juga. Selain UI kita juga bisa mencoba beberapa fitur, jadi saya akan tambah transaksi
00:07:42baru di sini, yang ini akan sebesar seratus lima puluh dolar untuk belanja bulanan,
00:07:46terlihat kita mendapat pembaruan di sini dan juga kembali di dasbor kekayaan bersih saya diperbarui
00:07:50jadi tampaknya berfungsi di sana. Satu hal di mana Opus 4.6 mungkin sebenarnya mengalahkan Opus
00:07:544.7 dalam satu prompt adalah saya bisa menambah akun di sini, jadi saya baru saja menambah akun ini
00:07:58dan hal yang sama berlaku untuk target dan anggaran, jadi saya juga menambah anggaran pendidikan,
00:08:03jadi sepertinya Opus 4.6 menambahkan beberapa fitur lagi tetapi sejujurnya saya tinggal
00:08:07meminta Opus 4.7 untuk menambahkannya bagi saya, jelas biasanya Anda tidak akan melakukan satu prompt saja.
00:08:12Melihat kodenya, Opus 4.6 mengambil rute yang sama dengan aplikasi Vite React tetapi
00:08:16satu hal menarik yang baru saja saya sadari adalah ini menggunakan React 19 dan React Router
00:08:20DOM 7 sedangkan Opus 4.7 menggunakan React 18 dan juga React Router 6 meskipun saya cukup
00:08:27yakin Opus 4.7 memiliki batas pengetahuan yang lebih baru. Selain itu, kemenangan lain untuk Opus 4.6 adalah
00:08:32ia menggunakan database untuk back-end sehingga datanya akan tersimpan, Anda bisa melihat ia menggunakan
00:08:36SQLite di sini dan kita punya beberapa databasenya, jadi itu jelas sebuah kemenangan, tapi di mana
00:08:40ia kalah adalah ia tampaknya menggunakan JavaScript untuk semua proyek ini sedangkan Opus 4.7 dengan benar
00:08:45menggunakan TypeScript. Berikutnya ada hasil dari GPT 5.4 dan sejujurnya saya tidak
00:08:50tahu apa yang dilakukannya di sini, ini bukan UI yang bisa digunakan, ini terlihat sangat buruk menurut saya, semuanya
00:08:55sangat berantakan, saya tidak suka font-nya dan ya saya tidak akan menghabiskan
00:08:59banyak waktu untuk ini, ini terlihat jauh lebih buruk daripada yang Claude. Saya bisa konfirmasi
00:09:03bahwa itu berfungsi ketika kita menambah uang kecuali ia me-refresh seluruh halaman juga, itu
00:09:07tidak menjadi jauh lebih baik di kodenya juga, tampaknya GPT 5.4 hanya tidak ingin memulai
00:09:11proyek penuh dari ini jadi ia hanya menggunakan pendekatan yang sangat sederhana di mana kita hanya punya
00:09:14index.html, file JavaScript kita, dan gaya kita, dan untuk database-nya itu juga hanya
00:09:19skrip JavaScript tunggal saja, ia tidak benar-benar menggunakan database, ia melakukan semuanya
00:09:23di memori seperti Opus 4.7 dan sekali lagi ia juga menggunakan JavaScript untuk semuanya alih-alih
00:09:28TypeScript. Adapun Gemini 3.1 sejujurnya saya mengalami banyak masalah saat mencoba menjalankan
00:09:32aplikasi ini dan sebenarnya harus mengirim beberapa prompt tindak lanjut hanya karena saya penasaran
00:09:36seperti apa tampilannya sebenarnya dan ini agak terlihat persis seperti yang Opus 4.6, saya tidak
00:09:41tahu apakah mereka memiliki data pelatihan yang sama saat mereka membuat UI-nya, tetapi sangat mirip
00:09:45dan tidak ada fitur ini yang benar-benar berfungsi dan tidak ada tab ini yang bisa diklik. Gemini 3.1
00:09:50mungkin melakukan yang terburuk meskipun 5.4 juga bersaing di sana hanya karena cara ia membuat
00:09:54aplikasinya. Saya akan katakan Gemini 3.1 sebenarnya mencoba mengambil pendekatan yang baik, ia sebenarnya
00:09:59menggunakan Next.js alih-alih React Router yang merupakan ide bagus karena itu berarti Anda
00:10:02bisa menggunakan rute server API dan ini adalah aplikasi yang cukup sederhana jadi saya tidak keberatan melakukan
00:10:07itu, tetapi saya akan katakan ia menggunakan Prisma padahal saya lebih suka sesuatu seperti Drizzle.
00:10:10Tes-tes ini jujur mengejutkan saya karena sampai sekarang saya adalah pengguna berat Codex
00:10:15dan saya sudah beralih dari Claude Code, tapi Opus 4.7 mungkin akan menarik saya kembali karena ia memiliki
00:10:19desain UI yang sangat bagus dan sebagian besar aplikasinya tampaknya berfungsi. Tentu saja itu tergantung
00:10:24pada kualitas prompt dan saya tadi memberikan prompt yang cukup samar tentang stack-nya, biasanya saya akan memberikan prompt
00:10:28dengan hal-hal tepat yang saya inginkan tapi tetap saja saya cukup terkesan dengan hasil yang
00:10:32kita dapatkan di sini. Saya penasaran apa pendapat Anda, model apa pilihan Anda saat ini, beri tahu
00:10:36saya di deskripsi di bawah selagi Anda di sana, berlanggananlah, dan seperti biasa sampai jumpa di
00:10:49video berikutnya.

Key Takeaway

Opus 4.7 menawarkan peningkatan signifikan dalam desain UI dan kepatuhan instruksi harfiah, meskipun biaya operasional meningkat hingga 35% akibat perubahan tokenizer dan proses berpikir yang lebih intensif.

Highlights

Model Opus 4.7 meningkatkan input gambar resolusi tinggi hingga tiga kali lipat dibandingkan versi sebelumnya.

Prompt input yang sama kini menghabiskan token hingga 35% lebih banyak karena pembaruan tokenizer.

Opus 4.7 mencapai skor 10% lebih tinggi pada benchmark SWE Bench Pro dibandingkan dengan versi 4.6.

Model ini menggunakan skema verifikasi mandiri dan tingkat upaya tinggi untuk meningkatkan akurasi instruksi harfiah.

Performa konteks panjang mengalami penurunan pada pengujian needle-in-a-haystack dibandingkan model Opus 4.6.

Opus 4.7 menghasilkan kode TypeScript yang bersih dengan desain UI modern menggunakan React 18 dan Vite.

Tingkat upaya tinggi pada Opus 4.7 mengungguli performa maksimal Opus 4.6 dengan penggunaan token yang lebih sedikit.

Timeline

Peningkatan Kemampuan dan Struktur Biaya Tokenizer Baru

  • Opus 4.7 menghadirkan peningkatan pada kemampuan pemrograman, visi, dan kreativitas desain antarmuka pengguna.
  • Struktur tokenizer baru menyebabkan peningkatan konsumsi token hingga 35% untuk input yang identik.
  • Model ini menerapkan pengamanan siber baru untuk memblokir permintaan akses berisiko tinggi secara otomatis.

Peningkatan performa diimbangi dengan efisiensi token yang lebih rendah karena model melakukan proses berpikir yang lebih mendalam. Pengamanan siber yang lebih ketat merupakan langkah persiapan sebelum perilisan model kelas Mythos yang lebih kuat. Fokus utama pengembangan terletak pada verifikasi mandiri untuk menghasilkan output yang lebih akurat.

Analisis Benchmark dan Performa Konteks Panjang

  • Skor SWE Bench Pro meningkat 10% di atas Opus 4.6 sementara versi terverifikasi naik sebesar 7%.
  • Kapasitas penanganan konteks panjang menunjukkan penurunan performa pada pengujian needle-in-a-haystack.
  • Skor keamanan siber sengaja ditekan melalui batasan sistem untuk mencegah penyalahgunaan.

Meskipun unggul dalam pemecahan masalah perangkat lunak, model ini menunjukkan kelemahan dalam menemukan informasi spesifik di dalam dokumen yang sangat panjang. Penurunan ini menjadi catatan penting bagi pengguna yang mengandalkan memori konteks besar. Kenaikan skor benchmark secara umum mengonfirmasi bahwa Opus 4.7 adalah model publik paling mumpuni saat ini.

Optimalisasi Instruksi dan Dukungan Multimodal

  • Kepatuhan instruksi yang lebih ketat mengharuskan penyesuaian pada prompt lama yang bersifat longgar.
  • Dukungan multimodal memungkinkan pemrosesan gambar dengan resolusi tiga kali lebih tinggi dari standar sebelumnya.
  • Sistem memori berbasis sistem file membantu retensi catatan penting di berbagai sesi kerja yang panjang.

Kemampuan visi yang ditingkatkan secara langsung memperbaiki hasil ekstraksi data dan tugas penggunaan komputer secara otomatis. Pengguna dapat mengatur tingkat upaya (effort level) untuk menyeimbangkan antara kualitas hasil dan konsumsi token. Tingkat upaya tinggi pada model baru ini terbukti lebih efisien dibandingkan performa puncak pada versi 4.6.

Uji Komparasi Desain UI Antar Model

  • Opus 4.7 menghasilkan desain situs web kafe yang responsif dengan estetika modern dan tipografi yang tepat.
  • Gemini 3.1 memberikan hasil visual terbaik dengan fitur latar belakang statis dan tata letak footer yang rapi.
  • GPT 5.4 menempati posisi terendah dengan gaya desain kartu yang repetitif dan kurang memiliki karakter visual unik.

Pengujian dilakukan dengan prompt sederhana untuk membuat situs web satu halaman menggunakan tingkat upaya maksimal. Opus 4.7 menunjukkan kemajuan besar dibandingkan 4.6 dalam hal pemilihan warna dan latar belakang. Meskipun demikian, preferensi visual tetap menempatkan Gemini 3.1 sebagai pemenang dalam estetika antarmuka.

Pembuatan Aplikasi Kompleks dan Kualitas Kode

  • Opus 4.7 membangun dasbor manajemen keuangan fungsional dengan TypeScript dan React 18 dalam waktu 20 menit.
  • Opus 4.6 menyertakan fitur lebih lengkap seperti penambahan akun dan penggunaan database SQLite.
  • GPT 5.4 dan Gemini 3.1 gagal menghasilkan aplikasi fungsional yang dapat dijalankan tanpa perbaikan manual.

Opus 4.7 unggul dalam struktur kode front-end yang bersih dan penggunaan TypeScript secara konsisten. Namun, back-end model ini masih menggunakan penyimpanan memori sementara tanpa database persisten. Sebaliknya, Opus 4.6 menggunakan teknologi yang sedikit lebih lama tetapi berhasil mengintegrasikan SQLite untuk penyimpanan data nyata.

Community Posts

View all posts