Opus 4.7 SANGAT Mantap (kecuali boros tokennya)

Bahasa Indonesiaالعربية Deutsch English Español Français हिन्दी 日本語 한국어 Português Русский 中文

Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Model terbaik baru telah hadir, Opus 4.7. Ini terlihat seperti pembaruan yang cukup bagus, tentu saja

00:00:05ia lebih baik dalam pemrograman tetapi juga memiliki peningkatan visi, verifikasi mandiri, dan konon

00:00:09lebih baik dalam membuat UI, menjadikannya lebih berselera dan kreatif.

00:00:12Namun kekurangannya adalah meskipun biayanya tidak berubah, tokenizer-nya berubah, jadi

00:00:17prompt input yang sama persis sekarang bisa menghabiskan hingga 35% lebih banyak token dan ia juga lebih banyak berpikir,

00:00:22jadi itu lebih banyak token untuk dibakar. Pasti ada beberapa detail yang sangat menarik dalam rilis ini

00:00:26dan mungkin ada perubahan yang ingin Anda buat pada Claude Code sekarang, jadi mari kita mulai, lihat apa yang

00:00:30baru dan mengujinya.

00:00:31Sekarang saya sebenarnya akan mulai dengan benchmark karena saya agak berbohong tadi ketika mengatakan ini

00:00:40adalah model terbaik yang baru. Ini adalah yang terbaik yang tersedia secara publik, tetapi benchmark ini juga mencakup

00:00:44Mythos, model yang begitu kuat sehingga kita belum diizinkan untuk menggunakannya.

00:00:47Menurut Anthropic, Opus 4.7 sebenarnya sedang menguji pengamanan siber baru untuk memblokir permintaan

00:00:52yang mengindikasikan penggunaan keamanan siber yang dilarang atau berisiko tinggi, dan apa yang mereka pelajari dari hal itu

00:00:56akan membantu mereka bekerja menuju rilis luas model kelas Mythos, jadi semoga di masa depan

00:01:00saya bisa membuat video tentang rilis Mythos dan bagaimana itu adalah akhir dari pengembangan perangkat lunak

00:01:03seperti yang kita kenal. Jadi berlanggananlah jika Anda tidak ingin melewatkan itu.

00:01:06Untuk saat ini saya akan mengabaikan Mythos dan fokus pada yang sebenarnya bisa kita gunakan yaitu

00:01:10Opus 4.7, dan ini sebenarnya telah membuat kemajuan besar pada benchmark.

00:01:13Sekarang saya tidak akan menjelaskan terlalu detail tentang ini dan Anda bisa menjeda layar jika ingin

00:01:16membaca satu per satu. Anda bisa melihat pada benchmark seperti SWE Bench Pro, ia sebenarnya melompat 10%

00:01:21di atas Opus 4.6, dan pada versi verified ia naik 7%, dan pola itu berlanjut

00:01:26untuk sisa benchmark lainnya kecuali dalam keamanan siber di mana ia sebenarnya sedikit turun, tampaknya

00:01:30terkait dengan pengamanan yang saya sebutkan tadi, sepertinya mereka sengaja

00:01:34menjaga skor ini tetap rendah untuk mencoba menyelamatkan dunia atau semacamnya.

00:01:37Saya juga menemukan benchmark yang sangat menarik di kartu sistem tersebut yang menunjukkan bahwa

00:01:40performa konteks panjang tampaknya merosot dibandingkan dengan Opus 4.6 saat menggunakan

00:01:45tes needle-in-a-haystack, jadi saya cukup penasaran bagaimana hal itu akan memengaruhi penggunaan sebenarnya

00:01:50seiring waktu. Di luar benchmark, ada juga beberapa peningkatan penting lainnya yang bahkan

00:01:54mungkin mengubah cara Anda menggunakan Claude. Yang pertama adalah ia memiliki kepatuhan instruksi yang lebih baik

00:01:58yang berarti Anda mungkin mendapatkan hasil yang tidak terduga dengan prompt yang sudah Anda gunakan

00:02:01sebelumnya, karena model lama menafsirkan instruksi secara longgar atau melewatkan beberapa bagian, sedangkan Opus 4.7

00:02:07sangat fokus pada mengikuti instruksi secara harfiah, jadi Anda mungkin perlu melakukan beberapa penyesuaian prompt.

00:02:11Selanjutnya, ia memiliki dukungan multimodal yang ditingkatkan sehingga dapat menerima gambar resolusi lebih tinggi

00:02:16tiga kali lipat dari model lama, sehingga ini seharusnya membuatnya lebih baik dalam tugas-tugas seperti penggunaan komputer dan

00:02:20ekstraksi data. Penggunaan memorinya juga meningkat sehingga Opus 4.7 seharusnya lebih baik dalam menggunakan memori

00:02:25berbasis sistem file di mana ia mengingat catatan penting di seluruh pekerjaan multi-sesi yang panjang dan menggunakan

00:02:30catatan itu untuk beralih ke tugas baru yang akibatnya membutuhkan lebih sedikit konteks awal. Jadi mungkin itu akan

00:02:34menghemat beberapa token bagi saya, yang cukup penting sekarang karena perubahan berikutnya adalah pada tokenizer

00:02:39dan proses berpikir. Opus 4.7 menggunakan tokenizer yang diperbarui yang meningkatkan cara model memproses teks

00:02:45tetapi itu juga berarti prompt input yang sama dapat memakan biaya hingga 35% lebih banyak token, dan ketika Anda

00:02:49menggabungkan ini dengan fakta bahwa Opus 4.7 lebih banyak berpikir pada tingkat upaya yang lebih tinggi, model ini

00:02:54benar-benar akan membakar banyak token. Untuk memperburuk keadaan, ada juga tingkat

00:02:58upaya ekstra tinggi yang baru, dan itu sebenarnya disetel sebagai standar di Claude Code, jadi saya sangat menyarankan

00:03:02Anda pergi dan menguji berbagai tingkat upaya tersebut dan temukan yang paling cocok untuk Anda untuk melihat

00:03:05apakah Anda mungkin bisa menurunkannya tanpa menyadari adanya dampak. Sebagai perbandingan, tingkat

00:03:09upaya ekstra tinggi yang baru menggunakan jumlah token yang kira-kira sama dengan tingkat upaya maksimal Opus 4.6,

00:03:14dan tingkat upaya tinggi Opus 4.7 sebenarnya mengungguli tingkat upaya maksimal Opus 4.6 dengan

00:03:19token yang lebih sedikit digunakan. Jadi jika Anda sudah merasa nyaman dengan apa yang Anda miliki sebelumnya, saya akan menggunakan grafik itu

00:03:24untuk membandingkan, karena bagi saya, saya mungkin akan mengubah ini menjadi menggunakan tingkat upaya tinggi

00:03:27dalam banyak kasus. Dengan ringkasan apa yang baru sudah selesai, saya akan menghabiskan

00:03:31kuota saya dan menguji ini. Hal pertama yang akan saya periksa adalah apakah ia lebih baik dalam desain UI

00:03:35jadi saya memberinya prompt yang sangat sederhana untuk membuat situs web kafe hanya dengan index.html saja, dan

00:03:40saya menggunakan tingkat upaya maksimal pada semua model yang saya uji, jadi saya akan mencoba ini

00:03:43di Opus 4.7, 4.6, Gemini 3.1, dan GPT 5.4. Ini adalah hasil yang saya dapatkan dari Opus 4.7

00:03:51dan menurut saya ini terlihat cukup bagus, memiliki nuansa kafe yang menyenangkan, menggunakan

00:03:55font yang bagus, dan mengambil gambar dari Unsplash di sini. Secara keseluruhan saya tidak bisa mengeluh, ini

00:03:59situs web yang cukup sederhana, memiliki bagian menu yang bagus, semuanya responsif dan secara keseluruhan

00:04:04ya, saya katakan ini terlihat cukup bagus. Jika kita membandingkan ini dengan apa yang diberikan Opus 4.6, Anda bisa melihat ia

00:04:09memilih gaya yang sedikit berbeda di sini tetapi memiliki font yang serupa dan bagian menu yang serupa

00:04:12dan secara keseluruhan sedikit lebih buruk menurut saya hanya karena ia tidak menggunakan latar belakang

00:04:16yang bagus di sini dan gradien ini bukan peralihan yang bagus sama sekali, tetapi tetap tidak bisa mengeluh

00:04:20terlalu banyak, saya katakan Opus 4.7 hanya sedikit selangkah di atas ini. Gemini 3.1 di sisi

00:04:25lain, menurut saya memberi saya hasil terbaik, setidaknya ini favorit saya, jadi beri tahu saya di

00:04:29kolom komentar di bawah mana yang jadi favorit Anda. Saya sangat suka karena ia memiliki latar belakang yang tidak

00:04:33bergerak saat kita menggulir. Saya pikir ia melakukannya dengan sangat baik pada bagian gambar di bagian

00:04:36kisah kami, menunya terlihat mirip dengan yang lain tetapi sekali lagi menurut saya ini ditata

00:04:40dengan bagus, begitu juga dengan footer-nya, jadi menurut saya 3.1 menang dalam hal ini bagi saya. Datang

00:04:45di posisi terakhir adalah GPT 5.4, ini benar-benar memiliki tampilan dan nuansa khas GPT

00:04:50ia sangat suka kartu seperti ini yang memiliki efek blur yang bagus, dan ini bukan

00:04:55situs web kafe yang bagus menurut saya, ini hanya terlihat seperti setiap aplikasi GPT lain yang pernah saya lihat, jadi

00:04:59Opus 4.7 pasti bagus dalam UI dan kemungkinan akan menanganinya lebih baik lagi jika diberikan

00:05:04arahan lebih lanjut. Saat ini di arena desain, Opus 4.6 sebenarnya memimpin untuk situs web,

00:05:09jadi saya berharap 4.7 akan menggantikan posisinya. Sekarang jelas tes itu cukup sederhana,

00:05:13jadi selanjutnya saya akan memberi mereka semua tugas yang lebih canggih. Anda bisa melihat di sini di Claude Code,

00:05:17dengan Opus 4.6 saya meminta dasbor manajemen keuangan pribadi yang menawarkan

00:05:21gambaran detail kesehatan keuangan individu dengan banyak fitur yang saya sertakan dalam

00:05:25prompt di sini dan saya tidak memberikan indikasi stack apa yang harus digunakannya, ia akan

00:05:30memilih semua itu dan mulai dari awal. Pertama ada hasil dari Opus 4.7 dan

00:05:34ia melakukan ini semua dalam satu prompt dalam waktu sekitar 20 menit dan reaksi awal saya hanyalah

00:05:39wah, ini terlihat sangat bagus, UI-nya sangat bersih, memiliki grafik yang sangat bagus di sini, semuanya

00:05:44ditata dengan rapi, menggunakan skema warna yang bagus, dan sejujurnya tidak banyak

00:05:48yang akan saya tingkatkan sendiri, ia telah melakukan pekerjaan yang fantastis di sisi UI

00:05:53dan juga memiliki semua halaman individual yang saya minta, kita bisa melihat semua akun kita,

00:05:57kita bisa melihat transaksi dan anggaran kita, kita sebenarnya tidak bisa menambahkan anggaran baru saat ini,

00:06:02sepertinya itu bukan sebuah fitur, begitu juga dengan target tabungan, tetapi kita bisa

00:06:05menambah ke target kita di sini dan angkanya memang naik serta memperbarui API back-end

00:06:10yang ia buat, dan hal yang sama berlaku jika kita mengirim uang ke orang lain juga, jadi jika saya

00:06:14mengetes pembayaran langganan Claude Code saya di sini, ini seharusnya terkirim dengan sukses dan saya bisa

00:06:17melihatnya telah dikirim dan kembali di dasbor kekayaan bersih saya telah diperbarui dengan transaksi tersebut

00:06:22jadi semuanya berfungsi di sana dan ia menggunakan database di back-end dan kita juga

00:06:26melihatnya muncul di transaksi terbaru kita. Melihat kode yang mereka hasilkan, semuanya

00:06:30terlihat cukup bagus, ia menggunakan React dan Vite untuk front-end saya, hal yang sama yang akan saya

00:06:34lakukan, dan ia juga menggunakan React Router, mungkin saya akan menggunakan TanStack tetapi itu tidak terlalu

00:06:38bermasalah, keduanya adalah pilihan yang cukup bagus. Di semua ini Anda bisa melihat semuanya tertata

00:06:42rapi, kita punya semua komponen UI individual, secara keseluruhan front-end-nya dilakukan dengan cukup baik.

00:06:46Hal yang akan saya beri nilai kurang adalah di bagian back-end karena kita menggunakan

00:06:51server Express, tidak ada yang salah dengan itu tapi saya mungkin akan memilih sesuatu

00:06:54seperti Bun atau Hono mengingat betapa sederhananya aplikasi ini, dan juga cara ia sebenarnya

00:06:59menyimpan data ini semuanya di memori, jadi jika sekarang saya mematikan layanan back-end dan menyalakannya

00:07:04lagi, ia akan memuat data dari skrip seed ini dan ini hanyalah

00:07:08array lokal, ia tidak memiliki database untuk mencadangkan ini. Berlanjut ke hasil Opus 4.6,

00:07:13saya harus katakan segera bahwa Opus 4.7 pasti melakukan pekerjaan yang lebih baik dalam hal desain UI,

00:07:18ada sesuatu tentang UI ini yang tidak terlalu saya sukai, saya tidak tahu apakah itu karena

00:07:21terlalu banyak padding atau fakta bahwa ini dalam mode terang sedangkan yang satunya tadi

00:07:24dalam mode gelap, saya jelas lebih suka yang Opus 4.7 secara keseluruhan. Ia memiliki komponen yang cukup serupa

00:07:29Anda bisa melihat kita punya kartu dengan kekayaan bersih kita, kita punya grafik tren kekayaan bersih,

00:07:33transaksi terbaru, dan target keuangan kita, dan kita juga punya halaman individual untuk melacak

00:07:38ini juga. Selain UI kita juga bisa mencoba beberapa fitur, jadi saya akan tambah transaksi

00:07:42baru di sini, yang ini akan sebesar seratus lima puluh dolar untuk belanja bulanan,

00:07:46terlihat kita mendapat pembaruan di sini dan juga kembali di dasbor kekayaan bersih saya diperbarui

00:07:50jadi tampaknya berfungsi di sana. Satu hal di mana Opus 4.6 mungkin sebenarnya mengalahkan Opus

00:07:544.7 dalam satu prompt adalah saya bisa menambah akun di sini, jadi saya baru saja menambah akun ini

00:07:58dan hal yang sama berlaku untuk target dan anggaran, jadi saya juga menambah anggaran pendidikan,

00:08:03jadi sepertinya Opus 4.6 menambahkan beberapa fitur lagi tetapi sejujurnya saya tinggal

00:08:07meminta Opus 4.7 untuk menambahkannya bagi saya, jelas biasanya Anda tidak akan melakukan satu prompt saja.

00:08:12Melihat kodenya, Opus 4.6 mengambil rute yang sama dengan aplikasi Vite React tetapi

00:08:16satu hal menarik yang baru saja saya sadari adalah ini menggunakan React 19 dan React Router

00:08:20DOM 7 sedangkan Opus 4.7 menggunakan React 18 dan juga React Router 6 meskipun saya cukup

00:08:27yakin Opus 4.7 memiliki batas pengetahuan yang lebih baru. Selain itu, kemenangan lain untuk Opus 4.6 adalah

00:08:32ia menggunakan database untuk back-end sehingga datanya akan tersimpan, Anda bisa melihat ia menggunakan

00:08:36SQLite di sini dan kita punya beberapa databasenya, jadi itu jelas sebuah kemenangan, tapi di mana

00:08:40ia kalah adalah ia tampaknya menggunakan JavaScript untuk semua proyek ini sedangkan Opus 4.7 dengan benar

00:08:45menggunakan TypeScript. Berikutnya ada hasil dari GPT 5.4 dan sejujurnya saya tidak

00:08:50tahu apa yang dilakukannya di sini, ini bukan UI yang bisa digunakan, ini terlihat sangat buruk menurut saya, semuanya

00:08:55sangat berantakan, saya tidak suka font-nya dan ya saya tidak akan menghabiskan

00:08:59banyak waktu untuk ini, ini terlihat jauh lebih buruk daripada yang Claude. Saya bisa konfirmasi

00:09:03bahwa itu berfungsi ketika kita menambah uang kecuali ia me-refresh seluruh halaman juga, itu

00:09:07tidak menjadi jauh lebih baik di kodenya juga, tampaknya GPT 5.4 hanya tidak ingin memulai

00:09:11proyek penuh dari ini jadi ia hanya menggunakan pendekatan yang sangat sederhana di mana kita hanya punya

00:09:14index.html, file JavaScript kita, dan gaya kita, dan untuk database-nya itu juga hanya

00:09:19skrip JavaScript tunggal saja, ia tidak benar-benar menggunakan database, ia melakukan semuanya

00:09:23di memori seperti Opus 4.7 dan sekali lagi ia juga menggunakan JavaScript untuk semuanya alih-alih

00:09:28TypeScript. Adapun Gemini 3.1 sejujurnya saya mengalami banyak masalah saat mencoba menjalankan

00:09:32aplikasi ini dan sebenarnya harus mengirim beberapa prompt tindak lanjut hanya karena saya penasaran

00:09:36seperti apa tampilannya sebenarnya dan ini agak terlihat persis seperti yang Opus 4.6, saya tidak

00:09:41tahu apakah mereka memiliki data pelatihan yang sama saat mereka membuat UI-nya, tetapi sangat mirip

00:09:45dan tidak ada fitur ini yang benar-benar berfungsi dan tidak ada tab ini yang bisa diklik. Gemini 3.1

00:09:50mungkin melakukan yang terburuk meskipun 5.4 juga bersaing di sana hanya karena cara ia membuat

00:09:54aplikasinya. Saya akan katakan Gemini 3.1 sebenarnya mencoba mengambil pendekatan yang baik, ia sebenarnya

00:09:59menggunakan Next.js alih-alih React Router yang merupakan ide bagus karena itu berarti Anda

00:10:02bisa menggunakan rute server API dan ini adalah aplikasi yang cukup sederhana jadi saya tidak keberatan melakukan

00:10:07itu, tetapi saya akan katakan ia menggunakan Prisma padahal saya lebih suka sesuatu seperti Drizzle.

00:10:10Tes-tes ini jujur mengejutkan saya karena sampai sekarang saya adalah pengguna berat Codex

00:10:15dan saya sudah beralih dari Claude Code, tapi Opus 4.7 mungkin akan menarik saya kembali karena ia memiliki

00:10:19desain UI yang sangat bagus dan sebagian besar aplikasinya tampaknya berfungsi. Tentu saja itu tergantung

00:10:24pada kualitas prompt dan saya tadi memberikan prompt yang cukup samar tentang stack-nya, biasanya saya akan memberikan prompt

00:10:28dengan hal-hal tepat yang saya inginkan tapi tetap saja saya cukup terkesan dengan hasil yang

00:10:32kita dapatkan di sini. Saya penasaran apa pendapat Anda, model apa pilihan Anda saat ini, beri tahu

00:10:36saya di deskripsi di bawah selagi Anda di sana, berlanggananlah, dan seperti biasa sampai jumpa di

00:10:49video berikutnya.

Key Takeaway

Opus 4.7 menawarkan peningkatan signifikan dalam desain UI dan kepatuhan instruksi harfiah, meskipun biaya operasional meningkat hingga 35% akibat perubahan tokenizer dan proses berpikir yang lebih intensif.

Highlights

Model Opus 4.7 meningkatkan input gambar resolusi tinggi hingga tiga kali lipat dibandingkan versi sebelumnya.

Prompt input yang sama kini menghabiskan token hingga 35% lebih banyak karena pembaruan tokenizer.

Opus 4.7 mencapai skor 10% lebih tinggi pada benchmark SWE Bench Pro dibandingkan dengan versi 4.6.

Model ini menggunakan skema verifikasi mandiri dan tingkat upaya tinggi untuk meningkatkan akurasi instruksi harfiah.

Performa konteks panjang mengalami penurunan pada pengujian needle-in-a-haystack dibandingkan model Opus 4.6.

Opus 4.7 menghasilkan kode TypeScript yang bersih dengan desain UI modern menggunakan React 18 dan Vite.

Tingkat upaya tinggi pada Opus 4.7 mengungguli performa maksimal Opus 4.6 dengan penggunaan token yang lebih sedikit.

Timeline

Peningkatan Kemampuan dan Struktur Biaya Tokenizer Baru

Opus 4.7 menghadirkan peningkatan pada kemampuan pemrograman, visi, dan kreativitas desain antarmuka pengguna.
Struktur tokenizer baru menyebabkan peningkatan konsumsi token hingga 35% untuk input yang identik.
Model ini menerapkan pengamanan siber baru untuk memblokir permintaan akses berisiko tinggi secara otomatis.

Peningkatan performa diimbangi dengan efisiensi token yang lebih rendah karena model melakukan proses berpikir yang lebih mendalam. Pengamanan siber yang lebih ketat merupakan langkah persiapan sebelum perilisan model kelas Mythos yang lebih kuat. Fokus utama pengembangan terletak pada verifikasi mandiri untuk menghasilkan output yang lebih akurat.

Analisis Benchmark dan Performa Konteks Panjang

Skor SWE Bench Pro meningkat 10% di atas Opus 4.6 sementara versi terverifikasi naik sebesar 7%.
Kapasitas penanganan konteks panjang menunjukkan penurunan performa pada pengujian needle-in-a-haystack.
Skor keamanan siber sengaja ditekan melalui batasan sistem untuk mencegah penyalahgunaan.

Meskipun unggul dalam pemecahan masalah perangkat lunak, model ini menunjukkan kelemahan dalam menemukan informasi spesifik di dalam dokumen yang sangat panjang. Penurunan ini menjadi catatan penting bagi pengguna yang mengandalkan memori konteks besar. Kenaikan skor benchmark secara umum mengonfirmasi bahwa Opus 4.7 adalah model publik paling mumpuni saat ini.

Optimalisasi Instruksi dan Dukungan Multimodal

Kepatuhan instruksi yang lebih ketat mengharuskan penyesuaian pada prompt lama yang bersifat longgar.
Dukungan multimodal memungkinkan pemrosesan gambar dengan resolusi tiga kali lebih tinggi dari standar sebelumnya.
Sistem memori berbasis sistem file membantu retensi catatan penting di berbagai sesi kerja yang panjang.

Kemampuan visi yang ditingkatkan secara langsung memperbaiki hasil ekstraksi data dan tugas penggunaan komputer secara otomatis. Pengguna dapat mengatur tingkat upaya (effort level) untuk menyeimbangkan antara kualitas hasil dan konsumsi token. Tingkat upaya tinggi pada model baru ini terbukti lebih efisien dibandingkan performa puncak pada versi 4.6.

Uji Komparasi Desain UI Antar Model

Opus 4.7 menghasilkan desain situs web kafe yang responsif dengan estetika modern dan tipografi yang tepat.
Gemini 3.1 memberikan hasil visual terbaik dengan fitur latar belakang statis dan tata letak footer yang rapi.
GPT 5.4 menempati posisi terendah dengan gaya desain kartu yang repetitif dan kurang memiliki karakter visual unik.

Pengujian dilakukan dengan prompt sederhana untuk membuat situs web satu halaman menggunakan tingkat upaya maksimal. Opus 4.7 menunjukkan kemajuan besar dibandingkan 4.6 dalam hal pemilihan warna dan latar belakang. Meskipun demikian, preferensi visual tetap menempatkan Gemini 3.1 sebagai pemenang dalam estetika antarmuka.

Pembuatan Aplikasi Kompleks dan Kualitas Kode

Opus 4.7 membangun dasbor manajemen keuangan fungsional dengan TypeScript dan React 18 dalam waktu 20 menit.
Opus 4.6 menyertakan fitur lebih lengkap seperti penambahan akun dan penggunaan database SQLite.
GPT 5.4 dan Gemini 3.1 gagal menghasilkan aplikasi fungsional yang dapat dijalankan tanpa perbaikan manual.

Opus 4.7 unggul dalam struktur kode front-end yang bersih dan penggunaan TypeScript secara konsisten. Namun, back-end model ini masih menggunakan penyimpanan memori sementara tanpa database persisten. Sebaliknya, Opus 4.6 menggunakan teknologi yang sedikit lebih lama tetapi berhasil mengintegrasikan SQLite untuk penyimpanan data nyata.

Community Posts

Cara Merancang Prompt untuk Menekan Konsumsi Token Opus 4.7 yang Meningkat

makedreamil y a 5 jours3970

Write about this video