Claude Merilis Opus 4.7 dan Hasilnya Sangat Luar Biasa

CChase AI
Computing/SoftwareBusiness NewsConsumer ElectronicsInternet Technology

Transcript

00:00:00Jadi Opus 4.7 baru saja dirilis dan berdasarkan angkanya,
00:00:04ini adalah peningkatan besar. Mari kita telusuri. Pertama-tama,
00:00:08tolok ukurnya. Sekarang mereka menunjukkan Mythos di sini, di sisi kanan,
00:00:12hanya untuk menggoda kita tentang hal-hal yang memang ada.
00:00:15Tapi yang benar-benar ingin saya perhatikan adalah 4.7 versus 4.6 karena siapa yang tahu
00:00:20kapan Mythos akan tersedia, dan berdasarkan angkanya,
00:00:23ini adalah lompatan maju yang sangat solid, terutama dalam hal pengodean.
00:00:28Jika kita melihat pengodean agentik, kita melihat lonjakan dari 53 ke 64,
00:00:32dari 80 ke 87,
00:00:34dan kemudian dari 65 ke 69 pada tiga pengujian besar yaitu SWE-bench
00:00:39Pro, SWE-bench Verified, dan TerminalBench 2.0.
00:00:42Satu-satunya tempat di mana kita melihat tolok ukur Opus 4.7,
00:00:46tidak berada di atas semua model lainnya,
00:00:49kecuali Mythos, adalah pencarian agentik di mana kita melihat GPT 5.4.
00:00:54Skornya 89,3 versus Opus 4.7,
00:00:57yang anehnya turun dibandingkan 4.6, yang mana,
00:01:01ketika Anda melihat hal-hal seperti itu,
00:01:02di mana mereka menunjukkan tolok ukur yang turun dari Opus 4.6,
00:01:06Anda bertanya-tanya apakah mereka hanya menyisipkannya. Seperti, "Oh tidak,
00:01:08tolok ukur ini sebenarnya asli, teman-teman. Kami tidak akan berbohong soal ini. Lihat,"
00:01:11"lihat ini." Hm,
00:01:12tapi 5.4 unggul dalam pencarian agentik dan Anda juga melihatnya unggul dalam penalaran
00:01:17tingkat pascasarjana. Area lain yang mengalami peningkatan besar adalah penalaran visual.
00:01:21Jadi kita melompat dari 69 ke 82,
00:01:25dan itu mungkin ada hubungannya dengan fakta bahwa model ini memiliki visi
00:01:29yang jauh lebih baik.
00:01:29Mereka memberi tahu kita bahwa gambar yang Anda masukkan ke Opus 4.7 sekarang
00:01:34memiliki resolusi 3x lipat, yang mana ini sangat besar.
00:01:36Jika Anda mengerjakan sesuatu seperti diagram atau teks kecil,
00:01:38dan kita melihat angka yang sama tercermin di sini dalam grafik ini.
00:01:42Jadi ada peningkatan dalam kerja pengetahuan, visi, lonjakan besar dalam penalaran dokumen,
00:01:4657,1 ke 80,6, yang merupakan nilai tambah yang besar.
00:01:50Jika Anda seseorang yang menggunakan sesuatu seperti CoWork,
00:01:52Anda menggunakannya dalam skenario kantor dan yang Anda lakukan sepanjang hari hanyalah memasukkan
00:01:55dokumen. Penalaran konteks panjang juga merupakan hal yang penting.
00:01:57Kami terus-menerus mengulas di saluran ini tentang pembusukan konteks dan gagasan bahwa kita
00:02:02harus sangat fokus pada manajemen sesi. Saya rasa itu tidak berubah sama sekali.
00:02:07Maksud saya, naik dari 71 ke 75 itu bagus.
00:02:09Saya rasa Anda tidak perlu mengubah seberapa agresif Anda membersihkan—misalnya kapan pun Anda berada
00:02:13di 20% atau 25% jendela konteks, Anda harus membersihkannya, tapi ini adalah peningkatan.
00:02:17Kami senang melihat ini. Dan yang ini juga menarik.
00:02:19Tolok ukur pengodean ini berkaitan dengan multimodal. Jadi mereka melakukan pengodean,
00:02:22tapi ini juga mencakup hal-hal di mana mereka memberikan konteks yang berisi
00:02:25hal-hal seperti gambar. Dan saya rasa ini tidak mengejutkan.
00:02:28Dan saya rasa banyak hubungannya dengan resolusi tersebut.
00:02:30Sekarang selain model itu sendiri, ada beberapa pembaruan lagi.
00:02:32Yang terbesar adalah kontrol upaya yang lebih banyak. Jadi sekarang ada level "Extra High",
00:02:37mungkin meniru itu dari OpenAI, antara High dan Max.
00:02:40Dan di atas itu, Claude Code sekarang secara default ke Extra High.
00:02:44Saya rasa itu mungkin sebagai respons terhadap banyak orang yang mengklaim bahwa Opus 4.6
00:02:48mengalami penurunan performa. Dan kemudian Boris Cherny, pencipta Opus—maksud saya,
00:02:52pencipta Claude Code, angkat bicara dan berkata,
00:02:54"sebenarnya kami memindahkan tingkat penalaran default, tingkat upaya default,
00:02:58ke Medium." Jadi fakta bahwa mereka mengeluarkan Extra High,
00:03:01saya rasa adalah respons terhadap hal itu agar membuatnya "lebih baik" dan
00:03:05berusaha lebih keras, namun tidak mendorong orang ke Max karena nanti akan berayun ke sisi lain
00:03:10dan semua orang mengeluh kuota pemakaian mereka cepat habis. Dan ingat,
00:03:12jika Anda ingin mengubahnya,
00:03:13Anda hanya perlu melakukan garis miring effort dan kemudian atur level Anda.
00:03:16Resolusi yang lebih tinggi juga tersedia di API.
00:03:19Dan kemudian mereka juga telah merilis perintah garis miring ultra-review yang baru.
00:03:24Jadi ini mendapatkan sesi peninjauan khusus di atas itu.
00:03:28Mereka juga telah memperluas mode otomatis. Dan jika Anda tidak tahu tentang mode otomatis,
00:03:31itu pada dasarnya hanyalah alternatif untuk mengabaikan izin secara berbahaya. Sekarang,
00:03:34satu hal yang mereka catat di sini adalah Opus 4.7 akan menggunakan lebih banyak token
00:03:39daripada 4.6.
00:03:40Jadi mereka secara eksplisit menyatakan bahwa Opus 4.7 menggunakan tokenizer yang diperbarui dan meningkatkan cara
00:03:45ia memproses teks, tetapi itu meningkatkan jumlah token pada input,
00:03:50sekitar 1 hingga 1,35 kali lipat, tergantung pada jenis kontennya.
00:03:54Dan kedua, Opus 4.7 berpikir lebih banyak pada tingkat upaya yang lebih tinggi.
00:03:58Jadi ingatlah karena mereka menetapkan upaya default ke Extra High
00:04:03padahal sebelumnya berada di Medium, dan Opus 4.7 menggunakan lebih banyak token.
00:04:07Jadi jika Anda selama ini berada di tingkat Medium,
00:04:09Anda tidak pernah mengubahnya dan Anda sudah mencapai batas pemakaian atau batas penggunaan di
00:04:134.6, waspadalah akan hal ini. Pahami bahwa Anda pasti bisa mengalami masalah penggunaan.
00:04:18Jika Anda adalah orang yang sudah mengalami hal itu,
00:04:19karena sekarang ia akan menggunakan lebih banyak token lagi.
00:04:21Yang juga menarik adalah mereka telah menghapus pemikiran yang diperluas juga.
00:04:25Dan jika Anda ingin membaca lebih lanjut dan mendapatkan semacam pendalaman tentang migrasi ini,
00:04:28mereka menyertakan seluruh materinya di dokumentasi.
00:04:30Jadi secara keseluruhan ini terlihat seperti peningkatan yang sangat solid.
00:04:32Dan saya bersemangat untuk segera mencoba dan mengujinya sendiri.

Key Takeaway

Claude Opus 4.7 menghadirkan peningkatan drastis pada pengodean agentik dan resolusi visi hingga 3x lipat, meskipun konsumsi token meningkat hingga 1,35 kali lipat dibandingkan versi 4.6.

Highlights

Opus 4.7 meningkatkan skor SWE-bench Pro dari 53 menjadi 64 dan SWE-bench Verified dari 80 menjadi 87.

Resolusi gambar pada Opus 4.7 kini 3x lipat lebih tinggi dibandingkan versi sebelumnya untuk memproses diagram dan teks kecil.

Kemampuan penalaran dokumen melonjak secara signifikan dari skor 57,1 menjadi 80,6.

Opsi kontrol upaya baru bernama Extra High diperkenalkan dan menjadi setelan default pada Claude Code.

Penggunaan token pada Opus 4.7 meningkat antara 1 hingga 1,35 kali lipat karena pembaruan tokenizer dan proses teks.

Skor penalaran visual mengalami kenaikan dari 69 menjadi 82 berkat peningkatan kemampuan visi model.

Timeline

Performa Tolok Ukur dan Pengodean Agentik

  • Skor pengodean agentik pada SWE-bench Pro meningkat dari 53 ke 64.
  • TerminalBench 2.0 menunjukkan kenaikan performa dari 65 menjadi 69.
  • GPT 5.4 masih mengungguli Opus 4.7 dalam pencarian agentik dengan skor 89,3.

Perbandingan data antara Opus 4.7 dan 4.6 menunjukkan lompatan besar dalam tugas-tugas teknis. Meskipun pengodean mengalami kemajuan pesat, terdapat sedikit penurunan pada skor pencarian agentik dibandingkan versi 4.6. Hal ini menempatkan model di bawah GPT 5.4 untuk kategori pencarian dan penalaran tingkat pascasarjana.

Peningkatan Visi dan Penalaran Dokumen

  • Resolusi input gambar pada Opus 4.7 meningkat sebanyak 3x lipat.
  • Skor penalaran dokumen naik drastis dari 57,1 menjadi 80,6.
  • Penalaran konteks panjang mengalami peningkatan moderat dari 71 ke 75.

Kualitas pemrosesan visual menjadi fokus utama dengan peningkatan resolusi yang memudahkan pembacaan diagram atau teks kecil. Kemampuan ini berdampak langsung pada efisiensi kerja di lingkungan kantor yang melibatkan banyak dokumen. Meskipun ada perbaikan pada konteks panjang, manajemen sesi tetap diperlukan saat penggunaan mencapai ambang 20% hingga 25% jendela konteks.

Fitur Kontrol Upaya dan Pembaruan Claude Code

  • Level upaya Extra High ditambahkan di antara kategori High dan Max.
  • Claude Code kini menggunakan tingkat upaya Extra High secara default.
  • Perintah garis miring ultra-review baru tersedia untuk sesi peninjauan khusus.

Penambahan level Extra High bertujuan untuk mengoptimalkan performa penalaran tanpa menghabiskan kuota secepat level Max. Pembaruan ini merespons keluhan penurunan performa pada versi sebelumnya yang ternyata sempat diatur ke tingkat Medium secara default. Pengguna dapat menyesuaikan preferensi ini secara manual melalui perintah garis miring effort.

Struktur Tokenizer dan Efisiensi Penggunaan

  • Opus 4.7 memproses teks dengan tokenizer baru yang meningkatkan jumlah token input.
  • Volume token meningkat 1 hingga 1,35 kali lipat tergantung jenis konten.
  • Fitur pemikiran yang diperluas telah dihapus dari versi ini.

Model baru ini lebih intensif dalam penggunaan sumber daya karena cara pemrosesan teks yang diperbarui dan tingkat upaya default yang lebih tinggi. Pengguna yang sering mencapai batas kuota pada versi 4.6 perlu waspada terhadap peningkatan konsumsi token ini. Dokumentasi resmi telah disediakan untuk membantu pengguna dalam melakukan migrasi ke model Opus 4.7.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video