00:00:00Jadi Opus 4.7 baru saja dirilis dan berdasarkan angkanya,
00:00:04ini adalah peningkatan besar. Mari kita telusuri. Pertama-tama,
00:00:08tolok ukurnya. Sekarang mereka menunjukkan Mythos di sini, di sisi kanan,
00:00:12hanya untuk menggoda kita tentang hal-hal yang memang ada.
00:00:15Tapi yang benar-benar ingin saya perhatikan adalah 4.7 versus 4.6 karena siapa yang tahu
00:00:20kapan Mythos akan tersedia, dan berdasarkan angkanya,
00:00:23ini adalah lompatan maju yang sangat solid, terutama dalam hal pengodean.
00:00:28Jika kita melihat pengodean agentik, kita melihat lonjakan dari 53 ke 64,
00:00:32dari 80 ke 87,
00:00:34dan kemudian dari 65 ke 69 pada tiga pengujian besar yaitu SWE-bench
00:00:39Pro, SWE-bench Verified, dan TerminalBench 2.0.
00:00:42Satu-satunya tempat di mana kita melihat tolok ukur Opus 4.7,
00:00:46tidak berada di atas semua model lainnya,
00:00:49kecuali Mythos, adalah pencarian agentik di mana kita melihat GPT 5.4.
00:00:54Skornya 89,3 versus Opus 4.7,
00:00:57yang anehnya turun dibandingkan 4.6, yang mana,
00:01:01ketika Anda melihat hal-hal seperti itu,
00:01:02di mana mereka menunjukkan tolok ukur yang turun dari Opus 4.6,
00:01:06Anda bertanya-tanya apakah mereka hanya menyisipkannya. Seperti, "Oh tidak,
00:01:08tolok ukur ini sebenarnya asli, teman-teman. Kami tidak akan berbohong soal ini. Lihat,"
00:01:11"lihat ini." Hm,
00:01:12tapi 5.4 unggul dalam pencarian agentik dan Anda juga melihatnya unggul dalam penalaran
00:01:17tingkat pascasarjana. Area lain yang mengalami peningkatan besar adalah penalaran visual.
00:01:21Jadi kita melompat dari 69 ke 82,
00:01:25dan itu mungkin ada hubungannya dengan fakta bahwa model ini memiliki visi
00:01:29yang jauh lebih baik.
00:01:29Mereka memberi tahu kita bahwa gambar yang Anda masukkan ke Opus 4.7 sekarang
00:01:34memiliki resolusi 3x lipat, yang mana ini sangat besar.
00:01:36Jika Anda mengerjakan sesuatu seperti diagram atau teks kecil,
00:01:38dan kita melihat angka yang sama tercermin di sini dalam grafik ini.
00:01:42Jadi ada peningkatan dalam kerja pengetahuan, visi, lonjakan besar dalam penalaran dokumen,
00:01:4657,1 ke 80,6, yang merupakan nilai tambah yang besar.
00:01:50Jika Anda seseorang yang menggunakan sesuatu seperti CoWork,
00:01:52Anda menggunakannya dalam skenario kantor dan yang Anda lakukan sepanjang hari hanyalah memasukkan
00:01:55dokumen. Penalaran konteks panjang juga merupakan hal yang penting.
00:01:57Kami terus-menerus mengulas di saluran ini tentang pembusukan konteks dan gagasan bahwa kita
00:02:02harus sangat fokus pada manajemen sesi. Saya rasa itu tidak berubah sama sekali.
00:02:07Maksud saya, naik dari 71 ke 75 itu bagus.
00:02:09Saya rasa Anda tidak perlu mengubah seberapa agresif Anda membersihkan—misalnya kapan pun Anda berada
00:02:13di 20% atau 25% jendela konteks, Anda harus membersihkannya, tapi ini adalah peningkatan.
00:02:17Kami senang melihat ini. Dan yang ini juga menarik.
00:02:19Tolok ukur pengodean ini berkaitan dengan multimodal. Jadi mereka melakukan pengodean,
00:02:22tapi ini juga mencakup hal-hal di mana mereka memberikan konteks yang berisi
00:02:25hal-hal seperti gambar. Dan saya rasa ini tidak mengejutkan.
00:02:28Dan saya rasa banyak hubungannya dengan resolusi tersebut.
00:02:30Sekarang selain model itu sendiri, ada beberapa pembaruan lagi.
00:02:32Yang terbesar adalah kontrol upaya yang lebih banyak. Jadi sekarang ada level "Extra High",
00:02:37mungkin meniru itu dari OpenAI, antara High dan Max.
00:02:40Dan di atas itu, Claude Code sekarang secara default ke Extra High.
00:02:44Saya rasa itu mungkin sebagai respons terhadap banyak orang yang mengklaim bahwa Opus 4.6
00:02:48mengalami penurunan performa. Dan kemudian Boris Cherny, pencipta Opus—maksud saya,
00:02:52pencipta Claude Code, angkat bicara dan berkata,
00:02:54"sebenarnya kami memindahkan tingkat penalaran default, tingkat upaya default,
00:02:58ke Medium." Jadi fakta bahwa mereka mengeluarkan Extra High,
00:03:01saya rasa adalah respons terhadap hal itu agar membuatnya "lebih baik" dan
00:03:05berusaha lebih keras, namun tidak mendorong orang ke Max karena nanti akan berayun ke sisi lain
00:03:10dan semua orang mengeluh kuota pemakaian mereka cepat habis. Dan ingat,
00:03:12jika Anda ingin mengubahnya,
00:03:13Anda hanya perlu melakukan garis miring effort dan kemudian atur level Anda.
00:03:16Resolusi yang lebih tinggi juga tersedia di API.
00:03:19Dan kemudian mereka juga telah merilis perintah garis miring ultra-review yang baru.
00:03:24Jadi ini mendapatkan sesi peninjauan khusus di atas itu.
00:03:28Mereka juga telah memperluas mode otomatis. Dan jika Anda tidak tahu tentang mode otomatis,
00:03:31itu pada dasarnya hanyalah alternatif untuk mengabaikan izin secara berbahaya. Sekarang,
00:03:34satu hal yang mereka catat di sini adalah Opus 4.7 akan menggunakan lebih banyak token
00:03:39daripada 4.6.
00:03:40Jadi mereka secara eksplisit menyatakan bahwa Opus 4.7 menggunakan tokenizer yang diperbarui dan meningkatkan cara
00:03:45ia memproses teks, tetapi itu meningkatkan jumlah token pada input,
00:03:50sekitar 1 hingga 1,35 kali lipat, tergantung pada jenis kontennya.
00:03:54Dan kedua, Opus 4.7 berpikir lebih banyak pada tingkat upaya yang lebih tinggi.
00:03:58Jadi ingatlah karena mereka menetapkan upaya default ke Extra High
00:04:03padahal sebelumnya berada di Medium, dan Opus 4.7 menggunakan lebih banyak token.
00:04:07Jadi jika Anda selama ini berada di tingkat Medium,
00:04:09Anda tidak pernah mengubahnya dan Anda sudah mencapai batas pemakaian atau batas penggunaan di
00:04:134.6, waspadalah akan hal ini. Pahami bahwa Anda pasti bisa mengalami masalah penggunaan.
00:04:18Jika Anda adalah orang yang sudah mengalami hal itu,
00:04:19karena sekarang ia akan menggunakan lebih banyak token lagi.
00:04:21Yang juga menarik adalah mereka telah menghapus pemikiran yang diperluas juga.
00:04:25Dan jika Anda ingin membaca lebih lanjut dan mendapatkan semacam pendalaman tentang migrasi ini,
00:04:28mereka menyertakan seluruh materinya di dokumentasi.
00:04:30Jadi secara keseluruhan ini terlihat seperti peningkatan yang sangat solid.
00:04:32Dan saya bersemangat untuk segera mencoba dan mengujinya sendiri.