Anthropic Meluncurkan BOM Opus 4.8

CChase AI
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Anthropic baru saja merilis Claude Opus 4.8 hari ini.
00:00:02Jadi di video ini, saya akan segera menjelaskan
00:00:05apa yang berubah dan apa yang perlu Anda perhatikan
00:00:08dengan model baru ini.
00:00:09Mari kita langsung lihat tolok ukurnya.
00:00:12Kita memiliki Opus 4.8 yang disorot di sini
00:00:14dan dibandingkan dengan Opus 4.7, GPT 5.5, dan Gemini 3.1 Pro,
00:00:20Opus hampir mengungguli semuanya di setiap kategori
00:00:24kecuali pengodean terminal agen,
00:00:26yaitu Terminal Bench 2.1.
00:00:28Di sana, ia mencetak skor 74,6,
00:00:30yang masih merupakan lompatan besar dari Opus 4.7,
00:00:34namun masih tertinggal dari GPT 5.5.
00:00:37Tetapi untuk hal lainnya, yaitu SWE Bench Pro,
00:00:40penalaran multidisiplin, penggunaan komputer agen,
00:00:42kerja pengetahuan, serta analisis keuangan agen,
00:00:45ia unggul dari yang lainnya.
00:00:47Sekarang kita semua menyikapi tolok ukur dengan sedikit keraguan
00:00:49pada titik ini, tetapi senang melihat lompatan besar
00:00:53dari apa yang mereka laporkan dengan Opus 4.7,
00:00:56sebenarnya belum lama ini.
00:00:57Maksud saya, baru beberapa bulan lalu,
00:00:584.7 dirilis dan kita sudah memiliki 4.8
00:01:01dan kita naik dari 64 ke 69 dalam pengodean agen.
00:01:04Ini hal yang bagus.
00:01:05Sekarang salah satu peningkatan besar 4.8 dibandingkan 4.7,
00:01:08menurut Anthropic, adalah kejujurannya.
00:01:11Dan dengan kejujuran, maksud kami model AI ini,
00:01:14ketika Anda menyuruhnya melakukan sesuatu,
00:01:15jika ia tidak bisa melakukannya atau belum melakukannya,
00:01:18ia benar-benar akan memberi tahu Anda.
00:01:19Ini masalah besar
00:01:20jika Anda telah menggunakan model ini
00:01:22selama beberapa tahun terakhir,
00:01:22di mana Anda menyuruhnya melakukan sesuatu seperti,
00:01:24hei, lihat transkrip raksasa ini
00:01:27dan benar-benar membacanya lalu beri tahu saya apa yang Anda lakukan.
00:01:29Dan kemudian ketika Anda melihat hasilnya
00:01:31dan Anda benar-benar menginterogasinya,
00:01:32ia akan mengatakan sesuatu seperti,
00:01:33yah, saya sebenarnya hanya meringkasnya.
00:01:35Saya tidak membaca semuanya.
00:01:35Ini masalah besar.
00:01:37Dan jika Anda telah menggunakan AI untuk pekerjaan nyata apa pun,
00:01:40Anda tahu betapa pentingnya membuat semua tes ini,
00:01:42untuk benar-benar memastikan ia melakukan apa yang ia katakan.
00:01:46Tetapi Anthropic mengatakan,
00:01:47hei, ini mungkin tidak akan menjadi masalah sebesar 4.8
00:01:50dibandingkan dengan beberapa model sebelumnya.
00:01:51Secara spesifik, mereka mengatakan,
00:01:52menurut evaluasi mereka,
00:01:54yang bisa Anda lihat di dalam kartu sistem mereka,
00:01:56yang panjangnya sekitar 250 halaman,
00:01:59mereka mengatakan itu menunjukkan bahwa Opus 4.8
00:02:01sekitar empat kali lebih kecil kemungkinannya dibanding pendahulunya
00:02:04untuk membiarkan kesalahan dalam kode yang ditulisnya lewat begitu saja.
00:02:07Jadi sekali lagi, ia akan jauh lebih jujur
00:02:09tentang apa yang tidak berfungsi versus apa yang berfungsi,
00:02:12dan ia tidak akan memanipulasi Anda.
00:02:13Mereka juga menilai bahwa 4.8 memiliki tingkat perilaku yang tidak selaras
00:02:16seperti penipuan atau kerja sama dengan penyalahgunaan
00:02:18yang jauh lebih rendah daripada Opus 4.7
00:02:21dan mirip dengan Mythos.
00:02:24Dan Anda bisa melihat perilaku tidak selaras itu tepat di sini
00:02:25di mana Opus 4.7 dan terutama Sonnet 4.6
00:02:28akan memiliki beberapa kecenderungan ini,
00:02:31dan kita tidak terlalu melihatnya dengan Mythos
00:02:33atau Opus 4.8.
00:02:35Sekarang, di luar model itu sendiri,
00:02:36ada beberapa pembaruan lagi yang didorong oleh Anthropic.
00:02:39Yang pertama adalah alur kerja dinamis.
00:02:41Sekarang, alur kerja dinamis mirip dengan tujuan.
00:02:43Idenya adalah bahwa kita sekarang bisa memasukkan kode jam
00:02:45pada tugas yang sangat kompleks,
00:02:47dan ia akan mengerjakannya seiring waktu,
00:02:50melahirkan puluhan hingga ratusan agen paralel
00:02:52dalam satu sesi
00:02:53untuk memastikan pekerjaan tersebut benar-benar selesai.
00:02:56Seperti yang Anda ketahui, ada banyak masalah
00:02:57yang meskipun Anda melakukan sesuatu dalam mode rencana
00:02:59dan memecahnya menjadi banyak tugas
00:03:00itu terlalu banyak untuk ditangani kode jam sekaligus.
00:03:03Alur kerja dinamis ini adalah jawaban untuk masalah itu,
00:03:05dan saya akan melakukan pembahasan mendalam
00:03:06tentang alur kerja dinamis dalam waktu dekat.
00:03:09Tetapi jika Anda ingin mencobanya hari ini,
00:03:11ada dua pilihan nyata.
00:03:12Yang pertama adalah menggunakan bahasa biasa
00:03:13dan katakan, hei, Claude, buat alur kerja dinamis,
00:03:15atau aktifkan pengaturan khusus kode Claude yang baru
00:03:18disebut UltraCode.
00:03:20Perubahan besar lainnya untuk Claude.ai,
00:03:22chatbot dan rekan kerja yang sebenarnya,
00:03:24ini sebenarnya bukan masalah dengan kode,
00:03:26adalah bahwa mereka sekarang memiliki lebih banyak kontrol
00:03:27ketika memilih seberapa besar usaha
00:03:30yang Claude berikan ke dalam respons, bukan?
00:03:31Kami sudah memiliki ini dengan kode Claude selama beberapa waktu
00:03:33dengan seperti tinggi versus sangat tinggi versus maksimal.
00:03:35Nah, itu sekarang ada di dalam hal-hal
00:03:36seperti Claude.ai dan rekan kerja.
00:03:38Dan terakhir, jika Anda seseorang
00:03:39yang telah menggunakan API Pesan,
00:03:41sekarang ia menerima entri sistem di dalam array pesan.
00:03:44Ini sangat bagus
00:03:45karena Anda bisa memperbarui instruksi Claude di tengah tugas.
00:03:47Ini mirip dengan Codex
00:03:50dan seperti fitur kemudi
00:03:51versus fitur antrean
00:03:52ketika Anda memberinya perintah tambahan.
00:03:54Perlu dicatat, Opus juga menetapkan standar ke usaha tinggi,
00:03:57bukan ekstra tinggi.
00:03:59Ingat dengan Opus 4.7
00:04:00di mana mereka menunjukkan grafik itu kepada kita,
00:04:01mereka memberi tahu kita,
00:04:03hei, ekstra tinggi adalah tempat yang Anda inginkan.
00:04:05Jadi, pahami saja 4.8 berada pada tinggi
00:04:07dan Anda masih memiliki dua tingkat di atas itu yang bisa Anda pilih
00:04:09jika Anda ingin mendapatkan sedikit lebih banyak usaha
00:04:11dari model baru ini.
00:04:12Dan jika Anda bertanya-tanya tentang penggunaan token,
00:04:14mereka telah meningkatkan batas kecepatan dalam kode Claude
00:04:16untuk mengakomodasi penggunaan token yang lebih tinggi
00:04:18dari tingkat usaha yang lebih tinggi,
00:04:20yang sangat bagus.
00:04:21Jadi itu gambaran umum yang cepat dan kotor
00:04:22tentang Claude Opus 4.8 yang baru.
00:04:24Ingat, ia memiliki harga yang persis sama
00:04:25seperti Opus 4.7,
00:04:26jadi Anda tidak membayar biaya tambahan apa pun
00:04:28untuk kekuatan baru ini juga.
00:04:29Seperti biasa, beri tahu saya pendapat Anda.
00:04:31Pastikan untuk memeriksa Chase AI Plus
00:04:33di komentar yang ditautkan
00:04:34jika Anda ingin mendapatkan
00:04:35Kelas Master Claude Code saya
00:04:36dan sampai jumpa lagi.

Key Takeaway

Claude Opus 4.8 menghadirkan peningkatan signifikan pada kejujuran model, pengurangan perilaku tidak selaras, serta fitur alur kerja dinamis untuk tugas kompleks dengan harga yang sama seperti pendahulunya.

Highlights

  • Claude Opus 4.8 mengungguli model lain di hampir semua kategori tolok ukur, termasuk SWE Bench Pro dan penalaran multidisiplin.

  • Tingkat kemungkinan kesalahan dalam kode yang ditulis berkurang menjadi 25% dibandingkan dengan pendahulunya.

  • Perilaku tidak selaras seperti penipuan atau kerja sama dengan penyalahgunaan jauh lebih rendah dibandingkan Opus 4.7.

  • Fitur alur kerja dinamis memungkinkan pengerjaan tugas kompleks dengan melahirkan puluhan hingga ratusan agen paralel dalam satu sesi.

  • API Pesan sekarang menerima entri sistem dalam array pesan, memungkinkan pembaruan instruksi di tengah tugas.

  • Harga penggunaan Claude Opus 4.8 tetap sama dengan versi 4.7 meski terdapat peningkatan kemampuan.

Timeline

Performa Tolok Ukur dan Kejujuran Model

  • Opus 4.8 mengungguli kompetitor dalam SWE Bench Pro dan analisis keuangan agen.
  • Skor pengodean agen meningkat dari 64 pada versi 4.7 menjadi 69 pada versi 4.8.
  • Model ini mencatat skor 74,6 pada Terminal Bench 2.1.

Perbandingan menunjukkan Opus 4.8 mendominasi berbagai kategori tolok ukur utama dibandingkan GPT 5.5 dan Gemini 3.1 Pro. Peningkatan skor pada pengodean agen menunjukkan kemajuan pesat hanya dalam beberapa bulan sejak rilis versi 4.7. Meskipun terdapat sedikit keraguan terhadap tolok ukur, data menunjukkan lonjakan performa yang konsisten di berbagai domain kerja pengetahuan.

Peningkatan Integritas dan Keamanan

  • Opus 4.8 empat kali lebih jujur dalam melaporkan kemampuan pengerjaan tugas dibanding pendahulunya.
  • Evaluasi sistem sepanjang 250 halaman mengonfirmasi penurunan drastis pada kesalahan kode yang terlewat.
  • Tingkat perilaku tidak selaras berada di level yang serupa dengan model Mythos.

Fokus utama pembaruan adalah meningkatkan kejujuran AI agar tidak mengklaim telah melakukan tugas yang tidak diselesaikan. Pengguna dapat mempercayai hasil kerja model karena kemungkinan kesalahan kode yang dibiarkan lewat berkurang secara signifikan. Selain itu, kecenderungan perilaku berbahaya seperti penipuan ditekan hingga mencapai standar keamanan yang lebih ketat.

Fitur Baru dan Integrasi API

  • Alur kerja dinamis memungkinkan eksekusi tugas kompleks melalui ratusan agen paralel.
  • Pengaturan UltraCode tersedia sebagai metode aktifasi alur kerja dinamis.
  • API Pesan kini mendukung entri sistem untuk pembaruan instruksi secara real-time.
  • Batas kecepatan (rate limit) ditingkatkan untuk mendukung penggunaan token yang lebih tinggi.

Alur kerja dinamis menjadi solusi untuk tugas yang terlalu besar bagi pemrosesan kode tunggal dengan memecahnya menjadi banyak agen. Kontrol usaha respons kini diperluas ke platform Claude.ai dan rekan kerja, mirip dengan yang sebelumnya tersedia di Claude Code. Integrasi entri sistem pada API memberikan fleksibilitas tambahan bagi pengembang untuk mengubah arah instruksi tanpa harus memulai ulang sesi.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video