Transcript
00:00:00Anthropic baru saja merilis Claude Opus 4.8 hari ini.
00:00:02Jadi di video ini, saya akan segera menjelaskan
00:00:05apa yang berubah dan apa yang perlu Anda perhatikan
00:00:08dengan model baru ini.
00:00:09Mari kita langsung lihat tolok ukurnya.
00:00:12Kita memiliki Opus 4.8 yang disorot di sini
00:00:14dan dibandingkan dengan Opus 4.7, GPT 5.5, dan Gemini 3.1 Pro,
00:00:20Opus hampir mengungguli semuanya di setiap kategori
00:00:24kecuali pengodean terminal agen,
00:00:26yaitu Terminal Bench 2.1.
00:00:28Di sana, ia mencetak skor 74,6,
00:00:30yang masih merupakan lompatan besar dari Opus 4.7,
00:00:34namun masih tertinggal dari GPT 5.5.
00:00:37Tetapi untuk hal lainnya, yaitu SWE Bench Pro,
00:00:40penalaran multidisiplin, penggunaan komputer agen,
00:00:42kerja pengetahuan, serta analisis keuangan agen,
00:00:45ia unggul dari yang lainnya.
00:00:47Sekarang kita semua menyikapi tolok ukur dengan sedikit keraguan
00:00:49pada titik ini, tetapi senang melihat lompatan besar
00:00:53dari apa yang mereka laporkan dengan Opus 4.7,
00:00:56sebenarnya belum lama ini.
00:00:57Maksud saya, baru beberapa bulan lalu,
00:00:584.7 dirilis dan kita sudah memiliki 4.8
00:01:01dan kita naik dari 64 ke 69 dalam pengodean agen.
00:01:04Ini hal yang bagus.
00:01:05Sekarang salah satu peningkatan besar 4.8 dibandingkan 4.7,
00:01:08menurut Anthropic, adalah kejujurannya.
00:01:11Dan dengan kejujuran, maksud kami model AI ini,
00:01:14ketika Anda menyuruhnya melakukan sesuatu,
00:01:15jika ia tidak bisa melakukannya atau belum melakukannya,
00:01:18ia benar-benar akan memberi tahu Anda.
00:01:19Ini masalah besar
00:01:20jika Anda telah menggunakan model ini
00:01:22selama beberapa tahun terakhir,
00:01:22di mana Anda menyuruhnya melakukan sesuatu seperti,
00:01:24hei, lihat transkrip raksasa ini
00:01:27dan benar-benar membacanya lalu beri tahu saya apa yang Anda lakukan.
00:01:29Dan kemudian ketika Anda melihat hasilnya
00:01:31dan Anda benar-benar menginterogasinya,
00:01:32ia akan mengatakan sesuatu seperti,
00:01:33yah, saya sebenarnya hanya meringkasnya.
00:01:35Saya tidak membaca semuanya.
00:01:35Ini masalah besar.
00:01:37Dan jika Anda telah menggunakan AI untuk pekerjaan nyata apa pun,
00:01:40Anda tahu betapa pentingnya membuat semua tes ini,
00:01:42untuk benar-benar memastikan ia melakukan apa yang ia katakan.
00:01:46Tetapi Anthropic mengatakan,
00:01:47hei, ini mungkin tidak akan menjadi masalah sebesar 4.8
00:01:50dibandingkan dengan beberapa model sebelumnya.
00:01:51Secara spesifik, mereka mengatakan,
00:01:52menurut evaluasi mereka,
00:01:54yang bisa Anda lihat di dalam kartu sistem mereka,
00:01:56yang panjangnya sekitar 250 halaman,
00:01:59mereka mengatakan itu menunjukkan bahwa Opus 4.8
00:02:01sekitar empat kali lebih kecil kemungkinannya dibanding pendahulunya
00:02:04untuk membiarkan kesalahan dalam kode yang ditulisnya lewat begitu saja.
00:02:07Jadi sekali lagi, ia akan jauh lebih jujur
00:02:09tentang apa yang tidak berfungsi versus apa yang berfungsi,
00:02:12dan ia tidak akan memanipulasi Anda.
00:02:13Mereka juga menilai bahwa 4.8 memiliki tingkat perilaku yang tidak selaras
00:02:16seperti penipuan atau kerja sama dengan penyalahgunaan
00:02:18yang jauh lebih rendah daripada Opus 4.7
00:02:21dan mirip dengan Mythos.
00:02:24Dan Anda bisa melihat perilaku tidak selaras itu tepat di sini
00:02:25di mana Opus 4.7 dan terutama Sonnet 4.6
00:02:28akan memiliki beberapa kecenderungan ini,
00:02:31dan kita tidak terlalu melihatnya dengan Mythos
00:02:33atau Opus 4.8.
00:02:35Sekarang, di luar model itu sendiri,
00:02:36ada beberapa pembaruan lagi yang didorong oleh Anthropic.
00:02:39Yang pertama adalah alur kerja dinamis.
00:02:41Sekarang, alur kerja dinamis mirip dengan tujuan.
00:02:43Idenya adalah bahwa kita sekarang bisa memasukkan kode jam
00:02:45pada tugas yang sangat kompleks,
00:02:47dan ia akan mengerjakannya seiring waktu,
00:02:50melahirkan puluhan hingga ratusan agen paralel
00:02:52dalam satu sesi
00:02:53untuk memastikan pekerjaan tersebut benar-benar selesai.
00:02:56Seperti yang Anda ketahui, ada banyak masalah
00:02:57yang meskipun Anda melakukan sesuatu dalam mode rencana
00:02:59dan memecahnya menjadi banyak tugas
00:03:00itu terlalu banyak untuk ditangani kode jam sekaligus.
00:03:03Alur kerja dinamis ini adalah jawaban untuk masalah itu,
00:03:05dan saya akan melakukan pembahasan mendalam
00:03:06tentang alur kerja dinamis dalam waktu dekat.
00:03:09Tetapi jika Anda ingin mencobanya hari ini,
00:03:11ada dua pilihan nyata.
00:03:12Yang pertama adalah menggunakan bahasa biasa
00:03:13dan katakan, hei, Claude, buat alur kerja dinamis,
00:03:15atau aktifkan pengaturan khusus kode Claude yang baru
00:03:18disebut UltraCode.
00:03:20Perubahan besar lainnya untuk Claude.ai,
00:03:22chatbot dan rekan kerja yang sebenarnya,
00:03:24ini sebenarnya bukan masalah dengan kode,
00:03:26adalah bahwa mereka sekarang memiliki lebih banyak kontrol
00:03:27ketika memilih seberapa besar usaha
00:03:30yang Claude berikan ke dalam respons, bukan?
00:03:31Kami sudah memiliki ini dengan kode Claude selama beberapa waktu
00:03:33dengan seperti tinggi versus sangat tinggi versus maksimal.
00:03:35Nah, itu sekarang ada di dalam hal-hal
00:03:36seperti Claude.ai dan rekan kerja.
00:03:38Dan terakhir, jika Anda seseorang
00:03:39yang telah menggunakan API Pesan,
00:03:41sekarang ia menerima entri sistem di dalam array pesan.
00:03:44Ini sangat bagus
00:03:45karena Anda bisa memperbarui instruksi Claude di tengah tugas.
00:03:47Ini mirip dengan Codex
00:03:50dan seperti fitur kemudi
00:03:51versus fitur antrean
00:03:52ketika Anda memberinya perintah tambahan.
00:03:54Perlu dicatat, Opus juga menetapkan standar ke usaha tinggi,
00:03:57bukan ekstra tinggi.
00:03:59Ingat dengan Opus 4.7
00:04:00di mana mereka menunjukkan grafik itu kepada kita,
00:04:01mereka memberi tahu kita,
00:04:03hei, ekstra tinggi adalah tempat yang Anda inginkan.
00:04:05Jadi, pahami saja 4.8 berada pada tinggi
00:04:07dan Anda masih memiliki dua tingkat di atas itu yang bisa Anda pilih
00:04:09jika Anda ingin mendapatkan sedikit lebih banyak usaha
00:04:11dari model baru ini.
00:04:12Dan jika Anda bertanya-tanya tentang penggunaan token,
00:04:14mereka telah meningkatkan batas kecepatan dalam kode Claude
00:04:16untuk mengakomodasi penggunaan token yang lebih tinggi
00:04:18dari tingkat usaha yang lebih tinggi,
00:04:20yang sangat bagus.
00:04:21Jadi itu gambaran umum yang cepat dan kotor
00:04:22tentang Claude Opus 4.8 yang baru.
00:04:24Ingat, ia memiliki harga yang persis sama
00:04:25seperti Opus 4.7,
00:04:26jadi Anda tidak membayar biaya tambahan apa pun
00:04:28untuk kekuatan baru ini juga.
00:04:29Seperti biasa, beri tahu saya pendapat Anda.
00:04:31Pastikan untuk memeriksa Chase AI Plus
00:04:33di komentar yang ditautkan
00:04:34jika Anda ingin mendapatkan
00:04:35Kelas Master Claude Code saya
00:04:36dan sampai jumpa lagi.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video