Claude Mythos AKHIRNYA tiba (Fable 5)

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Claude Mythos akhirnya hadir.
00:00:01Anthropic baru saja merilis model baru bernama Fable 5,
00:00:03yang merupakan model kelas Mythos,
00:00:05hanya saja dengan banyak perlindungan bawaan,
00:00:07tetapi ini melampaui model apa pun yang pernah mereka rilis,
00:00:09dan mungkin model siapa pun.
00:00:11Ini adalah yang tercanggih di hampir setiap tolok ukur.
00:00:13Tentu saja, ini pasti akan memakan biaya,
00:00:16dan mereka melakukan sesuatu yang sedikit menarik
00:00:17dengan harganya di sini
00:00:18yang menurut saya tidak terlalu disukai banyak orang.
00:00:25Biasanya, saya tidak suka menghabiskan terlalu banyak waktu
00:00:27untuk tolok ukur, tapi tabel ini cukup gila.
00:00:30Loncatan yang dibuat model ini
00:00:31pada beberapa tolok ukur ini,
00:00:32dan fakta bahwa ia unggul di hampir setiap tolok ukur.
00:00:35Anda bisa melihat ia mengalami loncatan 10% di Argentic Coding
00:00:37pada SWE Bench Pro,
00:00:39dan pada dasarnya 20% di depan GPT 5.5,
00:00:42dan ia membuat loncatan serupa pada tolok ukur Frontier Code.
00:00:44Frontier Code sebenarnya adalah tolok ukur baru dari Cognition,
00:00:47orang-orang di balik Devin,
00:00:48yang pada dasarnya menguji apa yang akan dipertahankan
00:00:49yang benar-benar menggabungkan kode yang dihasilkan model ini.
00:00:52Pada grafik ini, Anda bisa melihat Fable 5 unggul
00:00:54dari setiap model lainnya,
00:00:55bahkan pada upaya penalaran menengah,
00:00:57tapi saya juga berpikir Anda bisa melihat model ini
00:00:58akan sangat mahal.
00:01:00Ini juga sedikit lebih baik dalam penggunaan komputer,
00:01:02bukan loncatan besar,
00:01:03dan hal yang sama berlaku untuk Terminal Bench di bagian bawah,
00:01:05tapi sekali lagi, seperti yang Anda lihat,
00:01:06ini adalah pemimpin di hampir setiap kategori.
00:01:09Salah satu hal terbesar, namun,
00:01:10yang menjadi semakin relevan
00:01:11adalah tugas jangka panjang.
00:01:12Fable 5 tampaknya dapat bekerja lebih lama
00:01:14daripada model lainnya,
00:01:15dan mereka meminta Stripe untuk mengujinya,
00:01:17dan tampaknya ia melakukan migrasi seluruh basis kode
00:01:18dari 50 juta baris basis kode Ruby
00:01:21dalam satu hari.
00:01:22Mungkin dibantu oleh fakta bahwa ia telah
00:01:24jauh lebih baik dalam memori dan konteks panjang juga.
00:01:26Ia tampaknya dapat tetap fokus di jutaan
00:01:28token dalam tugas jangka panjang,
00:01:29dan ia meningkatkan keluarannya sendiri
00:01:31dengan menggunakan catatan-catatannya sendiri.
00:01:32Sekarang, selain hanya pengkodean,
00:01:33kemampuan visinya juga cukup mengagumkan.
00:01:36Tampaknya, ia bisa mengalahkan Pokemon Fire Red
00:01:37dengan perangkat visi minimalis saja sekarang,
00:01:39padahal sebelumnya mereka harus memberikan alat tambahan ini,
00:01:42dan itu pun hampir tidak mengalahkannya,
00:01:43tapi sekarang ia tidak ada masalah.
00:01:45Ia juga tampaknya akan dengan senang hati membuat situs web dalam sekali coba
00:01:47dari tangkapan layar.
00:01:48Saya sebenarnya menguji ini menggunakan situs web Linear,
00:01:50dan saya jadi sedikit bingung
00:01:52mana yang mana di sini,
00:01:53tapi yang di sebelah kanan adalah yang
00:01:55dihasilkan Fable 5
00:01:56hanya dari tangkapan layar situs web Linear.
00:01:58Ia tidak menggunakan pencarian web atau semacamnya,
00:02:00Saya hanya memberikannya tangkapan layar penuh dari halaman web ini,
00:02:02dan saya katakan ia telah melakukan pekerjaan yang cukup mengagumkan.
00:02:05Semua tangkapan layar, semuanya,
00:02:06telah dihasilkan dengan kode,
00:02:08dan Anda bisa melihat ia telah melakukan pekerjaan yang sangat, sangat baik.
00:02:10Hal-hal seperti animasi SVG
00:02:12yang tidak akan sempurna,
00:02:14tapi secara keseluruhan, saya akan katakan saya cukup senang
00:02:15dengan cara ia membuat ulang situs web ini,
00:02:18dan ia telah berhasil di hampir setiap bagian,
00:02:20atau setidaknya membuat saya sampai pada titik
00:02:21di mana saya kemudian bisa mengiterasinya
00:02:22untuk membuatnya persis seperti yang saya inginkan.
00:02:24Sambil di sini,
00:02:24saya juga memutuskan untuk menguji model-model ini
00:02:25dalam membangun bagian depan dan belakang
00:02:27untuk aplikasi dasbor keuangan
00:02:28dari folder yang benar-benar kosong dalam sekali jalan,
00:02:31dan inilah yang diberikan Fable 5 kepada saya.
00:02:33Saya telah menguji semuanya,
00:02:34semuanya berfungsi,
00:02:35ia berkomunikasi dengan API,
00:02:37dan secara keseluruhan, desainnya terlihat sangat bagus.
00:02:39Ini benar-benar dapat digunakan,
00:02:40tapi itulah estetika
00:02:41yang akhir-akhir ini tampaknya diberikan oleh model Claude.
00:02:43Kita bisa melihatnya pada hasil
00:02:44yang diberikan Opus 4.8 kepada saya juga.
00:02:45Sekali lagi, menurut saya situs ini terlihat sangat bagus,
00:02:47dan jujur saja dengan Anda,
00:02:48saya akan berpendapat ini terlihat lebih baik daripada yang Fable 5,
00:02:50tapi sekali lagi, ia memiliki estetika
00:02:51yang telah dilatih ke dalam Claude,
00:02:53tapi itu juga kesalahan saya.
00:02:54Saya tidak meminta ini untuk menggunakan desain tertentu apa pun.
00:02:56Saya yakin jika saya melakukannya,
00:02:57ia akan melakukan pekerjaan yang hebat.
00:02:58Jika kita bandingkan ini dengan apa yang diberikan GPT 5.5 kepada saya,
00:03:00namun,
00:03:01Anda bisa melihatnya bahkan tidak mendekati.
00:03:03Ini dari satu perintah,
00:03:04perintah yang persis sama,
00:03:05dan mereka benar-benar tertinggal jauh dalam desain UI,
00:03:07menurut pendapat saya.
00:03:08Saya sangat berharap model GPT berikutnya
00:03:10melakukan sesuatu mengenai hal ini.
00:03:11Fable 5 sebenarnya mengejutkan saya pada tes itu
00:03:13dengan menjadi yang tercepat.
00:03:14Itu memakan waktu sekitar delapan menit
00:03:15untuk menyelesaikan dasbor keuangan itu,
00:03:17sedangkan Opus memakan waktu 12 menit,
00:03:18dan GPT 5.5 memakan waktu 15 menit
00:03:20untuk membuat kekejian itu.
00:03:22Selain hanya demo saya,
00:03:23salah satu favorit saya adalah Anthropic,
00:03:24yang menunjukkan Fable 5 membangun model CAD yang dapat dicetak 3D
00:03:27di editor CAD berbasis browser
00:03:28yang Fable 5 sendiri juga buat.
00:03:31Seperti, membangun perangkat lunak mini Anda sendiri
00:03:32sangat dapat dicapai sekarang,
00:03:34dan hal yang sama berlaku untuk obat-obatan.
00:03:36Tampaknya model ini sangat bagus dalam desain obat,
00:03:38tapi Anda mungkin tidak perlu tahu tentang itu,
00:03:40dan ya, ini jelas dilindungi,
00:03:43seperti pada dasarnya apa pun
00:03:44yang mendekati keamanan siber,
00:03:45kecuali Anda adalah salah satu perusahaan
00:03:46dalam program khusus itu.
00:03:48Fable 5 tampaknya akan sangat berhati-hati,
00:03:51yang berarti ia akan memiliki
00:03:51beberapa positif palsu,
00:03:53tampaknya kurang dari 5% pesan,
00:03:55tapi itu masih terlihat cukup tinggi bagi saya,
00:03:57dan saya sebenarnya pernah mengalami perlindungan Opus sebelumnya,
00:03:59jadi yang satu ini mungkin akan lebih buruk.
00:04:01Tampaknya namun,
00:04:02daripada hanya mengatakan tidak secara langsung,
00:04:04ia akan mencoba mengirim permintaan Anda
00:04:05ke Opus 4.8 terlebih dahulu
00:04:06untuk melihat apakah aman bagi model itu untuk melakukan pekerjaannya,
00:04:09tapi sekali lagi, saya pernah mengalami perlindungan ini sebelumnya,
00:04:11jadi saya tidak begitu yakin seberapa baik itu akan berhasil.
00:04:13Tolok ukur ini sebenarnya menunjukkan
00:04:14betapa gilanya perlindungan itu.
00:04:17Mengujinya pada evaluasi siber,
00:04:19Fable 5 dengan perlindungannya
00:04:20melewati nol dari tes ini.
00:04:22Ia hanya menolak untuk melakukan apa pun,
00:04:24dan seperti yang saya katakan sebelumnya,
00:04:25jika Opus terkadang menolak saya
00:04:27dengan tingkat keberhasilan 88% pada tes ini,
00:04:29saya melihat banyak orang
00:04:30mengalami perlindungan dengan Mythos.
00:04:32Hal terakhir untuk didiskusikan kemudian
00:04:33adalah harganya,
00:04:34dan di sinilah segalanya menjadi sedikit menarik.
00:04:37Ini $10 untuk satu juta token input,
00:04:39dan $50 untuk satu juta token output,
00:04:41yang menurut saya sebenarnya tidak terlalu buruk,
00:04:42ini bukan yang terburuk yang pernah kita lihat,
00:04:44tapi apa yang tidak terlalu saya sukai
00:04:45adalah blok berikutnya ini.
00:04:47Fable 5 tersedia mulai hari ini
00:04:48dalam paket tim Pro Max dan perusahaan,
00:04:50tapi kemudian dalam beberapa minggu
00:04:52pada tanggal 23 Juni,
00:04:53mereka pada dasarnya akan merugikan paket plus
00:04:54dan mengambil model-model itu,
00:04:56dan setelah itu,
00:04:56itu akan memerlukan kredit penggunaan.
00:04:58Kemudian setelah ini,
00:04:59mereka mengatakan mereka akan menambahkan model-model ini
00:05:01kembali ke paket-paket itu
00:05:02pada tanggal yang belum ditentukan.
00:05:04Ini hanya tampak seperti cara yang aneh dalam melakukan sesuatu,
00:05:05dan saya kira tujuan mereka
00:05:06adalah untuk membuat Anda ketagihan dengan model-model ini,
00:05:08lalu mengambilnya dari Anda,
00:05:09dan membuat Anda menghabiskan lebih banyak uang untuk mereka,
00:05:11dan menurut saya ini menandakan
00:05:12betapa mahalnya model-model ini
00:05:13untuk mereka jalankan.
00:05:14Oh, dan itu juga menggunakan batasan Anda
00:05:16dua kali lebih cepat dari Opus,
00:05:17jadi saya mungkin tidak akan mengatur ini
00:05:18sebagai model utama Anda
00:05:19kecuali Anda semacam miliarder.
00:05:21Catatan kaki terakhir
00:05:21yang menurut saya menarik
00:05:23adalah kebijakan retensi data baru mereka.
00:05:25Untuk menggunakan model-model ini,
00:05:25mereka sebenarnya memerlukan retensi 30 hari
00:05:27dari semua lalu lintas
00:05:28pada alat pihak pertama dan ketiga,
00:05:30dan konon tidak ada pelatihan
00:05:31yang akan dilakukan pada data ini,
00:05:33ini hanya untuk mencoba
00:05:34dan memblokir ancaman keamanan.
00:05:35Jadi begitulah,
00:05:36Mythos akhirnya hadir.
00:05:37Apa pendapat Anda tentang perilisan model ini
00:05:39dan masa depan perangkat lunak?
00:05:40Beri tahu saya di kolom komentar di bawah.
00:05:41Sambil di sana, berlanggananlah,
00:05:42dan seperti biasa,
00:05:43sampai jumpa di video berikutnya.
00:05:44Dah.

Key Takeaway

Fable 5 menetapkan standar performa baru di hampir setiap tolok ukur pengkodean dan penalaran, namun pengguna harus mempertimbangkan biaya tinggi, batasan penggunaan yang lebih ketat, dan kebijakan retensi data 30 hari.

Highlights

  • Fable 5 mengungguli model lain dengan loncatan performa 10% pada SWE Bench Pro dan hampir 20% di atas GPT 5.5.

  • Kemampuan pengkodean jangka panjang memungkinkan migrasi basis kode Ruby sebanyak 50 juta baris dalam satu hari.

  • Antarmuka pengguna dasbor keuangan diselesaikan oleh Fable 5 dalam 8 menit, jauh lebih cepat dibandingkan Opus (12 menit) dan GPT 5.5 (15 menit).

  • Struktur harga ditetapkan sebesar $10 per satu juta token input dan $50 per satu juta token output.

  • Kebijakan penggunaan baru mewajibkan retensi data selama 30 hari pada lalu lintas alat pihak pertama dan ketiga untuk pemantauan keamanan.

  • Perlindungan keamanan yang ketat pada Fable 5 menyebabkan kegagalan 100% pada evaluasi siber tertentu karena model menolak eksekusi permintaan.

Timeline

Performa dan Tolok Ukur Fable 5

  • Fable 5 memimpin hampir di setiap kategori tolok ukur model AI saat ini.
  • Model ini melampaui GPT 5.5 sebesar 20% pada SWE Bench Pro dan Frontier Code.
  • Peningkatan performa mencakup tugas penalaran menengah hingga penggunaan komputer.

Fable 5 hadir sebagai model kelas Mythos dari Anthropic dengan perlindungan bawaan yang ekstensif. Data menunjukkan keunggulan signifikan dalam tolok ukur pengkodean seperti SWE Bench Pro dan Frontier Code, tolok ukur baru dari Cognition. Meskipun terdapat peningkatan pada Terminal Bench dan kemampuan penggunaan komputer, model ini memosisikan diri sebagai pemimpin pasar dari sisi teknis.

Kapabilitas Tugas Jangka Panjang dan Visi

  • Migrasi basis kode Ruby 50 juta baris berhasil diselesaikan dalam durasi satu hari.
  • Model menunjukkan kemampuan visi tinggi dengan menciptakan situs web fungsional hanya dari tangkapan layar.
  • Pembuatan dasbor keuangan dari folder kosong memerlukan waktu 8 menit, lebih efisien daripada model pesaing.

Efisiensi Fable 5 terlihat dalam tugas jangka panjang dan pemrosesan konteks jutaan token. Pengujian praktis menunjukkan kemampuan menghasilkan kode situs web yang presisi dari tangkapan layar tanpa pencarian web tambahan. Dibandingkan dengan Opus (12 menit) dan GPT 5.5 (15 menit), Fable 5 menyelesaikan pembuatan aplikasi dasbor keuangan dalam 8 menit, mengungguli estetika dan kecepatan model lainnya.

Perlindungan Keamanan dan Kebijakan

  • Fable 5 memiliki sistem perlindungan keamanan yang sangat ketat.
  • Evaluasi siber menunjukkan tingkat penolakan eksekusi mencapai 100% pada tes tertentu.
  • Model mencoba melakukan verifikasi keamanan melalui Opus 4.8 sebelum menjalankan permintaan berisiko.

Anthropic mengintegrasikan sistem keamanan yang sangat berhati-hati pada Fable 5, yang sering kali menghasilkan positif palsu. Pada pengujian evaluasi siber, model menolak melakukan tugas karena kebijakan keamanan yang ketat. Mekanisme ini mencakup pengalihan permintaan ke Opus 4.8 sebagai verifikator keamanan, meskipun efektivitas metode ini masih bervariasi.

Struktur Biaya dan Retensi Data

  • Biaya penggunaan dipatok $10 per satu juta token input dan $50 per satu juta token output.
  • Akses model akan dibatasi melalui sistem kredit penggunaan setelah masa promosi berakhir pada 23 Juni.
  • Pengguna wajib menyetujui retensi data selama 30 hari untuk lalu lintas pihak pertama dan ketiga.

Model ini memiliki biaya operasional yang tinggi bagi pengguna. Setelah masa akses awal melalui paket tim Pro Max, sistem akan beralih ke model kredit penggunaan. Selain itu, kebijakan privasi mewajibkan penyimpanan data selama 30 hari sebagai bagian dari protokol keamanan, yang menjadi pertimbangan bagi pengguna dengan kebutuhan privasi ketat.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video