Transcript
00:00:00Claude Mythos akhirnya hadir.
00:00:01Anthropic baru saja merilis model baru bernama Fable 5,
00:00:03yang merupakan model kelas Mythos,
00:00:05hanya saja dengan banyak perlindungan bawaan,
00:00:07tetapi ini melampaui model apa pun yang pernah mereka rilis,
00:00:09dan mungkin model siapa pun.
00:00:11Ini adalah yang tercanggih di hampir setiap tolok ukur.
00:00:13Tentu saja, ini pasti akan memakan biaya,
00:00:16dan mereka melakukan sesuatu yang sedikit menarik
00:00:17dengan harganya di sini
00:00:18yang menurut saya tidak terlalu disukai banyak orang.
00:00:25Biasanya, saya tidak suka menghabiskan terlalu banyak waktu
00:00:27untuk tolok ukur, tapi tabel ini cukup gila.
00:00:30Loncatan yang dibuat model ini
00:00:31pada beberapa tolok ukur ini,
00:00:32dan fakta bahwa ia unggul di hampir setiap tolok ukur.
00:00:35Anda bisa melihat ia mengalami loncatan 10% di Argentic Coding
00:00:37pada SWE Bench Pro,
00:00:39dan pada dasarnya 20% di depan GPT 5.5,
00:00:42dan ia membuat loncatan serupa pada tolok ukur Frontier Code.
00:00:44Frontier Code sebenarnya adalah tolok ukur baru dari Cognition,
00:00:47orang-orang di balik Devin,
00:00:48yang pada dasarnya menguji apa yang akan dipertahankan
00:00:49yang benar-benar menggabungkan kode yang dihasilkan model ini.
00:00:52Pada grafik ini, Anda bisa melihat Fable 5 unggul
00:00:54dari setiap model lainnya,
00:00:55bahkan pada upaya penalaran menengah,
00:00:57tapi saya juga berpikir Anda bisa melihat model ini
00:00:58akan sangat mahal.
00:01:00Ini juga sedikit lebih baik dalam penggunaan komputer,
00:01:02bukan loncatan besar,
00:01:03dan hal yang sama berlaku untuk Terminal Bench di bagian bawah,
00:01:05tapi sekali lagi, seperti yang Anda lihat,
00:01:06ini adalah pemimpin di hampir setiap kategori.
00:01:09Salah satu hal terbesar, namun,
00:01:10yang menjadi semakin relevan
00:01:11adalah tugas jangka panjang.
00:01:12Fable 5 tampaknya dapat bekerja lebih lama
00:01:14daripada model lainnya,
00:01:15dan mereka meminta Stripe untuk mengujinya,
00:01:17dan tampaknya ia melakukan migrasi seluruh basis kode
00:01:18dari 50 juta baris basis kode Ruby
00:01:21dalam satu hari.
00:01:22Mungkin dibantu oleh fakta bahwa ia telah
00:01:24jauh lebih baik dalam memori dan konteks panjang juga.
00:01:26Ia tampaknya dapat tetap fokus di jutaan
00:01:28token dalam tugas jangka panjang,
00:01:29dan ia meningkatkan keluarannya sendiri
00:01:31dengan menggunakan catatan-catatannya sendiri.
00:01:32Sekarang, selain hanya pengkodean,
00:01:33kemampuan visinya juga cukup mengagumkan.
00:01:36Tampaknya, ia bisa mengalahkan Pokemon Fire Red
00:01:37dengan perangkat visi minimalis saja sekarang,
00:01:39padahal sebelumnya mereka harus memberikan alat tambahan ini,
00:01:42dan itu pun hampir tidak mengalahkannya,
00:01:43tapi sekarang ia tidak ada masalah.
00:01:45Ia juga tampaknya akan dengan senang hati membuat situs web dalam sekali coba
00:01:47dari tangkapan layar.
00:01:48Saya sebenarnya menguji ini menggunakan situs web Linear,
00:01:50dan saya jadi sedikit bingung
00:01:52mana yang mana di sini,
00:01:53tapi yang di sebelah kanan adalah yang
00:01:55dihasilkan Fable 5
00:01:56hanya dari tangkapan layar situs web Linear.
00:01:58Ia tidak menggunakan pencarian web atau semacamnya,
00:02:00Saya hanya memberikannya tangkapan layar penuh dari halaman web ini,
00:02:02dan saya katakan ia telah melakukan pekerjaan yang cukup mengagumkan.
00:02:05Semua tangkapan layar, semuanya,
00:02:06telah dihasilkan dengan kode,
00:02:08dan Anda bisa melihat ia telah melakukan pekerjaan yang sangat, sangat baik.
00:02:10Hal-hal seperti animasi SVG
00:02:12yang tidak akan sempurna,
00:02:14tapi secara keseluruhan, saya akan katakan saya cukup senang
00:02:15dengan cara ia membuat ulang situs web ini,
00:02:18dan ia telah berhasil di hampir setiap bagian,
00:02:20atau setidaknya membuat saya sampai pada titik
00:02:21di mana saya kemudian bisa mengiterasinya
00:02:22untuk membuatnya persis seperti yang saya inginkan.
00:02:24Sambil di sini,
00:02:24saya juga memutuskan untuk menguji model-model ini
00:02:25dalam membangun bagian depan dan belakang
00:02:27untuk aplikasi dasbor keuangan
00:02:28dari folder yang benar-benar kosong dalam sekali jalan,
00:02:31dan inilah yang diberikan Fable 5 kepada saya.
00:02:33Saya telah menguji semuanya,
00:02:34semuanya berfungsi,
00:02:35ia berkomunikasi dengan API,
00:02:37dan secara keseluruhan, desainnya terlihat sangat bagus.
00:02:39Ini benar-benar dapat digunakan,
00:02:40tapi itulah estetika
00:02:41yang akhir-akhir ini tampaknya diberikan oleh model Claude.
00:02:43Kita bisa melihatnya pada hasil
00:02:44yang diberikan Opus 4.8 kepada saya juga.
00:02:45Sekali lagi, menurut saya situs ini terlihat sangat bagus,
00:02:47dan jujur saja dengan Anda,
00:02:48saya akan berpendapat ini terlihat lebih baik daripada yang Fable 5,
00:02:50tapi sekali lagi, ia memiliki estetika
00:02:51yang telah dilatih ke dalam Claude,
00:02:53tapi itu juga kesalahan saya.
00:02:54Saya tidak meminta ini untuk menggunakan desain tertentu apa pun.
00:02:56Saya yakin jika saya melakukannya,
00:02:57ia akan melakukan pekerjaan yang hebat.
00:02:58Jika kita bandingkan ini dengan apa yang diberikan GPT 5.5 kepada saya,
00:03:00namun,
00:03:01Anda bisa melihatnya bahkan tidak mendekati.
00:03:03Ini dari satu perintah,
00:03:04perintah yang persis sama,
00:03:05dan mereka benar-benar tertinggal jauh dalam desain UI,
00:03:07menurut pendapat saya.
00:03:08Saya sangat berharap model GPT berikutnya
00:03:10melakukan sesuatu mengenai hal ini.
00:03:11Fable 5 sebenarnya mengejutkan saya pada tes itu
00:03:13dengan menjadi yang tercepat.
00:03:14Itu memakan waktu sekitar delapan menit
00:03:15untuk menyelesaikan dasbor keuangan itu,
00:03:17sedangkan Opus memakan waktu 12 menit,
00:03:18dan GPT 5.5 memakan waktu 15 menit
00:03:20untuk membuat kekejian itu.
00:03:22Selain hanya demo saya,
00:03:23salah satu favorit saya adalah Anthropic,
00:03:24yang menunjukkan Fable 5 membangun model CAD yang dapat dicetak 3D
00:03:27di editor CAD berbasis browser
00:03:28yang Fable 5 sendiri juga buat.
00:03:31Seperti, membangun perangkat lunak mini Anda sendiri
00:03:32sangat dapat dicapai sekarang,
00:03:34dan hal yang sama berlaku untuk obat-obatan.
00:03:36Tampaknya model ini sangat bagus dalam desain obat,
00:03:38tapi Anda mungkin tidak perlu tahu tentang itu,
00:03:40dan ya, ini jelas dilindungi,
00:03:43seperti pada dasarnya apa pun
00:03:44yang mendekati keamanan siber,
00:03:45kecuali Anda adalah salah satu perusahaan
00:03:46dalam program khusus itu.
00:03:48Fable 5 tampaknya akan sangat berhati-hati,
00:03:51yang berarti ia akan memiliki
00:03:51beberapa positif palsu,
00:03:53tampaknya kurang dari 5% pesan,
00:03:55tapi itu masih terlihat cukup tinggi bagi saya,
00:03:57dan saya sebenarnya pernah mengalami perlindungan Opus sebelumnya,
00:03:59jadi yang satu ini mungkin akan lebih buruk.
00:04:01Tampaknya namun,
00:04:02daripada hanya mengatakan tidak secara langsung,
00:04:04ia akan mencoba mengirim permintaan Anda
00:04:05ke Opus 4.8 terlebih dahulu
00:04:06untuk melihat apakah aman bagi model itu untuk melakukan pekerjaannya,
00:04:09tapi sekali lagi, saya pernah mengalami perlindungan ini sebelumnya,
00:04:11jadi saya tidak begitu yakin seberapa baik itu akan berhasil.
00:04:13Tolok ukur ini sebenarnya menunjukkan
00:04:14betapa gilanya perlindungan itu.
00:04:17Mengujinya pada evaluasi siber,
00:04:19Fable 5 dengan perlindungannya
00:04:20melewati nol dari tes ini.
00:04:22Ia hanya menolak untuk melakukan apa pun,
00:04:24dan seperti yang saya katakan sebelumnya,
00:04:25jika Opus terkadang menolak saya
00:04:27dengan tingkat keberhasilan 88% pada tes ini,
00:04:29saya melihat banyak orang
00:04:30mengalami perlindungan dengan Mythos.
00:04:32Hal terakhir untuk didiskusikan kemudian
00:04:33adalah harganya,
00:04:34dan di sinilah segalanya menjadi sedikit menarik.
00:04:37Ini $10 untuk satu juta token input,
00:04:39dan $50 untuk satu juta token output,
00:04:41yang menurut saya sebenarnya tidak terlalu buruk,
00:04:42ini bukan yang terburuk yang pernah kita lihat,
00:04:44tapi apa yang tidak terlalu saya sukai
00:04:45adalah blok berikutnya ini.
00:04:47Fable 5 tersedia mulai hari ini
00:04:48dalam paket tim Pro Max dan perusahaan,
00:04:50tapi kemudian dalam beberapa minggu
00:04:52pada tanggal 23 Juni,
00:04:53mereka pada dasarnya akan merugikan paket plus
00:04:54dan mengambil model-model itu,
00:04:56dan setelah itu,
00:04:56itu akan memerlukan kredit penggunaan.
00:04:58Kemudian setelah ini,
00:04:59mereka mengatakan mereka akan menambahkan model-model ini
00:05:01kembali ke paket-paket itu
00:05:02pada tanggal yang belum ditentukan.
00:05:04Ini hanya tampak seperti cara yang aneh dalam melakukan sesuatu,
00:05:05dan saya kira tujuan mereka
00:05:06adalah untuk membuat Anda ketagihan dengan model-model ini,
00:05:08lalu mengambilnya dari Anda,
00:05:09dan membuat Anda menghabiskan lebih banyak uang untuk mereka,
00:05:11dan menurut saya ini menandakan
00:05:12betapa mahalnya model-model ini
00:05:13untuk mereka jalankan.
00:05:14Oh, dan itu juga menggunakan batasan Anda
00:05:16dua kali lebih cepat dari Opus,
00:05:17jadi saya mungkin tidak akan mengatur ini
00:05:18sebagai model utama Anda
00:05:19kecuali Anda semacam miliarder.
00:05:21Catatan kaki terakhir
00:05:21yang menurut saya menarik
00:05:23adalah kebijakan retensi data baru mereka.
00:05:25Untuk menggunakan model-model ini,
00:05:25mereka sebenarnya memerlukan retensi 30 hari
00:05:27dari semua lalu lintas
00:05:28pada alat pihak pertama dan ketiga,
00:05:30dan konon tidak ada pelatihan
00:05:31yang akan dilakukan pada data ini,
00:05:33ini hanya untuk mencoba
00:05:34dan memblokir ancaman keamanan.
00:05:35Jadi begitulah,
00:05:36Mythos akhirnya hadir.
00:05:37Apa pendapat Anda tentang perilisan model ini
00:05:39dan masa depan perangkat lunak?
00:05:40Beri tahu saya di kolom komentar di bawah.
00:05:41Sambil di sana, berlanggananlah,
00:05:42dan seperti biasa,
00:05:43sampai jumpa di video berikutnya.
00:05:44Dah.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video