Claude Mythosがついに登場 (Fable 5)

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00ついに「Claude Mythos」が登場しました。
00:00:01Anthropicが「Fable 5」という新しいモデルをリリースしました。
00:00:03これはMythosクラスのモデルで、
00:00:05多くのセーフガードが組み込まれています。
00:00:07しかし、これまでに彼らがリリースしたどのモデルよりも、
00:00:09おそらく他のどのモデルよりも優れています。
00:00:11ほぼすべてのベンチマークで最先端の性能を誇ります。
00:00:13当然ながら、それなりのコストがかかります。
00:00:16そして、価格設定に関して
00:00:17少し興味深いことをしていて、
00:00:18喜ぶ人はあまりいないのではないかと思います。
00:00:25普段はベンチマークの結果に
00:00:27あまり時間をかけませんが、この表は異常です。
00:00:30このモデルが見せている飛躍は、
00:00:31いくつかのベンチマークにおいて、
00:00:32ほぼすべてでトップに立っているという事実からも明らかです。
00:00:35「SWE Bench Pro」のコーディング評価では、
00:00:3710%ものスコア向上を見せており、
00:00:39GPT 5.5より20%も先行しています。
00:00:42「Frontier Code」ベンチマークでも同様の飛躍がありました。
00:00:44Frontier Codeは、Devinを開発した
00:00:47Cognitionによる新しいベンチマークで、
00:00:48モデルが生成したコードを実際にマージできるかを
00:00:49実質的にテストするものです。
00:00:52このチャートを見れば、Fable 5が
00:00:54他のどのモデルよりも
00:00:55先行していることがわかります。
00:00:57中間的な推論でも同様ですが、
00:00:58このモデルは非常に高価になるでしょう。
00:01:00コンピュータ使用能力もわずかに向上していますが、
00:01:02劇的な飛躍というほどではなく、
00:01:03一番下のTerminal Benchも同様です。
00:01:05しかし、ご覧の通り、
00:01:06ほぼすべてのカテゴリーでリーダーとなっています。
00:01:09しかし、最も重要なのは、
00:01:10ますます関連性が高まっている
00:01:11長期実行タスクです。
00:01:12Fable 5は、他のどのモデルよりも
00:01:14長く作業ができるようで、
00:01:15Stripeにテストさせたところ、
00:01:175,000万行のRubyコードベースを
00:01:18丸一日でコードベース全体を移行させたそうです。
00:01:21メモリ管理と長文脈の理解が
00:01:22はるかに優れていることが、
00:01:24助けになっているのでしょう。
00:01:26長期実行タスクにおいて、何百万もの
00:01:28トークンにわたって集中力を維持し、
00:01:29自身のメモを使って、
00:01:31自身の出力を改善できるようです。
00:01:32コーディングだけでなく、
00:01:33視覚認識機能も素晴らしいです。
00:01:36『ポケモン ファイアレッド』を
00:01:37最小限の視覚情報のみでクリアできるようです。
00:01:39以前は追加のツールが必要でしたが、
00:01:42それでもかろうじてクリアできる程度でした。
00:01:43しかし今は全く問題ありません。
00:01:45スクリーンショットからWebサイトを
00:01:47一発で再現するようです。
00:01:48実際に「Linear」のWebサイトで試してみましたが、
00:01:50どちらが本物かわからなくなり、
00:01:52少し混乱しました。
00:01:53右側がFable 5が
00:01:55スクリーンショットから
00:01:56再現したものになります。
00:01:58Web検索などは使っていません。
00:02:00ただ、このWebページのスクリーンショットを渡しただけで、
00:02:02非常に素晴らしい出来栄えだと思います。
00:02:05スクリーンショットのすべてが、
00:02:06コードから生成されており、
00:02:08非常にうまくできています。
00:02:10SVGアニメーションなどの細部は
00:02:12完璧ではありませんが、
00:02:14全体として、Webサイトの再現結果には
00:02:15かなり満足しています。
00:02:18ほぼすべてのセクションを押さえており、
00:02:20あとは自分が納得いくまで
00:02:21細かく修正していけばいいという
00:02:22レベルまで完成させてくれました。
00:02:24ついでに、
00:02:24これらのモデルを使って、
00:02:25空のフォルダから金融ダッシュボードアプリの
00:02:27フロントエンドとバックエンドを
00:02:28一発で作成できるかもテストしてみました。
00:02:31これがFable 5の出力結果です。
00:02:33すべてテストしましたが、
00:02:34すべて正常に動作します。
00:02:35APIとも通信できていますし、
00:02:37デザインも非常に洗練されています。
00:02:39非常に実用的ですが、
00:02:40Claudeモデル特有の
00:02:41美意識を感じさせる仕上がりです。
00:02:43これは「Opus 4.8」が
00:02:44出力したものにも見られます。
00:02:45繰り返しになりますが、このサイトは非常に美しく、
00:02:47正直なところ、
00:02:48Fable 5よりも優れているとすら思います。
00:02:50しかし、Claudeが学習された
00:02:51特有の美的感覚が出ています。
00:02:53とはいえ、それは私のせいでもあります。
00:02:54特定のデザインを指示しなかったからです。
00:02:56指示すれば、
00:02:57きっと素晴らしい仕事をしたでしょう。
00:02:58これをGPT 5.5の出力結果と比較してみると、
00:03:00どうでしょう。
00:03:01勝負にもならないほどの差です。
00:03:03同じ単一のプロンプトで、
00:03:04全く同じ指示を与えたのですが、
00:03:05UIデザインの面では、正直雲泥の差があります。
00:03:07私の意見ですが。
00:03:08次期GPTモデルが、
00:03:10この点を改善してくれることを切に願います。
00:03:11Fable 5は、驚いたことに、
00:03:13最も速く完了しました。
00:03:14金融ダッシュボードの作成に
00:03:15かかったのは約8分でした。
00:03:17一方、Opusは12分かかり、
00:03:18GPT 5.5はあのひどい出来のものを作るのに15分もかかりました。
00:03:20もはや悪夢のようです。
00:03:22私のデモ以外で、
00:03:23私が気に入っているのは、Anthropicが
00:03:24Fable 5自体が作成したブラウザベースの
00:03:27CADエディタを使って、
00:03:283Dプリント可能なCADモデルを構築したことです。
00:03:31自分専用のミニソフトウェアを作るなんて、
00:03:32今では非常に簡単に達成できてしまいます。
00:03:34薬物設計についても同様です。
00:03:36どうやらこのモデルは薬物設計にも非常に長けているようで、
00:03:38これについて深く知る必要はないかもしれませんが、
00:03:40はい、確実にセーフガードが適用されています。
00:03:43サイバーセキュリティに
00:03:44関連するものならほぼすべてで、
00:03:45特別なプログラムに参加している
00:03:46企業の方々を除いてですが。
00:03:48Fable 5は非常に慎重になるようです。
00:03:51つまり、誤検知が
00:03:51そこそこあるということですが、
00:03:53メッセージの5%未満とはいえ、
00:03:55それでもかなり高い頻度だと思いますし、
00:03:57Opusのセーフガードにも以前引っかかったことがあるので、
00:03:59さらにひどいものになるでしょう。
00:04:01ただ、どうやら、
00:04:02単に拒否するのではなく、
00:04:04あなたのリクエストをまず「Opus 4.8」に送信して、
00:04:05作業が安全かどうかを確認するようなので、
00:04:06これもどれほど機能するかはわかりません。
00:04:09私が以前セーフガードに引っかかったこともあるので、正直不安です。
00:04:11このベンチマークは、セーフガードの厳しさを示しています。
00:04:13サイバー評価でのテストにおいて、
00:04:14Fable 5のセーフガードは
00:04:17すべてのテストで失敗します。
00:04:19何もかも拒否してしまうのです。
00:04:20先ほど申し上げた通り、
00:04:22Opusのパス率が88%であっても
00:04:24たまに拒否されるくらいなので、
00:04:25多くの人がMythosのセーフガードにも
00:04:27直面するだろうと予想しています。
00:04:29最後に検討すべきは価格ですが、
00:04:30これが興味深いところです。
00:04:32入力100万トークンあたり10ドル、
00:04:33出力100万トークンあたり50ドルですが、
00:04:34実際にはそれほど悪くはないと思います。
00:04:37史上最悪というわけではありませんが、
00:04:39私が気に入らないのは次の点です。
00:04:41Fable 5は今日から「Pro」「Max」「Team」「Enterprise」プランで利用できますが、
00:04:42数週間後の6月23日には、
00:04:44「Plus」からモデルが取り上げられてしまうのです。
00:04:45その後の利用には、
00:04:47利用クレジットが必要となります。
00:04:48その後に、モデルをこれらのプランに
00:04:50いつか追加する予定だそうです。
00:04:52少し変わったやり方に見えます。
00:04:53おそらく狙いは、
00:04:54ユーザーをこれらのモデルに中毒させておき、
00:04:56それを奪い、
00:04:56さらなる出費を強いることでしょう。
00:04:58このモデルを実行するのに、
00:04:59いかにコストがかかるかを示唆しています。
00:05:01そうそう、利用制限も
00:05:02Opusの2倍の速さで消費されます。
00:05:04億万長者でもない限り、これを
00:05:05メインモデルとして設定しない方が賢明です。
00:05:06最後の注記として面白いのは、
00:05:08新しいデータ保持ポリシーです。
00:05:09これらのモデルを使用するには、
00:05:11ファーストパーティおよびサードパーティツールでの
00:05:12すべてのトラフィックについて、
00:05:1330日間の保持が必要とされます。
00:05:14このデータを使用して
00:05:16学習を行うことはないとのことですが、
00:05:17これもセキュリティ上の脅威を
00:05:18防ぐためです。
00:05:19というわけで、
00:05:21ついにMythosが登場しました。
00:05:21このモデルのリリースと
00:05:23ソフトウェアの未来についてどう思いますか?
00:05:25ぜひ下のコメント欄で教えてください。
00:05:25チャンネル登録もお願いします。
00:05:27それではまた、
00:05:28次回の動画でお会いしましょう。
00:05:30このデータを使って学習は
00:05:31行われないことになっています
00:05:33あくまで目的は
00:05:34セキュリティの脅威を防ぐためです
00:05:35というわけで
00:05:36ついにMythosが登場しました
00:05:37このモデルのリリースと
00:05:39ソフトウェアの未来について
00:05:40ぜひコメント欄で教えてください
00:05:41よろしければチャンネル登録も
00:05:42それでは
00:05:43また次回の動画で
00:05:44さようなら

Key Takeaway

Fable 5は多くのベンチマークでトップのコーディング性能と長文脈処理能力を誇るが、高コストかつ利用プランに制限があるため、実務上の利用には戦略的な管理が求められる。

Highlights

  • Fable 5はSWE Bench Proのコーディング評価でスコアを10%向上させ、GPT 5.5を20%上回る性能を発揮する。

  • 5,000万行のRubyコードベース全体を丸一日で移行させるなど、長期実行タスクにおけるメモリ管理と長文脈の理解が大幅に強化されている。

  • Pokémon FireRedのクリアやWebサイトのスクリーンショット再現において、以前よりも高い視覚認識能力を示す。

  • Fable 5は金融ダッシュボードアプリを8分で生成し、Opusの12分やGPT 5.5の15分という処理時間を短縮している。

  • モデルの価格は入力100万トークンあたり10ドル、出力100万トークンあたり50ドルに設定されている。

  • 6月23日以降、PlusプランからFable 5が削除され、利用にはクレジットが必要となる。

Timeline

モデルの性能とコーディング能力

  • Fable 5はMythosクラスの新モデルとして最先端のベンチマーク性能を達成している。
  • SWE Bench Proのコーディング評価で10%の向上を示し、GPT 5.5と比較して大幅に先行している。
  • Frontier Codeベンチマークにおいても、生成されたコードのマージ能力で他モデルを圧倒している。

AnthropicがリリースしたFable 5は、主要なベンチマークでトップの座を占める高い推論能力を持つ。特にコーディング分野での飛躍が著しく、実用的なコード生成とマージの成功率が向上している。

長期タスクと視覚認識

  • 5,000万行のRubyコードベースを一日で移行するなど、長期実行タスクで高い安定性を発揮する。
  • 視覚認識機能の向上により、スクリーンショットからWebサイトの完全な再現が可能である。
  • デザインの細部まで指示なしで洗練されたUIを生成する能力を備えている。

長大な文脈を維持する能力により、大規模なコードベースの修正や移行が効率化された。また、視覚的な情報をプロンプトとして扱う能力も強化されており、元のデザインを忠実に再現するフロントエンド生成能力に秀でている。

実行速度とセーフガード

  • 金融ダッシュボードアプリの作成において、Fable 5はGPT 5.5の約半分の時間でタスクを完了した。
  • セキュリティ関連のプロンプトに対するセーフガードが非常に厳格に設計されている。
  • 誤検知による拒否が頻発する可能性があり、作業がOpusへ転送されて安全確認が行われる仕組みとなっている。

高い処理速度を実現しており、デモ環境下では競合モデルを時間・品質の両面で上回った。一方で、サイバーセキュリティ分野などでのセーフガードは非常に慎重であり、過剰な拒否応答が発生するリスクを抱えている。

料金体系と将来の制限

  • 価格は入力100万トークン10ドル、出力100万トークン50ドルに設定されている。
  • 6月23日を境にPlusプランでの利用が停止され、以降は別途クレジットが必要となる。
  • 利用中のすべてのトラフィックはセキュリティ維持のため30日間保持される。

運用コストが非常に高く、メインモデルとして使用するには相応の予算が必要である。また、短期間でのプラン変更が告知されており、ユーザーは将来的なコスト負担増を考慮して導入を検討する必要がある。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video