ついに最強モデルが登場 (GPT-5.4)

BBetter Stack
Computing/SoftwareSmall Business/StartupsBusiness NewsInternet Technology

Transcript

00:00:00「更新なし」のカウンターをリセットしてください。また新たな最強モデルの登場です。
00:00:03今回はGPT 5.4です。私の方でテストを行いましたので、その詳細と
00:00:07メリット・デメリットを5分40秒にまとめてお届けします。
00:00:11それでは、主なポイントを見ていきましょう。
00:00:17GPT 5.4はナレッジワークやウェブ検索に優れ、ネイティブなコンピュータ操作機能を備えています。
00:00:22後ほど説明する新機能「ツール検索」を搭載し、回答の途中でも指示の軌道修正が可能です。
00:00:26新しく「高速モード」が追加され、コンテキストウィンドウも100万トークンに拡大しました。
00:00:305.4の狙いは、Codex 5.3のコーディング能力と、GPT 5.2の知識、
00:00:34ウェブ検索、専門的な業務スキルを統合することにあったようです。これにより5.4を
00:00:40あらゆるタスクをこなす万能モデルへと進化させました。
00:00:41第三者機関「Artificial Analysis」のベンチマークによれば、その目標は
00:00:45見事に達成されています。
00:00:46コーディングとエージェント機能において最高ランクを記録し、知能面でも
00:00:49Geminiと並んでトップクラスの評価を得ています。
00:00:51最も注目すべきポイントを一つ挙げるなら、
00:00:55「ネイティブ・コンピュータ・ユース(PC操作)」機能でしょう。
00:00:56OpenAIはこれを、PC操作機能が組み込まれた初の汎用モデルとして設計したようです。
00:01:00Playwrightのようなライブラリを介してPCを操作するコードの記述はもちろん、
00:01:04スクリーンショットに応じてマウスやキーボード操作を行うことにも長けています。
00:01:08実験的なPlaywrightスキルが公開されたので、実際に試してみました。
00:01:12Codex 5.4の高度な推論を用い、「ロンドンのタワーブリッジを体験できる
00:01:16インタラクティブな3D空間を作って」と指示しました。
00:01:18新しいスキルに加え、画像生成スキルも使用。テクスチャとして使う
00:01:22アセットを自ら生成させることが可能です。
00:01:24制作体験自体は、これまでのお気に入りだったCodex 5.3と
00:01:29非常によく似ていました。
00:01:30タスクを開始して約20分後、モデルが例の
00:01:33Playwrightスキルを使い始めましたが、その挙動は実に見事でした。
00:01:37ブラウザを起動してクリックやナビゲーションを行い、視覚的な問題を特定します。
00:01:41例えば「背景がシーンに馴染んでいない」といった箇所を見つけると、
00:01:45コードに戻って修正する。この繰り返しが非常にスムーズで自然でした。
00:01:50最初のバージョンは、たった一つのプロンプトから約30分で完成しました。
00:01:54その後、細部の追加や修正をいくつか依頼しました。
00:01:58「船が横を向いている」「道路のテクスチャが重なっている」といった点です。
00:02:03するとモデルは再び、プロンプトごとに約30分かけて作業を継続。
00:02:07Chromeを開いて確認し、修正を加え、計1時間半・3回のプロンプトで最終版が完成しました。
00:02:11決して完璧ではありませんが、完全に手放しの開発プロセスとしては、
00:02:16十分な出来栄えだと思います。すでにCodex 5.3を愛用している方なら、
00:02:20迷わずアップグレードすべきモデルです。
00:02:24面白かったのは、2時間ほど使用した後に
00:02:27「高速モードに切り替えれば1時間節約できましたよ」と通知が出たことです。
00:02:31これは知能や性能は全く同じモデルですが、最大1.5倍の
00:02:35トークン生成速度を実現します。料金は2倍かかるので、実質的には
00:02:41優先枠のようなもので、別のモデルというわけではありません。
00:02:44さて、今回のリリースで特に関心を引いたもう一つの点は「ツール検索」です。
00:02:48これは、あらかじめ全てのツール定義をシステムプロンプトに読み込む問題を解決します。
00:02:52ツールやMCPサーバーが多すぎると、トークンを無駄に消費し、
00:02:56コンテキストが肥大化して出力の質が低下してしまいます。
00:03:00GPT 5.4では、プロンプトにはツールの簡易リストのみを持たせ、
00:03:05モデル自身が「ツール検索機能」を使って、必要な時にだけ
00:03:09ツール定義を検索し、会話に追加する仕組みになっています。
00:03:13OpenAIによれば、これによりトークン使用量を最大47%削減できるとのこと。
00:03:1836個のMCPサーバーを使ったベンチマークでも、精度を維持したままこれを実証しています。
00:03:22新機能以外でも、このモデルはツールの使い方や選択のタイミングなど、
00:03:26ツール関連の改善に重点を置いています。
00:03:30ベンチマーク結果にはそれが表れていますが、正直なところ「新型は旧型より優れている」
00:03:34という以上の特筆すべき点は他にありません。
00:03:38長所をまとめると、より賢く、より長く動作し、ツールをより上手く扱えるため、
00:03:42前モデルでは不可能だった困難なタスクを完遂できるということです。
00:03:47「最新版は従来より高性能」というのは当然ですが、ここからは
00:03:51いくつかの欠点(コン)についてお話ししましょう。
00:03:52最も気になったのは、スピードです。
00:03:54モデルがじっくり考えるのは好ましいことですが、GPT 5.4は
00:03:59少々考えすぎというか、思考プロセス自体が遅いように感じます。
00:04:04そう感じているのは私だけではないようです。
00:04:05Artificial Analysisの結果でも、GPT 5.4は1トークンを返すまでの時間が
00:04:09他より大幅に長く、最初の500トークンを
00:04:14出力するスピードも同様に遅いことが示されています。
00:04:15これがモデル自体の問題なのか、プロバイダー側の問題なのかは不明ですが、
00:04:19時間とともに改善されるかもしれません。あるいは穿った見方をすれば、
00:04:24わざと遅くして高速モードを使わせようとしているのかもしれません。
00:04:26もう一つの欠点は、APIユーザーにとっての価格上昇です。
00:04:29標準モデルは100万入力トークンあたり2.5ドル、出力は15ドルですが、
00:04:34プロモデルはかなりの高額設定になっています。
00:04:37入力100万トークンで30ドル、出力は180ドルにもなります。さらに
00:04:43厄介なことに、新機能の100万トークン・ウィンドウを活用しようとすると、
00:04:4727万2,000トークンを超える入力分については、通常の2倍の料金が課されます。
00:04:52当面の間は、コンテキストを圧縮して使うことを検討した方がいいでしょう。
00:04:55最後の欠点はUIデザインです。これは主観的な意見ではありますが、
00:04:59Opus 4.6とGPT 5.4に「カフェのウェブサイト」を作らせたところ、
00:05:05Opusの方が好みでした。もっとも、どちらも驚くほどではありませんが。
00:05:07GPT 5.4や他のGPTモデルでいつも気になるのは、
00:05:11どれも似たようなUIになってしまう点です。
00:05:14すりガラスのようなカード型デザインと、グラデーションを多用する傾向があります。
00:05:19これは一例に過ぎませんが、Design Arenaのランキングでも
00:05:23このモデルは振るいません。OpenAIが現在、あまり得意としていない分野なのでしょう。
00:05:27全体としては、私はCodexファンなので、このモデルをメインで使っていく予定です。
00:05:32皆さんはどう思われましたか?
00:05:33皆さんのお気に入りモデルは何でしょうか?
00:05:34ぜひコメント欄で教えてください。チャンネル登録も忘れずに。それでは
00:05:37また次回の動画でお会いしましょう。

Key Takeaway

GPT 5.4は、高度な推論力とPC操作能力を統合した万能モデルですが、実行速度の遅さと高額なコスト構造という実用上の課題も抱えています。

Highlights

GPT 5.4は100万トークンのコンテキストウィンドウと、PCを直接操作する「ネイティブ・コンピュータ・ユース」機能を搭載している。

新機能「ツール検索」により、必要な時だけツール定義を読み込むことでトークン消費を最大47%削減し、精度の低下を防いでいる。

知能指数やコーディング能力において最高ランクを記録し、特にエージェント機能でGemini等の競合を上回る評価を得ている。

「高速モード」が導入され、料金は2倍かかるものの、知能を維持したまま最大1.5倍の生成速度を実現している。

欠点として、推論プロセスに伴う応答速度の遅さや、API利用における大幅なコスト上昇、UIデザインの画一性が指摘されている。

Timeline

GPT 5.4の概要と統合された能力

最新の最強モデルとして登場したGPT 5.4の主な特徴と、開発の狙いについて解説されています。このモデルは、Codex 5.3のプログラミング能力とGPT 5.2の広範な知識、ウェブ検索機能を一つに統合することを目指して設計されました。コンテキストウィンドウは100万トークンに拡大され、さらに「高速モード」や「ツール検索」といった革新的な機能が追加されています。第三者機関のベンチマークでは、コーディングとエージェント機能においてトップクラスの評価を獲得しました。これにより、あらゆるビジネススキルを網羅する万能なAIモデルとしての地位を確立しています。

ネイティブ・コンピュータ・ユースの実践テスト

モデルが直接PCの画面を認識して操作する「ネイティブ・コンピュータ・ユース」機能の詳細と、実際の制作実験が紹介されています。スピーカーは、ロンドンのタワーブリッジを舞台にした3D空間の構築を指示し、モデルが自らアセット生成やブラウザ操作を行う様子を確認しました。GPT 5.4はPlaywrightスキルを活用して視覚的なバグを特定し、自律的にコードを修正するループをスムーズに実行しています。最終的に、わずか3回のプロンプトと1時間半の作業で、手放しでの開発プロセスとしては十分な成果物を作り上げました。前モデルであるCodex 5.3の利用者にとって、この進化は非常に魅力的なアップグレードであると強調されています。

効率化を実現する「ツール検索」と「高速モード」

トークンの節約と処理効率を高めるための新しいシステム構造について詳しく説明されています。新機能「ツール検索」は、膨大なツール定義を一度に読み込まず、必要な時にだけ検索して会話に追加することで、トークン使用量を最大47%削減することに成功しました。これにより、MCPサーバーを多用する環境でもコンテキストの肥大化を防ぎ、回答の精度を高く維持することが可能になります。また、時間短縮を求めるユーザー向けに提供される「高速モード」は、生成速度を1.5倍に引き上げるオプションとして機能します。全体として、前モデルでは困難だった複雑で長時間のタスクを完遂できる能力が備わっています。

直面する課題:速度、コスト、デザインの限界

非常に高性能な一方で、実用面におけるいくつかの重大なデメリットについても率直に評価されています。まず、最初のトークンを出力するまでの待ち時間が他モデルより大幅に長く、思考プロセスが遅い点が最大の懸念事項として挙げられました。次にコスト面では、プロモデルのAPI料金が極めて高額に設定されており、特に長いコンテキストを使用する際には料金が跳ね上がる仕組みになっています。さらにUIデザインの分野では、生成されるウェブサイトがどれも似通った「すりガラス調」になりがちで、競合モデルに劣るという主観的な評価も下されました。スピーカーは、これらの欠点を理解した上で、自身のメインツールとしてCodexから移行する意向を示して動画を締めくくっています。

Community Posts

View all posts