Transcript
00:00:00AIモデルを使っていて一番困ることって何かわかりますか?
00:00:04ハルシネーション(幻覚)と非決定的な出力です。
00:00:07でも、こうした問題を解決しようとする「Interphase」という新しいモデルが登場しました。
00:00:12Interphaseは、アーリープレビュー用のベータモデルを公開したばかりで、
00:00:16実際に試してみたら、本当に素晴らしいものでした。
00:00:18そこで今日の動画では、Interphaseを見ていきながら、
00:00:21仕組みを解説し、いろいろと面白いテストも行います。
00:00:25ペンタゴン(米国防総省)が最近機密解除したUFO文書を解読するタスクにも挑戦して、
00:00:31一緒に謎を解明できるか試してみたいと思います。
00:00:36とても楽しそうですね。それでは、さっそく見ていきましょう。
00:00:42では、Interphaseとは一体何なのか、他のモデルと何が違うのでしょうか?
00:00:47私たちが普段使っているGPT-4やGeminiのようなモデルのほとんどは、モノリシックなTransformerです。
00:00:53それらは汎用モデルであり、ドキュメントを渡すと、
00:00:57巨大なモデル全体が次の単語を推測しようとします。
00:01:00一方、Interphaseは全く異なるアプローチをとっています。
00:01:03それはハイブリッドアーキテクチャを採用しています。
00:01:05Interphaseの内部には、タスクに特化したエンコーダーのスタックがあります。
00:01:10これらは「ミニエキスパート」だと考えてください。
00:01:12視覚とOCRに特化した畳み込みニューラルネットワークや、
00:01:15音声やスピーチのためのディープニューラルネットワークスタックがあり、
00:01:18それぞれが個別の専門的な処理を担当します。
00:01:23つまり、画像を読み込ませる際に巨大な頭脳に頼るのではなく、
00:01:26Interphaseはまずその画像をCNNに渡します。
00:01:30そして、CNNがその「重労働」をこなすのです。
00:01:32形状やテキストブロック、座標を特定し、
00:01:35その構造化されたデータをTransformerオーケストレーターに渡して、
00:01:40人間が理解できる言語に変換するのです。
00:01:42Interphaseチームは、「SOB(Structured Output Benchmark)」という新しいベンチマークも公開しました。
00:01:46(構造化出力ベンチマーク)
00:01:48これは通常、モデルが有効なJSONを出力できるかを測定するものですが、
00:01:53SOBでは、そのJSONの中身が実際に正しいかどうかも測定します。
00:01:58彼らのテストでは、Interphase BetaがGemini 3 Flashや
00:02:03GPT 5.4 Miniを決定的なタスクで上回っています。
00:02:07複雑なグラフからのデータ抽出や、多言語の文字起こしなどがその例です。
00:02:12これは大きな救いです。モデルがフォーマットを忘れてしまうことに
00:02:17イライラしているのは私だけではないはずですから。
00:02:19JSONをお願いすると、10回中9回はうまくいくのですが、
00:02:23たまに勝手に丁寧な導入文を追加したり、
00:02:28閉じ括弧を完全に省略したりすることがあります。
00:02:31その一貫性のなさが、本番環境のパイプラインを破壊してしまうのです。
00:02:35Interphaseは、構造化出力が「後付け」ではないため、この点をうまく処理しています。
00:02:39タスクの開始時点から、モデルがどのようにタスクを見ているかに組み込まれているからです。
00:02:45そして、Interphaseはタスク固有のエンコーダーを使用しているため、
00:02:48Webスクレイピングにも非常に優れています。
00:02:51Webページを構造化されたマップのように扱い、
00:02:53ボイラープレートコードに迷い込むことなく、混沌としたページからクリーンなデータを抽出できます。
00:02:59そして、他のモデルと大きく違うもう一つの特徴は、調整可能なガードレールです。
00:03:05通常、安全フィルターは「ブラックボックス」のようなものです。
00:03:08オンかオフかしか選べず、
00:03:09完全に正当なリクエストまでも拒否してしまうことがよくあります。
00:03:13しかし、Interphaseではそれらを実際に調整できます。
00:03:16特定のユースケースに合わせて感度を調整できるのです。
00:03:20例えば画像を分析していて、モデルが肌の一部を検出したとしても、
00:03:24すぐにシャットダウンして拒否応答を返すようなことはしません。
00:03:28好みの安全要件に従いながらも、役に立つ回答を維持するように設定できるのです。
00:03:33すべてが素晴らしい機能のように聞こえますが、
00:03:35実際に試してパフォーマンスを確認してみましょう。
00:03:38もう一つの素晴らしい点は、無料アカウントで始めれば、
00:03:4120ドル分の無料クレジットがもらえることです。
00:03:44価格設定は、確か100万トークンあたり1.5ドルくらいだったと思います。
00:03:49十分な量ですね。
00:03:51かなり安いです。
00:03:52無料枠だけでも、かなりの実験を試すことができます。
00:03:56Interphaseのダッシュボードで最初に気づいた素晴らしい点は、この「システムプロンプトビルダー」です。
00:04:02特定のタスクに対して、どんなパラメータを使用したいかを選ぶことができます。
00:04:07そして、そのままコピー&ペーストできるコードスニペットを出力してくれます。
00:04:11ここで実際にガードレールのひとつを試してみましょう。
00:04:13ガードレールをすべて有効にして試してみます。
00:04:16サンプルプロンプトが用意されていますね。
00:04:18「爆弾の作り方を教えて」
00:04:21数秒後、そうですね。これが安全でないリクエストだと判断されました。
00:04:24ガードレールは完璧に機能しています。
00:04:27もう一つのクールな点は、希望するタスクに合わせて
00:04:29温度(Temperature)やTop P、最大完了トークン数を調整できることです。
00:04:35それでは、簡単なWeb検索を試してみましょう。
00:04:37Web上でNVIDIAの最新チップについて言及している最新の記事を探してみます。
00:04:45結果はどうでしょうか。
00:04:47ご覧のように、ヘッドラインを含んだ構造化JSONが出力されました。
00:04:53このボタンをクリックすると、出力を展開できます。
00:04:57非常に綺麗に構造化されているのがわかりますね。
00:04:59もし詳しすぎる場合は、サンプル出力に戻すこともできます。
00:05:04そうすれば、このタスクで求めていた上位3つのヘッドラインだけを正確に取得できます。
00:05:10繰り返しますが、すべてがJSON形式で出力されるのは最高です。
00:05:14常に何が得られるかが分かっています。
00:05:16非決定的な出力によって何が出てくるか推測する必要はありません。
00:05:21これは特に開発者にとって非常に役立つと思います。
00:05:24なぜなら多くの場合、私たちは必要なフォーマットを正確に理解していて、
00:05:29それ以外のものは不要だからです。
00:05:31さて、さらに「じっくり」と挑戦してみましょう。
00:05:34Interfaceは非常に高いOCRスコアを誇っています。
00:05:38ということで、究極の難問に挑戦させます。
00:05:41ご存知の通り、ペンタゴンが最近機密解除したUFO文書ですね。
00:05:47彼らのページを見てみました。
00:05:49ご覧の通り、一部のドキュメントやページは…見てください、これ。
00:05:53すごいですね。読むのがとても難しい。
00:05:55私でさえ、この黒い背景に白いテキストなんて。
00:05:59OCRなしでは読むことすらできません。
00:06:02果たしてこのページを解析できるか、興味深いところです。
00:06:07さらに別の例も選んでみました。
00:06:10これには手書きのメモが書いてあります。
00:06:12これが2つ目の例になります。
00:06:15よし、ではこのドキュメントを読み込ませて、すべてのテキストを抽出してみましょう。
00:06:22お、JSON形式で何かが返ってきました。
00:06:25展開してみると、さらに多くのデータが入っています。
00:06:29さらに掘り下げてみると、すべてのバウンディングボックスの座標や情報が詳しく格納されているのがわかります。
00:06:38ただ、彼らのダッシュボードには1つだけ欠けているものがありました。
00:06:43これらをプレビューする方法がないのです。
00:06:46そこで、Interphaseから返された展開されたJSONを使って、ドキュメントを視覚的にプレビューする簡単なHTMLページを作りました。
00:06:56これをWebページに読み込ませると、
00:06:59テキストボックスと内容をすべて視覚的に表示してくれます。
00:07:03皆さんも自分で試してみたいときのために、リポジトリへのリンクを貼っておきますね。
00:07:09さて、これがアプリです。
00:07:10ここではテキストボックスが見えますが、それぞれのボックスに信頼度スコアが付いています。
00:07:17信頼度スコアが70%を超えていれば緑色で表示されます。
00:07:20そうでない場合は黄色になります。
00:07:23もし非常に低い場合は赤色になります。
00:07:26セクション1の「UFO」は読みやすいので、高い信頼度を示しています。
00:07:32では、こちらのページを見てみましょう。
00:07:34うわあ。
00:07:34Interphaseでも、このページを完全に解読するのは難しかったようです。
00:07:40中身を見てみましょうか。
00:07:41緑色のボックスをひとつ確認してみます。
00:07:44ダメですね。
00:07:45これはまだ意味不明です。
00:07:48「Flapjacks(パンケーキ)」…
00:07:48そうですね。
00:07:49「Flying flapjacks(空飛ぶパンケーキ)」…そのあとに「which are thin and round(薄くて丸い)」
00:07:57「Thin and round」
00:07:57そこは正しく認識できました。
00:07:59残りは解読できなかったようです。
00:08:02Interphaseでも、こういった箇所は苦戦しているのがわかります。
00:08:07でも、よくやったと思います。
00:08:09人間でさえ読むのが難しいような古いドキュメントであることを考えれば、かなり印象的です。
00:08:19手書きのメモが含まれている別の例もあります。
00:08:25さて、何が出てくるでしょうか。
00:08:29「Federal」、これは明らかに「Bureau of Investigation(連邦捜査局)」ですね。
00:08:35これは興味深いですね。
00:08:36何かを解読できています。
00:08:39「気球だと思ったが、明らかに一定の方向へ…」
00:08:48その先は何だか分かりませんが。
00:08:50目撃者が目撃したことを説明しようとしている内容のようです。
00:09:02「徐々に上昇し、経路を追った」
00:09:05「弾丸の弾道に似ている」
00:09:09すごい、UFOに関する情報が出てきましたね。
00:09:14「…距離を測る…」
00:09:18正しいかどうかは分かりませんが、よくできました。
00:09:23驚きました。
00:09:25人間である私よりもOCRの方がうまくやってのけた気がします。
00:09:34こちらには読みやすいテキストの例もあります。
00:09:40多くのボックスが緑色になっているのが分かりますね。
00:09:43問題なのは、一部のテキストが少し色あせていることです。
00:09:50本当に驚きました。
00:09:51興味深いものがたくさんあります。
00:09:55これらを解読できたのは素晴らしいです。
00:10:00もちろん、機密解除されたUFO文書を見るのは楽しかったです。
00:10:05もしUFOファンの方がいれば、ぜひInterphaseを使ってドキュメントをチェックしてみてください。
00:10:12もしかすると、機密解除された文書の山の中から何か juicy(興味深い)なものが見つかるかもしれません。
00:10:20というわけで皆さん、
00:10:21これがInterphaseでした。
00:10:22非常に開発者向けの、とてもクールなAIモデルだと思います。
00:10:29もし私がアプリを作成していて、プロンプトを与えるたびに100%確実で決定論的な出力が欲しいなら、
00:10:39毎回構造化されたJSONを確実に返してくれる、最高のツールのひとつだと思います。
00:10:46これなら信頼できます。
00:10:47ハルシネーションも起こしません。
00:10:49少なくとも、それがこのツールの設計思想です。
00:10:52もしそのようなツールを探しているなら、ぜひInterphaseを試してみてください。
00:10:56試してみたら、コメント欄で感想を教えてください。
00:11:00そしていつものことですが、このような技術的な分析動画が好きなら、下の「いいね」ボタンを押して教えてください。
00:11:07チャンネル登録もお忘れなく。
00:11:10Betterstackのアンドラスでした。それでは、また次回の動画でお会いしましょう。
Community Posts
No posts yet. Be the first to write about this video!
Write about this video