00:00:00(アップビートな音楽) - AI コーディングの未来についてのパネルディスカッションへようこそ
00:00:04全員黒い服を着てくるという通知を読んでくれてありがとうございます
00:00:07(笑) では、簡単に自己紹介をさせていただきたいと思います
00:00:12皆さんのことはいろいろな形で知っていますが、聴衆の皆さんはそうでないかもしれませんね
00:00:17マタン、まずあなたからいいですか?
00:00:19AI コーディングの分野において、Factory はどのような立場にいるのでしょうか?
00:00:26- はい、Factory の使命は、ソフトウェアエンジニアリングに自動化をもたらすことです
00:00:32より具体的には、エンドツーエンドのソフトウェア開発エージェント「ドロイド」を構築しました
00:00:38これらはコーディング自体だけでなく、ソフトウェア開発ライフサイクル全体をカバーします
00:00:43ドキュメント、
00:00:44テスト、
00:00:45レビューなど、
00:00:46つまらない部分も全部やります。だからあなたはコーディングのような楽しい部分に集中できます
00:00:52そしてコーディングでやりたくない部分は、ドロイドにやらせることもできます
00:00:56つまり、ドロイドを構築するんです
00:00:58ドロイドを構築するんです
00:00:59OpenAI はもちろん説明が必要ですが、
00:01:02あなたの codec チームでの役割について、
00:01:05codec のビデオに出演しているのを見かけました
00:01:08それであなたが関わっていることがわかりました
00:01:10最近 codec についてどのようにお考えですか。かなり拡張されてますよね?
00:01:14- はい、今年初めに最初のコーディングエージェントをリリースしました
00:01:19私は codec CLI に携わり、推論モデルの力をユーザーのコンピュータに持ち込みました
00:01:26その後、これらのタスクをクラウドで配布・委譲できる codec cloud をリリースしました
00:01:31ここ数ヶ月の間、私たちはこれらのエクスペリエンスを統一してきました
00:01:34できるだけシームレスに動作するようにね
00:01:36私たちの焦点は、基本的な機能、プリミティブをできるだけ有用にすることです
00:01:41先日 Dev Day で codec SDK をリリースしました
00:01:43重要な方向性の一つは、コーディングやコード実行エージェントをコーディングだけでなく、一般的な目的のタスクにも使うことです
00:01:52例えば、
00:01:53今年初めに取り組んだ try to be エージェントは、
00:01:56バックグラウンドでコードを実行してタスクを達成します。でも重要なのは、
00:02:01開発者が推論モデルだけでなく、
00:02:02サンドボックスや codec に組み込んだ他の機能の上に構築できるようにしたことです
00:02:07- いいですね
00:02:09V0 について?
00:02:10- V0 の目標は、開発者が プレビュー駆動のエージェント的プログラミングを行えるようにすることです
00:02:16今日、
00:02:17ウェブアプリを構築する際は、
00:02:19通常エージェント、
00:02:20IDE、
00:02:21コードが開いており、
00:02:22実際に構築しているもののプレビューも見ます
00:02:25通常は dev サーバーを実行しています
00:02:26V0 では、エージェントを走らせて、実行中のアプリに直接プロンプトを送ることができるようにしたいのです
00:02:32これが将来の DX の形だと考えています
00:02:35- いいですね
00:02:36各社とも、コーディングエージェントにアクセスするための異なるインターフェースを持っています
00:02:40だからこそ、ローカルとクラウドのどちらが重要かについてキックオフしたいんです
00:02:45あなたはローカルから始めてクラウドに、あなたはクラウドから始めてローカルに、あなたは今のところクラウドのみですね
00:02:50バランスはどうですか?
00:02:52最終的には皆が統合されるんでしょうか?
00:02:55- はい、まずそこから説明させてもらいたいですね
00:02:58結局のところ、
00:02:59これらのエージェントの目的は、
00:03:01できるだけ役に立つことであり、
00:03:04人間と協働する場合と非常に似た存在になることです
00:03:08ローカルの人間とリモートの人間がいて、
00:03:10一方はこの環境でしか働けない、
00:03:12もう一方はあの環境でしか働けないなんてことはありませんよね
00:03:16一般的に、
00:03:16人間は会議室であなたとアイデアを考えている場合にも、
00:03:20コンピュータを肩越しに見ている場合にも、
00:03:22役に立つことができます
00:03:24だから理想的には、
00:03:25これらは同じになる必要があります。ですが短期的には、
00:03:30リモートの方が通常役に立つようです。特に、
00:03:34確実に委譲できると確信している小さなタスクに対してです
00:03:39一方、
00:03:40ローカルはエージェントに少し近い位置にいたい場合です。より大きなタスクか、
00:03:46より複雑なタスクで、
00:03:47能動的に監視する場合ですね
00:03:49そして、
00:03:50何か問題が起こった場合に備えて、
00:03:51ブランチを引き下ろして作業を始める必要がないように、
00:03:54ローカルにしておきたい。その代わりに、
00:03:56すぐそこにいてガイドできるようにです
00:03:57- 貪欲かもしれませんが、両方欲しいです
00:04:00そして、マタンの言う通り、モダリティを持つことで、同僚と実際に協働する主な形式を考えることが好きです
00:04:11それはホワイトボーディング セッションから始まることが多く、部屋の中で何かについてブレインストーミングをしています
00:04:17構築していたときの良い例は agents.md です。これは異なるコーディングエージェント全体で汎用的であることを意図したカスタム指示です
00:04:26それは、ローマンと私が部屋の中でこのアイデアについて考えているところから始まりました
00:04:31それからホワイトボーディングを始めて、
00:04:33写真を撮ってから、
00:04:34ローカルで codec CLI で起動しました。Next.js アプリのワークショップのようなもので、
00:04:39作業できました。昼食に行って戻ってきました
00:04:41コア構造の大部分がありました
00:04:44そしてそこから、もう少し密接に反復することができました
00:04:46つまり、ペアリングのようなブレインストーミング・スタイルのエクスペリエンスを持つことですね
00:04:49そして、
00:04:502 番目のポイントについて、
00:04:52どのようなタスクを委譲するかについては、
00:04:55歴史的には、
00:04:56より小さなスコープのタスクで、
00:04:58出力が明確な場合が、
00:04:59やり放しの場合に適切なモダリティだと思います
00:05:02ですが、
00:05:03約2ヶ月前にリリースした GBD5 codec でこれから見始めているのは、
00:05:05より長時間実行でき、
00:05:05より複雑でより曖昧なタスクができるということです。最終的に何を望むかについて明確であれば
00:05:08数時間連続して動作することができます
00:05:16モデルの能力が向上するにつれて、このシフトはより多くのユースケースを可能にし始めます
00:05:18より多くのユースケースを可能にし始めると思います
00:05:24- はい
00:05:24はい、エージェントを機能させるために3つの部分があります
00:05:27エージェント ループそのもの、それが行うツール呼び出し、そしてツール呼び出しが作用する必要があるリソースです
00:05:34クラウド優先かローカル優先かは、それらのリソースがどこにあるかに基づいています
00:05:37ローカル ファイル システムで作業しようとしている場合、それはあなたがアクセスする必要があるリソースです
00:05:41エージェント ループをローカルで実行することは完全に理にかなっています
00:05:44通常クラウドに存在するリソースにアクセスしている場合、
00:05:46GitHub から直接、
00:05:48または何らかのサードパーティ リポジトリから引き出している場合、
00:05:51エージェントをクラウドから開始することは理にかなっています
00:05:54ただし、最終的には、これらのリソースは両方の場所に存在しますよね?
00:05:57すべての開発者は、
00:05:58エージェントがローカル ファイル システムとGitHub でホストされているオープンPRの両方で動作できることを期待しています
00:06:04つまり、
00:06:05どこから始めるかは本当に重要ではないと思います。みんな同じ場所に収束しています。それはエージェント ループがどこでも実行でき、
00:06:11ツール呼び出しがクラウドからローカルに、
00:06:13またはローカル バックアップからクラウドにストリーミングできる必要があることです
00:06:16そしてそれはすべて、実際に作用したいリソースがどこにあるかに依存します
00:06:20- はい、いいですね
00:06:22ステージ外で話していて、辛い質問などを探していました
00:06:27これはすごく好きで、本当にタイムリーだと思います
00:06:31皆さんは生計のためにスロップを生成しているんですか?
00:06:33つまり、潜在的にこれが AGI への持続可能なパスであると信じているハイプ・バブルの危険性はありますか?
00:06:40- つまり、まず言えるのは、ある人のスロップは別の人の宝であるということです。ある程度まで本当かもしれません
00:06:44例えば、ドキュメンテーションが全くないリポジトリがあるとしましょう
00:06:52私たちが話してきた多くのツールを使って、このリポジトリのドキュメンテーションを生成することができます
00:07:00今、それは最も丁寧に作られたドキュメンテーションになるでしょうか?
00:07:08いいえ、でも価値を提供していますか?
00:07:13はい、
00:07:13私の考えでは。古いレガシーコードベースをふるいにかけるのに苦労している場合は、
00:07:15やや粗く作られたドキュメンテーションを見る方が簡単です
00:07:16だからこそ大事なのは、
00:07:17これらのツールをどこで活用できるかを見つけることです。そしてどの程度がスロップかは、
00:07:23あなたがどの程度のガイダンスを提供するかにも依存しています
00:07:26つまり、
00:07:27例えば、
00:07:28このようなアプリを作ってくれと言ったなら、
00:07:31おそらく何かをするジェネリックなスロップアプリを手に入れることになります - それは紫です
00:07:38- はい、青、紫のようなフェード、そうですね
00:07:44一方、
00:07:45代わりに、
00:07:45あなたが望むものについて非常に体系的である場合、
00:07:47あなたは実際にあなたが要求している能力を検証するために実行するためのツールを提供しました
00:07:48ジュニア エンジニアをチームに雇い、単に「これをやってくれ」と言う場合と同じ程度に、それはより構造化されていると思います
00:07:58おそらく彼らは平均的な成果をもたらすでしょう。なぜなら、他に指定がないからです
00:08:08そして、あなたが実際に何をしてほしいのかについては、かなり曖昧です
00:08:14- 重要な言葉は「レバレッジ」ですよね?
00:08:19AI コーディングエージェントは、あなた自身ができるよりも 10 倍多くのことをするのに非常に高い下限があります
00:08:21スキル レベルと、
00:08:21エージェントがどの程度役に立つか、
00:08:23またはそれが非スロップを生成する可能性がどの程度高いかをプロットすると、
00:08:25スキルがない場合、
00:08:26下限はかなり低いでしょう
00:08:27しかし、あなたはまだ非常に高い下限を持っていますよね?
00:08:36エージェントは、まさにそのままで非常に優れています
00:08:38開発についてのことを何も知らない場合、エージェントはあなたができるよりもはるかに多くを行います
00:08:39しかし、
00:08:40あなたがより高いスキル レベルに達するにつれて、
00:08:41シニア エンジニアと主要なエンジニアと卓越したエンジニアは、
00:08:43実際にはエージェントを異なる方法で使用します
00:08:44彼らはすでにできたことをレベルアップするためにそれを使用しています
00:08:50知っていますか?主要なエンジニアは、手動で 1 日あたり 5,000 行のコードを書くことができます
00:08:53エージェントを使うと、1 日あたり 50,000 行のコードを書くことができます
00:08:57そしてそれは本当に、あなたが入力する内容と入力する知識のレベルで動作します
00:09:00だから私は、あなたが知っている、時間をかけてフロアを徐々に上げていると思います。より良いエージェントを構築することで
00:09:04しかし、それはレバレッジの一形態です
00:09:11それはあなたが既にできることを加速するための方法で、より速くやっています
00:09:14そしてスキルのない人のために、あなたは実際にそれが何をできるかのフロアをあげることができます
00:09:18- 絶対に。そして、これら両方のポイントに追加するために、私はそれらがツールであり、工芸の増幅器だと思います
00:09:23あなたがそれを持っている場合、あなたはもっとやることができます
00:09:29あなたがそれを持っていない場合、それは単に難しいですが、それはフロアを上げます
00:09:31これは本当に呼び出す価値があると思います
00:09:34最初のプロトタイプを構築しようとしている人、アイデアを反復しようとしている人にとっては
00:09:36前に言及した例ですが、
00:09:37コンテンツ駆動型のサイトのようなフロントエンドを作ることはできなかったわけではありません。単に時間がありませんでした
00:09:44そしてホワイトボードに描いて、話をして、会話をして、それからエージェントに任せる方が楽しかった
00:09:51しかし、このユースケースの興味深い例は、codec のはるかに初期のイテレーション、1 年以上前を構築していたときでした
00:09:57そしてローカルの内部ループ スタイル ツールをたくさん使用する製品エンジニアリングをしている 2 つの異なるアーキタイプの前に置きました。彼らはただチャットするのに慣れていて、
00:10:02おそらく反復しています
00:10:03そして、
00:10:03推論チームの人たちと話すときに完全に異なるモダリティ。彼らはタスクを定義するためにおそらく5分間座って、
00:10:12エッセイの長さのようなエージェントが実行する問題があるでしょう。それから1時間動くでしょう
00:10:19そしてそれは実質的に01またはそれより前のバージョンでした
00:10:33そして面白い部分は、
00:10:34人々がエージェントにタスクを与える方法が、
00:10:35彼らが何が必要だと思うかについての理解に基づいて完全に異なっていたことです
00:10:37だから私は本当に特異性に固定されていると思います。出力がどうなるかについて明確であること
00:10:48そして、
00:10:49そこには、
00:10:49エージェントのビルダーとしての私たちの両方の責任と、
00:10:50モデルを訓練している人々の責任である、
00:10:51より広いアイテムがあります。本当にそのフロアを上げて、
00:10:53高い職人技、
00:10:53高い味を持つ人々のための天井が、
00:10:54彼らが見合う方法でそれを実行することができることを保証すること
00:10:55- 実は、あなたが言及したことは、私たちが気づき始めたアイデアを思い起こさせます
00:11:11だから私たちのターゲット オーディエンスはエンタープライズです
00:11:16そして、
00:11:16繰り返し繰り返し見られることは、
00:11:17エージェント ネイティブ開発の採用に関して非常に興味深い二峰性があるということです
00:11:19特に、
00:11:19通常、
00:11:20初期段階のキャリアの開発者はエージェント ネイティブの方法で構築を開始することに更にオープンマインドです。ですが、
00:11:25彼らはエンジニアリング チームを管理した経験がありません
00:11:28だから彼らはおそらく、非常に上手く機能する方法で委譲に最も精通していないかもしれません
00:11:39一方、より経験豊かなエンジニアは委譲の経験がたくさんあります
00:11:44彼らは、これらの正確な事項を指定しなければ、それは完了しないということを知っています
00:11:47そして彼らは本当にその段落を書き出すのが得意ですが、
00:11:48彼らは頑固で、
00:11:49実際に彼らが構築する方法を変えたくないし、
00:11:50あなたは冷たい死んだ手からEmacs を引き出す必要があります
00:11:51だからそこには興味深いバランスがあります
00:12:03- あなたがそれを言うのは本当に面白いです
00:12:05エンタープライズで見た同様のことは、シニア エンジニア、より上位の人々がチケットを書きます
00:12:06だからぬ彼ら実際に何をする必要があるかのすべてのスペックを書く仕事をします
00:12:12彼らはそれを実際にやるためにジュニア エンジニアに引き渡します
00:12:16ジュニア エンジニアはその非常によく書かれたチケットを取得し、エージェントに与えます、よね?
00:12:18だから、
00:12:18あなたはジュニア エンジニアが実際にエージェント作業を行うことを仲介しているというアイデアを仲介しています。なぜなら彼らはそれをやるのがより快適だからです
00:12:21しかし、
00:12:22シニア エンジニアは、
00:12:23実は仕様を書き出すのが本当に得意であり、
00:12:24私たちが作成する必要がある建築上の決定が何であるか、
00:12:26そしてそれを何らかのチケットに入れることを理解するのに非常に得意な人です
00:12:28- はい、
00:12:29知らない人のために、
00:12:30マタンと Factory は一般的にエージェント ネイティブ開発の時代について書いて擁護してきました
00:12:37だからあなたは彼らのウェブサイトで詳しく読むことができます
00:12:44私は、ちなみに、1つの用語を発行したいのですが、あなたのためにフロアを上げるのは良いことです
00:12:45私は実は他の人が下層階も同じことを意味するとも言うと思います
00:12:54基本的には、スキル レベルと、彼らが何ができるか、そして人々にそのためのより多くのリソースを与えるだけです
00:12:57そして私は、多くの人がモデル レイヤーについて考えていると思います、よね?
00:13:05明らかに、あなたたちは自分たちのモデルを所有し、あなたたちの二人は所有していません
00:13:13そして、私は今の価値についての話題となっていると思います
00:13:18Airbnb の Brian Chesky はほとんどの価値が Quinn に頼っているとのことです
00:13:22オープンモデルはあなたたちにとってどの程度重要ですか。そしてあなたも意見を言うことができますが、
00:13:26あなたたち両方の戦略としてオープンモデルはどの程度重要ですか?
00:13:28- まず聞きたいですね
00:13:37- はい
00:13:38オープンモデルが大好きです
00:13:38重要なのは、
00:13:39モデルについて話すことができるということです。私は、
00:13:40持続可能な開発ライフサイクルにとって開放性が本当に重要だと思います
00:13:42Codex CLI では、
00:13:45最初からオープン ソース化しました。優先事項の一部は、
00:13:52オープン モデルが地平線に現れることを理解することでした
00:13:58推論モデルの使用方法をできるだけ説明できることを確認したかった
00:14:03私たちはどのようなツールを与えるべきか、環境は何であるべきか、リソースについて多くの混乱を見ました
00:14:08そして私たちは、
00:14:08それができるだけ明確であることを確認したかった。そしてオープンモデルでもうまく機能することを確認したかった
00:14:12だから、
00:14:13特にあなたが組み込みのユースケースに入るときに、
00:14:17本当にたくさんのユースケースがあります。またはデータがその周辺を離れたくない場合
00:14:23あなたがそれをしたいのには本当にたくさんの良い理由があります
00:14:26そして、クラウドホストされたモデルの利点。これはオープンモデルの多くで見られるものです
00:14:33それらはデバイスで実行されず、
00:14:34実際にはクラウドでホストされていますが、
00:14:37効率のため、
00:14:38または費用のために、
00:14:39純粋なインテリジェンスにはまだ多くの価値があります。あなたが非常に大きなモデルを使用することから得られます
00:14:46そして、これが人々が O3 から GBD5 から GBD5 Codec へと本当に引き寄せられている理由です
00:14:52その中には本当に多くの価値があります
00:14:53今では数ヶ月ごとに新しい小さな、非常に印象的なモデルが出てくるまで、その魔法がまだ持ち越されます
00:15:04そしてこの年の初めを考えると、私は O3 ミニを限界として持っていて、私たちが今いるところです
00:15:10だから、
00:15:11はい、
00:15:11オープンモデルに本当にたくさんの価値があります。ですが、
00:15:15個人的には、
00:15:15使用の観点から、
00:15:16クラウドでホストされているモデルを使用することにおいてより多くの価値があります
00:15:21- はい、少し挟みたいのですが
00:15:23Ford は実はプライバシー、セキュリティ、エージェント堅牢性に大きく関心があります
00:15:27そして、もし彼に会ったら、それについてもっと話してくれます
00:15:30しかし、
00:15:31あなたたち両方のために、
00:15:32おそらくあなたたちが開始する可能性があるのは、
00:15:34実際に、
00:15:35あなたたちのそれぞれのアプリで生成されたオープンモデル トークン割合の概算はどのくらいですか?
00:15:39そして、それは上がるか下がるのでしょうか?
00:15:42- つまり、多分ね。ああ、これは数週間前に、私たちが Factory CLI ツールをリリースしたときの話ですね
00:15:47人々は本当に興味を持っていました。私たちはそれと一緒にリリースしたからです。Terminal Bench と呼ばれるベンチマークの私たちのスコア
00:15:57最初の要求の一つは、オープンソースモデルをテストに入れることができますか?
00:16:02なぜなら、私たちの droid エージェントは完全にモデルに依存しないからです
00:16:04だからすぐに人々は、オープンソースモデルを投げ入れて、それがどのように動作するかを見せてください
00:16:09そして、特に驚いたことは、オープンソースモデル、特に GLM が本当に、本当に良かった
00:16:17それらは実質的に明らかにフロンティアモデルよりも低性能でしたが、大きなマージンではありません
00:16:24だから、
00:16:25注目すべき点は、
00:16:26オープンソースモデルをベンチマークしたとき、
00:16:29トップ7つのうち、
00:16:311つは米国で作られました。あなたはこれです。私は思うのですが、
00:16:35それは何か恥ずべきことです
00:16:37つまり、フロンティアモデルの場合、はるかに米国全体です
00:16:43ですがオープンソースの場合、私たちは本当にボールを落としています
00:16:47だからこれは注目すべき点であり、
00:16:49私がそれを見たとき、
00:16:50本当に少なくともそれを変えるために募集する呼びかけがあるべきだと思ったことです
00:16:56なぜなら、
00:16:57あなたの質問に答えるために、
00:16:59私たちが見つけたのは、
00:17:00オープンソースモデルのサポートをリリースしたので、
00:17:04それを使用している人の割合は劇的に上がったのです
00:17:08部分的には費用のため。そしてあなたが知っているということはあなたをさせます。例えば、
00:17:13そのドキュメントの例では、
00:17:14おそらくドキュメントを生成したいのですが、
00:17:17それが最大の超高推論で、
00:17:181000 ドルを費やしたくはありません。ですが、
00:17:21最初のパスでいくつか初期を手に入れたいだけです
00:17:24そして、人々は、また、いくつかの制御を持つのが好きです
00:17:28そして、
00:17:29私はこれらのオープンソースモデルの何かでより多くの制御を得ると感じ、
00:17:35両方の制御と費用と、
00:17:36実際に何が起こっているかへの可視性
00:17:39だから私は需要が、1年前に期待しなかった場所に成長したと思います
00:17:431年前は、私はオープンソースモデルについてはあまり強気ではありませんでした。ですがオープンウェイト、そうですね
00:17:49- はい、私たちはオープンソースと独有の両方のモデルを私たちの全体的なエージェント パイプラインで使用します
00:17:55そして、私たちが彼らについて考える方法は、LLM 呼び出しに2つの異なるユースケースがあるということです
00:17:581つは最先端の推論が必要なときです
00:18:01それは非常に、非常にオープンエンドな質問です
00:18:02あなたは実際に答えが何であるかわかりません
00:18:04目標は、目標関数が非常によく定義されていない場合のような
00:18:07それらの場合、推論とインテリジェンスに関しては、クローズドソースモデルは依然として最先端です
00:18:13そのような種類のユースケースのために、ほぼ独占的にクローズドソースモデルを使用します
00:18:162番目のユースケースは、より専門的なタスクがあり、はるかに明確な目標関数があります
00:18:22その場合、私たちはほぼ常にオープンソースモデルを微調整しようとします
00:18:26おそらく推論能力に関しては、20%のカットを取ることに問題はありませんが、非常に特定のユースケースを実際に微調整できます
00:18:35オープンソースモデルが非常に急速に追いついてきていることがわかりました。
00:18:391年半前は、v0のパイプラインにオープンソースモデルを使うなんて考えられなかった。
00:18:45今は、パイプラインのすべての部分で、オープンソースモデルを組み込めるか考えています。
00:18:49現在のクローズドソースの最先端モデルを、オープンソースモデルのファインチューンに置き換えられるか、試しています。
00:18:57Qwen、QWEN-32K、そのほかのモデルで、かなりの成功を見ています。
00:19:02これは誰もが見ている最大の変化の1つですね。年初、
00:19:06BrainTrustのアンクルとポッドキャストをしたとき、
00:19:10彼はオープンソースモデルの利用率が約5%で、
00:19:14さらに減少していると言っていました。
00:19:17今では、おそらく10~20%の範囲に上がると思います。
00:19:22興味深いのは、クローズドソースモデルも小規模モデルに大きく投資していることです。
00:19:29Haiku、
00:19:30GPT-4 Mini、
00:19:31Gemini Flashなどですが、
00:19:34この規模のモデルがオープンソースと最も競争しています。
00:19:38小規模モデルがオープンソースモデルのファインチューンと競い合っています。
00:19:42フロンティアモデルを使うのはやり過ぎのユースケースもあります。やり過ぎなら、当然、より速く安いものを使いたくなります。
00:19:53この利用率の差は、
00:19:55オープンソースモデルがほとんどのタスクで十分になるという閾値を超えるタイミングと、
00:20:03特定のニッチなタスクで追加の処理能力が必要になるタイミングの差だと思います。
00:20:10これらのオープンソースモデルでその水準に到達しつつあるので、今後の利用がさらに増えるだろうと予想します。
00:20:16本当に心強いですね。
00:20:18最後の質問の準備に少し時間をいただきたいのですが、
00:20:21あなたのエージェントが今日はできないけど、
00:20:24来年はできるようになるといいなと思うことは何ですか?
00:20:27私から始めてもいいですか?
00:20:31いいですね。
00:20:32この1年間、
00:20:33特に1年ちょっと前のo1、
00:20:36o1プレビューから見てきたことですが、
00:20:39当時の初期チェックポイントを使っていたときは、
00:20:44GPT-4と比べて良かったのですが、
00:20:48まだ多くの改善の余地がありました。
00:20:51当時、セキュリティチームにいたのですが、そのモデルに任せられないタスクがたくさんありました。
00:21:00今と比べると、
00:21:012文、
00:21:02いくつかの箇条書きなど、
00:21:04かなり明確なタスク、
00:21:06そして落とし穴のポイントを指摘してから30分、
00:21:111時間後には、
00:21:12それが完成しています。
00:21:14何時間も、
00:21:15場合によっては7、
00:21:168時間実行されるケースもあります。丸一日の仕事のようなもので、
00:21:21私は会議に時間を費やすので、
00:21:23まとまった時間がないときもあります。
00:21:26でも、エンジニアリングはそれだけではありません。
00:21:30コーディング、アーキテクチャ設計、トラブルシューティング、デバッグが含まれます。
00:21:34もう半分は、ドキュメント作成、システム理解、説得です。
00:21:39そこで見たいのは、
00:21:40スーパーコラボレーターのようなもので、
00:21:43コーデックやこれらのインターフェースを通じて、
00:21:47理想的なコラボレーター、
00:21:49つまり一緒に仕事をしたい人材を実現することです。
00:21:53最初に相談する人、好きな同僚、アイデアを一緒に膨らませたい人、それが特にコーデックスで見たいことです。
00:22:02私たちは2つの異なる分野で急速な進展を見ています。
00:22:071つ目は、エージェントが合理的に実行でき、合理的に良い出力を得られるステップ数がどのくらいかということです。
00:22:14去年は、おそらく1つ、最大で3つですね。
00:22:1790%以上の成功率で信頼できる出力を得たければ、おそらく1~3ステップのエージェント実行です。
00:22:22今は、ほとんどのツールが5~20ステップで、90%以上の成功率という素晴らしい信頼性で動作しています。
00:22:29来年は、
00:22:29100以上、
00:22:30200以上のステップを追加して、
00:22:32大量のステップを一度に実行し、
00:22:34複数時間の長時間実行タスクを行い、
00:22:36最終的に有用な出力が得られるという確信を持つことができると思います。
00:22:402つ目は、消費できるリソースの観点です。
00:22:421年前は、プロンプト形式に入力するものが基本的にすべてでした。
00:22:47今は、MCPを使って外部接続を設定したり、アプリケーション内で直接APIコールを行ったりできます。
00:22:55知識があれば、設定を構成する能力があります。
00:22:58そして、1年後には、それが自動的に起こるようになると思います。
00:23:00つまり、機能するようになるのです。
00:23:02目標は、エージェントに与えるべきコンテキストソースを知る必要がないことです。
00:23:06エージェントが実際に積極的にそれらのコンテキストソースを見つけるようになります。
00:23:09今日でもすでに見始めていますが、今日の時点ではまだ非常に信頼できて有用とは言えません。
00:23:16来年までには、それがデフォルトモードになると思います。
00:23:18そうですね、同意します。
00:23:19エージェントは基本的に今日のあらゆることができると思いますが、
00:23:24どの程度確実かつ積極的にそうするかは、
00:23:26これから変わるスライダーだと思います。
00:23:29ただし、そのスライダーはユーザーにも依存しています。
00:23:31エージェントとのアプローチを変えず、
00:23:33エージェントに合わせようとしないユーザーなら、
00:23:36信頼性と積極性が低下する可能性があります。
00:23:38一方、ハーネスを正しく設定したり、環境を正しく設定したりすれば、より確実かつ積極的にそれを実行できるようになります。
00:23:45素晴らしいですね。
00:23:46時間は終わりました。
00:23:48私の貢献はコンピュータビジョンです。
00:23:49皆さん、Atlasを試してください。
00:23:51もっとコンピュータビジョンのユースケースを試してみてください。本当に時間をありがとうございました。
00:23:55ありがとうございました。
00:23:56(観客の拍手)(アップビートな音楽)