未来のためのコーディングパネル

日本語العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 한국어 Português Русский 中文

Computing/SoftwareManagementInternet Technology

Transcript

00:00:00（アップビートな音楽） - AI コーディングの未来についてのパネルディスカッションへようこそ

00:00:04全員黒い服を着てくるという通知を読んでくれてありがとうございます

00:00:07（笑）では、簡単に自己紹介をさせていただきたいと思います

00:00:12皆さんのことはいろいろな形で知っていますが、聴衆の皆さんはそうでないかもしれませんね

00:00:17マタン、まずあなたからいいですか？

00:00:19AI コーディングの分野において、Factory はどのような立場にいるのでしょうか？

00:00:26- はい、Factory の使命は、ソフトウェアエンジニアリングに自動化をもたらすことです

00:00:32より具体的には、エンドツーエンドのソフトウェア開発エージェント「ドロイド」を構築しました

00:00:38これらはコーディング自体だけでなく、ソフトウェア開発ライフサイクル全体をカバーします

00:00:43ドキュメント、

00:00:44テスト、

00:00:45レビューなど、

00:00:46つまらない部分も全部やります。だからあなたはコーディングのような楽しい部分に集中できます

00:00:52そしてコーディングでやりたくない部分は、ドロイドにやらせることもできます

00:00:56つまり、ドロイドを構築するんです

00:00:58ドロイドを構築するんです

00:00:59OpenAI はもちろん説明が必要ですが、

00:01:02あなたの codec チームでの役割について、

00:01:05codec のビデオに出演しているのを見かけました

00:01:08それであなたが関わっていることがわかりました

00:01:10最近 codec についてどのようにお考えですか。かなり拡張されてますよね？

00:01:14- はい、今年初めに最初のコーディングエージェントをリリースしました

00:01:19私は codec CLI に携わり、推論モデルの力をユーザーのコンピュータに持ち込みました

00:01:26その後、これらのタスクをクラウドで配布・委譲できる codec cloud をリリースしました

00:01:31ここ数ヶ月の間、私たちはこれらのエクスペリエンスを統一してきました

00:01:34できるだけシームレスに動作するようにね

00:01:36私たちの焦点は、基本的な機能、プリミティブをできるだけ有用にすることです

00:01:41先日 Dev Day で codec SDK をリリースしました

00:01:43重要な方向性の一つは、コーディングやコード実行エージェントをコーディングだけでなく、一般的な目的のタスクにも使うことです

00:01:52例えば、

00:01:53今年初めに取り組んだ try to be エージェントは、

00:01:56バックグラウンドでコードを実行してタスクを達成します。でも重要なのは、

00:02:01開発者が推論モデルだけでなく、

00:02:02サンドボックスや codec に組み込んだ他の機能の上に構築できるようにしたことです

00:02:07- いいですね

00:02:09V0 について？

00:02:10- V0 の目標は、開発者がプレビュー駆動のエージェント的プログラミングを行えるようにすることです

00:02:16今日、

00:02:17ウェブアプリを構築する際は、

00:02:19通常エージェント、

00:02:20IDE、

00:02:21コードが開いており、

00:02:22実際に構築しているもののプレビューも見ます

00:02:25通常は dev サーバーを実行しています

00:02:26V0 では、エージェントを走らせて、実行中のアプリに直接プロンプトを送ることができるようにしたいのです

00:02:32これが将来の DX の形だと考えています

00:02:35- いいですね

00:02:36各社とも、コーディングエージェントにアクセスするための異なるインターフェースを持っています

00:02:40だからこそ、ローカルとクラウドのどちらが重要かについてキックオフしたいんです

00:02:45あなたはローカルから始めてクラウドに、あなたはクラウドから始めてローカルに、あなたは今のところクラウドのみですね

00:02:50バランスはどうですか？

00:02:52最終的には皆が統合されるんでしょうか？

00:02:55- はい、まずそこから説明させてもらいたいですね

00:02:58結局のところ、

00:02:59これらのエージェントの目的は、

00:03:01できるだけ役に立つことであり、

00:03:04人間と協働する場合と非常に似た存在になることです

00:03:08ローカルの人間とリモートの人間がいて、

00:03:10一方はこの環境でしか働けない、

00:03:12もう一方はあの環境でしか働けないなんてことはありませんよね

00:03:16一般的に、

00:03:16人間は会議室であなたとアイデアを考えている場合にも、

00:03:20コンピュータを肩越しに見ている場合にも、

00:03:22役に立つことができます

00:03:24だから理想的には、

00:03:25これらは同じになる必要があります。ですが短期的には、

00:03:30リモートの方が通常役に立つようです。特に、

00:03:34確実に委譲できると確信している小さなタスクに対してです

00:03:39一方、

00:03:40ローカルはエージェントに少し近い位置にいたい場合です。より大きなタスクか、

00:03:46より複雑なタスクで、

00:03:47能動的に監視する場合ですね

00:03:49そして、

00:03:50何か問題が起こった場合に備えて、

00:03:51ブランチを引き下ろして作業を始める必要がないように、

00:03:54ローカルにしておきたい。その代わりに、

00:03:56すぐそこにいてガイドできるようにです

00:03:57- 貪欲かもしれませんが、両方欲しいです

00:04:00そして、マタンの言う通り、モダリティを持つことで、同僚と実際に協働する主な形式を考えることが好きです

00:04:11それはホワイトボーディングセッションから始まることが多く、部屋の中で何かについてブレインストーミングをしています

00:04:17構築していたときの良い例は agents.md です。これは異なるコーディングエージェント全体で汎用的であることを意図したカスタム指示です

00:04:26それは、ローマンと私が部屋の中でこのアイデアについて考えているところから始まりました

00:04:31それからホワイトボーディングを始めて、

00:04:33写真を撮ってから、

00:04:34ローカルで codec CLI で起動しました。Next.js アプリのワークショップのようなもので、

00:04:39作業できました。昼食に行って戻ってきました

00:04:41コア構造の大部分がありました

00:04:44そしてそこから、もう少し密接に反復することができました

00:04:46つまり、ペアリングのようなブレインストーミング・スタイルのエクスペリエンスを持つことですね

00:04:49そして、

00:04:502 番目のポイントについて、

00:04:52どのようなタスクを委譲するかについては、

00:04:55歴史的には、

00:04:56より小さなスコープのタスクで、

00:04:58出力が明確な場合が、

00:04:59やり放しの場合に適切なモダリティだと思います

00:05:02ですが、

00:05:03約2ヶ月前にリリースした GBD5 codec でこれから見始めているのは、

00:05:05より長時間実行でき、

00:05:05より複雑でより曖昧なタスクができるということです。最終的に何を望むかについて明確であれば

00:05:08数時間連続して動作することができます

00:05:16モデルの能力が向上するにつれて、このシフトはより多くのユースケースを可能にし始めます

00:05:18より多くのユースケースを可能にし始めると思います

00:05:24- はい

00:05:24はい、エージェントを機能させるために3つの部分があります

00:05:27エージェントループそのもの、それが行うツール呼び出し、そしてツール呼び出しが作用する必要があるリソースです

00:05:34クラウド優先かローカル優先かは、それらのリソースがどこにあるかに基づいています

00:05:37ローカルファイルシステムで作業しようとしている場合、それはあなたがアクセスする必要があるリソースです

00:05:41エージェントループをローカルで実行することは完全に理にかなっています

00:05:44通常クラウドに存在するリソースにアクセスしている場合、

00:05:46GitHub から直接、

00:05:48または何らかのサードパーティリポジトリから引き出している場合、

00:05:51エージェントをクラウドから開始することは理にかなっています

00:05:54ただし、最終的には、これらのリソースは両方の場所に存在しますよね？

00:05:57すべての開発者は、

00:05:58エージェントがローカルファイルシステムとGitHub でホストされているオープンPRの両方で動作できることを期待しています

00:06:04つまり、

00:06:05どこから始めるかは本当に重要ではないと思います。みんな同じ場所に収束しています。それはエージェントループがどこでも実行でき、

00:06:11ツール呼び出しがクラウドからローカルに、

00:06:13またはローカルバックアップからクラウドにストリーミングできる必要があることです

00:06:16そしてそれはすべて、実際に作用したいリソースがどこにあるかに依存します

00:06:20- はい、いいですね

00:06:22ステージ外で話していて、辛い質問などを探していました

00:06:27これはすごく好きで、本当にタイムリーだと思います

00:06:31皆さんは生計のためにスロップを生成しているんですか？

00:06:33つまり、潜在的にこれが AGI への持続可能なパスであると信じているハイプ・バブルの危険性はありますか？

00:06:40- つまり、まず言えるのは、ある人のスロップは別の人の宝であるということです。ある程度まで本当かもしれません

00:06:44例えば、ドキュメンテーションが全くないリポジトリがあるとしましょう

00:06:52私たちが話してきた多くのツールを使って、このリポジトリのドキュメンテーションを生成することができます

00:07:00今、それは最も丁寧に作られたドキュメンテーションになるでしょうか？

00:07:08いいえ、でも価値を提供していますか？

00:07:13はい、

00:07:13私の考えでは。古いレガシーコードベースをふるいにかけるのに苦労している場合は、

00:07:15やや粗く作られたドキュメンテーションを見る方が簡単です

00:07:16だからこそ大事なのは、

00:07:17これらのツールをどこで活用できるかを見つけることです。そしてどの程度がスロップかは、

00:07:23あなたがどの程度のガイダンスを提供するかにも依存しています

00:07:26つまり、

00:07:27例えば、

00:07:28このようなアプリを作ってくれと言ったなら、

00:07:31おそらく何かをするジェネリックなスロップアプリを手に入れることになります - それは紫です

00:07:38- はい、青、紫のようなフェード、そうですね

00:07:44一方、

00:07:45代わりに、

00:07:45あなたが望むものについて非常に体系的である場合、

00:07:47あなたは実際にあなたが要求している能力を検証するために実行するためのツールを提供しました

00:07:48ジュニアエンジニアをチームに雇い、単に「これをやってくれ」と言う場合と同じ程度に、それはより構造化されていると思います

00:07:58おそらく彼らは平均的な成果をもたらすでしょう。なぜなら、他に指定がないからです

00:08:08そして、あなたが実際に何をしてほしいのかについては、かなり曖昧です

00:08:14- 重要な言葉は「レバレッジ」ですよね？

00:08:19AI コーディングエージェントは、あなた自身ができるよりも 10 倍多くのことをするのに非常に高い下限があります

00:08:21スキルレベルと、

00:08:21エージェントがどの程度役に立つか、

00:08:23またはそれが非スロップを生成する可能性がどの程度高いかをプロットすると、

00:08:25スキルがない場合、

00:08:26下限はかなり低いでしょう

00:08:27しかし、あなたはまだ非常に高い下限を持っていますよね？

00:08:36エージェントは、まさにそのままで非常に優れています

00:08:38開発についてのことを何も知らない場合、エージェントはあなたができるよりもはるかに多くを行います

00:08:39しかし、

00:08:40あなたがより高いスキルレベルに達するにつれて、

00:08:41シニアエンジニアと主要なエンジニアと卓越したエンジニアは、

00:08:43実際にはエージェントを異なる方法で使用します

00:08:44彼らはすでにできたことをレベルアップするためにそれを使用しています

00:08:50知っていますか？主要なエンジニアは、手動で 1 日あたり 5,000 行のコードを書くことができます

00:08:53エージェントを使うと、1 日あたり 50,000 行のコードを書くことができます

00:08:57そしてそれは本当に、あなたが入力する内容と入力する知識のレベルで動作します

00:09:00だから私は、あなたが知っている、時間をかけてフロアを徐々に上げていると思います。より良いエージェントを構築することで

00:09:04しかし、それはレバレッジの一形態です

00:09:11それはあなたが既にできることを加速するための方法で、より速くやっています

00:09:14そしてスキルのない人のために、あなたは実際にそれが何をできるかのフロアをあげることができます

00:09:18- 絶対に。そして、これら両方のポイントに追加するために、私はそれらがツールであり、工芸の増幅器だと思います

00:09:23あなたがそれを持っている場合、あなたはもっとやることができます

00:09:29あなたがそれを持っていない場合、それは単に難しいですが、それはフロアを上げます

00:09:31これは本当に呼び出す価値があると思います

00:09:34最初のプロトタイプを構築しようとしている人、アイデアを反復しようとしている人にとっては

00:09:36前に言及した例ですが、

00:09:37コンテンツ駆動型のサイトのようなフロントエンドを作ることはできなかったわけではありません。単に時間がありませんでした

00:09:44そしてホワイトボードに描いて、話をして、会話をして、それからエージェントに任せる方が楽しかった

00:09:51しかし、このユースケースの興味深い例は、codec のはるかに初期のイテレーション、1 年以上前を構築していたときでした

00:09:57そしてローカルの内部ループスタイルツールをたくさん使用する製品エンジニアリングをしている 2 つの異なるアーキタイプの前に置きました。彼らはただチャットするのに慣れていて、

00:10:02おそらく反復しています

00:10:03そして、

00:10:03推論チームの人たちと話すときに完全に異なるモダリティ。彼らはタスクを定義するためにおそらく5分間座って、

00:10:12エッセイの長さのようなエージェントが実行する問題があるでしょう。それから1時間動くでしょう

00:10:19そしてそれは実質的に01またはそれより前のバージョンでした

00:10:33そして面白い部分は、

00:10:34人々がエージェントにタスクを与える方法が、

00:10:35彼らが何が必要だと思うかについての理解に基づいて完全に異なっていたことです

00:10:37だから私は本当に特異性に固定されていると思います。出力がどうなるかについて明確であること

00:10:48そして、

00:10:49そこには、

00:10:49エージェントのビルダーとしての私たちの両方の責任と、

00:10:50モデルを訓練している人々の責任である、

00:10:51より広いアイテムがあります。本当にそのフロアを上げて、

00:10:53高い職人技、

00:10:53高い味を持つ人々のための天井が、

00:10:54彼らが見合う方法でそれを実行することができることを保証すること

00:10:55- 実は、あなたが言及したことは、私たちが気づき始めたアイデアを思い起こさせます

00:11:11だから私たちのターゲットオーディエンスはエンタープライズです

00:11:16そして、

00:11:16繰り返し繰り返し見られることは、

00:11:17エージェントネイティブ開発の採用に関して非常に興味深い二峰性があるということです

00:11:19特に、

00:11:19通常、

00:11:20初期段階のキャリアの開発者はエージェントネイティブの方法で構築を開始することに更にオープンマインドです。ですが、

00:11:25彼らはエンジニアリングチームを管理した経験がありません

00:11:28だから彼らはおそらく、非常に上手く機能する方法で委譲に最も精通していないかもしれません

00:11:39一方、より経験豊かなエンジニアは委譲の経験がたくさんあります

00:11:44彼らは、これらの正確な事項を指定しなければ、それは完了しないということを知っています

00:11:47そして彼らは本当にその段落を書き出すのが得意ですが、

00:11:48彼らは頑固で、

00:11:49実際に彼らが構築する方法を変えたくないし、

00:11:50あなたは冷たい死んだ手からEmacs を引き出す必要があります

00:11:51だからそこには興味深いバランスがあります

00:12:03- あなたがそれを言うのは本当に面白いです

00:12:05エンタープライズで見た同様のことは、シニアエンジニア、より上位の人々がチケットを書きます

00:12:06だからぬ彼ら実際に何をする必要があるかのすべてのスペックを書く仕事をします

00:12:12彼らはそれを実際にやるためにジュニアエンジニアに引き渡します

00:12:16ジュニアエンジニアはその非常によく書かれたチケットを取得し、エージェントに与えます、よね？

00:12:18だから、

00:12:18あなたはジュニアエンジニアが実際にエージェント作業を行うことを仲介しているというアイデアを仲介しています。なぜなら彼らはそれをやるのがより快適だからです

00:12:21しかし、

00:12:22シニアエンジニアは、

00:12:23実は仕様を書き出すのが本当に得意であり、

00:12:24私たちが作成する必要がある建築上の決定が何であるか、

00:12:26そしてそれを何らかのチケットに入れることを理解するのに非常に得意な人です

00:12:28- はい、

00:12:29知らない人のために、

00:12:30マタンと Factory は一般的にエージェントネイティブ開発の時代について書いて擁護してきました

00:12:37だからあなたは彼らのウェブサイトで詳しく読むことができます

00:12:44私は、ちなみに、1つの用語を発行したいのですが、あなたのためにフロアを上げるのは良いことです

00:12:45私は実は他の人が下層階も同じことを意味するとも言うと思います

00:12:54基本的には、スキルレベルと、彼らが何ができるか、そして人々にそのためのより多くのリソースを与えるだけです

00:12:57そして私は、多くの人がモデルレイヤーについて考えていると思います、よね？

00:13:05明らかに、あなたたちは自分たちのモデルを所有し、あなたたちの二人は所有していません

00:13:13そして、私は今の価値についての話題となっていると思います

00:13:18Airbnb の Brian Chesky はほとんどの価値が Quinn に頼っているとのことです

00:13:22オープンモデルはあなたたちにとってどの程度重要ですか。そしてあなたも意見を言うことができますが、

00:13:26あなたたち両方の戦略としてオープンモデルはどの程度重要ですか？

00:13:28- まず聞きたいですね

00:13:37- はい

00:13:38オープンモデルが大好きです

00:13:38重要なのは、

00:13:39モデルについて話すことができるということです。私は、

00:13:40持続可能な開発ライフサイクルにとって開放性が本当に重要だと思います

00:13:42Codex CLI では、

00:13:45最初からオープンソース化しました。優先事項の一部は、

00:13:52オープンモデルが地平線に現れることを理解することでした

00:13:58推論モデルの使用方法をできるだけ説明できることを確認したかった

00:14:03私たちはどのようなツールを与えるべきか、環境は何であるべきか、リソースについて多くの混乱を見ました

00:14:08そして私たちは、

00:14:08それができるだけ明確であることを確認したかった。そしてオープンモデルでもうまく機能することを確認したかった

00:14:12だから、

00:14:13特にあなたが組み込みのユースケースに入るときに、

00:14:17本当にたくさんのユースケースがあります。またはデータがその周辺を離れたくない場合

00:14:23あなたがそれをしたいのには本当にたくさんの良い理由があります

00:14:26そして、クラウドホストされたモデルの利点。これはオープンモデルの多くで見られるものです

00:14:33それらはデバイスで実行されず、

00:14:34実際にはクラウドでホストされていますが、

00:14:37効率のため、

00:14:38または費用のために、

00:14:39純粋なインテリジェンスにはまだ多くの価値があります。あなたが非常に大きなモデルを使用することから得られます

00:14:46そして、これが人々が O3 から GBD5 から GBD5 Codec へと本当に引き寄せられている理由です

00:14:52その中には本当に多くの価値があります

00:14:53今では数ヶ月ごとに新しい小さな、非常に印象的なモデルが出てくるまで、その魔法がまだ持ち越されます

00:15:04そしてこの年の初めを考えると、私は O3 ミニを限界として持っていて、私たちが今いるところです

00:15:10だから、

00:15:11はい、

00:15:11オープンモデルに本当にたくさんの価値があります。ですが、

00:15:15個人的には、

00:15:15使用の観点から、

00:15:16クラウドでホストされているモデルを使用することにおいてより多くの価値があります

00:15:21- はい、少し挟みたいのですが

00:15:23Ford は実はプライバシー、セキュリティ、エージェント堅牢性に大きく関心があります

00:15:27そして、もし彼に会ったら、それについてもっと話してくれます

00:15:30しかし、

00:15:31あなたたち両方のために、

00:15:32おそらくあなたたちが開始する可能性があるのは、

00:15:34実際に、

00:15:35あなたたちのそれぞれのアプリで生成されたオープンモデルトークン割合の概算はどのくらいですか？

00:15:39そして、それは上がるか下がるのでしょうか？

00:15:42- つまり、多分ね。ああ、これは数週間前に、私たちが Factory CLI ツールをリリースしたときの話ですね

00:15:47人々は本当に興味を持っていました。私たちはそれと一緒にリリースしたからです。Terminal Bench と呼ばれるベンチマークの私たちのスコア

00:15:57最初の要求の一つは、オープンソースモデルをテストに入れることができますか？

00:16:02なぜなら、私たちの droid エージェントは完全にモデルに依存しないからです

00:16:04だからすぐに人々は、オープンソースモデルを投げ入れて、それがどのように動作するかを見せてください

00:16:09そして、特に驚いたことは、オープンソースモデル、特に GLM が本当に、本当に良かった

00:16:17それらは実質的に明らかにフロンティアモデルよりも低性能でしたが、大きなマージンではありません

00:16:24だから、

00:16:25注目すべき点は、

00:16:26オープンソースモデルをベンチマークしたとき、

00:16:29トップ7つのうち、

00:16:311つは米国で作られました。あなたはこれです。私は思うのですが、

00:16:35それは何か恥ずべきことです

00:16:37つまり、フロンティアモデルの場合、はるかに米国全体です

00:16:43ですがオープンソースの場合、私たちは本当にボールを落としています

00:16:47だからこれは注目すべき点であり、

00:16:49私がそれを見たとき、

00:16:50本当に少なくともそれを変えるために募集する呼びかけがあるべきだと思ったことです

00:16:56なぜなら、

00:16:57あなたの質問に答えるために、

00:16:59私たちが見つけたのは、

00:17:00オープンソースモデルのサポートをリリースしたので、

00:17:04それを使用している人の割合は劇的に上がったのです

00:17:08部分的には費用のため。そしてあなたが知っているということはあなたをさせます。例えば、

00:17:13そのドキュメントの例では、

00:17:14おそらくドキュメントを生成したいのですが、

00:17:17それが最大の超高推論で、

00:17:181000 ドルを費やしたくはありません。ですが、

00:17:21最初のパスでいくつか初期を手に入れたいだけです

00:17:24そして、人々は、また、いくつかの制御を持つのが好きです

00:17:28そして、

00:17:29私はこれらのオープンソースモデルの何かでより多くの制御を得ると感じ、

00:17:35両方の制御と費用と、

00:17:36実際に何が起こっているかへの可視性

00:17:39だから私は需要が、1年前に期待しなかった場所に成長したと思います

00:17:431年前は、私はオープンソースモデルについてはあまり強気ではありませんでした。ですがオープンウェイト、そうですね

00:17:49- はい、私たちはオープンソースと独有の両方のモデルを私たちの全体的なエージェントパイプラインで使用します

00:17:55そして、私たちが彼らについて考える方法は、LLM 呼び出しに2つの異なるユースケースがあるということです

00:17:581つは最先端の推論が必要なときです

00:18:01それは非常に、非常にオープンエンドな質問です

00:18:02あなたは実際に答えが何であるかわかりません

00:18:04目標は、目標関数が非常によく定義されていない場合のような

00:18:07それらの場合、推論とインテリジェンスに関しては、クローズドソースモデルは依然として最先端です

00:18:13そのような種類のユースケースのために、ほぼ独占的にクローズドソースモデルを使用します

00:18:162番目のユースケースは、より専門的なタスクがあり、はるかに明確な目標関数があります

00:18:22その場合、私たちはほぼ常にオープンソースモデルを微調整しようとします

00:18:26おそらく推論能力に関しては、20％のカットを取ることに問題はありませんが、非常に特定のユースケースを実際に微調整できます

00:18:35オープンソースモデルが非常に急速に追いついてきていることがわかりました。

00:18:391年半前は、v0のパイプラインにオープンソースモデルを使うなんて考えられなかった。

00:18:45今は、パイプラインのすべての部分で、オープンソースモデルを組み込めるか考えています。

00:18:49現在のクローズドソースの最先端モデルを、オープンソースモデルのファインチューンに置き換えられるか、試しています。

00:18:57Qwen、QWEN-32K、そのほかのモデルで、かなりの成功を見ています。

00:19:02これは誰もが見ている最大の変化の1つですね。年初、

00:19:06BrainTrustのアンクルとポッドキャストをしたとき、

00:19:10彼はオープンソースモデルの利用率が約5%で、

00:19:14さらに減少していると言っていました。

00:19:17今では、おそらく10～20%の範囲に上がると思います。

00:19:22興味深いのは、クローズドソースモデルも小規模モデルに大きく投資していることです。

00:19:29Haiku、

00:19:30GPT-4 Mini、

00:19:31Gemini Flashなどですが、

00:19:34この規模のモデルがオープンソースと最も競争しています。

00:19:38小規模モデルがオープンソースモデルのファインチューンと競い合っています。

00:19:42フロンティアモデルを使うのはやり過ぎのユースケースもあります。やり過ぎなら、当然、より速く安いものを使いたくなります。

00:19:53この利用率の差は、

00:19:55オープンソースモデルがほとんどのタスクで十分になるという閾値を超えるタイミングと、

00:20:03特定のニッチなタスクで追加の処理能力が必要になるタイミングの差だと思います。

00:20:10これらのオープンソースモデルでその水準に到達しつつあるので、今後の利用がさらに増えるだろうと予想します。

00:20:16本当に心強いですね。

00:20:18最後の質問の準備に少し時間をいただきたいのですが、

00:20:21あなたのエージェントが今日はできないけど、

00:20:24来年はできるようになるといいなと思うことは何ですか？

00:20:27私から始めてもいいですか？

00:20:31いいですね。

00:20:32この1年間、

00:20:33特に1年ちょっと前のo1、

00:20:36o1プレビューから見てきたことですが、

00:20:39当時の初期チェックポイントを使っていたときは、

00:20:44GPT-4と比べて良かったのですが、

00:20:48まだ多くの改善の余地がありました。

00:20:51当時、セキュリティチームにいたのですが、そのモデルに任せられないタスクがたくさんありました。

00:21:00今と比べると、

00:21:012文、

00:21:02いくつかの箇条書きなど、

00:21:04かなり明確なタスク、

00:21:06そして落とし穴のポイントを指摘してから30分、

00:21:111時間後には、

00:21:12それが完成しています。

00:21:14何時間も、

00:21:15場合によっては7、

00:21:168時間実行されるケースもあります。丸一日の仕事のようなもので、

00:21:21私は会議に時間を費やすので、

00:21:23まとまった時間がないときもあります。

00:21:26でも、エンジニアリングはそれだけではありません。

00:21:30コーディング、アーキテクチャ設計、トラブルシューティング、デバッグが含まれます。

00:21:34もう半分は、ドキュメント作成、システム理解、説得です。

00:21:39そこで見たいのは、

00:21:40スーパーコラボレーターのようなもので、

00:21:43コーデックやこれらのインターフェースを通じて、

00:21:47理想的なコラボレーター、

00:21:49つまり一緒に仕事をしたい人材を実現することです。

00:21:53最初に相談する人、好きな同僚、アイデアを一緒に膨らませたい人、それが特にコーデックスで見たいことです。

00:22:02私たちは2つの異なる分野で急速な進展を見ています。

00:22:071つ目は、エージェントが合理的に実行でき、合理的に良い出力を得られるステップ数がどのくらいかということです。

00:22:14去年は、おそらく1つ、最大で3つですね。

00:22:1790%以上の成功率で信頼できる出力を得たければ、おそらく1～3ステップのエージェント実行です。

00:22:22今は、ほとんどのツールが5～20ステップで、90%以上の成功率という素晴らしい信頼性で動作しています。

00:22:29来年は、

00:22:29100以上、

00:22:30200以上のステップを追加して、

00:22:32大量のステップを一度に実行し、

00:22:34複数時間の長時間実行タスクを行い、

00:22:36最終的に有用な出力が得られるという確信を持つことができると思います。

00:22:402つ目は、消費できるリソースの観点です。

00:22:421年前は、プロンプト形式に入力するものが基本的にすべてでした。

00:22:47今は、MCPを使って外部接続を設定したり、アプリケーション内で直接APIコールを行ったりできます。

00:22:55知識があれば、設定を構成する能力があります。

00:22:58そして、1年後には、それが自動的に起こるようになると思います。

00:23:00つまり、機能するようになるのです。

00:23:02目標は、エージェントに与えるべきコンテキストソースを知る必要がないことです。

00:23:06エージェントが実際に積極的にそれらのコンテキストソースを見つけるようになります。

00:23:09今日でもすでに見始めていますが、今日の時点ではまだ非常に信頼できて有用とは言えません。

00:23:16来年までには、それがデフォルトモードになると思います。

00:23:18そうですね、同意します。

00:23:19エージェントは基本的に今日のあらゆることができると思いますが、

00:23:24どの程度確実かつ積極的にそうするかは、

00:23:26これから変わるスライダーだと思います。

00:23:29ただし、そのスライダーはユーザーにも依存しています。

00:23:31エージェントとのアプローチを変えず、

00:23:33エージェントに合わせようとしないユーザーなら、

00:23:36信頼性と積極性が低下する可能性があります。

00:23:38一方、ハーネスを正しく設定したり、環境を正しく設定したりすれば、より確実かつ積極的にそれを実行できるようになります。

00:23:45素晴らしいですね。

00:23:46時間は終わりました。

00:23:48私の貢献はコンピュータビジョンです。

00:23:49皆さん、Atlasを試してください。

00:23:51もっとコンピュータビジョンのユースケースを試してみてください。本当に時間をありがとうございました。

00:23:55ありがとうございました。

00:23:56（観客の拍手）（アップビートな音楽）

Key Takeaway

AI コーディングエージェントは、開発者のスキルレベルに応じてレバレッジとして機能し、適切な指示と環境設定により、ソフトウェア開発ライフサイクル全体の生産性を大幅に向上させることができる。

Highlights

AI コーディングエージェントは、ドキュメント、テスト、レビューなどのソフトウェア開発ライフサイクル全体をカバーできる

ローカルとクラウドの実行環境は、アクセスするリソースの位置に基づいて使い分けるべき

オープンソースモデルの性能が急速に向上しており、利用率が5%から10～20%に増加している

エージェントの有用性は、ユーザーが与える指示の質と具体性に大きく依存する

推論能力とタスク完了の信頼性が向上し、1～3ステップから100ステップ以上の実行が可能になった

開発者スキルレベルにより、エージェント採用の二峰性が存在する（ジュニアと経験豊かなエンジニアで異なる利用方法）

Timeline

パネルディスカッション導入とFactory の立場

パネルディスカッションではAIコーディングの未来について議論が開始される。Factory の使命は、ソフトウェアエンジニアリングに自動化をもたらすことであり、エンドツーエンドのソフトウェア開発エージェント「ドロイド」を構築している。ドロイドは単なるコーディングだけでなく、ドキュメント、テスト、レビューなど、ソフトウェア開発ライフサイクル全体の退屈な部分をカバーし、開発者は楽しい部分に集中できるように設計されている。このアプローチにより、開発者はやりたくない作業をエージェントに委譲できるようになる。

Codec プロダクトの進化と戦略

Codec チームは年初にコーディングエージェントをリリースし、Codec CLI でローカルに推論モデルの力をユーザーコンピュータに提供し、その後 Codec Cloud でクラウド上でタスクを配布・委譲できるようにした。最近数ヶ月で Dev Day で Codec SDK をリリースし、基本機能をできるだけ有用にすることに焦点を当てている。重要な方向性として、コーディングやコード実行エージェントを一般的な目的のタスクにも使えるようにしており、開発者が推論モデル、サンドボックス、Codec に組み込んだ機能の上に構築できる環境を整備している。V0 では、プレビュー駆動のエージェント的プログラミングにより、開発者がエージェントを実行して実行中のアプリに直接プロンプトを送ることが可能になった。

ローカルとクラウド実行環境の最適化

ローカルとクラウドのどちらが重要かについて、複数の視点から議論される。エージェントの目的は、できるだけ役に立つことであり、人間の協働に類似すべきである。短期的には、リモート（クラウド）環境が確実に委譲できる小さなタスクに適しており、ローカル環境はより大きく複雑なタスク、能動的に監視が必要な場合に適している。最終的には、これらのリソースは両方の場所に存在すべきであり、エージェントループはどこでも実行でき、ツール呼び出しがクラウドからローカルにまたはその逆にストリーミングできることが理想的である。すべては、実際に作用したいリソースの場所に依存している。

アプローチの実例と collaborative な開発

実際の開発での agents.md の例を通じて、ホワイトボーディングセッションから始まるコラボレーティブなアプローチが説明される。ローマンと話し合い、ホワイトボード上に描き、写真を撮ってからローカルで Codec CLI で起動し、Next.js アプリのワークショップのような形で作業を進めた結果、昼食後には核となる構造の大部分が完成していたという経験談が示される。このペアリングのようなブレインストーミングスタイルのエクスペリエンスにより、より小さなスコープで出力が明確なタスクに対しては「やり放し」のモダリティが適切であること、また GBD5 Codec では長時間実行でき複雑でより曖昧なタスクでも対応可能になったことが説明される。

生成品質の議論とレバレッジの重要性

「スロップ生成」の危険性についての議論が展開され、ドキュメント生成の例を通じて、最も丁寧に作られたものではないが価値を提供する場合があることが説明される。重要なのは、ツール活用をどこで見つけるか、そしてどの程度がスロップかはユーザーが提供するガイダンスのレベルに依存することである。単に「アプリを作ってくれ」と言えば一般的で有用性の低い結果になるが、非常に具体的で明確なガイダンスを提供すれば、より構造化された結果が得られる。エージェントを機能させるには高い下限があり、スキルのない人でもエージェントはできることが多く、スキルがある人はエージェントを使って自分ができることをレベルアップすることができるという「レバレッジ」の概念が強調される。主要エンジニアは手動で1日あたり5,000行のコードを書けるが、エージェントを使うと1日あたり50,000行のコードを書ける可能性がある。

エンタープライズ採用の二峰性とジュニア・シニアエンジニアの役割分担

エンタープライズでのエージェント採用に関して、初期キャリアの開発者と経験豊かなエンジニアの間に興味深い二峰性が存在することが指摘される。初期段階のエンジニアはエージェントネイティブな方法で構築することにオープンマインドだが、チーム管理の経験がなく、委譲の方法に精通していないため、詳細な指示なしに良好な結果を得られない。一方、シニアエンジニアは委譲の経験が豊富で、詳細な仕様書の作成が得意だが、構築方法を変えることに慎重である。実際には、シニアエンジニアが詳細なチケットを作成し、ジュニアエンジニアがそれをエージェントに与えることで、より効率的なワークフローが成立する。この動的により、ジュニアエンジニアがエージェント作業を仲介し、シニアエンジニアが仕様作成と建築上の決定に注力するというロール分担が自然に形成される。

オープンモデル vs クローズドモデルの戦略と利用率の変化

オープンモデルの重要性について、持続可能な開発ライフサイクルにおける開放性の価値が強調される。Codec CLI はオープンソース化され、オープンモデルが地平線に現れることの理解、推論モデルの使用方法の説明、ツール、環境、リソースに関する混乱の解消が優先事項だった。Factory のベンチマーク「Terminal Bench」では、オープンソースモデル、特に GLM が思った以上に良好で、フロンティアモデルよりも低性能だが大きなマージンではないことが判明した。オープンソースモデルのサポートリリース以来、使用者の割合が劇的に増加し、1年前は5%、現在は10～20%まで上昇している。一方、クローズドソースモデルは推論が必要なオープンエンドな質問に最先端で、オープンソースモデルは専門的で目標関数が明確なタスクでのファインチューニングに有効である。Qwen、QWEN-32K などのモデルでも相応の成功が見られており、オープンソースモデルの追いつきが急速に進んでいる。

エージェント能力の将来展望

エージェントが来年までに実現できることとして、二つの主要な分野での進展が説明される。第一に、信頼性のあるエージェント実行ステップ数が1～3ステップから100ステップ以上に拡張され、複数時間の長時間実行タスクで最終的に有用な出力を得られるようになると予想される。第二に、消費できるリソースの観点から、MCP や API 呼び出しで外部接続を設定できる現在の方式から、エージェント自身がコンテキストソースを積極的に発見するようになることが期待されている。ユーザーが与えるべきコンテキストソースを知る必要がなくなり、エージェントがデフォルトモードで自動的にそれを見つけるようになる。ただし、信頼性と積極性はユーザーのアプローチにも依存しており、正しくハーネスと環境を設定すれば、より確実かつ積極的に実行できるようになる。

Community Posts

AIコーディングエージェント導入ガイド：生産性を10倍高める実務委譲戦略

makedream2026年2月15日9720

Write about this video