00:00:00モデルを「優れたマネージャー」になるよう訓練することは、本当に可能なのでしょうか?
00:00:02Moonshot社が先日「Kimi 2.5」をリリースし、現時点で最強のオープンソースモデルだと発表しました。
00:00:08しかし、その主張はすでに的外れです。なぜなら、これは「オープンソース」ではなく「オープンウェイト」だからです。
00:00:11両者には違いがありますが、今回そこは重要ではありません。
00:00:13Kimi 2.5には、実際に検証する価値のある2つの大きな主張があります。
00:00:171つ目は、エージェント・スウォーム(群れ)を指揮するためにゼロから訓練されたという点です。
00:00:21最大100個のサブエージェントを並行して実行できるとしています。
00:00:23この強化学習の仕組みでは、単に正解を出すことだけを報酬とするのではなく、
00:00:27いかに効率的にエージェントへ仕事を振り分けたかも評価の対象になります。
00:00:302つ目は、視覚的な自律型エージェント能力(Visual Agentic Intelligence)を備えているという主張です。
00:00:33たった1つのプロンプトで、極めて高度なアニメーションを生成したと言われています。
00:00:37「一発で構築できた」と触れ回っているのがユーザーではなく、開発者自身であるという点が興味深いですね。
00:00:42そこで、私たちのチームメンバーにこの両方の機能をテストしてもらいました。
00:00:44期待通りだったものもあれば、期待外れだったものもあります。
00:00:48先ほど言ったように、Kimi 2.5はオープンソースモデルだと自称しています。
00:00:51しかし、厳密に言えばKimi 2.5はオープンソースではありません。
00:00:54オープンソース・イニシアティブの定義によれば、
00:00:57オープンソースモデルとは、コード、学習データ、手法がすべて公開されているべきものであり、
00:01:02誰でも検査、修正、配布ができる状態を指します。
00:01:05しかし、このモデルは単なる「オープンウェイト・モデル」に過ぎません。
00:01:07オープンウェイト・モデルとは、最終的な重み(パラメータ)のみが公開されているもので、
00:01:10学習コードも学習データセットも一般には公開されていません。
00:01:14重みが公開されていることで、他者が独自のプロジェクトでモデルを微調整したり、適応させたり、デプロイしたりすることは可能です。
00:01:20さて、このモデルのアーキテクチャはDeepSeekのMoE(混合専門家)モデルと非常によく似ています。
00:01:25総パラメータ数は1兆ですが、実際に有効化されるのは320億パラメータのみです。
00:01:30では、モデルをフル活用していないということでしょうか?
00:01:33いいえ、1兆パラメータモデルと同等の精度を保ちつつ、
00:01:36はるかに低い処理能力とコストで動作するということです。
00:01:39この「総パラメータ」と「有効化されたパラメータ」の差こそが、
00:01:43このモデルが現在、最速のオープンウェイト・モデルの一つと言われる所以です。
00:01:47クエリごとに一部のパラメータしか使用しないため、
00:01:52処理速度が劇的に向上するのです。
00:01:54これこそが、他のモデルに比べて圧倒的に安価である核心的な理由です。
00:01:57彼らは、これがネイティブなマルチモーダルモデルであり、最先端のコーディングとビジョン機能を提供すると言っています。
00:02:03もっとも、どのモデルも「他より優れている、最先端だ」と同じような主張をしていますが。
00:02:08ですから、私たちのチームで実際に検証してみました。その結果をお見せしましょう。
00:02:12そのユニークな機能に迫る前に、スポンサーからの紹介です。
00:02:16「Opera Neon」。これは、Opera初の自律型エージェントブラウザです。
00:02:19未来を体験する準備ができているパワーユーザー向けに設計されています。
00:02:23Neonは「Tasks(タスク)」機能を採用しており、乱雑なタブの代わりに、集中できるワークスペースを提供します。
00:02:27そこではAIが、同一コンテキスト内にある複数のタブを横断して分析・実行してくれます。
00:02:32仕事ですぐに使えるツールが必要になったと想像してください。
00:02:34IDEを開く代わりに、Neonの「Make(メイク)」機能を使うだけです。
00:02:37「サイバーパンク風のポモドーロタイマーを作って」と入力すれば、
00:02:40ブラウザが仮想マシンを立ち上げ、構成案を作成し、
00:02:43コードを書き、その場でアプリをデプロイしてくれます。
00:02:45日々のワークフローにおける大幅な時間短縮になり、作業を中断することなく、
00:02:50コンセプトの試作や「Neon Do(ドゥ)」による調査の自動化が可能です。
00:02:53インターフェースにジュニアデベロッパーが組み込まれているような感覚です。
00:02:56私もプロンプトの自動化に、これらのNeonカードを間違いなく活用するでしょう。
00:02:59今すぐOpera Neonを購読してください。エージェント化の波をただ眺めるのではなく、
00:03:03その一部になりましょう。リンクは概要欄にあります。
00:03:05Kimiモデルは、エージェントの群れを指示し、タスクを調整することができます。
00:03:10Claudeもタスクに応じて複数のサブエージェントを生成すると思うかもしれませんが、
00:03:15このモデルには決定的な違いがあります。
00:03:17Kimi 2.5は、最大100個のサブエージェントからなるスウォームを自律的に管理するよう学習しています。
00:03:23並列エージェント強化学習により、1,500もの調整ステップにわたる並列ワークフローを実行します。
00:03:29ご存知ない方のために説明すると、強化学習とは、モデルが良いパフォーマンスをすれば報酬を与え、
00:03:33目的から外れればペナルティを与えるプロセスです。
00:03:36ほとんどのモデルは、単独のパフォーマンスのみに基づいて評価されます。
00:03:39しかし、このケースでは、いかにうまくステップを並列化し、
00:03:43オーケストレーター(指揮役)として振る舞えたかにも報酬が与えられます。
00:03:44簡単に言えば、Kimiモデルは指揮官になるべく訓練されているのです。
00:03:48その成功基準は、サブエージェントを作成しタスクを割り当てる能力にあります。
00:03:53このオーケストレーターには、サブエージェント作成やタスク割り当てのためのツールがあらかじめ組み込まれています。
00:03:58多様なタスクに合わせたサブエージェントを作り、仕事を振り分け、
00:04:02結果を受け取って、すべてを最終的な成果物へと統合します。
00:04:06彼らによれば、このスウォーム手法により複雑なタスクのパフォーマンスが向上したといいます。
00:04:11内部評価では、エンドツーエンドの実行時間が80%削減されました。
00:04:16これは、より複雑で長期的なタスクを実行できるようになったことを意味します。
00:04:20長期タスクに強いとされるトップモデルたち、
00:04:23具体的にはOpus 4.5や、スウォーム機能なしのKimi 2.5と比較したところ、
00:04:26Kimi 2.5のエージェント・スウォームが、あらゆるベンチマークですべてのモデルを上回りました。
00:04:32単一のエージェントを実行するよりも、大幅な時間の節約も実現しています。
00:04:36ここまではすべて、彼らの主張に基づく話でした。
00:04:39そこで実際に検証するため、このモデルと同時にリリースされた
00:04:42新しいコーディングエージェント「KimiCode CLI」をインストールしました。
00:04:45すでに構築済みのUIがあり、それを別のコンポーネント構造に移行したいと考えていました。
00:04:49具体的には、ShadCNで構築されたUIを、Material UIを使って作り直す作業です。
00:04:53プロジェクトには複数のページがあったため、
00:04:55プロジェクト全体のUIをShadCNからMaterial UIに変更するようKimiに依頼しました。
00:05:00また、移行を並行して迅速に進めるために、
00:05:02各ページをそれぞれ別のエージェントに担当させるよう指示しました。
00:05:05KimiはClaude Codeと同じように、ディレクトリの探索を開始しました。
00:05:08そして、Material UIへの変換が必要な全ページのToDoリストを作成しました。
00:05:13効率化のために、サインアップ、ログイン、パスワード忘れなどの
00:05:15似たような認証ページをグループ化して処理していました。
00:05:20ただ、予想よりも多くのエージェントが起動してしまいました。
00:05:23これは後にCLIのバグであることが判明しました。
00:05:26最終的には5つのエージェントを使ってタスクを実行しましたが、
00:05:28新しい製品であることを考えれば許容範囲内でしょう。
00:05:30完了までにかかった時間は約15分でした。
00:05:32並列エージェントを使うことで、もっと短縮されると期待していましたが。
00:05:35最後には、全体の検証とクリーニングを行って終了しました。
00:05:38移行後に不要になったコンポーネントも、
00:05:41きちんと削除してくれました。
00:05:43テストファイルを含め、すべての依存関係がインストール・更新されているかを確認し、
00:05:45残りの部分も検証しました。
00:05:48作業が終わると、ShadCNに必要な依存関係がすべて削除されていることを確認し、
00:05:53未使用の依存関係が残らないようにしてくれました。
00:05:55多くのエージェントはこれを忘れがちで、プロジェクトが不要に肥大化することがよくあります。
00:05:59UIにはわずかな変更が加えられていました。
00:06:01例えば、ヒーローセクションは元々テキストと画像が横並びでしたが、
00:06:05垂直に積み重なるデザインに変更されていました。
00:06:07それ以外は、ほぼ元通りに見え、
00:06:10純粋にコンポーネントだけが置き換わっていました。
00:06:12大規模なタスクでしたが、コンテキストウィンドウの消費はわずか25%でした。
00:06:16つまり、長時間動作するエージェントとしても効果的に機能するということです。
00:06:19結論として、エージェント・スウォームは機能しますが、常に速いわけではなく、
00:06:22大規模なコードベースでは時間がかかることもあります。
00:06:24お気づきかと思いますが、私たちはこれらの動画で多くのものを構築しています。
00:06:27プロンプト、コード、テンプレートなど、
00:06:29普段なら動画を止めて画面からコピーしなければならないような素材です。
00:06:32それらはすべて、今回の動画分も含め、過去の全動画分が私たちのコミュニティにあります。
00:06:35リンクは概要欄をご覧ください。
00:06:37Kimi 2.5の最大の売りは、その視覚的な自律型知能です。
00:06:41特にフロントエンドの能力に優れていると主張されています。
00:06:44インタラクティブなレイアウトや、テキストのスクロールといった
00:06:48リッチなアニメーションの操作や実装が可能です。
00:06:50提供されたアニメーションの例は、どれも見事に作成されていました。
00:06:53ここで、Kimiが本当に際立っている点があります。
00:06:55それは「視覚情報を伴うコーディング」に長けており、テキストや画像プロンプトの域を超えていることです。
00:07:00動画を入力として受け取り、コードを生成することさえ可能です。
00:07:03これができるモデルは、現時点でほとんどありません。
00:07:06これにより、コードのフローを説明するのが格段に楽になりました。
00:07:08このマルチモーダル機能は、学習後に後付けされたものではありません。
00:07:12モデルの学習段階から統合されています。
00:07:14多くのモデルは、テキスト能力が十分に高まってから
00:07:16追加の機能を組み込むため、
00:07:19ビジョン(視覚)能力とテキスト能力の間でトレードオフが生じがちです。
00:07:23しかし、Kimi 2.5の学習手法では、
00:07:25そのトレードオフが解消され、両方の能力が同時に向上します。
00:07:29では、実際に自分たちでテストしてみましょう。
00:07:30Notionの新規ページ作成画面を操作し、スラッシュコマンドを使っている様子を画面録画しました。
00:07:35ドキュメントに動画は40MB制限とあったので、録画時間は短く抑えました。
00:07:40録画ファイルのパスを指定し、動画に映っているウェブサイトを複製するよう指示しました。
00:07:45プロンプトで動画の内容は具体的に説明しませんでしたが、
00:07:48Kimiはメディアファイル読み取りツールを使って動画を分析しました。
00:07:52その結果、インターフェースがNotion風であることを突き止め、全機能を特定し、
00:07:56macOSスタイルのウィンドウを持つNotionクローンであると判断しました。
00:07:59ファイルの内容をリスト化した後、実装を開始しました。
00:08:02皆さんのプロジェクトで動画処理を使う際は、次の点に注意してください。
00:08:06動画や画像はコンテキストウィンドウを急激に消費するため、
00:08:09大きなファイルによるコンテキストの肥大化には注意が必要です。
00:08:12再現されたインターフェースは正確でした。
00:08:15UIは編集可能で、ページアイコンやNotionの各機能も再現されていました。
00:08:18最初は一部の機能が完全には動作していませんでしたが。
00:08:21スラッシュコマンドもまだ未実装でしたが、全体的なUIの正確さは目を見張るものがありました。
00:08:25ワークフローの要であるスラッシュコマンドが実装されていれば、なお良かったでしょう。
00:08:29しかし、これは再試行で修正できる些細な問題でした。
00:08:32そこで、実装上の問題を修正するようプロンプトを出しました。
00:08:37するとKimiは自律的に反復作業を行い、修正を実装し、結果を確認して、
00:08:41追加のプロンプトを待たずに機能が正しく動くことを保証しました。
00:08:46この自己反復によって最終的にスラッシュコマンドの問題も解決され、
00:08:49インターフェース全体が機能的なNotionクローンとして完成しました。
00:08:52モデルの主張は本物と言っていいでしょう。
00:08:54いくつかの課題をクリアした今、これはClaude Codeの安価な代替になり得ると考えています。
00:08:58Claudeのプランは高額で知られていますが、Kimiのプランはより低価格だからです。
00:09:03以上で今回の動画は終わりです。
00:09:05このチャンネルをサポートし、こうした動画制作を継続するために、
00:09:08ぜひAI Labs Proへの参加をご検討ください。
00:09:10ご視聴ありがとうございました。それでは、また次の動画でお会いしましょう。