こんなのは初めて見た | Kimi K2.5 の衝撃

AAI LABS
컴퓨터/소프트웨어창업/스타트업경영/리더십AI/미래기술

Transcript

00:00:00モデルを「優れたマネージャー」になるよう訓練することは、本当に可能なのでしょうか?
00:00:02Moonshot社が先日「Kimi 2.5」をリリースし、現時点で最強のオープンソースモデルだと発表しました。
00:00:08しかし、その主張はすでに的外れです。なぜなら、これは「オープンソース」ではなく「オープンウェイト」だからです。
00:00:11両者には違いがありますが、今回そこは重要ではありません。
00:00:13Kimi 2.5には、実際に検証する価値のある2つの大きな主張があります。
00:00:171つ目は、エージェント・スウォーム(群れ)を指揮するためにゼロから訓練されたという点です。
00:00:21最大100個のサブエージェントを並行して実行できるとしています。
00:00:23この強化学習の仕組みでは、単に正解を出すことだけを報酬とするのではなく、
00:00:27いかに効率的にエージェントへ仕事を振り分けたかも評価の対象になります。
00:00:302つ目は、視覚的な自律型エージェント能力(Visual Agentic Intelligence)を備えているという主張です。
00:00:33たった1つのプロンプトで、極めて高度なアニメーションを生成したと言われています。
00:00:37「一発で構築できた」と触れ回っているのがユーザーではなく、開発者自身であるという点が興味深いですね。
00:00:42そこで、私たちのチームメンバーにこの両方の機能をテストしてもらいました。
00:00:44期待通りだったものもあれば、期待外れだったものもあります。
00:00:48先ほど言ったように、Kimi 2.5はオープンソースモデルだと自称しています。
00:00:51しかし、厳密に言えばKimi 2.5はオープンソースではありません。
00:00:54オープンソース・イニシアティブの定義によれば、
00:00:57オープンソースモデルとは、コード、学習データ、手法がすべて公開されているべきものであり、
00:01:02誰でも検査、修正、配布ができる状態を指します。
00:01:05しかし、このモデルは単なる「オープンウェイト・モデル」に過ぎません。
00:01:07オープンウェイト・モデルとは、最終的な重み(パラメータ)のみが公開されているもので、
00:01:10学習コードも学習データセットも一般には公開されていません。
00:01:14重みが公開されていることで、他者が独自のプロジェクトでモデルを微調整したり、適応させたり、デプロイしたりすることは可能です。
00:01:20さて、このモデルのアーキテクチャはDeepSeekのMoE(混合専門家)モデルと非常によく似ています。
00:01:25総パラメータ数は1兆ですが、実際に有効化されるのは320億パラメータのみです。
00:01:30では、モデルをフル活用していないということでしょうか?
00:01:33いいえ、1兆パラメータモデルと同等の精度を保ちつつ、
00:01:36はるかに低い処理能力とコストで動作するということです。
00:01:39この「総パラメータ」と「有効化されたパラメータ」の差こそが、
00:01:43このモデルが現在、最速のオープンウェイト・モデルの一つと言われる所以です。
00:01:47クエリごとに一部のパラメータしか使用しないため、
00:01:52処理速度が劇的に向上するのです。
00:01:54これこそが、他のモデルに比べて圧倒的に安価である核心的な理由です。
00:01:57彼らは、これがネイティブなマルチモーダルモデルであり、最先端のコーディングとビジョン機能を提供すると言っています。
00:02:03もっとも、どのモデルも「他より優れている、最先端だ」と同じような主張をしていますが。
00:02:08ですから、私たちのチームで実際に検証してみました。その結果をお見せしましょう。
00:02:12そのユニークな機能に迫る前に、スポンサーからの紹介です。
00:02:16「Opera Neon」。これは、Opera初の自律型エージェントブラウザです。
00:02:19未来を体験する準備ができているパワーユーザー向けに設計されています。
00:02:23Neonは「Tasks(タスク)」機能を採用しており、乱雑なタブの代わりに、集中できるワークスペースを提供します。
00:02:27そこではAIが、同一コンテキスト内にある複数のタブを横断して分析・実行してくれます。
00:02:32仕事ですぐに使えるツールが必要になったと想像してください。
00:02:34IDEを開く代わりに、Neonの「Make(メイク)」機能を使うだけです。
00:02:37「サイバーパンク風のポモドーロタイマーを作って」と入力すれば、
00:02:40ブラウザが仮想マシンを立ち上げ、構成案を作成し、
00:02:43コードを書き、その場でアプリをデプロイしてくれます。
00:02:45日々のワークフローにおける大幅な時間短縮になり、作業を中断することなく、
00:02:50コンセプトの試作や「Neon Do(ドゥ)」による調査の自動化が可能です。
00:02:53インターフェースにジュニアデベロッパーが組み込まれているような感覚です。
00:02:56私もプロンプトの自動化に、これらのNeonカードを間違いなく活用するでしょう。
00:02:59今すぐOpera Neonを購読してください。エージェント化の波をただ眺めるのではなく、
00:03:03その一部になりましょう。リンクは概要欄にあります。
00:03:05Kimiモデルは、エージェントの群れを指示し、タスクを調整することができます。
00:03:10Claudeもタスクに応じて複数のサブエージェントを生成すると思うかもしれませんが、
00:03:15このモデルには決定的な違いがあります。
00:03:17Kimi 2.5は、最大100個のサブエージェントからなるスウォームを自律的に管理するよう学習しています。
00:03:23並列エージェント強化学習により、1,500もの調整ステップにわたる並列ワークフローを実行します。
00:03:29ご存知ない方のために説明すると、強化学習とは、モデルが良いパフォーマンスをすれば報酬を与え、
00:03:33目的から外れればペナルティを与えるプロセスです。
00:03:36ほとんどのモデルは、単独のパフォーマンスのみに基づいて評価されます。
00:03:39しかし、このケースでは、いかにうまくステップを並列化し、
00:03:43オーケストレーター(指揮役)として振る舞えたかにも報酬が与えられます。
00:03:44簡単に言えば、Kimiモデルは指揮官になるべく訓練されているのです。
00:03:48その成功基準は、サブエージェントを作成しタスクを割り当てる能力にあります。
00:03:53このオーケストレーターには、サブエージェント作成やタスク割り当てのためのツールがあらかじめ組み込まれています。
00:03:58多様なタスクに合わせたサブエージェントを作り、仕事を振り分け、
00:04:02結果を受け取って、すべてを最終的な成果物へと統合します。
00:04:06彼らによれば、このスウォーム手法により複雑なタスクのパフォーマンスが向上したといいます。
00:04:11内部評価では、エンドツーエンドの実行時間が80%削減されました。
00:04:16これは、より複雑で長期的なタスクを実行できるようになったことを意味します。
00:04:20長期タスクに強いとされるトップモデルたち、
00:04:23具体的にはOpus 4.5や、スウォーム機能なしのKimi 2.5と比較したところ、
00:04:26Kimi 2.5のエージェント・スウォームが、あらゆるベンチマークですべてのモデルを上回りました。
00:04:32単一のエージェントを実行するよりも、大幅な時間の節約も実現しています。
00:04:36ここまではすべて、彼らの主張に基づく話でした。
00:04:39そこで実際に検証するため、このモデルと同時にリリースされた
00:04:42新しいコーディングエージェント「KimiCode CLI」をインストールしました。
00:04:45すでに構築済みのUIがあり、それを別のコンポーネント構造に移行したいと考えていました。
00:04:49具体的には、ShadCNで構築されたUIを、Material UIを使って作り直す作業です。
00:04:53プロジェクトには複数のページがあったため、
00:04:55プロジェクト全体のUIをShadCNからMaterial UIに変更するようKimiに依頼しました。
00:05:00また、移行を並行して迅速に進めるために、
00:05:02各ページをそれぞれ別のエージェントに担当させるよう指示しました。
00:05:05KimiはClaude Codeと同じように、ディレクトリの探索を開始しました。
00:05:08そして、Material UIへの変換が必要な全ページのToDoリストを作成しました。
00:05:13効率化のために、サインアップ、ログイン、パスワード忘れなどの
00:05:15似たような認証ページをグループ化して処理していました。
00:05:20ただ、予想よりも多くのエージェントが起動してしまいました。
00:05:23これは後にCLIのバグであることが判明しました。
00:05:26最終的には5つのエージェントを使ってタスクを実行しましたが、
00:05:28新しい製品であることを考えれば許容範囲内でしょう。
00:05:30完了までにかかった時間は約15分でした。
00:05:32並列エージェントを使うことで、もっと短縮されると期待していましたが。
00:05:35最後には、全体の検証とクリーニングを行って終了しました。
00:05:38移行後に不要になったコンポーネントも、
00:05:41きちんと削除してくれました。
00:05:43テストファイルを含め、すべての依存関係がインストール・更新されているかを確認し、
00:05:45残りの部分も検証しました。
00:05:48作業が終わると、ShadCNに必要な依存関係がすべて削除されていることを確認し、
00:05:53未使用の依存関係が残らないようにしてくれました。
00:05:55多くのエージェントはこれを忘れがちで、プロジェクトが不要に肥大化することがよくあります。
00:05:59UIにはわずかな変更が加えられていました。
00:06:01例えば、ヒーローセクションは元々テキストと画像が横並びでしたが、
00:06:05垂直に積み重なるデザインに変更されていました。
00:06:07それ以外は、ほぼ元通りに見え、
00:06:10純粋にコンポーネントだけが置き換わっていました。
00:06:12大規模なタスクでしたが、コンテキストウィンドウの消費はわずか25%でした。
00:06:16つまり、長時間動作するエージェントとしても効果的に機能するということです。
00:06:19結論として、エージェント・スウォームは機能しますが、常に速いわけではなく、
00:06:22大規模なコードベースでは時間がかかることもあります。
00:06:24お気づきかと思いますが、私たちはこれらの動画で多くのものを構築しています。
00:06:27プロンプト、コード、テンプレートなど、
00:06:29普段なら動画を止めて画面からコピーしなければならないような素材です。
00:06:32それらはすべて、今回の動画分も含め、過去の全動画分が私たちのコミュニティにあります。
00:06:35リンクは概要欄をご覧ください。
00:06:37Kimi 2.5の最大の売りは、その視覚的な自律型知能です。
00:06:41特にフロントエンドの能力に優れていると主張されています。
00:06:44インタラクティブなレイアウトや、テキストのスクロールといった
00:06:48リッチなアニメーションの操作や実装が可能です。
00:06:50提供されたアニメーションの例は、どれも見事に作成されていました。
00:06:53ここで、Kimiが本当に際立っている点があります。
00:06:55それは「視覚情報を伴うコーディング」に長けており、テキストや画像プロンプトの域を超えていることです。
00:07:00動画を入力として受け取り、コードを生成することさえ可能です。
00:07:03これができるモデルは、現時点でほとんどありません。
00:07:06これにより、コードのフローを説明するのが格段に楽になりました。
00:07:08このマルチモーダル機能は、学習後に後付けされたものではありません。
00:07:12モデルの学習段階から統合されています。
00:07:14多くのモデルは、テキスト能力が十分に高まってから
00:07:16追加の機能を組み込むため、
00:07:19ビジョン(視覚)能力とテキスト能力の間でトレードオフが生じがちです。
00:07:23しかし、Kimi 2.5の学習手法では、
00:07:25そのトレードオフが解消され、両方の能力が同時に向上します。
00:07:29では、実際に自分たちでテストしてみましょう。
00:07:30Notionの新規ページ作成画面を操作し、スラッシュコマンドを使っている様子を画面録画しました。
00:07:35ドキュメントに動画は40MB制限とあったので、録画時間は短く抑えました。
00:07:40録画ファイルのパスを指定し、動画に映っているウェブサイトを複製するよう指示しました。
00:07:45プロンプトで動画の内容は具体的に説明しませんでしたが、
00:07:48Kimiはメディアファイル読み取りツールを使って動画を分析しました。
00:07:52その結果、インターフェースがNotion風であることを突き止め、全機能を特定し、
00:07:56macOSスタイルのウィンドウを持つNotionクローンであると判断しました。
00:07:59ファイルの内容をリスト化した後、実装を開始しました。
00:08:02皆さんのプロジェクトで動画処理を使う際は、次の点に注意してください。
00:08:06動画や画像はコンテキストウィンドウを急激に消費するため、
00:08:09大きなファイルによるコンテキストの肥大化には注意が必要です。
00:08:12再現されたインターフェースは正確でした。
00:08:15UIは編集可能で、ページアイコンやNotionの各機能も再現されていました。
00:08:18最初は一部の機能が完全には動作していませんでしたが。
00:08:21スラッシュコマンドもまだ未実装でしたが、全体的なUIの正確さは目を見張るものがありました。
00:08:25ワークフローの要であるスラッシュコマンドが実装されていれば、なお良かったでしょう。
00:08:29しかし、これは再試行で修正できる些細な問題でした。
00:08:32そこで、実装上の問題を修正するようプロンプトを出しました。
00:08:37するとKimiは自律的に反復作業を行い、修正を実装し、結果を確認して、
00:08:41追加のプロンプトを待たずに機能が正しく動くことを保証しました。
00:08:46この自己反復によって最終的にスラッシュコマンドの問題も解決され、
00:08:49インターフェース全体が機能的なNotionクローンとして完成しました。
00:08:52モデルの主張は本物と言っていいでしょう。
00:08:54いくつかの課題をクリアした今、これはClaude Codeの安価な代替になり得ると考えています。
00:08:58Claudeのプランは高額で知られていますが、Kimiのプランはより低価格だからです。
00:09:03以上で今回の動画は終わりです。
00:09:05このチャンネルをサポートし、こうした動画制作を継続するために、
00:09:08ぜひAI Labs Proへの参加をご検討ください。
00:09:10ご視聴ありがとうございました。それでは、また次の動画でお会いしましょう。

Key Takeaway

Kimi 2.5は、高度な並列エージェント管理と動画解析によるコーディング能力を兼ね備え、Claude Codeに代わる強力かつ安価な選択肢としてAIエージェントの新たな基準を提示しています。

Highlights

Moonshot社がリリースしたKimi 2.5は、単なるオープンウェイトモデルを超えた強力な「エージェント・スウォーム」管理機能を備えている

MoE(混合専門家)アーキテクチャの採用により、1兆パラメータの精度を維持しつつ320億パラメータのみを有効化し、高速かつ低コストな処理を実現

強化学習によって「優れたマネージャー」として訓練されており、最大100個のサブエージェントを自律的に指揮・統合する能力がある

ネイティブ・マルチモーダル設計により、動画を直接読み取ってコードに変換する「視覚的な自律型知能」が極めて高い精度を誇る

実際の検証では、ShadCNからMaterial UIへの大規模な移行や、動画からのNotionクローン作成において、高い自己反復能力と正確性を示した

Timeline

Kimi 2.5の概要とアーキテクチャの真実

Moonshot社が発表したKimi 2.5の主要な主張と、その技術的背景について詳しく解説されています。モデルは「オープンソース」と自称していますが、実際には学習データが非公開の「オープンウェイト」モデルであるという重要な指摘がなされています。アーキテクチャはDeepSeekに似たMoE(混合専門家)方式を採用しており、総計1兆パラメータを持ちながら、推論時には320億パラメータのみを使用します。この設計により、高い精度を維持したまま、他のモデルを圧倒する処理速度と低コスト化を実現している点が強調されています。開発チームは、このモデルがエージェントの指揮と視覚的知能において最先端であると主張しています。

スポンサー紹介:自律型ブラウザ Opera Neon

パワーユーザー向けに設計された次世代の自律型エージェントブラウザ「Opera Neon」の機能が紹介されています。従来の煩雑なタブ管理を廃し、「Tasks」機能を通じてAIが複数のタブを横断的に分析・実行するワークスペースを提供します。特に「Make」機能は革新的で、プロンプトを入力するだけでブラウザ内に仮想マシンを立ち上げ、アプリの構築からデプロイまでを完結させます。調査を自動化する「Neon Do」などのツールにより、ジュニアデベロッパーを雇っているかのような効率的なワークフローが実現可能です。エージェント化が進む未来のウェブ体験を先取りするツールとして、概要欄のリンクから購読が推奨されています。

エージェント・スウォーム(群れ)の指揮能力

Kimi 2.5の最大の特徴である、最大100個のサブエージェントを自律管理する「スウォーム」機能の仕組みが説明されています。このモデルは強化学習を通じて、単にタスクをこなすだけでなく「いかに効率的に仕事を割り振るか」というマネージャーとしての能力を評価されています。並列エージェント強化学習により、1,500ステップに及ぶ複雑なワークフローをオーケストレーターとして調整することが可能です。開発元の内部評価では、この手法によって複雑なタスクの実行時間が80%も削減されたという驚異的なデータが示されています。ベンチマークにおいても、スウォーム機能を活用したKimi 2.5は、Opus 4.5などの既存のトップモデルを凌駕する結果を残しています。

実証テスト:大規模UIフレームワークの移行

「KimiCode CLI」を使用して、既存プロジェクトのUIをShadCNからMaterial UIへ移行する実務的な検証が行われました。Kimiはディレクトリを自律的に探索し、全ページのToDoリストを作成した上で、認証関連のページをグループ化して効率的に処理しました。一部でエージェントが過剰に起動するバグは見られたものの、最終的には不要な依存関係の削除まで完璧にこなし、約15分でタスクを完了させています。特筆すべきは、大規模な作業にもかかわらずコンテキストウィンドウの消費が25%に抑えられており、長時間動作するエージェントとしての適性が示された点です。デザインに僅かな変更はあったものの、コンポーネントの置き換えという本来の目的は極めて高い精度で達成されました。

視覚的知能と動画からのコーディング

Kimi 2.5のもう一つの武器である、動画を入力としてコードを生成する「視覚的な自律型知能」のテスト結果が報告されています。Notionの操作画面を録画した動画を読み込ませたところ、モデルは具体的な説明なしにインターフェースの性質を特定し、機能的なクローンを構築しました。マルチモーダル機能が学習段階から統合されているため、テキスト能力とビジョン能力の間にトレードオフがなく、両方の精度が非常に高いのが特徴です。初期の実装で未対応だったスラッシュコマンド機能も、Kimi自身の自律的な自己反復(セルフ・イテレーション)によって修正・完成されました。結論として、Kimi 2.5はClaude Codeよりも安価でありながら、同等以上の実力を備えた非常に魅力的な代替手段であると結論付けられています。

Community Posts

View all posts