So etwas habe ich noch nie gesehen

AAI LABS
컴퓨터/소프트웨어창업/스타트업경영/리더십AI/미래기술

Transcript

00:00:00Kann man ein Modell wirklich dazu trainieren, ein besserer Manager zu sein?
00:00:02Moonshot hat vor Kurzem Kimi 2.5 veröffentlicht und es als das bisher leistungsstärkste Open-Source-Modell bezeichnet.
00:00:08Diese Behauptung stimmt so nicht ganz, da es sich um Open-Weight handelt, nicht um Open-Source.
00:00:11Es gibt da einen Unterschied, aber darum geht es hier eigentlich nicht.
00:00:13Kimi 2.5 stellt zwei Behauptungen auf, die es wert sind, getestet zu werden.
00:00:17Erstens soll es von Grund auf darauf trainiert worden sein, Agenten-Swarms zu orchestrieren,
00:00:21wobei bis zu 100 Sub-Agenten parallel laufen.
00:00:23Das Reinforcement-Learning-Setup belohnt nicht nur richtige Antworten,
00:00:27sondern auch, wie effektiv das Modell die Arbeit auf die Agenten verteilt.
00:00:30Zweitens behauptet es, über visuelle agentische Intelligenz zu verfügen,
00:00:33und soll extrem komplexe Animationen mit nur einem einzigen Prompt generiert haben.
00:00:37Früher haben Nutzer behauptet, so etwas mit einem Versuch geschafft zu haben – jetzt sind es die Entwickler selbst.
00:00:42Wir haben also eines unserer Teammitglieder beides testen lassen.
00:00:44Einiges davon hielt dem Hype stand, anderes wiederum nicht.
00:00:48Wie erwähnt, behauptet Kimi 2.5, ein Open-Source-Modell zu sein.
00:00:51Tatsächlich ist Kimi 2.5 jedoch kein echtes Open-Source-Modell.
00:00:54Nach der Definition der Open Source Initiative
00:00:57bedeuten Open-Source-Modelle, dass der Code, die Trainingsdaten und die Methoden öffentlich zugänglich sein müssen,
00:01:02sodass jeder sie prüfen, ändern und verbreiten kann.
00:01:05Bei diesem Modell handelt es sich aber lediglich um ein Open-Weight-Modell.
00:01:07Ein Open-Weight-Modell stellt nur die finalen Gewichte zur Verfügung,
00:01:10was bedeutet, dass weder der Trainingscode noch der Trainingsdatensatz veröffentlicht wurden.
00:01:14Es enthält nur die Gewichte, die freigegeben werden, damit andere das Modell für eigene Projekte feinjustieren, anpassen oder einsetzen können.
00:01:20Die Architektur dieses Modells ähnelt stark der Mixture-of-Experts-Architektur von DeepSeek.
00:01:25Es verfügt über 1 Billion Parameter, wovon jedoch nur 32 Milliarden aktiviert werden.
00:01:30Bedeutet das, dass wir das Modell nicht mit voller Kapazität nutzen?
00:01:33Es liefert dieselbe Genauigkeit wie ein Modell mit einer Billion Parametern,
00:01:36verbraucht aber viel weniger Rechenleistung und Kosten.
00:01:39Dieser Unterschied zwischen Gesamtparametern und aktivierten Parametern
00:01:43ist der Hauptgrund, warum das Modell als eines der schnellsten Open-Weight-Modelle auf dem Markt gilt.
00:01:47Weniger aktivierte Parameter bedeuten, dass pro Abfrage weniger Ressourcen genutzt werden,
00:01:52was das Modell erheblich beschleunigt.
00:01:54Das ist der Kernpunkt, warum es im Vergleich zu anderen Modellen so günstig ist.
00:01:57Es heißt, dies sei ein natives multimodales Modell mit erstklassigen Coding- und Vision-Fähigkeiten.
00:02:03Aber das behauptet mittlerweile jedes Modell von sich – „State-of-the-Art“, besser als die Konkurrenz und so weiter.
00:02:08Unser Team musste es also selbst überprüfen, und wir zeigen euch jetzt die Ergebnisse.
00:02:12Bevor wir uns die einzigartigen Funktionen ansehen, ein kurzes Wort von unserem Sponsor.
00:02:16Opera Neon. Das ist der erste agentische Browser von Opera,
00:02:19speziell entwickelt für Power-User, die bereit für die Zukunft sind.
00:02:23Neon nutzt „Tasks“, die chaotische Tabs durch fokussierte Workspaces ersetzen,
00:02:27in denen die KI tabübergreifend innerhalb desselben Kontextes analysieren und agieren kann.
00:02:32Stellt euch vor, ihr braucht ein kleines Tool für die Arbeit.
00:02:34Anstatt eine IDE zu öffnen, nutzt ihr einfach Neon Make.
00:02:37Gebt einen Prompt ein wie „Erstelle einen Cyberpunk Pomodoro-Timer“
00:02:40und der Browser startet eine virtuelle Maschine, um den Plan zu erstellen,
00:02:43den Code zu schreiben und die App sofort bereitzustellen.
00:02:45Das spart enorm viel Zeit im Arbeitsalltag, da man Konzepte prototypisch umsetzen
00:02:50oder Recherchen via Neon Do automatisieren kann, ohne den Workflow zu unterbrechen.
00:02:53Es wirkt wie ein Junior-Entwickler, der direkt in das Interface integriert ist.
00:02:56Ich werde diese Neon-Cards definitiv nutzen, um meine Prompts zu automatisieren.
00:02:59Ihr könnt Opera Neon heute abonnieren. Schaut dem Wandel zu KI-Agenten nicht nur zu.
00:03:03Seid ein Teil davon. Den Link findet ihr in der Beschreibung.
00:03:05Das Kimi-Modell ist in der Lage, einen Schwarm von Agenten zu steuern und Aufgaben zwischen ihnen zu koordinieren.
00:03:10Man könnte meinen, dass Claude das auch tut und je nach Aufgabe mehrere Sub-Agenten erstellt.
00:03:15Aber hier liegt der Unterschied bei diesem Modell.
00:03:17Kimi 2.5 hat gelernt, einen Agenten-Schwarm von bis zu 100 Sub-Agenten selbstständig zu steuern,
00:03:23wobei parallele Workflows über 1.500 koordinierte Schritte mittels parallelem Reinforcement Learning für Agenten ausgeführt werden.
00:03:29Für alle, die es nicht wissen: Reinforcement Learning ist ein Prozess, bei dem das Modell belohnt wird,
00:03:33wenn es gute Leistungen erbringt, und bestraft wird, wenn es vom Ziel abweicht.
00:03:36Die meisten Modelle werden allein basierend auf der Leistung belohnt.
00:03:39In diesem Fall wird das Modell aber auch dafür belohnt, wie gut es Schritte parallelisieren
00:03:43und als Orchestrator fungieren kann.
00:03:44Einfach gesagt: Das Kimi-Modell ist darauf trainiert, ein Orchestrator zu sein.
00:03:48Sein Erfolgskriterium ist die Fähigkeit, Sub-Agenten zu erstellen und Aufgaben zuzuweisen.
00:03:53Der Orchestrator verfügt über integrierte Werkzeuge zum Erstellen von Sub-Agenten, zur Aufgabenverteilung und ähnlichen Funktionen.
00:03:58Er erstellt Sub-Agenten für verschiedene Aufgaben, weist sie ihnen zu,
00:04:02erhält die Ergebnisse und koordiniert alles zu einem Endergebnis.
00:04:06Laut den Entwicklern haben sie diese Swarm-Methode genutzt, um die Leistung bei komplexen Aufgaben zu steigern.
00:04:11In internen Tests führte dies zu einer 80%igen Reduzierung der Gesamtlaufzeit.
00:04:16Das bedeutet, dass sie viel komplexere, langfristige Aufgaben bewältigen konnten.
00:04:20Sie haben es mit den besten Modellen für Langzeitaufgaben verglichen,
00:04:23nämlich Opus 4.5 und Kimi 2.5 ohne den Swarm-Modus,
00:04:26und stellten fest, dass der Kimi 2.5 Agent-Swarm alle Modelle in ihren Benchmarks übertraf.
00:04:32Zudem konnten sie durch den Einsatz von Agenten anstelle eines einzelnen Prozesses erheblich Zeit sparen.
00:04:36Das waren bisher alles nur Behauptungen des Herstellers.
00:04:39Um diese zu prüfen, haben wir das KimiCode CLI installiert,
00:04:42einen neuen Coding-Agenten, der zusammen mit diesem Modell veröffentlicht wurde.
00:04:45Wir hatten bereits eine UI gebaut und wollten sie auf eine andere Komponentenstruktur migrieren.
00:04:49Die UI basierte auf ShadCN, und wir wollten sie mit Material UI neu aufbauen.
00:04:53Da das Projekt mehrere Seiten umfasste,
00:04:55baten wir Kimi, die UI des gesamten Projekts von ShadCN auf Material UI umzustellen
00:05:00und Agenten für jede Seite einzusetzen,
00:05:02damit die Migration parallel und schneller erfolgen konnte.
00:05:05Das Tool begann das Verzeichnis zu durchsuchen, ähnlich wie es ClaudeCode macht.
00:05:08Es erstellte eine To-do-Liste mit allen Seiten, die nach Material UI konvertiert werden mussten.
00:05:13Dabei wurden ähnliche Seiten gruppiert,
00:05:15etwa Authentifizierungsseiten wie Signup, Login und Passwort-vergessen, um sie effizienter zu bearbeiten.
00:05:20Allerdings wurden mehr Agenten gestartet als erwartet,
00:05:23was sich später als Bug im CLI herausstellte.
00:05:26Letztlich nutzte es nur fünf Agenten für die Aufgabe,
00:05:28was für ein neues Produkt durchaus akzeptabel ist.
00:05:30Die Erledigung dauerte etwa 15 Minuten,
00:05:32was unserer Meinung nach durch die parallelen Agenten noch hätte verkürzt werden können.
00:05:35Zum Abschluss wurden alle Änderungen verifiziert und das Projekt bereinigt.
00:05:38Einige Komponenten wurden nach der Migration nicht mehr benötigt,
00:05:41und das Tool hat diese direkt entfernt.
00:05:43Es stellte sicher, dass alle Abhängigkeiten installiert und aktualisiert waren,
00:05:45inklusive der Testdateien, und validierte den Rest.
00:05:48Danach sorgte es dafür, dass alle ShadCN-Abhängigkeiten gelöscht wurden,
00:05:53sodass keine unnötigen Altlasten im Projekt verblieben –
00:05:55etwas, das viele Agenten oft vergessen und was das Projekt unnötig aufbläht.
00:05:59Die UI wurde dabei leicht angepasst.
00:06:01Zum Beispiel waren in der Hero-Section Text und Bilder ursprünglich nebeneinander angeordnet,
00:06:05wurden nun aber untereinander platziert.
00:06:07Abgesehen davon sah alles fast exakt so aus wie vorher,
00:06:10nur eben mit den neuen Komponenten.
00:06:12Trotz des großen Umfangs wurden nur 25 % des Kontextfensters genutzt,
00:06:16was bedeutet, dass es effektiv mit langlebigen Agenten arbeiten kann.
00:06:19Der Agent-Swarm funktioniert also, ist aber nicht immer zwingend schneller
00:06:22und wird bei sehr großen Codebases entsprechend Zeit brauchen.
00:06:24Euch ist sicher aufgefallen, dass wir in diesen Videos viel entwickeln.
00:06:27Die ganzen Prompts, der Code, die Vorlagen –
00:06:29all das Zeug, für das man normalerweise das Video pausieren und abtippen müsste.
00:06:32Das findet ihr alles in unserer Community, zu diesem und jedem früheren Video.
00:06:35Links dazu stehen in der Beschreibung.
00:06:37Das wichtigste Verkaufsargument für Kimi 2.5 ist seine visuelle agentische Intelligenz.
00:06:41Es soll besonders stark im Bereich Frontend-Fähigkeiten sein.
00:06:44Es kann mit interaktiven Layouts und komplexen Animationen interagieren und diese umsetzen,
00:06:48wie zum Beispiel durch Text scrollen.
00:06:50Die gezeigten Beispiele für Animationen waren alle hervorragend umgesetzt.
00:06:53Hier kommt der Punkt, an dem es wirklich herausragt:
00:06:55Kimi 2.5 glänzt beim Programmieren mit Vision-Unterstützung und geht über reine Text- und Bild-Prompts hinaus.
00:07:00Es kann sogar Videos als Input nehmen und daraus Code generieren –
00:07:03als eines der ersten Modelle überhaupt.
00:07:06Dadurch lassen sich Code-Abläufe viel einfacher erklären.
00:07:08Diese multimodale Fähigkeit wurde nicht erst nachträglich hinzugefügt.
00:07:12Sie wurde direkt während des Modelltrainings integriert.
00:07:14Die meisten Modelle erhalten zusätzliche Funktionen
00:07:16erst, wenn ihre Text-Fähigkeiten stark genug sind,
00:07:19was oft zu einem Kompromiss zwischen Vision- und Text-Leistung führt.
00:07:23Dank der Trainingsmethode von Kimi 2.5
00:07:25fällt dieser Kompromiss weg, und beide Fähigkeiten verbessern sich gemeinsam.
00:07:29Das mussten wir natürlich selbst ausprobieren.
00:07:30Wir haben eine Bildschirmaufnahme gemacht, wie wir im Notion-Interface navigieren und Slash-Befehle nutzen.
00:07:35Die Aufnahme hielten wir kurz, da Videos laut Dokumentation auf 40 MB begrenzt sind.
00:07:40Wir gaben den Pfad zum Notion-Video an und baten das Modell, die im Video gezeigte Website nachzubauen.
00:07:45Im Prompt haben wir nicht explizit erwähnt, was im Video zu sehen ist,
00:07:48daher nutzte das Modell sein Tool zum Analysieren von Mediendateien.
00:07:52Es erkannte, dass das Interface Notion-ähnlich war, identifizierte alle Features
00:07:56und kam zu dem Schluss, dass es ein Notion-Klon in einem Fenster im MacOS-Stil war.
00:07:59Nachdem es den Inhalt aufgelistet hatte, begann es mit der Implementierung.
00:08:02Wenn ihr Videoverarbeitung in euren eigenen Projekten nutzt, denkt an Folgendes:
00:08:06Videos und Bilder können das Kontextfenster sehr schnell füllen.
00:08:09Seid also vorsichtig bei großen Dateien, um einen Kontext-Overload zu vermeiden.
00:08:12Der Nachbau des Interfaces war erstaunlich präzise.
00:08:15Die UI war editierbar, inklusive der Icons und Funktionen von Notion,
00:08:18auch wenn einiges anfangs noch nicht voll funktionsfähig war.
00:08:21Die Slash-Befehle funktionierten noch nicht, aber die restliche UI war korrekt.
00:08:25Es wäre schöner gewesen, wenn die Slash-Befehle direkt dabei gewesen wären, da sie essenziell sind.
00:08:29Aber das war ein kleineres Problem, das sich durch Iteration lösen ließ.
00:08:32Wir gaben also einen Prompt ein und baten darum, die Fehler in der Implementierung zu beheben.
00:08:37Von da an iterierte das Modell selbstständig: Es baute Fixes ein, prüfte das Ergebnis
00:08:41und stellte sicher, dass das Feature funktionierte, ohne dass wir weiter eingreifen mussten.
00:08:46Diese Selbst-Iteration löste schließlich auch das Problem mit den Slash-Befehlen,
00:08:49sodass sich das Ganze wie ein funktionsfähiger Notion-Klon anfühlte.
00:08:52Die Versprechen des Modells werden also gehalten.
00:08:54Nachdem wir ein paar Hürden überwunden haben, glauben wir, dass es eine günstigere Alternative zu Claude Code sein könnte,
00:08:58da Claudes Abos bekanntlich teuer sind und Kimis Preise niedriger liegen.
00:09:03Damit sind wir am Ende dieses Videos angelangt.
00:09:05Wenn ihr den Kanal unterstützen und uns helfen wollt, weiterhin solche Videos zu machen,
00:09:08könnt ihr das tun, indem ihr AI Labs Pro beitretet.
00:09:10Wie immer vielen Dank fürs Zuschauen, und wir sehen uns im nächsten Video.

Key Takeaway

Kimi 2.5 setzt neue Maßstäbe in der KI-Entwicklung durch die native Kombination von Video-Verarbeitung und der Fähigkeit, komplexe Aufgaben durch einen hocheffizienten, selbst-orchestrierenden Agenten-Schwarm parallel zu lösen.

Highlights

Kimi 2.5 ist ein leistungsstarkes Open-Weight-Modell von Moonshot

Timeline

Einführung in Kimi 2.5 und die Open-Source-Debatte

Das Video beginnt mit der Vorstellung von Kimi 2.5, dem neuesten Modell von Moonshot, das als besonders leistungsstarkes Open-Source-Modell beworben wird. Der Sprecher korrigiert diese Behauptung direkt und erklärt den wichtigen Unterschied zwischen Open-Source und Open-Weight, da hier nur die Gewichte, nicht aber die Trainingsdaten öffentlich sind. Es werden zwei Hauptmerkmale hervorgehoben: die Orchestrierung von Agenten-Swarms und die fortgeschrittene visuelle Intelligenz. Dieser Abschnitt legt das Fundament für die kritische Prüfung der Herstellerversprechen im weiteren Verlauf des Beitrags. Besonders betont wird dabei die Definition der Open Source Initiative im Vergleich zur Veröffentlichung der Modellgewichte.

Architektur und Effizienz des Modells

In diesem Teil wird die technische Architektur von Kimi 2.5 analysiert, die stark an die Mixture-of-Experts-Struktur von DeepSeek erinnert. Obwohl das Modell insgesamt über 1 Billion Parameter verfügt, werden pro Abfrage nur 32 Milliarden aktiviert, was die Rechenkosten massiv senkt. Diese Effizienz sorgt laut Sprecher dafür, dass Kimi 2.5 eines der schnellsten und kostengünstigsten Modelle auf dem aktuellen Markt ist. Der Abschnitt erklärt, warum weniger aktivierte Parameter nicht zwangsläufig zu einer geringeren Genauigkeit führen, sondern primär die Geschwindigkeit erhöhen. Es wird deutlich gemacht, dass diese Architektur den Kern des Wettbewerbsvorteils gegenüber teureren Modellen darstellt.

Werbepause: Opera Neon Browser

Der Sprecher unterbricht die Analyse für eine Vorstellung des Sponsors Opera Neon, der als erster agentischer Browser für Power-User beworben wird. Es wird erklärt, wie das Feature "Tasks" herkömmliche Tabs durch fokussierte Workspaces ersetzt, in denen eine KI kontextübergreifend agieren kann. Ein konkretes Beispiel ist das Tool "Neon Make", mit dem Nutzer per Prompt kleine Anwendungen wie einen Pomodoro-Timer direkt im Browser erstellen können. Diese Integration dient als Beispiel für den allgemeinen Trend hin zu KI-Agenten, die direkt in die Benutzeroberfläche eingebettet sind. Der Abschnitt schließt mit einem Aufruf ab, Teil des Wandels zur agentischen Softwarenutzung zu werden.

Der Agent-Swarm und Reinforcement Learning

Hier wird das Konzept des Agenten-Schwarms detailliert erläutert, bei dem Kimi 2.5 bis zu 100 Sub-Agenten gleichzeitig koordiniert. Das Modell wurde mittels eines speziellen Reinforcement-Learning-Setups trainiert, das nicht nur korrekte Antworten belohnt, sondern explizit die Fähigkeit zur Aufgabenverteilung und Parallelisierung fördert. Laut den Entwicklern führt diese Orchestrierung zu einer Reduzierung der Gesamtlaufzeit bei komplexen Projekten um bis zu 80 Prozent. Der Sprecher vergleicht diesen Ansatz mit Modellen wie Claude Opus 4.5 und hebt hervor, dass Kimi diese in Benchmarks für Langzeitaufgaben übertrifft. Es wird klargestellt, dass das Modell als zentraler Manager fungiert, der Teilaufgaben zuweist und die Ergebnisse zusammenführt.

Praxistest: Projektmigration mit KimiCode CLI

Das Team unterzieht das Modell einem realen Stresstest, indem es ein gesamtes Web-Projekt von ShadCN auf Material UI migriert. Mithilfe des KimiCode CLI analysiert das Modell das Verzeichnis, erstellt To-do-Listen und setzt parallele Agenten für die Konvertierung der verschiedenen Seiten ein. Obwohl ein kleiner Bug im CLI dazu führte, dass weniger Agenten als geplant aktiv waren, konnte die Aufgabe in etwa 15 Minuten erfolgreich abgeschlossen werden. Der Sprecher lobt besonders die anschließende Bereinigung des Codes, bei der ungenutzte Abhängigkeiten und Altlasten automatisch entfernt wurden. Dieser Abschnitt demonstriert die praktische Anwendbarkeit des Agent-Swarms für zeitintensive Entwickleraufgaben.

Visuelle Intelligenz und Video-zu-Code-Fähigkeiten

Dieser Abschnitt widmet sich der visuellen agentischen Intelligenz, die laut Video das wichtigste Alleinstellungsmerkmal von Kimi 2.5 ist. Im Gegensatz zu anderen Modellen wurden die Vision-Fähigkeiten nativ während des Trainings integriert, was Kompromisse zwischen Text- und Bildleistung vermeidet. Eine bahnbrechende Funktion ist die Fähigkeit, Video-Aufnahmen als Input zu akzeptieren, um daraus direkt funktionierenden Code zu generieren. Der Sprecher warnt jedoch vor einem möglichen Kontext-Overload, da große Videodateien das 40-MB-Limit schnell erreichen oder das Kontextfenster füllen können. Diese technologische Neuerung wird als Meilenstein für das Verständnis von komplexen UI-Interaktionen durch eine KI dargestellt.

Notion-Klon-Experiment und Fazit

Im abschließenden Test lässt das Team Kimi 2.5 einen Notion-Klon basierend auf einer kurzen Bildschirmaufnahme erstellen. Das Modell erkennt das Interface korrekt als MacOS-Stil und implementiert die grundlegende Struktur, wobei es später Fehler durch selbstständige Iteration behebt. Besonders beeindruckend ist der Prozess der Selbst-Fehlerbehebung, bei dem das Modell ohne menschliches Eingreifen die Slash-Befehle funktionsfähig macht. Der Sprecher zieht das Fazit, dass Kimi 2.5 eine ernstzunehmende und günstigere Alternative zu etablierten Tools wie Claude Code darstellt. Das Video endet mit einem Hinweis auf die eigene Community-Plattform AI Labs Pro und einem Dank an die Zuschauer.

Community Posts

View all posts