00:00:00Kann man ein Modell wirklich dazu trainieren, ein besserer Manager zu sein?
00:00:02Moonshot hat vor Kurzem Kimi 2.5 veröffentlicht und es als das bisher leistungsstärkste Open-Source-Modell bezeichnet.
00:00:08Diese Behauptung stimmt so nicht ganz, da es sich um Open-Weight handelt, nicht um Open-Source.
00:00:11Es gibt da einen Unterschied, aber darum geht es hier eigentlich nicht.
00:00:13Kimi 2.5 stellt zwei Behauptungen auf, die es wert sind, getestet zu werden.
00:00:17Erstens soll es von Grund auf darauf trainiert worden sein, Agenten-Swarms zu orchestrieren,
00:00:21wobei bis zu 100 Sub-Agenten parallel laufen.
00:00:23Das Reinforcement-Learning-Setup belohnt nicht nur richtige Antworten,
00:00:27sondern auch, wie effektiv das Modell die Arbeit auf die Agenten verteilt.
00:00:30Zweitens behauptet es, über visuelle agentische Intelligenz zu verfügen,
00:00:33und soll extrem komplexe Animationen mit nur einem einzigen Prompt generiert haben.
00:00:37Früher haben Nutzer behauptet, so etwas mit einem Versuch geschafft zu haben – jetzt sind es die Entwickler selbst.
00:00:42Wir haben also eines unserer Teammitglieder beides testen lassen.
00:00:44Einiges davon hielt dem Hype stand, anderes wiederum nicht.
00:00:48Wie erwähnt, behauptet Kimi 2.5, ein Open-Source-Modell zu sein.
00:00:51Tatsächlich ist Kimi 2.5 jedoch kein echtes Open-Source-Modell.
00:00:54Nach der Definition der Open Source Initiative
00:00:57bedeuten Open-Source-Modelle, dass der Code, die Trainingsdaten und die Methoden öffentlich zugänglich sein müssen,
00:01:02sodass jeder sie prüfen, ändern und verbreiten kann.
00:01:05Bei diesem Modell handelt es sich aber lediglich um ein Open-Weight-Modell.
00:01:07Ein Open-Weight-Modell stellt nur die finalen Gewichte zur Verfügung,
00:01:10was bedeutet, dass weder der Trainingscode noch der Trainingsdatensatz veröffentlicht wurden.
00:01:14Es enthält nur die Gewichte, die freigegeben werden, damit andere das Modell für eigene Projekte feinjustieren, anpassen oder einsetzen können.
00:01:20Die Architektur dieses Modells ähnelt stark der Mixture-of-Experts-Architektur von DeepSeek.
00:01:25Es verfügt über 1 Billion Parameter, wovon jedoch nur 32 Milliarden aktiviert werden.
00:01:30Bedeutet das, dass wir das Modell nicht mit voller Kapazität nutzen?
00:01:33Es liefert dieselbe Genauigkeit wie ein Modell mit einer Billion Parametern,
00:01:36verbraucht aber viel weniger Rechenleistung und Kosten.
00:01:39Dieser Unterschied zwischen Gesamtparametern und aktivierten Parametern
00:01:43ist der Hauptgrund, warum das Modell als eines der schnellsten Open-Weight-Modelle auf dem Markt gilt.
00:01:47Weniger aktivierte Parameter bedeuten, dass pro Abfrage weniger Ressourcen genutzt werden,
00:01:52was das Modell erheblich beschleunigt.
00:01:54Das ist der Kernpunkt, warum es im Vergleich zu anderen Modellen so günstig ist.
00:01:57Es heißt, dies sei ein natives multimodales Modell mit erstklassigen Coding- und Vision-Fähigkeiten.
00:02:03Aber das behauptet mittlerweile jedes Modell von sich – „State-of-the-Art“, besser als die Konkurrenz und so weiter.
00:02:08Unser Team musste es also selbst überprüfen, und wir zeigen euch jetzt die Ergebnisse.
00:02:12Bevor wir uns die einzigartigen Funktionen ansehen, ein kurzes Wort von unserem Sponsor.
00:02:16Opera Neon. Das ist der erste agentische Browser von Opera,
00:02:19speziell entwickelt für Power-User, die bereit für die Zukunft sind.
00:02:23Neon nutzt „Tasks“, die chaotische Tabs durch fokussierte Workspaces ersetzen,
00:02:27in denen die KI tabübergreifend innerhalb desselben Kontextes analysieren und agieren kann.
00:02:32Stellt euch vor, ihr braucht ein kleines Tool für die Arbeit.
00:02:34Anstatt eine IDE zu öffnen, nutzt ihr einfach Neon Make.
00:02:37Gebt einen Prompt ein wie „Erstelle einen Cyberpunk Pomodoro-Timer“
00:02:40und der Browser startet eine virtuelle Maschine, um den Plan zu erstellen,
00:02:43den Code zu schreiben und die App sofort bereitzustellen.
00:02:45Das spart enorm viel Zeit im Arbeitsalltag, da man Konzepte prototypisch umsetzen
00:02:50oder Recherchen via Neon Do automatisieren kann, ohne den Workflow zu unterbrechen.
00:02:53Es wirkt wie ein Junior-Entwickler, der direkt in das Interface integriert ist.
00:02:56Ich werde diese Neon-Cards definitiv nutzen, um meine Prompts zu automatisieren.
00:02:59Ihr könnt Opera Neon heute abonnieren. Schaut dem Wandel zu KI-Agenten nicht nur zu.
00:03:03Seid ein Teil davon. Den Link findet ihr in der Beschreibung.
00:03:05Das Kimi-Modell ist in der Lage, einen Schwarm von Agenten zu steuern und Aufgaben zwischen ihnen zu koordinieren.
00:03:10Man könnte meinen, dass Claude das auch tut und je nach Aufgabe mehrere Sub-Agenten erstellt.
00:03:15Aber hier liegt der Unterschied bei diesem Modell.
00:03:17Kimi 2.5 hat gelernt, einen Agenten-Schwarm von bis zu 100 Sub-Agenten selbstständig zu steuern,
00:03:23wobei parallele Workflows über 1.500 koordinierte Schritte mittels parallelem Reinforcement Learning für Agenten ausgeführt werden.
00:03:29Für alle, die es nicht wissen: Reinforcement Learning ist ein Prozess, bei dem das Modell belohnt wird,
00:03:33wenn es gute Leistungen erbringt, und bestraft wird, wenn es vom Ziel abweicht.
00:03:36Die meisten Modelle werden allein basierend auf der Leistung belohnt.
00:03:39In diesem Fall wird das Modell aber auch dafür belohnt, wie gut es Schritte parallelisieren
00:03:43und als Orchestrator fungieren kann.
00:03:44Einfach gesagt: Das Kimi-Modell ist darauf trainiert, ein Orchestrator zu sein.
00:03:48Sein Erfolgskriterium ist die Fähigkeit, Sub-Agenten zu erstellen und Aufgaben zuzuweisen.
00:03:53Der Orchestrator verfügt über integrierte Werkzeuge zum Erstellen von Sub-Agenten, zur Aufgabenverteilung und ähnlichen Funktionen.
00:03:58Er erstellt Sub-Agenten für verschiedene Aufgaben, weist sie ihnen zu,
00:04:02erhält die Ergebnisse und koordiniert alles zu einem Endergebnis.
00:04:06Laut den Entwicklern haben sie diese Swarm-Methode genutzt, um die Leistung bei komplexen Aufgaben zu steigern.
00:04:11In internen Tests führte dies zu einer 80%igen Reduzierung der Gesamtlaufzeit.
00:04:16Das bedeutet, dass sie viel komplexere, langfristige Aufgaben bewältigen konnten.
00:04:20Sie haben es mit den besten Modellen für Langzeitaufgaben verglichen,
00:04:23nämlich Opus 4.5 und Kimi 2.5 ohne den Swarm-Modus,
00:04:26und stellten fest, dass der Kimi 2.5 Agent-Swarm alle Modelle in ihren Benchmarks übertraf.
00:04:32Zudem konnten sie durch den Einsatz von Agenten anstelle eines einzelnen Prozesses erheblich Zeit sparen.
00:04:36Das waren bisher alles nur Behauptungen des Herstellers.
00:04:39Um diese zu prüfen, haben wir das KimiCode CLI installiert,
00:04:42einen neuen Coding-Agenten, der zusammen mit diesem Modell veröffentlicht wurde.
00:04:45Wir hatten bereits eine UI gebaut und wollten sie auf eine andere Komponentenstruktur migrieren.
00:04:49Die UI basierte auf ShadCN, und wir wollten sie mit Material UI neu aufbauen.
00:04:53Da das Projekt mehrere Seiten umfasste,
00:04:55baten wir Kimi, die UI des gesamten Projekts von ShadCN auf Material UI umzustellen
00:05:00und Agenten für jede Seite einzusetzen,
00:05:02damit die Migration parallel und schneller erfolgen konnte.
00:05:05Das Tool begann das Verzeichnis zu durchsuchen, ähnlich wie es ClaudeCode macht.
00:05:08Es erstellte eine To-do-Liste mit allen Seiten, die nach Material UI konvertiert werden mussten.
00:05:13Dabei wurden ähnliche Seiten gruppiert,
00:05:15etwa Authentifizierungsseiten wie Signup, Login und Passwort-vergessen, um sie effizienter zu bearbeiten.
00:05:20Allerdings wurden mehr Agenten gestartet als erwartet,
00:05:23was sich später als Bug im CLI herausstellte.
00:05:26Letztlich nutzte es nur fünf Agenten für die Aufgabe,
00:05:28was für ein neues Produkt durchaus akzeptabel ist.
00:05:30Die Erledigung dauerte etwa 15 Minuten,
00:05:32was unserer Meinung nach durch die parallelen Agenten noch hätte verkürzt werden können.
00:05:35Zum Abschluss wurden alle Änderungen verifiziert und das Projekt bereinigt.
00:05:38Einige Komponenten wurden nach der Migration nicht mehr benötigt,
00:05:41und das Tool hat diese direkt entfernt.
00:05:43Es stellte sicher, dass alle Abhängigkeiten installiert und aktualisiert waren,
00:05:45inklusive der Testdateien, und validierte den Rest.
00:05:48Danach sorgte es dafür, dass alle ShadCN-Abhängigkeiten gelöscht wurden,
00:05:53sodass keine unnötigen Altlasten im Projekt verblieben –
00:05:55etwas, das viele Agenten oft vergessen und was das Projekt unnötig aufbläht.
00:05:59Die UI wurde dabei leicht angepasst.
00:06:01Zum Beispiel waren in der Hero-Section Text und Bilder ursprünglich nebeneinander angeordnet,
00:06:05wurden nun aber untereinander platziert.
00:06:07Abgesehen davon sah alles fast exakt so aus wie vorher,
00:06:10nur eben mit den neuen Komponenten.
00:06:12Trotz des großen Umfangs wurden nur 25 % des Kontextfensters genutzt,
00:06:16was bedeutet, dass es effektiv mit langlebigen Agenten arbeiten kann.
00:06:19Der Agent-Swarm funktioniert also, ist aber nicht immer zwingend schneller
00:06:22und wird bei sehr großen Codebases entsprechend Zeit brauchen.
00:06:24Euch ist sicher aufgefallen, dass wir in diesen Videos viel entwickeln.
00:06:27Die ganzen Prompts, der Code, die Vorlagen –
00:06:29all das Zeug, für das man normalerweise das Video pausieren und abtippen müsste.
00:06:32Das findet ihr alles in unserer Community, zu diesem und jedem früheren Video.
00:06:35Links dazu stehen in der Beschreibung.
00:06:37Das wichtigste Verkaufsargument für Kimi 2.5 ist seine visuelle agentische Intelligenz.
00:06:41Es soll besonders stark im Bereich Frontend-Fähigkeiten sein.
00:06:44Es kann mit interaktiven Layouts und komplexen Animationen interagieren und diese umsetzen,
00:06:48wie zum Beispiel durch Text scrollen.
00:06:50Die gezeigten Beispiele für Animationen waren alle hervorragend umgesetzt.
00:06:53Hier kommt der Punkt, an dem es wirklich herausragt:
00:06:55Kimi 2.5 glänzt beim Programmieren mit Vision-Unterstützung und geht über reine Text- und Bild-Prompts hinaus.
00:07:00Es kann sogar Videos als Input nehmen und daraus Code generieren –
00:07:03als eines der ersten Modelle überhaupt.
00:07:06Dadurch lassen sich Code-Abläufe viel einfacher erklären.
00:07:08Diese multimodale Fähigkeit wurde nicht erst nachträglich hinzugefügt.
00:07:12Sie wurde direkt während des Modelltrainings integriert.
00:07:14Die meisten Modelle erhalten zusätzliche Funktionen
00:07:16erst, wenn ihre Text-Fähigkeiten stark genug sind,
00:07:19was oft zu einem Kompromiss zwischen Vision- und Text-Leistung führt.
00:07:23Dank der Trainingsmethode von Kimi 2.5
00:07:25fällt dieser Kompromiss weg, und beide Fähigkeiten verbessern sich gemeinsam.
00:07:29Das mussten wir natürlich selbst ausprobieren.
00:07:30Wir haben eine Bildschirmaufnahme gemacht, wie wir im Notion-Interface navigieren und Slash-Befehle nutzen.
00:07:35Die Aufnahme hielten wir kurz, da Videos laut Dokumentation auf 40 MB begrenzt sind.
00:07:40Wir gaben den Pfad zum Notion-Video an und baten das Modell, die im Video gezeigte Website nachzubauen.
00:07:45Im Prompt haben wir nicht explizit erwähnt, was im Video zu sehen ist,
00:07:48daher nutzte das Modell sein Tool zum Analysieren von Mediendateien.
00:07:52Es erkannte, dass das Interface Notion-ähnlich war, identifizierte alle Features
00:07:56und kam zu dem Schluss, dass es ein Notion-Klon in einem Fenster im MacOS-Stil war.
00:07:59Nachdem es den Inhalt aufgelistet hatte, begann es mit der Implementierung.
00:08:02Wenn ihr Videoverarbeitung in euren eigenen Projekten nutzt, denkt an Folgendes:
00:08:06Videos und Bilder können das Kontextfenster sehr schnell füllen.
00:08:09Seid also vorsichtig bei großen Dateien, um einen Kontext-Overload zu vermeiden.
00:08:12Der Nachbau des Interfaces war erstaunlich präzise.
00:08:15Die UI war editierbar, inklusive der Icons und Funktionen von Notion,
00:08:18auch wenn einiges anfangs noch nicht voll funktionsfähig war.
00:08:21Die Slash-Befehle funktionierten noch nicht, aber die restliche UI war korrekt.
00:08:25Es wäre schöner gewesen, wenn die Slash-Befehle direkt dabei gewesen wären, da sie essenziell sind.
00:08:29Aber das war ein kleineres Problem, das sich durch Iteration lösen ließ.
00:08:32Wir gaben also einen Prompt ein und baten darum, die Fehler in der Implementierung zu beheben.
00:08:37Von da an iterierte das Modell selbstständig: Es baute Fixes ein, prüfte das Ergebnis
00:08:41und stellte sicher, dass das Feature funktionierte, ohne dass wir weiter eingreifen mussten.
00:08:46Diese Selbst-Iteration löste schließlich auch das Problem mit den Slash-Befehlen,
00:08:49sodass sich das Ganze wie ein funktionsfähiger Notion-Klon anfühlte.
00:08:52Die Versprechen des Modells werden also gehalten.
00:08:54Nachdem wir ein paar Hürden überwunden haben, glauben wir, dass es eine günstigere Alternative zu Claude Code sein könnte,
00:08:58da Claudes Abos bekanntlich teuer sind und Kimis Preise niedriger liegen.
00:09:03Damit sind wir am Ende dieses Videos angelangt.
00:09:05Wenn ihr den Kanal unterstützen und uns helfen wollt, weiterhin solche Videos zu machen,
00:09:08könnt ihr das tun, indem ihr AI Labs Pro beitretet.
00:09:10Wie immer vielen Dank fürs Zuschauen, und wir sehen uns im nächsten Video.