Why is Everyone OBSESSED With The New Kimi K2.5 AI Model

BBetter Stack
컴퓨터/소프트웨어마케팅/광고창업/스타트업AI/미래기술

Transcript

00:00:00Warte mal, das sehe ich jetzt erst.
00:00:01Der Bericht basiert auf öffentlich zugänglichen Informationen mit Stand Januar 2025.
00:00:06Oh nein, oh nein, 2025, nein, das ist nicht das, was ich wollte.
00:00:15Moonshot AI hat ihr neuestes KI-Modell veröffentlicht, Kimi K 2.5, und es war diese Woche
00:00:22das Thema Nummer eins im Internet.
00:00:24Einige Leute gehen sogar so weit zu sagen, dass dies ihr bisheriges Lieblingsmodell sein könnte.
00:00:29Natürlich musste ich es testen, um zu sehen, was es mit dem ganzen Wirbel auf sich hat,
00:00:34ob es wirklich etwas Frisches ist oder nur ein weiteres Modell, das durch cleveres Marketing aufgebauscht wird.
00:00:39Genau das werden wir im heutigen Video herausfinden.
00:00:42Das wird ein Riesenspaß, also legen wir direkt los.
00:00:49Kimi K 2.5 ist das neueste Open-Source-Modell, das von einem chinesischen Unternehmen namens Moonshot AI
00:00:55entwickelt wurde.
00:00:56Erst vor sechs Monaten hat Richard K2 im Detail vorgestellt, und heute schauen wir uns an,
00:01:01was es Neues in K2.5 gibt.
00:01:05Was ist also das Besondere an diesem Modell?
00:01:06Wie unterscheidet es sich von den tausend anderen neuen Modellen, die fast täglich erscheinen?
00:01:12Nun, da sind zwei Dinge.
00:01:13Erstens behauptet es, extrem gut in den Bereichen Vision und Coding zu sein.
00:01:17Es bezeichnet sich sogar selbst als Open-Source-SOTA.
00:01:21SOTA.
00:01:22Wisst ihr eigentlich, was das bedeutet?
00:01:24Ehrlich gesagt musste ich selbst erst nachschlagen, ich wusste es auch nicht genau.
00:01:27Ah, okay, es bedeutet “State of the Art”.
00:01:30Wieder was gelernt.
00:01:32Wie auch immer, es ist absoluter Spitzenreiter bei agentischen Benchmarks sowie Vision und Coding.
00:01:37Das zweite Highlight dieses Modells ist eine neue Funktion namens
00:01:42Agent Swarm.
00:01:44Dabei kann es bis zu hundert Sub-Agenten und 1.500 Tool-Aufrufe gleichzeitig starten
00:01:51und parallel ausführen, was zu einer 4,5-mal schnelleren Performance führt.
00:01:55Für dieses Modell wurde eine neue Trainingsmethode namens “Parallel Agent Reinforcement Learning”
00:02:00oder PARL verwendet.
00:02:01Das bedeutet, dass das Modell den gesamten Agenten-Schwarm selbst steuern kann, indem es einen trainierbaren
00:02:06Orchestrator-Agenten erstellt. Dieser leitet die Show, zerlegt Aufgaben in parallelisierbare
00:02:12Teilaufgaben und behält alle Agenten im Auge, damit der gesamte Prozess nicht
00:02:18in einen seriellen Kollaps gerät, was bei solchen Multi-Agenten-Workflows oft passiert.
00:02:23Gelöst wurde das, indem jeder Sub-Agent in separaten kritischen Phasen Belohnungen erhält,
00:02:28wodurch K 2.5 spürbare Leistungssteigerungen erzielt.
00:02:34Wir werden das also definitiv testen.
00:02:35Ich werde jetzt nicht zu tief in die verschiedenen Benchmarks eintauchen, denn
00:02:40ganz ehrlich, in fast jedem Video werden diese Zahlen gefeiert, und ich glaube nicht,
00:02:44dass man diesen Werten heutzutage noch blind vertrauen kann.
00:02:47Die kriegen es ja nicht mal hin, ihre Benchmark-Grafiken richtig auszurichten, ernsthaft.
00:02:51Stattdessen konzentriere ich mich auf die zwei Dinge, in denen das Modell angeblich
00:02:55besonders gut ist:
00:02:56Vision und Coding sowie die neue Agent-Swarm-Funktionalität.
00:03:00Stellen wir es also auf die Probe.
00:03:02Es gibt auch ein eigenes CLI-Tool namens Kimi CLI.
00:03:06Genau das werde ich heute für meine Tests verwenden.
00:03:09Eine der beeindruckendsten Funktionen soll die Fähigkeit sein, ein Video
00:03:13der User Experience einer Website aufzunehmen und diese in Code nachzubauen.
00:03:19Das ist ziemlich imposant.
00:03:20Um das zu testen, habe ich ein Video von Apples iPad Air Produktseite gemacht, mit all ihren
00:03:25schicken Animationen und Übergängen.
00:03:28Ich habe einen Ordner erstellt, der nur diese eine Aufnahme enthält.
00:03:32Und jetzt werde ich K 2.5 beauftragen, basierend auf diesem Video eine
00:03:38Werbewebsite für das iPad Air zu erstellen.
00:03:39Bevor Shell-Befehle ausgeführt werden, fragt es nach einer Erlaubnis, die ich für
00:03:44diese Sitzung erteile.
00:03:46Und der Prozess läuft.
00:03:48Das ist interessant.
00:03:49Es hat erkannt, dass die Datei zu groß war.
00:03:51Also hat es sie kurzerhand selbstständig mit FFmpeg komprimiert.
00:03:56Ich war wirklich gespannt, wie dieses Modell eine Videodatei verarbeitet und versteht.
00:04:01Es stellt sich heraus, dass es die Videodatei nimmt und erneut FFmpeg nutzt, um
00:04:06Keyframes zu extrahieren, die als visuelle Hilfe für den Website-Bau dienen.
00:04:11Das Modell hat etwa fünfeinhalb Minuten für die Aufgabe gebraucht.
00:04:15Es ist also definitiv nicht das schnellste Modell auf dem Markt.
00:04:18Und wohlgemerkt nutze ich deren eigene APIs und keine lokale Version.
00:04:23Wie auch immer, sobald es fertig ist, sehen wir hier eine detaillierte Übersicht dessen,
00:04:28was es getan hat.
00:04:29Schauen wir uns jetzt die Seite selbst an.
00:04:30Oh, wow.
00:04:31Seht euch das an.
00:04:32Die Apple-Designästhetik wurde voll getroffen, und es wurde sogar dieses schwebende 3D-iPad
00:04:38in der Mitte erstellt.
00:04:39Es scheint sogar auf Mausbewegungen zu reagieren.
00:04:42Ziemlich cool.
00:04:43Dann haben wir diesen schönen Karussell-Abschnitt mit verschiedenen Fenstern, aber leider
00:04:48passiert nichts, wenn ich auf die Punkte klicke. Dennoch wirkt es sehr elegant.
00:04:52Danach folgt ein weiterer Bereich mit Animationen.
00:04:55Oh, und hier haben wir tatsächlich ein bedienbares Karussell mit verschiedenen Designs.
00:05:00Das ist echt stark.
00:05:01Und dann kommen noch ein paar Abschnitte, die sich alle sehr nach Apple-Ästhetik anfühlen.
00:05:06Ehrlich gesagt ist das ziemlich gut.
00:05:07Die Tatsache, dass es nur aus einem Referenzvideo und einem kurzen Prompt eine so gut
00:05:12aussehende Website mit all diesen Animationen erstellt hat, ist beeindruckend.
00:05:16Alles klar.
00:05:17Aber Apple ist eine bekannte Marke.
00:05:18Ich bin sicher, dass deren Designstil Teil der Trainingsdaten des Modells ist.
00:05:23Das war also wahrscheinlich eine eher einfache Aufgabe für das Modell.
00:05:26Probieren wir jetzt mal etwas Interessanteres und ein bisschen Skurrileres.
00:05:29Ich habe einen weiteren Ordner mit einem einzigen Bild von Mr. Burns von den Simpsons erstellt.
00:05:34Mal sehen, wie kreativ Kimi K 2.5 hier wird.
00:05:37Mein Prompt lautet: Mr. Burns kandidiert für das Amt des Präsidenten.
00:05:40Erstelle eine Website für seine Präsidentschaftskampagne, inklusive seiner Ziele
00:05:45und Agenda, basierend auf seinen Charakterzügen und Motiven.
00:05:49Schauen wir mal, was passiert.
00:05:51Sobald der Denkprozess startet, können wir sehen, wie es über das Design nachdenkt.
00:05:55Die Vorlage ist klar.
00:05:56Montgomery Burns in seinem typischen dunkelgrünen Anzug mit pfirsichfarbener Krawatte.
00:06:01Das ist die visuelle Basis für die Ästhetik der Kampagne.
00:06:05Ziemlich cool.
00:06:06Dieser Teil hat sogar noch länger gedauert.
00:06:08Insgesamt waren es etwa sechs Minuten.
00:06:11Aber jetzt, wo es fertig ist, sehen wir wieder eine detaillierte Übersicht. Es wurden
00:06:16Bereiche für Visionen, Ziele, Werbematerialien usw. hinzugefügt.
00:06:22Und seht euch das an.
00:06:23Es hat sogar ein verstecktes Easter Egg eingebaut, nur so zum Spaß.
00:06:26Das ist wirklich genial.
00:06:27Schauen wir uns die Website an.
00:06:29Wow.
00:06:30Guckt euch das an.
00:06:31“Exzellenz in der Regierungsführung.”
00:06:33“Ich mache dieses Land wieder großartig – für mich.”
00:06:36Oh, und da ist ein kleiner Atom-Knopf.
00:06:40Was passiert, wenn ich draufklicke?
00:06:41“Smithers, bringen Sie mir einen Kaffee.”
00:06:43Witzig.
00:06:44Es gibt sogar eine detaillierte “Über uns”-Seite.
00:06:46Und dann das Thema Wohlstand.
00:06:49Die Animationen sind so flüssig.
00:06:50Wahnsinn.
00:06:51Kimi K 2.5 weiß also anscheinend wirklich, wie man ausdrucksstarke Grafiken erstellt.
00:06:55Das ist offensichtlich viel besser als dieses lila Einheitsdesign,
00:07:01das man oft von anderen Modellen sieht.
00:07:02Und schaut mal hier.
00:07:04“Politik für die Elite.”
00:07:05Oh mein Gott.
00:07:06Hier sind so viele gute, freche Witze drin.
00:07:08Das ist fantastisch.
00:07:10Gesundheitsgutscheine, nur einlösbar in Burns-Kliniken.
00:07:14Wartelisten für Organtransplantationen, sortiert nach Nettovermögen.
00:07:18Eine Grenzmauer aus Gold.
00:07:21Was sagen die Leute?
00:07:22Hier gibt es Zitate von Simpsons-Charakteren, ein Kontaktformular und eine Seite für
00:07:29Wahlkampfspenden.
00:07:30Es wurde sogar ein Merch-Shop hinzugefügt.
00:07:31Okay, der Bereich ist noch “Coming Soon”.
00:07:33Klar, es ist ja eine statische HTML-Seite.
00:07:35Alles klar.
00:07:36Jetzt will ich das Easter Egg auslösen.
00:07:38Wie mache ich das?
00:07:39Laut Hinweis muss ich den Konami-Code eingeben.
00:07:43Was ist der Konami-Code?
00:07:45Ach so, okay.
00:07:46Der Konami-Code ist ein berühmter Cheat-Code aus Videospielen.
00:07:49Wow.
00:07:50Das wusste ich gar nicht.
00:07:51Wieder was gelernt.
00:07:52Also: oben, oben, unten, unten, links, rechts, links, rechts, B, A. Oh, okay.
00:07:58Da haben wir's.
00:07:59Überall auf der Seite steht jetzt ein riesiges “Ha Ha Ha” und der Slogan ändert sich zu “Ausgezeichnet”.
00:08:06Ziemlich witzig gemacht.
00:08:07Ehrlich gesagt gibt es hier so viele coole Details, dass ich einen Link zu dieser
00:08:10Homepage in die Beschreibung packe, damit ihr sie euch selbst ansehen könnt.
00:08:14Simpsons-Fans werden das lieben.
00:08:17Das ist wirklich beeindruckend.
00:08:19Ich hätte nicht gedacht, dass aus nur einem Bild und einem kurzen Text so eine spaßige Website entsteht.
00:08:24Gut.
00:08:25Aber jetzt möchte ich die Agent-Swarm-Funktion testen, von der alle so schwärmen.
00:08:29Wenn man sich deren Beispiele ansieht, scheint das Swarm-Feature ideal für Aufgaben wie
00:08:33Recherchen zu einem Thema oder Aktionen zu sein, bei denen ein Multi-Threading-Ansatz gefragt ist.
00:08:39Um dieses Feature in seiner ganzen Pracht zu testen, nutzt man am besten die offizielle
00:08:40Kimi-Seite und deren Chatbot, da sie dort viele coole visuelle Elemente
00:08:46und Animationen eingebaut haben, die den Swarm-Prozess toll veranschaulichen.
00:08:50Ihr werdet es gleich sehen.
00:08:54Für diesen Test beauftrage ich den Agent Swarm, so viele Informationen wie möglich
00:08:56über verschiedene Modelle zu sammeln – welche am meisten genutzt werden – und lasse
00:09:00K 2.5 alles in einem ordentlich formatierten PDF-Dokument zusammenfassen.
00:09:06Und wenn ihr wollt, dass das Modell den Swarm nutzt, solltet ihr es explizit dazu auffordern.
00:09:10In einem früheren Test entschied K 2.5 nämlich von selbst, dass es den Swarm
00:09:16nicht braucht, und gab mir Token-Guthaben zurück.
00:09:23Wenn ihr den Schwarm also wirklich aktivieren wollt, sagt es ihm einfach.
00:09:27Alles klar.
00:09:31Starten wir die Aufgabe.
00:09:32Sobald es losgeht, sehen wir diese coolen Animationen im Kimi-Chatbot-Interface.
00:09:33Das ist mir bei Moonshot AI schon öfter aufgefallen.
00:09:39Sie sind wirklich gut darin, eine verspielte, fast gamifizierte User Experience zu schaffen,
00:09:43wodurch die Nutzung ihrer Tools viel mehr Spaß macht.
00:09:49Kimi ist auch hier wieder etwas spielerisch, während das Modell
00:09:52die Agenten zuweist.
00:09:57Jeder von ihnen bekommt sogar einen eigenen Dienstausweis.
00:09:58Wir können den Fortschritt ihrer Aufgaben in Echtzeit verfolgen.
00:10:01Während die Agenten arbeiten, sehen wir im Hauptfenster genau,
00:10:05welche Webseiten sie besuchen und welchen Code sie schreiben.
00:10:10Man könnte an dieser Stelle fast wetten, welcher Agent seine Aufgabe
00:10:11am schnellsten erledigt.
00:10:15Sobald ein Agent fertig ist, erscheint eine kleine Sprechblase über seinem Avatar.
00:10:20Nach etwa zehneinhalb Minuten hat mein Schwarm die Aufgabe beendet,
00:10:21und wir erhalten dieses PDF-Dokument als Ergebnis.
00:10:26Anscheinend steht dort Text, aber ich kann ihn kaum lesen.
00:10:31Okay, ich musste ihn erst woanders hinkopieren, um ihn zu verstehen.
00:10:33Aha: “Coding Models, Comparative Analysis”.
00:10:39Alles klar.
00:10:43Na ja, ein ziemlich schlechtes Design für den Anfang.
00:10:46Aber okay, urteilen wir nicht zu voreilig.
00:10:47Schauen wir uns den Rest des Berichts an.
00:10:50Wir haben hier eine Zusammenfassung.
00:10:53Hauptergebnisse:
00:10:5581 % der Entwickler nutzen KI oder planen es.
00:10:5859 % der Entwickler nutzen drei KI-Tools parallel.
00:10:59Okay, interessant.
00:11:03Und wir sehen hier, dass Claude Code Opus 4.5 die Charts dominiert.
00:11:06Dann sehen wir Markttrends.
00:11:0846 % der Entwickler misstrauen KI-Outputs aktiv.
00:11:13Und wow, das ist überraschend:
00:11:16GitHub Copilot ist Marktführer mit 42 % Marktanteil.
00:11:20Wahnsinn.
00:11:22Llama 4 Scout scheint mit 10 Millionen Token das größte Kontextfenster zu haben.
00:11:26Das ist ziemlich beeindruckend.
00:11:27Okay, jetzt kommen die spannenden Stellen.
00:11:31Die wichtigsten Erkenntnisse.
00:11:32Mal sehen.
00:11:33Es gibt keinen eindeutigen Gewinner.
00:11:34Ach, kommt schon.
00:11:35Wie lahm.
00:11:3645 % des KI-generierten Codes enthalten Schwachstellen.
00:11:37Ja, das ist definitiv besorgniserregend.
00:11:39Wartet mal, mir fällt gerade auf: Der Bericht basiert auf Informationen mit Stand
00:11:41Januar 2025.
00:11:43Oh nein.
00:11:46Oh nein.
00:11:522025.
00:11:54Nein, das ist nicht das, was ich wollte.
00:11:56Ich habe explizit nach den aktuell am meisten genutzten Modellen gefragt.
00:11:57Warum hast du keine Daten vom Januar 2026 genommen?
00:11:59Du hast völlig recht.
00:12:02Ich hätte Daten aus 2025 und Januar 2026 recherchieren sollen.
00:12:09Typisches LLM-Verhalten.
00:12:14Ich bin sehr enttäuscht von dir, Kimi.
00:12:15Ich habe gerade einen Haufen Token und 10 Minuten Zeit für veraltete Infos verschwendet.
00:12:21Na ja.
00:12:23Das ist also Kimi K 2.5.
00:12:25Trotz meiner Enttäuschung darüber, dass es im letzten Test meine Anweisungen nicht befolgt hat,
00:12:30halte ich es immer noch für ein ziemlich gutes Modell.
00:12:31Ich würde nicht sagen, dass es bahnbrechend oder State of the Art ist, aber es hat seine Vorzüge.
00:12:32Ich würde es definitiv empfehlen, wenn ihr eine wirklich schöne Website erstellen wollt,
00:12:35so etwas, das man stolz auf awwwards.com präsentieren kann.
00:12:40Da würde ich K 2.5 einem Claude-Code-Modell vorziehen.
00:12:42Und um ehrlich zu sein, das Swarm-Feature sieht echt cool aus und macht Spaß.
00:12:47Aber wusstet ihr, dass man dieselbe Funktion auch mit Claude Code bekommt?
00:12:51Richard hat dazu gerade ein tolles Video gemacht, schaut es euch unbedingt an.
00:12:55Leute, wenn ihr dieses Video hilfreich oder zumindest unterhaltsam fandet,
00:13:01dann zeigt es mir mit einem Klick auf den Like-Button.
00:13:06Abonniert auch unseren Kanal, damit ihr keine unserer zukünftigen
00:13:07technischen Analysen verpasst.
00:13:10Das war Andris von Better Stack. Wir sehen uns im nächsten Video!
00:13:14well.
00:13:15And folks, if you found this video useful or at least entertaining, then let me know by
00:13:19smashing that like button underneath the video.
00:13:22And also be sure to subscribe to our channel so you don't miss out on any of our future
00:13:26technical breakdown videos.
00:13:28This has been Andris from Better Stack and I will see you in the next videos.

Key Takeaway

Kimi K 2.5 ist ein leistungsstarkes Modell für visuelle Webentwicklung und parallele Agenten-Workflows, kämpft jedoch noch mit der präzisen Einhaltung zeitlicher Parameter in der Recherche.

Highlights

Moonshot AI hat Kimi K 2.5 veröffentlicht

Timeline

Einführung in Kimi K 2.5 und Moonshot AI

Das Video beginnt mit der Vorstellung des neuesten KI-Modells von Moonshot AI namens Kimi K 2.5. Der Sprecher erwähnt, dass dieses Modell in der Tech-Community für großes Aufsehen sorgt und von einigen bereits als neues Lieblingsmodell bezeichnet wird. Ziel des Tests ist es herauszufinden, ob der Hype gerechtfertigt ist oder ob es sich lediglich um geschicktes Marketing handelt. Es wird klargestellt, dass die Analyse auf dem aktuellen Stand von Anfang 2026 basiert. Dieser Abschnitt legt den Grundstein für die folgenden technischen Vergleiche und praktischen Demonstrationen.

Technische Neuerungen: PARL und Agent Swarm

In diesem Teil werden die technischen Alleinstellungsmerkmale von Kimi K 2.5 erläutert, insbesondere die Einstufung als State-of-the-Art (SOTA) in den Bereichen Vision und Coding. Das Highlight ist die Einführung des "Agent Swarm", der durch die Parallel Agent Reinforcement Learning (PARL) Methode gesteuert wird. Diese Technologie erlaubt es einem Orchestrator-Agenten, Aufgaben in parallele Teilaufgaben zu zerlegen und bis zu 100 Sub-Agenten gleichzeitig zu koordinieren. Laut Moonshot AI führt dies zu einer 4,5-mal schnelleren Performance im Vergleich zu seriellen Workflows. Der Sprecher zeigt sich jedoch skeptisch gegenüber reinen Benchmark-Zahlen und kündigt eigene, praxisnahe Tests an.

Praxistest: Video-zu-Code Rekonstruktion

Der erste große Test nutzt das Kimi CLI-Tool, um eine Apple iPad Air Produktseite basierend auf einer Videoaufnahme nachzubauen. Das Modell erkennt selbstständig zu große Dateien und nutzt Tools wie FFmpeg, um Keyframes für die Analyse zu extrahieren. Nach etwa fünfeinhalb Minuten liefert Kimi eine beeindruckende Webpräsenz mit flüssigen Animationen und einer präzisen Apple-Ästhetik. Besonders hervorzuheben ist die Erstellung eines schwebenden 3D-Modells, das auf Mausbewegungen reagiert. Obwohl das Modell nicht das schnellste auf dem Markt ist, überzeugt die visuelle Qualität der Ergebnisse in diesem Segment vollkommen.

Kreativitätstest: Die Mr. Burns Kampagnen-Website

Um die kreativen Grenzen zu testen, beauftragt der Sprecher das Modell, eine Präsidentschafts-Website für den Simpsons-Charakter Mr. Burns zu erstellen. Kimi K 2.5 analysiert ein einzelnes Bild und generiert daraus ein vollständiges Kampagnen-Design inklusive passender Slogans wie "Exzellenz in der Regierungsführung". Das Modell integriert sogar komplexe Funktionen wie ein funktionierendes Easter Egg, das durch den berühmten Konami-Code ausgelöst wird. Die Detailtiefe bei den Inhalten, wie etwa humorvolle Zitate und fiktive politische Agenden, übertrifft die Standard-Designs anderer KI-Modelle bei weitem. Dieser Test unterstreicht die Fähigkeit des Modells, spezifische Marken-Personas und humorvolle Kontexte zu verstehen.

Agent Swarm im Einsatz: Multi-Agenten-Recherche

Hier wird die Agent-Swarm-Funktion im offiziellen Chat-Interface von Moonshot AI demonstriert, das eine fast spielerische Benutzererfahrung bietet. Die Agenten erhalten virtuelle Dienstausweise und der Nutzer kann in Echtzeit verfolgen, welche Webseiten sie besuchen und welchen Code sie generieren. Der Sprecher betont, dass man das Modell explizit auffordern muss, den Schwarm zu nutzen, da es sonst aus Effizienzgründen darauf verzichten könnte. Die Visualisierung des Fortschritts macht den komplexen Prozess transparent und unterhaltsam. Letztlich generiert das System nach etwa zehn Minuten ein zusammenfassendes PDF-Dokument über aktuelle KI-Modelle.

Kritik an der Datengenauigkeit und Fazit

Im letzten Abschnitt folgt die Ernüchterung: Trotz der beeindruckenden Technik liefert das Modell Daten mit Stand Januar 2025, obwohl explizit nach aktuellen Informationen gefragt wurde. Der Bericht erwähnt Modelle wie "Claude Code Opus 4.5" und Marktanteile von GitHub Copilot, ignoriert aber die aktuellsten Entwicklungen von Anfang 2026. Der Sprecher zeigt sich enttäuscht über dieses typische LLM-Fehlverhalten und die Verschwendung von Token für veraltete Informationen. Dennoch wird Kimi K 2.5 am Ende für visuell anspruchsvolle Webprojekte empfohlen, da es in der Design-Qualität sogar Claude übertreffe. Das Video schließt mit einem Aufruf zum Abonnement und einem Hinweis auf weitere technische Analysen.

Community Posts

View all posts