00:00:00Warte mal, das sehe ich jetzt erst.
00:00:01Der Bericht basiert auf öffentlich zugänglichen Informationen mit Stand Januar 2025.
00:00:06Oh nein, oh nein, 2025, nein, das ist nicht das, was ich wollte.
00:00:15Moonshot AI hat ihr neuestes KI-Modell veröffentlicht, Kimi K 2.5, und es war diese Woche
00:00:22das Thema Nummer eins im Internet.
00:00:24Einige Leute gehen sogar so weit zu sagen, dass dies ihr bisheriges Lieblingsmodell sein könnte.
00:00:29Natürlich musste ich es testen, um zu sehen, was es mit dem ganzen Wirbel auf sich hat,
00:00:34ob es wirklich etwas Frisches ist oder nur ein weiteres Modell, das durch cleveres Marketing aufgebauscht wird.
00:00:39Genau das werden wir im heutigen Video herausfinden.
00:00:42Das wird ein Riesenspaß, also legen wir direkt los.
00:00:49Kimi K 2.5 ist das neueste Open-Source-Modell, das von einem chinesischen Unternehmen namens Moonshot AI
00:00:55entwickelt wurde.
00:00:56Erst vor sechs Monaten hat Richard K2 im Detail vorgestellt, und heute schauen wir uns an,
00:01:01was es Neues in K2.5 gibt.
00:01:05Was ist also das Besondere an diesem Modell?
00:01:06Wie unterscheidet es sich von den tausend anderen neuen Modellen, die fast täglich erscheinen?
00:01:12Nun, da sind zwei Dinge.
00:01:13Erstens behauptet es, extrem gut in den Bereichen Vision und Coding zu sein.
00:01:17Es bezeichnet sich sogar selbst als Open-Source-SOTA.
00:01:21SOTA.
00:01:22Wisst ihr eigentlich, was das bedeutet?
00:01:24Ehrlich gesagt musste ich selbst erst nachschlagen, ich wusste es auch nicht genau.
00:01:27Ah, okay, es bedeutet “State of the Art”.
00:01:30Wieder was gelernt.
00:01:32Wie auch immer, es ist absoluter Spitzenreiter bei agentischen Benchmarks sowie Vision und Coding.
00:01:37Das zweite Highlight dieses Modells ist eine neue Funktion namens
00:01:42Agent Swarm.
00:01:44Dabei kann es bis zu hundert Sub-Agenten und 1.500 Tool-Aufrufe gleichzeitig starten
00:01:51und parallel ausführen, was zu einer 4,5-mal schnelleren Performance führt.
00:01:55Für dieses Modell wurde eine neue Trainingsmethode namens “Parallel Agent Reinforcement Learning”
00:02:00oder PARL verwendet.
00:02:01Das bedeutet, dass das Modell den gesamten Agenten-Schwarm selbst steuern kann, indem es einen trainierbaren
00:02:06Orchestrator-Agenten erstellt. Dieser leitet die Show, zerlegt Aufgaben in parallelisierbare
00:02:12Teilaufgaben und behält alle Agenten im Auge, damit der gesamte Prozess nicht
00:02:18in einen seriellen Kollaps gerät, was bei solchen Multi-Agenten-Workflows oft passiert.
00:02:23Gelöst wurde das, indem jeder Sub-Agent in separaten kritischen Phasen Belohnungen erhält,
00:02:28wodurch K 2.5 spürbare Leistungssteigerungen erzielt.
00:02:34Wir werden das also definitiv testen.
00:02:35Ich werde jetzt nicht zu tief in die verschiedenen Benchmarks eintauchen, denn
00:02:40ganz ehrlich, in fast jedem Video werden diese Zahlen gefeiert, und ich glaube nicht,
00:02:44dass man diesen Werten heutzutage noch blind vertrauen kann.
00:02:47Die kriegen es ja nicht mal hin, ihre Benchmark-Grafiken richtig auszurichten, ernsthaft.
00:02:51Stattdessen konzentriere ich mich auf die zwei Dinge, in denen das Modell angeblich
00:02:55besonders gut ist:
00:02:56Vision und Coding sowie die neue Agent-Swarm-Funktionalität.
00:03:00Stellen wir es also auf die Probe.
00:03:02Es gibt auch ein eigenes CLI-Tool namens Kimi CLI.
00:03:06Genau das werde ich heute für meine Tests verwenden.
00:03:09Eine der beeindruckendsten Funktionen soll die Fähigkeit sein, ein Video
00:03:13der User Experience einer Website aufzunehmen und diese in Code nachzubauen.
00:03:19Das ist ziemlich imposant.
00:03:20Um das zu testen, habe ich ein Video von Apples iPad Air Produktseite gemacht, mit all ihren
00:03:25schicken Animationen und Übergängen.
00:03:28Ich habe einen Ordner erstellt, der nur diese eine Aufnahme enthält.
00:03:32Und jetzt werde ich K 2.5 beauftragen, basierend auf diesem Video eine
00:03:38Werbewebsite für das iPad Air zu erstellen.
00:03:39Bevor Shell-Befehle ausgeführt werden, fragt es nach einer Erlaubnis, die ich für
00:03:44diese Sitzung erteile.
00:03:46Und der Prozess läuft.
00:03:48Das ist interessant.
00:03:49Es hat erkannt, dass die Datei zu groß war.
00:03:51Also hat es sie kurzerhand selbstständig mit FFmpeg komprimiert.
00:03:56Ich war wirklich gespannt, wie dieses Modell eine Videodatei verarbeitet und versteht.
00:04:01Es stellt sich heraus, dass es die Videodatei nimmt und erneut FFmpeg nutzt, um
00:04:06Keyframes zu extrahieren, die als visuelle Hilfe für den Website-Bau dienen.
00:04:11Das Modell hat etwa fünfeinhalb Minuten für die Aufgabe gebraucht.
00:04:15Es ist also definitiv nicht das schnellste Modell auf dem Markt.
00:04:18Und wohlgemerkt nutze ich deren eigene APIs und keine lokale Version.
00:04:23Wie auch immer, sobald es fertig ist, sehen wir hier eine detaillierte Übersicht dessen,
00:04:28was es getan hat.
00:04:29Schauen wir uns jetzt die Seite selbst an.
00:04:30Oh, wow.
00:04:31Seht euch das an.
00:04:32Die Apple-Designästhetik wurde voll getroffen, und es wurde sogar dieses schwebende 3D-iPad
00:04:38in der Mitte erstellt.
00:04:39Es scheint sogar auf Mausbewegungen zu reagieren.
00:04:42Ziemlich cool.
00:04:43Dann haben wir diesen schönen Karussell-Abschnitt mit verschiedenen Fenstern, aber leider
00:04:48passiert nichts, wenn ich auf die Punkte klicke. Dennoch wirkt es sehr elegant.
00:04:52Danach folgt ein weiterer Bereich mit Animationen.
00:04:55Oh, und hier haben wir tatsächlich ein bedienbares Karussell mit verschiedenen Designs.
00:05:00Das ist echt stark.
00:05:01Und dann kommen noch ein paar Abschnitte, die sich alle sehr nach Apple-Ästhetik anfühlen.
00:05:06Ehrlich gesagt ist das ziemlich gut.
00:05:07Die Tatsache, dass es nur aus einem Referenzvideo und einem kurzen Prompt eine so gut
00:05:12aussehende Website mit all diesen Animationen erstellt hat, ist beeindruckend.
00:05:16Alles klar.
00:05:17Aber Apple ist eine bekannte Marke.
00:05:18Ich bin sicher, dass deren Designstil Teil der Trainingsdaten des Modells ist.
00:05:23Das war also wahrscheinlich eine eher einfache Aufgabe für das Modell.
00:05:26Probieren wir jetzt mal etwas Interessanteres und ein bisschen Skurrileres.
00:05:29Ich habe einen weiteren Ordner mit einem einzigen Bild von Mr. Burns von den Simpsons erstellt.
00:05:34Mal sehen, wie kreativ Kimi K 2.5 hier wird.
00:05:37Mein Prompt lautet: Mr. Burns kandidiert für das Amt des Präsidenten.
00:05:40Erstelle eine Website für seine Präsidentschaftskampagne, inklusive seiner Ziele
00:05:45und Agenda, basierend auf seinen Charakterzügen und Motiven.
00:05:49Schauen wir mal, was passiert.
00:05:51Sobald der Denkprozess startet, können wir sehen, wie es über das Design nachdenkt.
00:05:55Die Vorlage ist klar.
00:05:56Montgomery Burns in seinem typischen dunkelgrünen Anzug mit pfirsichfarbener Krawatte.
00:06:01Das ist die visuelle Basis für die Ästhetik der Kampagne.
00:06:05Ziemlich cool.
00:06:06Dieser Teil hat sogar noch länger gedauert.
00:06:08Insgesamt waren es etwa sechs Minuten.
00:06:11Aber jetzt, wo es fertig ist, sehen wir wieder eine detaillierte Übersicht. Es wurden
00:06:16Bereiche für Visionen, Ziele, Werbematerialien usw. hinzugefügt.
00:06:22Und seht euch das an.
00:06:23Es hat sogar ein verstecktes Easter Egg eingebaut, nur so zum Spaß.
00:06:26Das ist wirklich genial.
00:06:27Schauen wir uns die Website an.
00:06:29Wow.
00:06:30Guckt euch das an.
00:06:31“Exzellenz in der Regierungsführung.”
00:06:33“Ich mache dieses Land wieder großartig – für mich.”
00:06:36Oh, und da ist ein kleiner Atom-Knopf.
00:06:40Was passiert, wenn ich draufklicke?
00:06:41“Smithers, bringen Sie mir einen Kaffee.”
00:06:43Witzig.
00:06:44Es gibt sogar eine detaillierte “Über uns”-Seite.
00:06:46Und dann das Thema Wohlstand.
00:06:49Die Animationen sind so flüssig.
00:06:50Wahnsinn.
00:06:51Kimi K 2.5 weiß also anscheinend wirklich, wie man ausdrucksstarke Grafiken erstellt.
00:06:55Das ist offensichtlich viel besser als dieses lila Einheitsdesign,
00:07:01das man oft von anderen Modellen sieht.
00:07:02Und schaut mal hier.
00:07:04“Politik für die Elite.”
00:07:05Oh mein Gott.
00:07:06Hier sind so viele gute, freche Witze drin.
00:07:08Das ist fantastisch.
00:07:10Gesundheitsgutscheine, nur einlösbar in Burns-Kliniken.
00:07:14Wartelisten für Organtransplantationen, sortiert nach Nettovermögen.
00:07:18Eine Grenzmauer aus Gold.
00:07:21Was sagen die Leute?
00:07:22Hier gibt es Zitate von Simpsons-Charakteren, ein Kontaktformular und eine Seite für
00:07:29Wahlkampfspenden.
00:07:30Es wurde sogar ein Merch-Shop hinzugefügt.
00:07:31Okay, der Bereich ist noch “Coming Soon”.
00:07:33Klar, es ist ja eine statische HTML-Seite.
00:07:35Alles klar.
00:07:36Jetzt will ich das Easter Egg auslösen.
00:07:38Wie mache ich das?
00:07:39Laut Hinweis muss ich den Konami-Code eingeben.
00:07:43Was ist der Konami-Code?
00:07:45Ach so, okay.
00:07:46Der Konami-Code ist ein berühmter Cheat-Code aus Videospielen.
00:07:49Wow.
00:07:50Das wusste ich gar nicht.
00:07:51Wieder was gelernt.
00:07:52Also: oben, oben, unten, unten, links, rechts, links, rechts, B, A. Oh, okay.
00:07:58Da haben wir's.
00:07:59Überall auf der Seite steht jetzt ein riesiges “Ha Ha Ha” und der Slogan ändert sich zu “Ausgezeichnet”.
00:08:06Ziemlich witzig gemacht.
00:08:07Ehrlich gesagt gibt es hier so viele coole Details, dass ich einen Link zu dieser
00:08:10Homepage in die Beschreibung packe, damit ihr sie euch selbst ansehen könnt.
00:08:14Simpsons-Fans werden das lieben.
00:08:17Das ist wirklich beeindruckend.
00:08:19Ich hätte nicht gedacht, dass aus nur einem Bild und einem kurzen Text so eine spaßige Website entsteht.
00:08:24Gut.
00:08:25Aber jetzt möchte ich die Agent-Swarm-Funktion testen, von der alle so schwärmen.
00:08:29Wenn man sich deren Beispiele ansieht, scheint das Swarm-Feature ideal für Aufgaben wie
00:08:33Recherchen zu einem Thema oder Aktionen zu sein, bei denen ein Multi-Threading-Ansatz gefragt ist.
00:08:39Um dieses Feature in seiner ganzen Pracht zu testen, nutzt man am besten die offizielle
00:08:40Kimi-Seite und deren Chatbot, da sie dort viele coole visuelle Elemente
00:08:46und Animationen eingebaut haben, die den Swarm-Prozess toll veranschaulichen.
00:08:50Ihr werdet es gleich sehen.
00:08:54Für diesen Test beauftrage ich den Agent Swarm, so viele Informationen wie möglich
00:08:56über verschiedene Modelle zu sammeln – welche am meisten genutzt werden – und lasse
00:09:00K 2.5 alles in einem ordentlich formatierten PDF-Dokument zusammenfassen.
00:09:06Und wenn ihr wollt, dass das Modell den Swarm nutzt, solltet ihr es explizit dazu auffordern.
00:09:10In einem früheren Test entschied K 2.5 nämlich von selbst, dass es den Swarm
00:09:16nicht braucht, und gab mir Token-Guthaben zurück.
00:09:23Wenn ihr den Schwarm also wirklich aktivieren wollt, sagt es ihm einfach.
00:09:27Alles klar.
00:09:31Starten wir die Aufgabe.
00:09:32Sobald es losgeht, sehen wir diese coolen Animationen im Kimi-Chatbot-Interface.
00:09:33Das ist mir bei Moonshot AI schon öfter aufgefallen.
00:09:39Sie sind wirklich gut darin, eine verspielte, fast gamifizierte User Experience zu schaffen,
00:09:43wodurch die Nutzung ihrer Tools viel mehr Spaß macht.
00:09:49Kimi ist auch hier wieder etwas spielerisch, während das Modell
00:09:52die Agenten zuweist.
00:09:57Jeder von ihnen bekommt sogar einen eigenen Dienstausweis.
00:09:58Wir können den Fortschritt ihrer Aufgaben in Echtzeit verfolgen.
00:10:01Während die Agenten arbeiten, sehen wir im Hauptfenster genau,
00:10:05welche Webseiten sie besuchen und welchen Code sie schreiben.
00:10:10Man könnte an dieser Stelle fast wetten, welcher Agent seine Aufgabe
00:10:11am schnellsten erledigt.
00:10:15Sobald ein Agent fertig ist, erscheint eine kleine Sprechblase über seinem Avatar.
00:10:20Nach etwa zehneinhalb Minuten hat mein Schwarm die Aufgabe beendet,
00:10:21und wir erhalten dieses PDF-Dokument als Ergebnis.
00:10:26Anscheinend steht dort Text, aber ich kann ihn kaum lesen.
00:10:31Okay, ich musste ihn erst woanders hinkopieren, um ihn zu verstehen.
00:10:33Aha: “Coding Models, Comparative Analysis”.
00:10:39Alles klar.
00:10:43Na ja, ein ziemlich schlechtes Design für den Anfang.
00:10:46Aber okay, urteilen wir nicht zu voreilig.
00:10:47Schauen wir uns den Rest des Berichts an.
00:10:50Wir haben hier eine Zusammenfassung.
00:10:53Hauptergebnisse:
00:10:5581 % der Entwickler nutzen KI oder planen es.
00:10:5859 % der Entwickler nutzen drei KI-Tools parallel.
00:10:59Okay, interessant.
00:11:03Und wir sehen hier, dass Claude Code Opus 4.5 die Charts dominiert.
00:11:06Dann sehen wir Markttrends.
00:11:0846 % der Entwickler misstrauen KI-Outputs aktiv.
00:11:13Und wow, das ist überraschend:
00:11:16GitHub Copilot ist Marktführer mit 42 % Marktanteil.
00:11:20Wahnsinn.
00:11:22Llama 4 Scout scheint mit 10 Millionen Token das größte Kontextfenster zu haben.
00:11:26Das ist ziemlich beeindruckend.
00:11:27Okay, jetzt kommen die spannenden Stellen.
00:11:31Die wichtigsten Erkenntnisse.
00:11:32Mal sehen.
00:11:33Es gibt keinen eindeutigen Gewinner.
00:11:34Ach, kommt schon.
00:11:35Wie lahm.
00:11:3645 % des KI-generierten Codes enthalten Schwachstellen.
00:11:37Ja, das ist definitiv besorgniserregend.
00:11:39Wartet mal, mir fällt gerade auf: Der Bericht basiert auf Informationen mit Stand
00:11:41Januar 2025.
00:11:43Oh nein.
00:11:46Oh nein.
00:11:522025.
00:11:54Nein, das ist nicht das, was ich wollte.
00:11:56Ich habe explizit nach den aktuell am meisten genutzten Modellen gefragt.
00:11:57Warum hast du keine Daten vom Januar 2026 genommen?
00:11:59Du hast völlig recht.
00:12:02Ich hätte Daten aus 2025 und Januar 2026 recherchieren sollen.
00:12:09Typisches LLM-Verhalten.
00:12:14Ich bin sehr enttäuscht von dir, Kimi.
00:12:15Ich habe gerade einen Haufen Token und 10 Minuten Zeit für veraltete Infos verschwendet.
00:12:21Na ja.
00:12:23Das ist also Kimi K 2.5.
00:12:25Trotz meiner Enttäuschung darüber, dass es im letzten Test meine Anweisungen nicht befolgt hat,
00:12:30halte ich es immer noch für ein ziemlich gutes Modell.
00:12:31Ich würde nicht sagen, dass es bahnbrechend oder State of the Art ist, aber es hat seine Vorzüge.
00:12:32Ich würde es definitiv empfehlen, wenn ihr eine wirklich schöne Website erstellen wollt,
00:12:35so etwas, das man stolz auf awwwards.com präsentieren kann.
00:12:40Da würde ich K 2.5 einem Claude-Code-Modell vorziehen.
00:12:42Und um ehrlich zu sein, das Swarm-Feature sieht echt cool aus und macht Spaß.
00:12:47Aber wusstet ihr, dass man dieselbe Funktion auch mit Claude Code bekommt?
00:12:51Richard hat dazu gerade ein tolles Video gemacht, schaut es euch unbedingt an.
00:12:55Leute, wenn ihr dieses Video hilfreich oder zumindest unterhaltsam fandet,
00:13:01dann zeigt es mir mit einem Klick auf den Like-Button.
00:13:06Abonniert auch unseren Kanal, damit ihr keine unserer zukünftigen
00:13:07technischen Analysen verpasst.
00:13:10Das war Andris von Better Stack. Wir sehen uns im nächsten Video!
00:13:14well.
00:13:15And folks, if you found this video useful or at least entertaining, then let me know by
00:13:19smashing that like button underneath the video.
00:13:22And also be sure to subscribe to our channel so you don't miss out on any of our future
00:13:26technical breakdown videos.
00:13:28This has been Andris from Better Stack and I will see you in the next videos.