00:00:00Die meisten KI-Codierungsmodelle haben ein riesiges Problem – sie kommen einfach nicht mit Swift klar.
00:00:06Wir alle kennen die beeindruckenden Demos von KI-Agenten, die Web-Apps und JavaScript-Tools in Sekunden erstellen,
00:00:11aber sobald man sie bittet, Swift-Code anzufassen, bricht alles ganz schnell zusammen.
00:00:16Warum scheitern also die klügsten Modelle der Welt an der iOS-Entwicklung?
00:00:22Genau das werden wir im heutigen Video herausfinden.
00:00:25Heute stelle ich die besten KI-Coding-Agenten vor die gleiche Swift-App-Herausforderung, um zu sehen,
00:00:30welche Modelle diese Aufgabe tatsächlich bewältigen und welche nur auf Web-Entwicklung spezialisiert sind.
00:00:36Ein kleiner Spoiler vorab: Eines dieser Modelle hat den Test mit Bravour bestanden.
00:00:40Welches das ist, erfahrt ihr später im Video.
00:00:43Das Ganze wird ein Riesenspaß, also legen wir los.
00:00:50Zuerst einmal zum Kernproblem.
00:00:52Warum sind KI-Coding-Modelle so schlecht in der Swift-Entwicklung?
00:00:56Und um das klarzustellen: Das ist nicht nur meine persönliche Beobachtung.
00:00:59Eine Studie mit dem Titel “Evaluating Large Language Models for Code Generation - A Comparative Study”
00:01:05zu Python, Java und Swift ergab, dass über alle getesteten Modelle hinweg, einschließlich GPT und Claude,
00:01:12die Leistung bei Swift durchweg schlechter war als bei Python oder Java.
00:01:17Das liegt im Wesentlichen an drei Engpässen, die die KI im Apple-Ökosystem einschränken.
00:01:24Erstens gibt es eine Datenlücke.
00:01:25Während das Web mit Open-Source-JavaScript- und Python-Code überflutet wird, liegt ein Großteil des professionellen
00:01:31Swift-Codes hinter verschlossenen Türen in privaten oder kommerziellen Repositories.
00:01:36Zweitens haben wir das Problem der API-Drift.
00:01:38Apple ist dafür bekannt, sich schnell zu bewegen und Altes über Bord zu werfen.
00:01:42SwiftUI und die Concurrency-Modelle von Swift haben sich in den letzten drei Jahren stärker verändert als manche
00:01:47Webstandards in einem ganzen Jahrzehnt.
00:01:49Da die meisten KI-Modelle einen Wissensstopp haben, versuchen sie oft, Swift-Code
00:01:54nach veralteten Regeln zu schreiben, die in der neuesten Xcode-Version schlichtweg nicht funktionieren.
00:01:59Und schließlich gibt es den Benchmarking-Bias.
00:02:02Die meisten KI-Modelle, die wir heute testen, wie Qwen oder Grok, sind auf spezifische Tests getrimmt.
00:02:08Sie sind darauf optimiert, massive Benchmarks wie HumanEval zu bestehen, die fast vollständig
00:02:13auf Python und webbasierte Logik fokussiert sind.
00:02:16Da es kaum bedeutende Benchmarks für komplexe iOS-UIs gibt, wurden diese Modelle einfach nie
00:02:21darauf geprüft, ob sie eine funktionale App bauen können.
00:02:25Ich habe mir also einige der beliebtesten KI-Coding-Modelle ausgesucht und jedem
00:02:30exakt denselben Prompt gegeben.
00:02:32Jedes Modell sollte einen einfachen Tinder-Klon namens “Dogtinder” mit Swift bauen, bei dem
00:02:38man mithilfe der Dog-CEO-API verschiedene Hunde angezeigt bekommt.
00:02:43Man kann nach links oder rechts wischen, um Hunde auszuwählen, und bei einem Match
00:02:47öffnet sich ein Chat-Interface, um lustige Nachrichten mit dem Hund auszutauschen.
00:02:52Die App soll niedlich und einfach genug für einen KI-Agenten sein, bietet aber auch
00:02:58Herausforderungen wie das Erstellen einer Swipe-Animation in nativem Swift.
00:03:03Bei den Tests fangen wir beim schlechtesten Ergebnis an und arbeiten uns
00:03:07bis zum besten Modell vor.
00:03:09Auf dem letzten Platz landet leider das neue Modell Qwen 2.5 Coder.
00:03:15Qwen wurde als Open-Source-Alternative zu Schwergewichten wie Kimi oder Claude beworben,
00:03:20mit kleinerer Modellgröße, aber höherer Leistung.
00:03:25Das mag für Web-Apps stimmen, hielt der Swift-Herausforderung aber leider nicht stand.
00:03:32Wo immer möglich, habe ich die hauseigenen CLI-Tools der Modelle genutzt,
00:03:37in diesem Fall also das Qwen-CLI-Tool.
00:03:42Nachdem der Code generiert war, konnte ich die von Qwen erstellte Projektdatei
00:03:46nicht einmal öffnen.
00:03:48Ich forderte das Modell auf, den Fehler zu beheben, der beim Öffnen auftrat.
00:03:53Aber selbst dann konnte Qwen den Fehler nicht lösen, sondern lieferte mir nur eine lange
00:03:58Read-me-Datei, wie ich das Projekt selbst von Grund auf bauen und die Dateien
00:04:03manuell in den Projektordner kopieren solle – was ich nicht tun wollte,
00:04:08da es den Zweck der Challenge verfehlt hätte.
00:04:09Wie ihr später sehen werdet, hatten einige Modelle große Probleme, ein fertiges Dateipaket
00:04:14zu liefern, das sich auf Anhieb erfolgreich öffnen ließ.
00:04:20Für Fälle wie Qwen habe ich mich daher für eine einfachere Herausforderung entschieden.
00:04:26Ich erstellte manuell ein neues iOS-App-Projekt in Xcode und dachte, dass dies ein guter
00:04:31Zeitpunkt wäre, die neue KI-Coding-Funktion zu testen, die jetzt direkt in Xcode integriert ist.
00:04:38Das ist ziemlich cool, weil Xcode nun endlich ein eigenes KI-Assistenten-Feature hat.
00:04:43Ich verknüpfte es mit meinem OpenRouter-Account, wählte das Qwen 2.5 Coder Modell
00:04:49aus und startete die Challenge erneut.
00:04:52Trotz dieser Hilfestellung konnte Qwen auf Anhieb kein funktionierendes Projekt liefern,” Panthera
00:04:57da es Probleme bei der korrekten Erstellung der Swift-Modelle gab.
00:05:02Mit dem neuen KI-Assistenten kann man jedoch alle diese Probleme markieren und
00:05:07den Assistenten beauftragen, die Korrekturen für alle Fehler auf einmal zu generieren.
00:05:12Nachdem ich Qwen mehrmals aufgefordert hatte, die restlichen Probleme zu beheben,
00:05:16erhielten wir endlich eine funktionierende Version der Dogtinder-App, aber das Ergebnis war enttäuschend.
00:05:23Die App konnte nicht einmal die Bilder der API laden, und die gesamte UI war sehr
00:05:29primitiv und alles andere als ansprechend.
00:05:32Ganz zu schweigen von einem Bug im Matches-Bereich, wo einfach keine Matches
00:05:36angezeigt wurden.
00:05:37Qwen ist also beim Xcode-App-Test komplett durchgefallen.
00:05:42Kommen wir zum vorletzten Platz: Grok mit seinem Grok-Code-Fast-Modell.
00:05:48Hierbei habe ich die VS-Copilot-Erweiterung in VS Code genutzt und stieß wieder
00:05:53auf dasselbe Problem: Grok konnte nicht alle nötigen Projektdateien für ein
00:05:59vollständiges Swift-Projektpaket erstellen.
00:06:02Stattdessen gab es mir Anleitungen, wie ich die Dateien manuell kopieren solle.
00:06:06Also musste ich wieder auf den KI-Assistenten in Xcode ausweichen und das Grok-Modell
00:06:12über OpenRouter aufrufen.
00:06:14Auch Grok hatte einige Schwierigkeiten, sodass ich es zweimal auffordern musste, die
00:06:19verbleibenden Fehler zu korrigieren.
00:06:20Schlussendlich konnte es die App aber erfolgreich fertigstellen.
00:06:23Auf den ersten Blick hat Grok beim Design allerdings kläglich versagt.
00:06:27Das Design war extrem langweilig und es gab nicht einmal einen Bereich,
00:06:32in dem man seine Matches sehen konnte.
00:06:33Der einzige Grund, warum ich Grok über Qwen platziert habe, ist, dass zumindest funktional
00:06:38alles funktioniert, inklusive des Chats. Aber ehrlich gesagt lagen beide
00:06:44leistungsmäßig sehr nah beieinander im Keller.
00:06:48Nichts an dieser App wirkt ansprechend oder visuell gelungen.
00:06:51Grok ist zwar nicht direkt durchgefallen, erhält aber die denkbar schlechteste
00:06:57Note zum Bestehen.
00:06:58Als Nächstes auf unserer Liste steht Kimi mit dem neuesten Modell Kimi K2.5.
00:07:04Kimi hatte dasselbe Problem wie Qwen: Das native CLI erstellte zwar die Projektdatei,
00:07:08aber ich konnte sie nicht öffnen.
00:07:11Selbst nach einer Korrektur über das CLI wurde das Problem nicht gelöst.
00:07:15Also testete ich Kimi K2 ebenfalls über den integrierten Xcode-KI-Assistenten
00:07:20via OpenRouter.
00:07:23Kimis Leistung ähnelte der von Qwen und Grok, da es die Herausforderung nicht
00:07:29beim ersten Versuch bewältigte.
00:07:31Ich musste erneut nachbessern lassen, um die Fehler zu beheben.
00:07:34Doch nach nur einer Korrekturrunde lieferte Kimi das finale Ergebnis.
00:07:39Diese Version war tatsächlich ein Fortschritt gegenüber Qwen und Grok, da wir nun
00:07:44eine App hatten, die wirklich wie Tinder aussah.
00:07:47Wir bekamen eine schöne Swipe-Animation sowie “Like”- und “Nope”-Sticker
00:07:53an den Seiten und ein schickes Pop-up bei einem Match.
00:07:57Allerdings war die Animation sehr fehlerhaft und ungenau.
00:08:00Teilweise verschwand das Bild komplett vom Bildschirm.
00:08:05Aber immerhin konnte Kimi die Matches korrekt speichern.
00:08:08Es gab einen Bereich für die Matches, von dem aus man den Chat mit dem
00:08:12jeweiligen Hund starten konnte.
00:08:14Das ist schon ein großer Sprung im Vergleich zu Qwen und Grok.
00:08:18Aber verglichen mit den Modellen, die ihr gleich noch sehen werdet, war das Ergebnis
00:08:22immer noch unterdurchschnittlich.
00:08:25Deshalb landet Kimi auf einem der hinteren Plätze.
00:08:29Weiter geht es mit Gemini 3 Pro.
00:08:31Hier wird es interessant, denn ich erhielt völlig unterschiedliche Ergebnisse, je nachdem,
00:08:36ob ich das Modell über das eigene CLI oder den Xcode-Assistenten nutzte.
00:08:41Schauen wir uns zuerst das Ergebnis des Gemini-CLI an.
00:08:45Dort steht, dass sich das Modell im CLI noch im Preview-Modus befindet.
00:08:49Vielleicht war das das Hauptproblem.
00:08:50Denn auch hier gab es am Ende keine Projektdatei, obwohl ich denselben Prompt
00:08:55wie bei allen anderen Modellen verwendet habe.
00:08:59Um eine Xcode-Projektdatei zu erstellen, muss man zuerst eine YAML-Datei mit den
00:09:04Details erstellen und dann den CodeGen-Befehl nutzen.
00:09:09Einige Modelle weigern sich jedoch oder wissen nicht, wie das geht.
00:09:14Nachdem ich Gemini jedoch explizit dazu aufforderte, erstellte es die Datei.
00:09:18Ich musste nur noch die Erlaubnis geben, den CodeGen-Befehl auszuführen.
00:09:22Nach dem Öffnen gab es einen Asset-Fehler,
00:09:25den Gemini aber schnell beheben konnte.
00:09:28Danach ließ sich die App endlich kompilieren.
00:09:31Aber das Ergebnis war überraschend schlecht.
00:09:35Es war völlig fehlerhaft.
00:09:37Das Match-System funktionierte nicht und alles war voller Bugs.
00:09:41An diesem Punkt wollte ich Gemini eigentlich schon eine schlechte Note geben.
00:09:45Aus Neugier gab ich ihm aber eine zweite Chance und wiederholte den Test
00:09:50mit dem nativen Xcode-Assistenten und Gemini 3 Pro über OpenRouter.
00:09:56Und siehe da: Diesmal klappte es auf Anhieb perfekt.
00:10:01Und nicht nur das – die App war fantastisch.
00:10:04Das Design war super,
00:10:06die Funktionalität gegeben.
00:10:08Es wurde sogar ein nettes kleines Logo hinzugefügt.
00:10:10An dieser Version der App gab es absolut nichts auszusetzen.
00:10:14Ich bin ehrlich gesagt verblüfft, wie derselbe Prompt beim selben Modell über
00:10:20verschiedene Tools zwei so unterschiedliche Ergebnisse liefern konnte.
00:10:24Dennoch war ich von der Version, die Gemini über das Xcode-Tool lieferte,
00:10:29sehr beeindruckt – und das beim ersten Versuch.
00:10:32Deshalb steht Gemini weiter oben auf der Liste, weil das Endergebnis
00:10:37wirklich großartig war.
00:10:38Weiter geht es mit GPT 5.3 Codecs.
00:10:43Da OpenAI eine eigene Codecs-App hat, habe ich den Test direkt darin durchgeführt.
00:10:49Im Gegensatz zu den bisherigen Modellen konnte GPT 5.3 tatsächlich beim ersten
00:10:55Versuch ein funktionierendes Produkt liefern.
00:10:58Das ist bereits ein großer Fortschritt.
00:11:00Allerdings war die App selbst nicht besonders aufregend.
00:11:03Sie hatte ein sehr eintöniges blaues Farbschema.
00:11:06Das größte Problem war, dass die Bildbreite nicht in den Rahmen der App passte.
00:11:13Bei einigen Hunden war der Container so verzerrt, dass er über den Rand der
00:11:18App hinausging.
00:11:20Das ist ein deutlicher Designfehler, den Codecs nicht im Griff hatte.
00:11:25Aber die App an sich war funktional und enthielt alle notwendigen UI-Elemente.
00:11:29Auch der Bereich für Matches und der Chat funktionierten einwandfrei.
00:11:34GPT 5.3 steht so weit oben, weil es das erste Modell war, das das gesamte
00:11:40Swift-Projektpaket ohne Hilfe oder vorheriges Setup in Xcode erstellt hat.
00:11:50Insgesamt solide, aber nicht wirklich begeisternd.
00:11:54Und nun kommen wir zum ersten Platz.
00:11:57Ich gebe euch einen Moment Zeit, um zu raten, welches Modell das sein könnte.
00:12:01Ja, wir wissen wahrscheinlich alle, um welches Modell es sich handelt.
00:12:04Es ist natürlich Opus 4.6, das diese Herausforderung sofort gemeistert hat.
00:12:11Ich nutzte denselben Prompt wie bei den anderen, diesmal über das Claude-Code-CLI,
00:12:17und musste lediglich die erforderlichen Berechtigungen erteilen.
00:12:20Das Modell erledigte alles von selbst, inklusive der Erstellung einer funktionsfähigen
00:12:27Xcode-Projektdatei, ohne dass ich etwas vorbereiten musste.
00:12:29Und die App selbst war einfach wunderschön.
00:12:34Das Design stimmte,
00:12:35die Animationen waren flüssig.
00:12:37Die Matches und das Chat-Fenster funktionierten tadellos.
00:12:41Das einzige, was fehlte, war ein schickeres Logo, wie es Gemini geliefert hatte.
00:12:48Aber ansonsten war dies die optisch ansprechendste Version von allen.
00:12:52Und das Modell schaffte es beim ersten Versuch.
00:12:55Die Leistung von Opus ist im Vergleich zu den anderen Modellen absolut beeindruckend.
00:13:01Es verdient definitiv den ersten Platz auf der Bestenliste.
00:13:05Aber Moment, da ist noch mehr.
00:13:07Hier ist noch ein kleiner Bonus für euch.
00:13:09Es gibt noch ein Modell, das wir uns ansehen müssen und das noch nicht auf der Liste war.
00:13:14Während ich dieses Video drehte, wurde die Version 5 von GLM veröffentlicht.
00:13:18Die Entwickler behaupten kühn, dass dieses Modell beim Coding noch besser abschneidet als Opus 4.6.
00:13:26Das musste ich natürlich mit derselben Swift-Challenge testen.
00:13:31Da GLM kein eigenes CLI-Tool hat, nutzte ich wieder den Xcode-Assistenten via
00:13:37OpenRouter.
00:13:41Zunächst einmal schaffte GLM die Herausforderung nicht beim ersten Versuch.
00:13:45Das zeigt bereits eine schlechtere Leistung als bei Opus 4.6.
00:13:49Zudem brauchte es drei Korrekturrunden, bis die App erfolgreich kompilierte.
00:13:56Schauen wir uns das Ergebnis von GLM 5 an.
00:13:59Für mich sieht das schon nach einer ungenügenden Leistung aus.
00:14:03Es scheint keine Hundebilder laden zu können.
00:14:06Die Swipe-Funktionalität fehlt komplett.
00:14:08Schlimmer noch: Es zeigt nur drei Hunde an und behauptet dann, dass keine Hunde mehr verfügbar seien.
00:14:15Außerdem kann man im Match-Bereich keinen der Hunde anklicken, um den Chat zu öffnen.
00:14:23Dieser Teil ist offensichtlich nicht fertiggestellt.
00:14:25Wo platzieren wir GLM also basierend auf dieser Leistung?
00:14:29Ich fürchte, wir müssen es auf den vorletzten Platz setzen, knapp vor Qwen,
00:14:36da die Leistung inakzeptabel war und nicht annähernd an die anderen Modelle heranreichte.
00:14:42Die Behauptung, GLM 5 sei stärker als Opus 4.6, ist also sehr gewagt.
00:14:47Ich habe das Modell zwar nicht in anderen Bereichen getestet, und vielleicht
00:14:52funktioniert es bei einfachen Web-Projekten genauso gut oder besser als Opus 4.6,
00:14:59aber für Swift-Coding ist es definitiv nicht die richtige Wahl.
00:15:02Was haben wir heute also gelernt?
00:15:04Die KI-Revolution rast zwar voran, aber das Swift-Problem ist für diese Modelle noch sehr real.
00:15:10Opus 4.6 und GPT 5.3 haben gezeigt: Wenn das Modell groß genug und die Logik stark genug ist,
00:15:18können sie den Mangel an Open-Source-Swift-Daten ausgleichen.
00:15:23Aber Modelle wie Qwen und Grok leiden massiv unter der Datenlücke und der API-Drift.
00:15:31Überrascht hat mich auch, wie hilfreich der neue KI-Assistent von Xcode für Swift-Apps ist.
00:15:36Das sah man deutlich am Unterschied zwischen den beiden Gemini-Versionen.
00:15:40iOS-Entwickler sollten also am besten die internen KI-Tools nutzen, um bessere
00:15:46Ergebnisse zu erzielen.
00:15:47Das war's mit unserer Bestenliste.
00:15:51Ich finde, das wirft die Frage auf, ob wir sprachspezifische Modelle brauchen.
00:15:57Denn viele Modelle sind stark auf Web-Apps, JavaScript oder Python fokussiert.
00:16:04Für spezialisierte Lösungen benötigen wir vielleicht maßgeschneiderte Coding-Modelle.
00:16:09Aber was denkt ihr darüber?
00:16:11Lasst es uns unten in den Kommentaren wissen.
00:16:13Wenn euch das Video gefallen hat, zeigt es mir mit einem Klick auf den Like-Button.
00:16:19Und vergesst nicht, unseren Kanal zu abonnieren.
00:16:22Ich bin Andris von Better Stack, wir sehen uns im nächsten Video.