Ich habe 7 KI-Agenten die gleiche Swift-Challenge gegeben. Es war BRUTAL!

BBetter Stack
컴퓨터/소프트웨어스마트폰/모바일AI/미래기술

Transcript

00:00:00Die meisten KI-Codierungsmodelle haben ein riesiges Problem – sie kommen einfach nicht mit Swift klar.
00:00:06Wir alle kennen die beeindruckenden Demos von KI-Agenten, die Web-Apps und JavaScript-Tools in Sekunden erstellen,
00:00:11aber sobald man sie bittet, Swift-Code anzufassen, bricht alles ganz schnell zusammen.
00:00:16Warum scheitern also die klügsten Modelle der Welt an der iOS-Entwicklung?
00:00:22Genau das werden wir im heutigen Video herausfinden.
00:00:25Heute stelle ich die besten KI-Coding-Agenten vor die gleiche Swift-App-Herausforderung, um zu sehen,
00:00:30welche Modelle diese Aufgabe tatsächlich bewältigen und welche nur auf Web-Entwicklung spezialisiert sind.
00:00:36Ein kleiner Spoiler vorab: Eines dieser Modelle hat den Test mit Bravour bestanden.
00:00:40Welches das ist, erfahrt ihr später im Video.
00:00:43Das Ganze wird ein Riesenspaß, also legen wir los.
00:00:50Zuerst einmal zum Kernproblem.
00:00:52Warum sind KI-Coding-Modelle so schlecht in der Swift-Entwicklung?
00:00:56Und um das klarzustellen: Das ist nicht nur meine persönliche Beobachtung.
00:00:59Eine Studie mit dem Titel “Evaluating Large Language Models for Code Generation - A Comparative Study”
00:01:05zu Python, Java und Swift ergab, dass über alle getesteten Modelle hinweg, einschließlich GPT und Claude,
00:01:12die Leistung bei Swift durchweg schlechter war als bei Python oder Java.
00:01:17Das liegt im Wesentlichen an drei Engpässen, die die KI im Apple-Ökosystem einschränken.
00:01:24Erstens gibt es eine Datenlücke.
00:01:25Während das Web mit Open-Source-JavaScript- und Python-Code überflutet wird, liegt ein Großteil des professionellen
00:01:31Swift-Codes hinter verschlossenen Türen in privaten oder kommerziellen Repositories.
00:01:36Zweitens haben wir das Problem der API-Drift.
00:01:38Apple ist dafür bekannt, sich schnell zu bewegen und Altes über Bord zu werfen.
00:01:42SwiftUI und die Concurrency-Modelle von Swift haben sich in den letzten drei Jahren stärker verändert als manche
00:01:47Webstandards in einem ganzen Jahrzehnt.
00:01:49Da die meisten KI-Modelle einen Wissensstopp haben, versuchen sie oft, Swift-Code
00:01:54nach veralteten Regeln zu schreiben, die in der neuesten Xcode-Version schlichtweg nicht funktionieren.
00:01:59Und schließlich gibt es den Benchmarking-Bias.
00:02:02Die meisten KI-Modelle, die wir heute testen, wie Qwen oder Grok, sind auf spezifische Tests getrimmt.
00:02:08Sie sind darauf optimiert, massive Benchmarks wie HumanEval zu bestehen, die fast vollständig
00:02:13auf Python und webbasierte Logik fokussiert sind.
00:02:16Da es kaum bedeutende Benchmarks für komplexe iOS-UIs gibt, wurden diese Modelle einfach nie
00:02:21darauf geprüft, ob sie eine funktionale App bauen können.
00:02:25Ich habe mir also einige der beliebtesten KI-Coding-Modelle ausgesucht und jedem
00:02:30exakt denselben Prompt gegeben.
00:02:32Jedes Modell sollte einen einfachen Tinder-Klon namens “Dogtinder” mit Swift bauen, bei dem
00:02:38man mithilfe der Dog-CEO-API verschiedene Hunde angezeigt bekommt.
00:02:43Man kann nach links oder rechts wischen, um Hunde auszuwählen, und bei einem Match
00:02:47öffnet sich ein Chat-Interface, um lustige Nachrichten mit dem Hund auszutauschen.
00:02:52Die App soll niedlich und einfach genug für einen KI-Agenten sein, bietet aber auch
00:02:58Herausforderungen wie das Erstellen einer Swipe-Animation in nativem Swift.
00:03:03Bei den Tests fangen wir beim schlechtesten Ergebnis an und arbeiten uns
00:03:07bis zum besten Modell vor.
00:03:09Auf dem letzten Platz landet leider das neue Modell Qwen 2.5 Coder.
00:03:15Qwen wurde als Open-Source-Alternative zu Schwergewichten wie Kimi oder Claude beworben,
00:03:20mit kleinerer Modellgröße, aber höherer Leistung.
00:03:25Das mag für Web-Apps stimmen, hielt der Swift-Herausforderung aber leider nicht stand.
00:03:32Wo immer möglich, habe ich die hauseigenen CLI-Tools der Modelle genutzt,
00:03:37in diesem Fall also das Qwen-CLI-Tool.
00:03:42Nachdem der Code generiert war, konnte ich die von Qwen erstellte Projektdatei
00:03:46nicht einmal öffnen.
00:03:48Ich forderte das Modell auf, den Fehler zu beheben, der beim Öffnen auftrat.
00:03:53Aber selbst dann konnte Qwen den Fehler nicht lösen, sondern lieferte mir nur eine lange
00:03:58Read-me-Datei, wie ich das Projekt selbst von Grund auf bauen und die Dateien
00:04:03manuell in den Projektordner kopieren solle – was ich nicht tun wollte,
00:04:08da es den Zweck der Challenge verfehlt hätte.
00:04:09Wie ihr später sehen werdet, hatten einige Modelle große Probleme, ein fertiges Dateipaket
00:04:14zu liefern, das sich auf Anhieb erfolgreich öffnen ließ.
00:04:20Für Fälle wie Qwen habe ich mich daher für eine einfachere Herausforderung entschieden.
00:04:26Ich erstellte manuell ein neues iOS-App-Projekt in Xcode und dachte, dass dies ein guter
00:04:31Zeitpunkt wäre, die neue KI-Coding-Funktion zu testen, die jetzt direkt in Xcode integriert ist.
00:04:38Das ist ziemlich cool, weil Xcode nun endlich ein eigenes KI-Assistenten-Feature hat.
00:04:43Ich verknüpfte es mit meinem OpenRouter-Account, wählte das Qwen 2.5 Coder Modell
00:04:49aus und startete die Challenge erneut.
00:04:52Trotz dieser Hilfestellung konnte Qwen auf Anhieb kein funktionierendes Projekt liefern,” Panthera
00:04:57da es Probleme bei der korrekten Erstellung der Swift-Modelle gab.
00:05:02Mit dem neuen KI-Assistenten kann man jedoch alle diese Probleme markieren und
00:05:07den Assistenten beauftragen, die Korrekturen für alle Fehler auf einmal zu generieren.
00:05:12Nachdem ich Qwen mehrmals aufgefordert hatte, die restlichen Probleme zu beheben,
00:05:16erhielten wir endlich eine funktionierende Version der Dogtinder-App, aber das Ergebnis war enttäuschend.
00:05:23Die App konnte nicht einmal die Bilder der API laden, und die gesamte UI war sehr
00:05:29primitiv und alles andere als ansprechend.
00:05:32Ganz zu schweigen von einem Bug im Matches-Bereich, wo einfach keine Matches
00:05:36angezeigt wurden.
00:05:37Qwen ist also beim Xcode-App-Test komplett durchgefallen.
00:05:42Kommen wir zum vorletzten Platz: Grok mit seinem Grok-Code-Fast-Modell.
00:05:48Hierbei habe ich die VS-Copilot-Erweiterung in VS Code genutzt und stieß wieder
00:05:53auf dasselbe Problem: Grok konnte nicht alle nötigen Projektdateien für ein
00:05:59vollständiges Swift-Projektpaket erstellen.
00:06:02Stattdessen gab es mir Anleitungen, wie ich die Dateien manuell kopieren solle.
00:06:06Also musste ich wieder auf den KI-Assistenten in Xcode ausweichen und das Grok-Modell
00:06:12über OpenRouter aufrufen.
00:06:14Auch Grok hatte einige Schwierigkeiten, sodass ich es zweimal auffordern musste, die
00:06:19verbleibenden Fehler zu korrigieren.
00:06:20Schlussendlich konnte es die App aber erfolgreich fertigstellen.
00:06:23Auf den ersten Blick hat Grok beim Design allerdings kläglich versagt.
00:06:27Das Design war extrem langweilig und es gab nicht einmal einen Bereich,
00:06:32in dem man seine Matches sehen konnte.
00:06:33Der einzige Grund, warum ich Grok über Qwen platziert habe, ist, dass zumindest funktional
00:06:38alles funktioniert, inklusive des Chats. Aber ehrlich gesagt lagen beide
00:06:44leistungsmäßig sehr nah beieinander im Keller.
00:06:48Nichts an dieser App wirkt ansprechend oder visuell gelungen.
00:06:51Grok ist zwar nicht direkt durchgefallen, erhält aber die denkbar schlechteste
00:06:57Note zum Bestehen.
00:06:58Als Nächstes auf unserer Liste steht Kimi mit dem neuesten Modell Kimi K2.5.
00:07:04Kimi hatte dasselbe Problem wie Qwen: Das native CLI erstellte zwar die Projektdatei,
00:07:08aber ich konnte sie nicht öffnen.
00:07:11Selbst nach einer Korrektur über das CLI wurde das Problem nicht gelöst.
00:07:15Also testete ich Kimi K2 ebenfalls über den integrierten Xcode-KI-Assistenten
00:07:20via OpenRouter.
00:07:23Kimis Leistung ähnelte der von Qwen und Grok, da es die Herausforderung nicht
00:07:29beim ersten Versuch bewältigte.
00:07:31Ich musste erneut nachbessern lassen, um die Fehler zu beheben.
00:07:34Doch nach nur einer Korrekturrunde lieferte Kimi das finale Ergebnis.
00:07:39Diese Version war tatsächlich ein Fortschritt gegenüber Qwen und Grok, da wir nun
00:07:44eine App hatten, die wirklich wie Tinder aussah.
00:07:47Wir bekamen eine schöne Swipe-Animation sowie “Like”- und “Nope”-Sticker
00:07:53an den Seiten und ein schickes Pop-up bei einem Match.
00:07:57Allerdings war die Animation sehr fehlerhaft und ungenau.
00:08:00Teilweise verschwand das Bild komplett vom Bildschirm.
00:08:05Aber immerhin konnte Kimi die Matches korrekt speichern.
00:08:08Es gab einen Bereich für die Matches, von dem aus man den Chat mit dem
00:08:12jeweiligen Hund starten konnte.
00:08:14Das ist schon ein großer Sprung im Vergleich zu Qwen und Grok.
00:08:18Aber verglichen mit den Modellen, die ihr gleich noch sehen werdet, war das Ergebnis
00:08:22immer noch unterdurchschnittlich.
00:08:25Deshalb landet Kimi auf einem der hinteren Plätze.
00:08:29Weiter geht es mit Gemini 3 Pro.
00:08:31Hier wird es interessant, denn ich erhielt völlig unterschiedliche Ergebnisse, je nachdem,
00:08:36ob ich das Modell über das eigene CLI oder den Xcode-Assistenten nutzte.
00:08:41Schauen wir uns zuerst das Ergebnis des Gemini-CLI an.
00:08:45Dort steht, dass sich das Modell im CLI noch im Preview-Modus befindet.
00:08:49Vielleicht war das das Hauptproblem.
00:08:50Denn auch hier gab es am Ende keine Projektdatei, obwohl ich denselben Prompt
00:08:55wie bei allen anderen Modellen verwendet habe.
00:08:59Um eine Xcode-Projektdatei zu erstellen, muss man zuerst eine YAML-Datei mit den
00:09:04Details erstellen und dann den CodeGen-Befehl nutzen.
00:09:09Einige Modelle weigern sich jedoch oder wissen nicht, wie das geht.
00:09:14Nachdem ich Gemini jedoch explizit dazu aufforderte, erstellte es die Datei.
00:09:18Ich musste nur noch die Erlaubnis geben, den CodeGen-Befehl auszuführen.
00:09:22Nach dem Öffnen gab es einen Asset-Fehler,
00:09:25den Gemini aber schnell beheben konnte.
00:09:28Danach ließ sich die App endlich kompilieren.
00:09:31Aber das Ergebnis war überraschend schlecht.
00:09:35Es war völlig fehlerhaft.
00:09:37Das Match-System funktionierte nicht und alles war voller Bugs.
00:09:41An diesem Punkt wollte ich Gemini eigentlich schon eine schlechte Note geben.
00:09:45Aus Neugier gab ich ihm aber eine zweite Chance und wiederholte den Test
00:09:50mit dem nativen Xcode-Assistenten und Gemini 3 Pro über OpenRouter.
00:09:56Und siehe da: Diesmal klappte es auf Anhieb perfekt.
00:10:01Und nicht nur das – die App war fantastisch.
00:10:04Das Design war super,
00:10:06die Funktionalität gegeben.
00:10:08Es wurde sogar ein nettes kleines Logo hinzugefügt.
00:10:10An dieser Version der App gab es absolut nichts auszusetzen.
00:10:14Ich bin ehrlich gesagt verblüfft, wie derselbe Prompt beim selben Modell über
00:10:20verschiedene Tools zwei so unterschiedliche Ergebnisse liefern konnte.
00:10:24Dennoch war ich von der Version, die Gemini über das Xcode-Tool lieferte,
00:10:29sehr beeindruckt – und das beim ersten Versuch.
00:10:32Deshalb steht Gemini weiter oben auf der Liste, weil das Endergebnis
00:10:37wirklich großartig war.
00:10:38Weiter geht es mit GPT 5.3 Codecs.
00:10:43Da OpenAI eine eigene Codecs-App hat, habe ich den Test direkt darin durchgeführt.
00:10:49Im Gegensatz zu den bisherigen Modellen konnte GPT 5.3 tatsächlich beim ersten
00:10:55Versuch ein funktionierendes Produkt liefern.
00:10:58Das ist bereits ein großer Fortschritt.
00:11:00Allerdings war die App selbst nicht besonders aufregend.
00:11:03Sie hatte ein sehr eintöniges blaues Farbschema.
00:11:06Das größte Problem war, dass die Bildbreite nicht in den Rahmen der App passte.
00:11:13Bei einigen Hunden war der Container so verzerrt, dass er über den Rand der
00:11:18App hinausging.
00:11:20Das ist ein deutlicher Designfehler, den Codecs nicht im Griff hatte.
00:11:25Aber die App an sich war funktional und enthielt alle notwendigen UI-Elemente.
00:11:29Auch der Bereich für Matches und der Chat funktionierten einwandfrei.
00:11:34GPT 5.3 steht so weit oben, weil es das erste Modell war, das das gesamte
00:11:40Swift-Projektpaket ohne Hilfe oder vorheriges Setup in Xcode erstellt hat.
00:11:50Insgesamt solide, aber nicht wirklich begeisternd.
00:11:54Und nun kommen wir zum ersten Platz.
00:11:57Ich gebe euch einen Moment Zeit, um zu raten, welches Modell das sein könnte.
00:12:01Ja, wir wissen wahrscheinlich alle, um welches Modell es sich handelt.
00:12:04Es ist natürlich Opus 4.6, das diese Herausforderung sofort gemeistert hat.
00:12:11Ich nutzte denselben Prompt wie bei den anderen, diesmal über das Claude-Code-CLI,
00:12:17und musste lediglich die erforderlichen Berechtigungen erteilen.
00:12:20Das Modell erledigte alles von selbst, inklusive der Erstellung einer funktionsfähigen
00:12:27Xcode-Projektdatei, ohne dass ich etwas vorbereiten musste.
00:12:29Und die App selbst war einfach wunderschön.
00:12:34Das Design stimmte,
00:12:35die Animationen waren flüssig.
00:12:37Die Matches und das Chat-Fenster funktionierten tadellos.
00:12:41Das einzige, was fehlte, war ein schickeres Logo, wie es Gemini geliefert hatte.
00:12:48Aber ansonsten war dies die optisch ansprechendste Version von allen.
00:12:52Und das Modell schaffte es beim ersten Versuch.
00:12:55Die Leistung von Opus ist im Vergleich zu den anderen Modellen absolut beeindruckend.
00:13:01Es verdient definitiv den ersten Platz auf der Bestenliste.
00:13:05Aber Moment, da ist noch mehr.
00:13:07Hier ist noch ein kleiner Bonus für euch.
00:13:09Es gibt noch ein Modell, das wir uns ansehen müssen und das noch nicht auf der Liste war.
00:13:14Während ich dieses Video drehte, wurde die Version 5 von GLM veröffentlicht.
00:13:18Die Entwickler behaupten kühn, dass dieses Modell beim Coding noch besser abschneidet als Opus 4.6.
00:13:26Das musste ich natürlich mit derselben Swift-Challenge testen.
00:13:31Da GLM kein eigenes CLI-Tool hat, nutzte ich wieder den Xcode-Assistenten via
00:13:37OpenRouter.
00:13:41Zunächst einmal schaffte GLM die Herausforderung nicht beim ersten Versuch.
00:13:45Das zeigt bereits eine schlechtere Leistung als bei Opus 4.6.
00:13:49Zudem brauchte es drei Korrekturrunden, bis die App erfolgreich kompilierte.
00:13:56Schauen wir uns das Ergebnis von GLM 5 an.
00:13:59Für mich sieht das schon nach einer ungenügenden Leistung aus.
00:14:03Es scheint keine Hundebilder laden zu können.
00:14:06Die Swipe-Funktionalität fehlt komplett.
00:14:08Schlimmer noch: Es zeigt nur drei Hunde an und behauptet dann, dass keine Hunde mehr verfügbar seien.
00:14:15Außerdem kann man im Match-Bereich keinen der Hunde anklicken, um den Chat zu öffnen.
00:14:23Dieser Teil ist offensichtlich nicht fertiggestellt.
00:14:25Wo platzieren wir GLM also basierend auf dieser Leistung?
00:14:29Ich fürchte, wir müssen es auf den vorletzten Platz setzen, knapp vor Qwen,
00:14:36da die Leistung inakzeptabel war und nicht annähernd an die anderen Modelle heranreichte.
00:14:42Die Behauptung, GLM 5 sei stärker als Opus 4.6, ist also sehr gewagt.
00:14:47Ich habe das Modell zwar nicht in anderen Bereichen getestet, und vielleicht
00:14:52funktioniert es bei einfachen Web-Projekten genauso gut oder besser als Opus 4.6,
00:14:59aber für Swift-Coding ist es definitiv nicht die richtige Wahl.
00:15:02Was haben wir heute also gelernt?
00:15:04Die KI-Revolution rast zwar voran, aber das Swift-Problem ist für diese Modelle noch sehr real.
00:15:10Opus 4.6 und GPT 5.3 haben gezeigt: Wenn das Modell groß genug und die Logik stark genug ist,
00:15:18können sie den Mangel an Open-Source-Swift-Daten ausgleichen.
00:15:23Aber Modelle wie Qwen und Grok leiden massiv unter der Datenlücke und der API-Drift.
00:15:31Überrascht hat mich auch, wie hilfreich der neue KI-Assistent von Xcode für Swift-Apps ist.
00:15:36Das sah man deutlich am Unterschied zwischen den beiden Gemini-Versionen.
00:15:40iOS-Entwickler sollten also am besten die internen KI-Tools nutzen, um bessere
00:15:46Ergebnisse zu erzielen.
00:15:47Das war's mit unserer Bestenliste.
00:15:51Ich finde, das wirft die Frage auf, ob wir sprachspezifische Modelle brauchen.
00:15:57Denn viele Modelle sind stark auf Web-Apps, JavaScript oder Python fokussiert.
00:16:04Für spezialisierte Lösungen benötigen wir vielleicht maßgeschneiderte Coding-Modelle.
00:16:09Aber was denkt ihr darüber?
00:16:11Lasst es uns unten in den Kommentaren wissen.
00:16:13Wenn euch das Video gefallen hat, zeigt es mir mit einem Klick auf den Like-Button.
00:16:19Und vergesst nicht, unseren Kanal zu abonnieren.
00:16:22Ich bin Andris von Better Stack, wir sehen uns im nächsten Video.

Key Takeaway

Während Claude Opus 4.6 die Swift-Herausforderung souverän meistert, kämpfen die meisten anderen KI-Modelle mit der Datenlücke und den schnellen Entwicklungszyklen im Apple-Ökosystem.

Highlights

Swift-Entwicklung stellt KI-Modelle vor große Herausforderungen durch mangelnde Open-Source-Daten und schnelle API-Änderungen.

Die meisten Modelle sind auf Benchmarks wie HumanEval optimiert

Timeline

Einführung in das Swift-Problem

Der Sprecher erläutert das Kernproblem, warum KI-Modelle bei Swift im Vergleich zu Web-Technologien versagen. Drei Hauptgründe werden identifiziert: die Datenlücke durch privaten Code, die schnelle API-Drift bei SwiftUI und der Fokus von Benchmarks auf Python. Eine wissenschaftliche Studie belegt zudem, dass Swift-Code durchweg schlechter generiert wird als Java oder Python. Dies setzt den Kontext für die nachfolgende Herausforderung, einen Tinder-Klon für Hunde zu bauen. Ziel ist es herauszufinden, welcher Agent die Hürden der iOS-Entwicklung tatsächlich überwinden kann.

Die Test-Challenge: Dogtinder

In diesem Abschnitt wird die spezifische Aufgabe vorgestellt, der sich sieben KI-Agenten stellen müssen. Es soll eine App namens "Dogtinder" entwickelt werden, die die Dog-CEO-API nutzt, um Hundebilder anzuzeigen. Die App erfordert komplexe Funktionen wie native Swipe-Animationen, ein Match-System und ein funktionales Chat-Interface. Dieser Test ist so konzipiert, dass er sowohl die Logik als auch die UI-Fähigkeiten der Modelle in Swift prüft. Es dient als Benchmark, um die Werbeversprechen der KI-Anbieter in einer realen Entwicklungsumgebung zu validieren.

Das Versagen von Qwen und Grok

Qwen 2.5 Coder belegt den letzten Platz, da es keine öffnungsfähige Projektdatei erstellen konnte und selbst nach manueller Hilfe in Xcode nur eine fehlerhafte App ohne Bilder lieferte. Grok von xAI schnitt kaum besser ab, lieferte jedoch zumindest eine funktionale Chat-Logik, trotz eines extrem langweiligen Designs. Beide Modelle scheiterten daran, ein vollständiges Projektpaket autonom zu erstellen, und mussten über den Xcode-KI-Assistenten gestützt werden. Dies verdeutlicht, dass viele Open-Source- oder webfokussierte Modelle für die spezialisierte iOS-Entwicklung noch nicht bereit sind. Der Sprecher zeigt sich enttäuscht über die primitive Benutzeroberfläche und die zahlreichen Bugs.

Mittelmaß: Kimi und Gemini 3 Pro

Kimi K2.5 zeigte einen Fortschritt mit echten Tinder-ähnlichen UI-Elementen, kämpfte aber mit ungenauen Animationen und Fehlern bei der Dateierstellung. Besonders interessant war der Test von Gemini 3 Pro, der über das CLI völlig versagte, aber über den nativen Xcode-Assistenten ein fast perfektes Ergebnis lieferte. Gemini fügte sogar eigenständig ein Logo hinzu und überzeugte durch ein sauberes Design beim ersten Versuch innerhalb der IDE. Dieser Kontrast unterstreicht die Bedeutung der Tool-Integration für die Qualität der Code-Generierung. Trotz der CLI-Probleme sicherte sich Gemini aufgrund der starken Xcode-Performance eine hohe Platzierung.

Die Spitzenreiter: GPT 5.3 und Opus 4.6

GPT 5.3 Codecs war das erste Modell im Test, das autonom ein funktionierendes Projektpaket ohne externe Hilfe erstellte, wies jedoch Schwächen bei der Bildskalierung auf. Der unangefochtene Sieger ist jedoch Claude Opus 4.6, das über das Claude-Code-CLI ein wunderschönes Design mit flüssigen Animationen und fehlerfreier Logik ablieferte. Opus bewältigte die gesamte Aufgabe im ersten Durchgang, was seine Überlegenheit in komplexen Codierungsaufgaben demonstriert. Der Sprecher hebt hervor, dass die visuelle Qualität und die technische Stabilität von Opus weit über dem Niveau der Konkurrenz liegen. Dies macht Opus zur derzeit besten Wahl für Swift-Entwickler, die KI-Unterstützung suchen.

Bonus-Test GLM 5 und Fazit

Zum Abschluss wird das neu erschienene GLM 5 getestet, das trotz großer Versprechen kläglich scheiterte und keine Bilder oder Swipe-Funktionen lieferte. Der Sprecher ordnet GLM 5 auf dem vorletzten Platz ein und widerlegt damit die Behauptung, es sei stärker als Opus 4.6. Das Video schließt mit der Erkenntnis ab, dass die Datenlücke bei Swift ein massives Hindernis bleibt, das nur von den leistungsstärksten Modellen überbrückt wird. Es wird die Frage aufgeworfen, ob in Zukunft sprachspezifische Modelle für Mobile-Entwicklung notwendig sein werden. Der Sprecher empfiehlt iOS-Entwicklern, vorerst auf integrierte Tools und High-End-Modelle wie Opus zu setzen.

Community Posts

View all posts