7つのAIエージェントに同じSwift開発課題を与えた結果が悲惨すぎた！

日本語العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 한국어 Português Русский 中文

컴퓨터/소프트웨어스마트폰/모바일AI/미래기술

Transcript

00:00:00ほとんどのAIコーディングモデルには、大きな弱点があります。それは、Swiftをまともに扱えないことです。

00:00:06エージェントがWebアプリやJavaScriptツールを数秒で構築する派手なデモは、誰もが目にしてきましたが、

00:00:11ことSwiftのコードとなると、途端にボロが出てしまいます。

00:00:16なぜ世界最高峰のモデルが、iOS開発でこれほど苦戦するのでしょうか？

00:00:22今日の動画では、その理由を解き明かしていきます。

00:00:25今回はトップクラスのコーディングエージェントに、同じSwiftアプリ開発の課題を与え、

00:00:30実際にこのタスクをこなせるのはどのモデルか、あるいはどれが「Web開発専門の代わり映えしないモデル」なのかを

00:00:35見極めていきたいと思います。

00:00:36少しネタバレをすると、あるモデルはこのテストを完璧にクリアしました。

00:00:40それがどのモデルかは、動画の後半でご紹介します。

00:00:43面白い結果になっていますので、さっそく見ていきましょう。

00:00:50まずは、根本的な問題について考えてみましょう。

00:00:52なぜAIコーディングモデルはSwift開発が苦手なのでしょうか？

00:00:56これは私個人の感想だけではありません。

00:00:59Python、Java、Swiftを対象にした「コード生成用大規模言語モデルの比較評価」という研究によれば、

00:01:05GPTやClaudeを含むすべてのテスト済みモデルにおいて、

00:01:12SwiftのパフォーマンスはPythonやJavaよりも一貫して低いことが判明しました。

00:01:17その理由は、AIがAppleのエコシステムに触れる際に直面する、主に3つのボトルネックに集約されます。

00:01:221つ目は「データの格差」です。

00:01:24Web上にはJavaScriptやPythonのオープンソースコードが溢れていますが、

00:01:25プロフェッショナルなSwiftコードの大部分は、非公開リポジトリや商用リポジトリの中に隠されています。

00:01:312つ目は「APIの変遷（APIドリフト）」です。

00:01:36Appleは変化が速く、既存の仕組みを刷新することで有名です。

00:01:38SwiftUIやSwiftの並行処理モデルは、ここ3年で、一部のWeb標準が10年かけて変わる以上の進化を遂げました。

00:01:42多くのAIモデルには知識のカットオフがあるため、

00:01:47最新版のXcodeではもはや動作しない古いルールでSwiftを書こうとしてしまうのです。

00:01:49そして最後は「ベンチマークの偏り」です。

00:01:54今日テストするQwenやGrokのようなモデルの多くは、特定のテストに最適化されています。

00:01:59彼らはHumanEvalのような、ほぼPythonやWebベースのロジックに特化した巨大なベンチマークに合格するよう訓練されています。

00:02:02複雑なiOSのUIに関する主要なベンチマークが少ないため、

00:02:08実用的なアプリを構築する能力が、そもそも評価対象になっていないのです。

00:02:13そこで今回は、人気の高いAIコーディングモデルをいくつか選び、

00:02:16すべてに全く同じプロンプトを与えてみました。

00:02:21課題は、Swiftを使った「Dogtinder」というシンプルなTinder風クローンアプリの構築です。

00:02:25Dog CEO APIを利用して様々な犬を表示し、

00:02:30左右にスワイプして好みの犬を選び、マッチングが成立したら、

00:02:32チャット画面でその犬とおかしなメッセージをやり取りできる、というものです。

00:02:38エージェントが完成させるには十分シンプルかつ可愛らしい題材ですが、

00:02:43ネイティブSwiftでのスワイプアニメーションの実装など、興味深い挑戦も含まれています。

00:02:47テストの結果は、成績の悪かった順に紹介していきます。

00:02:52残念ながら最下位となったのは、新しい「Qwen 3 Coder Next」モデルです。

00:02:58Qwenはこの新モデルを、KimiやClaudeといった有力モデルに対抗する、

00:03:03小型ながら高性能なオープンソースの選択肢としてアピールしてきました。

00:03:07Webアプリではそうかもしれませんが、今回のSwiftチャレンジに関しては通用しませんでした。

00:03:09テストでは可能な限り、各モデルが提供している独自のCLIツールを使用するようにしており、

00:03:15今回はQwen CLIを使って検証を行いました。

00:03:20コード生成が終わった後、Qwenが作成したプロジェクトファイルを開くことすらできませんでした。

00:03:25そこで、ファイルを開く際に出たエラーを修正するよう指示しましたが、

00:03:32それでもQwenは修正できず、代わりにプロジェクトを一から自分で構築し、

00:03:37ファイルをプロジェクトフォルダにコピーする方法を記した長いREADMEファイルを出してきました。

00:03:42手動で作業してはチャレンジの意味がありません。

00:03:46後ほどお見せしますが、いくつかのモデルは、一発で正常に開けるプロジェクト構成を

00:03:48出力するのに非常に苦労していました。

00:03:53そこで今回のQwenのようなケースでは、より簡単な条件を与えることにしました。

00:03:58Xcodeで手動で新しいiOSアプリプロジェクトを作成し、

00:04:03最新バージョンのXcodeに搭載された新しいコーディング・インテリジェンス機能を試すことにしたのです。

00:04:08Xcodeに独自のAIアシスタント機能がついたのは、非常に素晴らしいことです。

00:04:09OpenRouterのアカウントと連携させ、ドロップダウンからQwen 3 Coder Nextを選択し、

00:04:14再度チャレンジしました。

00:04:19これほど手助けをしても、Qwenは一発で成功させることはできませんでした。

00:04:20Swiftのモデル（データ構造）を正確にセットアップする段階で、いくつかの問題が発生したためです。

00:04:26新しいAIアシスタント機能では、こうした問題をハイライトして、

00:04:31選択したすべての箇所の修正を一度に指示することができます。

00:04:37数ラウンドの修正プロンプトを経て、ようやくDogtinderアプリが動き始めましたが、

00:04:38正直なところ、結果はかなりひどいものでした。

00:04:43Dog CEO APIから画像を読み込むことすらできず、UIも非常に原始的で、

00:04:49ワクワクするような要素は一切ありません。

00:04:52さらにマッチングセクションにもバグがあり、マッチした犬が一人も表示されませんでした。

00:04:57残念ながら、QwenはXcodeアプリチャレンジに完全に失敗したと言えます。

00:05:02続いてワースト2位は、Grokの「Grok Code Fast」モデルです。

00:05:07こちらはVS CodeのVS Copilot拡張機能を通じて試しましたが、

00:05:12やはりGrokも、完全なSwiftプロジェクトに必要なすべてのファイルを生成することができませんでした。

00:05:16代わりに、ファイルを手動でコピーする方法を指示されるだけでした。

00:05:23そのため、再びXcodeのAIアシスタントに戻り、OpenRouter経由でGrokを呼び出すことにしました。

00:05:29Grokもいくつか問題に直面したため、残ったエラーを修正するために2回プロンプトを送る必要がありました。

00:05:32それでも最終的には、アプリを完成させることができました。

00:05:36一目見てわかる通り、デザインに関しては散々な出来でした。

00:05:37全く魅力のないデザインで、マッチした相手を確認するセクションすらありませんでした。

00:05:42Qwenより上位に置いた唯一の理由は、機能面ではチャット機能を含めて一通り動作していたからです。

00:05:48とはいえ、低レベルなパフォーマンスという点では両者とも僅差です。

00:05:53見た目も機能も全く魅力に欠けるアプリでした。

00:05:59Grokが失敗したとは言いませんが、合格点としては最低ラインです。

00:06:02次にランクインしたのは、Kimiの最新モデル「Kimi K2.5」です。

00:06:06KimiもQwenと同様の問題があり、ネイティブCLIでプロジェクトファイルは生成されたものの、

00:06:12それを開くことができませんでした。

00:06:14CLI経由で修正を試みても解決しなかったため、

00:06:19Kimiのテストでも、OpenRouter経由でXcodeのAIアシスタントを使用しました。

00:06:20Kimiのパフォーマンスも、一発で課題をクリアできなかったという点ではQwenやGrokと同様でした。

00:06:23残った問題を修正するために、再度プロンプトを送る必要がありました。

00:06:27ただ、1回修正を指示しただけで、最終的な結果を出すことができました。

00:06:32このバージョンは、ようやく「Tinder風アプリ」に見える出来栄えで、QwenやGrokからは一歩前進しています。

00:06:33左右のスワイプアニメーションに加え、「Like」や「Nope」のステッカーが表示され、

00:06:38マッチング時には派手なポップアップまで現れます。

00:06:44ただ、アニメーションは非常に不安定でバグも多かったです。

00:06:48画像が画面外に飛んでいってしまい、見えなくなることもありました。

00:06:51しかし、少なくともKimiはマッチング情報を適切に保存できていました。

00:06:57マッチした相手の一覧を確認し、個別の犬とチャットを始めるセクションも存在しました。

00:06:58QwenやGrokに比べれば大きな進歩です。

00:07:04とはいえ、この後にお見せする他の事例と比較すると、やはり及第点以下と言わざるを得ません。

00:07:08そのため、Kimiはこの順位に留まりました。

00:07:11続いては、Gemini 3 Proです。

00:07:15このモデルは興味深い結果になりました。独自のCLIでテストした場合と、

00:07:20XcodeのAIアシスタントでテストした場合で、結果が全く異なったのです。

00:07:23まずはGemini CLIでの結果を見てみましょう。

00:07:29CLI上では「プレビューモード」であると表示されていたので、それが原因かもしれません。

00:07:31他のモデルと同じプロンプトを与えましたが、最後までプロジェクトファイルを出力できませんでした。

00:07:34Xcodeプロジェクトを作成するには、まず詳細を記したYAMLファイルを作成し、

00:07:39CodeGen CLIコマンドを実行する必要があります。

00:07:44しかし、一部のモデルはそれを拒否したり、やり方を知らなかったりします。

00:07:47それでもファイルを明示的に作成するよう指示したところ、Geminiはそれに応じました。

00:07:53私はただ、CodeGenコマンドの実行権限を与えるだけで済みました。

00:07:57プロジェクトを開くとアセットのエラーが出ましたが、Geminiはすぐに修正してくれました。

00:08:00解決後、ようやくアプリがコンパイルされました。

00:08:05しかし、その出来は驚くほどひどいものでした。

00:08:08完全に壊れていました。マッチングシステムは正常に動かず、バグだらけでした。

00:08:12この時点で、Geminiには不合格を出そうと思っていました。

00:08:14しかし、好奇心からもう一度チャンスを与え、OpenRouter経由で

00:08:18Xcode標準のAIアシスタントを使ってGemini 3 Proを走らせてみました。

00:08:22すると今度は、一発で正解を叩き出したのです。

00:08:25それだけでなく、アプリのクオリティも驚くほど高かったです。

00:08:29デザインは素晴らしく、機能も完璧でした。

00:08:31さらに、上部には素敵なロゴまで追加されていました。

00:08:36正直、このバージョンのアプリには非の打ち所がありません。

00:08:41同じプロンプト、同じモデルなのに、使うツールによってこれほど極端に結果が変わる理由は謎です。

00:08:45とはいえ、Xcodeのツール経由で、しかも一発で出してきた結果には非常に感銘を受けました。

00:08:49最終的な成果物が素晴らしかったため、Geminiを上位にランク付けしました。

00:08:50さて、続いてのランクインは GPT 5.3 Codecs です。

00:08:55OpenAIは独自のCodecsアプリを提供しているため、そのアプリを使って検証を行いました。

00:08:59これまでのモデルとは異なり、GPT 5.3は一発で動作する製品を完成させることができました。

00:09:04これは大きな進歩です。

00:09:09ただ、アプリ自体にそれほどワクワク感はありませんでした。

00:09:14単調なブルーのカラーテーマで構成されていました。

00:09:18一番気になったのは、画像の幅をアプリのフレーム内に収められなかったことです。

00:09:22犬によっては画像が横に引き伸ばされ、アプリの枠をはみ出して表示されてしまいました。

00:09:25これはCodecsが適切に処理できなかった大きなデザインミスです。

00:09:28とはいえ、アプリ自体は機能しており、必要なUI要素もすべて揃っていました。

00:09:31マッチングセクションも正常に動作し、犬たちとチャットすることもできました。

00:09:35GPT 5.3をこれほど上位にした理由は、

00:09:37事前のプロジェクト設定や手助けなしに、完全なSwiftプロジェクト一式を生成できた最初のモデルだからです。

00:09:41全体として、悪くはないものの、特別秀でているわけでもありませんでした。

00:09:45それでは、ついにリーダーボードの第1位の発表です。

00:09:50どのモデルか、皆さんも予想がついているのではないでしょうか。

00:09:56そうです。正解は「Opus 4.6」です。このチャレンジを最初から完璧にこなしました。

00:10:01他のモデルと同じプロンプトを、彼ら独自のClaude Code CLIツールで実行し、

00:10:04必要な権限を許可するだけで済みました。

00:10:06モデルは事前の設定なしに、完全に機能するXcodeプロジェクトファイルを自力ですべて作成しました。

00:10:08さらに、アプリ自体の仕上がりも非常に美しいものでした。

00:10:10デザインは洗練され、アニメーションも滑らかで流れるようです。

00:10:14マッチングセクションも、チャットウィンドウも正確に動作しました。

00:10:20Geminiが作ったような凝ったロゴこそありませんでしたが、

00:10:24それ以外は、全モデルの中で最も見栄えの良いバージョンでした。

00:10:29これを一発で作り上げたのです。

00:10:32Opusのパフォーマンスは他のモデルと比べても圧倒的であり、

00:10:37文句なしにリーダーボードの第1位にふさわしい結果でした。

00:10:38ですが、話はこれで終わりではありません。

00:10:43ちょっとしたボーナスがあります。

00:10:48まだリーダーボードに載せていないモデルが、もう一つ残っています。

00:10:49この動画の編集中に、GLMが最新のバージョン5をリリースしたという発表がありました。

00:10:55彼らは大胆にも、このモデルがコーディングにおいてOpus 4.6を上回るスコアを出したと主張しています。

00:10:58当然、同じSwiftチャレンジでテストしないわけにはいきません。

00:11:00GLMには独自のCLIツールがないため、再びOpenRouter経由でXcodeのAIアシスタントに接続し、

00:11:03GLM 5を使用しました。

00:11:06まず、GLMはこの課題を一発でクリアできませんでした。

00:11:11この時点で、すでにOpus 4.6より劣っていることがわかります。

00:11:13さらに、最終的にコンパイルを成功させるまでに、3回ものバグ修正を繰り返す必要がありました。

00:11:18それでは、GLM 5の最終結果を見てみましょう。

00:11:20ご覧の通り、これは不合格と言わざるを得ない出来です。

00:11:25犬の画像が全く読み込まれていないようです。

00:11:29スワイプ機能も実装されていません。

00:11:34さらにひどいことに、3匹の犬を表示しただけで「もう犬はいません」というメッセージが出てしまいます。

00:11:40加えてマッチングセクションでは、どの相手をクリックしてもチャット画面が開きません。

00:11:46この部分は明らかに未完成です。

00:11:50この結果を受けて、GLMをどこにランク付けすべきでしょうか？

00:11:53残念ながら、Qwenのすぐ上のワースト2位という評価になります。

00:11:54他のモデルと比較しても許容できるレベルではなく、到底良いとは言えませんでした。

00:11:57GLM 5がOpus 4.6より強力だというのは、かなり強気な主張だったようです。

00:12:01他のコーディングタスクを試したわけではないので、

00:12:04シンプルなWeb開発プロジェクトなどでは、Opus 4.6と同等か、それ以上の力を発揮するのかもしれません。

00:12:11しかし、Swiftのコーディングに関しては、決して優れたモデルとは言えません。

00:12:17さて、今回の検証で何が分かったでしょうか？

00:12:20AI革命が光の速さで進んでいる一方で、Swiftへの対応という課題は依然として存在します。

00:12:27Opus 4.6やGPT 5.3は、モデルが十分に大きく推論能力が高ければ、

00:12:29オープンソースのSwiftコードが不足していても克服できることを証明しました。

00:12:34しかし、QwenやGrokのようなモデルにとっては、データの欠如とAPIの激しい変化が大きな壁となっています。

00:12:35また、Xcodeの新しいAIアシスタント機能がSwiftアプリ開発に非常に役立つことも驚きでした。

00:12:37Geminiの2つのバージョンの差を見れば、その効果は一目瞭然です。

00:12:41iOSデベロッパーの方は、より良い結果を得るためにXcode内部のAIツールを活用するのが賢明でしょう。

00:12:46以上、リーダーボードの解説でした。

00:12:48今回の結果は、言語特化型のモデルが必要なのではないかという、より広い議論を呼ぶものだと思います。

00:12:52現状の多くのモデルは、WebアプリやJavaScript、Pythonプロジェクトに大きく偏っています。

00:12:55特定の専門的なコーディングソリューションには、専用のカスタムモデルが必要になるかもしれません。

00:13:01皆さんはどう思われますか？

00:13:05ぜひ下のコメント欄で教えてください。

00:13:07もしこの動画が気に入っていただけたら、高評価ボタンをぜひ押してください。

00:13:09チャンネル登録もお忘れなく。

00:13:13Better StackのAndrisがお届けしました。また次の動画でお会いしましょう。

00:13:14You see, while I was making this video, there was an announcement that GLM just released

00:13:18their latest model version five, and they are bold enough to claim that this model scores

00:13:23even higher in coding than Opus 4.6.

00:13:26So obviously I had to test it out on the same Swift challenge.

00:13:31And since GLM does not have their own CLI tool, I once again used Xcode's AI assistant tool

00:13:37by hooking it up to open router and using GLM five from there.

00:13:41And first of all, GLM did not complete this challenge on the first try.

00:13:45So that already shows a worse performance than Opus 4.6.

00:13:49But secondly, I had to go through three rounds of bug fixes to finally get it to compile successfully.

00:13:56So let's see what the final result is for GLM five.

00:13:59As you can see, it already looks like a failing grade to me.

00:14:03It cannot seem to load up any of the dog images.

00:14:06It does not have the swipe functionality.

00:14:08And what's even worse, it only cycles through three dogs and then shows a message that there

00:14:13are no more dogs available.

00:14:15And furthermore, if we go to the matches section, it cannot click on any of the matches to open

00:14:20the chat interface with any of the dogs.

00:14:23So this section is clearly not finished.

00:14:25So judging by this result, where do we put GLM based on this performance?

00:14:29Well, I'm afraid we have to put it in this second to last place just above Quinn because

00:14:36this performance was just not acceptable and not nearly as good as any of the other models.

00:14:42So stating the GLM five is stronger than Opus 4.6 is a pretty bold claim.

00:14:47Now, I haven't tested this model on any other coding tasks, and it might just be the case

00:14:52that maybe for simpler web dev projects, it works just as well or maybe even better than

00:14:57Opus 4.6.

00:14:59But this is definitely not a good model for coding in Swift.

00:15:02So what did we learn today?

00:15:04Clearly while the AI revolution is moving at light speed, the Swift problem for these models

00:15:10is still very real Opus 4.6 and GPT 5.3 proved that if the model is large enough and the reasoning

00:15:18is strong enough, they can overcome the lack of open source Swift code data.

00:15:23But for models like Quinn and Grok, the data gap and API drift we talked about earlier are

00:15:29clearly hitting them hard.

00:15:31And I was also surprised how helpful Xcode's new AI assistant actually is for Swift apps.

00:15:36We could clearly see this in the difference between the two Gemini app versions.

00:15:40So if you're an iOS developer, it's probably helpful to use their internal AI tooling to

00:15:46get better results.

00:15:47So there you have it folks, I hope you enjoyed this leaderboard breakdown.

00:15:51I think this opens up a wider conversation about the fact that maybe we should start having

00:15:55language specific models.

00:15:57Because clearly a lot of these models are more heavily biased towards web apps, JavaScript

00:16:03or Python projects.

00:16:04But for some bespoke coding solutions, we might need some custom coding models.

00:16:09But what is your take on all of this?

00:16:11Let us know in the comment section down below.

00:16:13And folks, if you enjoyed this video, please let me know by smashing that like button underneath

00:16:18the video.

00:16:19And also don't forget to subscribe to our channel.

00:16:22This has been Andris from better stack and I will see you in the next videos.

Key Takeaway

Swift開発においてAIモデルは依然として苦戦しているが、Opus 4.6のような強力な推論能力を持つモデルや、Xcodeに最適化されたAIツールを活用することで、実用的なアプリ構築が可能であることが示された。

Highlights

AIコーディングモデルはPythonやJavaに比べ、Swiftの生成能力が著しく低いという研究結果がある

Swift開発が苦手な主な理由は、非公開リポジトリによる「データの格差」、Appleの急速な「APIの変遷」、ベンチマークの「Web偏重」の3点である

テストされた7つのモデルのうち、Opus 4.6が唯一、事前の設定なしに一発で完璧なプロジェクトを生成した

GPT 5.3 Codecsも高い完遂能力を見せたが、画像のレイアウト処理などのデザイン面で課題が残った

Gemini 3 Proは、独自のCLIとXcode標準のAIアシスタント経由で結果が劇的に変わるという興味深い特性を示した

最新のGLM 5はOpus 4.6を凌駕すると主張していたが、Swift開発においてはバグが多く最下位クラスの結果となった

Timeline

AIがSwiftコーディングを苦手とする3つの理由

多くのAIコーディングモデルがJavaScriptやPythonでは華々しいデモを見せる一方で、Swiftでは途端にパフォーマンスが低下する現状を指摘しています。その背景には、高品質なSwiftコードが非公開リポジトリに多く存在する「データの格差」、Appleによる頻繁な仕様変更に伴う「APIドリフト」、そして既存のベンチマークがWeb開発に偏っているという3つの構造的な問題があります。最新の研究でも、GPTやClaudeを含む主要モデルのSwift生成能力は他言語より一貫して低いことが証明されています。このセクションでは、なぜ開発者がAIを使ってiOSアプリを作る際に壁にぶつかるのか、その根本的な原因を論理的に解説しています。

検証環境と「Dogtinder」開発チャレンジの概要

今回の検証では、人気のAIエージェントに「Dogtinder」というTinder風のクローンアプリをSwiftで構築させる共通の課題を与えています。このアプリには、Dog CEO APIからの画像取得、スワイプアニメーションの実装、マッチング後のチャット機能など、iOS開発における基本的ながらも重要な要素が含まれています。各モデルの実力を公平に測るため、可能な限りモデル独自のCLIツールを使用し、自力でプロジェクトを構成できるかをテストの主眼に置いています。単なるコード断片の生成ではなく、実際に動作するXcodeプロジェクトを完遂できるかどうかが評価の分かれ目となります。

下位モデルの苦戦：Qwen、Grok、Kimiの検証結果

Qwen 3 Coder Next、Grok Code Fast、Kimi K2.5といったモデルが次々とテストされますが、いずれもプロジェクトファイルの生成やコンパイルに失敗し、厳しい結果となりました。特に最下位のQwenはAPIの読み込みすらできず、UIも極めて原始的で実用レベルには程遠い内容でした。GrokやKimiはXcodeのAIアシスタント経由でなんとか動作に漕ぎ着けましたが、アニメーションのバグやデザインの欠如が目立ちました。これらのモデルにとって、Swiftのエコシステムに対応することは依然として非常に高いハードルであることが浮き彫りになっています。

Gemini 3 ProとGPT 5.3の意外な健闘と課題

Gemini 3 Proは、独自のCLIでは壊れたコードを出力したものの、Xcode標準のAIアシスタントを使用すると一発で完璧に近いアプリを生成するという、ツールによる極端な性能差を見せました。一方、GPT 5.3 Codecsは外部の補助なしに一発で動作するプロジェクトを完遂した最初のモデルとなり、その高い自律性を証明しました。しかし、GPTには画像のサイズ調整が適切にできないといったデザイン上のミスも見受けられ、機能とUIのバランスに課題が残りました。このセクションは、同じモデルであっても使用するインターフェースや設定によって、開発効率が劇的に変わることを示唆しています。

頂点に立つOpus 4.6と期待外れのGLM 5

今回のリーダーボードで圧倒的な1位に輝いたのはClaude 4.6 Opusであり、CLI経由で一発かつ完璧なデザインと機能を備えたプロジェクトを構築しました。対照的に、リリース直後でOpus超えを謳っていたGLM 5は、3回の修正プロンプトを要した挙句、画像が表示されないなどの未完成な状態で終わるという悲惨な結果となりました。GLM 5の主張とは裏腹に、少なくともSwiftのコーディングにおいてはOpus 4.6の推論能力が他を圧倒していることが明確に示されました。ベンチマークスコアだけでは測れない、実際の開発現場における「使い勝手」の差が如実に現れた結果と言えます。

総評：iOS開発におけるAI活用の未来とアドバイス

検証のまとめとして、AI革命が進む中でもSwift特有の課題は依然として大きく、汎用モデルには限界がある可能性を指摘しています。モデルのサイズと推論能力が十分に高ければデータの不足を克服できることがOpusやGPTによって証明されましたが、中堅モデルには専用の学習データが必要かもしれません。また、iOSデベロッパーに対しては、汎用チャットツールよりもXcode内部に統合されたAIツールを利用する方が、言語特有のバグを回避しやすいという実戦的なアドバイスを送っています。最後は、将来的に特定のプログラミング言語に特化したカスタムモデルの必要性について問いかけ、動画を締めくくっています。

Community Posts

iOSエンジニアが知っておくべきAIコーディングモデル選択ガイド：Claude 4.6 vs GPT 5.3

makedream2026년 2월 14일3730

Write about this video