Saya Memberi 7 Agen AI Tantangan Swift yang Sama. Hasilnya SADIS!

BBetter Stack
Computing/SoftwareCell PhonesInternet Technology

Transcript

00:00:00Kebanyakan model coding AI punya satu masalah besar - mereka tidak bisa menangani Swift.
00:00:06Kita semua sudah melihat demo keren agen AI membangun aplikasi web dan alat JavaScript dalam hitungan detik,
00:00:11tapi begitu Anda meminta mereka menyentuh kode Swift, semuanya langsung berantakan.
00:00:16Nah, mengapa model terpintar di dunia gagal dalam pengembangan iOS?
00:00:22Jadi itulah yang akan kita cari tahu dalam video hari ini.
00:00:25Hari ini saya menguji agen coding papan atas dengan tantangan coding aplikasi Swift yang sama untuk melihat
00:00:30model mana yang benar-benar bisa menangani tugas ini dan mana yang hanya jago di pengembangan web saja.
00:00:36Saya beri bocoran sedikit - salah satu model ini benar-benar lulus tes dengan sempurna.
00:00:40Yang mana itu, Anda akan melihatnya nanti di video ini.
00:00:43Ini akan sangat seru, jadi mari kita mulai.
00:00:50Pertama-tama, mari kita bahas masalah utamanya.
00:00:52Mengapa model coding AI buruk dalam pengembangan Swift?
00:00:56Dan biar jelas, ini bukan sekadar pengamatan saya.
00:00:59Sebuah studi berjudul “Evaluating Large Language Models for Code Generation - A Comparative Study”
00:01:05pada Python, Java, dan Swift menemukan bahwa di semua model yang diuji, termasuk GPT dan Claude,
00:01:12performa di Swift secara konsisten lebih rendah daripada di Python atau Java.
00:01:17Dan alasannya bermuara pada tiga hambatan utama yang secara efektif menyulitkan AI saat menyentuh
00:01:22ekosistem Apple.
00:01:24Pertama, ada kesenjangan data.
00:01:25Meskipun web dibanjiri dengan kode JavaScript dan Python sumber terbuka, sebagian besar kode Swift profesional
00:01:31tersimpan rapat di repositori privat atau komersial.
00:01:36Kedua, kita punya pergeseran API.
00:01:38Apple terkenal cepat melakukan perubahan yang mematahkan sistem lama.
00:01:42Model konkurensi SwiftUI dan Swift telah berubah lebih banyak dalam tiga tahun terakhir dibanding
00:01:47beberapa standar web dalam satu dekade.
00:01:49Dan karena kebanyakan model AI memiliki batas pengetahuan, mereka sering mencoba menulis kode Swift
00:01:54menggunakan aturan lama yang sudah tidak berfungsi di versi Xcode terbaru.
00:01:59Dan terakhir, ada bias pembandingan.
00:02:02Kebanyakan model AI yang kita uji hari ini seperti Qwen atau Grok dilatih untuk tes spesifik.
00:02:08Mereka dioptimalkan untuk lulus benchmark besar seperti HumanEval yang hampir seluruhnya fokus
00:02:13pada Python dan logika berbasis web.
00:02:16Karena tidak banyak benchmark utama untuk UI iOS yang kompleks, model-model ini belum
00:02:21dinilai berdasarkan kemampuan mereka membangun aplikasi yang fungsional.
00:02:25Jadi saya memilih beberapa model coding AI paling populer di luar sana dan memberi masing-masing
00:02:30instruksi yang sama persis.
00:02:32Saya menugaskan mereka membangun klon aplikasi mirip Tinder sederhana menggunakan Swift bernama Dogtinder,
00:02:38di mana Anda ditampilkan berbagai anjing menggunakan API Dog CEO.
00:02:43Anda bisa geser ke kiri atau kanan untuk memilih anjing yang disukai dan jika cocok (match),
00:02:47Anda bisa membuka antarmuka obrolan untuk bertukar pesan lucu dengan anjing tersebut.
00:02:52Ini seharusnya cukup lucu dan sederhana untuk diselesaikan oleh agen AI, tapi juga melibatkan
00:02:58tantangan menarik seperti membangun fungsi animasi geser di Swift asli.
00:03:03Untuk pengujiannya sendiri, kita akan mulai dari penampil terburuk sampai
00:03:07yang terbaik.
00:03:09Di posisi terburuk, sayangnya kita punya model Qwen 3 Coder Next yang baru.
00:03:15Qwen telah mengiklankan model baru ini sebagai alternatif sumber terbuka untuk raksasa
00:03:20seperti Kimi atau Claude dengan ukuran model lebih kecil tapi performa lebih tinggi.
00:03:25Meskipun itu mungkin benar untuk aplikasi web, sayangnya tidak terbukti untuk tantangan Swift ini.
00:03:32Jika memungkinkan, saya mencoba menggunakan alat CLI mereka sendiri yang tersedia untuk model tersebut
00:03:37dan dalam kasus ini, saya menggunakan alat Qwen CLI untuk melakukan tantangan ini.
00:03:42Dan setelah selesai menghasilkan kode, saya tidak bisa membuka file proyek yang
00:03:46dihasilkan Qwen.
00:03:48Lalu saya memintanya memperbaiki eror yang muncul saat saya mencoba membuka file tersebut.
00:03:53Tapi tetap saja, Qwen tidak bisa memperbaiki eror tersebut dan malah memberi saya file readme yang panjang
00:03:58tentang cara membangun proyek ini sendiri dari nol lalu menyalin file-filenya ke
00:04:03folder proyek, yang mana tidak ingin saya lakukan secara manual dalam tantangan ini karena
00:04:08itu akan mengalahkan tujuannya.
00:04:09Dan seperti yang akan Anda lihat nanti, saya perhatikan beberapa model sangat kesulitan menghasilkan
00:04:14kumpulan file akhir untuk proyek ini, yang bisa langsung dibuka dengan sukses pada
00:04:19percobaan pertama.
00:04:20Jadi untuk kasus seperti Qwen ini, saya memutuskan untuk memberinya tantangan yang lebih mudah.
00:04:26Saya membuat proyek aplikasi iOS baru di Xcode secara manual, dan saya pikir ini waktu yang tepat
00:04:31untuk mencoba fitur coding intelligence baru yang sekarang dipaketkan dengan
00:04:37versi terbaru Xcode.
00:04:38Ini cukup keren karena akhirnya Xcode punya fitur asisten AI sendiri.
00:04:43Jadi saya menghubungkannya ke akun OpenRouter saya dan memilih model Qwen 3 Coder Next dari
00:04:49menu dropdown dan mencoba tantangannya lagi.
00:04:52Bahkan dengan semua bantuan ini, Qwen tetap tidak bisa menghasilkan proyek yang sukses pada
00:04:57percobaan pertama karena ada masalah dalam pengaturan model Swift secara akurat.
00:05:02Kini dengan fitur asisten AI yang baru, kita bisa menyoroti semua masalah ini lalu
00:05:07menugaskan asisten untuk menghasilkan perbaikan untuk semua masalah yang dipilih sekaligus.
00:05:12Akhirnya, setelah beberapa putaran instruksi untuk memperbaiki masalah yang tersisa, kita pun
00:05:16mendapatkan versi aplikasi Dogtinder yang berfungsi, tapi jujur hasilnya cukup buruk.
00:05:23Aplikasi tidak bisa memuat gambar dari API Dog CEO dan seluruh UI-nya juga sangat
00:05:29primitif dan tidak menarik sama sekali.
00:05:32Belum lagi ada bug di bagian match di mana tidak ada kecocokan yang
00:05:36benar-benar muncul.
00:05:37Jadi sayangnya, Qwen benar-benar gagal dalam tantangan aplikasi Xcode.
00:05:42Beralih ke posisi kedua dari bawah, kita punya Grok dengan model Grok Code Fast.
00:05:48Untuk yang satu ini, saya mencoba menggunakannya melalui ekstensi VS Copilot di VS Code dan sekali lagi,
00:05:53saya menemui masalah yang sama di mana Grok tidak mampu menghasilkan semua file proyek yang dibutuhkan
00:05:59untuk paket proyek Swift yang lengkap.
00:06:02Sebaliknya, ia malah memberikan instruksi cara menyalin file secara manual.
00:06:06Jadi sekali lagi, saya harus kembali menggunakan asisten AI di Xcode dengan memanggil model
00:06:12Grok dari OpenRouter.
00:06:14Grok juga mengalami beberapa masalah, jadi saya harus memberinya instruksi dua kali untuk memperbaiki
00:06:19eror yang tersisa.
00:06:20Tapi setelah itu semua, ia mampu menyelesaikan aplikasinya dengan sukses.
00:06:23Dan pada pandangan pertama, Grok melakukan pekerjaan yang sangat buruk pada desainnya.
00:06:27Desainnya sama sekali tidak menarik dan bahkan tidak ada bagian di mana kita bisa melihat
00:06:32hasil match-nya.
00:06:33Satu-satunya alasan saya menaruh Grok lebih tinggi dari Qwen adalah karena setidaknya dari sisi fungsionalitas,
00:06:38semuanya berfungsi termasuk fitur obrolan, tapi sejujurnya, mereka
00:06:44berdua sangat mirip dalam hal performa yang buruk.
00:06:48Tidak ada hal dari aplikasi ini yang tampak menarik atau enak dipandang.
00:06:51Jadi saya tidak akan bilang Grok gagal, tapi ia mendapat nilai kelulusan terendah yang
00:06:57bisa didapat.
00:06:58Berikutnya di papan peringkat adalah Kimi dengan model terbaru mereka, Kimi K2.5.
00:07:04Kimi memiliki masalah yang sama dengan Qwen di mana saat menggunakan CLI asli mereka, ia menghasilkan
00:07:08file proyek, tapi saya tidak bisa membukanya.
00:07:11Bahkan setelah diperbaiki melalui CLI pun masalahnya tetap tidak teratasi.
00:07:15Jadi sekali lagi untuk tes Kimi, saya harus menggunakan fitur asisten AI Xcode bawaan
00:07:20dengan Kimi K2 yang disediakan oleh OpenRouter.
00:07:23Performa Kimi mirip dengan Qwen dan Grok karena tidak menyelesaikan
00:07:29tantangan pada percobaan pertama.
00:07:31Jadi saya harus memberinya instruksi lagi untuk memperbaiki masalah yang tersisa.
00:07:34Tapi hanya setelah satu putaran perbaikan masalah, Kimi mampu menghasilkan hasil akhir.
00:07:39Dan versi ini sebenarnya setingkat lebih maju dari Qwen dan Grok karena setidaknya sekarang kita punya
00:07:44aplikasi yang benar-benar terlihat seperti aplikasi mirip Tinder.
00:07:47Sekarang kita punya animasi geser kiri dan kanan yang bagus bersama dengan stiker “like” dan “nope”
00:07:53di sisi-sisinya serta pop-up keren saat kita mendapatkan match.
00:07:57Tapi animasinya sangat penuh bug dan terasa aneh.
00:08:00Terkadang saya bahkan tidak bisa melihat gambarnya sama sekali karena melayang entah ke mana di luar layar.
00:08:05Tapi setidaknya Kimi mampu menyimpan data match dengan benar.
00:08:08Dan kita benar-benar mendapatkan bagian di mana kita bisa melihat hasil match dan membuka salah satunya untuk mulai
00:08:12mengobrol dengan anjing tertentu.
00:08:14Jadi ini sudah merupakan langkah besar dibanding Qwen dan Grok.
00:08:18Tapi jika saya harus membandingkannya dengan contoh lain yang akan Anda lihat nanti di video ini, menurut saya
00:08:22hasilnya masih kurang memuaskan.
00:08:25Itulah sebabnya saya menempatkan Kimi di posisi yang lebih rendah di papan peringkat.
00:08:29Dan berikutnya kita punya Gemini 3 Pro.
00:08:31Yang ini menarik karena saya mendapat hasil yang sangat berbeda saat menguji model yang sama
00:08:36dari CLI mereka sendiri dibandingkan dari asisten AI Xcode.
00:08:41Pertama, mari kita lihat apa yang kita dapat saat menggunakan Gemini CLI.
00:08:45Dikatakan bahwa model tersebut masih dalam mode pratinjau di CLI.
00:08:49Jadi mungkin itu masalah intinya.
00:08:50Tapi sekali lagi, saat saya memberinya instruksi yang sama dengan yang saya gunakan untuk setiap model dalam
00:08:55tantangan ini, ia tidak bisa memberikan file proyek di akhir.
00:08:59Ini karena untuk membuat file proyek Xcode, Anda perlu membuat file YAML terlebih dahulu
00:09:04dengan detail proyek lalu menggunakan perintah CodeGen CLI untuk menghasilkannya.
00:09:09Tapi karena alasan tertentu, beberapa model menolak melakukannya atau tidak tahu cara melakukannya.
00:09:14Namun demikian, setelah saya meminta Gemini secara spesifik untuk membuat file tersebut, ia melakukannya.
00:09:18Dan saya hanya perlu memberinya izin untuk menjalankan perintah CodeGen.
00:09:22Begitu kita membuka proyeknya, muncul eror pada aset.
00:09:25Tapi itu cepat diperbaiki oleh Gemini.
00:09:28Setelah itu teratasi, aplikasinya pun akhirnya bisa dikompilasi.
00:09:31Tapi hasilnya buruk, sangat buruk di luar dugaan.
00:09:35Aplikasi itu rusak.
00:09:37Sistem match tidak berfungsi dengan benar dan semuanya penuh bug.
00:09:41Jadi pada titik ini, saya hampir saja memberikan nilai tidak lulus untuk Gemini.
00:09:45Tapi karena penasaran, saya memutuskan untuk memberi Gemini satu kesempatan lagi dan melakukan tantangan ini
00:09:50menggunakan asisten AI bawaan Xcode dengan menjalankan Gemini 3 Pro melalui OpenRouter.
00:09:56Dan setelah saya melakukan itu, kali ini ia berhasil pada percobaan pertama.
00:10:01Dan tidak hanya itu, aplikasinya juga sangat bagus.
00:10:04Maksud saya, desainnya keren.
00:10:06Fungsionalitasnya berjalan lancar.
00:10:08Ia bahkan menambahkan logo kecil yang bagus di bagian atas.
00:10:10Sejujurnya, tidak ada yang perlu dicela pada versi aplikasi ini.
00:10:14Jadi saya agak bingung mengapa menjalankan instruksi yang sama melalui model yang sama, tapi melalui
00:10:20alat coding AI yang berbeda menghasilkan dua hasil yang sangat bertolak belakang.
00:10:24Namun demikian, saya sangat terkesan dengan versi yang akhirnya diberikan Gemini kepada saya melalui
00:10:29peralatan Xcode, dan perlu dicatat, ini hanya dalam satu kali coba.
00:10:32Itulah mengapa saya menempatkan Gemini sedikit lebih tinggi di papan peringkat, karena hasil akhirnya
00:10:37ternyata cukup hebat.
00:10:38Oke, berikutnya di papan peringkat, kita punya GPT 5.3 Codecs.
00:10:43Karena OpenAI punya aplikasi Codecs sendiri, saya memutuskan untuk melakukan tantangan dari
00:10:48aplikasi mereka sendiri.
00:10:49Dan tidak seperti model-model sebelumnya yang sudah kita lihat, GPT 5.3 benar-benar mampu menghasilkan
00:10:55produk kerja akhir pada percobaan pertama.
00:10:58Jadi ini sudah merupakan peningkatan besar.
00:11:00Tapi harus saya katakan, aplikasinya sendiri tidak terlalu menarik.
00:11:03Ia punya tema warna biru yang sangat monoton.
00:11:06Dan masalah terbesar yang mengganggu saya adalah ia tidak bisa menyesuaikan lebar gambar ke dalam
00:11:11bingkai aplikasi.
00:11:13Jadi untuk beberapa anjing, Anda berakhir dengan wadah gambar yang sangat melar sampai keluar dari
00:11:18batas aplikasi.
00:11:20Ini adalah cacat desain besar yang tidak mampu ditangani Codecs dengan benar.
00:11:25Tapi aplikasinya sendiri fungsional dengan semua elemen UI yang diperlukan.
00:11:29Dan kita juga mendapati bagian match berfungsi dengan benar di mana kita bisa mengobrol dengan anjing-anjing itu.
00:11:34Alasan saya memberikan GPT 5.3 posisi tinggi di papan peringkat adalah karena ini
00:11:40model pertama yang benar-benar mampu menghasilkan seluruh paket proyek Swift tanpa
00:11:46bantuan manual atau tanpa menyiapkan proyek Xcode terlebih dahulu.
00:11:50Jadi secara keseluruhan, lumayan, tapi juga tidak terlalu istimewa.
00:11:54Dan akhirnya, kita sampai pada peringkat pertama di papan peringkat.
00:11:57Saya akan memberi Anda waktu sejenak untuk menebak model manakah itu.
00:12:01Dan ya, saya rasa kita semua tahu model yang mana.
00:12:04Tentu saja Opus 4.6, yang benar-benar menaklukkan tantangan ini sejak awal.
00:12:11Saya memberinya instruksi yang sama seperti model lain, tapi saya menggunakan alat Claude Code CLI
00:12:17mereka sendiri dan saya hanya perlu memberikan izin yang diperlukan.
00:12:20Model tersebut melakukan semuanya sendiri, termasuk membuat file proyek Xcode yang berfungsi penuh
00:12:27tanpa saya harus menyiapkannya terlebih dahulu.
00:12:29Dan tidak hanya itu, aplikasinya sendiri sangat cantik.
00:12:34Desainnya dapet banget.
00:12:35Animasinya bagus dan mulus.
00:12:37Bagian match berfungsi dengan benar begitu juga dengan jendela obrolannya.
00:12:41Satu-satunya hal yang tidak kita dapatkan di versi ini adalah logo yang lebih keren seperti yang dihasilkan Gemini di
00:12:46versi sebelumnya.
00:12:48Tapi selain itu, ini adalah versi yang paling bagus di antara semuanya.
00:12:52Dan ia bahkan berhasil memproduksinya pada percobaan pertama.
00:12:55Jadi saya berani bilang performa Opus benar-benar luar biasa dibandingkan semua model lainnya.
00:13:01Maka dari itu, ia layak menempati posisi pertama di papan peringkat.
00:13:05Tapi tunggu, masih ada lagi.
00:13:07Ini ada sedikit bonus untuk kalian.
00:13:09Masih ada satu model lagi yang perlu kita ulas yang belum ditampilkan di papan peringkat
00:13:13tadi.
00:13:14Jadi, saat saya sedang membuat video ini, ada pengumuman bahwa GLM baru saja merilis
00:13:18model versi lima terbaru mereka, dan mereka berani mengklaim bahwa model ini mendapat skor
00:13:23coding yang bahkan lebih tinggi daripada Opus 4.6.
00:13:26Jadi tentu saja saya harus mengujinya dengan tantangan Swift yang sama.
00:13:31Dan karena GLM tidak punya alat CLI sendiri, sekali lagi saya menggunakan alat asisten AI Xcode
00:13:37dengan menghubungkannya ke OpenRouter dan menggunakan GLM 5 dari sana.
00:13:41Pertama-tama, GLM tidak menyelesaikan tantangan ini pada percobaan pertama.
00:13:45Jadi itu sudah menunjukkan performa yang lebih buruk daripada Opus 4.6.
00:13:49Kedua, saya harus melewati tiga putaran perbaikan bug untuk akhirnya bisa mengompilasi dengan sukses.
00:13:56Jadi mari kita lihat apa hasil akhir dari GLM 5.
00:13:59Seperti yang bisa Anda lihat, ini sudah tampak seperti nilai gagal menurut saya.
00:14:03Sepertinya ia tidak bisa memuat gambar anjing mana pun.
00:14:06Ia tidak punya fungsionalitas geser.
00:14:08Dan yang lebih buruk lagi, ia hanya memutar tiga anjing lalu menunjukkan pesan bahwa
00:14:13tidak ada lagi anjing yang tersedia.
00:14:15Selain itu, jika kita masuk ke bagian match, kita tidak bisa mengklik match mana pun untuk membuka
00:14:20antarmuka obrolan dengan anjing mana pun.
00:14:23Jadi bagian ini jelas belum selesai.
00:14:25Dilihat dari hasil ini, di mana kita harus menempatkan GLM berdasarkan performa ini?
00:14:29Yah, sepertinya kita harus menempatkannya di posisi kedua dari bawah tepat di atas Qwen karena
00:14:36performa ini tidak bisa diterima dan tidak sebagus model-model lainnya.
00:14:42Jadi, menyatakan bahwa GLM 5 lebih kuat daripada Opus 4.6 adalah klaim yang sangat berani.
00:14:47Sekarang, saya belum menguji model ini pada tugas coding lainnya, dan mungkin saja
00:14:52untuk proyek pengembangan web sederhana, ia bekerja sama baiknya atau bahkan lebih baik daripada
00:14:57Opus 4.6.
00:14:59Tapi ini jelas bukan model yang bagus untuk coding di Swift.
00:15:02Jadi apa yang kita pelajari hari ini?
00:15:04Jelas sekali bahwa meskipun revolusi AI bergerak secepat kilat, masalah Swift untuk model-model ini
00:15:10masih nyata. Opus 4.6 dan GPT 5.3 membuktikan bahwa jika model cukup besar dan penalarannya
00:15:18cukup kuat, mereka bisa mengatasi kurangnya data kode Swift sumber terbuka.
00:15:23Tapi bagi model seperti Qwen dan Grok, kesenjangan data dan pergeseran API yang kita bahas tadi
00:15:29jelas menghantam mereka dengan keras.
00:15:31Dan saya juga terkejut betapa bergunanya asisten AI baru Xcode sebenarnya untuk aplikasi Swift.
00:15:36Kita bisa melihat dengan jelas perbedaannya di antara dua versi aplikasi Gemini tadi.
00:15:40Jadi jika Anda seorang pengembang iOS, mungkin akan sangat membantu menggunakan peralatan AI internal mereka untuk
00:15:46mendapatkan hasil yang lebih baik.
00:15:47Nah, itu dia teman-teman, saya harap Anda menikmati ulasan papan peringkat ini.
00:15:51Saya rasa ini membuka percakapan yang lebih luas tentang fakta bahwa mungkin kita harus mulai memiliki
00:15:55model yang spesifik untuk bahasa tertentu.
00:15:57Karena jelas banyak dari model ini lebih condong ke aplikasi web, proyek JavaScript
00:16:03atau Python.
00:16:04Tapi untuk beberapa solusi coding khusus, kita mungkin membutuhkan model coding kustom.
00:16:09Tapi apa pendapat kalian tentang semua ini?
00:16:11Beri tahu kami di kolom komentar di bawah.
00:16:13Dan teman-teman, jika Anda menikmati video ini, tolong beri tahu saya dengan menekan tombol like
00:16:18di bawah video.
00:16:19Dan juga jangan lupa untuk berlangganan ke saluran kami.
00:16:22Saya Andris dari Better Stack dan sampai jumpa di video-video berikutnya.

Key Takeaway

Meskipun model AI berkembang pesat, sebagian besar masih kesulitan menangani pengembangan Swift karena keterbatasan data dan perubahan API Apple yang cepat, dengan Opus 4.6 sebagai satu-satunya model yang benar-benar unggul.

Highlights

Model AI secara konsisten memiliki performa lebih rendah pada bahasa Swift dibandingkan Python atau Java karena kesenjangan data sumber terbuka.

Tantangan coding "Dogtinder

Timeline

Masalah Utama AI dalam Pengembangan Swift

Video dimulai dengan penjelasan mengapa model AI papan atas sering kali gagal saat diminta menulis kode dalam bahasa Swift. Speaker merujuk pada studi komparatif yang menunjukkan performa Swift secara konsisten di bawah Python dan Java di semua model termasuk GPT dan Claude. Ada tiga hambatan utama yang diidentifikasi: kesenjangan data sumber terbuka, pergeseran API Apple yang sangat cepat, dan bias pembaruan benchmark yang lebih fokus pada web. Masalah ini diperparah karena banyak kode Swift profesional tersimpan dalam repositori privat yang tidak bisa diakses AI. Pemahaman tentang batasan ini sangat penting untuk menetapkan ekspektasi yang realistis dalam pengujian agen coding selanjutnya.

Pengenalan Tantangan Dogtinder

Speaker memperkenalkan tantangan yang akan diberikan kepada tujuh agen AI yang berbeda dengan instruksi yang sama persis. Tantangannya adalah membangun klon Tinder untuk anjing yang diberi nama "Dogtinder" menggunakan API dari Dog CEO. Aplikasi ini harus memiliki fitur utama seperti menampilkan gambar anjing, fungsi geser kanan atau kiri, serta antarmuka obrolan jika terjadi kecocokan. Tantangan ini dipilih karena melibatkan logika API dan animasi UI SwiftUI yang cukup kompleks untuk menguji batas kemampuan model AI. Keberhasilan dalam tugas ini akan menunjukkan apakah sebuah model benar-benar bisa menangani pengembangan aplikasi iOS yang fungsional.

Kegagalan Qwen, Grok, dan Kimi

Bagian ini mengulas performa tiga model terbawah yakni Qwen 3 Coder Next, Grok Code Fast, dan Kimi K2.5. Qwen gagal total karena tidak bisa menghasilkan file proyek yang dapat dibuka dan aplikasinya penuh bug meskipun sudah dibantu asisten Xcode. Grok berada sedikit di atas Qwen karena fungsionalitasnya berjalan, namun desain visualnya sangat primitif dan tidak menarik sama sekali. Kimi menunjukkan peningkatan dengan animasi geser yang berfungsi, namun tetap memiliki bug visual yang membuat gambar melayang keluar layar. Ketiga model ini membuktikan bahwa pengoptimalan untuk pengembangan web tidak otomatis membuat mereka mahir dalam ekosistem Apple yang tertutup.

Analisis Gemini 3 Pro dan GPT 5.3 Codecs

Ulasan berlanjut ke Gemini 3 Pro yang memberikan hasil sangat kontradiktif antara versi CLI yang gagal total dan versi asisten Xcode yang luar biasa bagus. Gemini melalui asisten Xcode mampu menyelesaikan aplikasi dengan desain keren dan logo khusus hanya dalam satu kali percobaan. Sementara itu, GPT 5.3 Codecs dari OpenAI menjadi model pertama yang berhasil menghasilkan paket proyek lengkap tanpa bantuan manual. Meskipun GPT 5.3 fungsional, speaker mencatat adanya cacat desain besar pada bingkai gambar yang tidak proporsional dan tema warna yang monoton. Perbandingan ini menyoroti betapa pentingnya alat integrasi yang digunakan bersama dengan model AI tersebut.

Kemenangan Opus 4.6 dan Bonus Pengujian GLM 5

Opus 4.6 dinobatkan sebagai peringkat pertama karena kemampuannya menaklukkan tantangan melalui Claude Code CLI pada percobaan pertama tanpa bantuan awal. Aplikasi yang dihasilkan Opus memiliki desain yang sangat cantik, animasi mulus, dan fungsionalitas obrolan yang sempurna. Video juga memberikan bonus ulasan model GLM 5 yang baru dirilis dan diklaim lebih kuat dari Opus, namun hasil pengujian justru menunjukkan performa yang buruk. GLM 5 gagal memuat gambar, tidak memiliki fitur geser, dan bagian obrolannya tidak berfungsi sama sekali. Hal ini mematahkan klaim pemasaran GLM 5 dalam konteks pengembangan spesifik bahasa Swift.

Kesimpulan dan Rekomendasi Masa Depan

Video diakhiri dengan rangkuman pelajaran yang didapat dari pengujian intensif terhadap tujuh agen AI tersebut. Meskipun revolusi AI bergerak cepat, tantangan dalam mengolah data Swift masih menjadi hambatan nyata bagi sebagian besar model. Speaker menyarankan pengembang iOS untuk menggunakan asisten AI internal Xcode guna mendapatkan hasil yang lebih akurat dan terintegrasi. Ada juga pemikiran menarik mengenai perlunya model AI khusus yang dilatih untuk bahasa pemrograman tertentu daripada model umum yang condong ke web. Penonton diajak untuk memberikan pendapat mereka di kolom komentar mengenai masa depan pengembangan aplikasi berbasis AI.

Community Posts

View all posts