00:00:00Kebanyakan model coding AI punya satu masalah besar - mereka tidak bisa menangani Swift.
00:00:06Kita semua sudah melihat demo keren agen AI membangun aplikasi web dan alat JavaScript dalam hitungan detik,
00:00:11tapi begitu Anda meminta mereka menyentuh kode Swift, semuanya langsung berantakan.
00:00:16Nah, mengapa model terpintar di dunia gagal dalam pengembangan iOS?
00:00:22Jadi itulah yang akan kita cari tahu dalam video hari ini.
00:00:25Hari ini saya menguji agen coding papan atas dengan tantangan coding aplikasi Swift yang sama untuk melihat
00:00:30model mana yang benar-benar bisa menangani tugas ini dan mana yang hanya jago di pengembangan web saja.
00:00:36Saya beri bocoran sedikit - salah satu model ini benar-benar lulus tes dengan sempurna.
00:00:40Yang mana itu, Anda akan melihatnya nanti di video ini.
00:00:43Ini akan sangat seru, jadi mari kita mulai.
00:00:50Pertama-tama, mari kita bahas masalah utamanya.
00:00:52Mengapa model coding AI buruk dalam pengembangan Swift?
00:00:56Dan biar jelas, ini bukan sekadar pengamatan saya.
00:00:59Sebuah studi berjudul “Evaluating Large Language Models for Code Generation - A Comparative Study”
00:01:05pada Python, Java, dan Swift menemukan bahwa di semua model yang diuji, termasuk GPT dan Claude,
00:01:12performa di Swift secara konsisten lebih rendah daripada di Python atau Java.
00:01:17Dan alasannya bermuara pada tiga hambatan utama yang secara efektif menyulitkan AI saat menyentuh
00:01:22ekosistem Apple.
00:01:24Pertama, ada kesenjangan data.
00:01:25Meskipun web dibanjiri dengan kode JavaScript dan Python sumber terbuka, sebagian besar kode Swift profesional
00:01:31tersimpan rapat di repositori privat atau komersial.
00:01:36Kedua, kita punya pergeseran API.
00:01:38Apple terkenal cepat melakukan perubahan yang mematahkan sistem lama.
00:01:42Model konkurensi SwiftUI dan Swift telah berubah lebih banyak dalam tiga tahun terakhir dibanding
00:01:47beberapa standar web dalam satu dekade.
00:01:49Dan karena kebanyakan model AI memiliki batas pengetahuan, mereka sering mencoba menulis kode Swift
00:01:54menggunakan aturan lama yang sudah tidak berfungsi di versi Xcode terbaru.
00:01:59Dan terakhir, ada bias pembandingan.
00:02:02Kebanyakan model AI yang kita uji hari ini seperti Qwen atau Grok dilatih untuk tes spesifik.
00:02:08Mereka dioptimalkan untuk lulus benchmark besar seperti HumanEval yang hampir seluruhnya fokus
00:02:13pada Python dan logika berbasis web.
00:02:16Karena tidak banyak benchmark utama untuk UI iOS yang kompleks, model-model ini belum
00:02:21dinilai berdasarkan kemampuan mereka membangun aplikasi yang fungsional.
00:02:25Jadi saya memilih beberapa model coding AI paling populer di luar sana dan memberi masing-masing
00:02:30instruksi yang sama persis.
00:02:32Saya menugaskan mereka membangun klon aplikasi mirip Tinder sederhana menggunakan Swift bernama Dogtinder,
00:02:38di mana Anda ditampilkan berbagai anjing menggunakan API Dog CEO.
00:02:43Anda bisa geser ke kiri atau kanan untuk memilih anjing yang disukai dan jika cocok (match),
00:02:47Anda bisa membuka antarmuka obrolan untuk bertukar pesan lucu dengan anjing tersebut.
00:02:52Ini seharusnya cukup lucu dan sederhana untuk diselesaikan oleh agen AI, tapi juga melibatkan
00:02:58tantangan menarik seperti membangun fungsi animasi geser di Swift asli.
00:03:03Untuk pengujiannya sendiri, kita akan mulai dari penampil terburuk sampai
00:03:07yang terbaik.
00:03:09Di posisi terburuk, sayangnya kita punya model Qwen 3 Coder Next yang baru.
00:03:15Qwen telah mengiklankan model baru ini sebagai alternatif sumber terbuka untuk raksasa
00:03:20seperti Kimi atau Claude dengan ukuran model lebih kecil tapi performa lebih tinggi.
00:03:25Meskipun itu mungkin benar untuk aplikasi web, sayangnya tidak terbukti untuk tantangan Swift ini.
00:03:32Jika memungkinkan, saya mencoba menggunakan alat CLI mereka sendiri yang tersedia untuk model tersebut
00:03:37dan dalam kasus ini, saya menggunakan alat Qwen CLI untuk melakukan tantangan ini.
00:03:42Dan setelah selesai menghasilkan kode, saya tidak bisa membuka file proyek yang
00:03:46dihasilkan Qwen.
00:03:48Lalu saya memintanya memperbaiki eror yang muncul saat saya mencoba membuka file tersebut.
00:03:53Tapi tetap saja, Qwen tidak bisa memperbaiki eror tersebut dan malah memberi saya file readme yang panjang
00:03:58tentang cara membangun proyek ini sendiri dari nol lalu menyalin file-filenya ke
00:04:03folder proyek, yang mana tidak ingin saya lakukan secara manual dalam tantangan ini karena
00:04:08itu akan mengalahkan tujuannya.
00:04:09Dan seperti yang akan Anda lihat nanti, saya perhatikan beberapa model sangat kesulitan menghasilkan
00:04:14kumpulan file akhir untuk proyek ini, yang bisa langsung dibuka dengan sukses pada
00:04:19percobaan pertama.
00:04:20Jadi untuk kasus seperti Qwen ini, saya memutuskan untuk memberinya tantangan yang lebih mudah.
00:04:26Saya membuat proyek aplikasi iOS baru di Xcode secara manual, dan saya pikir ini waktu yang tepat
00:04:31untuk mencoba fitur coding intelligence baru yang sekarang dipaketkan dengan
00:04:37versi terbaru Xcode.
00:04:38Ini cukup keren karena akhirnya Xcode punya fitur asisten AI sendiri.
00:04:43Jadi saya menghubungkannya ke akun OpenRouter saya dan memilih model Qwen 3 Coder Next dari
00:04:49menu dropdown dan mencoba tantangannya lagi.
00:04:52Bahkan dengan semua bantuan ini, Qwen tetap tidak bisa menghasilkan proyek yang sukses pada
00:04:57percobaan pertama karena ada masalah dalam pengaturan model Swift secara akurat.
00:05:02Kini dengan fitur asisten AI yang baru, kita bisa menyoroti semua masalah ini lalu
00:05:07menugaskan asisten untuk menghasilkan perbaikan untuk semua masalah yang dipilih sekaligus.
00:05:12Akhirnya, setelah beberapa putaran instruksi untuk memperbaiki masalah yang tersisa, kita pun
00:05:16mendapatkan versi aplikasi Dogtinder yang berfungsi, tapi jujur hasilnya cukup buruk.
00:05:23Aplikasi tidak bisa memuat gambar dari API Dog CEO dan seluruh UI-nya juga sangat
00:05:29primitif dan tidak menarik sama sekali.
00:05:32Belum lagi ada bug di bagian match di mana tidak ada kecocokan yang
00:05:36benar-benar muncul.
00:05:37Jadi sayangnya, Qwen benar-benar gagal dalam tantangan aplikasi Xcode.
00:05:42Beralih ke posisi kedua dari bawah, kita punya Grok dengan model Grok Code Fast.
00:05:48Untuk yang satu ini, saya mencoba menggunakannya melalui ekstensi VS Copilot di VS Code dan sekali lagi,
00:05:53saya menemui masalah yang sama di mana Grok tidak mampu menghasilkan semua file proyek yang dibutuhkan
00:05:59untuk paket proyek Swift yang lengkap.
00:06:02Sebaliknya, ia malah memberikan instruksi cara menyalin file secara manual.
00:06:06Jadi sekali lagi, saya harus kembali menggunakan asisten AI di Xcode dengan memanggil model
00:06:12Grok dari OpenRouter.
00:06:14Grok juga mengalami beberapa masalah, jadi saya harus memberinya instruksi dua kali untuk memperbaiki
00:06:19eror yang tersisa.
00:06:20Tapi setelah itu semua, ia mampu menyelesaikan aplikasinya dengan sukses.
00:06:23Dan pada pandangan pertama, Grok melakukan pekerjaan yang sangat buruk pada desainnya.
00:06:27Desainnya sama sekali tidak menarik dan bahkan tidak ada bagian di mana kita bisa melihat
00:06:32hasil match-nya.
00:06:33Satu-satunya alasan saya menaruh Grok lebih tinggi dari Qwen adalah karena setidaknya dari sisi fungsionalitas,
00:06:38semuanya berfungsi termasuk fitur obrolan, tapi sejujurnya, mereka
00:06:44berdua sangat mirip dalam hal performa yang buruk.
00:06:48Tidak ada hal dari aplikasi ini yang tampak menarik atau enak dipandang.
00:06:51Jadi saya tidak akan bilang Grok gagal, tapi ia mendapat nilai kelulusan terendah yang
00:06:57bisa didapat.
00:06:58Berikutnya di papan peringkat adalah Kimi dengan model terbaru mereka, Kimi K2.5.
00:07:04Kimi memiliki masalah yang sama dengan Qwen di mana saat menggunakan CLI asli mereka, ia menghasilkan
00:07:08file proyek, tapi saya tidak bisa membukanya.
00:07:11Bahkan setelah diperbaiki melalui CLI pun masalahnya tetap tidak teratasi.
00:07:15Jadi sekali lagi untuk tes Kimi, saya harus menggunakan fitur asisten AI Xcode bawaan
00:07:20dengan Kimi K2 yang disediakan oleh OpenRouter.
00:07:23Performa Kimi mirip dengan Qwen dan Grok karena tidak menyelesaikan
00:07:29tantangan pada percobaan pertama.
00:07:31Jadi saya harus memberinya instruksi lagi untuk memperbaiki masalah yang tersisa.
00:07:34Tapi hanya setelah satu putaran perbaikan masalah, Kimi mampu menghasilkan hasil akhir.
00:07:39Dan versi ini sebenarnya setingkat lebih maju dari Qwen dan Grok karena setidaknya sekarang kita punya
00:07:44aplikasi yang benar-benar terlihat seperti aplikasi mirip Tinder.
00:07:47Sekarang kita punya animasi geser kiri dan kanan yang bagus bersama dengan stiker “like” dan “nope”
00:07:53di sisi-sisinya serta pop-up keren saat kita mendapatkan match.
00:07:57Tapi animasinya sangat penuh bug dan terasa aneh.
00:08:00Terkadang saya bahkan tidak bisa melihat gambarnya sama sekali karena melayang entah ke mana di luar layar.
00:08:05Tapi setidaknya Kimi mampu menyimpan data match dengan benar.
00:08:08Dan kita benar-benar mendapatkan bagian di mana kita bisa melihat hasil match dan membuka salah satunya untuk mulai
00:08:12mengobrol dengan anjing tertentu.
00:08:14Jadi ini sudah merupakan langkah besar dibanding Qwen dan Grok.
00:08:18Tapi jika saya harus membandingkannya dengan contoh lain yang akan Anda lihat nanti di video ini, menurut saya
00:08:22hasilnya masih kurang memuaskan.
00:08:25Itulah sebabnya saya menempatkan Kimi di posisi yang lebih rendah di papan peringkat.
00:08:29Dan berikutnya kita punya Gemini 3 Pro.
00:08:31Yang ini menarik karena saya mendapat hasil yang sangat berbeda saat menguji model yang sama
00:08:36dari CLI mereka sendiri dibandingkan dari asisten AI Xcode.
00:08:41Pertama, mari kita lihat apa yang kita dapat saat menggunakan Gemini CLI.
00:08:45Dikatakan bahwa model tersebut masih dalam mode pratinjau di CLI.
00:08:49Jadi mungkin itu masalah intinya.
00:08:50Tapi sekali lagi, saat saya memberinya instruksi yang sama dengan yang saya gunakan untuk setiap model dalam
00:08:55tantangan ini, ia tidak bisa memberikan file proyek di akhir.
00:08:59Ini karena untuk membuat file proyek Xcode, Anda perlu membuat file YAML terlebih dahulu
00:09:04dengan detail proyek lalu menggunakan perintah CodeGen CLI untuk menghasilkannya.
00:09:09Tapi karena alasan tertentu, beberapa model menolak melakukannya atau tidak tahu cara melakukannya.
00:09:14Namun demikian, setelah saya meminta Gemini secara spesifik untuk membuat file tersebut, ia melakukannya.
00:09:18Dan saya hanya perlu memberinya izin untuk menjalankan perintah CodeGen.
00:09:22Begitu kita membuka proyeknya, muncul eror pada aset.
00:09:25Tapi itu cepat diperbaiki oleh Gemini.
00:09:28Setelah itu teratasi, aplikasinya pun akhirnya bisa dikompilasi.
00:09:31Tapi hasilnya buruk, sangat buruk di luar dugaan.
00:09:35Aplikasi itu rusak.
00:09:37Sistem match tidak berfungsi dengan benar dan semuanya penuh bug.
00:09:41Jadi pada titik ini, saya hampir saja memberikan nilai tidak lulus untuk Gemini.
00:09:45Tapi karena penasaran, saya memutuskan untuk memberi Gemini satu kesempatan lagi dan melakukan tantangan ini
00:09:50menggunakan asisten AI bawaan Xcode dengan menjalankan Gemini 3 Pro melalui OpenRouter.
00:09:56Dan setelah saya melakukan itu, kali ini ia berhasil pada percobaan pertama.
00:10:01Dan tidak hanya itu, aplikasinya juga sangat bagus.
00:10:04Maksud saya, desainnya keren.
00:10:06Fungsionalitasnya berjalan lancar.
00:10:08Ia bahkan menambahkan logo kecil yang bagus di bagian atas.
00:10:10Sejujurnya, tidak ada yang perlu dicela pada versi aplikasi ini.
00:10:14Jadi saya agak bingung mengapa menjalankan instruksi yang sama melalui model yang sama, tapi melalui
00:10:20alat coding AI yang berbeda menghasilkan dua hasil yang sangat bertolak belakang.
00:10:24Namun demikian, saya sangat terkesan dengan versi yang akhirnya diberikan Gemini kepada saya melalui
00:10:29peralatan Xcode, dan perlu dicatat, ini hanya dalam satu kali coba.
00:10:32Itulah mengapa saya menempatkan Gemini sedikit lebih tinggi di papan peringkat, karena hasil akhirnya
00:10:37ternyata cukup hebat.
00:10:38Oke, berikutnya di papan peringkat, kita punya GPT 5.3 Codecs.
00:10:43Karena OpenAI punya aplikasi Codecs sendiri, saya memutuskan untuk melakukan tantangan dari
00:10:48aplikasi mereka sendiri.
00:10:49Dan tidak seperti model-model sebelumnya yang sudah kita lihat, GPT 5.3 benar-benar mampu menghasilkan
00:10:55produk kerja akhir pada percobaan pertama.
00:10:58Jadi ini sudah merupakan peningkatan besar.
00:11:00Tapi harus saya katakan, aplikasinya sendiri tidak terlalu menarik.
00:11:03Ia punya tema warna biru yang sangat monoton.
00:11:06Dan masalah terbesar yang mengganggu saya adalah ia tidak bisa menyesuaikan lebar gambar ke dalam
00:11:11bingkai aplikasi.
00:11:13Jadi untuk beberapa anjing, Anda berakhir dengan wadah gambar yang sangat melar sampai keluar dari
00:11:18batas aplikasi.
00:11:20Ini adalah cacat desain besar yang tidak mampu ditangani Codecs dengan benar.
00:11:25Tapi aplikasinya sendiri fungsional dengan semua elemen UI yang diperlukan.
00:11:29Dan kita juga mendapati bagian match berfungsi dengan benar di mana kita bisa mengobrol dengan anjing-anjing itu.
00:11:34Alasan saya memberikan GPT 5.3 posisi tinggi di papan peringkat adalah karena ini
00:11:40model pertama yang benar-benar mampu menghasilkan seluruh paket proyek Swift tanpa
00:11:46bantuan manual atau tanpa menyiapkan proyek Xcode terlebih dahulu.
00:11:50Jadi secara keseluruhan, lumayan, tapi juga tidak terlalu istimewa.
00:11:54Dan akhirnya, kita sampai pada peringkat pertama di papan peringkat.
00:11:57Saya akan memberi Anda waktu sejenak untuk menebak model manakah itu.
00:12:01Dan ya, saya rasa kita semua tahu model yang mana.
00:12:04Tentu saja Opus 4.6, yang benar-benar menaklukkan tantangan ini sejak awal.
00:12:11Saya memberinya instruksi yang sama seperti model lain, tapi saya menggunakan alat Claude Code CLI
00:12:17mereka sendiri dan saya hanya perlu memberikan izin yang diperlukan.
00:12:20Model tersebut melakukan semuanya sendiri, termasuk membuat file proyek Xcode yang berfungsi penuh
00:12:27tanpa saya harus menyiapkannya terlebih dahulu.
00:12:29Dan tidak hanya itu, aplikasinya sendiri sangat cantik.
00:12:34Desainnya dapet banget.
00:12:35Animasinya bagus dan mulus.
00:12:37Bagian match berfungsi dengan benar begitu juga dengan jendela obrolannya.
00:12:41Satu-satunya hal yang tidak kita dapatkan di versi ini adalah logo yang lebih keren seperti yang dihasilkan Gemini di
00:12:46versi sebelumnya.
00:12:48Tapi selain itu, ini adalah versi yang paling bagus di antara semuanya.
00:12:52Dan ia bahkan berhasil memproduksinya pada percobaan pertama.
00:12:55Jadi saya berani bilang performa Opus benar-benar luar biasa dibandingkan semua model lainnya.
00:13:01Maka dari itu, ia layak menempati posisi pertama di papan peringkat.
00:13:05Tapi tunggu, masih ada lagi.
00:13:07Ini ada sedikit bonus untuk kalian.
00:13:09Masih ada satu model lagi yang perlu kita ulas yang belum ditampilkan di papan peringkat
00:13:13tadi.
00:13:14Jadi, saat saya sedang membuat video ini, ada pengumuman bahwa GLM baru saja merilis
00:13:18model versi lima terbaru mereka, dan mereka berani mengklaim bahwa model ini mendapat skor
00:13:23coding yang bahkan lebih tinggi daripada Opus 4.6.
00:13:26Jadi tentu saja saya harus mengujinya dengan tantangan Swift yang sama.
00:13:31Dan karena GLM tidak punya alat CLI sendiri, sekali lagi saya menggunakan alat asisten AI Xcode
00:13:37dengan menghubungkannya ke OpenRouter dan menggunakan GLM 5 dari sana.
00:13:41Pertama-tama, GLM tidak menyelesaikan tantangan ini pada percobaan pertama.
00:13:45Jadi itu sudah menunjukkan performa yang lebih buruk daripada Opus 4.6.
00:13:49Kedua, saya harus melewati tiga putaran perbaikan bug untuk akhirnya bisa mengompilasi dengan sukses.
00:13:56Jadi mari kita lihat apa hasil akhir dari GLM 5.
00:13:59Seperti yang bisa Anda lihat, ini sudah tampak seperti nilai gagal menurut saya.
00:14:03Sepertinya ia tidak bisa memuat gambar anjing mana pun.
00:14:06Ia tidak punya fungsionalitas geser.
00:14:08Dan yang lebih buruk lagi, ia hanya memutar tiga anjing lalu menunjukkan pesan bahwa
00:14:13tidak ada lagi anjing yang tersedia.
00:14:15Selain itu, jika kita masuk ke bagian match, kita tidak bisa mengklik match mana pun untuk membuka
00:14:20antarmuka obrolan dengan anjing mana pun.
00:14:23Jadi bagian ini jelas belum selesai.
00:14:25Dilihat dari hasil ini, di mana kita harus menempatkan GLM berdasarkan performa ini?
00:14:29Yah, sepertinya kita harus menempatkannya di posisi kedua dari bawah tepat di atas Qwen karena
00:14:36performa ini tidak bisa diterima dan tidak sebagus model-model lainnya.
00:14:42Jadi, menyatakan bahwa GLM 5 lebih kuat daripada Opus 4.6 adalah klaim yang sangat berani.
00:14:47Sekarang, saya belum menguji model ini pada tugas coding lainnya, dan mungkin saja
00:14:52untuk proyek pengembangan web sederhana, ia bekerja sama baiknya atau bahkan lebih baik daripada
00:14:57Opus 4.6.
00:14:59Tapi ini jelas bukan model yang bagus untuk coding di Swift.
00:15:02Jadi apa yang kita pelajari hari ini?
00:15:04Jelas sekali bahwa meskipun revolusi AI bergerak secepat kilat, masalah Swift untuk model-model ini
00:15:10masih nyata. Opus 4.6 dan GPT 5.3 membuktikan bahwa jika model cukup besar dan penalarannya
00:15:18cukup kuat, mereka bisa mengatasi kurangnya data kode Swift sumber terbuka.
00:15:23Tapi bagi model seperti Qwen dan Grok, kesenjangan data dan pergeseran API yang kita bahas tadi
00:15:29jelas menghantam mereka dengan keras.
00:15:31Dan saya juga terkejut betapa bergunanya asisten AI baru Xcode sebenarnya untuk aplikasi Swift.
00:15:36Kita bisa melihat dengan jelas perbedaannya di antara dua versi aplikasi Gemini tadi.
00:15:40Jadi jika Anda seorang pengembang iOS, mungkin akan sangat membantu menggunakan peralatan AI internal mereka untuk
00:15:46mendapatkan hasil yang lebih baik.
00:15:47Nah, itu dia teman-teman, saya harap Anda menikmati ulasan papan peringkat ini.
00:15:51Saya rasa ini membuka percakapan yang lebih luas tentang fakta bahwa mungkin kita harus mulai memiliki
00:15:55model yang spesifik untuk bahasa tertentu.
00:15:57Karena jelas banyak dari model ini lebih condong ke aplikasi web, proyek JavaScript
00:16:03atau Python.
00:16:04Tapi untuk beberapa solusi coding khusus, kita mungkin membutuhkan model coding kustom.
00:16:09Tapi apa pendapat kalian tentang semua ini?
00:16:11Beri tahu kami di kolom komentar di bawah.
00:16:13Dan teman-teman, jika Anda menikmati video ini, tolong beri tahu saya dengan menekan tombol like
00:16:18di bawah video.
00:16:19Dan juga jangan lupa untuk berlangganan ke saluran kami.
00:16:22Saya Andris dari Better Stack dan sampai jumpa di video-video berikutnya.