Masalah Terbesar AI Coding Akhirnya Terpecahkan

AAI LABS
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00AI membuat pengodean dapat diakses oleh semua orang dan orang-orang mulai merilis kode dengan jauh
00:00:04lebih cepat.
00:00:05Tetapi dengan kecepatan yang lebih cepat lagi, masalah keamanan di dalam aplikasi tersebut mulai menumpuk.
00:00:09Dan dalam beberapa bulan terakhir, keadaannya justru semakin memburuk.
00:00:12Ada banyak kejadian ketika sebuah agen menghapus seluruh proyek seseorang.
00:00:16Agen lain menghapus seluruh basis data produksi saat pengembang sedang mengerjakan
00:00:20sesuatu yang sama sekali tidak terkait.
00:00:22Dan ada banyak masalah serupa seperti bocornya Clod.md internal milik Apple.
00:00:26Jadi peralatan yang benar-benar dapat menangkap masalah ini lebih penting sekarang daripada sebelumnya.
00:00:30Melihat peningkatan masalah ini, Vercel baru saja merilis harness keamanan untuk mendeteksi pelanggaran dalam aplikasi
00:00:35berbasis AI yang disebut DeepSec.
00:00:37Sekarang Anda mungkin berpikir kode Claude sudah bisa melakukan tinjauan keamanan sendiri dengan agen-agennya.
00:00:42Jadi mengapa Anda membutuhkan DeepSec?
00:00:44Itu karena DeepSec adalah alat terstruktur yang menangani tinjauan jauh lebih sistematis.
00:00:49Di balik layarnya, alat ini menggunakan agen pengodean seperti Claude code dan Codex.
00:00:52Alat ini dirancang untuk memindai repositori besar karena mendukung desain paralel yang
00:00:57mempercepat alur kerja dan mengelompokkan kode ke dalam beberapa grup, yang membuatnya sempurna untuk
00:01:01meninjau basis kode yang besar.
00:01:03Nah, ini tidak dibangun dengan mempertimbangkan efisiensi biaya.
00:01:06Mereka menggunakan model paling kuat dari Claude code dan Codex, yaitu Opus 4.7 pada
00:01:10upaya maksimal dan GPT 5.5 pada penalaran ekstra tinggi, yang keduanya menghabiskan banyak token.
00:01:16Dan dengan menjalankannya secara paralel, penggunaan token menumpuk dengan cepat, sehingga meningkatkan biaya.
00:01:20Beberapa aplikasi terkenal sudah menjalankan harness ini pada basis kode mereka dan melaporkan hasil yang baik.
00:01:25Dalam pengujian yang mereka jalankan, tingkat positif palsu dari alat ini kira-kira 10-20%.
00:01:30Angka ini signifikan mengingat bagaimana akurasi LLM biasanya.
00:01:33Sebaliknya, ini berarti agen tersebut benar sebagian besar waktu dan hasil positif aslinya
00:01:37tinggi.
00:01:38Arsitektur di baliknya adalah apa yang membuatnya berbeda.
00:01:40Jika Anda meminta Claude code atau agen apa pun untuk tinjauan keamanan, ia akan mulai dengan memindai langsung
00:01:45basis kode dan kemudian menghasilkan laporan tinjauan lengkap.
00:01:48Itu tidak hanya memakan banyak waktu, tetapi juga menghabiskan banyak token dan tinjauan tersebut
00:01:52mungkin masih melewatkan beberapa hal.
00:01:53Jadi bagian pertama dari alur kerja ini adalah pemindaian, melakukan pemindaian khusus RegEx pada semua file untuk
00:01:58area sensitif keamanan yang akan menjadi fokus langkah selanjutnya.
00:02:01Deteksi RegEx penting di sini karena alat ini dirancang untuk basis kode besar di mana
00:02:06bisa dengan mudah terdapat ribuan file.
00:02:08Pencocokan RegEx adalah serangkaian pola kode yang mencocokkan area yang diketahui kemungkinan memiliki
00:02:13kerentanan keamanan dan kemudian menyaring file-file tersebut dari kumpulan yang besar.
00:02:16Setelah kumpulan besar file disaring, langkah berikutnya adalah investigasi menggunakan agen.
00:02:21Agen adalah bagian yang mahal karena menghabiskan banyak token dan biasanya memakan waktu
00:02:25lama tergantung seberapa besar basis kode Anda sebenarnya.
00:02:28Jadi alat ini membagi semua file ke dalam kelompok-kelompok dan memparalelkannya sehingga dapat diproses
00:02:32pada waktu yang sama.
00:02:34Setelah proses itu selesai, ada langkah validasi ulang lainnya di mana investigasi
00:02:37diperiksa kembali sehingga hasil positif palsu dicek silang.
00:02:40Jika ada sesuatu yang terlewatkan, langkah ini akan menangkapnya dan memastikan klasifikasi telah dilakukan
00:02:45dengan benar.
00:02:46Validasi ulang ini sebenarnya bersifat opsional.
00:02:47Setelah itu, agen menggunakan metadata Git dan sumber lain untuk mengidentifikasi siapa saja yang
00:02:51bertanggung jawab atas masalah tersebut.
00:02:53Setelah semua itu selesai, temuan disimpan sebagai markdown atau JSON sehingga dapat
00:02:57diubah menjadi tiket untuk manusia maupun agen pengodean.
00:03:01Seperti yang disebutkan sebelumnya, file dikelompokkan ke dalam batch dengan sekitar 5 file diproses
00:03:05bersama per batch.
00:03:06Untuk setiap batch, prompt baru disusun berdasarkan kerangka kerja yang diidentifikasi bersama dengan
00:03:11informasi proyek lainnya.
00:03:12Ini kemudian dianalisis oleh Claude Agent SDK atau Codex Agent SDK, mana pun yang telah Anda konfigurasi
00:03:17dan mereka diberikan alat dengan akses baca-saja untuk memahami apa yang ada dalam basis kode.
00:03:22Setelah mereka memiliki temuan, semuanya digabungkan menjadi satu file yang dideduplikasi
00:03:26dan dinormalisasi.
00:03:27Pada akhirnya, ada langkah tindak lanjut untuk memastikan analisis benar-benar mencakup semuanya.
00:03:31Arsitektur ini membuatnya efektif karena prosesnya yang sistematis dan metode analisis yang terstruktur
00:03:36dan ini membantu mengidentifikasi masalah jauh lebih baik daripada yang bisa dilakukan tanpa harness.
00:03:41Jadi untuk menguji ini, kami menggunakan proyek sumber terbuka yang merupakan aplikasi web yang berisi
00:03:45risiko keamanan bawaan hanya untuk latihan.
00:03:47Kami ingin melihat apakah alat ini mampu mendeteksi semua masalah di repo ini
00:03:52secara mandiri.
00:03:53Proyek ini berisi 10 masalah keamanan dengan semua detail tersedia langsung di dalam kode
00:03:56itu sendiri termasuk cara menghapusnya.
00:03:58Jadi untuk menjalankan DeepSec, Anda pertama-tama menjalankan perintah deepsec init yang menginstal dependensi
00:04:03dan membuat folder .deepsec, lalu Anda menginstal dependensi di dalam folder tersebut.
00:04:08Ini juga memberi Anda prompt yang perlu Anda tempelkan ke agen pengodean mana pun yang Anda gunakan.
00:04:12Karena kami menggunakan Claude code, kami menjalankan prompt itu di Claude yang berisi instruksi
00:04:16untuk membuat file info.md kecil yang mencakup semua informasi proyek dan dibangun berdasarkan
00:04:21templat tertentu.
00:04:23Anda tidak harus menjalankan perintah ini di folder proyek itu sendiri, Anda menjalankannya di folder .deepsec
00:04:27karena ia menginstruksikan agen untuk melihat ke direktori sebelumnya dan membaca semua
00:04:31informasi darinya.
00:04:32File info.md berisi gambaran umum tentang apa yang dilakukan basis kode dan seperti apa alur autentikasinya,
00:04:37serta model ancaman, pola spesifik proyek, dan semua hasil positif palsu
00:04:42yang diketahui di dalam kode.
00:04:44Jadi setelah file ini dibuat, tugas berikutnya adalah menjalankan perintah deepsec scan.
00:04:48Perintah ini adalah pencocokan regex yang kita bicarakan sebelumnya dan ia menemukan semua endpoint
00:04:52yang cocok dan mencantumkan semua file tersaring yang berisi potensi masalah keamanan.
00:04:57Bagian ini terjadi dengan cepat karena hanya kode yang bekerja secara langsung.
00:05:00Langkah selanjutnya adalah menjalankan perintah deepsec process.
00:05:02Anda dapat menentukan kunci API apa pun dari model yang ingin Anda gunakan, baik itu gateway API Vercel,
00:05:07Codex, atau Claude di dalam file .env.local.
00:05:11Tetapi jika Anda tidak melakukannya, seperti yang kami lakukan, secara otomatis akan menggunakan langganan Claude code
00:05:16dan menggunakan autentikasi Anda alih-alih memerlukan kunci API apa pun.
00:05:19Ini membagi proyek menjadi beberapa batch dan memanggil beberapa alat pada masing-masing batch.
00:05:23Setelah setiap batch, ia memberikan ringkasan berapa banyak token yang digunakan dan berapa perkiraan
00:05:27biayanya.
00:05:28Sekarang, jika Anda menggunakan langganan, Anda tidak akan dikenakan biaya apa pun di luar langganan Anda
00:05:32tetapi ia tetap memberikan perkiraan biaya API.
00:05:35Karena ini dirancang untuk tinjauan basis kode besar, alat ini tetap mengutamakan keandalan.
00:05:39Jadi jika terjadi kesalahan selama peninjauan, ia tidak mengulang semuanya dari
00:05:43awal melainkan melanjutkan dari titik di mana kesalahan itu terjadi.
00:05:46Setelah pemindaian selesai, Anda menjalankan perintah deepsec report dan ia akan menghasilkan laporan
00:05:50dalam format JSON dan Markdown yang berisi gambaran umum dari semua temuan yang dikategorikan
00:05:55berdasarkan tingkat keparahan.
00:05:56Nah, setelah laporan ini dibuat, Anda dapat menjalankan langkah validasi ulang.
00:06:00Langkah ini sepenuhnya opsional.
00:06:02Anda bisa menjalankannya jika mau atau melewatkannya sama sekali.
00:06:04Begitu Anda menjalankannya, ia memvalidasi temuan untuk memeriksa apakah laporan tersebut positif palsu
00:06:08atau bukan.
00:06:09Setelah itu selesai, Anda dapat mengekspor semuanya menggunakan perintah export dan ia akan menulis
00:06:13temuan tersebut ke dalam folder findings.
00:06:15Folder findings ini berisi masalah yang diurutkan berdasarkan prioritas sebagai nama folder dan membuat satu
00:06:20file per masalah yang diidentifikasi.
00:06:22Pertama-tama ia mencantumkan sumber masalah yang berarti file yang tepat dan baris yang menyebabkan masalah,
00:06:26seberapa parah masalahnya dan seberapa yakin model dalam mengidentifikasinya.
00:06:30Ia juga menyebutkan commit mana yang memperkenalkan masalah tersebut dan menetapkan pengguna yang melakukan commit.
00:06:34Kemudian ia menjelaskan perbaikan yang direkomendasikan, mencantumkan hasil validasi ulang dan menyebutkan semua
00:06:39masalah yang secara eksplisit ditangani.
00:06:41Ia juga menyertakan langkah-langkah untuk mereproduksi bug di dalam temuan tersebut.
00:06:44Tetapi laporan ini masih belum mengidentifikasi semua masalah, meskipun tutorialnya
00:06:48sebenarnya ada di dalam kode itu sendiri dan seharusnya ia mampu mengidentifikasinya.
00:06:52Jadi kami beriterasi dengan Claude tentang mengapa pelajaran kerentanan asli yang sengaja dimasukkan
00:06:56ke dalam aplikasi tidak teridentifikasi.
00:06:59Setelah beriterasi dengan Claude, kami menemukan bahwa alasan alat ini hanya melaporkan 3 temuan adalah
00:07:03karena penyebutan eksplisit dalam file info.md.
00:07:07DeepSec mengharapkan aplikasi di mana 10 kerentanan tersebut sudah diketahui dan ia hanya fokus pada masalah
00:07:12di luar itu karena masalah tersebut sudah diketahui, artinya ia sebenarnya mencoba untuk melampaui
00:07:16apa yang sudah diketahui dan hanya fokus pada pola lain agar pemindaian menjadi jauh lebih
00:07:21efektif dan tidak membuang waktu serta token untuk masalah yang sudah didokumentasikan.
00:07:25Kami kemudian menguji aplikasi lain untuk melihat apakah kali ini hasilnya lebih baik.
00:07:28Kami menjalankan langkah-langkah yang sama, mulai dari pemindaian hingga tahap pemrosesan.
00:07:32Kami tidak menjalankan bagian validasi ulang, kami hanya membuat laporan dan mengekspornya secara langsung.
00:07:36Dan kali ini file info.md Claude hanya berisi detail tentang aplikasi dan tidak menyertakan pernyataan
00:07:42seperti yang sebelumnya.
00:07:43Berdampingan dengan itu, kami juga meminta Claude untuk meninjau kode tersebut dan menulis file report.md dengan
00:07:48tinjauan keamanan lengkap sehingga kami bisa membandingkan mana yang sebenarnya berkinerja lebih baik.
00:07:52Jadi laporan yang dibuat oleh DeepSec menemukan beberapa bug dengan tingkat keparahan yang berbeda.
00:07:56Alat ini menemukan 9 masalah dan membuat laporan terperinci bersama dengan langkah-langkah yang direkomendasikan tentang cara memperbaiki
00:08:01masalah tersebut.
00:08:02Dan langkah-langkah yang direkomendasikan inilah yang dilewatkan oleh sebagian besar laporan lain karena inilah yang membantu
00:08:05agen memahami cara memperbaiki masalah, yang membuat penelusuran kesalahan menjadi jauh lebih mudah.
00:08:09Tetapi kami memperhatikan bahwa laporan Claude jauh lebih rinci dan menyoroti 39 masalah.
00:08:13Jadi kami memintanya untuk membuat diff terlebih dahulu.
00:08:15Diff tersebut menunjukkan bahwa jumlah temuan Claude lebih besar.
00:08:18Tetapi kami sudah melihat ini selama pengujian kami dengan Codex.
00:08:20Claude cenderung mengidentifikasi masalah lain di samping cakupan yang ditentukan.
00:08:24Ia tidak semata-mata fokus pada masalah dalam cakupan yang dirancang khusus untuk DeepSec.
00:08:29Jadi setelah kami memintanya untuk fokus hanya pada cakupan, ia mempersempit temuan menjadi 13 masalah.
00:08:34Namun masih ada beberapa masalah yang dilewatkan DeepSec yang teridentifikasi dalam laporan Claude.
00:08:38Alasan DeepSec melewatkan beberapa temuan adalah karena ia hanya fokus pada masalah yang
00:08:43terkandung langsung dalam kode dan yang dapat diselesaikan langsung dari fungsi itu sendiri.
00:08:47Ia tidak mengidentifikasi masalah yang mungkin muncul saat aplikasi benar-benar berjalan, seperti masalah terkait
00:08:52CORS.
00:08:53Ia juga tidak benar-benar fokus pada pola logis dan keputusan arsitektural.
00:08:57Seperti yang kami sebutkan sebelumnya, ia menggunakan RegEx untuk menyaring file terlebih dahulu.
00:09:01Jadi ia terutama fokus pada apa yang secara eksplisit ada dalam kode dan bukan pada masalah yang
00:09:05mungkin terjadi secara dinamis saat aplikasi dijalankan.
00:09:08Juga jika Anda menyukai konten kami, pertimbangkan untuk menekan tombol hype karena itu membantu kami
00:09:12membuat lebih banyak konten seperti ini dan menjangkau lebih banyak orang.
00:09:15Sekarang alih-alih menjalankan langkah-langkah ini satu per satu sendirian, kami telah membuat skill DeepSec ini
00:09:20yang berisi semua instruksi tentang cara menggunakan pemindai keamanan Vercel dari awal hingga akhir
00:09:24dan bagaimana ia harus mengidentifikasi dari prompt pengguna apa yang ditanyakan.
00:09:28Ia kemudian mengikuti seluruh proses langkah demi langkah dan mengelola seluruh harness secara mandiri.
00:09:32Ini juga dipaketkan dengan beberapa aset, evaluasi, dan referensi untuk semua masalah, bersama dengan
00:09:37beberapa skrip yang mungkin sangat membantu dengan solusi kerja dan fungsi keseluruhan
00:09:42dari repositori ini.
00:09:43Jadi dengan ini, Anda tinggal menjalankan pemindaian keamanan ini dan menentukan model mana yang ingin
00:09:47Anda gunakan dan ia akan menangani semuanya secara langsung untuk Anda.
00:09:50Ia akan menjalankan semua langkah yang kita lihat sebelumnya sambil juga menangani masalah yang terlewatkan
00:09:54sebelumnya dan akan mampu melakukan tinjauan keamanan yang jauh lebih baik dengan menggabungkan kemampuan
00:09:59DeepSec sambil juga menutup celah dalam temuannya.
00:10:02Nah, skill ini beserta semua sumber dayanya dapat ditemukan di AI Labs Pro untuk video ini dan
00:10:07untuk semua video kami sebelumnya dari mana Anda dapat mengunduh dan menggunakannya untuk proyek Anda sendiri.
00:10:11Jika Anda menemukan nilai dalam apa yang kami lakukan dan ingin mendukung saluran ini, ini adalah cara terbaik
00:10:15untuk melakukannya.
00:10:16Tautannya ada di deskripsi.
00:10:17Itu membawa kita ke akhir video ini.
00:10:19Jika Anda ingin mendukung saluran ini dan membantu kami terus membuat video seperti ini, Anda dapat melakukannya
00:10:23dengan menggunakan tombol super thanks di bawah.
00:10:25Seperti biasa, terima kasih telah menonton dan sampai jumpa di video berikutnya.

Key Takeaway

DeepSec mengatasi risiko penghapusan data produksi oleh agen AI melalui arsitektur pemindaian sistematis yang menggabungkan filtrasi RegEx dan pemrosesan paralel menggunakan model Claude Opus serta GPT 5.5.

Highlights

  • Vercel merilis DeepSec sebagai harness keamanan sistematis untuk mendeteksi pelanggaran dan kerentanan dalam aplikasi berbasis AI.

  • Sistem ini menggunakan desain paralel untuk memproses basis kode besar dengan tingkat positif palsu berkisar antara 10-20%.

  • DeepSec mengoperasikan model Claude Opus 4.7 dan GPT 5.5 dengan penalaran ekstra tinggi untuk memastikan akurasi peninjauan.

  • Alur kerja dimulai dengan pemindaian khusus RegEx untuk menyaring file sensitif sebelum melibatkan agen AI yang memakan banyak token.

  • Laporan akhir tersedia dalam format JSON atau Markdown yang mencakup langkah-langkah reproduksi bug dan rekomendasi perbaikan spesifik.

  • Integrasi dengan metadata Git memungkinkan sistem mengidentifikasi komit dan pengguna yang bertanggung jawab atas munculnya masalah keamanan.

Timeline

Risiko Keamanan dalam Pengodean Berbasis AI

  • Kecepatan rilis kode yang meningkat melalui bantuan AI berbanding lurus dengan penumpukan masalah keamanan aplikasi.
  • Insiden penghapusan seluruh proyek dan basis data produksi sering terjadi akibat tindakan agen AI yang tidak terkendali.
  • Kebocoran data internal seperti file Clod.md milik Apple menunjukkan urgensi alat deteksi kerentanan yang lebih kuat.

Penggunaan AI membuat pembuatan kode lebih cepat namun meningkatkan risiko teknis yang fatal. Kasus nyata menunjukkan agen AI dapat menghapus basis data produksi saat mengerjakan tugas yang tidak terkait. Hal ini mendorong kebutuhan akan solusi sistematis seperti DeepSec untuk menangkap kesalahan sebelum berdampak pada lingkungan produksi.

Arsitektur dan Struktur Kerja DeepSec

  • DeepSec menggunakan struktur sistematis yang lebih unggul dibandingkan pemindaian mandiri oleh agen seperti Claude code.
  • Pemindaian awal menggunakan pola RegEx menyaring ribuan file untuk menemukan area kode yang paling rentan.
  • Sistem membagi file ke dalam kelompok batch berisi 5 file untuk diproses secara paralel guna menghemat waktu.

Berbeda dengan agen AI standar yang langsung memindai seluruh basis kode, DeepSec menggunakan pendekatan bertahap. Penggunaan RegEx di awal berfungsi untuk menekan konsumsi token yang mahal dengan mengidentifikasi target investigasi secara spesifik. Arsitektur ini mengutamakan ketepatan hasil melalui validasi ulang opsional untuk meminimalkan kesalahan deteksi.

Manajemen Biaya dan Integrasi Model

  • Model paling kuat seperti Opus 4.7 dan GPT 5.5 digunakan secara maksimal meskipun mengonsumsi banyak token.
  • Data temuan dinormalisasi dan dideduplikasi menjadi satu file akhir untuk efisiensi pelaporan.
  • Metadata Git digunakan untuk melacak riwayat komit dan menetapkan akuntabilitas pada pengembang yang relevan.

Pengembang memilih model dengan penalaran tinggi untuk memastikan agen AI benar dalam sebagian besar waktu peninjauan. Sistem ini tidak dirancang untuk murah, melainkan untuk keandalan maksimal dalam basis kode skala besar. Setiap temuan dikonversi menjadi tiket yang dapat ditindaklanjuti oleh manusia maupun agen pengodean otomatis lainnya.

Prosedur Implementasi dan Inisialisasi

  • Perintah 'deepsec init' menginstal dependensi yang diperlukan dan membuat folder konfigurasi khusus.
  • File info.md berfungsi sebagai panduan bagi agen untuk memahami model ancaman dan alur autentikasi aplikasi.
  • Sistem memiliki fitur ketahanan yang memungkinkan proses berlanjut dari titik kesalahan tanpa mengulang dari awal.

Langkah awal melibatkan pembuatan profil proyek yang mendalam agar agen AI tidak membuang token pada masalah yang sudah diketahui. Jika terjadi gangguan koneksi atau kesalahan API selama pemrosesan batch, DeepSec tetap menjaga integritas data dengan melanjutkan progres yang tersisa. Autentikasi dapat dilakukan melalui kunci API mandiri atau menggunakan langganan Claude code yang sudah ada.

Analisis Hasil dan Batasan Teknis

  • Laporan akhir mengategorikan temuan berdasarkan tingkat keparahan dan tingkat kepercayaan model terhadap isu tersebut.
  • DeepSec fokus pada masalah statis di dalam kode dan sering mengabaikan masalah dinamis seperti konfigurasi CORS.
  • Integrasi kemampuan DeepSec dengan instruksi kustom dapat menutupi celah temuan yang terlewatkan selama pemindaian standar.

Dalam pengujian praktis, DeepSec berhasil mengidentifikasi masalah yang direkomendasikan untuk diperbaiki secara langsung dari fungsi kode. Meskipun demikian, alat ini memiliki keterbatasan dalam mendeteksi pola logis atau keputusan arsitektural yang muncul saat aplikasi berjalan. Efektivitas maksimal dicapai dengan menggabungkan pemindaian sistematis DeepSec dengan tinjauan berbasis konteks dari agen AI.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video