Panel Coding untuk Masa Depan

VVercel
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00(musik yang ceria) - Selamat datang di panel Future of AI Coding.
00:00:04Terima kasih sudah membaca memo bahwa kalian harus mengenakan pakaian hitam semua.
00:00:07(tertawa) Baiklah,
00:00:08jadi aku ingin membahas sedikit tentang pengenalan diri.
00:00:12Aku mengenal masing-masing kalian dengan cara yang berbeda,
00:00:15tapi mungkin audiens tidak sepenuhnya tahu.
00:00:17Matan, kenapa kamu tidak memulai duluan?
00:00:19Apa posisi Factory terhadap dunia yang lebih luas dalam hal AI coding?
00:00:26- Ya,
00:00:26jadi di Factory,
00:00:27misi kami adalah membawa otonomi ke dalam software engineering.
00:00:32Dan artinya lebih konkret,
00:00:33kami telah membangun agen pengembangan software end-to-end yang disebut droids.
00:00:38Mereka tidak hanya fokus pada coding itu sendiri,
00:00:40tapi benar-benar seluruh lifecycle pengembangan software end-to-end.
00:00:43Seperti dokumentasi,
00:00:44testing,
00:00:45review,
00:00:45semua bagian yang tidak menyenangkan itu,
00:00:48sehingga kamu bisa melakukan bagian yang lebih menyenangkan seperti coding itu sendiri.
00:00:52Dan untuk bagian coding yang tidak ingin kamu lakukan,
00:00:54droids juga bisa melakukannya.
00:00:56Jadi kalian membangun droids.
00:00:58Kalian membangun droids.
00:00:59Dan OpenAI jelas memerlukan beberapa pengenalan,
00:01:03tapi peran kamu di tim codecs,
00:01:05aku lihat kamu muncul di video codecs.
00:01:08Itu cara aku tahu bahwa kamu sedang mengerjakannya.
00:01:10Tapi bagaimana kamu berpikir tentang codecs akhir-akhir ini karena sudah berkembang banyak?
00:01:14- Ya,
00:01:15jadi lebih awal tahun ini,
00:01:16kami meluncurkan agen coding pertama kami.
00:01:19Aku bekerja di codec CLI,
00:01:21membawa kekuatan model reasoning kami ke komputer orang.
00:01:26Kemudian kami merilis codecs cloud di mana kamu benar-benar bisa mendistribusikan dan mendelegasikan tugas-tugas itu untuk bekerja di cloud.
00:01:31Dan selama beberapa bulan terakhir,
00:01:32kami menyatukan pengalaman-pengalaman ini.
00:01:34Sehingga mereka bekerja dengan semulus mungkin.
00:01:36Jadi fokus kami banyak di sekitar bagaimana kami membuat fundamentals,
00:01:40primitives sesederhana mungkin.
00:01:41Kami baru saja merilis dev day codecs SDK.
00:01:43Jadi aku pikir salah satu arah kunci yang kami lihat bukan hanya menggunakan coding atau code executing agents untuk coding,
00:01:50tapi juga untuk tugas-tugas general purpose.
00:01:52Dan baik itu try to be the agent,
00:01:54yang aku kerjakan lebih awal tahun ini yang benar-benar mengeksekusi kode di background untuk menyelesaikan beberapa tugas,
00:01:59tapi mulai mengaktifkan developer kami untuk membangun di atas tidak hanya model reasoning,
00:02:03tapi juga hal-hal seperti sandboxing dan semua primitives lainnya yang kami bangun ke dalam codecs.
00:02:07- Keren.
00:02:09V0?
00:02:10- Ya,
00:02:10tujuan V0 adalah mengaktifkan developer untuk melakukan agentic programming yang didorong preview.
00:02:16Jadi hari ini ketika kamu membangun web app,
00:02:19kamu mungkin memiliki agent terbuka,
00:02:20IDE terbuka,
00:02:21jadi semacam code,
00:02:22dan kemudian preview dari apa yang kamu benar-benar bangun.
00:02:25Biasanya kamu menjalankan dev server.
00:02:26Dengan V0,
00:02:27tujuan kami adalah memungkinkan kamu hanya memiliki agent yang berjalan dan directly prompt terhadap aplikasi yang sedang berjalan.
00:02:32Dan itulah bagaimana kami berpikir masa depan DX akan terjadi.
00:02:35- Baiklah, keren.
00:02:36Dan semua orang memiliki area permukaan yang berbeda untuk mengakses agent coding kamu.
00:02:40Jadi aku pikir salah satu hal yang ingin kami mulai adalah seberapa penting local versus cloud?
00:02:45Kamu memulai local dengan cloud,
00:02:47kamu memulai cloud dengan local,
00:02:48kamu hanya cloud untuk sekarang.
00:02:50Berapa split-nya?
00:02:52Apakah semua orang hanya akan merge pada akhirnya?
00:02:55- Ya, jadi mungkin aku bisa mulai di sana.
00:02:58Jadi aku pikir pada akhir hari,
00:02:59poin dari agent-agent ini adalah mereka seproduktif mungkin dan mereka memiliki silhouette yang sangat mirip dengan manusia yang mungkin kamu bekerja dengannya.
00:03:08Dan kamu tidak memiliki manusia lokal dan manusia jarak jauh yang seperti entah bagaimana,
00:03:12tahu,
00:03:12yang satu ini hanya bekerja di lingkungan ini,
00:03:14yang satu itu hanya bekerja di lingkungan itu.
00:03:16Pada umumnya,
00:03:16manusia bisa membantu apakah kamu dalam rapat dengan mereka dan kamu muncul dengan ide atau kamu duduk bersebelahan di komputer.
00:03:24Jadi aku rasa secara asimtotis,
00:03:26ini perlu menjadi sama,
00:03:27tapi aku pikir dalam jangka pendek,
00:03:29remote biasanya apa yang kami lihat adalah biasanya lebih berguna untuk tugas-tugas yang lebih kecil yang lebih yakin bisa kamu delegasikan dengan andal.
00:03:39Sedangkan local adalah ketika kamu ingin sedikit lebih dekat dengan agent,
00:03:43mungkin ada tugas yang lebih besar atau tugas yang lebih rumit yang akan kamu monitor secara aktif.
00:03:49Dan kamu ingin itu lokal sehingga jika ada yang salah,
00:03:52kamu tidak perlu pull branch itu ke bawah dan mulai mengerjakannya,
00:03:55tapi malah kamu ada di sana untuk memandu.
00:03:57- Ya, mungkin aku hanya serakah, tapi aku ingin keduanya.
00:04:00Dan aku pikir memiliki modality sesuai poin Matan di mana aku suka berpikir tentang apa saja bentuk kolaborasi utama yang terbiasa aku lakukan dan aku nikmati dengan rekan kerja.
00:04:11Sering kali itu dimulai dengan sesuatu seperti sesi whiteboarding dan mungkin kami hanya sedang brainstorm tentang sesuatu dalam sebuah ruangan.
00:04:17Ketika kami membangun,
00:04:18aku pikir contoh yang bagus adalah agents.md,
00:04:21yang merupakan custom instructions kami yang dimaksudkan untuk generic di seluruh berbagai agent coding.
00:04:26Cara itu dimulai adalah Romain dan aku hanya dalam sebuah ruangan yang muncul dengan ide ini.
00:04:31Kemudian kami hanya mulai whiteboarding dan kemudian mengambil foto dan kemudian kick it off di codec CLI secara lokal,
00:04:37seperti dalam workshop di Next.js app yang bisa kami kerjakan,
00:04:40pergi makan siang,
00:04:41kembali.
00:04:41Ini memiliki struktur inti yang cukup baik.
00:04:44Dan dari sana, kami bisa iterate sedikit lebih dekat.
00:04:46Jadi memiliki pairing dan brainstorm style experience.
00:04:49Dan kemudian aku pikir ke poin kedua tentang apa jenis tugas yang kamu delegasikan,
00:04:53aku pikir secara historis lebih kecil,
00:04:55monarily scoped tasks di mana kamu sangat jelas tentang apa outputnya,
00:04:59jenis modality yang tepat jika kamu melakukan fire and forget.
00:05:02Tapi aku pikir apa yang kami mulai lihat dengan,
00:05:04kami baru saja meluncurkan GBD5 codecs sekitar dua bulan yang lalu.
00:05:08Dan aku pikir salah satu perbedaan utama adalah itu benar-benar bisa melakukan tugas-tugas yang lebih lama berjalan,
00:05:12lebih kompleks,
00:05:13lebih ambigu,
00:05:13selama kamu jelas tentang apa yang kamu ingin di akhir.
00:05:16Jadi itu bisa bekerja selama berjam-jam.
00:05:18Aku pikir pergeseran itu saat model meningkat dalam kemampuan akan mulai mengaktifkan lebih banyak use cases.
00:05:24- Ya.
00:05:24Ya, aku pikir ada tiga bagian untuk membuat agent bekerja.
00:05:27Ada agent loop aktual,
00:05:29ada tool calls yang dibuat,
00:05:30dan kemudian resources di mana tool calls perlu bertindak.
00:05:34Apakah kamu pergi cloud atau local first didasarkan pada di mana resources itu berada,
00:05:37kan?
00:05:37Jika kamu mencoba bekerja di file system lokal,
00:05:39itu adalah resources yang perlu kamu akses.
00:05:41Ini benar-benar masuk akal bahwa agent loop kamu harus berjalan lokal,
00:05:44kan?
00:05:44Jika kamu mengakses resources yang biasanya ada di cloud kamu menarik dari GitHub,
00:05:48langsung dari semacam repo third party,
00:05:50maka itu masuk akal untuk agent kamu mulai dari cloud,
00:05:53kan?
00:05:54Pada akhirnya meskipun,
00:05:55resources ini ada di kedua tempat,
00:05:57kan?
00:05:57Setiap developer mengharapkan agent untuk bisa bekerja baik di file system lokal,
00:06:02juga di PR terbuka yang mungkin di-host di GitHub.
00:06:04Dan jadi tidak benar-benar penting di mana kamu mulai,
00:06:07aku pikir,
00:06:07semua orang berkumpul di tempat yang sama,
00:06:09yang mana agent loop kamu perlu bisa berjalan di mana saja,
00:06:12tool calls kamu perlu bisa di-stream dari cloud lokal atau dari backup lokal ke cloud.
00:06:16Dan kemudian semua tergantung di mana resources yang kamu benar-benar ingin bertindak berada.
00:06:20- Ya, keren.
00:06:22Baiklah,
00:06:22jadi kami sedang chatting off stage dan kami sedang casting di sekitar untuk pertanyaan spicy dan semacamnya.
00:06:27Jadi aku benar-benar suka yang ini dan aku pikir ini sangat topical.
00:06:31Kalian generate slop sebagai profesi?
00:06:33Seperti apakah kita dalam bahaya potensial berada dalam hype bubble
00:06:40di mana kita percaya bahwa ini adalah seperti jalan yang berkelanjutan menuju AGI?
00:06:44- Maksudku,
00:06:45aku pikir untuk memulai,
00:06:46kamu bisa mengatakan bahwa slop satu orang adalah harta karun orang lain,
00:06:50yang sampai batas tertentu mungkin benar.
00:06:52Seperti,
00:06:52tahu,
00:06:53jika misalnya,
00:06:54kamu punya,
00:06:54aku tidak tahu,
00:06:55katakanlah kamu punya repo yang tidak memiliki dokumentasi sama sekali.
00:07:00Kamu bisa menggunakan,
00:07:02tahu,
00:07:02banyak dari tool yang kami sudah bicarakan untuk pergi dan generate dokumentasi untuk repo ini.
00:07:08Nah,
00:07:09apakah itu akan menjadi seperti piece of documentation yang paling halus?
00:07:13Tidak, tapi apakah itu memberikan alpha?
00:07:16Ya,
00:07:16di pikiran saya,
00:07:17karena harus menyaring beberapa code base legacy super old yang tidak punya docs jauh lebih sulit daripada melampaui beberapa dokumentasi yang agak sloppy.
00:07:26Dan jadi aku pikir hal besar adalah memahami di mana kamu bisa menggunakan tool-tool ini untuk leverage dan tingkat di mana itu slop,
00:07:34aku pikir juga tergantung pada berapa banyak guidance yang kamu berikan.
00:07:38Jadi jika kamu hanya mengatakan seperti,
00:07:40build me an app that does this,
00:07:41seperti kamu mungkin akan mendapatkan beberapa generic slop app yang melakukan-- - Ini ungu.
00:07:44- Ya, biru, ungu seperti fade, ya.
00:07:48Sebaliknya jika kamu seperti sangat metodis tentang persis apa itu yang kamu inginkan,
00:07:52kamu menyediakan tool untuk benar-benar menjalankan tests untuk memverifikasi beberapa capabilities yang kamu minta.
00:07:58Aku pikir itu membuat jauh lebih terstruktur dengan cara yang sama bahwa jika kamu,
00:08:02tahu,
00:08:03hire beberapa junior engineer ke tim kamu dan kamu hanya mengatakan,
00:08:07hei,
00:08:07go do this.
00:08:08Seperti mereka mungkin akan menghasilkan beberapa median outcome karena mereka tidak memiliki spesifikasi lain untuk didasarkan.
00:08:14Dan ini cukup ambigu seperti apa yang kamu benar-benar inginkan dilakukan.
00:08:19- Aku pikir kata kunci di sana adalah leverage, kan?
00:08:21Seperti apa yang AI coding agents izinkan kamu untuk lakukan adalah melakukan 10X lebih banyak daripada yang bisa kamu lakukan sendiri dengan floor yang cukup tinggi,
00:08:27kan?
00:08:27Jadi jika kamu plot skill level terhadap seberapa berguna agent atau seberapa kemungkinan,
00:08:31tahu,
00:08:31seberapa berguna itu sebenarnya dalam menghasilkan non-slop,
00:08:34ada mungkin seperti floor yang cukup rendah jika kamu tidak memiliki skill.
00:08:36Kamu memiliki floor yang cukup tinggi masih, kan?
00:08:38Agent cukup baik hanya out of the box.
00:08:39Jika kamu tidak tahu apa-apa tentang development,
00:08:41agent akan melakukan jauh lebih banyak daripada yang bisa kamu lakukan.
00:08:44Tapi saat kamu mencapai skill levels yang lebih tinggi dan lebih tinggi,
00:08:46senior dan principal dan distinguished engineers benar-benar menggunakan agents berbeda.
00:08:50Mereka menggunakannya untuk level up hal-hal yang sudah bisa mereka lakukan.
00:08:53Tahu,
00:08:53principal engineer mungkin bisa menulis secara manual 5,
00:08:56000 baris code sehari.
00:08:57Dengan agents,
00:08:58mereka bisa menulis seperti 50,
00:08:59000 baris code sehari.
00:09:00Dan itu benar-benar beroperasi pada tingkat kualitas input dan pengetahuan yang kamu letakkan di sana.
00:09:04Jadi aku pikir kami,
00:09:06tahu,
00:09:06perlahan-lahan raising the floor seiring waktu dengan,
00:09:09tahu,
00:09:10building better agents.
00:09:11Tapi aku benar-benar pikir itu adalah bentuk leverage.
00:09:14Ini adalah cara untuk kamu mempercepat jenis hal-hal yang sudah bisa kamu lakukan,
00:09:17melakukannya lebih cepat.
00:09:18Dan untuk orang-orang yang tidak memiliki skills,
00:09:20tahu,
00:09:20itu adalah saat kamu benar-benar bisa raise the floor dari apa yang bisa dilakukan.
00:09:23- Tentu saja,
00:09:24dan hanya untuk menambahkan kedua poin ini,
00:09:26aku pikir mereka adalah tool dan amplifier dari craft.
00:09:29Jika kamu punya, kamu bisa melakukan lebih dari itu.
00:09:31Jika kamu tidak,
00:09:32ini hanya lebih sulit,
00:09:32tapi itu does raise the floor.
00:09:34Aku pikir itu benar-benar worth calling out.
00:09:36Aku pikir untuk orang-orang yang hanya mencoba membangun prototype pertama mereka,
00:09:40mereka mencoba iterate ide bahwa contoh yang disebutkan lebih awal.
00:09:44Ini bukan bahwa aku tidak bisa membuat front end yang semacam adalah seperti content-driven site,
00:09:49tapi aku hanya tidak punya waktu.
00:09:51Dan ini lebih menyenangkan untuk hanya menggambar di whiteboard,
00:09:54berbicara,
00:09:54punya percakapan,
00:09:55dan kemudian kick itu off ke agent.
00:09:57Tapi aku pikir salah satu contoh menarik dari ini adalah saat kami membangun iterasi jauh lebih awal dari codecs dan lebih dari satu tahun yang lalu.
00:10:03Dan kami sedang menempatkan di depan dua archetypes berbeda,
00:10:07orang-orang yang melakukan banyak product engineering di mana mereka terbiasa menggunakan local,
00:10:13inner loop style tools di mana mereka terbiasa hanya chatting dan mungkin iterating.
00:10:19Dan kemudian modality yang sama sekali berbeda saat kami berbicara dengan orang-orang di reasoning teams di mana mereka akan duduk selama mungkin lima menit hanya mendefinisikan tugas dan memiliki essay length,
00:10:28seperti word problem untuk agent untuk go off dan lakukan,
00:10:31dan kemudian itu akan bekerja selama satu jam.
00:10:33Dan itu secara efektif 01 atau earlier kind of versions dari itu.
00:10:37Dan aku pikir bagian menarik di sana adalah hanya cara bahwa orang-orang akan approach memberikan tugas ke agent adalah sama sekali berbeda berdasarkan understanding mereka tentang apa yang mereka pikir diperlukan.
00:10:48Dan jadi aku pikir benar-benar anchoring pada specificity,
00:10:51being really clear tentang apa yang kamu ingin output menjadi.
00:10:55Dan aku pikir ada broader item yang adalah responsibility di kedua kami sebagai builders dari agents dan folk training models untuk benar-benar raise that floor dan untuk ensure bahwa ceiling untuk orang dengan high craftsmanship,
00:11:07dengan high taste bisa exercise itu dalam cara yang mereka lihat fit.
00:11:11- Aku pikir sebenarnya sesuatu yang kamu mention bawa ide ini ke pikiran bahwa kami mulai perhatikan.
00:11:16Jadi target audience kami adalah enterprise.
00:11:19Dan sesuatu yang kami lihat terjadi berulang kali adalah bahwa ada bimodality yang sangat menarik dalam hal adoption dari agent native development.
00:11:28Dan secara khusus,
00:11:29biasanya developer earlier in career lebih open-minded untuk mulai membangun dalam cara yang agent native,
00:11:35tapi mereka tidak memiliki experience dari managing engineering teams.
00:11:39Jadi mereka mungkin tidak paling familiar dengan delegation dalam cara yang bekerja dengan sangat baik.
00:11:44Sementara itu,
00:11:44engineer lebih berpengalaman memiliki banyak experience delegating.
00:11:47Mereka tahu bahwa,
00:11:48hei,
00:11:49jika aku tidak specify hal-hal yang tepat ini,
00:11:50itu tidak akan selesai.
00:11:51Dan jadi mereka benar-benar bagus di seperti menulis paragraph itu,
00:11:54tapi mereka cukup stubborn dan mereka benar-benar tidak ingin mengubah cara bahwa mereka membangun dan kamu akan harus pry Emacs out dari cold dead hands mereka.
00:12:03Jadi ini adalah balance menarik di sana.
00:12:05- Jadi lucu kamu mengatakan itu.
00:12:06Hal serupa yang kami lihat di enterprise adalah senior engineer,
00:12:09orang-orang lebih tinggi akan menulis tickets.
00:12:12Jadi mereka benar-benar akan melakukan pekerjaan dari menulis semua spec tentang apa yang perlu dilakukan.
00:12:16Mereka hand itu off ke junior engineer untuk benar-benar melakukannya.
00:12:18Junior engineer mengambil ticket yang super well-written itu dan memberikan itu ke agent untuk melakukannya,
00:12:21kan?
00:12:21Jadi kamu hanya arbitraging ide bahwa junior engineer akan benar-benar melakukan pekerjaan agent karena mereka lebih nyaman melakukan itu.
00:12:28Tapi senior engineer adalah orang yang benar-benar bagus di menulis spec,
00:12:32very good di memahami apa architectural decisions yang kita seharusnya buat dan putting itu ke dalam semacam ticket.
00:12:37- Ya,
00:12:38untuk mereka yang tidak tahu,
00:12:39Matan dan factory secara umum telah menulis dan advocating tentang age dari native development.
00:12:44Jadi kamu bisa read lebih banyak di website mereka.
00:12:45Aku pikir satu hal,
00:12:46by the way,
00:12:47aku benar-benar ingin issue mungkin seperti satu terminology thing,
00:12:50yang adalah raise the floor untuk kamu adalah hal yang bagus.
00:12:54Aku pikir sebenarnya orang-orang lain mengatakan lower the floor juga berarti hal yang sama.
00:12:57Basically hanya seperti ini tentang skill level dan seperti apa yang bisa mereka lakukan dan hanya memberikan orang-orang lebih banyak resources untuk itu.
00:13:05Aku pikir juga hal lain adalah seperti,
00:13:09banyak orang berpikir tentang model layer,
00:13:13kan?
00:13:13Jelas kalian punya model kalian sendiri,
00:13:17dua dari kalian tidak.
00:13:18Dan aku pikir ini ada hot topic dari conversation di value right now.
00:13:22Airbnb,
00:13:23Brian Chesky telah mengatakan bahwa seperti kebanyakan dari value adalah seperti relies pada Quinn apparently.
00:13:28Seberapa penting adalah open models untuk kalian dan kamu bisa,
00:13:31untuk apa yang kamu bisa chime in juga,
00:13:33tapi seperti seberapa penting adalah open models sebagai strategi untuk kedua kalian?
00:13:37- Aku akan penasaran untuk dengar dari kamu lebih dulu.
00:13:38- Ya.
00:13:38Well, cinta open models.
00:13:42Aku pikir satu hal penting tentang,
00:13:44jadi hanya bisa berbicara tentang models,
00:13:46aku pikir openness benar-benar key untuk aku pikir sustainable development lifecycle di mana dengan Codex CLI,
00:13:52kami open sourced itu out the gate dan bagian dari prioritas adalah understanding bahwa open model akan datang down the line.
00:13:58Kami ingin make sure bahwa kami bisa as best document bagaimana untuk menggunakan model reasoning kami.
00:14:03Kami lihat banyak dari semacam confusion tentang,
00:14:05apa kind dari tools untuk memberikan ke itu,
00:14:06apa environment seharusnya,
00:14:07resources.
00:14:08Dan jadi kami ingin make sure bahwa itu adalah as clear as possible dan kemudian juga make sure bahwa itu bekerja well dengan open models.
00:14:12Jadi aku pikir ada definitely banyak use cases,
00:14:15terutama ketika kamu masuk ke semacam embedded use cases atau di mana cases di mana kamu tidak ingin data untuk meninggalkan perimeter.
00:14:23Ada banyak alasan yang sangat baik untuk mengapa kamu akan ingin melakukan itu.
00:14:26Dan kemudian aku pikir benefit dari semacam cloud-hosted models,
00:14:29dan itu adalah apa yang kami lihat dengan banyak dari open models.
00:14:33Mereka end up menjadi,
00:14:34mereka tidak run pada device,
00:14:35tapi mereka benar-benar cloud-hosted anyway,
00:14:37mungkin untuk efficiency,
00:14:38mungkin untuk cost,
00:14:39bahwa ada masih banyak value di hanya pure intelligence bahwa kamu dapatkan dari menggunakan model yang jauh lebih besar.
00:14:46Dan itu adalah mengapa kami lihat orang-orang benar-benar gravitate menuju models dari O3 ke GBD5 ke GBD5 Codex.
00:14:52Ada masih banyak value di itu.
00:14:53Sekarang kami lihat bahwa overhang itu masih semacam comes,
00:14:57itu resolve itu sendiri di mana setiap beberapa bulan ada new,
00:15:01very small,
00:15:02very,
00:15:02very impressive model.
00:15:04Dan aku pikir itu adalah magic jika kami hanya pertimbangan di awal dari tahun ini,
00:15:07kami punya O3 mini sebagai semacam frontier dan di mana kami sekarang.
00:15:10Dan jadi,
00:15:11ya,
00:15:11aku pikir bahwa ada ton dari value dalam open models,
00:15:14tapi still,
00:15:15aku pikir personally,
00:15:16dari usage perspective,
00:15:18lebih value di menggunakan semacam cloud-hosted ones.
00:15:21- Ya, aku akan hanya interject sedikit.
00:15:23Ford actually peduli banyak tentang privacy,
00:15:25security,
00:15:26agent robustness.
00:15:27Dan jadi jika kamu run ke dia,
00:15:29talk ke dia lebih tentang itu.
00:15:30Tapi untuk kedua dari kalian guys,
00:15:32mungkin kamu ingin start off dengan,
00:15:34sebenarnya,
00:15:34apa adalah ballpark kalian dari open model token percentage generated dalam respective apps kalian?
00:15:39Dan apakah itu akan go up atau down?
00:15:42- Jadi aku rasa,
00:15:42jadi mungkin untuk start,
00:15:43karena aku pikir apa yang kamu katakan adalah benar-benar menarik.
00:15:47Jadi beberapa minggu yang lalu,
00:15:48saat kami merilis factory CLI tool kami,
00:15:50orang-orang sangat tertarik karena kami juga merilis dengan itu score kami pada benchmark ini disebut Terminal Bench.
00:15:57Dan salah satu ask pertama adalah,
00:15:59bisakah kalian menempatkan open source models ke test?
00:16:02Karena agent droid kami adalah fully model agnostic.
00:16:04Jadi segera orang-orang seperti,
00:16:06throw dalam open source models dan show kami bagaimana itu bekerja.
00:16:09Dan aku pikir sesuatu yang particularly surprising adalah bahwa open source models,
00:16:14dan secara khusus GLM,
00:16:15adalah benar-benar good.
00:16:17Mereka adalah di fact jelas kurang performant daripada frontier models,
00:16:21tapi tidak dengan margin yang besar.
00:16:24Aku pikir,
00:16:25jadi satu hal yang adalah noteworthy meskipun adalah saat kami benchmarked open source models,
00:16:30dari tujuh yang ada di top,
00:16:31satu dari mereka dibuat di United States oleh yours truly di sini,
00:16:35yang aku pikir adalah semacam shame.
00:16:37Seperti fact bahwa by far dari frontier models,
00:16:40itu adalah United States across the board.
00:16:43Tapi kemudian saat datang untuk open source,
00:16:45kami benar-benar dropping the ball di sana.
00:16:47Jadi aku pikir itu adalah satu hal yang adalah noteworthy dan aku pikir sesuatu yang,
00:16:50at least saat aku lihat itu,
00:16:51aku benar-benar pikir seharusnya ada seperti call untuk arms di sana dalam terms dari changing itu.
00:16:56Karena aku pikir untuk answer pertanyaan kamu,
00:16:58apa yang kami temukan adalah bahwa sejak kami merilis support untuk open source models,
00:17:03percent dari orang-orang bahwa menggunakan open source models telah dramatically risen.
00:17:08Partially karena dari cost dan bahwa,
00:17:10tahu,
00:17:10itu allow kamu seperti,
00:17:11katakanlah dalam documentation example,
00:17:13mungkin kamu ingin generate docs,
00:17:15tapi kamu tidak ingin itu untuk menjadi seperti,
00:17:17tahu,
00:17:17pada super high reasoning,
00:17:18seperti untuk max,
00:17:19seperti cost kamu seribu dollar,
00:17:21tapi kamu hanya ingin untuk get seperti initial first pass dalam.
00:17:24Dan juga orang-orang seperti punya sedikit lebih banyak control.
00:17:28Dan aku merasa seperti mereka get lot lebih banyak dari control itu dengan beberapa dari open source models ini,
00:17:34kedua control dan cost dan hanya seperti semacam observability ke dalam apa itu yang actually happening di sana.
00:17:39Jadi aku pikir demand telah tumbuh ke titik di mana aku actually tidak expect satu tahun yang lalu.
00:17:43Aku pikir satu tahun yang lalu,
00:17:45aku adalah kurang bullish pada open source models daripada aku sekarang,
00:17:48open-weight,
00:17:49tapi ya.
00:17:49- Ya,
00:17:50aku pikir kami use kedua dari open source dan closed source models dalam overall agent pipeline kami.
00:17:55Dan aku pikir cara kami think tentang mereka adalah ada dua different use cases untuk LLM call.
00:17:58Satu adalah kamu ingin state-of-the-art reasoning.
00:18:01Itu adalah very, very open-ended question.
00:18:02Kamu actually tidak tahu apa yang answer adalah.
00:18:04Goal adalah seperti,
00:18:05goal function adalah tidak super well-defined.
00:18:07Dalam hal-hal itu,
00:18:08closed source models adalah masih state-of-the-art saat datang untuk reasoning dan intelligence.
00:18:13Kami use closed source models pretty much exclusively untuk hal-hal itu kind dari use cases.
00:18:16Ada second use case di mana kami punya lebih niche task dengan jauh lebih clear goal function.
00:18:22Dalam hal-hal itu,
00:18:23kami almost always try untuk fine tune open source model.
00:18:26Kami adalah okay taking 20% cut hit mungkin dalam terms dari reasoning ability jadi bahwa kami bisa actually fine tune sangat,
00:18:34sangat specific use case.
00:18:35Dan saya rasa kami menemukan bahwa model open source berkembang dengan sangat,
00:18:39sangat,
00:18:39sangat cepat.
00:18:39Setahun setengah yang lalu,
00:18:41tidak mungkin bagi kami untuk menggunakan model open source sebagai bagian dari pipeline v0.
00:18:45Hari ini,
00:18:45setiap bagian dari pipeline,
00:18:47kami bertanya,
00:18:47baik,
00:18:48bisakah kami membawa model open source ke sini?
00:18:49Bisakah kami menggantikan apa yang kami lakukan saat ini dengan model frontier closed source state-of-the-art dengan fine-tune dari model open source?
00:18:57Dan kami telah melihat banyak kesuksesan dengan Qwen,
00:19:00QEMI-K2,
00:19:00dan model-model lain seperti itu.
00:19:02Ya,
00:19:03saya akan menyebutkan ini sebagai salah satu perubahan terbesar yang saya lihat di semua orang,
00:19:07yaitu awal tahun ini,
00:19:08saya membuat podcast dengan Ankur dari BrainTrust,
00:19:11dan dia mengatakan bahwa penggunaan model open source hanya sekitar 5% di apa yang BrainTrust lihat,
00:19:16dan terus menurun.
00:19:17Dan sekarang saya pikir wajar saja itu akan naik ke kisaran 10 hingga 20% untuk semua orang.
00:19:22Saya pikir menarik bahwa bahkan model closed source berinvestasi lebih banyak dalam model kelas kecil mereka.
00:19:29Haiku,
00:19:29GPT-4 Mini,
00:19:30Gemini Flash,
00:19:31dan sejenisnya,
00:19:33yang saya rasa juga berkompetisi paling dengan open source.
00:19:38Kelas model kecil bersaing dengan fine-tune dari model open source.
00:19:42Dan saya juga berpikir ada beberapa kasus penggunaan di mana akan sia-sia menggunakan model frontier,
00:19:47dan jika itu sia-sia,
00:19:48maka Anda tentu saja akan terdorong untuk menggunakan sesuatu yang lebih cepat dan lebih murah.
00:19:53Dan saya pikir sebagian dari itu,
00:19:55bagian dari perbedaan persentase penggunaan adalah ada titik ambang ketika model open source melampaui ambang batas di mana untuk sebagian besar tugas,
00:20:04sebenarnya cukup,
00:20:05dan kemudian untuk beberapa tugas khusus,
00:20:07Anda memerlukan kekuatan tambahan.
00:20:10Saya pikir kami benar-benar sampai di sana dengan beberapa model open source ini,
00:20:13itulah sebabnya saya menduga kami akan melihat lebih banyak penggunaan ke depannya.
00:20:16Ya, luar biasa, itu sangat menggembirakan.
00:20:18Jadi kami punya sedikit waktu tersisa untuk menyiapkan pertanyaan penutup kepada Anda,
00:20:22yaitu,
00:20:22apa yang tidak bisa dilakukan agen Anda hari ini tetapi Anda ingin mereka bisa lakukan,
00:20:26yang mungkin akan mereka lakukan tahun depan?
00:20:27Apakah saya yang menjawab pertama?
00:20:31Baik.
00:20:32Ya,
00:20:32saya pikir apa yang kami lihat selama setahun terakhir,
00:20:35mungkin mulai dari titik referensi dengan o1,
00:20:38sedikit lebih dari setahun yang lalu,
00:20:40atau preview o1,
00:20:41apa yang kami lihat sejak saat itu,
00:20:43ketika saya menggunakan checkpoint model awal dari model tersebut,
00:20:47itu luar biasa dibandingkan dengan GPT-4,
00:20:49tetapi masih ada banyak yang kurang.
00:20:51Saya tidak akan mengandalkannya,
00:20:53saya berada di tim keamanan saat itu,
00:20:55dan ada banyak pekerjaan dan tugas yang tidak bisa saya delegasikan ke model itu.
00:21:00Dan ketika kami membandingkannya dengan hari ini,
00:21:02di mana saya dapat mengambil tugas yang terdefinisi dengan baik,
00:21:05mungkin seperti dua kalimat,
00:21:06beberapa poin penting untuk poin Anda,
00:21:08seperti di sini adalah jebakan yang saya pikir akan membuat Anda terjebak,
00:21:11dan kemudian datang kembali 30 menit kemudian,
00:21:13satu jam kemudian,
00:21:13selesai.
00:21:14Kami telah melihat kasus di mana itu berjalan selama berjam-jam,
00:21:17bahkan tujuh hingga delapan jam,
00:21:19secara efektif satu hari kerja penuh sementara saya menghabiskan banyak waktu saya di rapat,
00:21:23dan jadi tidak perlu memiliki blok waktu yang solid itu.
00:21:26Tetapi itu hanya setengah dari apa yang benar-benar tentang teknik.
00:21:30Sebagian adalah coding,
00:21:31sebagian adalah merancang dan memecahkan masalah dan debugging.
00:21:34Setengah lainnya adalah menulis dokumentasi,
00:21:36memahami sistem,
00:21:38membujuk orang.
00:21:39Dan jadi saya pikir apa yang akan mulai kita lihat adalah kolaborator super di mana apa yang ingin kami bawa,
00:21:46baik dalam codec atau antarmuka lain melalui model codec adalah kolaborator ideal yang ingin Anda kerjakan.
00:21:53Orang yang pertama kali Anda tuju,
00:21:55rekan kerja favorit yang ingin Anda diskusikan ide dengannya,
00:21:58itulah yang benar-benar ingin kami lihat,
00:22:01setidaknya dengan codec.
00:22:02Saya pikir untuk kami,
00:22:03kami telah melihat banyak kemajuan cepat di dua garis depan berbeda.
00:22:07Yang pertama adalah berapa banyak langkah yang dapat kami harapkan agen untuk bisa lakukan dan dapatkan output yang cukup baik?
00:22:14Tahun lalu, mungkin satu, maksimal tiga, kan?
00:22:17Jika Anda menginginkan output yang andal dengan kesuksesan di atas 90%,
00:22:19Anda mungkin menjalankan satu hingga tiga langkah agen.
00:22:22Hari ini,
00:22:22sebagian besar alat menjalankan lima hingga 20 dengan tingkat keandalan tidak terlalu bagus,
00:22:27kesuksesan di atas 90%.
00:22:29Saya pikir tahun depan,
00:22:30kami akan menambahkan seperti 100 plus,
00:22:32200 plus,
00:22:32mari jalankan ton langkah sekaligus,
00:22:34punya tugas yang berjalan lama selama berjam-jam dan percaya bahwa Anda akan mendapatkan output pada akhirnya yang akan berguna.
00:22:40Yang kedua adalah dalam hal sumber daya apa yang dapat dikonsumsi.
00:22:42Setahun yang lalu,
00:22:43apa pun yang Anda masukkan ke dalam bentuk prompt,
00:22:46ya itu saja.
00:22:47Hari ini,
00:22:47Anda sekarang dapat mengonfigurasi koneksi eksternal melalui MCP atau dengan membuat panggilan API langsung di aplikasi Anda.
00:22:55Anda bisa melakukan itu jika Anda berpengetahuan,
00:22:57Anda memiliki kemampuan untuk mengonfigurasi hal-hal.
00:22:58Dan saya pikir dalam setahun dari sekarang,
00:23:00itu hanya akan terjadi.
00:23:00Seperti itu hanya akan bekerja.
00:23:02Tujuannya adalah Anda tidak perlu tahu sumber konteks apa yang perlu Anda berikan kepada agen.
00:23:06Agen sebenarnya akan pergi dan menemukan sumber konteks itu secara proaktif.
00:23:09Kami sudah mulai melihat itu hari ini,
00:23:11tetapi saya masih tidak benar-benar percaya bahwa itu sangat andal dan berguna hari ini.
00:23:16Saya pikir tahun depan, itu akan menjadi mode standar.
00:23:18Ya, saya akan setuju dengan itu.
00:23:19Saya pikir agen dapat melakukan hampir semuanya hari ini,
00:23:22tetapi sejauh mana mereka melakukannya dengan andal dan proaktif adalah slider yang saya pikir akan berubah.
00:23:29Tetapi itu juga slider yang tergantung pada pengguna.
00:23:31Seperti jika Anda adalah pengguna yang tidak benar-benar mengubah perilaku Anda dan bertemu agen di mana itu berada,
00:23:36maka Anda mungkin mendapatkan keandalan dan proaktivitas yang lebih rendah.
00:23:38Padahal jika Anda mengatur harness Anda dengan benar atau mengatur lingkungan Anda dengan benar,
00:23:42itu akan dapat melakukan lebih banyak hal itu dengan andal dan lebih proaktif.
00:23:45Ya, luar biasa.
00:23:46Baik, waktu kami habis.
00:23:48Kontribusi saya adalah computer vision.
00:23:49Semua orang coba Atlas.
00:23:51Semua orang coba lebih banyak use case computer vision,
00:23:53tetapi terima kasih banyak atas waktu Anda.
00:23:55Terima kasih.
00:23:56(penonton bertepuk tangan) (musik upbeat)

Key Takeaway

Panel ini membahas evolusi agen coding AI sebagai alat kolaboratif yang akan mengubah cara developer bekerja melalui automatisasi end-to-end, leveraging model reasoning yang semakin canggih, dan menyeimbangkan antara kontrol lokal dan fleksibilitas cloud.

Highlights

Agen pengembangan perangkat lunak end-to-end (droids) dapat menangani seluruh siklus hidup pengembangan termasuk dokumentasi, testing, dan review, membebaskan developer untuk fokus pada tugas yang lebih menyenangkan

Penggunaan model open-source meningkat drastis seiring dengan peningkatan kemampuan mereka, dengan aplikasi praktis seperti fine-tuning untuk tugas-tugas spesifik menjadi lebih viable

Keseimbangan antara eksekusi lokal versus cloud tergantung pada lokasi resources yang perlu diakses, dengan tren jangka panjang mengarah pada konvergensi kedua pendekatan

Agen coding bekerja lebih baik ketika menerima instruksi yang spesifik dan well-defined, dengan tingkat keandalan yang meningkat seiring dengan kualitas guidance dari pengguna

Bimodality dalam adopsi agen terlihat di enterprise dengan junior engineer yang lebih terbuka terhadap development native-agent, sementara senior engineer menulis specification detail untuk delegasi

Tahun depan diproyeksikan akan membawa peningkatan signifikan dalam jumlah langkah agen yang dapat dijalankan (100+ steps) dan kemampuan agen untuk secara proaktif menemukan context sources yang diperlukan

Agen bukan hanya untuk coding tetapi juga untuk kolaborasi holistik, mencakup documentation, problem-solving, debugging, dan bahkan persuasi, menciptakan 'ideal collaborator' untuk developer

Timeline

Pengenalan Panel dan Misi Factory dalam AI Coding

Panel dimulai dengan sambutan hangat dan pengenalan peserta dari berbagai organisasi teknologi terkemuka. Matan dari Factory mempresentasikan misinya untuk membawa otonomi ke dalam software engineering melalui pengembangan agen bernama 'droids'. Droids dirancang untuk menangani seluruh lifecycle pengembangan perangkat lunak end-to-end, tidak hanya fokus pada coding tetapi juga dokumentasi, testing, dan review. Tujuan utamanya adalah membebaskan developer dari pekerjaan yang tidak menyenangkan sehingga mereka dapat fokus pada aspek coding yang lebih kreatif dan menarik, sambil agen tetap dapat mengotomatisasi tugas-tugas coding yang developer tidak ingin lakukan secara manual.

Evolusi Claude Coding: Dari CLI hingga Cloud dan SDK

Pembicara dari Anthropic menjelaskan perkembangan bertahap dari Claude coding tools di sepanjang tahun ini, dimulai dengan peluncuran agen coding pertama dan Claude CLI yang membawa kekuatan model reasoning ke komputer pengguna. Dilanjutkan dengan peluncuran Claude Cloud yang memungkinkan distribusi dan delegasi tugas ke infrastruktur cloud. Dalam beberapa bulan terakhir, pengalaman ini disatukan untuk bekerja dengan mulus, dengan fokus pada pembuatan fundamentals dan primitives sesederhana mungkin. Baru-baru ini mereka merilis Claude Developer SDK di Dev Day, membuka kemungkinan penggunaan code-executing agents tidak hanya untuk coding tetapi juga untuk tugas-tugas general purpose, memungkinkan developer untuk membangun di atas model reasoning dan primitives seperti sandboxing.

V0 dan Pengalaman Agentic Programming Berbasis Preview

Pembicara menjelaskan visi V0 untuk mengaktifkan developer melakukan agentic programming yang didorong oleh preview real-time dari aplikasi yang sedang dibangun. Tradisionalnya, saat membangun web app, developer memiliki agent terbuka, IDE terbuka, dan preview terpisah yang memerlukan menjalankan dev server. Dengan V0, tujuannya adalah memungkinkan developer hanya menjalankan agen dan langsung memberikan prompt terhadap aplikasi yang sedang berjalan tanpa overhead tambahan. Ini merepresentasikan visi masa depan developer experience (DX) di mana interaksi dengan agen menjadi lebih seamless dan integrated, memungkinkan iterasi yang lebih cepat dan feedback loop yang lebih efisien.

Debat Local vs Cloud: Konteks Resources dan Strategi Hybrid

Diskusi menggali perbedaan antara eksekusi agen lokal versus cloud, dengan kesimpulan bahwa keputusan tergantung pada lokasi resources yang perlu diakses oleh agent. Jika agen perlu mengakses file system lokal, lebih masuk akal menjalankan agent loop secara lokal, sedangkan untuk resources yang ada di cloud atau GitHub, eksekusi cloud lebih tepat. Namun, perspektif jangka panjang adalah bahwa developer mengharapkan agen untuk bekerja di kedua lingkungan dengan seamless, mirip seperti human collaborator yang dapat bekerja baik secara lokal maupun remote. Secara praktis, eksekusi remote lebih berguna untuk tugas-tugas kecil yang confident dapat didelegasikan, sementara lokal lebih cocok untuk tugas besar atau kompleks yang ingin dimonitor secara aktif, memungkinkan developer untuk memandu jika ada kesalahan.

Kolaborasi Hybrid: Whiteboarding, Brainstorming, dan Delegasi Tugas

Pembicara berbagi pengalaman praktis tentang bentuk kolaborasi yang berbeda dengan agen, dimulai dengan sesi whiteboarding dan brainstorming untuk mengembangkan custom instructions bernama agents.md. Proses dimulai dengan dua orang di ruangan yang merancang ide, mengambil foto whiteboard, kemudian meluncurkan pekerjaan ke Claude CLI secara lokal dalam workshop Next.js app, memberikan waktu untuk istirahat dan iterasi lebih lanjut. Pembicara juga mengamati perubahan signifikan dalam jenis tugas yang dapat didelegasikan, khususnya dengan peluncuran Claude 3.5 Sonnet sekitar dua bulan lalu yang dapat menangani tugas-tugas yang lebih panjang, kompleks, dan ambigu selama instruksi jelas tentang output yang diinginkan. Pengalaman ini menunjukkan bagaimana berbagai modality kolaborasi (pairing, brainstorming, delegasi fire-and-forget) dapat dikombinasikan untuk workflow yang efektif dan menyenangkan.

Architecture Agen: Loop, Tool Calls, dan Resources

Pembicara menjelaskan tiga komponen fundamental untuk membuat agen bekerja: agent loop aktual, tool calls yang dibuat, dan resources di mana tool calls perlu bertindak. Keputusan untuk menjalankan agen secara local atau cloud harus didasarkan pada lokasi resources tersebut - jika mengakses file system lokal, agent loop harus berjalan lokal, sebaliknya untuk resources cloud seperti GitHub repositories. Namun, persepsi jangka panjang adalah bahwa resources akan ada di kedua lokasi, dan setiap developer mengharapkan agen dapat bekerja dengan file system lokal maupun PR terbuka yang di-host di GitHub. Kesimpulannya adalah tidak benar-benar penting di mana Anda memulai selama semua komponen akhirnya dapat berjalan di mana saja, dengan agent loop, tool calls, dan resources yang dapat diakses dari berbagai lokasi secara seamless.

Generasi Slop vs Leverage: Konteks, Spesifikasi, dan Kualitas Output

Panel membahas pertanyaan 'penting' tentang apakah mereka menghasilkan 'slop' dan risiko hype bubble, menyimpulkan bahwa konsep slop bersifat relatif dan kontekstual. Sebagai contoh, auto-generated documentation untuk legacy repository tanpa dokumentasi dapat dianggap sebagai 'treasure' daripada 'slop' karena memberikan nilai awal yang signifikan. Kualitas output sangat tergantung pada level guidance dan spesifikasi yang diberikan - prompt generic akan menghasilkan output generic, sementara instruksi metodis dengan test tools untuk memverifikasi capabilities menghasilkan output terstruktur. Pembicara membandingkan ini dengan hiring junior engineer tanpa spesifikasi yang jelas, di mana outcome akan median karena ambiguitas. Perspektif yang muncul adalah bahwa agen berfungsi sebagai 'leverage' - mereka dapat meningkatkan kapabilitas orang tanpa skill (raising the floor) sekaligus mengamplifikasi craftsmanship orang yang sudah skilled (raising the ceiling), dengan principal engineer potensial meningkatkan output dari 5,000 ke 50,000 baris kode sehari.

Bimodality Adopsi Enterprise: Senior vs Junior Engineers dan Model Native Development

Pembicara mengidentifikasi pattern menarik dalam adopsi agen native development di enterprise dengan 'bimodality' yang jelas. Junior engineer lebih terbuka untuk membangun dengan cara native-agent tetapi kurang berpengalaman dalam delegation dan specification writing. Sebaliknya, senior engineer memiliki pengalaman delegasi yang kuat dan tahu cara menulis specification detail yang jelas, tetapi sering kali stubborn dan tidak ingin mengubah workflow mereka. Di enterprise, pattern yang umum terjadi adalah senior engineer menulis ticket dengan specification detail, junior engineer mengambil ticket tersebut dan memberikannya ke agen untuk implementasi, menciptakan arbitrage value antara kemampuan specification writing senior dan eksekusi agen. Ini menunjukkan bahwa adoption terbaik mengkombinasikan strength dari kedua level - expertise senior dalam specification dan openness junior terhadap tooling baru, dengan agen bertindak sebagai translator antara requirements dan implementation.

Model Open-Source vs Closed-Source: Trade-offs dan Pergeseran Penggunaan

Diskusi mendalam tentang pentingnya model open-source dalam strategi jangka panjang sustainable development lifecycle, dengan Anthropic menyediakan documentation yang jelas untuk penggunaan model reasoning mereka dengan model open-source yang akan datang. Matan dari Factory membagikan benchmark Terminal Bench yang menunjukkan model open-source seperti GLM berkinerja cukup baik dibandingkan frontier models, meskipun jelas less performant dengan margin yang tidak terlalu besar. Temuan mengejutkan adalah bahwa dalam top seven open-source models pada benchmark, hanya satu yang dibuat di United States, sementara frontier models didominasi Amerika Serikat. Sejak mendukung model open-source, persentase pengguna yang menggunakannya meningkat drastis, didorong oleh cost efficiency dan kontrol lebih besar atas observability. Pergeseran ini didorong oleh use cases spesifik seperti documentation generation di mana Anda tidak perlu highest reasoning level, juga kebutuhan privacy dan security dalam embedded use cases atau ketika data tidak boleh meninggalkan perimeter organisasi.

Dual-Use Model Strategy: Reasoning Frontier untuk Open-Ended, Fine-Tuned Open-Source untuk Specific

Vercel mendeskripsikan strategi dual-use model mereka di pipeline V0, menggunakan closed-source models untuk open-ended reasoning tasks dengan goal function yang tidak well-defined, sementara menggunakan fine-tuned open-source models untuk niche tasks dengan goal function yang jelas dan defined. Mereka accept 20% performance cut dari reasoning ability untuk mendapatkan fine-tuning yang sangat spesifik untuk use case mereka. Pengalaman Vercel menunjukkan evolusi dramatis dalam viability open-source models - 1.5 tahun lalu tidak mungkin menggunakan model open-source dalam pipeline V0, hari ini setiap bagian dari pipeline dievaluasi untuk kemungkinan mengganti frontier closed-source dengan fine-tuned open-source, dengan success yang telah terbukti menggunakan Qwen dan model-model serupa. Proyeksi untuk tahun depan adalah peningkatan penggunaan open-source dari current 5% menjadi 10-20% industri-wide, dengan small model class bersaing paling langsung dengan fine-tuned open-source models, dan use cases yang menggunakan frontier model menjadi semakin terbatas pada truly complex reasoning tasks.

Visi Masa Depan: Super Collaborator, Multi-Step Agents, dan Proactive Context Discovery

Pembicara menutup panel dengan visi aspiratif tentang kapabilitas agen di masa depan, dimulai dari pengalaman pribadi membandingkan o1 preview dari setahun yang lalu dengan Claude terbaru saat ini. Model saat ini dapat menangani tugas well-defined dengan dua kalimat instruksi, dijalankan selama 30 menit hingga 8 jam, melakukan tidak hanya coding tetapi juga dokumentasi, system understanding, dan bahkan persuasi - menciptakan 'super collaborator' ideal. Untuk tahun depan, dua garis depan utama improvement adalah: (1) jumlah langkah agen meningkat dari current 5-20 steps menjadi 100+ steps dengan keandalan di atas 90%, dan (2) agen secara proaktif menemukan context sources yang diperlukan tanpa perlu user mengkonfigurasi MCP atau API calls secara manual. Pembicara menekankan bahwa sambil agen dapat melakukan hampir semuanya hari ini, seberapa jauh mereka melakukannya dengan reliable dan proaktif adalah slider yang terus berubah, tergantung pada bagaimana user adapt behavior mereka dan setup environment mereka untuk kolaborasi optimal dengan agen.

Community Posts

View all posts