00:00:00(musik yang ceria) - Selamat datang di panel Future of AI Coding.
00:00:04Terima kasih sudah membaca memo bahwa kalian harus mengenakan pakaian hitam semua.
00:00:07(tertawa) Baiklah,
00:00:08jadi aku ingin membahas sedikit tentang pengenalan diri.
00:00:12Aku mengenal masing-masing kalian dengan cara yang berbeda,
00:00:15tapi mungkin audiens tidak sepenuhnya tahu.
00:00:17Matan, kenapa kamu tidak memulai duluan?
00:00:19Apa posisi Factory terhadap dunia yang lebih luas dalam hal AI coding?
00:00:26- Ya,
00:00:26jadi di Factory,
00:00:27misi kami adalah membawa otonomi ke dalam software engineering.
00:00:32Dan artinya lebih konkret,
00:00:33kami telah membangun agen pengembangan software end-to-end yang disebut droids.
00:00:38Mereka tidak hanya fokus pada coding itu sendiri,
00:00:40tapi benar-benar seluruh lifecycle pengembangan software end-to-end.
00:00:43Seperti dokumentasi,
00:00:44testing,
00:00:45review,
00:00:45semua bagian yang tidak menyenangkan itu,
00:00:48sehingga kamu bisa melakukan bagian yang lebih menyenangkan seperti coding itu sendiri.
00:00:52Dan untuk bagian coding yang tidak ingin kamu lakukan,
00:00:54droids juga bisa melakukannya.
00:00:56Jadi kalian membangun droids.
00:00:58Kalian membangun droids.
00:00:59Dan OpenAI jelas memerlukan beberapa pengenalan,
00:01:03tapi peran kamu di tim codecs,
00:01:05aku lihat kamu muncul di video codecs.
00:01:08Itu cara aku tahu bahwa kamu sedang mengerjakannya.
00:01:10Tapi bagaimana kamu berpikir tentang codecs akhir-akhir ini karena sudah berkembang banyak?
00:01:14- Ya,
00:01:15jadi lebih awal tahun ini,
00:01:16kami meluncurkan agen coding pertama kami.
00:01:19Aku bekerja di codec CLI,
00:01:21membawa kekuatan model reasoning kami ke komputer orang.
00:01:26Kemudian kami merilis codecs cloud di mana kamu benar-benar bisa mendistribusikan dan mendelegasikan tugas-tugas itu untuk bekerja di cloud.
00:01:31Dan selama beberapa bulan terakhir,
00:01:32kami menyatukan pengalaman-pengalaman ini.
00:01:34Sehingga mereka bekerja dengan semulus mungkin.
00:01:36Jadi fokus kami banyak di sekitar bagaimana kami membuat fundamentals,
00:01:40primitives sesederhana mungkin.
00:01:41Kami baru saja merilis dev day codecs SDK.
00:01:43Jadi aku pikir salah satu arah kunci yang kami lihat bukan hanya menggunakan coding atau code executing agents untuk coding,
00:01:50tapi juga untuk tugas-tugas general purpose.
00:01:52Dan baik itu try to be the agent,
00:01:54yang aku kerjakan lebih awal tahun ini yang benar-benar mengeksekusi kode di background untuk menyelesaikan beberapa tugas,
00:01:59tapi mulai mengaktifkan developer kami untuk membangun di atas tidak hanya model reasoning,
00:02:03tapi juga hal-hal seperti sandboxing dan semua primitives lainnya yang kami bangun ke dalam codecs.
00:02:07- Keren.
00:02:09V0?
00:02:10- Ya,
00:02:10tujuan V0 adalah mengaktifkan developer untuk melakukan agentic programming yang didorong preview.
00:02:16Jadi hari ini ketika kamu membangun web app,
00:02:19kamu mungkin memiliki agent terbuka,
00:02:20IDE terbuka,
00:02:21jadi semacam code,
00:02:22dan kemudian preview dari apa yang kamu benar-benar bangun.
00:02:25Biasanya kamu menjalankan dev server.
00:02:26Dengan V0,
00:02:27tujuan kami adalah memungkinkan kamu hanya memiliki agent yang berjalan dan directly prompt terhadap aplikasi yang sedang berjalan.
00:02:32Dan itulah bagaimana kami berpikir masa depan DX akan terjadi.
00:02:35- Baiklah, keren.
00:02:36Dan semua orang memiliki area permukaan yang berbeda untuk mengakses agent coding kamu.
00:02:40Jadi aku pikir salah satu hal yang ingin kami mulai adalah seberapa penting local versus cloud?
00:02:45Kamu memulai local dengan cloud,
00:02:47kamu memulai cloud dengan local,
00:02:48kamu hanya cloud untuk sekarang.
00:02:50Berapa split-nya?
00:02:52Apakah semua orang hanya akan merge pada akhirnya?
00:02:55- Ya, jadi mungkin aku bisa mulai di sana.
00:02:58Jadi aku pikir pada akhir hari,
00:02:59poin dari agent-agent ini adalah mereka seproduktif mungkin dan mereka memiliki silhouette yang sangat mirip dengan manusia yang mungkin kamu bekerja dengannya.
00:03:08Dan kamu tidak memiliki manusia lokal dan manusia jarak jauh yang seperti entah bagaimana,
00:03:12tahu,
00:03:12yang satu ini hanya bekerja di lingkungan ini,
00:03:14yang satu itu hanya bekerja di lingkungan itu.
00:03:16Pada umumnya,
00:03:16manusia bisa membantu apakah kamu dalam rapat dengan mereka dan kamu muncul dengan ide atau kamu duduk bersebelahan di komputer.
00:03:24Jadi aku rasa secara asimtotis,
00:03:26ini perlu menjadi sama,
00:03:27tapi aku pikir dalam jangka pendek,
00:03:29remote biasanya apa yang kami lihat adalah biasanya lebih berguna untuk tugas-tugas yang lebih kecil yang lebih yakin bisa kamu delegasikan dengan andal.
00:03:39Sedangkan local adalah ketika kamu ingin sedikit lebih dekat dengan agent,
00:03:43mungkin ada tugas yang lebih besar atau tugas yang lebih rumit yang akan kamu monitor secara aktif.
00:03:49Dan kamu ingin itu lokal sehingga jika ada yang salah,
00:03:52kamu tidak perlu pull branch itu ke bawah dan mulai mengerjakannya,
00:03:55tapi malah kamu ada di sana untuk memandu.
00:03:57- Ya, mungkin aku hanya serakah, tapi aku ingin keduanya.
00:04:00Dan aku pikir memiliki modality sesuai poin Matan di mana aku suka berpikir tentang apa saja bentuk kolaborasi utama yang terbiasa aku lakukan dan aku nikmati dengan rekan kerja.
00:04:11Sering kali itu dimulai dengan sesuatu seperti sesi whiteboarding dan mungkin kami hanya sedang brainstorm tentang sesuatu dalam sebuah ruangan.
00:04:17Ketika kami membangun,
00:04:18aku pikir contoh yang bagus adalah agents.md,
00:04:21yang merupakan custom instructions kami yang dimaksudkan untuk generic di seluruh berbagai agent coding.
00:04:26Cara itu dimulai adalah Romain dan aku hanya dalam sebuah ruangan yang muncul dengan ide ini.
00:04:31Kemudian kami hanya mulai whiteboarding dan kemudian mengambil foto dan kemudian kick it off di codec CLI secara lokal,
00:04:37seperti dalam workshop di Next.js app yang bisa kami kerjakan,
00:04:40pergi makan siang,
00:04:41kembali.
00:04:41Ini memiliki struktur inti yang cukup baik.
00:04:44Dan dari sana, kami bisa iterate sedikit lebih dekat.
00:04:46Jadi memiliki pairing dan brainstorm style experience.
00:04:49Dan kemudian aku pikir ke poin kedua tentang apa jenis tugas yang kamu delegasikan,
00:04:53aku pikir secara historis lebih kecil,
00:04:55monarily scoped tasks di mana kamu sangat jelas tentang apa outputnya,
00:04:59jenis modality yang tepat jika kamu melakukan fire and forget.
00:05:02Tapi aku pikir apa yang kami mulai lihat dengan,
00:05:04kami baru saja meluncurkan GBD5 codecs sekitar dua bulan yang lalu.
00:05:08Dan aku pikir salah satu perbedaan utama adalah itu benar-benar bisa melakukan tugas-tugas yang lebih lama berjalan,
00:05:12lebih kompleks,
00:05:13lebih ambigu,
00:05:13selama kamu jelas tentang apa yang kamu ingin di akhir.
00:05:16Jadi itu bisa bekerja selama berjam-jam.
00:05:18Aku pikir pergeseran itu saat model meningkat dalam kemampuan akan mulai mengaktifkan lebih banyak use cases.
00:05:24- Ya.
00:05:24Ya, aku pikir ada tiga bagian untuk membuat agent bekerja.
00:05:27Ada agent loop aktual,
00:05:29ada tool calls yang dibuat,
00:05:30dan kemudian resources di mana tool calls perlu bertindak.
00:05:34Apakah kamu pergi cloud atau local first didasarkan pada di mana resources itu berada,
00:05:37kan?
00:05:37Jika kamu mencoba bekerja di file system lokal,
00:05:39itu adalah resources yang perlu kamu akses.
00:05:41Ini benar-benar masuk akal bahwa agent loop kamu harus berjalan lokal,
00:05:44kan?
00:05:44Jika kamu mengakses resources yang biasanya ada di cloud kamu menarik dari GitHub,
00:05:48langsung dari semacam repo third party,
00:05:50maka itu masuk akal untuk agent kamu mulai dari cloud,
00:05:53kan?
00:05:54Pada akhirnya meskipun,
00:05:55resources ini ada di kedua tempat,
00:05:57kan?
00:05:57Setiap developer mengharapkan agent untuk bisa bekerja baik di file system lokal,
00:06:02juga di PR terbuka yang mungkin di-host di GitHub.
00:06:04Dan jadi tidak benar-benar penting di mana kamu mulai,
00:06:07aku pikir,
00:06:07semua orang berkumpul di tempat yang sama,
00:06:09yang mana agent loop kamu perlu bisa berjalan di mana saja,
00:06:12tool calls kamu perlu bisa di-stream dari cloud lokal atau dari backup lokal ke cloud.
00:06:16Dan kemudian semua tergantung di mana resources yang kamu benar-benar ingin bertindak berada.
00:06:20- Ya, keren.
00:06:22Baiklah,
00:06:22jadi kami sedang chatting off stage dan kami sedang casting di sekitar untuk pertanyaan spicy dan semacamnya.
00:06:27Jadi aku benar-benar suka yang ini dan aku pikir ini sangat topical.
00:06:31Kalian generate slop sebagai profesi?
00:06:33Seperti apakah kita dalam bahaya potensial berada dalam hype bubble
00:06:40di mana kita percaya bahwa ini adalah seperti jalan yang berkelanjutan menuju AGI?
00:06:44- Maksudku,
00:06:45aku pikir untuk memulai,
00:06:46kamu bisa mengatakan bahwa slop satu orang adalah harta karun orang lain,
00:06:50yang sampai batas tertentu mungkin benar.
00:06:52Seperti,
00:06:52tahu,
00:06:53jika misalnya,
00:06:54kamu punya,
00:06:54aku tidak tahu,
00:06:55katakanlah kamu punya repo yang tidak memiliki dokumentasi sama sekali.
00:07:00Kamu bisa menggunakan,
00:07:02tahu,
00:07:02banyak dari tool yang kami sudah bicarakan untuk pergi dan generate dokumentasi untuk repo ini.
00:07:08Nah,
00:07:09apakah itu akan menjadi seperti piece of documentation yang paling halus?
00:07:13Tidak, tapi apakah itu memberikan alpha?
00:07:16Ya,
00:07:16di pikiran saya,
00:07:17karena harus menyaring beberapa code base legacy super old yang tidak punya docs jauh lebih sulit daripada melampaui beberapa dokumentasi yang agak sloppy.
00:07:26Dan jadi aku pikir hal besar adalah memahami di mana kamu bisa menggunakan tool-tool ini untuk leverage dan tingkat di mana itu slop,
00:07:34aku pikir juga tergantung pada berapa banyak guidance yang kamu berikan.
00:07:38Jadi jika kamu hanya mengatakan seperti,
00:07:40build me an app that does this,
00:07:41seperti kamu mungkin akan mendapatkan beberapa generic slop app yang melakukan-- - Ini ungu.
00:07:44- Ya, biru, ungu seperti fade, ya.
00:07:48Sebaliknya jika kamu seperti sangat metodis tentang persis apa itu yang kamu inginkan,
00:07:52kamu menyediakan tool untuk benar-benar menjalankan tests untuk memverifikasi beberapa capabilities yang kamu minta.
00:07:58Aku pikir itu membuat jauh lebih terstruktur dengan cara yang sama bahwa jika kamu,
00:08:02tahu,
00:08:03hire beberapa junior engineer ke tim kamu dan kamu hanya mengatakan,
00:08:07hei,
00:08:07go do this.
00:08:08Seperti mereka mungkin akan menghasilkan beberapa median outcome karena mereka tidak memiliki spesifikasi lain untuk didasarkan.
00:08:14Dan ini cukup ambigu seperti apa yang kamu benar-benar inginkan dilakukan.
00:08:19- Aku pikir kata kunci di sana adalah leverage, kan?
00:08:21Seperti apa yang AI coding agents izinkan kamu untuk lakukan adalah melakukan 10X lebih banyak daripada yang bisa kamu lakukan sendiri dengan floor yang cukup tinggi,
00:08:27kan?
00:08:27Jadi jika kamu plot skill level terhadap seberapa berguna agent atau seberapa kemungkinan,
00:08:31tahu,
00:08:31seberapa berguna itu sebenarnya dalam menghasilkan non-slop,
00:08:34ada mungkin seperti floor yang cukup rendah jika kamu tidak memiliki skill.
00:08:36Kamu memiliki floor yang cukup tinggi masih, kan?
00:08:38Agent cukup baik hanya out of the box.
00:08:39Jika kamu tidak tahu apa-apa tentang development,
00:08:41agent akan melakukan jauh lebih banyak daripada yang bisa kamu lakukan.
00:08:44Tapi saat kamu mencapai skill levels yang lebih tinggi dan lebih tinggi,
00:08:46senior dan principal dan distinguished engineers benar-benar menggunakan agents berbeda.
00:08:50Mereka menggunakannya untuk level up hal-hal yang sudah bisa mereka lakukan.
00:08:53Tahu,
00:08:53principal engineer mungkin bisa menulis secara manual 5,
00:08:56000 baris code sehari.
00:08:57Dengan agents,
00:08:58mereka bisa menulis seperti 50,
00:08:59000 baris code sehari.
00:09:00Dan itu benar-benar beroperasi pada tingkat kualitas input dan pengetahuan yang kamu letakkan di sana.
00:09:04Jadi aku pikir kami,
00:09:06tahu,
00:09:06perlahan-lahan raising the floor seiring waktu dengan,
00:09:09tahu,
00:09:10building better agents.
00:09:11Tapi aku benar-benar pikir itu adalah bentuk leverage.
00:09:14Ini adalah cara untuk kamu mempercepat jenis hal-hal yang sudah bisa kamu lakukan,
00:09:17melakukannya lebih cepat.
00:09:18Dan untuk orang-orang yang tidak memiliki skills,
00:09:20tahu,
00:09:20itu adalah saat kamu benar-benar bisa raise the floor dari apa yang bisa dilakukan.
00:09:23- Tentu saja,
00:09:24dan hanya untuk menambahkan kedua poin ini,
00:09:26aku pikir mereka adalah tool dan amplifier dari craft.
00:09:29Jika kamu punya, kamu bisa melakukan lebih dari itu.
00:09:31Jika kamu tidak,
00:09:32ini hanya lebih sulit,
00:09:32tapi itu does raise the floor.
00:09:34Aku pikir itu benar-benar worth calling out.
00:09:36Aku pikir untuk orang-orang yang hanya mencoba membangun prototype pertama mereka,
00:09:40mereka mencoba iterate ide bahwa contoh yang disebutkan lebih awal.
00:09:44Ini bukan bahwa aku tidak bisa membuat front end yang semacam adalah seperti content-driven site,
00:09:49tapi aku hanya tidak punya waktu.
00:09:51Dan ini lebih menyenangkan untuk hanya menggambar di whiteboard,
00:09:54berbicara,
00:09:54punya percakapan,
00:09:55dan kemudian kick itu off ke agent.
00:09:57Tapi aku pikir salah satu contoh menarik dari ini adalah saat kami membangun iterasi jauh lebih awal dari codecs dan lebih dari satu tahun yang lalu.
00:10:03Dan kami sedang menempatkan di depan dua archetypes berbeda,
00:10:07orang-orang yang melakukan banyak product engineering di mana mereka terbiasa menggunakan local,
00:10:13inner loop style tools di mana mereka terbiasa hanya chatting dan mungkin iterating.
00:10:19Dan kemudian modality yang sama sekali berbeda saat kami berbicara dengan orang-orang di reasoning teams di mana mereka akan duduk selama mungkin lima menit hanya mendefinisikan tugas dan memiliki essay length,
00:10:28seperti word problem untuk agent untuk go off dan lakukan,
00:10:31dan kemudian itu akan bekerja selama satu jam.
00:10:33Dan itu secara efektif 01 atau earlier kind of versions dari itu.
00:10:37Dan aku pikir bagian menarik di sana adalah hanya cara bahwa orang-orang akan approach memberikan tugas ke agent adalah sama sekali berbeda berdasarkan understanding mereka tentang apa yang mereka pikir diperlukan.
00:10:48Dan jadi aku pikir benar-benar anchoring pada specificity,
00:10:51being really clear tentang apa yang kamu ingin output menjadi.
00:10:55Dan aku pikir ada broader item yang adalah responsibility di kedua kami sebagai builders dari agents dan folk training models untuk benar-benar raise that floor dan untuk ensure bahwa ceiling untuk orang dengan high craftsmanship,
00:11:07dengan high taste bisa exercise itu dalam cara yang mereka lihat fit.
00:11:11- Aku pikir sebenarnya sesuatu yang kamu mention bawa ide ini ke pikiran bahwa kami mulai perhatikan.
00:11:16Jadi target audience kami adalah enterprise.
00:11:19Dan sesuatu yang kami lihat terjadi berulang kali adalah bahwa ada bimodality yang sangat menarik dalam hal adoption dari agent native development.
00:11:28Dan secara khusus,
00:11:29biasanya developer earlier in career lebih open-minded untuk mulai membangun dalam cara yang agent native,
00:11:35tapi mereka tidak memiliki experience dari managing engineering teams.
00:11:39Jadi mereka mungkin tidak paling familiar dengan delegation dalam cara yang bekerja dengan sangat baik.
00:11:44Sementara itu,
00:11:44engineer lebih berpengalaman memiliki banyak experience delegating.
00:11:47Mereka tahu bahwa,
00:11:48hei,
00:11:49jika aku tidak specify hal-hal yang tepat ini,
00:11:50itu tidak akan selesai.
00:11:51Dan jadi mereka benar-benar bagus di seperti menulis paragraph itu,
00:11:54tapi mereka cukup stubborn dan mereka benar-benar tidak ingin mengubah cara bahwa mereka membangun dan kamu akan harus pry Emacs out dari cold dead hands mereka.
00:12:03Jadi ini adalah balance menarik di sana.
00:12:05- Jadi lucu kamu mengatakan itu.
00:12:06Hal serupa yang kami lihat di enterprise adalah senior engineer,
00:12:09orang-orang lebih tinggi akan menulis tickets.
00:12:12Jadi mereka benar-benar akan melakukan pekerjaan dari menulis semua spec tentang apa yang perlu dilakukan.
00:12:16Mereka hand itu off ke junior engineer untuk benar-benar melakukannya.
00:12:18Junior engineer mengambil ticket yang super well-written itu dan memberikan itu ke agent untuk melakukannya,
00:12:21kan?
00:12:21Jadi kamu hanya arbitraging ide bahwa junior engineer akan benar-benar melakukan pekerjaan agent karena mereka lebih nyaman melakukan itu.
00:12:28Tapi senior engineer adalah orang yang benar-benar bagus di menulis spec,
00:12:32very good di memahami apa architectural decisions yang kita seharusnya buat dan putting itu ke dalam semacam ticket.
00:12:37- Ya,
00:12:38untuk mereka yang tidak tahu,
00:12:39Matan dan factory secara umum telah menulis dan advocating tentang age dari native development.
00:12:44Jadi kamu bisa read lebih banyak di website mereka.
00:12:45Aku pikir satu hal,
00:12:46by the way,
00:12:47aku benar-benar ingin issue mungkin seperti satu terminology thing,
00:12:50yang adalah raise the floor untuk kamu adalah hal yang bagus.
00:12:54Aku pikir sebenarnya orang-orang lain mengatakan lower the floor juga berarti hal yang sama.
00:12:57Basically hanya seperti ini tentang skill level dan seperti apa yang bisa mereka lakukan dan hanya memberikan orang-orang lebih banyak resources untuk itu.
00:13:05Aku pikir juga hal lain adalah seperti,
00:13:09banyak orang berpikir tentang model layer,
00:13:13kan?
00:13:13Jelas kalian punya model kalian sendiri,
00:13:17dua dari kalian tidak.
00:13:18Dan aku pikir ini ada hot topic dari conversation di value right now.
00:13:22Airbnb,
00:13:23Brian Chesky telah mengatakan bahwa seperti kebanyakan dari value adalah seperti relies pada Quinn apparently.
00:13:28Seberapa penting adalah open models untuk kalian dan kamu bisa,
00:13:31untuk apa yang kamu bisa chime in juga,
00:13:33tapi seperti seberapa penting adalah open models sebagai strategi untuk kedua kalian?
00:13:37- Aku akan penasaran untuk dengar dari kamu lebih dulu.
00:13:38- Ya.
00:13:38Well, cinta open models.
00:13:42Aku pikir satu hal penting tentang,
00:13:44jadi hanya bisa berbicara tentang models,
00:13:46aku pikir openness benar-benar key untuk aku pikir sustainable development lifecycle di mana dengan Codex CLI,
00:13:52kami open sourced itu out the gate dan bagian dari prioritas adalah understanding bahwa open model akan datang down the line.
00:13:58Kami ingin make sure bahwa kami bisa as best document bagaimana untuk menggunakan model reasoning kami.
00:14:03Kami lihat banyak dari semacam confusion tentang,
00:14:05apa kind dari tools untuk memberikan ke itu,
00:14:06apa environment seharusnya,
00:14:07resources.
00:14:08Dan jadi kami ingin make sure bahwa itu adalah as clear as possible dan kemudian juga make sure bahwa itu bekerja well dengan open models.
00:14:12Jadi aku pikir ada definitely banyak use cases,
00:14:15terutama ketika kamu masuk ke semacam embedded use cases atau di mana cases di mana kamu tidak ingin data untuk meninggalkan perimeter.
00:14:23Ada banyak alasan yang sangat baik untuk mengapa kamu akan ingin melakukan itu.
00:14:26Dan kemudian aku pikir benefit dari semacam cloud-hosted models,
00:14:29dan itu adalah apa yang kami lihat dengan banyak dari open models.
00:14:33Mereka end up menjadi,
00:14:34mereka tidak run pada device,
00:14:35tapi mereka benar-benar cloud-hosted anyway,
00:14:37mungkin untuk efficiency,
00:14:38mungkin untuk cost,
00:14:39bahwa ada masih banyak value di hanya pure intelligence bahwa kamu dapatkan dari menggunakan model yang jauh lebih besar.
00:14:46Dan itu adalah mengapa kami lihat orang-orang benar-benar gravitate menuju models dari O3 ke GBD5 ke GBD5 Codex.
00:14:52Ada masih banyak value di itu.
00:14:53Sekarang kami lihat bahwa overhang itu masih semacam comes,
00:14:57itu resolve itu sendiri di mana setiap beberapa bulan ada new,
00:15:01very small,
00:15:02very,
00:15:02very impressive model.
00:15:04Dan aku pikir itu adalah magic jika kami hanya pertimbangan di awal dari tahun ini,
00:15:07kami punya O3 mini sebagai semacam frontier dan di mana kami sekarang.
00:15:10Dan jadi,
00:15:11ya,
00:15:11aku pikir bahwa ada ton dari value dalam open models,
00:15:14tapi still,
00:15:15aku pikir personally,
00:15:16dari usage perspective,
00:15:18lebih value di menggunakan semacam cloud-hosted ones.
00:15:21- Ya, aku akan hanya interject sedikit.
00:15:23Ford actually peduli banyak tentang privacy,
00:15:25security,
00:15:26agent robustness.
00:15:27Dan jadi jika kamu run ke dia,
00:15:29talk ke dia lebih tentang itu.
00:15:30Tapi untuk kedua dari kalian guys,
00:15:32mungkin kamu ingin start off dengan,
00:15:34sebenarnya,
00:15:34apa adalah ballpark kalian dari open model token percentage generated dalam respective apps kalian?
00:15:39Dan apakah itu akan go up atau down?
00:15:42- Jadi aku rasa,
00:15:42jadi mungkin untuk start,
00:15:43karena aku pikir apa yang kamu katakan adalah benar-benar menarik.
00:15:47Jadi beberapa minggu yang lalu,
00:15:48saat kami merilis factory CLI tool kami,
00:15:50orang-orang sangat tertarik karena kami juga merilis dengan itu score kami pada benchmark ini disebut Terminal Bench.
00:15:57Dan salah satu ask pertama adalah,
00:15:59bisakah kalian menempatkan open source models ke test?
00:16:02Karena agent droid kami adalah fully model agnostic.
00:16:04Jadi segera orang-orang seperti,
00:16:06throw dalam open source models dan show kami bagaimana itu bekerja.
00:16:09Dan aku pikir sesuatu yang particularly surprising adalah bahwa open source models,
00:16:14dan secara khusus GLM,
00:16:15adalah benar-benar good.
00:16:17Mereka adalah di fact jelas kurang performant daripada frontier models,
00:16:21tapi tidak dengan margin yang besar.
00:16:24Aku pikir,
00:16:25jadi satu hal yang adalah noteworthy meskipun adalah saat kami benchmarked open source models,
00:16:30dari tujuh yang ada di top,
00:16:31satu dari mereka dibuat di United States oleh yours truly di sini,
00:16:35yang aku pikir adalah semacam shame.
00:16:37Seperti fact bahwa by far dari frontier models,
00:16:40itu adalah United States across the board.
00:16:43Tapi kemudian saat datang untuk open source,
00:16:45kami benar-benar dropping the ball di sana.
00:16:47Jadi aku pikir itu adalah satu hal yang adalah noteworthy dan aku pikir sesuatu yang,
00:16:50at least saat aku lihat itu,
00:16:51aku benar-benar pikir seharusnya ada seperti call untuk arms di sana dalam terms dari changing itu.
00:16:56Karena aku pikir untuk answer pertanyaan kamu,
00:16:58apa yang kami temukan adalah bahwa sejak kami merilis support untuk open source models,
00:17:03percent dari orang-orang bahwa menggunakan open source models telah dramatically risen.
00:17:08Partially karena dari cost dan bahwa,
00:17:10tahu,
00:17:10itu allow kamu seperti,
00:17:11katakanlah dalam documentation example,
00:17:13mungkin kamu ingin generate docs,
00:17:15tapi kamu tidak ingin itu untuk menjadi seperti,
00:17:17tahu,
00:17:17pada super high reasoning,
00:17:18seperti untuk max,
00:17:19seperti cost kamu seribu dollar,
00:17:21tapi kamu hanya ingin untuk get seperti initial first pass dalam.
00:17:24Dan juga orang-orang seperti punya sedikit lebih banyak control.
00:17:28Dan aku merasa seperti mereka get lot lebih banyak dari control itu dengan beberapa dari open source models ini,
00:17:34kedua control dan cost dan hanya seperti semacam observability ke dalam apa itu yang actually happening di sana.
00:17:39Jadi aku pikir demand telah tumbuh ke titik di mana aku actually tidak expect satu tahun yang lalu.
00:17:43Aku pikir satu tahun yang lalu,
00:17:45aku adalah kurang bullish pada open source models daripada aku sekarang,
00:17:48open-weight,
00:17:49tapi ya.
00:17:49- Ya,
00:17:50aku pikir kami use kedua dari open source dan closed source models dalam overall agent pipeline kami.
00:17:55Dan aku pikir cara kami think tentang mereka adalah ada dua different use cases untuk LLM call.
00:17:58Satu adalah kamu ingin state-of-the-art reasoning.
00:18:01Itu adalah very, very open-ended question.
00:18:02Kamu actually tidak tahu apa yang answer adalah.
00:18:04Goal adalah seperti,
00:18:05goal function adalah tidak super well-defined.
00:18:07Dalam hal-hal itu,
00:18:08closed source models adalah masih state-of-the-art saat datang untuk reasoning dan intelligence.
00:18:13Kami use closed source models pretty much exclusively untuk hal-hal itu kind dari use cases.
00:18:16Ada second use case di mana kami punya lebih niche task dengan jauh lebih clear goal function.
00:18:22Dalam hal-hal itu,
00:18:23kami almost always try untuk fine tune open source model.
00:18:26Kami adalah okay taking 20% cut hit mungkin dalam terms dari reasoning ability jadi bahwa kami bisa actually fine tune sangat,
00:18:34sangat specific use case.
00:18:35Dan saya rasa kami menemukan bahwa model open source berkembang dengan sangat,
00:18:39sangat,
00:18:39sangat cepat.
00:18:39Setahun setengah yang lalu,
00:18:41tidak mungkin bagi kami untuk menggunakan model open source sebagai bagian dari pipeline v0.
00:18:45Hari ini,
00:18:45setiap bagian dari pipeline,
00:18:47kami bertanya,
00:18:47baik,
00:18:48bisakah kami membawa model open source ke sini?
00:18:49Bisakah kami menggantikan apa yang kami lakukan saat ini dengan model frontier closed source state-of-the-art dengan fine-tune dari model open source?
00:18:57Dan kami telah melihat banyak kesuksesan dengan Qwen,
00:19:00QEMI-K2,
00:19:00dan model-model lain seperti itu.
00:19:02Ya,
00:19:03saya akan menyebutkan ini sebagai salah satu perubahan terbesar yang saya lihat di semua orang,
00:19:07yaitu awal tahun ini,
00:19:08saya membuat podcast dengan Ankur dari BrainTrust,
00:19:11dan dia mengatakan bahwa penggunaan model open source hanya sekitar 5% di apa yang BrainTrust lihat,
00:19:16dan terus menurun.
00:19:17Dan sekarang saya pikir wajar saja itu akan naik ke kisaran 10 hingga 20% untuk semua orang.
00:19:22Saya pikir menarik bahwa bahkan model closed source berinvestasi lebih banyak dalam model kelas kecil mereka.
00:19:29Haiku,
00:19:29GPT-4 Mini,
00:19:30Gemini Flash,
00:19:31dan sejenisnya,
00:19:33yang saya rasa juga berkompetisi paling dengan open source.
00:19:38Kelas model kecil bersaing dengan fine-tune dari model open source.
00:19:42Dan saya juga berpikir ada beberapa kasus penggunaan di mana akan sia-sia menggunakan model frontier,
00:19:47dan jika itu sia-sia,
00:19:48maka Anda tentu saja akan terdorong untuk menggunakan sesuatu yang lebih cepat dan lebih murah.
00:19:53Dan saya pikir sebagian dari itu,
00:19:55bagian dari perbedaan persentase penggunaan adalah ada titik ambang ketika model open source melampaui ambang batas di mana untuk sebagian besar tugas,
00:20:04sebenarnya cukup,
00:20:05dan kemudian untuk beberapa tugas khusus,
00:20:07Anda memerlukan kekuatan tambahan.
00:20:10Saya pikir kami benar-benar sampai di sana dengan beberapa model open source ini,
00:20:13itulah sebabnya saya menduga kami akan melihat lebih banyak penggunaan ke depannya.
00:20:16Ya, luar biasa, itu sangat menggembirakan.
00:20:18Jadi kami punya sedikit waktu tersisa untuk menyiapkan pertanyaan penutup kepada Anda,
00:20:22yaitu,
00:20:22apa yang tidak bisa dilakukan agen Anda hari ini tetapi Anda ingin mereka bisa lakukan,
00:20:26yang mungkin akan mereka lakukan tahun depan?
00:20:27Apakah saya yang menjawab pertama?
00:20:31Baik.
00:20:32Ya,
00:20:32saya pikir apa yang kami lihat selama setahun terakhir,
00:20:35mungkin mulai dari titik referensi dengan o1,
00:20:38sedikit lebih dari setahun yang lalu,
00:20:40atau preview o1,
00:20:41apa yang kami lihat sejak saat itu,
00:20:43ketika saya menggunakan checkpoint model awal dari model tersebut,
00:20:47itu luar biasa dibandingkan dengan GPT-4,
00:20:49tetapi masih ada banyak yang kurang.
00:20:51Saya tidak akan mengandalkannya,
00:20:53saya berada di tim keamanan saat itu,
00:20:55dan ada banyak pekerjaan dan tugas yang tidak bisa saya delegasikan ke model itu.
00:21:00Dan ketika kami membandingkannya dengan hari ini,
00:21:02di mana saya dapat mengambil tugas yang terdefinisi dengan baik,
00:21:05mungkin seperti dua kalimat,
00:21:06beberapa poin penting untuk poin Anda,
00:21:08seperti di sini adalah jebakan yang saya pikir akan membuat Anda terjebak,
00:21:11dan kemudian datang kembali 30 menit kemudian,
00:21:13satu jam kemudian,
00:21:13selesai.
00:21:14Kami telah melihat kasus di mana itu berjalan selama berjam-jam,
00:21:17bahkan tujuh hingga delapan jam,
00:21:19secara efektif satu hari kerja penuh sementara saya menghabiskan banyak waktu saya di rapat,
00:21:23dan jadi tidak perlu memiliki blok waktu yang solid itu.
00:21:26Tetapi itu hanya setengah dari apa yang benar-benar tentang teknik.
00:21:30Sebagian adalah coding,
00:21:31sebagian adalah merancang dan memecahkan masalah dan debugging.
00:21:34Setengah lainnya adalah menulis dokumentasi,
00:21:36memahami sistem,
00:21:38membujuk orang.
00:21:39Dan jadi saya pikir apa yang akan mulai kita lihat adalah kolaborator super di mana apa yang ingin kami bawa,
00:21:46baik dalam codec atau antarmuka lain melalui model codec adalah kolaborator ideal yang ingin Anda kerjakan.
00:21:53Orang yang pertama kali Anda tuju,
00:21:55rekan kerja favorit yang ingin Anda diskusikan ide dengannya,
00:21:58itulah yang benar-benar ingin kami lihat,
00:22:01setidaknya dengan codec.
00:22:02Saya pikir untuk kami,
00:22:03kami telah melihat banyak kemajuan cepat di dua garis depan berbeda.
00:22:07Yang pertama adalah berapa banyak langkah yang dapat kami harapkan agen untuk bisa lakukan dan dapatkan output yang cukup baik?
00:22:14Tahun lalu, mungkin satu, maksimal tiga, kan?
00:22:17Jika Anda menginginkan output yang andal dengan kesuksesan di atas 90%,
00:22:19Anda mungkin menjalankan satu hingga tiga langkah agen.
00:22:22Hari ini,
00:22:22sebagian besar alat menjalankan lima hingga 20 dengan tingkat keandalan tidak terlalu bagus,
00:22:27kesuksesan di atas 90%.
00:22:29Saya pikir tahun depan,
00:22:30kami akan menambahkan seperti 100 plus,
00:22:32200 plus,
00:22:32mari jalankan ton langkah sekaligus,
00:22:34punya tugas yang berjalan lama selama berjam-jam dan percaya bahwa Anda akan mendapatkan output pada akhirnya yang akan berguna.
00:22:40Yang kedua adalah dalam hal sumber daya apa yang dapat dikonsumsi.
00:22:42Setahun yang lalu,
00:22:43apa pun yang Anda masukkan ke dalam bentuk prompt,
00:22:46ya itu saja.
00:22:47Hari ini,
00:22:47Anda sekarang dapat mengonfigurasi koneksi eksternal melalui MCP atau dengan membuat panggilan API langsung di aplikasi Anda.
00:22:55Anda bisa melakukan itu jika Anda berpengetahuan,
00:22:57Anda memiliki kemampuan untuk mengonfigurasi hal-hal.
00:22:58Dan saya pikir dalam setahun dari sekarang,
00:23:00itu hanya akan terjadi.
00:23:00Seperti itu hanya akan bekerja.
00:23:02Tujuannya adalah Anda tidak perlu tahu sumber konteks apa yang perlu Anda berikan kepada agen.
00:23:06Agen sebenarnya akan pergi dan menemukan sumber konteks itu secara proaktif.
00:23:09Kami sudah mulai melihat itu hari ini,
00:23:11tetapi saya masih tidak benar-benar percaya bahwa itu sangat andal dan berguna hari ini.
00:23:16Saya pikir tahun depan, itu akan menjadi mode standar.
00:23:18Ya, saya akan setuju dengan itu.
00:23:19Saya pikir agen dapat melakukan hampir semuanya hari ini,
00:23:22tetapi sejauh mana mereka melakukannya dengan andal dan proaktif adalah slider yang saya pikir akan berubah.
00:23:29Tetapi itu juga slider yang tergantung pada pengguna.
00:23:31Seperti jika Anda adalah pengguna yang tidak benar-benar mengubah perilaku Anda dan bertemu agen di mana itu berada,
00:23:36maka Anda mungkin mendapatkan keandalan dan proaktivitas yang lebih rendah.
00:23:38Padahal jika Anda mengatur harness Anda dengan benar atau mengatur lingkungan Anda dengan benar,
00:23:42itu akan dapat melakukan lebih banyak hal itu dengan andal dan lebih proaktif.
00:23:45Ya, luar biasa.
00:23:46Baik, waktu kami habis.
00:23:48Kontribusi saya adalah computer vision.
00:23:49Semua orang coba Atlas.
00:23:51Semua orang coba lebih banyak use case computer vision,
00:23:53tetapi terima kasih banyak atas waktu Anda.
00:23:55Terima kasih.
00:23:56(penonton bertepuk tangan) (musik upbeat)