Панель обсуждения: Кодирование для будущего

VVercel
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00(весёлая музыка) Добро пожаловать на панель «Будущее ИИ-кодирования».
00:00:04Спасибо,
00:00:04что прочитали записку о том,
00:00:06что нужно одеться весь в чёрное.
00:00:07(смех) Хорошо,
00:00:08я хочу немного рассказать о представлении участников.
00:00:12Я знаю каждого из вас по-разному,
00:00:14но,
00:00:15надеюсь,
00:00:15аудитория вас ещё не знает.
00:00:17Матан, может быть, ты начнёшь первым?
00:00:19Какова позиция Factory в широком мире ИИ-кодирования?
00:00:26Да,
00:00:26в Factory нашей миссией является внедрение автономности в разработку ПО.
00:00:32Конкретнее говоря,
00:00:33мы создали полнофункциональных агентов разработки,
00:00:37называемых дроидами.
00:00:38Они сосредоточены не только на самом кодировании,
00:00:41но и на всём цикле разработки ПО.
00:00:43Это касается документации,
00:00:45тестирования,
00:00:46проверки кода и всех скучных деталей,
00:00:48чтобы вы могли заниматься более интересными вещами,
00:00:51например самим кодированием.
00:00:52А для тех частей кодирования,
00:00:54которые вам не нравятся,
00:00:54дроиды могут взять их на себя.
00:00:56Так что вы создаёте дроидов.
00:00:58Вы создаёте дроидов.
00:00:59OpenAI,
00:01:00очевидно,
00:01:00нуждается в представлении,
00:01:03но вашу роль в команде Codex я видел в видео про Codex.
00:01:08Так я узнал, что это ты над ним работаешь.
00:01:10Но как ты сейчас воспринимаешь Codex,
00:01:12учитывая,
00:01:13что он сильно расширился?
00:01:14Да,
00:01:15в начале этого года мы запустили нашего первого агента кодирования.
00:01:19Я работал над Codex CLI,
00:01:21внедряя мощь наших моделей рассуждения на компьютеры людей.
00:01:26Затем мы выпустили Codex Cloud,
00:01:27где можно было распределять и делегировать эти задачи в облаке.
00:01:31А в последние несколько месяцев мы объединяли эти возможности.
00:01:34Чтобы они работали максимально бесшовно.
00:01:36Большая часть нашего внимания сосредоточена на том,
00:01:38как сделать основные примитивы максимально полезными.
00:01:41Мы только что выпустили SDK Codex для Dev Day.
00:01:43Я думаю,
00:01:44одно из ключевых направлений,
00:01:46которое мы видим,
00:01:47это использование агентов кодирования не только для кодирования,
00:01:51но и для общих задач.
00:01:52Например,
00:01:53Try to Be — агент,
00:01:54над которым я работал в начале этого года,
00:01:56который выполняет код в фоне для решения задач,
00:01:58но мы начали давать разработчикам возможность строить на основе не только моделей рассуждения,
00:02:03но и таких примитивов,
00:02:05как песочница и другого,
00:02:06что мы встроили в Codex.
00:02:07Отлично.
00:02:09V0?
00:02:10Цель V0 — позволить разработчикам использовать программирование на основе предпросмотра и агентов.
00:02:16Сегодня при создании веб-приложений у вас обычно открыт агент,
00:02:21IDE,
00:02:21какой-то код и предпросмотр того,
00:02:24что вы строите.
00:02:25Обычно вы запускаете dev server.
00:02:26С V0 наша цель — позволить вам просто запустить агента и напрямую работать с вашим запущенным приложением.
00:02:32Вот как мы представляем будущее разработки.
00:02:35Хорошо, отлично.
00:02:36И у каждого есть разные способы доступа к вашим агентам кодирования.
00:02:40Я думаю,
00:02:40один из вопросов,
00:02:41который нам хотелось бы поднять,
00:02:43это насколько важны локальные и облачные решения?
00:02:45Вы начали с локального,
00:02:46потом облако,
00:02:47вы начали с облака,
00:02:47потом локальное,
00:02:48вы работаете только в облаке сейчас.
00:02:50Каков баланс?
00:02:52Все в итоге просто сольются?
00:02:55Да, может быть, я начну отсюда.
00:02:58Я думаю,
00:02:58в конце концов,
00:02:59смысл этих агентов в том,
00:03:01что они максимально полезны и имеют очень похожий профиль на человека,
00:03:06с которым вы можете работать.
00:03:08Нет локальных и удалённых людей,
00:03:10которые работали бы как-то иначе,
00:03:12например,
00:03:12один работает только в этой среде,
00:03:14другой только в той.
00:03:16Обычно люди полезны вам,
00:03:17работаете ли вы с ними на встречах и обсуждаете идеи или сидите рядом за одним компьютером.
00:03:24Так что в перспективе это должно стать одним целым,
00:03:28но в ближайшее время облачные решения обычно полезнее для небольших задач,
00:03:34которые вы уверены,
00:03:36что можете безопасно делегировать.
00:03:39Локальные же — когда хотите быть ближе к агенту,
00:03:43может быть,
00:03:44это более крупная или сложная задача,
00:03:46которую вы активно контролируете.
00:03:49Вы хотите локальное решение,
00:03:51чтобы если что-то пойдёт не так,
00:03:52вам не пришлось вытягивать ветку назад и начинать с нуля,
00:03:55а вы сразу там,
00:03:56чтобы направить агента.
00:03:57Да, может, я просто жадный, но я хочу оба варианта.
00:04:00И я думаю,
00:04:01иметь способ,
00:04:02о котором говорил Матан,
00:04:04позволяет мне подумать о том,
00:04:06какие основные формы сотрудничества я использую с коллегами и мне нравятся.
00:04:11Часто это начинается с сеанса мозгового штурма на доске и обсуждения чего-то в комнате.
00:04:17Когда мы строили,
00:04:18хороший пример — agents.md,
00:04:20это наши пользовательские инструкции,
00:04:23предназначенные для разных агентов кодирования.
00:04:26Началось это с того,
00:04:27что Ромен и я были в комнате и придумывали эту идею.
00:04:31Потом мы начали рисовать на доске,
00:04:33сфотографировали,
00:04:34и запустили локально в Codex CLI на семинаре Next.js приложения,
00:04:38над которым могли работать,
00:04:39пошли обедать,
00:04:40вернулись.
00:04:41Он уже имел хорошую базовую структуру.
00:04:44И потом мы смогли итерировать чуть ближе.
00:04:46Такое парное программирование и мозговой штурм действительно ценны.
00:04:49И тогда,
00:04:50второе,
00:04:50о том,
00:04:51какие задачи делегировать,
00:04:52я думаю,
00:04:53исторически небольшие,
00:04:54чётко определённые задачи,
00:04:56где вы ясно понимаете результат — это правильный подход для быстрого выполнения.
00:05:02Но я думаю,
00:05:03что-то интересное начинает происходить с GBD5 Codex,
00:05:06который мы запустили два месяца назад.
00:05:08И главное отличие в том,
00:05:09что он может выполнять более длительные,
00:05:11сложные,
00:05:11неоднозначные задачи,
00:05:13при условии,
00:05:13что вы ясно представляете,
00:05:14что хотите на выходе.
00:05:16Он может работать часами напролёт.
00:05:18Я думаю,
00:05:18с развитием возможностей моделей это откроет больше возможностей.
00:05:24Да.
00:05:24Я думаю, есть три части, которые делают агента работающим.
00:05:27Это сам цикл агента,
00:05:28вызовы инструментов,
00:05:29которые он делает,
00:05:30и ресурсы,
00:05:31на которые должны действовать эти вызовы.
00:05:34Выбор облака или локального зависит от того,
00:05:36где эти ресурсы находятся.
00:05:37Если вы работаете с локальной файловой системой,
00:05:39это те ресурсы,
00:05:40к которым нужен доступ.
00:05:41Имеет смысл, что цикл агента должен работать локально.
00:05:44Если вы обращаетесь к ресурсам,
00:05:46которые обычно находятся в облаке,
00:05:48вы тянете из GitHub или сторонних репозиториев,
00:05:51то имеет смысл,
00:05:52чтобы агент начинал в облаке.
00:05:54Но в итоге эти ресурсы существуют в обоих местах.
00:05:57Каждый разработчик ожидает,
00:05:59что агент может работать и с локальной файловой системой,
00:06:03и с открытым PR на GitHub.
00:06:04Так что не важно,
00:06:05откуда начинать,
00:06:06я думаю,
00:06:07все сходятся в одном месте: цикл агента должен работать везде,
00:06:10вызовы инструментов должны передаваться из облака локально или из локального хранилища в облако.
00:06:16А всё остальное зависит от того,
00:06:18где находятся ресурсы,
00:06:19на которые вы хотите воздействовать.
00:06:20Да, отлично.
00:06:22Хорошо, мы говорили за кулисами и подбирали острые вопросы.
00:06:27Мне правда понравился этот вопрос,
00:06:29и я думаю,
00:06:30он очень актуален.
00:06:31Вы генерируете муллу как источник дохода?
00:06:33Есть ли опасность, что мы находимся в пузыре ажиотажа
00:06:40и верим, что это устойчивый путь к ОИИ?
00:06:44Я думаю,
00:06:45можно сказать,
00:06:46что одного человека муллу считают сокровищем,
00:06:49что отчасти может быть правдой.
00:06:52Например,
00:06:53предположим,
00:06:55у вас есть репозиторий без документации.
00:07:00Вы можете использовать многие инструменты,
00:07:03о которых мы говорили,
00:07:05и сгенерировать документацию для этого репозитория.
00:07:08Будет ли это самой отполированной документацией?
00:07:13Нет, но даёт ли она преимущество?
00:07:16Да,
00:07:16по моему мнению,
00:07:17потому что разбираться в какой-то супер старой базе кода без документации намного сложнее,
00:07:24чем читать хоть какую-то документацию.
00:07:26И я думаю,
00:07:27главное — понять,
00:07:29где вы можете использовать эти инструменты и насколько это муллу,
00:07:34зависит от того,
00:07:35сколько указаний вы даёте.
00:07:38Если вы просто скажете: построй мне приложение,
00:07:40которое это делает,
00:07:41вы,
00:07:42вероятно,
00:07:42получите общую муллу,
00:07:43которая...
00:07:44Это фиолетовое..
00:07:44Да, голубое, фиолетовое, как переход.
00:07:48Но если вы методичны и точны в том,
00:07:51что хотите,
00:07:51вы предоставляете инструменты для запуска тестов и проверки нужных вам возможностей.
00:07:58Я думаю,
00:07:58это становится намного структурированнее,
00:08:01как если бы вы,
00:08:02например,
00:08:03нанял младшего инженера в свою команду и сказал ему: «Ладно,
00:08:07сделай это».
00:08:08Вероятно,
00:08:08он выдаст средний результат,
00:08:11потому что у него нет других спецификаций.
00:08:14И совсем непонятно, что вы вообще хотите.
00:08:19Я думаю, ключевое слово там — рычаг, верно?
00:08:21ИИ агенты кодирования позволяют вам делать в 10 раз больше,
00:08:24чем вы бы могли сделать сами,
00:08:26с достаточно высокой планкой.
00:08:27Если вы отложите уровень навыков против полезности агента или вероятность того,
00:08:32что он генерирует не муллу,
00:08:33будет достаточно низкая планка,
00:08:35если у вас нет навыков.
00:08:36У вас остаётся высокая планка.
00:08:38Агенты довольно хороши прямо из коробки.
00:08:39Если вы ничего не знаете о разработке,
00:08:41агент сделает намного больше,
00:08:42чем вы когда-либо могли бы сделать.
00:08:44Но когда вы становитесь всё более опытны,
00:08:46старший,
00:08:47главный и выдающийся инженеры используют агентов иначе.
00:08:50Они используют это для улучшения того,
00:08:52что они уже могут делать.
00:08:53Главный инженер может вручную написать 5000 строк кода в день.
00:08:57С агентами — 50 000 строк кода в день.
00:09:00И всё зависит от качества ввода и знаний,
00:09:02которые вы туда закладываете.
00:09:04Я думаю,
00:09:05мы медленно повышаем планку с течением времени,
00:09:09создавая лучших агентов.
00:09:11Но я действительно думаю, что это форма рычага.
00:09:14Способ ускорить то,
00:09:15что вы уже можете делать,
00:09:17и делать это быстрее.
00:09:18А для тех,
00:09:18у кого нет навыков,
00:09:19вы действительно можете повысить планку того,
00:09:22что они могут сделать.
00:09:23Абсолютно,
00:09:24и хочу добавить к обоим этим пунктам,
00:09:26я думаю,
00:09:26это инструменты и усилители мастерства.
00:09:29Если оно у вас есть, вы можете делать это больше.
00:09:31Если нет,
00:09:31это просто сложнее,
00:09:32но планка всё равно повышается.
00:09:34Я думаю, это действительно стоит подчеркнуть.
00:09:36Я думаю,
00:09:36для тех,
00:09:37кто пытается создать свой первый прототип,
00:09:40итерировать идею,
00:09:42как упоминалось ранее.
00:09:44Не то чтобы я не смог бы сделать фронтенд,
00:09:46похожий на сайт,
00:09:47ориентированный на контент,
00:09:49просто у меня не было времени.
00:09:51И было веселее просто рисовать на доске,
00:09:53разговаривать,
00:09:54вести беседу,
00:09:55а потом отправить агенту.
00:09:57Но я думаю,
00:09:57один интересный пример — когда мы строили ранние версии Codex больше года назад.
00:10:03И мы показывали двум разным архетипам: люди,
00:10:06которые много занимались разработкой продуктов,
00:10:10привыкли к локальным инструментам,
00:10:12используют их в процессе,
00:10:14привыкли просто общаться и может быть итерировать.
00:10:19И совсем другой модели,
00:10:20когда мы разговаривали с людьми из команд рассуждения,
00:10:24они сидели может быть пять минут,
00:10:27определяя задачу,
00:10:28и это был почти эссе,
00:10:29словно задача для агента,
00:10:31и потом он работал час.
00:10:33И это было эффективно O1 или ранние версии.
00:10:37И я думаю,
00:10:38интересная часть была в том,
00:10:40как люди подходили к постановке задачи агенту,
00:10:43полностью зависело от их понимания того,
00:10:46что,
00:10:46по их мнению,
00:10:47ему нужно.
00:10:48Я думаю,
00:10:49действительно нужно сосредоточиться на конкретности,
00:10:52быть ясным о том,
00:10:53что вы хотите получить.
00:10:55И я думаю,
00:10:55есть более широкая ответственность,
00:10:58как для нас,
00:10:59создателей агентов,
00:11:00так и для тех,
00:11:01кто обучает модели,
00:11:02по повышению планки и обеспечению того,
00:11:05чтобы потолок для людей с высоким мастерством и вкусом был там,
00:11:09где они его видят.
00:11:11Я думаю,
00:11:12то,
00:11:12что вы упомянули,
00:11:13подало мне идею,
00:11:14которую мы начали замечать.
00:11:16Наша целевая аудитория — это предприятия.
00:11:19И мы снова и снова видим интересную бимодальность в принятии разработки,
00:11:25ориентированной на агентов.
00:11:28В частности,
00:11:29обычно более молодые разработчики более открыты и готовы строить,
00:11:33ориентируясь на агентов,
00:11:35но у них нет опыта управления командами инженеров.
00:11:39Так что они может быть не самые знакомы с делегированием,
00:11:42которое работало бы хорошо.
00:11:44Тем временем более опытные инженеры много делегировали.
00:11:47Они знают,
00:11:48что если они не уточнят эти вещи,
00:11:50это не будет сделано.
00:11:51И они действительно хороши в написании той самой абзаца,
00:11:55но они упрямы и не хотят менять способ,
00:11:57которым они строят,
00:11:59и вам придётся вытащить Emacs из их холодных мёртвых рук.
00:12:03Это интересный баланс.
00:12:05Смешно, что вы это говорите.
00:12:06Похожее мы видели на предприятиях: старшие инженеры и высокопоставленные люди создают тикеты.
00:12:12Они фактически проделывают работу,
00:12:13выписав всю спецификацию того,
00:12:15что нужно сделать.
00:12:16Они передают это младшему инженеру, чтобы он это сделал.
00:12:18Младший инженер берёт этот хорошо написанный тикет и передаёт его агенту.
00:12:21Так вы фактически арбитрируете идею,
00:12:23что младший инженер будет выполнять работу агента,
00:12:26потому что он удобнее это делает.
00:12:28Но старший инженер — это человек,
00:12:30который действительно хорош в написании спецификации,
00:12:32очень хорош в понимании того,
00:12:33какие архитектурные решения нам нужно делать,
00:12:35и воплощает всё это в некий тикет.
00:12:37Да,
00:12:38для тех,
00:12:38кто не знает,
00:12:39Матан и Factory в целом писали и пропагандировали эпоху разработки,
00:12:42ориентированной на агентов.
00:12:44Вы можете прочитать больше на их сайте.
00:12:45Я думаю,
00:12:46одна вещь,
00:12:47которую я хочу уточнить — это просто терминология,
00:12:50повысить планку для вас — хорошее дело.
00:12:54Я думаю,
00:12:54другие люди говорят «понизить планку» и имеют в виду то же самое.
00:12:57По сути это об уровне навыков и том,
00:13:00что они могут делать,
00:13:01и просто давать людям больше ресурсов для этого.
00:13:05Я думаю,
00:13:06также другое это то,
00:13:08что много людей думают о слое модели,
00:13:12верно?
00:13:13Очевидно, вы владеете своими моделями, вы двое нет.
00:13:18И я думаю,
00:13:19это горячая тема в разговоре о ценности прямо сейчас.
00:13:22Брайан Чески из Airbnb сказал,
00:13:24что большая часть ценности,
00:13:26похоже,
00:13:27зависит от Quinn.
00:13:28Насколько важны открытые модели для вас,
00:13:31и вы можете высказаться,
00:13:33но насколько это важная стратегия для вас обоих?
00:13:37Мне интересно услышать тебя сначала.
00:13:38Да.
00:13:38Люблю открытые модели.
00:13:42Я думаю,
00:13:42одно из важных моментов о том,
00:13:44просто иметь возможность говорить о моделях,
00:13:47я думаю,
00:13:47открытость действительно ключевая к устойчивому циклу разработки,
00:13:51и с Codex CLI мы открыли исходный код с самого начала,
00:13:54и часть приоритета была понимание,
00:13:56что открытая модель придёт в будущем.
00:13:58Мы хотели убедиться,
00:13:59что мы максимально хорошо документируем,
00:14:01как использовать наши модели рассуждения.
00:14:03Мы видели много путаницы о том,
00:14:04какие инструменты использовать,
00:14:06какой должна быть среда,
00:14:07ресурсы.
00:14:08И мы хотели убедиться,
00:14:09что это было максимально ясно,
00:14:10и также убедиться,
00:14:10что это хорошо работает с открытыми моделями.
00:14:12Я думаю,
00:14:13есть определённо много вариантов использования,
00:14:16особенно когда вы переходите к встроенным вариантам или случаям,
00:14:20когда вы не хотите,
00:14:21чтобы данные покидали периметр.
00:14:23Есть много хороших причин, почему вы хотели бы это сделать.
00:14:26И я думаю,
00:14:27преимущество облачных моделей,
00:14:29и вот что мы видим со многими открытыми моделями.
00:14:33Они в итоге не работают на устройстве,
00:14:35но на самом деле размещаются в облаке,
00:14:37может быть для эффективности,
00:14:38может быть для стоимости,
00:14:40есть ещё много ценности в чистом интеллекте,
00:14:42который вы получаете,
00:14:43используя намного большую модель.
00:14:46И вот почему люди действительно тяготеют к моделям от O3 к GBD5 к GBD5 Codex.
00:14:52Есть ещё много ценности в этом.
00:14:53Теперь мы видим,
00:14:54что этот избыток всё ещё разрешается,
00:14:57когда каждые несколько месяцев появляется новая,
00:15:00очень маленькая,
00:15:02очень впечатляющая модель.
00:15:04И я думаю,
00:15:04это волшебство,
00:15:05если просто рассмотреть начало этого года,
00:15:07у нас был O3 mini как граница,
00:15:09и где мы сейчас.
00:15:10И да,
00:15:11я думаю,
00:15:11что есть тонны ценности в открытых моделях,
00:15:14но всё же,
00:15:15я думаю,
00:15:15лично,
00:15:16с точки зрения использования,
00:15:18больше ценности в использовании облачных.
00:15:21Да, я просто вставлю кое-что.
00:15:23Ford действительно заботится о конфиденциальности,
00:15:25безопасности,
00:15:26надёжности агентов.
00:15:27И поэтому,
00:15:27если вы встретитесь с ним,
00:15:29поговорите с ним больше об этом.
00:15:30Но для вас обоих,
00:15:31может быть,
00:15:32вы хотите начать с того,
00:15:34какой примерно процент токенов открытой модели генерируется в ваших приложениях?
00:15:39И это будет расти или падать?
00:15:42Я думаю,
00:15:42может быть,
00:15:43начну отсюда,
00:15:43потому что я думаю,
00:15:44что вы сказали,
00:15:45действительно интересно.
00:15:47Несколько недель назад,
00:15:48когда мы выпустили нашу фабричную утилиту CLI,
00:15:50люди были очень заинтересованы,
00:15:52потому что мы также выпустили с ней наш результат на тесте под названием Terminal Bench.
00:15:57И один из первых запросов был: можете ли вы протестировать открытые модели?
00:16:02Потому что наш дроид-агент полностью независим от модели.
00:16:04Так что люди сразу сказали: бросьте открытые модели и покажите,
00:16:08как это работает.
00:16:09И я думаю,
00:16:10что было особенно удивительно,
00:16:12что открытые модели,
00:16:13и в частности GLM,
00:16:14были действительно,
00:16:15действительно хороши.
00:16:17Они были,
00:16:17очевидно,
00:16:18менее производительны,
00:16:20чем граничные модели,
00:16:21но не на сильно большой margin.
00:16:24Я думаю,
00:16:25одно,
00:16:25что было примечательно,
00:16:27когда мы протестировали открытые модели,
00:16:30из семи,
00:16:30что были в топе,
00:16:32одна была сделана в Соединённых Штатах мной,
00:16:35что я думаю,
00:16:36довольно позорно.
00:16:37То,
00:16:38что по сути все граничные модели — это Соединённые Штаты.
00:16:43Но когда дело доходит до открытых,
00:16:45мы действительно подводим здесь.
00:16:47Я думаю,
00:16:47это то,
00:16:48что стоит отметить,
00:16:49и я думаю,
00:16:49что-то,
00:16:50что,
00:16:50по крайней мере,
00:16:51когда я это видел,
00:16:52я действительно думаю,
00:16:53что должен быть боевой клич,
00:16:55чтобы изменить это.
00:16:56Потому что я думаю,
00:16:57ответить на ваш вопрос,
00:16:59что мы обнаружили,
00:17:00с тех пор как мы выпустили поддержку открытых моделей,
00:17:04процент людей,
00:17:05использующих открытые модели,
00:17:07резко возрос.
00:17:08Частично из-за затрат и тех,
00:17:10вы знаете,
00:17:10это позволяет вам,
00:17:11скажем,
00:17:12в примере с документацией,
00:17:13может быть,
00:17:14вы хотите генерировать документацию,
00:17:16но вы не хотите,
00:17:17чтобы это было на супер высоком рассуждении,
00:17:19на максимум,
00:17:20стоило бы вам тысячу долларов,
00:17:21но вы просто хотите первый проход.
00:17:24И людям нравится иметь немного больше контроля.
00:17:28И я чувствую,
00:17:29что они получают намного больше контроля с некоторыми из этих открытых моделей,
00:17:34и контроль,
00:17:35и стоимость,
00:17:36и просто как наблюдаемость того,
00:17:38что происходит.
00:17:39Так что спрос вырос до точки, которую я не ожидал год назад.
00:17:43Я думаю,
00:17:44год назад я был менее оптимистичен в отношении открытых моделей,
00:17:47чем я сейчас,
00:17:48открытых по весу,
00:17:49но да.
00:17:49Да,
00:17:50я думаю,
00:17:50мы используем как открытые,
00:17:52так и закрытые модели в нашем общем конвейере агентов.
00:17:55И я думаю,
00:17:55способ,
00:17:56которым мы об этом думаем,
00:17:57есть два разных варианта использования вызова LLM.
00:17:58Один — вы хотите рассуждение состояния искусства.
00:18:01Это очень, очень открытый вопрос.
00:18:02Вы действительно не знаете, каков ответ.
00:18:04Функция цели не очень хорошо определена.
00:18:07В этих случаях закрытые модели по-прежнему состояние искусства в отношении рассуждения и интеллекта.
00:18:13Мы используем закрытые модели практически исключительно для этих вариантов использования.
00:18:16Есть второй вариант использования,
00:18:18где у нас есть более нишевая задача с намного более ясной функцией цели.
00:18:22В этих случаях мы почти всегда пытаемся настроить открытую модель.
00:18:26Мы в порядке с 20% потерей в способности рассуждения,
00:18:30так что мы можем настроить очень специфичный вариант использования.
00:18:35И я думаю,
00:18:36что мы обнаружили,
00:18:37что модели с открытым исходным кодом развиваются очень,
00:18:39очень,
00:18:39очень быстро.
00:18:39Полтора года назад было немыслимо использовать модели с открытым исходным кодом в составе конвейера v0.
00:18:45Сегодня на каждом этапе конвейера мы спрашиваем: можем ли мы использовать здесь модели с открытым кодом?
00:18:49Можем ли мы заменить то,
00:18:51что мы делаем сейчас с закрытыми моделями последнего поколения,
00:18:54на тонко настроенную версию модели с открытым кодом?
00:18:57И мы видели большие успехи с Qwen,
00:19:00QWEN-7B и подобными моделями.
00:19:02Я выделю это как одно из самых больших изменений,
00:19:05которые я видел везде.
00:19:06В начале года я записывал подкаст с Анкуром из BrainTrust,
00:19:09и он сказал,
00:19:10что использование моделей с открытым кодом составляет примерно 5% из того,
00:19:14что видит BrainTrust,
00:19:15и это число снижается..
00:19:17А теперь,
00:19:17я думаю,
00:19:18это разумно предположить,
00:19:19что это будет находиться в диапазоне от 10 до 20% для всех.
00:19:22Я думаю,
00:19:23интересно то,
00:19:24что даже закрытые модели инвестируют более активно в свои легковесные версии.
00:19:29Haikus, GPT-4 Mini, Gemini Flash и им подобные.
00:19:32И я думаю,
00:19:33этот класс моделей как раз конкурирует с открытым кодом больше всего..
00:19:38Это класс легковесных моделей,
00:19:39конкурирующий с тонко настроенной версией модели с открытым кодом.
00:19:42И я также думаю,
00:19:43что есть кейсы,
00:19:44где просто избыточно использовать передовую модель,
00:19:47и если это избыточно,
00:19:48то вы явно будете мотивированы использовать что-то более быстрое и дешёвое.
00:19:53И я думаю,
00:19:54часть этого,
00:19:55часть этого изменения в процентном соотношении использования — это достижение порога,
00:20:00когда модели с открытым кодом пересекают точку,
00:20:03где для большинства задач их достаточно,
00:20:05а для некоторых узкоспециализированных задач вам нужна дополнительная мощь.
00:20:10Я думаю,
00:20:10мы почти туда дошли с некоторыми из этих открытых моделей,
00:20:13поэтому я предполагаю,
00:20:14что мы увидим больше использования в будущем.
00:20:16Да, отлично, это очень обнадёживающе.
00:20:18Итак,
00:20:19у нас остаётся немного времени перед завершающим вопросом: что ваши агенты не могут делать сегодня,
00:20:23что вы хотите,
00:20:24чтобы они могли делать,
00:20:25и что они,
00:20:26вероятно,
00:20:26смогут делать в следующем году?
00:20:27Я первый отвечу?
00:20:31Хорошо.
00:20:32Да,
00:20:32я думаю,
00:20:33что за последний год,
00:20:35начиная с o1 — полтора года назад,
00:20:37или с превью o1,
00:20:39то,
00:20:39что мы видели с тех пор...
00:20:41Когда я использовал очень ранние версии той модели,
00:20:45она была хороша по сравнению с GPT-4,
00:20:48но всё ещё была много недостатков..
00:20:51Я был в команде безопасности в то время,
00:20:54и было много работы и задач,
00:20:56которые я просто не мог делегировать этой модели.
00:21:00А сравнивая с сегодняшним днём,
00:21:02когда я могу поставить довольно чётко определённую задачу — может быть,
00:21:06два предложения,
00:21:07несколько пунктов,
00:21:08вроде: вот за что ты,
00:21:09вероятно,
00:21:10примешься — и вернуться через 30 минут или час,
00:21:13всё готово.
00:21:14Мы видели случаи,
00:21:15когда она работает много часов,
00:21:17может быть,
00:21:17даже семь-восемь часов — фактически полный рабочий день.
00:21:21И я много времени провожу на встречах и не всегда имею такой полноценный блок времени..
00:21:26Но это только половина того,
00:21:28что на самом деле означает быть инженером.
00:21:30Одна часть — это кодирование,
00:21:31архитектура,
00:21:32поиск и устранение неисправностей и отладка.
00:21:34Другая половина — написание документации,
00:21:36понимание системы,
00:21:37убеждение людей.
00:21:39И поэтому я думаю,
00:21:40что мы начнём видеть суперсотрудника,
00:21:43где то,
00:21:43что мы хотим привнести — будь то в Cursor или через другие интерфейсы в модели Cursor — это идеальный коллега,
00:21:51с которым вы хотите работать.
00:21:53Первый человек,
00:21:54к которому вы обращаетесь,
00:21:56твой любимый коллега,
00:21:57с которым хочешь обсудить идеи.
00:21:59Вот что мы хотим видеть, по крайней мере с Cursor..
00:22:02Думаю,
00:22:03для нас произошло значительное развитие на двух разных фронтах.
00:22:07Первый — сколько шагов агент может разумно выполнить и получить приемлемый результат?
00:22:14В прошлом году это было вероятно один, максимум три.
00:22:17Если вы хотели надёжный результат с успешностью более 90%,
00:22:20вы запускали примерно один-три шага агента.
00:22:22Сегодня большинство инструментов запускают пять-двадцать шагов с не очень хорошей надёжностью,
00:22:27с успешностью более 90%.
00:22:29Я думаю,
00:22:29в следующем году мы добавим вроде 100 плюс,
00:22:32200 плюс — давайте запустим тонны шагов сразу,
00:22:34длительные задачи на несколько часов,
00:22:37и мы уверены,
00:22:37что получим на выходе полезный результат.
00:22:40Второе — какие ресурсы можно использовать.
00:22:42Год назад это было всё,
00:22:44что вы вкладываете в форму промпта — вот,
00:22:46собственно,
00:22:46и всё.
00:22:47Сегодня вы можете настроить внешние подключения через MCP или делать прямые вызовы API в вашем приложении.
00:22:55Вы можете это сделать,
00:22:56если вы знающий человек,
00:22:57у вас есть возможность всё настроить.
00:22:58И я думаю, через год всё это просто будет происходить.
00:23:00Это просто будет работать.
00:23:02Цель в том,
00:23:02чтобы вам не нужно было знать,
00:23:04какие источники контекста нужно предоставить агенту.
00:23:06Агент сам найдёт эти источники контекста проактивно.
00:23:09Мы уже начинаем видеть это сегодня,
00:23:11но я всё ещё не очень уверен,
00:23:13что это очень надёжно и полезно сегодня.
00:23:16Я думаю, к следующему году это будет режимом по умолчанию.
00:23:18Да, я с этим согласен.
00:23:19Я думаю,
00:23:20агенты сегодня могут делать в принципе всё,
00:23:23но степень,
00:23:23в которой они это делают надёжно и проактивно — вот это слайдер,
00:23:28который изменится.
00:23:29Но это также слайдер, который зависит от пользователя.
00:23:31Если вы пользователь,
00:23:32который не меняет своё поведение и не идёте навстречу агенту,
00:23:35вы можете получить более низкую надёжность и проактивность.
00:23:38А если вы правильно настроите свою среду или окружение,
00:23:42то агент сможет это делать более надёжно и более проактивно.
00:23:45Да, отлично.
00:23:46Ну, время вышло.
00:23:48Мой вклад — компьютерное зрение.
00:23:49Все попробуйте Atlas.
00:23:51Все попробуйте больше сценариев использования компьютерного зрения,
00:23:54но спасибо вам большое за вашу время.
00:23:55Спасибо.
00:23:56(аплодисменты зала) (весёлая музыка)

Key Takeaway

ИИ-агенты кодирования трансформируют разработку ПО, позволяя автоматизировать весь цикл разработки, при условии чёткого определения задач и надлежащего контроля, с растущей ролью открытых моделей для специализированных применений.

Highlights

Будущее кодирования сосредоточено на ИИ-агентах, которые автоматизируют не только написание кода, но и тестирование, документацию и все этапы разработки ПО

Локальные и облачные решения будут постепенно сливаться, но в настоящее время облако лучше подходит для небольших задач, а локальные решения - для сложных и требующих пристального контроля

Открытые модели быстро развиваются и становятся всё более жизнеспособны для специализированных задач, хотя закрытые модели остаются лучше для сложного рассуждения и неопределённых проблем

ИИ-агенты - это инструменты усиления мастерства, которые повышают планку для начинающих и позволяют опытным инженерам работать в 10 раз быстрее с высоким качеством

Качество и надёжность генерируемого контента зависит от чёткости и подробности инструкций, которые даёт пользователь - дробовый результат получается при расплывчатых указаниях

В следующем году агенты смогут выполнять 100-200+ шагов подряд для многочасовых задач и проактивно находить необходимые источники контекста без явного указания пользователя

В корпоративной среде сложилась эффективная модель: старшие инженеры пишут подробные спецификации, младшие передают их агентам, что оптимизирует использование человеческого капитала

Timeline

Введение и представление участников панели

Панель открывается с приветствия и представления трёх ключевых участников дискуссии о будущем ИИ-кодирования. Ведущий рассказывает о позиции каждого из представителей в индустрии: Матан из Factory, который работает над автономными агентами разработки (дроидами), представитель OpenAI, работающий над Codex, и третий участник. Обсуждение фокусируется на том, как различные компании подходят к созданию ИИ-агентов для кодирования. Участники также обсуждают, что их объединяет общее видение будущего разработки ПО, где ИИ-агенты берут на себя не только кодирование, но и документацию, тестирование и другие рутинные задачи разработки.

Миссия Factory и развитие Codex: полнофункциональные ИИ-агенты для разработки

Матан объясняет миссию Factory - внедрение автономности в разработку ПО через создание полнофункциональных агентов (дроидов), которые охватывают весь цикл разработки, включая кодирование, документацию, тестирование и проверку кода. Представитель OpenAI описывает эволюцию Codex: от Codex CLI, работающего локально, к Codex Cloud для облачного выполнения, и к объединению обеих возможностей. Он упоминает недавный выпуск Codex SDK для Dev Day и новый класс приложений, использующих агентов не только для кодирования, но и для решения общих задач с использованием встроенных примитивов вроде песочниц. V0 представляется как инструмент, позволяющий разработчикам использовать программирование на основе предпросмотра и агентов, позволяя работать напрямую с запущенным приложением без необходимости управления dev server.

Локальные vs облачные решения: когда использовать каждое и будущее их конвергенции

Участники обсуждают важный вопрос о балансе между локальными и облачными решениями для ИИ-агентов. Матан утверждает, что в конечном итоге агенты должны быть полезны одинаково, независимо от местоположения, подобно людям-коллегам. На данный момент облачные решения лучше подходят для простых, чётко определённых задач, которые можно безопасно делегировать, а локальные - для сложных или длительных задач, где нужен пристальный контроль. Второй спикер добавляет, что выбор между локальным и облачным зависит от расположения ресурсов: если вы работаете с локальной файловой системой, цикл агента должен работать локально; если обращаетесь к облачным ресурсам (GitHub, сторонние репозитории), агент должен стартовать в облаке. В идеальном будущем цикл агента будет работать везде, а инструментальные вызовы будут передаваться между облаком и локальным хранилищем.

Вопрос о качестве генерируемого контента и опасность пузыря ажиотажа

Участники обсуждают критический вопрос о том, является ли много генерируемого контента (муллой) источником реальной ценности или это признак пузыря ажиотажа на пути к общему ИИ. Они приходят к выводу, что качество зависит от чёткости инструкций: если просто сказать агенту 'построй приложение', результат будет средним; но если методично и точно указать требования и предоставить инструменты для тестирования, результат становится структурированным. Метафора с наймом младшего инженера показывает, что без подробной спецификации любой исполнитель выдаст среднее качество. Участники подчёркивают, что ИИ-агенты - это форма рычага (leverage): опытные инженеры могут писать вместо 5000 строк в день уже 50 000 строк с агентами, благодаря качеству введённых данных и знаний. Для начинающих разработчиков даже общее качество улучшает результаты, поскольку агент может делать намного больше, чем они вручную.

Парадокс принятия агентов: молодые разработчики vs опытные инженеры

Обсуждение выявляет интересную бимодальность в принятии ориентированной на агентов разработки в корпоративной среде. Молодые разработчики более открыты к использованию агентов, но им не хватает опыта в делегировании работы, тогда как опытные инженеры имеют сильные навыки в написании детальных спецификаций и понимают, что неточные указания приводят к проблемам. Участники замечают эффективную модель в предприятиях: старшие инженеры пишут подробные тикеты с полной спецификацией, передают их младшим инженерам, которые затем передают их агентам. Это позволяет переместить фокус опытных инженеров на архитектурные решения и проектирование систем, а не на рутинную реализацию. Factory активно пропагандирует эпоху разработки, ориентированной на агентов (agent-driven development era), которую можно найти на их сайте. Обсуждается терминология: 'повысить планку' означает предоставить людям больше ресурсов и возможностей, независимо от исходного уровня навыков.

Открытые vs закрытые модели: текущее состояние и траектория развития

Участники обсуждают важную роль открытых моделей в ИИ-кодировании и стратегию использования как открытых, так и закрытых моделей. Матан упоминает, что при тестировании открытых моделей (особенно GLM) результаты были удивительно хороши - менее производительны, чем передовые модели, но не на большую разницу. Он отмечает позорный факт, что из семи топ моделей в тестировании только одна была разработана в США, тогда как практически все передовые (frontier) модели - американские. Второй спикер поясняет, что используют открытые и закрытые модели для разных целей: закрытые модели для неопределённых задач, требующих высокого уровня рассуждения; открытые - для нишевых задач с ясной целевой функцией, которые можно настроить. Они обнаружили, что открытые модели развиваются очень быстро - полтора года назад было немыслимо их использовать в v0, а сегодня на каждом этапе конвейера рассматривается возможность замены закрытых моделей на тонко настроенные открытые. С момента запуска поддержки открытых моделей процент их использования резко возрос, частично из-за стоимости и большего контроля.

Рост использования открытых моделей и будущие тренды рынка

Участники обсуждают текущий и прогнозируемый рост использования открытых моделей на рынке. Матан вспоминает, что год назад (в начале года) в подкасте BrainTrust упоминалось, что открытые модели составляют примерно 5% использования и это число снижалось. Сейчас разумно предположить, что этот процент находится в диапазоне 10-20% для всех приложений. Участники отмечают, что закрытые модели также активно инвестируют в свои облегчённые версии (Haiku, GPT-4 Mini, Gemini Flash), которые конкурируют с открытыми и тонко настроенными моделями. Обсуждается ключевая точка: при избыточном использовании передовой модели пользователи будут мотивированы перейти на что-то более быстрое и дешёвое. Модели с открытым исходным кодом достигли порога, когда они достаточны для большинства задач, что приводит к увеличению спроса. Ожидается, что в будущем использование открытых моделей будет расти, поскольку они продолжают развиваться очень быстро и пересекают критические пороги производительности.

Будущее возможностей агентов: масштабируемость, надёжность и проактивность

Участники обсуждают, что именно не могут делать агенты сегодня и что они смогут делать в будущем. Первый спикер подчёркивает эволюцию: год назад модель o1 была хороша для отдельных задач, но сегодня можно ставить чётко определённые задачи продолжительностью в две строки и вернуться через 30 минут с готовым результатом. Агенты уже работают многие часы (7-8 часов за раз), что позволяет делегировать значительные объёмы работы. Однако полное инженерское мастерство включает не только кодирование и архитектуру, но и документацию, коммуникацию и убеждение людей - это области, где агенты нужны улучшения. Второй спикер описывает два ключевых направления развития: количество шагов, которые агент может выполнить надёжно (год назад 1-3 шага с 90% успешностью, сегодня 5-20 шагов, в следующем году ожидаются 100-200+ шагов для многочасовых задач), и доступность ресурсов (год назад только промпт-инжиниринг, сегодня MCP-подключения и API-вызовы, в следующем году агенты будут проактивно находить нужные источники контекста). Третий участник согласен, что агенты в принципе могут делать всё, но степень надёжности и проактивности зависит от конфигурации среды пользователем.

Community Posts

View all posts