Панель обсуждения: Кодирование для будущего

Русскийالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português 中文

Computing/SoftwareManagementInternet Technology

Transcript

00:00:00(весёлая музыка) Добро пожаловать на панель «Будущее ИИ-кодирования».

00:00:04Спасибо,

00:00:04что прочитали записку о том,

00:00:06что нужно одеться весь в чёрное.

00:00:07(смех) Хорошо,

00:00:08я хочу немного рассказать о представлении участников.

00:00:12Я знаю каждого из вас по-разному,

00:00:14но,

00:00:15надеюсь,

00:00:15аудитория вас ещё не знает.

00:00:17Матан, может быть, ты начнёшь первым?

00:00:19Какова позиция Factory в широком мире ИИ-кодирования?

00:00:26Да,

00:00:26в Factory нашей миссией является внедрение автономности в разработку ПО.

00:00:32Конкретнее говоря,

00:00:33мы создали полнофункциональных агентов разработки,

00:00:37называемых дроидами.

00:00:38Они сосредоточены не только на самом кодировании,

00:00:41но и на всём цикле разработки ПО.

00:00:43Это касается документации,

00:00:45тестирования,

00:00:46проверки кода и всех скучных деталей,

00:00:48чтобы вы могли заниматься более интересными вещами,

00:00:51например самим кодированием.

00:00:52А для тех частей кодирования,

00:00:54которые вам не нравятся,

00:00:54дроиды могут взять их на себя.

00:00:56Так что вы создаёте дроидов.

00:00:58Вы создаёте дроидов.

00:00:59OpenAI,

00:01:00очевидно,

00:01:00нуждается в представлении,

00:01:03но вашу роль в команде Codex я видел в видео про Codex.

00:01:08Так я узнал, что это ты над ним работаешь.

00:01:10Но как ты сейчас воспринимаешь Codex,

00:01:12учитывая,

00:01:13что он сильно расширился?

00:01:14Да,

00:01:15в начале этого года мы запустили нашего первого агента кодирования.

00:01:19Я работал над Codex CLI,

00:01:21внедряя мощь наших моделей рассуждения на компьютеры людей.

00:01:26Затем мы выпустили Codex Cloud,

00:01:27где можно было распределять и делегировать эти задачи в облаке.

00:01:31А в последние несколько месяцев мы объединяли эти возможности.

00:01:34Чтобы они работали максимально бесшовно.

00:01:36Большая часть нашего внимания сосредоточена на том,

00:01:38как сделать основные примитивы максимально полезными.

00:01:41Мы только что выпустили SDK Codex для Dev Day.

00:01:43Я думаю,

00:01:44одно из ключевых направлений,

00:01:46которое мы видим,

00:01:47это использование агентов кодирования не только для кодирования,

00:01:51но и для общих задач.

00:01:52Например,

00:01:53Try to Be — агент,

00:01:54над которым я работал в начале этого года,

00:01:56который выполняет код в фоне для решения задач,

00:01:58но мы начали давать разработчикам возможность строить на основе не только моделей рассуждения,

00:02:03но и таких примитивов,

00:02:05как песочница и другого,

00:02:06что мы встроили в Codex.

00:02:07Отлично.

00:02:09V0?

00:02:10Цель V0 — позволить разработчикам использовать программирование на основе предпросмотра и агентов.

00:02:16Сегодня при создании веб-приложений у вас обычно открыт агент,

00:02:21IDE,

00:02:21какой-то код и предпросмотр того,

00:02:24что вы строите.

00:02:25Обычно вы запускаете dev server.

00:02:26С V0 наша цель — позволить вам просто запустить агента и напрямую работать с вашим запущенным приложением.

00:02:32Вот как мы представляем будущее разработки.

00:02:35Хорошо, отлично.

00:02:36И у каждого есть разные способы доступа к вашим агентам кодирования.

00:02:40Я думаю,

00:02:40один из вопросов,

00:02:41который нам хотелось бы поднять,

00:02:43это насколько важны локальные и облачные решения?

00:02:45Вы начали с локального,

00:02:46потом облако,

00:02:47вы начали с облака,

00:02:47потом локальное,

00:02:48вы работаете только в облаке сейчас.

00:02:50Каков баланс?

00:02:52Все в итоге просто сольются?

00:02:55Да, может быть, я начну отсюда.

00:02:58Я думаю,

00:02:58в конце концов,

00:02:59смысл этих агентов в том,

00:03:01что они максимально полезны и имеют очень похожий профиль на человека,

00:03:06с которым вы можете работать.

00:03:08Нет локальных и удалённых людей,

00:03:10которые работали бы как-то иначе,

00:03:12например,

00:03:12один работает только в этой среде,

00:03:14другой только в той.

00:03:16Обычно люди полезны вам,

00:03:17работаете ли вы с ними на встречах и обсуждаете идеи или сидите рядом за одним компьютером.

00:03:24Так что в перспективе это должно стать одним целым,

00:03:28но в ближайшее время облачные решения обычно полезнее для небольших задач,

00:03:34которые вы уверены,

00:03:36что можете безопасно делегировать.

00:03:39Локальные же — когда хотите быть ближе к агенту,

00:03:43может быть,

00:03:44это более крупная или сложная задача,

00:03:46которую вы активно контролируете.

00:03:49Вы хотите локальное решение,

00:03:51чтобы если что-то пойдёт не так,

00:03:52вам не пришлось вытягивать ветку назад и начинать с нуля,

00:03:55а вы сразу там,

00:03:56чтобы направить агента.

00:03:57Да, может, я просто жадный, но я хочу оба варианта.

00:04:00И я думаю,

00:04:01иметь способ,

00:04:02о котором говорил Матан,

00:04:04позволяет мне подумать о том,

00:04:06какие основные формы сотрудничества я использую с коллегами и мне нравятся.

00:04:11Часто это начинается с сеанса мозгового штурма на доске и обсуждения чего-то в комнате.

00:04:17Когда мы строили,

00:04:18хороший пример — agents.md,

00:04:20это наши пользовательские инструкции,

00:04:23предназначенные для разных агентов кодирования.

00:04:26Началось это с того,

00:04:27что Ромен и я были в комнате и придумывали эту идею.

00:04:31Потом мы начали рисовать на доске,

00:04:33сфотографировали,

00:04:34и запустили локально в Codex CLI на семинаре Next.js приложения,

00:04:38над которым могли работать,

00:04:39пошли обедать,

00:04:40вернулись.

00:04:41Он уже имел хорошую базовую структуру.

00:04:44И потом мы смогли итерировать чуть ближе.

00:04:46Такое парное программирование и мозговой штурм действительно ценны.

00:04:49И тогда,

00:04:50второе,

00:04:50о том,

00:04:51какие задачи делегировать,

00:04:52я думаю,

00:04:53исторически небольшие,

00:04:54чётко определённые задачи,

00:04:56где вы ясно понимаете результат — это правильный подход для быстрого выполнения.

00:05:02Но я думаю,

00:05:03что-то интересное начинает происходить с GBD5 Codex,

00:05:06который мы запустили два месяца назад.

00:05:08И главное отличие в том,

00:05:09что он может выполнять более длительные,

00:05:11сложные,

00:05:11неоднозначные задачи,

00:05:13при условии,

00:05:13что вы ясно представляете,

00:05:14что хотите на выходе.

00:05:16Он может работать часами напролёт.

00:05:18Я думаю,

00:05:18с развитием возможностей моделей это откроет больше возможностей.

00:05:24Да.

00:05:24Я думаю, есть три части, которые делают агента работающим.

00:05:27Это сам цикл агента,

00:05:28вызовы инструментов,

00:05:29которые он делает,

00:05:30и ресурсы,

00:05:31на которые должны действовать эти вызовы.

00:05:34Выбор облака или локального зависит от того,

00:05:36где эти ресурсы находятся.

00:05:37Если вы работаете с локальной файловой системой,

00:05:39это те ресурсы,

00:05:40к которым нужен доступ.

00:05:41Имеет смысл, что цикл агента должен работать локально.

00:05:44Если вы обращаетесь к ресурсам,

00:05:46которые обычно находятся в облаке,

00:05:48вы тянете из GitHub или сторонних репозиториев,

00:05:51то имеет смысл,

00:05:52чтобы агент начинал в облаке.

00:05:54Но в итоге эти ресурсы существуют в обоих местах.

00:05:57Каждый разработчик ожидает,

00:05:59что агент может работать и с локальной файловой системой,

00:06:03и с открытым PR на GitHub.

00:06:04Так что не важно,

00:06:05откуда начинать,

00:06:06я думаю,

00:06:07все сходятся в одном месте: цикл агента должен работать везде,

00:06:10вызовы инструментов должны передаваться из облака локально или из локального хранилища в облако.

00:06:16А всё остальное зависит от того,

00:06:18где находятся ресурсы,

00:06:19на которые вы хотите воздействовать.

00:06:20Да, отлично.

00:06:22Хорошо, мы говорили за кулисами и подбирали острые вопросы.

00:06:27Мне правда понравился этот вопрос,

00:06:29и я думаю,

00:06:30он очень актуален.

00:06:31Вы генерируете муллу как источник дохода?

00:06:33Есть ли опасность, что мы находимся в пузыре ажиотажа

00:06:40и верим, что это устойчивый путь к ОИИ?

00:06:44Я думаю,

00:06:45можно сказать,

00:06:46что одного человека муллу считают сокровищем,

00:06:49что отчасти может быть правдой.

00:06:52Например,

00:06:53предположим,

00:06:55у вас есть репозиторий без документации.

00:07:00Вы можете использовать многие инструменты,

00:07:03о которых мы говорили,

00:07:05и сгенерировать документацию для этого репозитория.

00:07:08Будет ли это самой отполированной документацией?

00:07:13Нет, но даёт ли она преимущество?

00:07:16Да,

00:07:16по моему мнению,

00:07:17потому что разбираться в какой-то супер старой базе кода без документации намного сложнее,

00:07:24чем читать хоть какую-то документацию.

00:07:26И я думаю,

00:07:27главное — понять,

00:07:29где вы можете использовать эти инструменты и насколько это муллу,

00:07:34зависит от того,

00:07:35сколько указаний вы даёте.

00:07:38Если вы просто скажете: построй мне приложение,

00:07:40которое это делает,

00:07:41вы,

00:07:42вероятно,

00:07:42получите общую муллу,

00:07:43которая...

00:07:44Это фиолетовое..

00:07:44Да, голубое, фиолетовое, как переход.

00:07:48Но если вы методичны и точны в том,

00:07:51что хотите,

00:07:51вы предоставляете инструменты для запуска тестов и проверки нужных вам возможностей.

00:07:58Я думаю,

00:07:58это становится намного структурированнее,

00:08:01как если бы вы,

00:08:02например,

00:08:03нанял младшего инженера в свою команду и сказал ему: «Ладно,

00:08:07сделай это».

00:08:08Вероятно,

00:08:08он выдаст средний результат,

00:08:11потому что у него нет других спецификаций.

00:08:14И совсем непонятно, что вы вообще хотите.

00:08:19Я думаю, ключевое слово там — рычаг, верно?

00:08:21ИИ агенты кодирования позволяют вам делать в 10 раз больше,

00:08:24чем вы бы могли сделать сами,

00:08:26с достаточно высокой планкой.

00:08:27Если вы отложите уровень навыков против полезности агента или вероятность того,

00:08:32что он генерирует не муллу,

00:08:33будет достаточно низкая планка,

00:08:35если у вас нет навыков.

00:08:36У вас остаётся высокая планка.

00:08:38Агенты довольно хороши прямо из коробки.

00:08:39Если вы ничего не знаете о разработке,

00:08:41агент сделает намного больше,

00:08:42чем вы когда-либо могли бы сделать.

00:08:44Но когда вы становитесь всё более опытны,

00:08:46старший,

00:08:47главный и выдающийся инженеры используют агентов иначе.

00:08:50Они используют это для улучшения того,

00:08:52что они уже могут делать.

00:08:53Главный инженер может вручную написать 5000 строк кода в день.

00:08:57С агентами — 50 000 строк кода в день.

00:09:00И всё зависит от качества ввода и знаний,

00:09:02которые вы туда закладываете.

00:09:04Я думаю,

00:09:05мы медленно повышаем планку с течением времени,

00:09:09создавая лучших агентов.

00:09:11Но я действительно думаю, что это форма рычага.

00:09:14Способ ускорить то,

00:09:15что вы уже можете делать,

00:09:17и делать это быстрее.

00:09:18А для тех,

00:09:18у кого нет навыков,

00:09:19вы действительно можете повысить планку того,

00:09:22что они могут сделать.

00:09:23Абсолютно,

00:09:24и хочу добавить к обоим этим пунктам,

00:09:26я думаю,

00:09:26это инструменты и усилители мастерства.

00:09:29Если оно у вас есть, вы можете делать это больше.

00:09:31Если нет,

00:09:31это просто сложнее,

00:09:32но планка всё равно повышается.

00:09:34Я думаю, это действительно стоит подчеркнуть.

00:09:36Я думаю,

00:09:36для тех,

00:09:37кто пытается создать свой первый прототип,

00:09:40итерировать идею,

00:09:42как упоминалось ранее.

00:09:44Не то чтобы я не смог бы сделать фронтенд,

00:09:46похожий на сайт,

00:09:47ориентированный на контент,

00:09:49просто у меня не было времени.

00:09:51И было веселее просто рисовать на доске,

00:09:53разговаривать,

00:09:54вести беседу,

00:09:55а потом отправить агенту.

00:09:57Но я думаю,

00:09:57один интересный пример — когда мы строили ранние версии Codex больше года назад.

00:10:03И мы показывали двум разным архетипам: люди,

00:10:06которые много занимались разработкой продуктов,

00:10:10привыкли к локальным инструментам,

00:10:12используют их в процессе,

00:10:14привыкли просто общаться и может быть итерировать.

00:10:19И совсем другой модели,

00:10:20когда мы разговаривали с людьми из команд рассуждения,

00:10:24они сидели может быть пять минут,

00:10:27определяя задачу,

00:10:28и это был почти эссе,

00:10:29словно задача для агента,

00:10:31и потом он работал час.

00:10:33И это было эффективно O1 или ранние версии.

00:10:37И я думаю,

00:10:38интересная часть была в том,

00:10:40как люди подходили к постановке задачи агенту,

00:10:43полностью зависело от их понимания того,

00:10:46что,

00:10:46по их мнению,

00:10:47ему нужно.

00:10:48Я думаю,

00:10:49действительно нужно сосредоточиться на конкретности,

00:10:52быть ясным о том,

00:10:53что вы хотите получить.

00:10:55И я думаю,

00:10:55есть более широкая ответственность,

00:10:58как для нас,

00:10:59создателей агентов,

00:11:00так и для тех,

00:11:01кто обучает модели,

00:11:02по повышению планки и обеспечению того,

00:11:05чтобы потолок для людей с высоким мастерством и вкусом был там,

00:11:09где они его видят.

00:11:11Я думаю,

00:11:12то,

00:11:12что вы упомянули,

00:11:13подало мне идею,

00:11:14которую мы начали замечать.

00:11:16Наша целевая аудитория — это предприятия.

00:11:19И мы снова и снова видим интересную бимодальность в принятии разработки,

00:11:25ориентированной на агентов.

00:11:28В частности,

00:11:29обычно более молодые разработчики более открыты и готовы строить,

00:11:33ориентируясь на агентов,

00:11:35но у них нет опыта управления командами инженеров.

00:11:39Так что они может быть не самые знакомы с делегированием,

00:11:42которое работало бы хорошо.

00:11:44Тем временем более опытные инженеры много делегировали.

00:11:47Они знают,

00:11:48что если они не уточнят эти вещи,

00:11:50это не будет сделано.

00:11:51И они действительно хороши в написании той самой абзаца,

00:11:55но они упрямы и не хотят менять способ,

00:11:57которым они строят,

00:11:59и вам придётся вытащить Emacs из их холодных мёртвых рук.

00:12:03Это интересный баланс.

00:12:05Смешно, что вы это говорите.

00:12:06Похожее мы видели на предприятиях: старшие инженеры и высокопоставленные люди создают тикеты.

00:12:12Они фактически проделывают работу,

00:12:13выписав всю спецификацию того,

00:12:15что нужно сделать.

00:12:16Они передают это младшему инженеру, чтобы он это сделал.

00:12:18Младший инженер берёт этот хорошо написанный тикет и передаёт его агенту.

00:12:21Так вы фактически арбитрируете идею,

00:12:23что младший инженер будет выполнять работу агента,

00:12:26потому что он удобнее это делает.

00:12:28Но старший инженер — это человек,

00:12:30который действительно хорош в написании спецификации,

00:12:32очень хорош в понимании того,

00:12:33какие архитектурные решения нам нужно делать,

00:12:35и воплощает всё это в некий тикет.

00:12:37Да,

00:12:38для тех,

00:12:38кто не знает,

00:12:39Матан и Factory в целом писали и пропагандировали эпоху разработки,

00:12:42ориентированной на агентов.

00:12:44Вы можете прочитать больше на их сайте.

00:12:45Я думаю,

00:12:46одна вещь,

00:12:47которую я хочу уточнить — это просто терминология,

00:12:50повысить планку для вас — хорошее дело.

00:12:54Я думаю,

00:12:54другие люди говорят «понизить планку» и имеют в виду то же самое.

00:12:57По сути это об уровне навыков и том,

00:13:00что они могут делать,

00:13:01и просто давать людям больше ресурсов для этого.

00:13:05Я думаю,

00:13:06также другое это то,

00:13:08что много людей думают о слое модели,

00:13:12верно?

00:13:13Очевидно, вы владеете своими моделями, вы двое нет.

00:13:18И я думаю,

00:13:19это горячая тема в разговоре о ценности прямо сейчас.

00:13:22Брайан Чески из Airbnb сказал,

00:13:24что большая часть ценности,

00:13:26похоже,

00:13:27зависит от Quinn.

00:13:28Насколько важны открытые модели для вас,

00:13:31и вы можете высказаться,

00:13:33но насколько это важная стратегия для вас обоих?

00:13:37Мне интересно услышать тебя сначала.

00:13:38Да.

00:13:38Люблю открытые модели.

00:13:42Я думаю,

00:13:42одно из важных моментов о том,

00:13:44просто иметь возможность говорить о моделях,

00:13:47я думаю,

00:13:47открытость действительно ключевая к устойчивому циклу разработки,

00:13:51и с Codex CLI мы открыли исходный код с самого начала,

00:13:54и часть приоритета была понимание,

00:13:56что открытая модель придёт в будущем.

00:13:58Мы хотели убедиться,

00:13:59что мы максимально хорошо документируем,

00:14:01как использовать наши модели рассуждения.

00:14:03Мы видели много путаницы о том,

00:14:04какие инструменты использовать,

00:14:06какой должна быть среда,

00:14:07ресурсы.

00:14:08И мы хотели убедиться,

00:14:09что это было максимально ясно,

00:14:10и также убедиться,

00:14:10что это хорошо работает с открытыми моделями.

00:14:12Я думаю,

00:14:13есть определённо много вариантов использования,

00:14:16особенно когда вы переходите к встроенным вариантам или случаям,

00:14:20когда вы не хотите,

00:14:21чтобы данные покидали периметр.

00:14:23Есть много хороших причин, почему вы хотели бы это сделать.

00:14:26И я думаю,

00:14:27преимущество облачных моделей,

00:14:29и вот что мы видим со многими открытыми моделями.

00:14:33Они в итоге не работают на устройстве,

00:14:35но на самом деле размещаются в облаке,

00:14:37может быть для эффективности,

00:14:38может быть для стоимости,

00:14:40есть ещё много ценности в чистом интеллекте,

00:14:42который вы получаете,

00:14:43используя намного большую модель.

00:14:46И вот почему люди действительно тяготеют к моделям от O3 к GBD5 к GBD5 Codex.

00:14:52Есть ещё много ценности в этом.

00:14:53Теперь мы видим,

00:14:54что этот избыток всё ещё разрешается,

00:14:57когда каждые несколько месяцев появляется новая,

00:15:00очень маленькая,

00:15:02очень впечатляющая модель.

00:15:04И я думаю,

00:15:04это волшебство,

00:15:05если просто рассмотреть начало этого года,

00:15:07у нас был O3 mini как граница,

00:15:09и где мы сейчас.

00:15:10И да,

00:15:11я думаю,

00:15:11что есть тонны ценности в открытых моделях,

00:15:14но всё же,

00:15:15я думаю,

00:15:15лично,

00:15:16с точки зрения использования,

00:15:18больше ценности в использовании облачных.

00:15:21Да, я просто вставлю кое-что.

00:15:23Ford действительно заботится о конфиденциальности,

00:15:25безопасности,

00:15:26надёжности агентов.

00:15:27И поэтому,

00:15:27если вы встретитесь с ним,

00:15:29поговорите с ним больше об этом.

00:15:30Но для вас обоих,

00:15:31может быть,

00:15:32вы хотите начать с того,

00:15:34какой примерно процент токенов открытой модели генерируется в ваших приложениях?

00:15:39И это будет расти или падать?

00:15:42Я думаю,

00:15:42может быть,

00:15:43начну отсюда,

00:15:43потому что я думаю,

00:15:44что вы сказали,

00:15:45действительно интересно.

00:15:47Несколько недель назад,

00:15:48когда мы выпустили нашу фабричную утилиту CLI,

00:15:50люди были очень заинтересованы,

00:15:52потому что мы также выпустили с ней наш результат на тесте под названием Terminal Bench.

00:15:57И один из первых запросов был: можете ли вы протестировать открытые модели?

00:16:02Потому что наш дроид-агент полностью независим от модели.

00:16:04Так что люди сразу сказали: бросьте открытые модели и покажите,

00:16:08как это работает.

00:16:09И я думаю,

00:16:10что было особенно удивительно,

00:16:12что открытые модели,

00:16:13и в частности GLM,

00:16:14были действительно,

00:16:15действительно хороши.

00:16:17Они были,

00:16:17очевидно,

00:16:18менее производительны,

00:16:20чем граничные модели,

00:16:21но не на сильно большой margin.

00:16:24Я думаю,

00:16:25одно,

00:16:25что было примечательно,

00:16:27когда мы протестировали открытые модели,

00:16:30из семи,

00:16:30что были в топе,

00:16:32одна была сделана в Соединённых Штатах мной,

00:16:35что я думаю,

00:16:36довольно позорно.

00:16:37То,

00:16:38что по сути все граничные модели — это Соединённые Штаты.

00:16:43Но когда дело доходит до открытых,

00:16:45мы действительно подводим здесь.

00:16:47Я думаю,

00:16:47это то,

00:16:48что стоит отметить,

00:16:49и я думаю,

00:16:49что-то,

00:16:50что,

00:16:50по крайней мере,

00:16:51когда я это видел,

00:16:52я действительно думаю,

00:16:53что должен быть боевой клич,

00:16:55чтобы изменить это.

00:16:56Потому что я думаю,

00:16:57ответить на ваш вопрос,

00:16:59что мы обнаружили,

00:17:00с тех пор как мы выпустили поддержку открытых моделей,

00:17:04процент людей,

00:17:05использующих открытые модели,

00:17:07резко возрос.

00:17:08Частично из-за затрат и тех,

00:17:10вы знаете,

00:17:10это позволяет вам,

00:17:11скажем,

00:17:12в примере с документацией,

00:17:13может быть,

00:17:14вы хотите генерировать документацию,

00:17:16но вы не хотите,

00:17:17чтобы это было на супер высоком рассуждении,

00:17:19на максимум,

00:17:20стоило бы вам тысячу долларов,

00:17:21но вы просто хотите первый проход.

00:17:24И людям нравится иметь немного больше контроля.

00:17:28И я чувствую,

00:17:29что они получают намного больше контроля с некоторыми из этих открытых моделей,

00:17:34и контроль,

00:17:35и стоимость,

00:17:36и просто как наблюдаемость того,

00:17:38что происходит.

00:17:39Так что спрос вырос до точки, которую я не ожидал год назад.

00:17:43Я думаю,

00:17:44год назад я был менее оптимистичен в отношении открытых моделей,

00:17:47чем я сейчас,

00:17:48открытых по весу,

00:17:49но да.

00:17:49Да,

00:17:50я думаю,

00:17:50мы используем как открытые,

00:17:52так и закрытые модели в нашем общем конвейере агентов.

00:17:55И я думаю,

00:17:55способ,

00:17:56которым мы об этом думаем,

00:17:57есть два разных варианта использования вызова LLM.

00:17:58Один — вы хотите рассуждение состояния искусства.

00:18:01Это очень, очень открытый вопрос.

00:18:02Вы действительно не знаете, каков ответ.

00:18:04Функция цели не очень хорошо определена.

00:18:07В этих случаях закрытые модели по-прежнему состояние искусства в отношении рассуждения и интеллекта.

00:18:13Мы используем закрытые модели практически исключительно для этих вариантов использования.

00:18:16Есть второй вариант использования,

00:18:18где у нас есть более нишевая задача с намного более ясной функцией цели.

00:18:22В этих случаях мы почти всегда пытаемся настроить открытую модель.

00:18:26Мы в порядке с 20% потерей в способности рассуждения,

00:18:30так что мы можем настроить очень специфичный вариант использования.

00:18:35И я думаю,

00:18:36что мы обнаружили,

00:18:37что модели с открытым исходным кодом развиваются очень,

00:18:39очень,

00:18:39очень быстро.

00:18:39Полтора года назад было немыслимо использовать модели с открытым исходным кодом в составе конвейера v0.

00:18:45Сегодня на каждом этапе конвейера мы спрашиваем: можем ли мы использовать здесь модели с открытым кодом?

00:18:49Можем ли мы заменить то,

00:18:51что мы делаем сейчас с закрытыми моделями последнего поколения,

00:18:54на тонко настроенную версию модели с открытым кодом?

00:18:57И мы видели большие успехи с Qwen,

00:19:00QWEN-7B и подобными моделями.

00:19:02Я выделю это как одно из самых больших изменений,

00:19:05которые я видел везде.

00:19:06В начале года я записывал подкаст с Анкуром из BrainTrust,

00:19:09и он сказал,

00:19:10что использование моделей с открытым кодом составляет примерно 5% из того,

00:19:14что видит BrainTrust,

00:19:15и это число снижается..

00:19:17А теперь,

00:19:17я думаю,

00:19:18это разумно предположить,

00:19:19что это будет находиться в диапазоне от 10 до 20% для всех.

00:19:22Я думаю,

00:19:23интересно то,

00:19:24что даже закрытые модели инвестируют более активно в свои легковесные версии.

00:19:29Haikus, GPT-4 Mini, Gemini Flash и им подобные.

00:19:32И я думаю,

00:19:33этот класс моделей как раз конкурирует с открытым кодом больше всего..

00:19:38Это класс легковесных моделей,

00:19:39конкурирующий с тонко настроенной версией модели с открытым кодом.

00:19:42И я также думаю,

00:19:43что есть кейсы,

00:19:44где просто избыточно использовать передовую модель,

00:19:47и если это избыточно,

00:19:48то вы явно будете мотивированы использовать что-то более быстрое и дешёвое.

00:19:53И я думаю,

00:19:54часть этого,

00:19:55часть этого изменения в процентном соотношении использования — это достижение порога,

00:20:00когда модели с открытым кодом пересекают точку,

00:20:03где для большинства задач их достаточно,

00:20:05а для некоторых узкоспециализированных задач вам нужна дополнительная мощь.

00:20:10Я думаю,

00:20:10мы почти туда дошли с некоторыми из этих открытых моделей,

00:20:13поэтому я предполагаю,

00:20:14что мы увидим больше использования в будущем.

00:20:16Да, отлично, это очень обнадёживающе.

00:20:18Итак,

00:20:19у нас остаётся немного времени перед завершающим вопросом: что ваши агенты не могут делать сегодня,

00:20:23что вы хотите,

00:20:24чтобы они могли делать,

00:20:25и что они,

00:20:26вероятно,

00:20:26смогут делать в следующем году?

00:20:27Я первый отвечу?

00:20:31Хорошо.

00:20:32Да,

00:20:32я думаю,

00:20:33что за последний год,

00:20:35начиная с o1 — полтора года назад,

00:20:37или с превью o1,

00:20:39то,

00:20:39что мы видели с тех пор...

00:20:41Когда я использовал очень ранние версии той модели,

00:20:45она была хороша по сравнению с GPT-4,

00:20:48но всё ещё была много недостатков..

00:20:51Я был в команде безопасности в то время,

00:20:54и было много работы и задач,

00:20:56которые я просто не мог делегировать этой модели.

00:21:00А сравнивая с сегодняшним днём,

00:21:02когда я могу поставить довольно чётко определённую задачу — может быть,

00:21:06два предложения,

00:21:07несколько пунктов,

00:21:08вроде: вот за что ты,

00:21:09вероятно,

00:21:10примешься — и вернуться через 30 минут или час,

00:21:13всё готово.

00:21:14Мы видели случаи,

00:21:15когда она работает много часов,

00:21:17может быть,

00:21:17даже семь-восемь часов — фактически полный рабочий день.

00:21:21И я много времени провожу на встречах и не всегда имею такой полноценный блок времени..

00:21:26Но это только половина того,

00:21:28что на самом деле означает быть инженером.

00:21:30Одна часть — это кодирование,

00:21:31архитектура,

00:21:32поиск и устранение неисправностей и отладка.

00:21:34Другая половина — написание документации,

00:21:36понимание системы,

00:21:37убеждение людей.

00:21:39И поэтому я думаю,

00:21:40что мы начнём видеть суперсотрудника,

00:21:43где то,

00:21:43что мы хотим привнести — будь то в Cursor или через другие интерфейсы в модели Cursor — это идеальный коллега,

00:21:51с которым вы хотите работать.

00:21:53Первый человек,

00:21:54к которому вы обращаетесь,

00:21:56твой любимый коллега,

00:21:57с которым хочешь обсудить идеи.

00:21:59Вот что мы хотим видеть, по крайней мере с Cursor..

00:22:02Думаю,

00:22:03для нас произошло значительное развитие на двух разных фронтах.

00:22:07Первый — сколько шагов агент может разумно выполнить и получить приемлемый результат?

00:22:14В прошлом году это было вероятно один, максимум три.

00:22:17Если вы хотели надёжный результат с успешностью более 90%,

00:22:20вы запускали примерно один-три шага агента.

00:22:22Сегодня большинство инструментов запускают пять-двадцать шагов с не очень хорошей надёжностью,

00:22:27с успешностью более 90%.

00:22:29Я думаю,

00:22:29в следующем году мы добавим вроде 100 плюс,

00:22:32200 плюс — давайте запустим тонны шагов сразу,

00:22:34длительные задачи на несколько часов,

00:22:37и мы уверены,

00:22:37что получим на выходе полезный результат.

00:22:40Второе — какие ресурсы можно использовать.

00:22:42Год назад это было всё,

00:22:44что вы вкладываете в форму промпта — вот,

00:22:46собственно,

00:22:46и всё.

00:22:47Сегодня вы можете настроить внешние подключения через MCP или делать прямые вызовы API в вашем приложении.

00:22:55Вы можете это сделать,

00:22:56если вы знающий человек,

00:22:57у вас есть возможность всё настроить.

00:22:58И я думаю, через год всё это просто будет происходить.

00:23:00Это просто будет работать.

00:23:02Цель в том,

00:23:02чтобы вам не нужно было знать,

00:23:04какие источники контекста нужно предоставить агенту.

00:23:06Агент сам найдёт эти источники контекста проактивно.

00:23:09Мы уже начинаем видеть это сегодня,

00:23:11но я всё ещё не очень уверен,

00:23:13что это очень надёжно и полезно сегодня.

00:23:16Я думаю, к следующему году это будет режимом по умолчанию.

00:23:18Да, я с этим согласен.

00:23:19Я думаю,

00:23:20агенты сегодня могут делать в принципе всё,

00:23:23но степень,

00:23:23в которой они это делают надёжно и проактивно — вот это слайдер,

00:23:28который изменится.

00:23:29Но это также слайдер, который зависит от пользователя.

00:23:31Если вы пользователь,

00:23:32который не меняет своё поведение и не идёте навстречу агенту,

00:23:35вы можете получить более низкую надёжность и проактивность.

00:23:38А если вы правильно настроите свою среду или окружение,

00:23:42то агент сможет это делать более надёжно и более проактивно.

00:23:45Да, отлично.

00:23:46Ну, время вышло.

00:23:48Мой вклад — компьютерное зрение.

00:23:49Все попробуйте Atlas.

00:23:51Все попробуйте больше сценариев использования компьютерного зрения,

00:23:54но спасибо вам большое за вашу время.

00:23:55Спасибо.

00:23:56(аплодисменты зала) (весёлая музыка)

Key Takeaway

ИИ-агенты кодирования трансформируют разработку ПО, позволяя автоматизировать весь цикл разработки, при условии чёткого определения задач и надлежащего контроля, с растущей ролью открытых моделей для специализированных применений.

Highlights

Будущее кодирования сосредоточено на ИИ-агентах, которые автоматизируют не только написание кода, но и тестирование, документацию и все этапы разработки ПО

Локальные и облачные решения будут постепенно сливаться, но в настоящее время облако лучше подходит для небольших задач, а локальные решения - для сложных и требующих пристального контроля

Открытые модели быстро развиваются и становятся всё более жизнеспособны для специализированных задач, хотя закрытые модели остаются лучше для сложного рассуждения и неопределённых проблем

ИИ-агенты - это инструменты усиления мастерства, которые повышают планку для начинающих и позволяют опытным инженерам работать в 10 раз быстрее с высоким качеством

Качество и надёжность генерируемого контента зависит от чёткости и подробности инструкций, которые даёт пользователь - дробовый результат получается при расплывчатых указаниях

В следующем году агенты смогут выполнять 100-200+ шагов подряд для многочасовых задач и проактивно находить необходимые источники контекста без явного указания пользователя

В корпоративной среде сложилась эффективная модель: старшие инженеры пишут подробные спецификации, младшие передают их агентам, что оптимизирует использование человеческого капитала

Timeline

Введение и представление участников панели

Панель открывается с приветствия и представления трёх ключевых участников дискуссии о будущем ИИ-кодирования. Ведущий рассказывает о позиции каждого из представителей в индустрии: Матан из Factory, который работает над автономными агентами разработки (дроидами), представитель OpenAI, работающий над Codex, и третий участник. Обсуждение фокусируется на том, как различные компании подходят к созданию ИИ-агентов для кодирования. Участники также обсуждают, что их объединяет общее видение будущего разработки ПО, где ИИ-агенты берут на себя не только кодирование, но и документацию, тестирование и другие рутинные задачи разработки.

Миссия Factory и развитие Codex: полнофункциональные ИИ-агенты для разработки

Матан объясняет миссию Factory - внедрение автономности в разработку ПО через создание полнофункциональных агентов (дроидов), которые охватывают весь цикл разработки, включая кодирование, документацию, тестирование и проверку кода. Представитель OpenAI описывает эволюцию Codex: от Codex CLI, работающего локально, к Codex Cloud для облачного выполнения, и к объединению обеих возможностей. Он упоминает недавный выпуск Codex SDK для Dev Day и новый класс приложений, использующих агентов не только для кодирования, но и для решения общих задач с использованием встроенных примитивов вроде песочниц. V0 представляется как инструмент, позволяющий разработчикам использовать программирование на основе предпросмотра и агентов, позволяя работать напрямую с запущенным приложением без необходимости управления dev server.

Локальные vs облачные решения: когда использовать каждое и будущее их конвергенции

Участники обсуждают важный вопрос о балансе между локальными и облачными решениями для ИИ-агентов. Матан утверждает, что в конечном итоге агенты должны быть полезны одинаково, независимо от местоположения, подобно людям-коллегам. На данный момент облачные решения лучше подходят для простых, чётко определённых задач, которые можно безопасно делегировать, а локальные - для сложных или длительных задач, где нужен пристальный контроль. Второй спикер добавляет, что выбор между локальным и облачным зависит от расположения ресурсов: если вы работаете с локальной файловой системой, цикл агента должен работать локально; если обращаетесь к облачным ресурсам (GitHub, сторонние репозитории), агент должен стартовать в облаке. В идеальном будущем цикл агента будет работать везде, а инструментальные вызовы будут передаваться между облаком и локальным хранилищем.

Вопрос о качестве генерируемого контента и опасность пузыря ажиотажа

Участники обсуждают критический вопрос о том, является ли много генерируемого контента (муллой) источником реальной ценности или это признак пузыря ажиотажа на пути к общему ИИ. Они приходят к выводу, что качество зависит от чёткости инструкций: если просто сказать агенту 'построй приложение', результат будет средним; но если методично и точно указать требования и предоставить инструменты для тестирования, результат становится структурированным. Метафора с наймом младшего инженера показывает, что без подробной спецификации любой исполнитель выдаст среднее качество. Участники подчёркивают, что ИИ-агенты - это форма рычага (leverage): опытные инженеры могут писать вместо 5000 строк в день уже 50 000 строк с агентами, благодаря качеству введённых данных и знаний. Для начинающих разработчиков даже общее качество улучшает результаты, поскольку агент может делать намного больше, чем они вручную.

Парадокс принятия агентов: молодые разработчики vs опытные инженеры

Обсуждение выявляет интересную бимодальность в принятии ориентированной на агентов разработки в корпоративной среде. Молодые разработчики более открыты к использованию агентов, но им не хватает опыта в делегировании работы, тогда как опытные инженеры имеют сильные навыки в написании детальных спецификаций и понимают, что неточные указания приводят к проблемам. Участники замечают эффективную модель в предприятиях: старшие инженеры пишут подробные тикеты с полной спецификацией, передают их младшим инженерам, которые затем передают их агентам. Это позволяет переместить фокус опытных инженеров на архитектурные решения и проектирование систем, а не на рутинную реализацию. Factory активно пропагандирует эпоху разработки, ориентированной на агентов (agent-driven development era), которую можно найти на их сайте. Обсуждается терминология: 'повысить планку' означает предоставить людям больше ресурсов и возможностей, независимо от исходного уровня навыков.

Открытые vs закрытые модели: текущее состояние и траектория развития

Участники обсуждают важную роль открытых моделей в ИИ-кодировании и стратегию использования как открытых, так и закрытых моделей. Матан упоминает, что при тестировании открытых моделей (особенно GLM) результаты были удивительно хороши - менее производительны, чем передовые модели, но не на большую разницу. Он отмечает позорный факт, что из семи топ моделей в тестировании только одна была разработана в США, тогда как практически все передовые (frontier) модели - американские. Второй спикер поясняет, что используют открытые и закрытые модели для разных целей: закрытые модели для неопределённых задач, требующих высокого уровня рассуждения; открытые - для нишевых задач с ясной целевой функцией, которые можно настроить. Они обнаружили, что открытые модели развиваются очень быстро - полтора года назад было немыслимо их использовать в v0, а сегодня на каждом этапе конвейера рассматривается возможность замены закрытых моделей на тонко настроенные открытые. С момента запуска поддержки открытых моделей процент их использования резко возрос, частично из-за стоимости и большего контроля.

Рост использования открытых моделей и будущие тренды рынка

Участники обсуждают текущий и прогнозируемый рост использования открытых моделей на рынке. Матан вспоминает, что год назад (в начале года) в подкасте BrainTrust упоминалось, что открытые модели составляют примерно 5% использования и это число снижалось. Сейчас разумно предположить, что этот процент находится в диапазоне 10-20% для всех приложений. Участники отмечают, что закрытые модели также активно инвестируют в свои облегчённые версии (Haiku, GPT-4 Mini, Gemini Flash), которые конкурируют с открытыми и тонко настроенными моделями. Обсуждается ключевая точка: при избыточном использовании передовой модели пользователи будут мотивированы перейти на что-то более быстрое и дешёвое. Модели с открытым исходным кодом достигли порога, когда они достаточны для большинства задач, что приводит к увеличению спроса. Ожидается, что в будущем использование открытых моделей будет расти, поскольку они продолжают развиваться очень быстро и пересекают критические пороги производительности.

Будущее возможностей агентов: масштабируемость, надёжность и проактивность

Участники обсуждают, что именно не могут делать агенты сегодня и что они смогут делать в будущем. Первый спикер подчёркивает эволюцию: год назад модель o1 была хороша для отдельных задач, но сегодня можно ставить чётко определённые задачи продолжительностью в две строки и вернуться через 30 минут с готовым результатом. Агенты уже работают многие часы (7-8 часов за раз), что позволяет делегировать значительные объёмы работы. Однако полное инженерское мастерство включает не только кодирование и архитектуру, но и документацию, коммуникацию и убеждение людей - это области, где агенты нужны улучшения. Второй спикер описывает два ключевых направления развития: количество шагов, которые агент может выполнить надёжно (год назад 1-3 шага с 90% успешностью, сегодня 5-20 шагов, в следующем году ожидаются 100-200+ шагов для многочасовых задач), и доступность ресурсов (год назад только промпт-инжиниринг, сегодня MCP-подключения и API-вызовы, в следующем году агенты будут проактивно находить нужные источники контекста). Третий участник согласен, что агенты в принципе могут делать всё, но степень надёжности и проактивности зависит от конфигурации среды пользователем.

Community Posts

Руководство по внедрению ИИ-кодинг-агентов: стратегия делегирования для десятикратного роста продуктивности

makedream15 февр. 2026 г.9720

Write about this video