Painel Codificação para o Futuro

VVercel
컴퓨터/소프트웨어경영/리더십AI/미래기술

Transcript

00:00:00(música animada) - Bem-vindo ao painel O Futuro da IA em Programação.
00:00:04Obrigado por lerem o memorando pedindo para vestirem tudo de preto.
00:00:07(rindo) Tá,
00:00:08então eu queria cobrir um pouco das apresentações.
00:00:12Conheço cada um de vocês de formas diferentes,
00:00:15mas talvez o público não conheça tão bem.
00:00:17Matan, por que você não começa?
00:00:19Qual é a posição da Factory no contexto mais amplo de IA em programação?
00:00:26- Sim,
00:00:26então na Factory,
00:00:28nossa missão é trazer autonomia para a engenharia de software.
00:00:32E o que isso significa na prática,
00:00:34desenvolvemos agentes de desenvolvimento de software de ponta a ponta chamados droids.
00:00:38Eles não focam apenas na programação em si,
00:00:40mas em todo o ciclo de vida do desenvolvimento de software.
00:00:43Então coisas como documentação,
00:00:45testes,
00:00:45revisão,
00:00:46basicamente todas as partes chatas para que vocês possam fazer as partes mais divertidas,
00:00:51como a programação em si.
00:00:52E pelas partes da programação que vocês não querem fazer,
00:00:54os droids também podem fazer isso.
00:00:56Então vocês constroem droids.
00:00:58Vocês constroem droids.
00:00:59E OpenAI obviamente não precisa de apresentação,
00:01:02mas seu papel no time de codecs,
00:01:05eu vi você aparecer no vídeo de codecs.
00:01:08Foi assim que soube que você estava trabalhando nisso.
00:01:10Mas como você está pensando em codecs esses dias,
00:01:13já que se expandiu bastante?
00:01:14- Sim,
00:01:15então no início deste ano,
00:01:16lançamos nosso primeiro agente de programação.
00:01:19Trabalhei no codec CLI,
00:01:20trazendo o poder de nossos modelos de raciocínio para os computadores das pessoas.
00:01:26Depois lançamos o codecs cloud,
00:01:27onde vocês poderiam realmente distribuir e delegar essas tarefas para rodar na nuvem.
00:01:31E nos últimos meses, temos unificado essas experiências.
00:01:34Para que funcionem da forma mais perfeita possível.
00:01:36Então muito de nosso foco é em como tornar os fundamentos,
00:01:39os primitivos tão úteis quanto possível.
00:01:41Acabamos de lançar o dev day SDK de codecs.
00:01:43Então acho que uma das direções principais que estamos vendo é não apenas usar agentes de execução de código para programação,
00:01:50mas também para tarefas de propósito geral.
00:01:52E então seja o agente try,
00:01:53que eu trabalhei no início deste ano que na verdade executa código em segundo plano para realizar algumas tarefas,
00:01:59mas começando a permitir que nossos desenvolvedores construam não apenas sobre os modelos de raciocínio,
00:02:03mas também sobre coisas como sandbox e todos os outros primitivos que construímos no codecs.
00:02:07- Incrível.
00:02:09V0?
00:02:10- Sim,
00:02:10o objetivo do V0 é permitir que os desenvolvedores façam programação agnóstica orientada por visualização.
00:02:16Então hoje quando vocês constroem aplicativos web,
00:02:19vocês provavelmente têm um agente aberto,
00:02:20seu IDE aberto,
00:02:21algo assim,
00:02:22e então uma visualização do que vocês estão realmente construindo.
00:02:25Normalmente vocês estão rodando um servidor de desenvolvimento.
00:02:26Com V0,
00:02:27nosso objetivo é permitir que vocês simplesmente tenham um agente rodando e façam prompt direto contra seu aplicativo em execução.
00:02:32E é assim que pensamos que a experiência de desenvolvedor vai se desenrolar no futuro.
00:02:35- Tá, incrível.
00:02:36E cada um tem diferentes áreas de acesso para seus agentes de programação.
00:02:40Então acho que uma das coisas que queremos explorar é: como é a importância de local versus nuvem?
00:02:45Vocês começaram local depois nuvem,
00:02:47começaram nuvem depois local,
00:02:49e agora só nuvem.
00:02:50Qual é o equilíbrio?
00:02:52Todos vão se mesclar eventualmente?
00:02:55- Sim, talvez eu possa começar aqui.
00:02:58Então acho que no final,
00:02:59o ponto desses agentes é que eles sejam tão úteis quanto possível e tenham um perfil muito similar ao de um humano com o qual vocês possam trabalhar.
00:03:08E vocês não têm humanos locais e humanos remotos que funcionam de forma diferente,
00:03:12como se apenas um funcionasse neste ambiente e o outro apenas naquele.
00:03:16Geralmente,
00:03:16os humanos podem ser úteis se estiverem em uma reunião com vocês e surgir uma ideia,
00:03:21ou se estiverem ao seu lado trabalhando no computador.
00:03:24Então assintoticamente,
00:03:25esses precisam se tornar a mesma coisa,
00:03:28mas acho que no curto prazo,
00:03:30o remoto é tipicamente,
00:03:31o que estamos vendo é que é tipicamente mais útil para tarefas menores que vocês têm mais confiança de delegar confiávelmente.
00:03:39Enquanto local é quando vocês querem estar um pouco mais perto do agente,
00:03:44talvez alguma tarefa maior ou mais complicada que vocês vão monitorar ativamente.
00:03:49E vocês querem que seja local para que se algo der errado,
00:03:52vocês não precisem baixar aquele branch e começar a trabalhar,
00:03:56mas sim estar lá para guiar.
00:03:57- Sim, talvez eu seja guloso, mas quero os dois.
00:04:00E acho que ter uma modalidade para o ponto do Matan,
00:04:03onde eu gosto de pensar sobre quais são as principais formas de colaboração que tenho e desfruto com meus colegas de trabalho.
00:04:11Muitas vezes começa algo como uma sessão de whiteboard e talvez estejamos apenas criando algo em uma sala.
00:04:17Quando estávamos construindo,
00:04:19acho que um bom exemplo foi agents.md,
00:04:21que é nossa instrução customizada destinada a ser genérica em diferentes agentes de programação.
00:04:26A forma como começou foi Romain e eu apenas em uma sala desenvolvendo essa ideia.
00:04:31Então começamos a fazer whiteboard e depois tiramos uma foto e depois a disparamos no codec CLI localmente,
00:04:36assim como em um workshop com um app Next.js que poderíamos trabalhar,
00:04:40fomos almoçar,
00:04:41voltamos.
00:04:41Tinha uma boa quantidade da estrutura central.
00:04:44E daí em diante, conseguimos iterar um pouco mais próximos.
00:04:46Então tendo esse tipo de pareamento e tipo de experiência de brainstorm.
00:04:49E então acho que para aquele segundo ponto sobre que tipo de tarefas vocês delegam,
00:04:54acho que historicamente tarefas menores,
00:04:56bem delimitadas onde vocês têm clareza sobre qual é o resultado,
00:04:59é a modalidade certa se vocês forem fazer fire and forget.
00:05:02Mas acho que o que começamos a ver,
00:05:04acabamos de lançar codecs GBD5 há aproximadamente dois meses.
00:05:08E acho que uma das principais diferenças é que ele consegue fazer essas tarefas mais longas,
00:05:12mais complexas,
00:05:12mais ambíguas,
00:05:13contanto que vocês sejam claros sobre o que querem no final.
00:05:16Então consegue trabalhar por horas a fio.
00:05:18Acho que esse deslocamento conforme os modelos aumentam em capacidade vai começar a permitir mais casos de uso.
00:05:24- Sim.
00:05:24Sim, acho que há três partes para fazer um agente funcionar.
00:05:27Há o loop do agente em si,
00:05:28há as chamadas de ferramenta que ele faz,
00:05:30e então os recursos sobre os quais essas chamadas precisam agir.
00:05:34Se vocês vão para nuvem ou local primeiro depende de onde esses recursos estão,
00:05:37certo?
00:05:37Se vocês estão tentando trabalhar em um sistema de arquivos local,
00:05:39esses são os recursos que vocês precisam acessar.
00:05:41Faz total sentido que o loop do agente deve rodar localmente,
00:05:44certo?
00:05:44Se vocês estão acessando recursos que tipicamente existem na nuvem,
00:05:47puxando do GitHub,
00:05:48direto de algum repositório de terceiros,
00:05:51então faz sentido que seu agente comece na nuvem,
00:05:53certo?
00:05:54Mas em última análise,
00:05:55esses recursos existem em ambos os lugares,
00:05:57certo?
00:05:57Todo desenvolvedor espera que um agente consiga trabalhar tanto no sistema de arquivos local quanto em um PR aberto que pode estar hospedado no GitHub.
00:06:04E então realmente não importa por onde vocês começam,
00:06:07acho que todos estão convergindo para o mesmo lugar,
00:06:09que é que o loop do agente precisa conseguir rodar em qualquer lugar,
00:06:12as chamadas de ferramenta precisam poder ser transmitidas da nuvem localmente ou de um backup local para a nuvem.
00:06:16E tudo depende de onde os recursos que vocês realmente querem agir estão localizados.
00:06:20- Sim, incrível.
00:06:22Tá,
00:06:22então estávamos conversando nos bastidores e procurando por perguntas polêmicas e coisas assim.
00:06:27Então eu realmente gostei dessa e acho que é muito atual.
00:06:31Vocês geram lixo como forma de vida?
00:06:33Como estamos em perigo de estar em uma bolha de hype
00:06:40onde acreditamos que este é um caminho sustentável para AGI?
00:06:44- Bem,
00:06:45acho que para começar,
00:06:46vocês poderiam dizer que o lixo de um é o tesouro de outro,
00:06:50o que até certo ponto pode ser verdade.
00:06:52Por exemplo,
00:06:53suponhamos que vocês tivessem um repositório que não tivesse absolutamente nenhuma documentação.
00:07:00Vocês poderiam usar muitas das ferramentas sobre as quais falamos para gerar documentação para esse repositório.
00:07:08Agora,
00:07:09será que vai ser o pedaço mais requintado de documentação?
00:07:13Não, mas fornece valor?
00:07:16Sim,
00:07:16na minha opinião,
00:07:17porque ter que vasculhar alguma base de código legada super antiga que não tem docs é muito mais difícil do que olhar para uma documentação um pouco descuidada.
00:07:26E então acho que a coisa principal é descobrir onde vocês podem usar essas ferramentas para ganho e o quanto de lixo é,
00:07:34acho que também depende muito de quanto de orientação vocês fornecem.
00:07:38Então se vocês apenas dizem,
00:07:39construa para mim um app que faz isso,
00:07:41vocês provavelmente vão conseguir algum app lixo genérico que faz-- - É roxo.
00:07:44- Sim, azul, roxo tipo fade, sim.
00:07:48Enquanto se ao contrário vocês fossem muito metódicos sobre exatamente o que vocês querem,
00:07:52fornecessem as ferramentas para realmente rodar testes para verificar algumas das capacidades que vocês estão solicitando.
00:07:58Acho que torna muito mais estruturado de forma similar a se vocês,
00:08:02sabe,
00:08:02contratassem algum engenheiro junior para seu time e apenas dissessem,
00:08:07ei,
00:08:07vá fazer isso.
00:08:08Tipo eles provavelmente vão entregar um resultado mediano porque não têm nenhuma outra especificação.
00:08:14E é bem ambíguo o que vocês realmente querem que seja feito.
00:08:19- Acho que a palavra-chave é ganho, certo?
00:08:21O que os agentes de IA permitem que vocês façam é fazer 10 vezes mais do que conseguiriam fazer sozinhos com um piso bastante alto,
00:08:27certo?
00:08:27Então se vocês mapearem nível de habilidade contra o quão útil um agente é ou o quão provável é,
00:08:31sabe,
00:08:32o quão útil ele realmente é em gerar não-lixo,
00:08:34há provavelmente um piso bem baixo se vocês não tiverem habilidade.
00:08:36Vocês ainda têm um piso bem alto, certo?
00:08:38Os agentes são bem bons simplesmente saindo da caixa.
00:08:39Se vocês não sabem nada sobre desenvolvimento,
00:08:41o agente vai fazer muito mais do que vocês jamais conseguiriam fazer.
00:08:44Mas conforme vocês chegam a níveis de habilidade cada vez mais altos,
00:08:46engenheiros sênior,
00:08:47principal e distinto realmente usam agentes de forma diferente.
00:08:50Eles o usam para potencializar as coisas que já conseguem fazer.
00:08:53Sabe,
00:08:53um engenheiro principal consegue escrever manualmente 5.000 linhas de código por dia.
00:08:57Com agentes,
00:08:58conseguem escrever 50.000 linhas de código por dia.
00:09:00E realmente funciona no nível da qualidade dos inputs e do conhecimento que vocês colocam ali.
00:09:04Então acho que estamos lentamente elevando o piso ao longo do tempo,
00:09:09desenvolvendo agentes melhores.
00:09:11Mas realmente acho que é uma forma de ganho.
00:09:14É uma forma de vocês acelerarem o tipo de coisas que já conseguem fazer,
00:09:17fazerem mais rápido.
00:09:18E para pessoas que não têm habilidades,
00:09:20é quando vocês conseguem realmente elevar o piso do que eles conseguem fazer.
00:09:23- Absolutamente,
00:09:24e só para adicionar a esses dois pontos,
00:09:26acho que eles são ferramentas e amplificadores de ofício.
00:09:29Se vocês têm, conseguem fazer mais.
00:09:31Se não têm, é mais difícil, mas eleva o piso.
00:09:34Acho que vale muito a pena destacar isso.
00:09:36Acho que para pessoas que estão apenas tentando construir seu primeiro protótipo,
00:09:40estão tentando iterar uma ideia,
00:09:41aquele exemplo que estava mencionando antes.
00:09:44Não é que eu não conseguisse fazer um front end que fosse como um site orientado por conteúdo,
00:09:49mas eu simplesmente não tinha tempo.
00:09:51E era muito mais divertido apenas desenhar em um whiteboard,
00:09:53conversar,
00:09:54ter uma conversa,
00:09:55e depois disparar para um agente.
00:09:57Mas acho que um dos exemplos interessantes disso foi quando estávamos construindo iterações muito anteriores de codecs,
00:10:02há mais de um ano.
00:10:03E estávamos colocando na frente de dois arquétipos diferentes,
00:10:07pessoas que fazem muito product engineering onde estão acostumadas a usar ferramentas locais,
00:10:13estilo inner loop onde estão acostumadas a apenas conversar e talvez iterar.
00:10:19E então uma modalidade completamente diferente quando falamos com pessoas nos times de raciocínio onde elas ficariam por talvez cinco minutos apenas definindo a tarefa e teriam um problema de palavra com tamanho de ensaio para o agente ir e fazer,
00:10:32e depois funcionaria por uma hora.
00:10:33E era efetivamente O1 ou versões anteriores disso.
00:10:37E acho que a parte interessante ali era apenas o jeito que as pessoas abordariam dar a tarefa para o agente era completamente diferente baseado em seu entendimento do que eles acham que ele precisa.
00:10:48E então acho que realmente ancorar em especificidade,
00:10:51sendo realmente claro sobre o que vocês querem que o resultado seja.
00:10:55E acho que há um item mais amplo que é responsabilidade tanto de nós como construtores de agentes e pessoas treinando modelos para realmente elevar esse piso e garantir que o teto para pessoas com artesanato alto,
00:11:07com gosto alto conseguem exercer isso da forma que eles veem como apropriado.
00:11:11- Acho que realmente algo que vocês mencionaram trouxe essa ideia à mente que começamos a notar.
00:11:16Então nosso público-alvo é a empresa.
00:11:19E algo que vimos ocorrer repetidamente é que há uma bimodalidade bem interessante em termos de adoção de desenvolvimento agnóstico de agente.
00:11:28E em particular,
00:11:29normalmente desenvolvedores mais cedo na carreira são mais receptivos para começar a construir de forma agnóstica de agente,
00:11:36mas não têm a experiência de gerenciar times de engenharia.
00:11:39Então talvez não sejam tão familiarizados com delegação de uma forma que funcione muito bem.
00:11:44Enquanto isso,
00:11:44engenheiros mais experientes têm muita experiência delegando.
00:11:47Eles sabem que,
00:11:48ei,
00:11:49se eu não especificar essas coisas exatas,
00:11:50não vai ser feito.
00:11:51E então eles são realmente bons em escrever aquele parágrafo,
00:11:54mas são bem teimosos e realmente não querem mudar o jeito que constroem e vocês vão ter que arrancar Emacs de suas mãos frias e mortas.
00:12:03Então é um equilíbrio interessante ali.
00:12:05- Engraçado vocês dizerem isso.
00:12:06Coisa similar que vimos na empresa é engenheiros sênior,
00:12:10pessoas mais altas criam tickets.
00:12:12Então eles realmente fazem o trabalho de escrever toda a especificação do que precisa ser feito.
00:12:16Eles entregam para um engenheiro junior fazer o trabalho de verdade.
00:12:18O engenheiro junior pega aquele ticket super bem escrito e dá para o agente fazer,
00:12:21certo?
00:12:21Então vocês estão apenas arbitrando a ideia de que o engenheiro junior vai realmente fazer o trabalho do agente porque eles estão mais confortáveis fazendo isso.
00:12:28Mas o engenheiro sênior é a pessoa que é realmente boa em escrever a especificação,
00:12:32muito bom em entender quais são as decisões arquiteturais que devemos estar tomando e colocando isso em algum tipo de ticket.
00:12:37- Sim,
00:12:38para quem não sabe,
00:12:39Matan e a Factory em geral têm escrito e defendido o tópico de desenvolvimento agnóstico de agente.
00:12:44Então vocês conseguem ler mais no website deles.
00:12:45Acho que uma coisa,
00:12:47a propósito,
00:12:47que eu queria levantar talvez como uma terminologia,
00:12:51que é elevar o piso para vocês é uma coisa boa.
00:12:54Acho que realmente outras pessoas dizem abaixar o piso também significa a mesma coisa.
00:12:57Basicamente é sobre nível de habilidade e o que eles conseguem fazer e apenas dar às pessoas mais recursos para isso.
00:13:05Acho que a outra coisa é que muitas pessoas estão pensando sobre a camada do modelo,
00:13:13certo?
00:13:13Obviamente vocês possuem seus próprios modelos,
00:13:17os dois de vocês não.
00:13:18E acho que há um tópico em voga na conversa sobre valor agora.
00:13:22Airbnb,
00:13:23Brian Chesky disse que a maioria do valor era,
00:13:25basicamente depende de Quinn aparentemente.
00:13:28Qual é a importância de modelos abertos para vocês e vocês podem,
00:13:31para quem quer contribuir também,
00:13:33mas qual é a importância de modelos abertos como estratégia para ambos?
00:13:37- Eu gostaria de ouvir vocês primeiro.
00:13:38- Sim.
00:13:38Bem, amo modelos abertos.
00:13:42Acho que uma das coisas importantes sobre,
00:13:44então só conseguir falar sobre modelos,
00:13:46acho que abertura é realmente chave para o que acho que um ciclo de vida de desenvolvimento sustentável onde com Codex CLI,
00:13:53abrimos na porta de saída e parte da prioridade era entender que um modelo aberto estava vindo no futuro.
00:13:58Queremos garantir que documentássemos muito bem como usar nossos modelos de raciocínio.
00:14:03Vimos muita confusão sobre que tipo de ferramentas dar a ele,
00:14:06qual deveria ser o ambiente,
00:14:07os recursos.
00:14:08E então queremos garantir que fosse tão claro quanto possível e também garantir que funcionasse bem com modelos abertos.
00:14:12Então acho que definitivamente há muitos casos de uso,
00:14:16especialmente quando vocês entram em casos de uso incorporados ou onde vocês não querem que os dados saiam do perímetro.
00:14:23Há muitas boas razões pelas quais vocês gostariam de fazer isso.
00:14:26E então acho que o benefício de modelos hospedados na nuvem,
00:14:30e é o que vemos com muitos modelos abertos.
00:14:33Eles acabam sendo,
00:14:34não rodam no dispositivo,
00:14:35mas são realmente hospedados na nuvem mesmo,
00:14:37talvez por eficiência,
00:14:39talvez por custo,
00:14:40ainda há muito valor apenas na inteligência pura que vocês conseguem ao usar um modelo muito maior.
00:14:46E é por isso que vemos pessoas gravitar muito em direção a modelos como O3 para GBD5 para GBD5 Codex.
00:14:52Ainda há muito valor nisso.
00:14:53Agora vemos que aquela sobrecarga ainda meio que vem,
00:14:57se resolve onde a cada alguns meses há um novo modelo,
00:15:01muito pequeno,
00:15:02muito impressionante.
00:15:04E acho que é a mágica se apenas considerarmos no início deste ano,
00:15:07tínhamos O3 mini como sendo a fronteira e onde estamos agora.
00:15:10E então,
00:15:11sim,
00:15:11acho que há um enorme valor em modelos abertos,
00:15:14mas ainda,
00:15:15acho que pessoalmente,
00:15:16de uma perspectiva de uso,
00:15:18mais valor em usar os hospedados na nuvem.
00:15:21- Sim, vou apenas interjactar um pouco.
00:15:23Ford realmente se importa com privacidade,
00:15:25segurança,
00:15:26robustez de agente.
00:15:27E então se vocês o encontrarem,
00:15:29conversem com ele mais sobre isso.
00:15:30Mas para vocês dois,
00:15:31talvez vocês queiram começar com,
00:15:33na verdade,
00:15:34qual é o percentual aproximado de tokens de modelos abertos gerados em seus apps respectivos?
00:15:39E vai subir ou descer?
00:15:42- Então acho que,
00:15:42então talvez para começar,
00:15:44porque acho que o que vocês disseram é realmente interessante.
00:15:47Então há algumas semanas,
00:15:48quando lançamos nossa ferramenta Factory CLI,
00:15:50as pessoas estavam realmente interessadas porque também lançamos com ela nossa pontuação neste benchmark chamado Terminal Bench.
00:15:57E um dos primeiros pedidos foi,
00:15:59vocês conseguem colocar modelos open source à prova?
00:16:02Porque nosso agente droid é completamente agnóstico quanto a modelo.
00:16:04Então imediatamente pessoas eram como,
00:16:06joguem os modelos open source e mostrem como se comporta.
00:16:09E acho que algo que foi particularmente surpreendente era que os modelos open source,
00:16:14e em particular GLM,
00:16:15eram realmente,
00:16:16realmente bons.
00:16:17Eram de fato obviamente menos performáticos que os modelos de fronteira,
00:16:22mas não por uma margem enorme.
00:16:24Acho que,
00:16:25então uma coisa que foi notável era quando benchmarkamos os modelos open source,
00:16:30dos sete no topo,
00:16:31um deles foi feito nos Estados Unidos por mim mesmo aqui,
00:16:35que acho que é meio uma pena.
00:16:37Como o fato de que de longe,
00:16:39dos modelos de fronteira,
00:16:41é Estados Unidos em toda parte.
00:16:43Mas então quando vem a open source,
00:16:45realmente estamos deixando a bola cair.
00:16:47Então acho que é uma coisa notável e acho que algo que,
00:16:50pelo menos quando vi isso,
00:16:52acho que deveria haver uma chamada às armas em termos de mudar isso.
00:16:56Porque acho que para responder sua pergunta,
00:16:58o que descobrimos é que desde que lançamos suporte para modelos open source,
00:17:03o percentual de pessoas que usam modelos open source subiu dramaticamente.
00:17:08Parcialmente por custo e porque,
00:17:10sabe,
00:17:10permite que vocês,
00:17:11digamos no exemplo de documentação,
00:17:13talvez vocês queiram gerar docs,
00:17:15mas não querem que seja como,
00:17:16sabe,
00:17:17em raciocínio super alto,
00:17:18tipo ao máximo,
00:17:19que custe mil dólares,
00:17:20mas vocês só querem conseguir alguma primeira passagem inicial.
00:17:24E também as pessoas gostam de ter um pouco mais de controle.
00:17:28E sinto que conseguem muito mais controle com alguns desses modelos open source,
00:17:33tanto controle quanto custo e apenas tipo observabilidade em relação ao que está realmente acontecendo ali.
00:17:39Então a demanda cresceu para um ponto que realmente não esperava um ano atrás.
00:17:43Acho que um ano atrás,
00:17:45eu era menos otimista sobre modelos open source do que sou agora,
00:17:48open-weight,
00:17:49mas sim.
00:17:49- Sim,
00:17:50acho que usamos tanto modelos open source quanto closed source em nosso pipeline geral de agentes.
00:17:55E acho que o jeito que pensamos sobre eles é que há dois casos de uso diferentes para uma chamada LLM.
00:17:58Um é quando vocês querem raciocínio de ponta de lança.
00:18:01É uma pergunta muito, muito aberta.
00:18:02Vocês realmente não sabem qual é a resposta.
00:18:04O objetivo é tipo,
00:18:05a função objetivo não é super bem definida.
00:18:07Nesses casos,
00:18:08modelos closed source ainda são ponta de lança quando se trata de raciocínio e inteligência.
00:18:13Usamos modelos closed source quase que exclusivamente para aqueles tipos de casos de uso.
00:18:16Há um segundo caso de uso onde temos uma tarefa mais nicho com uma função objetivo muito mais clara.
00:18:22Nesses casos,
00:18:23quase sempre tentamos fazer fine tune em um modelo open source.
00:18:26Estamos bem com pegar um corte de 20% talvez em termos de capacidade de raciocínio para que possamos realmente fazer fine tune em um caso de uso muito,
00:18:34muito específico.
00:18:35E acho que descobrimos que os modelos de código aberto estão nos alcançando muito,
00:18:39muito,
00:18:39muito rápido.
00:18:39Um ano e meio atrás,
00:18:41era impensável para nós usar modelos de código aberto como parte do pipeline do v0.
00:18:45Hoje,
00:18:45em cada parte do pipeline,
00:18:47a gente pensa: ok,
00:18:47conseguimos trazer modelos de código aberto para isso?
00:18:49Conseguimos substituir o que estamos fazendo com modelos de código fechado do estado da arte com um fine-tune de um modelo de código aberto?
00:18:57E temos visto muito sucesso com Quen,
00:19:00QEMI-K2 e outros modelos desse tipo.
00:19:02- Sim,
00:19:03eu chamo atenção para isso como uma das maiores mudanças que vi em todos,
00:19:07porque no início deste ano,
00:19:08fiz um podcast com Ankur da BrainTrust,
00:19:10e ele disse que o uso de modelos de código aberto era em torno de 5% no que a BrainTrust está vendo,
00:19:16e caindo.
00:19:17E agora acho que razoavelmente vai ficar entre 10 e 20% para todos.
00:19:22- Acho interessante que até os modelos de código fechado estejam investindo mais pesadamente em seus modelos de classe menor.
00:19:29Os Haikus,
00:19:30GPD5 Minis,
00:19:30Gemini Flashes do mundo,
00:19:32que acho que também é esta classe de modelo que mais compete com código aberto.
00:19:38É a classe de modelos pequenos competindo contra um fine-tune de um modelo de código aberto.
00:19:42- E acho também que existem alguns casos de uso onde seria simplesmente exagerado usar um modelo de fronteira,
00:19:48e se é exagerado,
00:19:49você claramente vai ser incentivado a usar algo que seja mais rápido e barato.
00:19:53E acho que parte disso,
00:19:55parte dessa diferença na percentagem de uso é que há um limiar,
00:19:59quando modelos abertos cruzam esse limiar em que para a maioria das tarefas,
00:20:03é realmente suficiente,
00:20:05e daí para algumas tarefas específicas,
00:20:07você precisa de um poder adicional.
00:20:10Acho que estamos realmente chegando lá com alguns desses modelos abertos,
00:20:13por isso acho que vamos ver mais uso no futuro.
00:20:16- Sim, ótimo, isso é muito encorajador.
00:20:18Então temos um tempo para fechar com a pergunta final: o que seus agentes não conseguem fazer hoje que vocês gostariam que fizessem,
00:20:25que provavelmente farão no próximo ano?
00:20:27- Eu vou primeiro?
00:20:31Ok.
00:20:32Sim,
00:20:32acho que o que vimos no último ano,
00:20:35talvez começando como referência com o o1,
00:20:38pouco mais de um ano atrás,
00:20:40ou o1 preview,
00:20:41o que vimos desde então,
00:20:42quando eu estava usando checkpoints bem iniciais daquele modelo,
00:20:47era ótimo comparado ao 40,
00:20:49mas ainda deixava muito a desejar.
00:20:51Eu não colocaria,
00:20:52eu estava no time de segurança na época,
00:20:55e havia muito trabalho e tarefas que simplesmente não conseguia delegar àquele modelo.
00:21:00E quando comparamos com hoje,
00:21:02onde consigo pegar uma tarefa bem definida,
00:21:04talvez seja dois parágrafos,
00:21:05alguns pontos do seu lado,
00:21:07como aqui estão os problemas que acho que você provavelmente vai enfrentar,
00:21:11e volta 30 minutos depois,
00:21:12uma hora depois,
00:21:13está pronto.
00:21:14Temos visto casos onde está rodando por muitas horas,
00:21:17talvez até sete ou oito horas,
00:21:18efetivamente um dia inteiro de trabalho que passo muito do meu tempo em reuniões,
00:21:23e então não tenho necessariamente esse bloco sólido de tempo.
00:21:26Mas isso é apenas metade do que engenharia é realmente.
00:21:30Parte é codificação,
00:21:31parte é arquitetura e troubleshooting e debugging.
00:21:34A outra metade do problema é escrever documentação,
00:21:36é entender o sistema,
00:21:38convencer pessoas.
00:21:39E então acho que o que vamos começar a ver é esse super colaborador onde o que queremos trazer,
00:21:45seja em codecs ou essas outras interfaces através do modelo codecs,
00:21:50é o colaborador ideal com quem você quer trabalhar.
00:21:53A pessoa para quem você vai primeiro,
00:21:55aquele colega de trabalho favorito com quem você quer debater ideias,
00:21:59é realmente o que queremos ver,
00:22:01pelo menos com codecs.
00:22:02Acho que para nós,
00:22:03temos visto uma progressão rápida em duas frentes diferentes.
00:22:07A primeira é quantos passos você pode razoavelmente esperar que um agente consiga fazer e produzir um resultado razoavelmente bom?
00:22:14Ano passado, provavelmente um, talvez máximo três, certo?
00:22:17Se você quisesse um resultado confiável com mais de 90% de sucesso,
00:22:19você provavelmente rodaria um a três passos de agente.
00:22:22Hoje,
00:22:22a maioria das ferramentas roda cinco a 20 sem taxas de confiabilidade muito boas,
00:22:27acima de 90% de sucesso.
00:22:29Acho que no próximo ano,
00:22:30vamos adicionar algo como 100 mais,
00:22:32200 mais,
00:22:32vamos rodar toneladas de passos de uma vez,
00:22:34ter tarefas de longa duração por várias horas e ter confiança de que você terá um resultado no final que será útil.
00:22:40A segunda é em termos de que recursos podem ser consumidos.
00:22:42Um ano atrás,
00:22:43era o que quer que você estivesse colocando no formulário de prompt,
00:22:46basicamente era isso.
00:22:47Hoje,
00:22:47você pode configurar conexões externas via MCP ou fazendo chamadas de API diretamente em sua aplicação.
00:22:55Você consegue fazer isso se for conhecedor,
00:22:57você tem a capacidade de configurar coisas.
00:22:58E acho que em um ano a partir de agora,
00:22:59isso vai simplesmente acontecer.
00:23:00Tipo, vai funcionar.
00:23:02O objetivo é que você não precisa saber que fontes de contexto você precisa dar ao agente.
00:23:06O agente vai realmente ir e encontrar essas fontes de contexto proativamente.
00:23:09Estamos começando a ver isso até hoje,
00:23:11mas ainda não tenho muita confiança de que isso seja muito confiável e útil hoje.
00:23:16Acho que no próximo ano, isso será o modo padrão.
00:23:18- Sim, eu concordo com isso.
00:23:19Acho que agentes conseguem fazer basicamente tudo hoje,
00:23:23mas o grau em que o fazem de forma confiável e proativa é acho que o que vai mudar.
00:23:29Mas esse é um slider que também depende do usuário.
00:23:31Como se você fosse um usuário que não está realmente mudando seu comportamento e encontrando o agente onde ele está,
00:23:36então você pode obter uma confiabilidade e proatividade menores.
00:23:38Enquanto se você configurar seu harness corretamente ou configurar seu ambiente corretamente,
00:23:42ele conseguirá fazer mais disso de forma confiável e mais proativamente.
00:23:45- Sim, incrível.
00:23:46Bem, nosso tempo acabou.
00:23:48Minha contribuição é visão computacional.
00:23:49Todos experimentem o Atlas.
00:23:51Todos experimentem mais casos de uso de visão computacional,
00:23:54mas obrigado muito por seu tempo.
00:23:55- Obrigado.
00:23:56(audiência aplaudindo) (música animada)

Key Takeaway

Agentes de IA estão se tornando colaboradores produtivos que amplificam habilidades técnicas existentes, com crescimento acelerado de modelos de código aberto e evolução contínua em capacidade de raciocínio, autonomia e confiabilidade.

Highlights

Os agentes de IA funcionam como amplificadores de habilidades, elevando o piso do que pessoas com menos experiência conseguem fazer e multiplicando a capacidade de engenheiros sênior

Modelos de código aberto estão crescendo rapidamente em adoção, passando de 5% no início do ano para aproximadamente 10-20% de uso em pipelines de produção

O desenvolvimento agnóstico de agentes cria uma bimodalidade interessante: engenheiros juniores são mais receptivos mas menos experientes em delegação, enquanto sênior delegam bem mas resistem a mudar seus fluxos de trabalho

Agentes não funcionam melhor localmente ou em nuvem, mas sim onde os recursos que precisam acessar estão localizados, convergindo para capacidade de rodar em qualquer ambiente

A qualidade do resultado de agentes de IA depende fundamentalmente da clareza e especificidade das instruções e diretrizes fornecidas pelo usuário

No próximo ano, espera-se que agentes consigam executar 100-200 passos consecutivos com confiabilidade acima de 90%, e descobrir proativamente as fontes de contexto necessárias

Timeline

Introdução ao Painel e Apresentação dos Participantes

O painel inicia com uma apresentação descontraída sobre o futuro da IA em programação. O moderador apresenta os três especialistas principais: Matan da Factory, um representante do OpenAI, e um representante do Vercel/v0. Matan explica que a Factory trabalha em agentes de desenvolvimento de software de ponta a ponta chamados 'droids', que cuidam não apenas da programação, mas de todo o ciclo de vida do desenvolvimento, incluindo documentação, testes e revisão de código. Essa abordagem permite que engenheiros se concentrem nas partes mais interessantes do trabalho enquanto os agentes cuidam das tarefas repetitivas.

Evolução dos Produtos e Capacidades de Agentes

O representante do OpenAI detalha o progresso dos produtos de codificação ao longo do ano: inicialmente lançaram seu primeiro agente de programação, seguido do Codex CLI trazendo modelos de raciocínio para os computadores locais dos usuários. Depois veio o Codex Cloud permitindo distribuição em nuvem, e recentemente unificaram essas experiências com o lançamento do dev day SDK. O representante destaca que estão expandindo o uso de agentes para tarefas genéricas além da programação, como o agente try que executa código em segundo plano. Esse progresso mostra uma trajetória de expansão das capacidades e acessibilidade dos agentes de IA.

v0 e Programação Orientada por Visualização

O representante do Vercel explica o objetivo do v0: permitir que desenvolvedores façam programação web agnóstica orientada por visualização. Em vez de ter um editor de código aberto, um IDE e um preview da aplicação rodando simultaneamente, o v0 funciona com um agente rodando e permitindo interação via prompts diretos contra a aplicação em execução. Isso representa uma mudança fundamental na experiência do desenvolvedor, consolidando múltiplas ferramentas em uma interface única e mais intuitiva. Essa abordagem reflete a visão de como a experiência de desenvolvimento evoluirá no futuro, com agentes e visualização integrados.

Debate: Local versus Nuvem para Execução de Agentes

Os participantes discutem profundamente sobre onde agentes devem executar - localmente ou na nuvem. O consenso é que não é uma questão binária, mas depende de onde os recursos que o agente precisa acessar estão localizados. Se a tarefa envolve o sistema de arquivos local, faz sentido executar localmente. Se envolve repositórios GitHub ou recursos em nuvem, execução em nuvem é apropriada. A análise técnica apresenta três componentes: o loop do agente, as chamadas de ferramenta, e os recursos sobre os quais agem. No curto prazo, agentes remotos são úteis para tarefas menores delegáveis com confiança, enquanto agentes locais permitem monitoramento ativo de tarefas complexas. O objetivo final é que agentes funcionem de forma agnóstica, rodando em qualquer lugar conforme necessário.

Qualidade de Código Gerado e Questão do 'Lixo'

O painel aborda a preocupação sobre agentes gerarem código de baixa qualidade. O argumento central é que a qualidade depende fundamentalmente da orientação fornecida. Um desenvolvedor que simplesmente diz 'construa um app' provavelmente receberá algo genérico de baixa qualidade. Porém, desenvolvedores que são metódicos sobre especificações, fornecendo ferramentas e testes para verificar requisitos, conseguem resultados bem estruturados. É análogo a contratar um engenheiro junior e dar-lhe instruções claras versus vagas. O painel também discute como agentes funcionam como amplificadores: elevam o piso para iniciantes (pessoas que não conseguiriam fazer nada conseguem fazer algo) e multiplicam a capacidade de especialistas (um engenheiro sênior que escreve 5 mil linhas por dia consegue escrever 50 mil com agentes).

Adopção de Agentes em Empresas e Diferentes Perfis de Desenvolvedores

Os participantes revelam uma bimodalidade interessante na adoção de desenvolvimento agnóstico: engenheiros juniores são mais receptivos e começam a construir com agentes naturalmente, mas carecem de experiência em delegação eficaz. Engenheiros sênior têm muita experiência delegando (pois gerenciam times) e são excelentes em escrever especificações claras, mas resistem a mudar sua forma de trabalhar. Um padrão emergente em empresas é engenheiros sênior criarem tickets bem especificados, que engenheiros juniores entregam a agentes para execução. O painel destaca a importância de distinção terminológica: 'elevar o piso' e 'abaixar o piso' significam a mesma coisa - dar às pessoas mais recursos de acordo com seu nível de habilidade. Também mencionam que agentes são ferramentas e amplificadores de ofício, não substituições.

Importância de Modelos Abertos e Estratégia de Modelos

Há uma discussão aprofundada sobre modelos de código aberto versus fechado. Os participantes foram inicialmente céticos sobre modelos abertos no início do ano, mas observaram adoção dramática crescente desde então. Um fator-chave é que modelos abertos como GLM e Qwen estão performando impressionantemente bem, especialmente considerando fine-tuning para casos de uso específicos. OpenAI e Vercel usam diferentes estratégias: OpenAI mantém modelos closed-source para raciocínio de ponta de lança em problemas abertos, mas usa modelos abertos para tarefas niche bem definidas com fine-tuning. Vercel igualmente se move para modelos abertos quando há uma função objetivo clara. O uso de modelos abertos cresceu de aproximadamente 5% no início do ano para 10-20% atualmente. O painel observa que modelos closed-source estão investindo mais em modelos pequenos (Haiku, GPT-4 Mini, Gemini Flash) que competem diretamente com modelos abertos fine-tunados.

Futuro dos Agentes: Capacidade, Confiabilidade e Autonomia

Os panelistas discutem o que agentes ainda não conseguem fazer bem mas farão no próximo ano. OpenAI observa que o modelo o1 um ano atrás deixava muito a desejar em tarefas de segurança, mas hoje conseguem delegar tarefas bem definidas de 2 parágrafos que retornam prontas em 30 minutos a várias horas. A evolução deve trazer colaboradores ideais com quem se quer trabalhar, capazes de abordar não apenas codificação, mas arquitetura, troubleshooting, debugging e documentação. Vercel destaca dois avanços esperados: primeiro, aumentar o número de passos que agentes conseguem executar confiávelmente (de 1-3 passos um ano atrás para 5-20 hoje, esperando 100-200 no próximo ano com confiabilidade acima de 90%). Segundo, agentes descobrindo proativamente as fontes de contexto necessárias em vez de exigir que usuários configurem manualmente. A conclusão é que agentes conseguem fazer essencialmente tudo hoje, mas a confiabilidade, proatividade e a capacidade de encontrar contexto por conta própria são os differentiators que evoluirão.

Community Posts

View all posts