00:00:00(música animada) - Bem-vindo ao painel O Futuro da IA em Programação.
00:00:04Obrigado por lerem o memorando pedindo para vestirem tudo de preto.
00:00:07(rindo) Tá,
00:00:08então eu queria cobrir um pouco das apresentações.
00:00:12Conheço cada um de vocês de formas diferentes,
00:00:15mas talvez o público não conheça tão bem.
00:00:17Matan, por que você não começa?
00:00:19Qual é a posição da Factory no contexto mais amplo de IA em programação?
00:00:26- Sim,
00:00:26então na Factory,
00:00:28nossa missão é trazer autonomia para a engenharia de software.
00:00:32E o que isso significa na prática,
00:00:34desenvolvemos agentes de desenvolvimento de software de ponta a ponta chamados droids.
00:00:38Eles não focam apenas na programação em si,
00:00:40mas em todo o ciclo de vida do desenvolvimento de software.
00:00:43Então coisas como documentação,
00:00:45testes,
00:00:45revisão,
00:00:46basicamente todas as partes chatas para que vocês possam fazer as partes mais divertidas,
00:00:51como a programação em si.
00:00:52E pelas partes da programação que vocês não querem fazer,
00:00:54os droids também podem fazer isso.
00:00:56Então vocês constroem droids.
00:00:58Vocês constroem droids.
00:00:59E OpenAI obviamente não precisa de apresentação,
00:01:02mas seu papel no time de codecs,
00:01:05eu vi você aparecer no vídeo de codecs.
00:01:08Foi assim que soube que você estava trabalhando nisso.
00:01:10Mas como você está pensando em codecs esses dias,
00:01:13já que se expandiu bastante?
00:01:14- Sim,
00:01:15então no início deste ano,
00:01:16lançamos nosso primeiro agente de programação.
00:01:19Trabalhei no codec CLI,
00:01:20trazendo o poder de nossos modelos de raciocínio para os computadores das pessoas.
00:01:26Depois lançamos o codecs cloud,
00:01:27onde vocês poderiam realmente distribuir e delegar essas tarefas para rodar na nuvem.
00:01:31E nos últimos meses, temos unificado essas experiências.
00:01:34Para que funcionem da forma mais perfeita possível.
00:01:36Então muito de nosso foco é em como tornar os fundamentos,
00:01:39os primitivos tão úteis quanto possível.
00:01:41Acabamos de lançar o dev day SDK de codecs.
00:01:43Então acho que uma das direções principais que estamos vendo é não apenas usar agentes de execução de código para programação,
00:01:50mas também para tarefas de propósito geral.
00:01:52E então seja o agente try,
00:01:53que eu trabalhei no início deste ano que na verdade executa código em segundo plano para realizar algumas tarefas,
00:01:59mas começando a permitir que nossos desenvolvedores construam não apenas sobre os modelos de raciocínio,
00:02:03mas também sobre coisas como sandbox e todos os outros primitivos que construímos no codecs.
00:02:07- Incrível.
00:02:09V0?
00:02:10- Sim,
00:02:10o objetivo do V0 é permitir que os desenvolvedores façam programação agnóstica orientada por visualização.
00:02:16Então hoje quando vocês constroem aplicativos web,
00:02:19vocês provavelmente têm um agente aberto,
00:02:20seu IDE aberto,
00:02:21algo assim,
00:02:22e então uma visualização do que vocês estão realmente construindo.
00:02:25Normalmente vocês estão rodando um servidor de desenvolvimento.
00:02:26Com V0,
00:02:27nosso objetivo é permitir que vocês simplesmente tenham um agente rodando e façam prompt direto contra seu aplicativo em execução.
00:02:32E é assim que pensamos que a experiência de desenvolvedor vai se desenrolar no futuro.
00:02:35- Tá, incrível.
00:02:36E cada um tem diferentes áreas de acesso para seus agentes de programação.
00:02:40Então acho que uma das coisas que queremos explorar é: como é a importância de local versus nuvem?
00:02:45Vocês começaram local depois nuvem,
00:02:47começaram nuvem depois local,
00:02:49e agora só nuvem.
00:02:50Qual é o equilíbrio?
00:02:52Todos vão se mesclar eventualmente?
00:02:55- Sim, talvez eu possa começar aqui.
00:02:58Então acho que no final,
00:02:59o ponto desses agentes é que eles sejam tão úteis quanto possível e tenham um perfil muito similar ao de um humano com o qual vocês possam trabalhar.
00:03:08E vocês não têm humanos locais e humanos remotos que funcionam de forma diferente,
00:03:12como se apenas um funcionasse neste ambiente e o outro apenas naquele.
00:03:16Geralmente,
00:03:16os humanos podem ser úteis se estiverem em uma reunião com vocês e surgir uma ideia,
00:03:21ou se estiverem ao seu lado trabalhando no computador.
00:03:24Então assintoticamente,
00:03:25esses precisam se tornar a mesma coisa,
00:03:28mas acho que no curto prazo,
00:03:30o remoto é tipicamente,
00:03:31o que estamos vendo é que é tipicamente mais útil para tarefas menores que vocês têm mais confiança de delegar confiávelmente.
00:03:39Enquanto local é quando vocês querem estar um pouco mais perto do agente,
00:03:44talvez alguma tarefa maior ou mais complicada que vocês vão monitorar ativamente.
00:03:49E vocês querem que seja local para que se algo der errado,
00:03:52vocês não precisem baixar aquele branch e começar a trabalhar,
00:03:56mas sim estar lá para guiar.
00:03:57- Sim, talvez eu seja guloso, mas quero os dois.
00:04:00E acho que ter uma modalidade para o ponto do Matan,
00:04:03onde eu gosto de pensar sobre quais são as principais formas de colaboração que tenho e desfruto com meus colegas de trabalho.
00:04:11Muitas vezes começa algo como uma sessão de whiteboard e talvez estejamos apenas criando algo em uma sala.
00:04:17Quando estávamos construindo,
00:04:19acho que um bom exemplo foi agents.md,
00:04:21que é nossa instrução customizada destinada a ser genérica em diferentes agentes de programação.
00:04:26A forma como começou foi Romain e eu apenas em uma sala desenvolvendo essa ideia.
00:04:31Então começamos a fazer whiteboard e depois tiramos uma foto e depois a disparamos no codec CLI localmente,
00:04:36assim como em um workshop com um app Next.js que poderíamos trabalhar,
00:04:40fomos almoçar,
00:04:41voltamos.
00:04:41Tinha uma boa quantidade da estrutura central.
00:04:44E daí em diante, conseguimos iterar um pouco mais próximos.
00:04:46Então tendo esse tipo de pareamento e tipo de experiência de brainstorm.
00:04:49E então acho que para aquele segundo ponto sobre que tipo de tarefas vocês delegam,
00:04:54acho que historicamente tarefas menores,
00:04:56bem delimitadas onde vocês têm clareza sobre qual é o resultado,
00:04:59é a modalidade certa se vocês forem fazer fire and forget.
00:05:02Mas acho que o que começamos a ver,
00:05:04acabamos de lançar codecs GBD5 há aproximadamente dois meses.
00:05:08E acho que uma das principais diferenças é que ele consegue fazer essas tarefas mais longas,
00:05:12mais complexas,
00:05:12mais ambíguas,
00:05:13contanto que vocês sejam claros sobre o que querem no final.
00:05:16Então consegue trabalhar por horas a fio.
00:05:18Acho que esse deslocamento conforme os modelos aumentam em capacidade vai começar a permitir mais casos de uso.
00:05:24- Sim.
00:05:24Sim, acho que há três partes para fazer um agente funcionar.
00:05:27Há o loop do agente em si,
00:05:28há as chamadas de ferramenta que ele faz,
00:05:30e então os recursos sobre os quais essas chamadas precisam agir.
00:05:34Se vocês vão para nuvem ou local primeiro depende de onde esses recursos estão,
00:05:37certo?
00:05:37Se vocês estão tentando trabalhar em um sistema de arquivos local,
00:05:39esses são os recursos que vocês precisam acessar.
00:05:41Faz total sentido que o loop do agente deve rodar localmente,
00:05:44certo?
00:05:44Se vocês estão acessando recursos que tipicamente existem na nuvem,
00:05:47puxando do GitHub,
00:05:48direto de algum repositório de terceiros,
00:05:51então faz sentido que seu agente comece na nuvem,
00:05:53certo?
00:05:54Mas em última análise,
00:05:55esses recursos existem em ambos os lugares,
00:05:57certo?
00:05:57Todo desenvolvedor espera que um agente consiga trabalhar tanto no sistema de arquivos local quanto em um PR aberto que pode estar hospedado no GitHub.
00:06:04E então realmente não importa por onde vocês começam,
00:06:07acho que todos estão convergindo para o mesmo lugar,
00:06:09que é que o loop do agente precisa conseguir rodar em qualquer lugar,
00:06:12as chamadas de ferramenta precisam poder ser transmitidas da nuvem localmente ou de um backup local para a nuvem.
00:06:16E tudo depende de onde os recursos que vocês realmente querem agir estão localizados.
00:06:20- Sim, incrível.
00:06:22Tá,
00:06:22então estávamos conversando nos bastidores e procurando por perguntas polêmicas e coisas assim.
00:06:27Então eu realmente gostei dessa e acho que é muito atual.
00:06:31Vocês geram lixo como forma de vida?
00:06:33Como estamos em perigo de estar em uma bolha de hype
00:06:40onde acreditamos que este é um caminho sustentável para AGI?
00:06:44- Bem,
00:06:45acho que para começar,
00:06:46vocês poderiam dizer que o lixo de um é o tesouro de outro,
00:06:50o que até certo ponto pode ser verdade.
00:06:52Por exemplo,
00:06:53suponhamos que vocês tivessem um repositório que não tivesse absolutamente nenhuma documentação.
00:07:00Vocês poderiam usar muitas das ferramentas sobre as quais falamos para gerar documentação para esse repositório.
00:07:08Agora,
00:07:09será que vai ser o pedaço mais requintado de documentação?
00:07:13Não, mas fornece valor?
00:07:16Sim,
00:07:16na minha opinião,
00:07:17porque ter que vasculhar alguma base de código legada super antiga que não tem docs é muito mais difícil do que olhar para uma documentação um pouco descuidada.
00:07:26E então acho que a coisa principal é descobrir onde vocês podem usar essas ferramentas para ganho e o quanto de lixo é,
00:07:34acho que também depende muito de quanto de orientação vocês fornecem.
00:07:38Então se vocês apenas dizem,
00:07:39construa para mim um app que faz isso,
00:07:41vocês provavelmente vão conseguir algum app lixo genérico que faz-- - É roxo.
00:07:44- Sim, azul, roxo tipo fade, sim.
00:07:48Enquanto se ao contrário vocês fossem muito metódicos sobre exatamente o que vocês querem,
00:07:52fornecessem as ferramentas para realmente rodar testes para verificar algumas das capacidades que vocês estão solicitando.
00:07:58Acho que torna muito mais estruturado de forma similar a se vocês,
00:08:02sabe,
00:08:02contratassem algum engenheiro junior para seu time e apenas dissessem,
00:08:07ei,
00:08:07vá fazer isso.
00:08:08Tipo eles provavelmente vão entregar um resultado mediano porque não têm nenhuma outra especificação.
00:08:14E é bem ambíguo o que vocês realmente querem que seja feito.
00:08:19- Acho que a palavra-chave é ganho, certo?
00:08:21O que os agentes de IA permitem que vocês façam é fazer 10 vezes mais do que conseguiriam fazer sozinhos com um piso bastante alto,
00:08:27certo?
00:08:27Então se vocês mapearem nível de habilidade contra o quão útil um agente é ou o quão provável é,
00:08:31sabe,
00:08:32o quão útil ele realmente é em gerar não-lixo,
00:08:34há provavelmente um piso bem baixo se vocês não tiverem habilidade.
00:08:36Vocês ainda têm um piso bem alto, certo?
00:08:38Os agentes são bem bons simplesmente saindo da caixa.
00:08:39Se vocês não sabem nada sobre desenvolvimento,
00:08:41o agente vai fazer muito mais do que vocês jamais conseguiriam fazer.
00:08:44Mas conforme vocês chegam a níveis de habilidade cada vez mais altos,
00:08:46engenheiros sênior,
00:08:47principal e distinto realmente usam agentes de forma diferente.
00:08:50Eles o usam para potencializar as coisas que já conseguem fazer.
00:08:53Sabe,
00:08:53um engenheiro principal consegue escrever manualmente 5.000 linhas de código por dia.
00:08:57Com agentes,
00:08:58conseguem escrever 50.000 linhas de código por dia.
00:09:00E realmente funciona no nível da qualidade dos inputs e do conhecimento que vocês colocam ali.
00:09:04Então acho que estamos lentamente elevando o piso ao longo do tempo,
00:09:09desenvolvendo agentes melhores.
00:09:11Mas realmente acho que é uma forma de ganho.
00:09:14É uma forma de vocês acelerarem o tipo de coisas que já conseguem fazer,
00:09:17fazerem mais rápido.
00:09:18E para pessoas que não têm habilidades,
00:09:20é quando vocês conseguem realmente elevar o piso do que eles conseguem fazer.
00:09:23- Absolutamente,
00:09:24e só para adicionar a esses dois pontos,
00:09:26acho que eles são ferramentas e amplificadores de ofício.
00:09:29Se vocês têm, conseguem fazer mais.
00:09:31Se não têm, é mais difícil, mas eleva o piso.
00:09:34Acho que vale muito a pena destacar isso.
00:09:36Acho que para pessoas que estão apenas tentando construir seu primeiro protótipo,
00:09:40estão tentando iterar uma ideia,
00:09:41aquele exemplo que estava mencionando antes.
00:09:44Não é que eu não conseguisse fazer um front end que fosse como um site orientado por conteúdo,
00:09:49mas eu simplesmente não tinha tempo.
00:09:51E era muito mais divertido apenas desenhar em um whiteboard,
00:09:53conversar,
00:09:54ter uma conversa,
00:09:55e depois disparar para um agente.
00:09:57Mas acho que um dos exemplos interessantes disso foi quando estávamos construindo iterações muito anteriores de codecs,
00:10:02há mais de um ano.
00:10:03E estávamos colocando na frente de dois arquétipos diferentes,
00:10:07pessoas que fazem muito product engineering onde estão acostumadas a usar ferramentas locais,
00:10:13estilo inner loop onde estão acostumadas a apenas conversar e talvez iterar.
00:10:19E então uma modalidade completamente diferente quando falamos com pessoas nos times de raciocínio onde elas ficariam por talvez cinco minutos apenas definindo a tarefa e teriam um problema de palavra com tamanho de ensaio para o agente ir e fazer,
00:10:32e depois funcionaria por uma hora.
00:10:33E era efetivamente O1 ou versões anteriores disso.
00:10:37E acho que a parte interessante ali era apenas o jeito que as pessoas abordariam dar a tarefa para o agente era completamente diferente baseado em seu entendimento do que eles acham que ele precisa.
00:10:48E então acho que realmente ancorar em especificidade,
00:10:51sendo realmente claro sobre o que vocês querem que o resultado seja.
00:10:55E acho que há um item mais amplo que é responsabilidade tanto de nós como construtores de agentes e pessoas treinando modelos para realmente elevar esse piso e garantir que o teto para pessoas com artesanato alto,
00:11:07com gosto alto conseguem exercer isso da forma que eles veem como apropriado.
00:11:11- Acho que realmente algo que vocês mencionaram trouxe essa ideia à mente que começamos a notar.
00:11:16Então nosso público-alvo é a empresa.
00:11:19E algo que vimos ocorrer repetidamente é que há uma bimodalidade bem interessante em termos de adoção de desenvolvimento agnóstico de agente.
00:11:28E em particular,
00:11:29normalmente desenvolvedores mais cedo na carreira são mais receptivos para começar a construir de forma agnóstica de agente,
00:11:36mas não têm a experiência de gerenciar times de engenharia.
00:11:39Então talvez não sejam tão familiarizados com delegação de uma forma que funcione muito bem.
00:11:44Enquanto isso,
00:11:44engenheiros mais experientes têm muita experiência delegando.
00:11:47Eles sabem que,
00:11:48ei,
00:11:49se eu não especificar essas coisas exatas,
00:11:50não vai ser feito.
00:11:51E então eles são realmente bons em escrever aquele parágrafo,
00:11:54mas são bem teimosos e realmente não querem mudar o jeito que constroem e vocês vão ter que arrancar Emacs de suas mãos frias e mortas.
00:12:03Então é um equilíbrio interessante ali.
00:12:05- Engraçado vocês dizerem isso.
00:12:06Coisa similar que vimos na empresa é engenheiros sênior,
00:12:10pessoas mais altas criam tickets.
00:12:12Então eles realmente fazem o trabalho de escrever toda a especificação do que precisa ser feito.
00:12:16Eles entregam para um engenheiro junior fazer o trabalho de verdade.
00:12:18O engenheiro junior pega aquele ticket super bem escrito e dá para o agente fazer,
00:12:21certo?
00:12:21Então vocês estão apenas arbitrando a ideia de que o engenheiro junior vai realmente fazer o trabalho do agente porque eles estão mais confortáveis fazendo isso.
00:12:28Mas o engenheiro sênior é a pessoa que é realmente boa em escrever a especificação,
00:12:32muito bom em entender quais são as decisões arquiteturais que devemos estar tomando e colocando isso em algum tipo de ticket.
00:12:37- Sim,
00:12:38para quem não sabe,
00:12:39Matan e a Factory em geral têm escrito e defendido o tópico de desenvolvimento agnóstico de agente.
00:12:44Então vocês conseguem ler mais no website deles.
00:12:45Acho que uma coisa,
00:12:47a propósito,
00:12:47que eu queria levantar talvez como uma terminologia,
00:12:51que é elevar o piso para vocês é uma coisa boa.
00:12:54Acho que realmente outras pessoas dizem abaixar o piso também significa a mesma coisa.
00:12:57Basicamente é sobre nível de habilidade e o que eles conseguem fazer e apenas dar às pessoas mais recursos para isso.
00:13:05Acho que a outra coisa é que muitas pessoas estão pensando sobre a camada do modelo,
00:13:13certo?
00:13:13Obviamente vocês possuem seus próprios modelos,
00:13:17os dois de vocês não.
00:13:18E acho que há um tópico em voga na conversa sobre valor agora.
00:13:22Airbnb,
00:13:23Brian Chesky disse que a maioria do valor era,
00:13:25basicamente depende de Quinn aparentemente.
00:13:28Qual é a importância de modelos abertos para vocês e vocês podem,
00:13:31para quem quer contribuir também,
00:13:33mas qual é a importância de modelos abertos como estratégia para ambos?
00:13:37- Eu gostaria de ouvir vocês primeiro.
00:13:38- Sim.
00:13:38Bem, amo modelos abertos.
00:13:42Acho que uma das coisas importantes sobre,
00:13:44então só conseguir falar sobre modelos,
00:13:46acho que abertura é realmente chave para o que acho que um ciclo de vida de desenvolvimento sustentável onde com Codex CLI,
00:13:53abrimos na porta de saída e parte da prioridade era entender que um modelo aberto estava vindo no futuro.
00:13:58Queremos garantir que documentássemos muito bem como usar nossos modelos de raciocínio.
00:14:03Vimos muita confusão sobre que tipo de ferramentas dar a ele,
00:14:06qual deveria ser o ambiente,
00:14:07os recursos.
00:14:08E então queremos garantir que fosse tão claro quanto possível e também garantir que funcionasse bem com modelos abertos.
00:14:12Então acho que definitivamente há muitos casos de uso,
00:14:16especialmente quando vocês entram em casos de uso incorporados ou onde vocês não querem que os dados saiam do perímetro.
00:14:23Há muitas boas razões pelas quais vocês gostariam de fazer isso.
00:14:26E então acho que o benefício de modelos hospedados na nuvem,
00:14:30e é o que vemos com muitos modelos abertos.
00:14:33Eles acabam sendo,
00:14:34não rodam no dispositivo,
00:14:35mas são realmente hospedados na nuvem mesmo,
00:14:37talvez por eficiência,
00:14:39talvez por custo,
00:14:40ainda há muito valor apenas na inteligência pura que vocês conseguem ao usar um modelo muito maior.
00:14:46E é por isso que vemos pessoas gravitar muito em direção a modelos como O3 para GBD5 para GBD5 Codex.
00:14:52Ainda há muito valor nisso.
00:14:53Agora vemos que aquela sobrecarga ainda meio que vem,
00:14:57se resolve onde a cada alguns meses há um novo modelo,
00:15:01muito pequeno,
00:15:02muito impressionante.
00:15:04E acho que é a mágica se apenas considerarmos no início deste ano,
00:15:07tínhamos O3 mini como sendo a fronteira e onde estamos agora.
00:15:10E então,
00:15:11sim,
00:15:11acho que há um enorme valor em modelos abertos,
00:15:14mas ainda,
00:15:15acho que pessoalmente,
00:15:16de uma perspectiva de uso,
00:15:18mais valor em usar os hospedados na nuvem.
00:15:21- Sim, vou apenas interjactar um pouco.
00:15:23Ford realmente se importa com privacidade,
00:15:25segurança,
00:15:26robustez de agente.
00:15:27E então se vocês o encontrarem,
00:15:29conversem com ele mais sobre isso.
00:15:30Mas para vocês dois,
00:15:31talvez vocês queiram começar com,
00:15:33na verdade,
00:15:34qual é o percentual aproximado de tokens de modelos abertos gerados em seus apps respectivos?
00:15:39E vai subir ou descer?
00:15:42- Então acho que,
00:15:42então talvez para começar,
00:15:44porque acho que o que vocês disseram é realmente interessante.
00:15:47Então há algumas semanas,
00:15:48quando lançamos nossa ferramenta Factory CLI,
00:15:50as pessoas estavam realmente interessadas porque também lançamos com ela nossa pontuação neste benchmark chamado Terminal Bench.
00:15:57E um dos primeiros pedidos foi,
00:15:59vocês conseguem colocar modelos open source à prova?
00:16:02Porque nosso agente droid é completamente agnóstico quanto a modelo.
00:16:04Então imediatamente pessoas eram como,
00:16:06joguem os modelos open source e mostrem como se comporta.
00:16:09E acho que algo que foi particularmente surpreendente era que os modelos open source,
00:16:14e em particular GLM,
00:16:15eram realmente,
00:16:16realmente bons.
00:16:17Eram de fato obviamente menos performáticos que os modelos de fronteira,
00:16:22mas não por uma margem enorme.
00:16:24Acho que,
00:16:25então uma coisa que foi notável era quando benchmarkamos os modelos open source,
00:16:30dos sete no topo,
00:16:31um deles foi feito nos Estados Unidos por mim mesmo aqui,
00:16:35que acho que é meio uma pena.
00:16:37Como o fato de que de longe,
00:16:39dos modelos de fronteira,
00:16:41é Estados Unidos em toda parte.
00:16:43Mas então quando vem a open source,
00:16:45realmente estamos deixando a bola cair.
00:16:47Então acho que é uma coisa notável e acho que algo que,
00:16:50pelo menos quando vi isso,
00:16:52acho que deveria haver uma chamada às armas em termos de mudar isso.
00:16:56Porque acho que para responder sua pergunta,
00:16:58o que descobrimos é que desde que lançamos suporte para modelos open source,
00:17:03o percentual de pessoas que usam modelos open source subiu dramaticamente.
00:17:08Parcialmente por custo e porque,
00:17:10sabe,
00:17:10permite que vocês,
00:17:11digamos no exemplo de documentação,
00:17:13talvez vocês queiram gerar docs,
00:17:15mas não querem que seja como,
00:17:16sabe,
00:17:17em raciocínio super alto,
00:17:18tipo ao máximo,
00:17:19que custe mil dólares,
00:17:20mas vocês só querem conseguir alguma primeira passagem inicial.
00:17:24E também as pessoas gostam de ter um pouco mais de controle.
00:17:28E sinto que conseguem muito mais controle com alguns desses modelos open source,
00:17:33tanto controle quanto custo e apenas tipo observabilidade em relação ao que está realmente acontecendo ali.
00:17:39Então a demanda cresceu para um ponto que realmente não esperava um ano atrás.
00:17:43Acho que um ano atrás,
00:17:45eu era menos otimista sobre modelos open source do que sou agora,
00:17:48open-weight,
00:17:49mas sim.
00:17:49- Sim,
00:17:50acho que usamos tanto modelos open source quanto closed source em nosso pipeline geral de agentes.
00:17:55E acho que o jeito que pensamos sobre eles é que há dois casos de uso diferentes para uma chamada LLM.
00:17:58Um é quando vocês querem raciocínio de ponta de lança.
00:18:01É uma pergunta muito, muito aberta.
00:18:02Vocês realmente não sabem qual é a resposta.
00:18:04O objetivo é tipo,
00:18:05a função objetivo não é super bem definida.
00:18:07Nesses casos,
00:18:08modelos closed source ainda são ponta de lança quando se trata de raciocínio e inteligência.
00:18:13Usamos modelos closed source quase que exclusivamente para aqueles tipos de casos de uso.
00:18:16Há um segundo caso de uso onde temos uma tarefa mais nicho com uma função objetivo muito mais clara.
00:18:22Nesses casos,
00:18:23quase sempre tentamos fazer fine tune em um modelo open source.
00:18:26Estamos bem com pegar um corte de 20% talvez em termos de capacidade de raciocínio para que possamos realmente fazer fine tune em um caso de uso muito,
00:18:34muito específico.
00:18:35E acho que descobrimos que os modelos de código aberto estão nos alcançando muito,
00:18:39muito,
00:18:39muito rápido.
00:18:39Um ano e meio atrás,
00:18:41era impensável para nós usar modelos de código aberto como parte do pipeline do v0.
00:18:45Hoje,
00:18:45em cada parte do pipeline,
00:18:47a gente pensa: ok,
00:18:47conseguimos trazer modelos de código aberto para isso?
00:18:49Conseguimos substituir o que estamos fazendo com modelos de código fechado do estado da arte com um fine-tune de um modelo de código aberto?
00:18:57E temos visto muito sucesso com Quen,
00:19:00QEMI-K2 e outros modelos desse tipo.
00:19:02- Sim,
00:19:03eu chamo atenção para isso como uma das maiores mudanças que vi em todos,
00:19:07porque no início deste ano,
00:19:08fiz um podcast com Ankur da BrainTrust,
00:19:10e ele disse que o uso de modelos de código aberto era em torno de 5% no que a BrainTrust está vendo,
00:19:16e caindo.
00:19:17E agora acho que razoavelmente vai ficar entre 10 e 20% para todos.
00:19:22- Acho interessante que até os modelos de código fechado estejam investindo mais pesadamente em seus modelos de classe menor.
00:19:29Os Haikus,
00:19:30GPD5 Minis,
00:19:30Gemini Flashes do mundo,
00:19:32que acho que também é esta classe de modelo que mais compete com código aberto.
00:19:38É a classe de modelos pequenos competindo contra um fine-tune de um modelo de código aberto.
00:19:42- E acho também que existem alguns casos de uso onde seria simplesmente exagerado usar um modelo de fronteira,
00:19:48e se é exagerado,
00:19:49você claramente vai ser incentivado a usar algo que seja mais rápido e barato.
00:19:53E acho que parte disso,
00:19:55parte dessa diferença na percentagem de uso é que há um limiar,
00:19:59quando modelos abertos cruzam esse limiar em que para a maioria das tarefas,
00:20:03é realmente suficiente,
00:20:05e daí para algumas tarefas específicas,
00:20:07você precisa de um poder adicional.
00:20:10Acho que estamos realmente chegando lá com alguns desses modelos abertos,
00:20:13por isso acho que vamos ver mais uso no futuro.
00:20:16- Sim, ótimo, isso é muito encorajador.
00:20:18Então temos um tempo para fechar com a pergunta final: o que seus agentes não conseguem fazer hoje que vocês gostariam que fizessem,
00:20:25que provavelmente farão no próximo ano?
00:20:27- Eu vou primeiro?
00:20:31Ok.
00:20:32Sim,
00:20:32acho que o que vimos no último ano,
00:20:35talvez começando como referência com o o1,
00:20:38pouco mais de um ano atrás,
00:20:40ou o1 preview,
00:20:41o que vimos desde então,
00:20:42quando eu estava usando checkpoints bem iniciais daquele modelo,
00:20:47era ótimo comparado ao 40,
00:20:49mas ainda deixava muito a desejar.
00:20:51Eu não colocaria,
00:20:52eu estava no time de segurança na época,
00:20:55e havia muito trabalho e tarefas que simplesmente não conseguia delegar àquele modelo.
00:21:00E quando comparamos com hoje,
00:21:02onde consigo pegar uma tarefa bem definida,
00:21:04talvez seja dois parágrafos,
00:21:05alguns pontos do seu lado,
00:21:07como aqui estão os problemas que acho que você provavelmente vai enfrentar,
00:21:11e volta 30 minutos depois,
00:21:12uma hora depois,
00:21:13está pronto.
00:21:14Temos visto casos onde está rodando por muitas horas,
00:21:17talvez até sete ou oito horas,
00:21:18efetivamente um dia inteiro de trabalho que passo muito do meu tempo em reuniões,
00:21:23e então não tenho necessariamente esse bloco sólido de tempo.
00:21:26Mas isso é apenas metade do que engenharia é realmente.
00:21:30Parte é codificação,
00:21:31parte é arquitetura e troubleshooting e debugging.
00:21:34A outra metade do problema é escrever documentação,
00:21:36é entender o sistema,
00:21:38convencer pessoas.
00:21:39E então acho que o que vamos começar a ver é esse super colaborador onde o que queremos trazer,
00:21:45seja em codecs ou essas outras interfaces através do modelo codecs,
00:21:50é o colaborador ideal com quem você quer trabalhar.
00:21:53A pessoa para quem você vai primeiro,
00:21:55aquele colega de trabalho favorito com quem você quer debater ideias,
00:21:59é realmente o que queremos ver,
00:22:01pelo menos com codecs.
00:22:02Acho que para nós,
00:22:03temos visto uma progressão rápida em duas frentes diferentes.
00:22:07A primeira é quantos passos você pode razoavelmente esperar que um agente consiga fazer e produzir um resultado razoavelmente bom?
00:22:14Ano passado, provavelmente um, talvez máximo três, certo?
00:22:17Se você quisesse um resultado confiável com mais de 90% de sucesso,
00:22:19você provavelmente rodaria um a três passos de agente.
00:22:22Hoje,
00:22:22a maioria das ferramentas roda cinco a 20 sem taxas de confiabilidade muito boas,
00:22:27acima de 90% de sucesso.
00:22:29Acho que no próximo ano,
00:22:30vamos adicionar algo como 100 mais,
00:22:32200 mais,
00:22:32vamos rodar toneladas de passos de uma vez,
00:22:34ter tarefas de longa duração por várias horas e ter confiança de que você terá um resultado no final que será útil.
00:22:40A segunda é em termos de que recursos podem ser consumidos.
00:22:42Um ano atrás,
00:22:43era o que quer que você estivesse colocando no formulário de prompt,
00:22:46basicamente era isso.
00:22:47Hoje,
00:22:47você pode configurar conexões externas via MCP ou fazendo chamadas de API diretamente em sua aplicação.
00:22:55Você consegue fazer isso se for conhecedor,
00:22:57você tem a capacidade de configurar coisas.
00:22:58E acho que em um ano a partir de agora,
00:22:59isso vai simplesmente acontecer.
00:23:00Tipo, vai funcionar.
00:23:02O objetivo é que você não precisa saber que fontes de contexto você precisa dar ao agente.
00:23:06O agente vai realmente ir e encontrar essas fontes de contexto proativamente.
00:23:09Estamos começando a ver isso até hoje,
00:23:11mas ainda não tenho muita confiança de que isso seja muito confiável e útil hoje.
00:23:16Acho que no próximo ano, isso será o modo padrão.
00:23:18- Sim, eu concordo com isso.
00:23:19Acho que agentes conseguem fazer basicamente tudo hoje,
00:23:23mas o grau em que o fazem de forma confiável e proativa é acho que o que vai mudar.
00:23:29Mas esse é um slider que também depende do usuário.
00:23:31Como se você fosse um usuário que não está realmente mudando seu comportamento e encontrando o agente onde ele está,
00:23:36então você pode obter uma confiabilidade e proatividade menores.
00:23:38Enquanto se você configurar seu harness corretamente ou configurar seu ambiente corretamente,
00:23:42ele conseguirá fazer mais disso de forma confiável e mais proativamente.
00:23:45- Sim, incrível.
00:23:46Bem, nosso tempo acabou.
00:23:48Minha contribuição é visão computacional.
00:23:49Todos experimentem o Atlas.
00:23:51Todos experimentem mais casos de uso de visão computacional,
00:23:54mas obrigado muito por seu tempo.
00:23:55- Obrigado.
00:23:56(audiência aplaudindo) (música animada)