Engenharia de Harness: A Habilidade que Definirá 2026 para Devs Solo

SSolo Swift Crafter
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Então, ok.
00:00:02Qual é o melhor modelo de IA agora?
00:00:04Claude, GPT, Gemini.
00:00:07E, sinceramente, acho que essa é a pergunta errada.
00:00:11Tipo, a pergunta completamente errada.
00:00:14Só para constar, eu sou o Daniel.
00:00:16Trabalho com desenvolvimento iOS há mais de oito anos.
00:00:20Comecei como freelancer, desenhando interfaces,
00:00:24pulando de cliente em cliente,
00:00:25entregando as ideias dos outros
00:00:27enquanto tentava entender as minhas.
00:00:28Aí, depois da WWDC25, eu decidi seguir carreira solo.
00:00:33Sem mais clientes, sem rede de segurança.
00:00:36Desde então, criei mais de 15 aplicativos próprios,
00:00:39todos em SwiftUI, todos desenvolvidos publicamente.
00:00:41E agora, sinceramente, toda a energia que eu tenho
00:00:44é dedicada a transformar este estúdio solo
00:00:46em algo que realmente dure.
00:00:49Não apenas outra leva de MVPs rápidos ou lixo gerado por IA,
00:00:52mas apps de verdade, que aguentem escala.
00:00:55E sim, todo esse processo,
00:00:57toda essa jornada caótica vive no crafterslab.
00:01:00Está em crafterslab.dev,
00:01:01e não é um cemitério de tutoriais ou fábrica de clones de IA.
00:01:06É genuinamente o meu quartel-general,
00:01:08feito para devs solo que usam IA como um colega de equipe real.
00:01:12Não como uma máquina de vendas que você cutuca quando trava
00:01:14esperando que saia o melhor.
00:01:16Se você se importa com a técnica,
00:01:18se quer mesmo subir de nível
00:01:20e construir coisas que realmente durem,
00:01:23é, você se sentiria em casa.
00:01:24E ei, se você ainda está no Patreon,
00:01:26muito obrigado, mas fica o aviso.
00:01:29Tudo mudou para o crafterslab.dev.
00:01:32É lá que todo o pessoal está agora.
00:01:33Venha construir com a gente.
00:01:35Então, aqui está o que me fez pensar sobre tudo isso.
00:01:38Saiu um estudo recentemente.
00:01:41Pesquisadores publicaram esse benchmark chamado Epic's Agent.
00:01:45E o que o torna diferente de todos os outros benchmarks
00:01:49que as pessoas ficam discutindo na internet
00:01:51é que ele testa os agentes em trabalho profissional real,
00:01:55não em quebra-cabeças de código ou múltipla escolha.
00:01:58Estamos falando de tarefas reais que consultores, advogados
00:02:03e analistas fazem diariamente.
00:02:05Cada uma leva de uma a duas horas para um humano completar.
00:02:08Então, eles testaram todos os principais modelos de ponta.
00:02:11O melhor deles completou essas tarefas
00:02:13em cerca de 24% das vezes, uma em cada quatro.
00:02:17E após oito tentativas com o mesmo modelo,
00:02:20o sucesso só subiu para cerca de 40%.
00:02:23Agora, lembre-se, estes são os mesmos modelos
00:02:26que marcam acima de 90% nos benchmarks
00:02:29que deixam todo mundo maluco.
00:02:32Ou esses benchmarks estão errados
00:02:33ou estamos medindo a coisa errada.
00:02:36E eu acho que é a segunda opção, certo?
00:02:37Mas, ok, aqui é onde a coisa fica séria para nós.
00:02:41Os pesquisadores analisaram por que os agentes falharam.
00:02:46E a resposta não foi que os modelos são burros.
00:02:49Eles tinham todo o conhecimento necessário.
00:02:51Eles conseguiam raciocinar sobre os problemas perfeitamente.
00:02:54As falhas foram quase inteiramente
00:02:56sobre execução e orquestração.
00:03:00Os agentes se perdiam depois de muitos passos.
00:03:02Eles voltavam a abordagens que já tinham falhado.
00:03:05Eles simplesmente perdiam o rastro do que deveriam
00:03:09estar fazendo em primeiro lugar.
00:03:11E se você é um dev solo usando Claude Code
00:03:14ou Cursor todo dia, sim, você já passou por isso.
00:03:18Você já viu o agente entrar em espiral, tentando a mesma
00:03:21coisa quebrada três vezes,
00:03:23esquecendo totalmente o contexto de 20 passos atrás.
00:03:26E você fica ali pensando:
00:03:28"Talvez eu devesse mudar para o Opus".
00:03:30"Talvez eu precise de outro provedor",
00:03:32mas os dados dizem que o problema não é esse.
00:03:34O modelo não é o gargalo.
00:03:36É tudo o que o envolve.
00:03:38E existe uma palavra para isso.
00:03:40E eu acho que ela vai definir 2026
00:03:43da mesma forma que os agentes definiram 2025.
00:03:46A palavra é "harness" (suporte/infraestrutura).
00:03:47Um harness de agente cuida de toda a infraestrutura
00:03:50ao redor do modelo: o que ele pode ver,
00:03:52quais ferramentas ele pode acessar,
00:03:54como ele se recupera quando as coisas dão errado,
00:03:56como ele mantém o controle do que está fazendo em sessões longas.
00:03:59A OpenAI literalmente publicou um artigo
00:04:02chamado "Harness Engineering".
00:04:04A Anthropic lançou um guia inteiro sobre como construir
00:04:07harnesses eficazes para agentes de longa duração.
00:04:09A Manish, a empresa de IA que a Meta acabou de adquirir,
00:04:13publicou suas lições de engenharia de contexto
00:04:16após reconstruir todo o seu framework de agentes
00:04:19cinco vezes em seis meses, cinco vezes.
00:04:22E todos estão dizendo exatamente a mesma coisa.
00:04:24O harness é onde vive o verdadeiro trabalho de engenharia,
00:04:27não o modelo.
00:04:28Ok, então, e esta é a parte que sinceramente me surpreendeu
00:04:32porque vai totalmente contra
00:04:34a forma como a maioria de nós pensa em construir com essas ferramentas.
00:04:38Tem essa história da Vercel.
00:04:41Eles tinham um agente de texto para SQL.
00:04:43Você faz uma pergunta, ele escreve uma consulta SQL,
00:04:46e eles o construíram como a maioria das pessoas constrói agentes, né?
00:04:49Deram a ele várias ferramentas especializadas,
00:04:51uma para entender o esquema do banco de dados,
00:04:54outra para escrever consultas, outra para validar resultados.
00:04:58Todo esse tratamento de erros em volta
00:05:01e ele funcionava cerca de 80% das vezes.
00:05:04Então eles tentaram algo meio radical.
00:05:06Removeram 80% das ferramentas, simplesmente as arrancaram,
00:05:11deram ao agente coisas básicas: rodar comandos bash, ler arquivos,
00:05:15ferramentas padrão de linha de comando como grep e cat,
00:05:18o tipo de coisa que você ou eu usaríamos de verdade.
00:05:20E a precisão foi de 80% para 100%.
00:05:25Ele usou 40% menos tokens,
00:05:28e foi três vezes e meia mais rápido.
00:05:31Não vou mentir, isso é bem bizarro, né?
00:05:33E o engenheiro que o construiu disse algo
00:05:36que realmente ficou gravado na minha mente.
00:05:38Os modelos estão ficando mais inteligentes.
00:05:40As janelas de contexto estão ficando maiores.
00:05:42Então, talvez a melhor arquitetura de agente
00:05:44seja quase nenhuma arquitetura.
00:05:46E isso muda tudo, entende o que quero dizer?
00:05:50Porque o instinto, especialmente quando você é solo
00:05:54e está tentando tornar essa coisa confiável,
00:05:57é continuar adicionando mais ferramentas, mais travas,
00:06:01mais lógica de roteamento.
00:06:02Você acha que mais estrutura vai ajudar,
00:06:04mas aquelas ferramentas não estavam ajudando o modelo.
00:06:06Elas estavam atrapalhando.
00:06:08E isso não é um caso isolado.
00:06:10A Manus passou exatamente pela mesma percepção.
00:06:13Eles reconstruíram todo o seu framework de agentes
00:06:16cinco vezes em seis meses,
00:06:19e seus maiores ganhos de desempenho
00:06:21não vieram da adição de recursos.
00:06:23Eles vieram da remoção deles.
00:06:25Eles arrancaram a recuperação complexa de documentos,
00:06:28acabaram com a lógica de roteamento sofisticada,
00:06:29e substituíram agentes gerenciais por transferências estruturadas simples.
00:06:34A cada iteração, a coisa ficava mais simples e melhor.
00:06:37E aqui está a parte que todo dev solo
00:06:40que roda sessões longas no Claude Code precisa ouvir.
00:06:42A Manus descobriu que o agente deles fazia em média
00:06:45cerca de 50 chamadas de ferramenta por tarefa.
00:06:49São muitos passos.
00:06:50E mesmo com modelos que tecnicamente suportam
00:06:53janelas de contexto enormes,
00:06:54o desempenho simplesmente cai após certo ponto.
00:06:58O modelo não esquece tudo de repente.
00:07:01É mais como se o sinal ficasse enterrado sob o ruído.
00:07:04Suas instruções importantes do início da sessão
00:07:07se perdem sob centenas de resultados intermediários.
00:07:10Então, a solução deles foi morta e simples.
00:07:12Eles começaram a tratar o sistema de arquivos
00:07:14como a memória externa do modelo.
00:07:17Em vez de enfiar tudo na janela de contexto,
00:07:20o agente escreve informações importantes em um arquivo
00:07:23e as lê de volta quando necessário.
00:07:25E sim, se você usa o Claude Code,
00:07:27você já viu isso literalmente.
00:07:29Os arquivos claude.md, as listas de tarefas, o progresso,
00:07:34esse é o exato padrão acontecendo
00:07:36no seu terminal todos os dias.
00:07:37Certo, então lembre-se do que eu disse
00:07:40sobre todos convergirem para a mesma ideia?
00:07:44Porque quando você olha
00:07:45para os três sistemas de agentes mais bem-sucedidos agora,
00:07:49todos chegaram ao mesmo lugar
00:07:51vindo de direções completamente diferentes.
00:07:53O Codex da OpenAI tem essa abordagem em camadas.
00:07:57Um orquestrador que planeja,
00:07:59um executor que lida com tarefas individuais,
00:08:02e uma camada de recuperação que captura falhas.
00:08:06É robusto.
00:08:07Você pode entregar as coisas e sair de perto.
00:08:09Essa é uma das filosofias.
00:08:10O Claude Code, que eu uso todo santo dia.
00:08:14O núcleo são literalmente apenas quatro ferramentas.
00:08:16Ler um arquivo, escrever um arquivo, editar um arquivo,
00:08:19rodar um comando bash, e é isso.
00:08:21A maior parte da inteligência vive no próprio modelo.
00:08:23O harness permanece mínimo.
00:08:25E quando você precisa de mais, a extensibilidade vem pelo MCP
00:08:28e habilidades que o agente adquire conforme necessário.
00:08:30E então a Manus chegou ao que eu chamaria de
00:08:33reduzir, descarregar, isolar: encolher o contexto ativamente,
00:08:38usar o sistema de arquivos como memória,
00:08:40criar subagentes para tarefas pesadas,
00:08:43e trazer de volta apenas o resumo.
00:08:45Três abordagens totalmente diferentes,
00:08:47todas convergindo para a mesma conclusão.
00:08:50O harness importa mais que o modelo.
00:08:52E para devs solo,
00:08:55isso muda o que você realmente deveria
00:08:57em que você deveria realmente
00:08:59gastar o seu tempo.
00:09:01Porque, sabe, não temos horas infinitas.
00:09:05Cada hora no Reddit debatendo Claude vs GPT
00:09:08é uma hora que você não está produzindo.
00:09:11E há esta ideia de Richard Sutton,
00:09:14um dos criadores do aprendizado por reforço,
00:09:16chamada "a lição amarga".
00:09:18O argumento central é que
00:09:21abordagens que escalam com processamento
00:09:23sempre acabam vencendo as que dependem
00:09:26de conhecimento programado manualmente.
00:09:27Aplicado ao que fazemos, isso é bem específico.
00:09:29À medida que os modelos ficam mais espertos,
00:09:31seu suporte deve ficar mais simples,
00:09:33e não mais complexo.
00:09:34Se você adiciona mais lógica manual
00:09:36e pipelines customizados a cada upgrade,
00:09:40você está nadando contra a corrente.
00:09:42E, honestamente, esse excesso de engenharia
00:09:44é provavelmente o porquê do seu agente falhar.
00:09:47Então, eis o que eu tentaria de fato.
00:09:49Primeiro, faça você mesmo o experimento da Vercel.
00:09:52Se você tem qualquer tipo de agente configurado,
00:09:54simplifique-o, remova as ferramentas específicas,
00:09:57dê a ele um terminal bash e acesso básico a arquivos
00:10:00e veja o que acontece.
00:10:02O modelo é provavelmente mais inteligente
00:10:03do que o pipeline de ferramentas que você criou.
00:10:06Segundo, adicione um arquivo de progresso.
00:10:08Faça seu agente manter uma lista de tarefas
00:10:10que ele atualiza após cada etapa.
00:10:13Ele lê o arquivo no início de cada ação
00:10:15e escreve nele ao finalizar.
00:10:17É exatamente o que o Claude Code faz
00:10:19com aqueles arquivos Markdown.
00:10:20E é o mesmo padrão que Manish adotou
00:10:22após reescrever tudo cinco vezes.
00:10:24Eu tenho um sistema completo para isso
00:10:26no laboratório, com instruções e templates
00:10:29.md prontos, caso você tenha curiosidade.
00:10:33Terceiro, comece a aprender sobre MCP e skills.
00:10:37Eles dão ao modelo formas limpas e padrões
00:10:40de trabalhar com ferramentas externas
00:10:42sem você ter que codificar cada integração.
00:10:44É aí que reside a extensibilidade agora.
00:10:462025 foi o ano dos agentes.
00:10:50E, em grande parte, sim, isso aconteceu.
00:10:53Mas 2026, eu acho que será o ano dos suportes.
00:10:58O mesmo modelo, exatamente o mesmo modelo,
00:11:03se comporta de forma totalmente diferente no
00:11:06Claude Code comparado ao Cursor ou CodeX.
00:11:08Portanto, escolha seu suporte com cuidado,
00:11:11seja usando um agente de código ou criando um.
00:11:14E se você ainda está aqui,
00:11:17honestamente, você é uma lenda.
00:11:18Eu sei que o barulho sobre modelos está alto.
00:11:22Toda semana há um novo lançamento, um benchmark,
00:11:24um novo tópico sobre quem é o rei da vez.
00:11:27Mas os dados e a engenharia real vindo
00:11:30das empresas que constroem essas coisas
00:11:32estão apontando para outro lugar.
00:11:34O suporte é onde estão os ganhos reais.
00:11:37Para desenvolvedores solo, isso é ótimo,
00:11:40pois construir um suporte melhor
00:11:42é algo que você pode fazer hoje mesmo,
00:11:45sem esperar pelo próximo modelo.
00:11:47E se quiser se aprofundar em como eu
00:11:51configuro tudo isso, os arquivos .md,
00:11:56workflows de agentes e integrações,
00:11:59visite o crafterslab.dev.
00:12:02Não é um depósito de tutoriais ou fazenda de conteúdo.
00:12:06É minha base real para devs solo
00:12:09que tratam a IA como um colega de equipe
00:12:11e realmente se importam com o que entregam.
00:12:13Lá você encontra demonstrações completas,
00:12:15vídeo-tutoriais curtos, várias skills de Claude Code
00:12:19que você pode usar imediatamente,
00:12:21além de recursos para download
00:12:24que você solta direto nos seus projetos.
00:12:26Os membros interagem nos comentários,
00:12:29tiram dúvidas e trocam ideias.
00:12:30É uma conversa real, não apenas um feed passivo.
00:12:34Mas o núcleo são os espaços no Notion,
00:12:37meu guia prático. Você vê de perto
00:12:40como gerencio cada app que estou criando,
00:12:42os arquivos .md reais que uso nos projetos,
00:12:46biblioteca de prompts, documentação em tempo real
00:12:49e todas as automações de bastidores.
00:12:51Nada maquiado, apenas o processo real,
00:12:55com as partes bagunçadas e tudo mais.
00:12:58Há também o Swift Brain, uma biblioteca curada
00:13:01de Swift e SwiftUI que construo há anos,
00:13:04palestras privadas e materiais exclusivos
00:13:07que não estão por aí espalhados
00:13:10em dados de treinamento públicos.
00:13:11É o que eu uso para criar MCPs customizados,
00:13:16configurar skills para Claude Code, Cursor e tudo mais.
00:13:20Sempre experimentando e compartilhando o que funciona.
00:13:23E tem o Ops Lab.
00:13:25Onde ficam as instruções dos agentes de IA,
00:13:28templates do Notion, skills de Claude Code,
00:13:31workflows e automações, tudo pronto
00:13:33para você copiar, desmontar,
00:13:36quebrar e reconstruir do seu jeito.
00:13:38O objetivo é manter a stack indie conectada
00:13:41para que você nunca esteja construindo sozinho,
00:13:44mesmo sendo um desenvolvedor solo.
00:13:46Então, se quiser entrar enquanto o grupo é pequeno
00:13:49e os preços estão fixos, agora é o momento ideal.
00:13:52Parece muito mais um lounge de devs
00:13:55do que um fórum gigante e sem rosto.
00:13:57Eu adoraria ver você por lá.
00:14:00Trocar ideias sobre esses suportes
00:14:02e talvez aprender com o seu próximo projeto.
00:14:05Continue criando, continue experimentando
00:14:08e não deixe o barulho dos benchmarks distrair você
00:14:10do que realmente importa.
00:14:12Paz.

Key Takeaway

O sucesso no desenvolvimento com IA em 2026 não dependerá da escolha do modelo mais inteligente, mas sim da construção de suportes (harnesses) simples e eficazes que priorizem a orquestração e o gerenciamento de contexto sobre a complexidade de ferramentas.

Highlights

A transição de Daniel para desenvolvedor solo após a WWDC25 e a criação do Crafters Lab.

O benchmark Epic's Agent revela que modelos de IA falham em tarefas reais devido à execução e orquestração, não por falta de conhecimento.

A ascensão da "Engenharia de Harness" (suporte/infraestrutura) como a habilidade técnica crucial para 2026.

O estudo de caso da Vercel onde a simplificação de ferramentas aumentou a precisão do agente de 80% para 100%.

A estratégia da Manus de usar o sistema de arquivos como memória externa para evitar o ruído em janelas de contexto longas.

A convergência de gigantes como OpenAI, Anthropic e Meta para arquiteturas de agentes mais simples e robustas.

A aplicação da "Lição Amarga" de Richard Sutton: abordagens que escalam com processamento vencem o conhecimento programado manualmente.

Timeline

Introdução e a Jornada do Dev Solo

Daniel inicia o vídeo questionando a obsessão comum sobre qual é o melhor modelo de IA entre Claude, GPT e Gemini. Ele compartilha sua trajetória de oito anos como desenvolvedor iOS e sua decisão de seguir carreira solo após a WWDC25, criando mais de 15 aplicativos próprios em SwiftUI. O palestrante apresenta o crafterslab.dev como seu novo quartel-general para desenvolvedores que desejam tratar a IA como um colega de equipe real. Ele enfatiza que o foco mudou de tutoriais genéricos para a construção de aplicativos reais que escalam. Esta introdução estabelece sua autoridade e define o tom prático para a discussão técnica que se segue.

A Falha dos Benchmarks e o Problema da Execução

O vídeo introduz o benchmark Epic's Agent, que testa IAs em tarefas profissionais reais de longa duração, como as realizadas por advogados e analistas. Enquanto modelos marcam 90% em testes acadêmicos, eles atingem apenas 24% de sucesso nestas tarefas complexas devido a falhas de execução e orquestração. Daniel explica que os agentes frequentemente entram em "espiral", repetindo erros e perdendo o rastro dos objetivos iniciais. Ele argumenta que o gargalo não é a inteligência do modelo ou a falta de conhecimento, mas sim a infraestrutura que o envolve. Esta seção desmistifica a superioridade dos modelos baseada apenas em rankings de múltipla escolha.

Engenharia de Harness: O Conceito de 2026

Daniel apresenta o termo "Harness" (suporte ou infraestrutura) como a palavra-chave que definirá o cenário tecnológico em 2026. O harness é responsável por gerenciar o que o modelo vê, quais ferramentas acessa e como se recupera de falhas em sessões longas. Ele cita que empresas líderes como OpenAI e Anthropic já publicaram guias específicos sobre "Harness Engineering". O exemplo da empresa Manus é destacado, revelando que eles reconstruíram seu framework cinco vezes em seis meses para aperfeiçoar essa camada. O ponto central é que o verdadeiro trabalho de engenharia agora reside no suporte, e não no ajuste fino do modelo.

O Paradoxo da Simplificação: O Caso Vercel

Nesta seção, é apresentado um estudo de caso da Vercel sobre um agente de texto para SQL que inicialmente tinha 80% de precisão. Ao removerem 80% das ferramentas especializadas e deixarem apenas comandos básicos como bash, grep e cat, a precisão subiu para 100%. O agente tornou-se três vezes mais rápido e consumiu 40% menos tokens, desafiando o instinto de adicionar mais complexidade. Daniel explica que ferramentas em excesso muitas vezes atrapalham o raciocínio do modelo em vez de ajudá-lo. A lição aprendida é que, conforme os modelos ficam mais espertos, a arquitetura deve se tornar quase inexistente.

Gerenciamento de Contexto e Memória Externa

O palestrante discute o limite das janelas de contexto, mencionando que o desempenho cai drasticamente após muitas chamadas de ferramentas devido ao "ruído" das informações. A solução adotada pela Manus e visível no Claude Code é tratar o sistema de arquivos como uma memória externa do modelo. Em vez de manter tudo no prompt, o agente escreve o progresso e as tarefas em arquivos Markdown (.md) para leitura posterior. Isso mantém o sinal de instrução limpo e evita que o modelo esqueça diretrizes importantes do início da sessão. Daniel destaca que este padrão de design é fundamental para a confiabilidade em tarefas de longa duração.

Convergência de Arquiteturas e a Lição Amarga

Daniel analisa como os sistemas Codex da OpenAI, Claude Code e Manus convergiram para princípios semelhantes, apesar de origens diferentes. Ele menciona a "Lição Amarga" de Richard Sutton para reforçar que métodos que aproveitam o processamento bruto e simplicidade tendem a vencer a lógica manual complexa. O autor alerta que o excesso de engenharia e pipelines customizados são as principais razões para as falhas atuais dos agentes de IA. Ele incentiva os desenvolvedores a pararem de debater modelos no Reddit e focarem em simplificar seus suportes. A mensagem é clara: nadar contra a corrente da complexidade é a chave para a eficiência.

Passos Práticos e Ecossistema Crafters Lab

Na conclusão, o vídeo oferece três passos acionáveis: simplificar ferramentas, adotar arquivos de progresso (.md) e aprender sobre MCP (Model Context Protocol). Daniel detalha os recursos disponíveis no crafterslab.dev, incluindo o Ops Lab com templates de automação e o Swift Brain para desenvolvedores Apple. Ele convida o público a participar de uma comunidade focada em processos reais, longe do barulho dos benchmarks de marketing. O vídeo termina com um incentivo para que o desenvolvedor solo construa hoje mesmo um suporte melhor, sem esperar por novos modelos. Daniel se despede reforçando que o foco na entrega real é o que realmente importa.

Community Posts

View all posts