Engenharia de Harness: A Habilidade que Definirá 2026 para Devs Solo

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

SSolo Swift Crafter

컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Então, ok.

00:00:02Qual é o melhor modelo de IA agora?

00:00:04Claude, GPT, Gemini.

00:00:07E, sinceramente, acho que essa é a pergunta errada.

00:00:11Tipo, a pergunta completamente errada.

00:00:14Só para constar, eu sou o Daniel.

00:00:16Trabalho com desenvolvimento iOS há mais de oito anos.

00:00:20Comecei como freelancer, desenhando interfaces,

00:00:24pulando de cliente em cliente,

00:00:25entregando as ideias dos outros

00:00:27enquanto tentava entender as minhas.

00:00:28Aí, depois da WWDC25, eu decidi seguir carreira solo.

00:00:33Sem mais clientes, sem rede de segurança.

00:00:36Desde então, criei mais de 15 aplicativos próprios,

00:00:39todos em SwiftUI, todos desenvolvidos publicamente.

00:00:41E agora, sinceramente, toda a energia que eu tenho

00:00:44é dedicada a transformar este estúdio solo

00:00:46em algo que realmente dure.

00:00:49Não apenas outra leva de MVPs rápidos ou lixo gerado por IA,

00:00:52mas apps de verdade, que aguentem escala.

00:00:55E sim, todo esse processo,

00:00:57toda essa jornada caótica vive no crafterslab.

00:01:00Está em crafterslab.dev,

00:01:01e não é um cemitério de tutoriais ou fábrica de clones de IA.

00:01:06É genuinamente o meu quartel-general,

00:01:08feito para devs solo que usam IA como um colega de equipe real.

00:01:12Não como uma máquina de vendas que você cutuca quando trava

00:01:14esperando que saia o melhor.

00:01:16Se você se importa com a técnica,

00:01:18se quer mesmo subir de nível

00:01:20e construir coisas que realmente durem,

00:01:23é, você se sentiria em casa.

00:01:24E ei, se você ainda está no Patreon,

00:01:26muito obrigado, mas fica o aviso.

00:01:29Tudo mudou para o crafterslab.dev.

00:01:32É lá que todo o pessoal está agora.

00:01:33Venha construir com a gente.

00:01:35Então, aqui está o que me fez pensar sobre tudo isso.

00:01:38Saiu um estudo recentemente.

00:01:41Pesquisadores publicaram esse benchmark chamado Epic's Agent.

00:01:45E o que o torna diferente de todos os outros benchmarks

00:01:49que as pessoas ficam discutindo na internet

00:01:51é que ele testa os agentes em trabalho profissional real,

00:01:55não em quebra-cabeças de código ou múltipla escolha.

00:01:58Estamos falando de tarefas reais que consultores, advogados

00:02:03e analistas fazem diariamente.

00:02:05Cada uma leva de uma a duas horas para um humano completar.

00:02:08Então, eles testaram todos os principais modelos de ponta.

00:02:11O melhor deles completou essas tarefas

00:02:13em cerca de 24% das vezes, uma em cada quatro.

00:02:17E após oito tentativas com o mesmo modelo,

00:02:20o sucesso só subiu para cerca de 40%.

00:02:23Agora, lembre-se, estes são os mesmos modelos

00:02:26que marcam acima de 90% nos benchmarks

00:02:29que deixam todo mundo maluco.

00:02:32Ou esses benchmarks estão errados

00:02:33ou estamos medindo a coisa errada.

00:02:36E eu acho que é a segunda opção, certo?

00:02:37Mas, ok, aqui é onde a coisa fica séria para nós.

00:02:41Os pesquisadores analisaram por que os agentes falharam.

00:02:46E a resposta não foi que os modelos são burros.

00:02:49Eles tinham todo o conhecimento necessário.

00:02:51Eles conseguiam raciocinar sobre os problemas perfeitamente.

00:02:54As falhas foram quase inteiramente

00:02:56sobre execução e orquestração.

00:03:00Os agentes se perdiam depois de muitos passos.

00:03:02Eles voltavam a abordagens que já tinham falhado.

00:03:05Eles simplesmente perdiam o rastro do que deveriam

00:03:09estar fazendo em primeiro lugar.

00:03:11E se você é um dev solo usando Claude Code

00:03:14ou Cursor todo dia, sim, você já passou por isso.

00:03:18Você já viu o agente entrar em espiral, tentando a mesma

00:03:21coisa quebrada três vezes,

00:03:23esquecendo totalmente o contexto de 20 passos atrás.

00:03:26E você fica ali pensando:

00:03:28"Talvez eu devesse mudar para o Opus".

00:03:30"Talvez eu precise de outro provedor",

00:03:32mas os dados dizem que o problema não é esse.

00:03:34O modelo não é o gargalo.

00:03:36É tudo o que o envolve.

00:03:38E existe uma palavra para isso.

00:03:40E eu acho que ela vai definir 2026

00:03:43da mesma forma que os agentes definiram 2025.

00:03:46A palavra é "harness" (suporte/infraestrutura).

00:03:47Um harness de agente cuida de toda a infraestrutura

00:03:50ao redor do modelo: o que ele pode ver,

00:03:52quais ferramentas ele pode acessar,

00:03:54como ele se recupera quando as coisas dão errado,

00:03:56como ele mantém o controle do que está fazendo em sessões longas.

00:03:59A OpenAI literalmente publicou um artigo

00:04:02chamado "Harness Engineering".

00:04:04A Anthropic lançou um guia inteiro sobre como construir

00:04:07harnesses eficazes para agentes de longa duração.

00:04:09A Manish, a empresa de IA que a Meta acabou de adquirir,

00:04:13publicou suas lições de engenharia de contexto

00:04:16após reconstruir todo o seu framework de agentes

00:04:19cinco vezes em seis meses, cinco vezes.

00:04:22E todos estão dizendo exatamente a mesma coisa.

00:04:24O harness é onde vive o verdadeiro trabalho de engenharia,

00:04:27não o modelo.

00:04:28Ok, então, e esta é a parte que sinceramente me surpreendeu

00:04:32porque vai totalmente contra

00:04:34a forma como a maioria de nós pensa em construir com essas ferramentas.

00:04:38Tem essa história da Vercel.

00:04:41Eles tinham um agente de texto para SQL.

00:04:43Você faz uma pergunta, ele escreve uma consulta SQL,

00:04:46e eles o construíram como a maioria das pessoas constrói agentes, né?

00:04:49Deram a ele várias ferramentas especializadas,

00:04:51uma para entender o esquema do banco de dados,

00:04:54outra para escrever consultas, outra para validar resultados.

00:04:58Todo esse tratamento de erros em volta

00:05:01e ele funcionava cerca de 80% das vezes.

00:05:04Então eles tentaram algo meio radical.

00:05:06Removeram 80% das ferramentas, simplesmente as arrancaram,

00:05:11deram ao agente coisas básicas: rodar comandos bash, ler arquivos,

00:05:15ferramentas padrão de linha de comando como grep e cat,

00:05:18o tipo de coisa que você ou eu usaríamos de verdade.

00:05:20E a precisão foi de 80% para 100%.

00:05:25Ele usou 40% menos tokens,

00:05:28e foi três vezes e meia mais rápido.

00:05:31Não vou mentir, isso é bem bizarro, né?

00:05:33E o engenheiro que o construiu disse algo

00:05:36que realmente ficou gravado na minha mente.

00:05:38Os modelos estão ficando mais inteligentes.

00:05:40As janelas de contexto estão ficando maiores.

00:05:42Então, talvez a melhor arquitetura de agente

00:05:44seja quase nenhuma arquitetura.

00:05:46E isso muda tudo, entende o que quero dizer?

00:05:50Porque o instinto, especialmente quando você é solo

00:05:54e está tentando tornar essa coisa confiável,

00:05:57é continuar adicionando mais ferramentas, mais travas,

00:06:01mais lógica de roteamento.

00:06:02Você acha que mais estrutura vai ajudar,

00:06:04mas aquelas ferramentas não estavam ajudando o modelo.

00:06:06Elas estavam atrapalhando.

00:06:08E isso não é um caso isolado.

00:06:10A Manus passou exatamente pela mesma percepção.

00:06:13Eles reconstruíram todo o seu framework de agentes

00:06:16cinco vezes em seis meses,

00:06:19e seus maiores ganhos de desempenho

00:06:21não vieram da adição de recursos.

00:06:23Eles vieram da remoção deles.

00:06:25Eles arrancaram a recuperação complexa de documentos,

00:06:28acabaram com a lógica de roteamento sofisticada,

00:06:29e substituíram agentes gerenciais por transferências estruturadas simples.

00:06:34A cada iteração, a coisa ficava mais simples e melhor.

00:06:37E aqui está a parte que todo dev solo

00:06:40que roda sessões longas no Claude Code precisa ouvir.

00:06:42A Manus descobriu que o agente deles fazia em média

00:06:45cerca de 50 chamadas de ferramenta por tarefa.

00:06:49São muitos passos.

00:06:50E mesmo com modelos que tecnicamente suportam

00:06:53janelas de contexto enormes,

00:06:54o desempenho simplesmente cai após certo ponto.

00:06:58O modelo não esquece tudo de repente.

00:07:01É mais como se o sinal ficasse enterrado sob o ruído.

00:07:04Suas instruções importantes do início da sessão

00:07:07se perdem sob centenas de resultados intermediários.

00:07:10Então, a solução deles foi morta e simples.

00:07:12Eles começaram a tratar o sistema de arquivos

00:07:14como a memória externa do modelo.

00:07:17Em vez de enfiar tudo na janela de contexto,

00:07:20o agente escreve informações importantes em um arquivo

00:07:23e as lê de volta quando necessário.

00:07:25E sim, se você usa o Claude Code,

00:07:27você já viu isso literalmente.

00:07:29Os arquivos claude.md, as listas de tarefas, o progresso,

00:07:34esse é o exato padrão acontecendo

00:07:36no seu terminal todos os dias.

00:07:37Certo, então lembre-se do que eu disse

00:07:40sobre todos convergirem para a mesma ideia?

00:07:44Porque quando você olha

00:07:45para os três sistemas de agentes mais bem-sucedidos agora,

00:07:49todos chegaram ao mesmo lugar

00:07:51vindo de direções completamente diferentes.

00:07:53O Codex da OpenAI tem essa abordagem em camadas.

00:07:57Um orquestrador que planeja,

00:07:59um executor que lida com tarefas individuais,

00:08:02e uma camada de recuperação que captura falhas.

00:08:06É robusto.

00:08:07Você pode entregar as coisas e sair de perto.

00:08:09Essa é uma das filosofias.

00:08:10O Claude Code, que eu uso todo santo dia.

00:08:14O núcleo são literalmente apenas quatro ferramentas.

00:08:16Ler um arquivo, escrever um arquivo, editar um arquivo,

00:08:19rodar um comando bash, e é isso.

00:08:21A maior parte da inteligência vive no próprio modelo.

00:08:23O harness permanece mínimo.

00:08:25E quando você precisa de mais, a extensibilidade vem pelo MCP

00:08:28e habilidades que o agente adquire conforme necessário.

00:08:30E então a Manus chegou ao que eu chamaria de

00:08:33reduzir, descarregar, isolar: encolher o contexto ativamente,

00:08:38usar o sistema de arquivos como memória,

00:08:40criar subagentes para tarefas pesadas,

00:08:43e trazer de volta apenas o resumo.

00:08:45Três abordagens totalmente diferentes,

00:08:47todas convergindo para a mesma conclusão.

00:08:50O harness importa mais que o modelo.

00:08:52E para devs solo,

00:08:55isso muda o que você realmente deveria

00:08:57em que você deveria realmente

00:08:59gastar o seu tempo.

00:09:01Porque, sabe, não temos horas infinitas.

00:09:05Cada hora no Reddit debatendo Claude vs GPT

00:09:08é uma hora que você não está produzindo.

00:09:11E há esta ideia de Richard Sutton,

00:09:14um dos criadores do aprendizado por reforço,

00:09:16chamada "a lição amarga".

00:09:18O argumento central é que

00:09:21abordagens que escalam com processamento

00:09:23sempre acabam vencendo as que dependem

00:09:26de conhecimento programado manualmente.

00:09:27Aplicado ao que fazemos, isso é bem específico.

00:09:29À medida que os modelos ficam mais espertos,

00:09:31seu suporte deve ficar mais simples,

00:09:33e não mais complexo.

00:09:34Se você adiciona mais lógica manual

00:09:36e pipelines customizados a cada upgrade,

00:09:40você está nadando contra a corrente.

00:09:42E, honestamente, esse excesso de engenharia

00:09:44é provavelmente o porquê do seu agente falhar.

00:09:47Então, eis o que eu tentaria de fato.

00:09:49Primeiro, faça você mesmo o experimento da Vercel.

00:09:52Se você tem qualquer tipo de agente configurado,

00:09:54simplifique-o, remova as ferramentas específicas,

00:09:57dê a ele um terminal bash e acesso básico a arquivos

00:10:00e veja o que acontece.

00:10:02O modelo é provavelmente mais inteligente

00:10:03do que o pipeline de ferramentas que você criou.

00:10:06Segundo, adicione um arquivo de progresso.

00:10:08Faça seu agente manter uma lista de tarefas

00:10:10que ele atualiza após cada etapa.

00:10:13Ele lê o arquivo no início de cada ação

00:10:15e escreve nele ao finalizar.

00:10:17É exatamente o que o Claude Code faz

00:10:19com aqueles arquivos Markdown.

00:10:20E é o mesmo padrão que Manish adotou

00:10:22após reescrever tudo cinco vezes.

00:10:24Eu tenho um sistema completo para isso

00:10:26no laboratório, com instruções e templates

00:10:29.md prontos, caso você tenha curiosidade.

00:10:33Terceiro, comece a aprender sobre MCP e skills.

00:10:37Eles dão ao modelo formas limpas e padrões

00:10:40de trabalhar com ferramentas externas

00:10:42sem você ter que codificar cada integração.

00:10:44É aí que reside a extensibilidade agora.

00:10:462025 foi o ano dos agentes.

00:10:50E, em grande parte, sim, isso aconteceu.

00:10:53Mas 2026, eu acho que será o ano dos suportes.

00:10:58O mesmo modelo, exatamente o mesmo modelo,

00:11:03se comporta de forma totalmente diferente no

00:11:06Claude Code comparado ao Cursor ou CodeX.

00:11:08Portanto, escolha seu suporte com cuidado,

00:11:11seja usando um agente de código ou criando um.

00:11:14E se você ainda está aqui,

00:11:17honestamente, você é uma lenda.

00:11:18Eu sei que o barulho sobre modelos está alto.

00:11:22Toda semana há um novo lançamento, um benchmark,

00:11:24um novo tópico sobre quem é o rei da vez.

00:11:27Mas os dados e a engenharia real vindo

00:11:30das empresas que constroem essas coisas

00:11:32estão apontando para outro lugar.

00:11:34O suporte é onde estão os ganhos reais.

00:11:37Para desenvolvedores solo, isso é ótimo,

00:11:40pois construir um suporte melhor

00:11:42é algo que você pode fazer hoje mesmo,

00:11:45sem esperar pelo próximo modelo.

00:11:47E se quiser se aprofundar em como eu

00:11:51configuro tudo isso, os arquivos .md,

00:11:56workflows de agentes e integrações,

00:11:59visite o crafterslab.dev.

00:12:02Não é um depósito de tutoriais ou fazenda de conteúdo.

00:12:06É minha base real para devs solo

00:12:09que tratam a IA como um colega de equipe

00:12:11e realmente se importam com o que entregam.

00:12:13Lá você encontra demonstrações completas,

00:12:15vídeo-tutoriais curtos, várias skills de Claude Code

00:12:19que você pode usar imediatamente,

00:12:21além de recursos para download

00:12:24que você solta direto nos seus projetos.

00:12:26Os membros interagem nos comentários,

00:12:29tiram dúvidas e trocam ideias.

00:12:30É uma conversa real, não apenas um feed passivo.

00:12:34Mas o núcleo são os espaços no Notion,

00:12:37meu guia prático. Você vê de perto

00:12:40como gerencio cada app que estou criando,

00:12:42os arquivos .md reais que uso nos projetos,

00:12:46biblioteca de prompts, documentação em tempo real

00:12:49e todas as automações de bastidores.

00:12:51Nada maquiado, apenas o processo real,

00:12:55com as partes bagunçadas e tudo mais.

00:12:58Há também o Swift Brain, uma biblioteca curada

00:13:01de Swift e SwiftUI que construo há anos,

00:13:04palestras privadas e materiais exclusivos

00:13:07que não estão por aí espalhados

00:13:10em dados de treinamento públicos.

00:13:11É o que eu uso para criar MCPs customizados,

00:13:16configurar skills para Claude Code, Cursor e tudo mais.

00:13:20Sempre experimentando e compartilhando o que funciona.

00:13:23E tem o Ops Lab.

00:13:25Onde ficam as instruções dos agentes de IA,

00:13:28templates do Notion, skills de Claude Code,

00:13:31workflows e automações, tudo pronto

00:13:33para você copiar, desmontar,

00:13:36quebrar e reconstruir do seu jeito.

00:13:38O objetivo é manter a stack indie conectada

00:13:41para que você nunca esteja construindo sozinho,

00:13:44mesmo sendo um desenvolvedor solo.

00:13:46Então, se quiser entrar enquanto o grupo é pequeno

00:13:49e os preços estão fixos, agora é o momento ideal.

00:13:52Parece muito mais um lounge de devs

00:13:55do que um fórum gigante e sem rosto.

00:13:57Eu adoraria ver você por lá.

00:14:00Trocar ideias sobre esses suportes

00:14:02e talvez aprender com o seu próximo projeto.

00:14:05Continue criando, continue experimentando

00:14:08e não deixe o barulho dos benchmarks distrair você

00:14:10do que realmente importa.

00:14:12Paz.

Key Takeaway

O sucesso no desenvolvimento com IA em 2026 não dependerá da escolha do modelo mais inteligente, mas sim da construção de suportes (harnesses) simples e eficazes que priorizem a orquestração e o gerenciamento de contexto sobre a complexidade de ferramentas.

Highlights

A transição de Daniel para desenvolvedor solo após a WWDC25 e a criação do Crafters Lab.

O benchmark Epic's Agent revela que modelos de IA falham em tarefas reais devido à execução e orquestração, não por falta de conhecimento.

A ascensão da "Engenharia de Harness" (suporte/infraestrutura) como a habilidade técnica crucial para 2026.

O estudo de caso da Vercel onde a simplificação de ferramentas aumentou a precisão do agente de 80% para 100%.

A estratégia da Manus de usar o sistema de arquivos como memória externa para evitar o ruído em janelas de contexto longas.

A convergência de gigantes como OpenAI, Anthropic e Meta para arquiteturas de agentes mais simples e robustas.

A aplicação da "Lição Amarga" de Richard Sutton: abordagens que escalam com processamento vencem o conhecimento programado manualmente.

Timeline

Introdução e a Jornada do Dev Solo

Daniel inicia o vídeo questionando a obsessão comum sobre qual é o melhor modelo de IA entre Claude, GPT e Gemini. Ele compartilha sua trajetória de oito anos como desenvolvedor iOS e sua decisão de seguir carreira solo após a WWDC25, criando mais de 15 aplicativos próprios em SwiftUI. O palestrante apresenta o crafterslab.dev como seu novo quartel-general para desenvolvedores que desejam tratar a IA como um colega de equipe real. Ele enfatiza que o foco mudou de tutoriais genéricos para a construção de aplicativos reais que escalam. Esta introdução estabelece sua autoridade e define o tom prático para a discussão técnica que se segue.

A Falha dos Benchmarks e o Problema da Execução

O vídeo introduz o benchmark Epic's Agent, que testa IAs em tarefas profissionais reais de longa duração, como as realizadas por advogados e analistas. Enquanto modelos marcam 90% em testes acadêmicos, eles atingem apenas 24% de sucesso nestas tarefas complexas devido a falhas de execução e orquestração. Daniel explica que os agentes frequentemente entram em "espiral", repetindo erros e perdendo o rastro dos objetivos iniciais. Ele argumenta que o gargalo não é a inteligência do modelo ou a falta de conhecimento, mas sim a infraestrutura que o envolve. Esta seção desmistifica a superioridade dos modelos baseada apenas em rankings de múltipla escolha.

Engenharia de Harness: O Conceito de 2026

Daniel apresenta o termo "Harness" (suporte ou infraestrutura) como a palavra-chave que definirá o cenário tecnológico em 2026. O harness é responsável por gerenciar o que o modelo vê, quais ferramentas acessa e como se recupera de falhas em sessões longas. Ele cita que empresas líderes como OpenAI e Anthropic já publicaram guias específicos sobre "Harness Engineering". O exemplo da empresa Manus é destacado, revelando que eles reconstruíram seu framework cinco vezes em seis meses para aperfeiçoar essa camada. O ponto central é que o verdadeiro trabalho de engenharia agora reside no suporte, e não no ajuste fino do modelo.

O Paradoxo da Simplificação: O Caso Vercel

Nesta seção, é apresentado um estudo de caso da Vercel sobre um agente de texto para SQL que inicialmente tinha 80% de precisão. Ao removerem 80% das ferramentas especializadas e deixarem apenas comandos básicos como bash, grep e cat, a precisão subiu para 100%. O agente tornou-se três vezes mais rápido e consumiu 40% menos tokens, desafiando o instinto de adicionar mais complexidade. Daniel explica que ferramentas em excesso muitas vezes atrapalham o raciocínio do modelo em vez de ajudá-lo. A lição aprendida é que, conforme os modelos ficam mais espertos, a arquitetura deve se tornar quase inexistente.

Gerenciamento de Contexto e Memória Externa

O palestrante discute o limite das janelas de contexto, mencionando que o desempenho cai drasticamente após muitas chamadas de ferramentas devido ao "ruído" das informações. A solução adotada pela Manus e visível no Claude Code é tratar o sistema de arquivos como uma memória externa do modelo. Em vez de manter tudo no prompt, o agente escreve o progresso e as tarefas em arquivos Markdown (.md) para leitura posterior. Isso mantém o sinal de instrução limpo e evita que o modelo esqueça diretrizes importantes do início da sessão. Daniel destaca que este padrão de design é fundamental para a confiabilidade em tarefas de longa duração.

Convergência de Arquiteturas e a Lição Amarga

Daniel analisa como os sistemas Codex da OpenAI, Claude Code e Manus convergiram para princípios semelhantes, apesar de origens diferentes. Ele menciona a "Lição Amarga" de Richard Sutton para reforçar que métodos que aproveitam o processamento bruto e simplicidade tendem a vencer a lógica manual complexa. O autor alerta que o excesso de engenharia e pipelines customizados são as principais razões para as falhas atuais dos agentes de IA. Ele incentiva os desenvolvedores a pararem de debater modelos no Reddit e focarem em simplificar seus suportes. A mensagem é clara: nadar contra a corrente da complexidade é a chave para a eficiência.

Passos Práticos e Ecossistema Crafters Lab

Na conclusão, o vídeo oferece três passos acionáveis: simplificar ferramentas, adotar arquivos de progresso (.md) e aprender sobre MCP (Model Context Protocol). Daniel detalha os recursos disponíveis no crafterslab.dev, incluindo o Ops Lab com templates de automação e o Swift Brain para desenvolvedores Apple. Ele convida o público a participar de uma comunidade focada em processos reais, longe do barulho dos benchmarks de marketing. O vídeo termina com um incentivo para que o desenvolvedor solo construa hoje mesmo um suporte melhor, sem esperar por novos modelos. Daniel se despede reforçando que o foco na entrega real é o que realmente importa.

Community Posts

Harness Engineering: O guia prático para desenvolvedores solo elevarem a precisão de agentes de IA a 100% em 2026

makedream2026년 3월 20일5430

Write about this video