Hermes: O Agente de Autoaperfeiçoamento que Fica Mais Inteligente a Cada Dia

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Ok, o Hermes é um agente de IA de código aberto criado pela empresa americana News Research que é
00:00:06auto-aperfeiçoável. Basicamente, quanto mais você o usa, melhor ele fica. Ele reflete,
00:00:10aprende e evolui por conta própria, nunca esquece nada do que você disse e até cria suas próprias
00:00:16habilidades. Mas será que tudo isso é suficiente para substituir algo como o OpenClaw, que suporta muito
00:00:22mais canais, tem melhor sandboxing e é muito mais maduro? Inscreva-se e vamos conferir.
00:00:30Então, o nome Hermes, surpresa, surpresa, vem do Deus mensageiro grego. E é também
00:00:37daí que vem este símbolo. Você verá mais dele adiante no vídeo. Mas, do jeito que está,
00:00:42eu já fiz um vídeo sobre o OpenClaw, que é ótimo, mas tem muitos recursos que eu não
00:00:47usarei pessoalmente. E o NanoClaw, que tem um conjunto de recursos bem menor, mas é construído sobre o
00:00:52SDK do agente Claude, que agora é menos utilizável para mim por causa das regras estranhas sobre o uso da
00:00:59assinatura do Claude com ferramentas de terceiros. Então agora estou à procura de um novo assistente de IA
00:01:04e vamos ver se o Hermes, o agente de IA auto-aperfeiçoável, pode preencher esse vazio. Vou usá-lo
00:01:09para criar tweets promocionais para mim baseados em vídeos passados que eu criei. E vou dar a ele
00:01:14alguns roteiros e orientações para chegar a esse estágio. Agora, esta é uma tarefa bem pequena, mas o foco é
00:01:20mais para ver se o Hermes consegue lembrar meu estilo de escrita e todo o feedback que vou dar para criar
00:01:26um tweet que eu goste sem eu pedir repetidamente. Vamos lá. Então, eu já segui em frente
00:01:30e instalei o Hermes usando este comando, que é muito simples e passou por tudo, desde
00:01:35a escolha de um modelo. Eu escolhi o OpenRouter com Gemma 4, mas se meu hardware aguentasse,
00:01:40eu o rodaria localmente e o conectaria ao Hermes, plataformas de mensagens e ferramentas de CLI. Se você
00:01:45usou o OpenClaw, todo este processo parecerá muito familiar. Também o configurei em um VPS para
00:01:51garantir, mas se quisesse, você poderia facilmente instalá-lo localmente na sua máquina. Então, a partir daqui,
00:01:55vou escrever o comando hermes, que iniciará um novo chat mostrando o símbolo do Hermes com
00:01:59as ferramentas e habilidades disponíveis aqui. Note que, quando você executa o comando hermes, ele cria uma
00:02:04nova sessão e não retoma a anterior a menos que você especifique, assim como o claude code. Então aqui vou
00:02:08dar a ele um prompt: Quero que você me ajude a escrever tweets baseados nos roteiros dos meus vídeos.
00:02:12Vamos passar pelo processo de fazer isso. Depois de um tempo, ele volta com uma resposta,
00:02:16da qual gostei da estrutura. E então vou dar a ele um prompt de acompanhamento: Tenho roteiros dentro
00:02:21da pasta scripts, estude-os para entender meu estilo de escrita e voz. Também dei a ele meu
00:02:25público-alvo e o comprimento que eu gostaria que meus tweets tivessem. Então agora ele está usando algumas ferramentas para buscar
00:02:30meus arquivos e, depois de um tempo, analisa meu roteiro para me dar uma análise do meu estilo.
00:02:34Diz que sou pragmático e cético, o que é verdade. Sou focado em desenvolvedores, transparente
00:02:40e acessível. Ele também criou uma estratégia para o meu público-alvo, que eu gostei.
00:02:45Mas eu mudei de ideia. Embora eu tenha dito que queria tweets com cerca de 210 caracteres,
00:02:50na verdade eu os quero um pouco mais longos. Então vou dar um novo prompt. E notei
00:02:54que ele tem demorado e usado muito contexto. Então o que posso fazer é mudar o modelo no meio
00:02:59da sessão executando o comando /model e especificando o modelo que quero. Neste caso, quero
00:03:04o GLM 5 turbo. Então agora ele mudou para esse modelo. Vou dar um novo prompt para tornar os
00:03:08tweets mais longos. E ele volta com a resposta muito mais rápido, mas também adicionou muita informação à
00:03:13memória sem eu mandar. Então mudou o comprimento de 210 para 400 e mudou o estilo
00:03:19de tweets que eu quero. Vamos ver se consigo gerar um tweet decente do meu último roteiro.
00:03:23E ele apresentou uma primeira tentativa bem decente, mas há algumas coisas que eu não
00:03:28diria pessoalmente, como "suar a camisa", e eu não usaria a palavra "incrível". Eu usaria a frase "muito
00:03:34bom". E após alguns ajustes, ele criou um tweet que eu diria que realmente usaria no meu
00:03:39perfil. E salvou tudo na memória. Vou pedir para ele criar uma habilidade. Assim será mais fácil
00:03:44para eu escrever tweets no futuro. E agora ele usa a habilidade skill manager para prosseguir e criar uma
00:03:49habilidade. Vamos ver isso em ação. E olha só, ele escreveu um tweet para mim com múltiplas opções,
00:03:54e posso selecionar a que mais gosto. Ele até criou uma thread que eu posso usar
00:03:59para escrever vários tweets se eu quiser. Então, tecnicamente, como ele lembrou de tudo,
00:04:04se eu criar uma sessão novinha do Hermes, mudar o modelo padrão e perguntar se ele sabe como
00:04:09gosto de escrever meus tweets, ele volta com uma resposta me dizendo exatamente como gosto de escrever
00:04:14meus tweets, até o tipo de emojis que gosto de usar. Agora você deve estar se perguntando como o Hermes
00:04:19consegue puxar toda essa informação da memória sem queimar seus tokens. Bem,
00:04:24a memória é armazenada em um arquivo externo. Ou no seu arquivo memory.md ou em um processador externo como
00:04:30Super Memory, mem0 ou Open Viking, se você configurar. E a memória é pré-carregada a cada sessão ou pré-buscada.
00:04:38Mas não é a coisa toda. Na verdade, é uma versão compactada limitada a cerca de três
00:04:43mil e quinhentos caracteres, o que dá cerca de 700 tokens dependendo do modelo. Mas todas as sessões
00:04:49são armazenadas em um banco de dados SQLite usando FTS5 para busca em texto completo. Então, se você pedir ao Hermes para lembrar
00:04:56o que você disse ontem, ele irá ao banco de dados, fará a busca e lhe dará essa
00:05:01informação. Ele também faz algo meio estranho. Ele comprime sua sessão acima de 50% da janela de contexto,
00:05:06o que é diferente de algo como o Claude Code, que faz isso a 80%. Mas acho que é difícil
00:05:11definir uma boa medida dependendo do modelo. Então 50% é um bom número aproximado. Mas o que ele faz é, em vez
00:05:17de apenas comprimir tudo, ele remove a saída de chamadas de ferramentas antigas e mantém o início
00:05:23e o fim da sessão, mas comprime o meio. É isso que realmente é salvo no banco de dados
00:05:28SQLite, não a conversa completa em si. Ele também se cutuca a cada 10 turnos ou algo assim para salvar informações
00:05:35importantes na memória e também para escrever uma habilidade sempre que necessário. Agora, eu sei que é muito
00:05:39difícil ver todo o poder do Hermes nesta sessão de demonstração bem curta que fiz, mas espero
00:05:44que você consiga extrapolar o quão bem ele lembrará e criará habilidades baseadas na informação
00:05:50que você der. E, na verdade, eu vou usá-lo com mais frequência. Então, este mês ou talvez no mês
00:05:54seguinte, vou focar em usar o Hermes como meu assistente pessoal principal com um modelo bem barato
00:05:59como o GLM e eu aviso vocês como foi. Mas, como sempre, deixem seus pensamentos nos comentários.
00:06:04Novamente, não se esqueçam de se inscrever e, até a próxima, boa codificação.

Key Takeaway

O Hermes funciona como um assistente de IA auto-aperfeiçoável que utiliza armazenamento SQLite externo e compressão inteligente de 50% do contexto para manter memória persistente e habilidades personalizadas sem exceder o limite de tokens.

Highlights

O Hermes é um agente de IA de código aberto da Nous Research que evolui e cria habilidades personalizadas automaticamente através do uso contínuo.

A memória de longo prazo utiliza um banco de dados SQLite com FTS5 para busca em texto completo, permitindo recuperar informações de sessões passadas.

O sistema economiza tokens limitando a memória pré-carregada a cerca de 3.500 caracteres, o que equivale a aproximadamente 700 tokens por sessão.

A compressão de contexto ocorre quando a janela atinge 50% de ocupação, removendo saídas de ferramentas antigas e mantendo o início e o fim da conversa.

O comando /model permite trocar o modelo de linguagem durante uma sessão ativa, como alternar do Gemma 4 para o GLM 5 Turbo para maior velocidade.

O agente executa uma auto-reflexão a cada 10 turnos de conversa para salvar informações cruciais e sugerir a criação de novas habilidades no Skill Manager.

Timeline

Arquitetura e Capacidades do Agente Hermes

  • O Hermes opera sob uma premissa de auto-aperfeiçoamento contínuo onde o aprendizado e a evolução ocorrem de forma autônoma.
  • A integração com ferramentas de terceiros e a ausência de restrições de assinatura tornam o Hermes mais flexível que o ecossistema fechado do Claude.
  • O sistema possui a capacidade técnica de reter o estilo de escrita e o tom de voz do usuário sem necessidade de instruções repetitivas.

Este agente de código aberto foca na persistência de dados e na criação de fluxos de trabalho customizados. Ele se diferencia de assistentes tradicionais por não esquecer interações prévias e por ser capaz de gerar novas funções internas, chamadas de habilidades, para tarefas específicas como a criação de conteúdo promocional baseado em roteiros existentes.

Instalação e Configuração de Modelos

  • A instalação é realizada via comando CLI simples, permitindo a execução local ou em servidores privados virtuais (VPS).
  • O suporte a provedores como OpenRouter facilita o uso de modelos variados, incluindo o Gemma 4 e o GLM 5 Turbo.
  • As sessões de chat são isoladas por padrão, exigindo especificações técnicas para retomar contextos de conversas anteriores.

O processo de configuração inicial assemelha-se ao do OpenClaw, oferecendo flexibilidade para rodar o agente em hardware local se a potência for suficiente. Durante a interação inicial, o agente analisa arquivos locais, como pastas de scripts, para identificar padrões de comportamento e definir uma estratégia de comunicação pragmática e focada no público-alvo do usuário.

Gestão de Memória e Otimização de Contexto

  • A alteração dinâmica de modelos via comando /model ajusta o equilíbrio entre custo, precisão e velocidade de resposta no meio da tarefa.
  • O Skill Manager automatiza a criação de funções complexas, transformando instruções de feedback em comandos reutilizáveis.
  • A memória armazena preferências granulares, incluindo o uso específico de emojis e comprimentos de texto preferidos.

Ao receber feedback sobre a qualidade de um tweet, o agente não apenas corrige a saída atual, mas salva as preferências de vocabulário na memória permanente. O uso do Skill Manager permite que o usuário solicite a criação de uma 'habilidade de escrita', que o agente utiliza posteriormente para gerar múltiplas opções de postagens e threads de forma automatizada e consistente.

Mecânica Técnica de Armazenamento Externo

  • O armazenamento da memória ocorre fora da janela de contexto principal em arquivos Markdown ou processadores como Super Memory e Mem0.
  • O banco de dados SQLite utiliza FTS5 para realizar buscas eficientes em conversas históricas sem consumir tokens desnecessários.
  • A estratégia de compressão mantém as partes mais relevantes da conversa (início e fim) enquanto descarta dados técnicos intermediários de chamadas de ferramentas.

Para evitar o esgotamento precoce da janela de contexto, o Hermes limita a memória ativa a 700 tokens, mas mantém acesso total ao histórico via banco de dados. A compressão inicia quando 50% do contexto é atingido, uma marca mais agressiva que os 80% do Claude Code, visando manter a eficiência do modelo. O sistema é programado para realizar um 'auto-cutucão' a cada dez interações, garantindo que fatos importantes sejam movidos para o armazenamento de longo prazo.

Community Posts

View all posts