Hermes: O Agente de Autoaperfeiçoamento que Fica Mais Inteligente a Cada Dia

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Ok, o Hermes é um agente de IA de código aberto criado pela empresa americana News Research que é

00:00:06auto-aperfeiçoável. Basicamente, quanto mais você o usa, melhor ele fica. Ele reflete,

00:00:10aprende e evolui por conta própria, nunca esquece nada do que você disse e até cria suas próprias

00:00:16habilidades. Mas será que tudo isso é suficiente para substituir algo como o OpenClaw, que suporta muito

00:00:22mais canais, tem melhor sandboxing e é muito mais maduro? Inscreva-se e vamos conferir.

00:00:30Então, o nome Hermes, surpresa, surpresa, vem do Deus mensageiro grego. E é também

00:00:37daí que vem este símbolo. Você verá mais dele adiante no vídeo. Mas, do jeito que está,

00:00:42eu já fiz um vídeo sobre o OpenClaw, que é ótimo, mas tem muitos recursos que eu não

00:00:47usarei pessoalmente. E o NanoClaw, que tem um conjunto de recursos bem menor, mas é construído sobre o

00:00:52SDK do agente Claude, que agora é menos utilizável para mim por causa das regras estranhas sobre o uso da

00:00:59assinatura do Claude com ferramentas de terceiros. Então agora estou à procura de um novo assistente de IA

00:01:04e vamos ver se o Hermes, o agente de IA auto-aperfeiçoável, pode preencher esse vazio. Vou usá-lo

00:01:09para criar tweets promocionais para mim baseados em vídeos passados que eu criei. E vou dar a ele

00:01:14alguns roteiros e orientações para chegar a esse estágio. Agora, esta é uma tarefa bem pequena, mas o foco é

00:01:20mais para ver se o Hermes consegue lembrar meu estilo de escrita e todo o feedback que vou dar para criar

00:01:26um tweet que eu goste sem eu pedir repetidamente. Vamos lá. Então, eu já segui em frente

00:01:30e instalei o Hermes usando este comando, que é muito simples e passou por tudo, desde

00:01:35a escolha de um modelo. Eu escolhi o OpenRouter com Gemma 4, mas se meu hardware aguentasse,

00:01:40eu o rodaria localmente e o conectaria ao Hermes, plataformas de mensagens e ferramentas de CLI. Se você

00:01:45usou o OpenClaw, todo este processo parecerá muito familiar. Também o configurei em um VPS para

00:01:51garantir, mas se quisesse, você poderia facilmente instalá-lo localmente na sua máquina. Então, a partir daqui,

00:01:55vou escrever o comando hermes, que iniciará um novo chat mostrando o símbolo do Hermes com

00:01:59as ferramentas e habilidades disponíveis aqui. Note que, quando você executa o comando hermes, ele cria uma

00:02:04nova sessão e não retoma a anterior a menos que você especifique, assim como o claude code. Então aqui vou

00:02:08dar a ele um prompt: Quero que você me ajude a escrever tweets baseados nos roteiros dos meus vídeos.

00:02:12Vamos passar pelo processo de fazer isso. Depois de um tempo, ele volta com uma resposta,

00:02:16da qual gostei da estrutura. E então vou dar a ele um prompt de acompanhamento: Tenho roteiros dentro

00:02:21da pasta scripts, estude-os para entender meu estilo de escrita e voz. Também dei a ele meu

00:02:25público-alvo e o comprimento que eu gostaria que meus tweets tivessem. Então agora ele está usando algumas ferramentas para buscar

00:02:30meus arquivos e, depois de um tempo, analisa meu roteiro para me dar uma análise do meu estilo.

00:02:34Diz que sou pragmático e cético, o que é verdade. Sou focado em desenvolvedores, transparente

00:02:40e acessível. Ele também criou uma estratégia para o meu público-alvo, que eu gostei.

00:02:45Mas eu mudei de ideia. Embora eu tenha dito que queria tweets com cerca de 210 caracteres,

00:02:50na verdade eu os quero um pouco mais longos. Então vou dar um novo prompt. E notei

00:02:54que ele tem demorado e usado muito contexto. Então o que posso fazer é mudar o modelo no meio

00:02:59da sessão executando o comando /model e especificando o modelo que quero. Neste caso, quero

00:03:04o GLM 5 turbo. Então agora ele mudou para esse modelo. Vou dar um novo prompt para tornar os

00:03:08tweets mais longos. E ele volta com a resposta muito mais rápido, mas também adicionou muita informação à

00:03:13memória sem eu mandar. Então mudou o comprimento de 210 para 400 e mudou o estilo

00:03:19de tweets que eu quero. Vamos ver se consigo gerar um tweet decente do meu último roteiro.

00:03:23E ele apresentou uma primeira tentativa bem decente, mas há algumas coisas que eu não

00:03:28diria pessoalmente, como "suar a camisa", e eu não usaria a palavra "incrível". Eu usaria a frase "muito

00:03:34bom". E após alguns ajustes, ele criou um tweet que eu diria que realmente usaria no meu

00:03:39perfil. E salvou tudo na memória. Vou pedir para ele criar uma habilidade. Assim será mais fácil

00:03:44para eu escrever tweets no futuro. E agora ele usa a habilidade skill manager para prosseguir e criar uma

00:03:49habilidade. Vamos ver isso em ação. E olha só, ele escreveu um tweet para mim com múltiplas opções,

00:03:54e posso selecionar a que mais gosto. Ele até criou uma thread que eu posso usar

00:03:59para escrever vários tweets se eu quiser. Então, tecnicamente, como ele lembrou de tudo,

00:04:04se eu criar uma sessão novinha do Hermes, mudar o modelo padrão e perguntar se ele sabe como

00:04:09gosto de escrever meus tweets, ele volta com uma resposta me dizendo exatamente como gosto de escrever

00:04:14meus tweets, até o tipo de emojis que gosto de usar. Agora você deve estar se perguntando como o Hermes

00:04:19consegue puxar toda essa informação da memória sem queimar seus tokens. Bem,

00:04:24a memória é armazenada em um arquivo externo. Ou no seu arquivo memory.md ou em um processador externo como

00:04:30Super Memory, mem0 ou Open Viking, se você configurar. E a memória é pré-carregada a cada sessão ou pré-buscada.

00:04:38Mas não é a coisa toda. Na verdade, é uma versão compactada limitada a cerca de três

00:04:43mil e quinhentos caracteres, o que dá cerca de 700 tokens dependendo do modelo. Mas todas as sessões

00:04:49são armazenadas em um banco de dados SQLite usando FTS5 para busca em texto completo. Então, se você pedir ao Hermes para lembrar

00:04:56o que você disse ontem, ele irá ao banco de dados, fará a busca e lhe dará essa

00:05:01informação. Ele também faz algo meio estranho. Ele comprime sua sessão acima de 50% da janela de contexto,

00:05:06o que é diferente de algo como o Claude Code, que faz isso a 80%. Mas acho que é difícil

00:05:11definir uma boa medida dependendo do modelo. Então 50% é um bom número aproximado. Mas o que ele faz é, em vez

00:05:17de apenas comprimir tudo, ele remove a saída de chamadas de ferramentas antigas e mantém o início

00:05:23e o fim da sessão, mas comprime o meio. É isso que realmente é salvo no banco de dados

00:05:28SQLite, não a conversa completa em si. Ele também se cutuca a cada 10 turnos ou algo assim para salvar informações

00:05:35importantes na memória e também para escrever uma habilidade sempre que necessário. Agora, eu sei que é muito

00:05:39difícil ver todo o poder do Hermes nesta sessão de demonstração bem curta que fiz, mas espero

00:05:44que você consiga extrapolar o quão bem ele lembrará e criará habilidades baseadas na informação

00:05:50que você der. E, na verdade, eu vou usá-lo com mais frequência. Então, este mês ou talvez no mês

00:05:54seguinte, vou focar em usar o Hermes como meu assistente pessoal principal com um modelo bem barato

00:05:59como o GLM e eu aviso vocês como foi. Mas, como sempre, deixem seus pensamentos nos comentários.

00:06:04Novamente, não se esqueçam de se inscrever e, até a próxima, boa codificação.

Key Takeaway

O Hermes funciona como um assistente de IA auto-aperfeiçoável que utiliza armazenamento SQLite externo e compressão inteligente de 50% do contexto para manter memória persistente e habilidades personalizadas sem exceder o limite de tokens.

Highlights

O Hermes é um agente de IA de código aberto da Nous Research que evolui e cria habilidades personalizadas automaticamente através do uso contínuo.

A memória de longo prazo utiliza um banco de dados SQLite com FTS5 para busca em texto completo, permitindo recuperar informações de sessões passadas.

O sistema economiza tokens limitando a memória pré-carregada a cerca de 3.500 caracteres, o que equivale a aproximadamente 700 tokens por sessão.

A compressão de contexto ocorre quando a janela atinge 50% de ocupação, removendo saídas de ferramentas antigas e mantendo o início e o fim da conversa.

O comando /model permite trocar o modelo de linguagem durante uma sessão ativa, como alternar do Gemma 4 para o GLM 5 Turbo para maior velocidade.

O agente executa uma auto-reflexão a cada 10 turnos de conversa para salvar informações cruciais e sugerir a criação de novas habilidades no Skill Manager.

Timeline

Arquitetura e Capacidades do Agente Hermes

O Hermes opera sob uma premissa de auto-aperfeiçoamento contínuo onde o aprendizado e a evolução ocorrem de forma autônoma.
A integração com ferramentas de terceiros e a ausência de restrições de assinatura tornam o Hermes mais flexível que o ecossistema fechado do Claude.
O sistema possui a capacidade técnica de reter o estilo de escrita e o tom de voz do usuário sem necessidade de instruções repetitivas.

Este agente de código aberto foca na persistência de dados e na criação de fluxos de trabalho customizados. Ele se diferencia de assistentes tradicionais por não esquecer interações prévias e por ser capaz de gerar novas funções internas, chamadas de habilidades, para tarefas específicas como a criação de conteúdo promocional baseado em roteiros existentes.

Instalação e Configuração de Modelos

A instalação é realizada via comando CLI simples, permitindo a execução local ou em servidores privados virtuais (VPS).
O suporte a provedores como OpenRouter facilita o uso de modelos variados, incluindo o Gemma 4 e o GLM 5 Turbo.
As sessões de chat são isoladas por padrão, exigindo especificações técnicas para retomar contextos de conversas anteriores.

O processo de configuração inicial assemelha-se ao do OpenClaw, oferecendo flexibilidade para rodar o agente em hardware local se a potência for suficiente. Durante a interação inicial, o agente analisa arquivos locais, como pastas de scripts, para identificar padrões de comportamento e definir uma estratégia de comunicação pragmática e focada no público-alvo do usuário.

Gestão de Memória e Otimização de Contexto

A alteração dinâmica de modelos via comando /model ajusta o equilíbrio entre custo, precisão e velocidade de resposta no meio da tarefa.
O Skill Manager automatiza a criação de funções complexas, transformando instruções de feedback em comandos reutilizáveis.
A memória armazena preferências granulares, incluindo o uso específico de emojis e comprimentos de texto preferidos.

Ao receber feedback sobre a qualidade de um tweet, o agente não apenas corrige a saída atual, mas salva as preferências de vocabulário na memória permanente. O uso do Skill Manager permite que o usuário solicite a criação de uma 'habilidade de escrita', que o agente utiliza posteriormente para gerar múltiplas opções de postagens e threads de forma automatizada e consistente.

Mecânica Técnica de Armazenamento Externo

O armazenamento da memória ocorre fora da janela de contexto principal em arquivos Markdown ou processadores como Super Memory e Mem0.
O banco de dados SQLite utiliza FTS5 para realizar buscas eficientes em conversas históricas sem consumir tokens desnecessários.
A estratégia de compressão mantém as partes mais relevantes da conversa (início e fim) enquanto descarta dados técnicos intermediários de chamadas de ferramentas.

Para evitar o esgotamento precoce da janela de contexto, o Hermes limita a memória ativa a 700 tokens, mas mantém acesso total ao histórico via banco de dados. A compressão inicia quando 50% do contexto é atingido, uma marca mais agressiva que os 80% do Claude Code, visando manter a eficiência do modelo. O sistema é programado para realizar um 'auto-cutucão' a cada dez interações, garantindo que fatos importantes sejam movidos para o armazenamento de longo prazo.

Community Posts

Diretrizes Operacionais para Evitar o Desperdício de Tokens e Proteger o Fluxo de Trabalho Local no Agente Hermes

makedreamhace 7 días3810

Write about this video