Memória de Sistemas de IA — Conhecimento Persistente e Memória de Agentes
Conhecimento persistente além de uma única thread de chat.
Esta seção reúne guias sobre conhecimento persistente e memória para sistemas de IA — como assistentes mantêm fatos, preferências e contexto distilado entre sessões, sem sobrecarregar um único prompt com todos os tokens. Aqui, memória refere-se à retenção intencional (fatos do usuário, resumos, armazenamentos suportados por plugins), não à memória RAM da GPU ou aos pesos do modelo.
Ela complementa o cluster mais amplo de Sistemas de IA — OpenClaw, Hermes, orquestração — e está ao lado de RAG para mecânicas de recuperação e Hospedagem de LLM para execução de modelos.
A memória faz parte da stack de assistentes mais ampla descrita em Arquitetura de Assistente de IA ao lado de roteamento, ferramentas e observabilidade.
Design de memória para assistentes
Guia transversal a frameworks para memória de curto prazo, estruturada e de recuperação — política de consolidação, compromissos com vetores e padrões de OpenAI, LangGraph, Hermes e OpenClaw.
- Sistemas de Memória em Assistentes de IA que Realmente Ajudam — memória de trabalho, estado estruturado, camadas de recuperação e quando a memória ajuda versus quando prejudica
Provedores de memória para agentes
Banco de dados drop-in expostos por frameworks como Hermes Agent e OpenClaw — Honcho, OpenViking, Mem0, Hindsight e outros — com diferentes compromissos em relação a LLM, embeddings e banco de dados.
- Provedores de memória para agentes comparados — tabela completa, notas sobre dependências e fluxos de
memory setupdo Hermes
Para memória central limitada apenas ao Hermes (MEMORY.md / USER.md), consulte Sistema de Memória do Agente Hermes.
Grafos de conhecimento e Cognee
Conhecimento institucional e de projeto extraído em grafos para assistentes conscientes da recuperação.
- Auto-hospedagem do Cognee — Escolhendo LLM no Ollama — início rápido prático do Cognee com modelos locais
- Escolhendo o LLM Certo para o Cognee — Configuração Local do Ollama — comparação de modelos para qualidade de grafo versus hardware
Construtores de grafos como o Cognee geralmente ingerem vaults de Markdown, wikis ou exportações que as pessoas já editaram — relevância, nomenclatura e “por que isso importou” são em grande parte definidos antes que os chunks alcancem os embeddings. Um corpus upstream desorganizado treina a ambiguidade de volta ao assistente; fluxos de captura-through-expression disciplinados limitam esse dano. Para essa abordagem centrada no ser humano — incluindo como ela difere do RAG focado em recuperação — consulte Segunda mente explicada para engenheiros.