Vergelijking van agentgeheugenaanbieders — Honcho, Mem0, Hindsight en vijf andere

Acht uitbreidbare backends voor persistente agentgeheugen.

Inhoud

Moderne assistenten vergeten nog steeds alles als je het tabblad sluit, tenzij er iets persists buiten het contextvenster. Agent-memoryproviders zijn diensten of bibliotheken die feiten en samenvattingen over sessies heen bewaren — vaak geïntegreerd als plugins, zodat het framework slank blijft terwijl het geheugen schaalt.

Deze handleiding vergelijkt acht backends die worden geleverd als externe geheugenplugins voor Hermes Agent — Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover en Supermemory — en legt uit hoe ze passen binnen bredere AI-systemen-stacks. Dezelfde aanbieders verschijnen ook in OpenClaw en andere agent-tooling via community- of officiële integraties. De AI Systems Memory hub vermeldt dit artikel samen met Cognee en gerelateerde handleidingen.

Voor meer informatie over het gebonden kerngeheugen van Hermes (MEMORY.md en USER.md), bevriezingsgedrag en triggers, zie Hermes Agent Memory System. Voor context over hoe de acht native geheugenproviders van Hermes bijdragen aan het groeiende adoptievoordeel ten opzichte van OpenClaw — inclusief GitHub-sterren, OpenRouter-tokenranglijsten en vergelijkingen van de ecosysteemgrootte — zie OpenClaw vs Hermes Agent: Stars, Downloads & Usage 2026.


Hermes Agent lijst acht externe geheugenproviderplugins voor persistent, cross-session kennis. Slechts één externe provider kan op een bepaald moment actief zijn. De ingebouwde MEMORY.md en USER.md blijven geladen naast deze provider — additief, niet als vervanging.

Externe afhankelijkheden. Elke externe provider, behalve Holographic, vereist ten minste één externe serviceroep — een LLM voor geheugenextractie, een embeddingmodel voor semantische zoekopdrachten, of een database zoals PostgreSQL voor opslag. Deze afhankelijkheden hebben directe implicaties voor privacy, kosten en of je geheugenstack volledig self-hosted kan draaien. Hindsight en ByteRover bundelen of elimineren de meeste afhankelijkheden; Honcho, Mem0 en Supermemory vereisen de meeste bewegende delen. Waar een provider Ollama of een OpenAI-compatibel eindpunt ondersteunt, kun je LLM- en embeddingroepen doorsturen naar een lokaal model en data volledig buiten derde-partijservers houden.

ai agent memory system providers

Activering met Hermes Agent

De onderstaande commandoregelstappen spiegelen de tabellen in het Hermes Agent CLI cheat sheet.

hermes memory setup   # Interactieve selector + configuratie
hermes memory status  # Controleren wat actief is
hermes memory off     # Externe provider uitschakelen

Of handmatig in ~/.hermes/config.yaml:

memory:
  provider: openviking  # of honcho, mem0, hindsight, holographic, retaindb, byterover, supermemory

Providervergelijking

Provider Opslag Kosten Externe afhankelijkheden Self-hostable Unieke functie
Honcho Cloud/Self-hosted Betaald/Kostenloos LLM + Embeddingmodel + PostgreSQL/pgvector + Redis Ja — Docker / K3s / Fly.io Dialectisch gebruikersmodel + sessie-gebaseerde context
OpenViking Self-hosted Kostenloos LLM (VLM) + Embeddingmodel Ja — lokale server; Ollama-native init-wizard Bestandshierarchie + gelaagde opslag
Mem0 Cloud/Self-hosted Betaald/Kostenloos OSS LLM + Embeddingmodel + Vectorstore (Qdrant of pgvector) Ja — Docker Compose OSS; volledig lokaal mogelijk Server-side LLM-extractie
Hindsight Cloud/Lokaal Kostenloos/Betaald LLM + gebundelde PostgreSQL + ingebouwde embedder + ingebouwde reranker Ja — Docker of ingebedde Python; volledig lokaal met Ollama Kennisgrafiek + reflect-synthese
Holographic Lokaal Kostenloos Geen Native — geen infrastructuur nodig HRR-algebra + vertrouwensscore
RetainDB Cloud $20/maand Cloud-beheerd (LLM + ophalen op RetainDB-servers) Nee Deltacompressie
ByteRover Lokaal/Cloud Kostenloos/Betaald Alleen LLM — geen embeddingmodel, geen DB Ja — lokaal-first standaard; Ollama ondersteund Bestandsgebaseerde contextboom; geen embeddingpipeline
Supermemory Cloud Betaald LLM + PostgreSQL/pgvector (enterprise Cloudflare-deploy) Alleen enterprise-plan Contextafscherming + sessiegrafiek-ingang

Gedetailleerde analyse

Honcho

Best voor: multi-agentsystemen, cross-session context, agent-gebruiker uitlijning.

Honcho draait naast bestaand geheugen — USER.md blijft zoals het is, en Honcho voegt een extra laag context toe. Het modelleert gesprekken als peers die berichten wisselen — één gebruikerspeer plus één AI-peer per Hermes-profiel, allemaal met een gedeelde werkruimte.

Externe afhankelijkheden: Honcho vereist een LLM voor sessiesamenvatting, afleiding van gebruikersrepresentatie en dialectisch redeneren; een embeddingmodel voor semantische zoekopdrachten over observaties; PostgreSQL met de pgvector-extensie voor vectoropslag; en Redis voor caching. De beheerde cloud op api.honcho.dev regelt dit allemaal voor jou. Voor self-hosted deployments (Docker, K3s of Fly.io) lever je je eigen referenties. De LLM-slot accepteert elk OpenAI-compatibel eindpunt, inclusief Ollama en vLLM, zodat inferentie on-premises kan blijven. De embedding-slot default naar openai/text-embedding-3-small maar ondersteunt configureerbare providers via LLM_EMBEDDING_API_KEY en LLM_EMBEDDING_BASE_URL — elk OpenAI-compatibel embeddingserver werkt, inclusief lokale opties zoals vLLM met een BGE-model.

Tools: honcho_profile (lezen/bijwerken peer-card), honcho_search (semantische zoekopdracht), honcho_context (sessiecontext — samenvatting, representatie, card, berichten), honcho_reasoning (LLM-gesynthetiseerd), honcho_conclude (conclusies maken/wissen).

Belangrijkste configuratieknoppen:

  • contextCadence (standaard 1): Minimale beurt tussen basislaagverversingen
  • dialecticCadence (standaard 2): Minimale beurt tussen peer.chat() LLM-roepen (1-5 aanbevolen)
  • dialecticDepth (standaard 1): .chat() doorvoeren per aanroep (begrensd 1-3)
  • recallMode (standaard ‘hybrid’): hybrid (auto+tools), context (alleen injecteren), tools (alleen tools)
  • writeFrequency (standaard ‘async’): Flush-timing: async, turn, session, of integer N
  • observationMode (standaard ‘directional’): directional (alles aan) of unified (gedeelde pool)

Architectuur: Tweelaagse contextinjectie — basislaag (sessiesamenvatting + representatie + peer-card) + dialectisch supplement (LLM-redeneren). Selecteert automatisch cold-start vs. warm prompts.

Multi-peer mapping: Werkruimte is een gedeelde omgeving over profielen heen. Gebruikerspeer (peerName) is een globale identiteit. AI-peer (aiPeer) is er één per Hermes-profiel (hermes standaard, hermes.<profiel> voor anderen).

Setup:

hermes memory setup  # selecteer "honcho"
# of legacy: hermes honcho setup

Config: $HERMES_HOME/honcho.json (profiel-lokaal) of ~/.honcho/config.json (globaal).

Profielbeheer:

hermes profile create coder --clone  # Maakt hermes.coder met gedeelde werkruimte
hermes honcho sync                   # Backfills AI-peers voor bestaande profielen

OpenViking

Best voor: self-hosted kennisbeheer met gestructureerd browsen.

OpenViking biedt een bestandshierarchie met gelaagde opslag. Het is gratis, self-hosted, en geeft je volledige controle over je geheugenopslag.

Externe afhankelijkheden: OpenViking vereist een VLM (vision-taalmodel) voor semantische verwerking en geheugenextractie, en een embeddingmodel voor vectorzoekopdrachten — beide zijn verplicht. Ondersteunde VLM-providers omvatten OpenAI, Anthropic, DeepSeek, Gemini, Moonshot en vLLM (voor lokale deploy). Voor embeddings omvatten ondersteunde providers OpenAI, Volcengine (Doubao), Jina, Voyage en — via Ollama — elk lokaal geserveerd embeddingmodel. De openviking-server init interactieve wizard kan beschikbare RAM detecteren en geschikte Ollama-modellen aanbevelen (bijv. Qwen3-Embedding 8B voor embeddings, Gemma 4 27B voor VLM) en alles automatisch configureren voor een volledig lokale, zero-API-key setup. Er is geen externe database nodig; OpenViking bewaart geheugen in het bestandssysteem.

Tools: viking_search, viking_read (gelaagd), viking_browse, viking_remember, viking_add_resource.

Setup:

pip install openviking
openviking-server init   # interactieve wizard (beveelt Ollama-modellen aan voor lokale setup)
openviking-server
hermes memory setup  # selecteer "openviking"
echo "OPENVIKING_ENDPOINT=http://localhost:1933" >> ~/.hermes/.env

Mem0

Best voor: hands-off geheugenbeheer met automatische extractie.

Mem0 regelt geheugenextractie server-side via een LLM-roep bij elke add-operatie — het leest het gesprek, extrahert discrete feiten, dedupliceert en bewaart ze. De beheerde cloud API regelt alle infrastructuur. De open-source bibliotheek en self-hosted server geven je volledige controle.

Externe afhankelijkheden: Mem0 vereist een LLM voor geheugenextractie (standaard: OpenAI gpt-4.1-nano; 20 providers ondersteund, inclusief Ollama, vLLM en LM Studio voor lokale modellen) en een embeddingmodel voor ophalen (standaard: OpenAI text-embedding-3-small; 10 providers ondersteund, inclusief Ollama en HuggingFace voor lokale modellen). Opslag gebruikt Qdrant op /tmp/qdrant in bibliotheekmodus, of PostgreSQL met pgvector in self-hosted server-modus — beide kunnen lokaal draaien. Een volledig lokale, zero-cloud Mem0-stack is haalbaar: Ollama voor LLM, Ollama voor embeddings, en een lokale Qdrant-instantie, allemaal geconfigureerd via Memory.from_config.

Tools: mem0_profile, mem0_search, mem0_conclude.

Setup:

pip install mem0ai
hermes memory setup  # selecteer "mem0"
echo "MEM0_API_KEY=your-key" >> ~/.hermes/.env

Config: $HERMES_HOME/mem0.json (user_id: hermes-user, agent_id: hermes).

Hindsight

Best voor: kennisgrafiek-gebaseerd ophalen met entiteitsrelaties.

Hindsight bouwt een kennisgrafiek van je geheugen, waarbij het entiteiten en relaties extrahert. Zijn unieke reflect-tool voert cross-memory synthese uit — het combineert meerdere herinneringen tot nieuwe inzichten. Ophalen voert vier retrievalstrategieën parallel uit (semantisch, trefwoord/BM25, grafiekdoorloop, temporeel), en voegt en herschikt resultaten vervolgens met behulp van reciproque rangfusering.

Externe afhankelijkheden: Hindsight vereist een LLM voor feiten- en entiteitsextractie bij retain-roepen, en voor synthese bij reflect-roepen (standaard: OpenAI; ondersteunde providers omvatten Anthropic, Gemini, Groq, Ollama, LM Studio en elk OpenAI-compatibel eindpunt). Het embeddingmodel en cross-encoder rerankingmodel zijn gebundeld binnen Hindsight zelf — ze draaien lokaal binnen het hindsight-all-pakket en vereisen geen externe API. PostgreSQL is ook gebundeld met de ingebedde Python-installatie via een beheerde pg0-datadir; je kunt Hindsight ook wijzen naar een externe PostgreSQL-instantie. Voor een volledig lokale, zero-cloud setup, stel HINDSIGHT_API_LLM_PROVIDER=ollama in en wijs het naar een lokaal Ollama-model — retain en recall werken volledig; reflect vereist een tool-calling-capabel model (bijv. qwen3:8b).

Tools: hindsight_retain, hindsight_recall, hindsight_reflect (unieke cross-memory synthese).

Setup:

hermes memory setup  # selecteer "hindsight"
echo "HINDSIGHT_API_KEY=your-key" >> ~/.hermes/.env

Installeert automatisch hindsight-client (cloud) of hindsight-all (lokaal). Vereist >= 0.4.22.

Config: $HERMES_HOME/hindsight/config.json

  • mode: cloud of local
  • recall_budget: low / mid / high
  • memory_mode: hybrid / context / tools
  • auto_retain / auto_recall: true (standaard)

Lokale UI: hindsight-embed -p hermes ui start

Holographic

Best voor: privacy-gerichte setups met lokaal-only opslag.

Holographic gebruikt HRR (Holographic Reduced Representation) algebra voor geheugenencodering, met vertrouwensscore voor geheugenbetrouwbaarheid. Geen cloud-afhankelijkheid — alles draait lokaal op je eigen hardware.

Externe afhankelijkheden: Geen. Holographic vereist geen LLM, geen embeddingmodel, geen database en geen netwerkverbinding. Geheugenencodering gebeurt volledig via HRR-algebra die in-process draait. Dit maakt het uniek onder alle acht providers — het is de enige die opereert met zero externe roepen. De afweging is dat de ophaalkwaliteit lager is dan embedding-gebaseerde semantische zoekopdrachten, en er geen cross-memory synthese is zoals Hindsight’s reflect. Voor gebruikers waar privacy en zero-afhankelijkheidsoperatie ononderhandelbaar zijn, is Holographic de enige optie die dit onvoorwaardelijk levert.

Tools: 2 tools voor geheugenoperaties via HRR-algebra.

Setup:

hermes memory setup  # selecteer "holographic"

RetainDB

Best voor: hoge frequentie updates met deltacompressie.

RetainDB gebruikt deltacompressie om geheugenupdates efficiënt op te slaan en hybride ophalen (vector + BM25 + reranking) om relevante context naar voren te brengen. Het is cloud-gebaseerd met een kosten van $20/maand, waarbij alle geheugenverwerking server-side wordt afgehandeld.

Externe afhankelijkheden: RetainDB’s LLM-roepen, embeddingpipeline en reranking draaien allemaal op RetainDB’s eigen cloudinfrastructuur — je levert alleen een RETAINDB_KEY. Geheugenextractie gebruikt Claude Sonnet server-side. Er is geen self-hosting-optie en geen lokale modus. Alle conversatiedata wordt naar RetainDB-servers gestuurd voor verwerking en opslag. Als datasoevereiniteit of offline operatie belangrijk is voor je use case, is deze provider niet geschikt.

Tools: retaindb_profile (gebruikersprofiel), retaindb_search (semantische zoekopdracht), retaindb_context (taakrelevante context), retaindb_remember (opslaan met type + belangrijkheid), retaindb_forget (herinneringen wissen).

Setup:

hermes memory setup  # selecteer "retaindb"

ByteRover

Best voor: lokaal-first geheugen met mens-leesbare, auditbare opslag.

ByteRover bewaart geheugen als een gestructureerde markdown contextboom — een hiërarchie van domein-, onderwerp- en subonderwerpbestanden — in plaats van embeddingvectors of een database. Een LLM leest broncontent, redeneert erover en plaatst geëxtraheerde kennis op de juiste locatie in de hiërarchie. Ophalen is MiniSearch full-text zoekopdracht met gelaagde fallback naar LLM-gestuurde zoekopdracht, zonder dat een vectordatabase nodig is.

Externe afhankelijkheden: ByteRover vereist een LLM voor geheugencuratie en zoekopdrachten (18 providers ondersteund, inclusief Anthropic, OpenAI, Google, Ollama en elk OpenAI-compatibel eindpunt via de openai-compatible provider-slot). Het vereist geen embeddingmodel en geen database — de contextboom is een lokale directory van platte markdown-bestanden. Cloud-sync is optioneel en wordt alleen gebruikt voor teamcollaboratie; alles werkt standaard volledig offline. Voor een volledig zelfstandige lokale setup, verbind Ollama als provider (brv providers connect openai-compatible --base-url http://localhost:11434/v1) en geen data verlaat je machine.

Tools: 3 tools voor geheugenoperaties.

Setup:

hermes memory setup  # selecteer "byterover"

Supermemory

Best voor: enterprise workflows met contextafscherming en sessiegrafiek-ingang.

Supermemory biedt contextafscherming (isolatie van geheugen per context) en sessiegrafiek-ingang (importeren van volledige conversatiegeschiedenissen). Het extrahert automatisch herinneringen, bouwt gebruikersprofielen op en voert hybride ophalen uit door semantische en trefwoordzoekopdrachten te combineren. De beheerde cloud API is het primaire deploymentdoel.

Externe afhankelijkheden: Supermemory’s cloudservice regelt alle LLM-inferentie en embedding server-side — je levert alleen een Supermemory API-key. Self-hosting is uitsluitend beschikbaar als enterprise-plan add-on en wordt deployed naar Cloudflare Workers; het vereist dat je PostgreSQL met de pgvector-extensie (voor vectoropslag) en een OpenAI API-key (verplicht, met Anthropic en Gemini als optionele toevoegingen) levert. Er is geen Docker-gebaseerde of lokale self-hosting-pad — de architectuur is nauw verbonden met Cloudflare Workers edge compute. Voor gebruikers die volledige datasoevereiniteit nodig hebben zonder een enterprise-contract, is deze provider niet de juiste keuze.

Tools: 4 tools voor geheugenoperaties.

Setup:

hermes memory setup  # selecteer "supermemory"

Hoe te kiezen

  • Multi-agent ondersteuning nodig? Honcho
  • Zelf-hosted en gratis willen? OpenViking of Holographic
  • Zero-config willen? Mem0
  • Kennisgrafieken willen? Hindsight
  • Deltacompressie willen? RetainDB
  • Bandbreedte-efficiëntie willen? ByteRover
  • Enterprise-functies willen? Supermemory
  • Privacy (lokaal only) willen? Holographic
  • Volledig lokaal met zero externe services willen? Holographic (geen afhankelijkheden überhaupt) of Hindsight/Mem0/ByteRover met Ollama
  • Mens-leesbaar, auditbaar geheugen willen zonder embeddingpipeline? ByteRover

Voor volledige providerconfiguraties per profiel en real-world workflowpatronen, zie Hermes Agent production setup.


Gerelateerde handleidingen

Abonneren

Ontvang nieuwe berichten over systemen, infrastructuur en AI-engineering.