Vergelijking van agent geheugenproviders — Honcho, Mem0, Hindsight en vijf meer
Acht uitwisselbare backends voor persistente agentengeheugen.
Moderne assistenten vergeten alles als u het tabblad sluit, tenzij er iets persisteert buiten de contextvenster. Agent memory providers zijn diensten of bibliotheken die feiten en samenvattingen over sessies heen vasthouden — vaak geïntegreerd als plugins zodat het framework slank blijft terwijl het geheugen schaalt.
Deze gids vergelijkt acht backends die worden geleverd als externe geheugenplugins voor Hermes Agent — Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover en Supermemory — en legt uit hoe ze passen in bredere AI-systemen. Dezelfde leveranciers verschijnen ook in OpenClaw en andere agent-tooling via community- of officiële integraties. De AI Systems Memory hub vermeldt dit artikel samen met Cognee en gerelateerde gidsen.
Voor Hermes-specifiek gebonden kerngeheugen (MEMORY.md en USER.md), bevriezingsgedrag en triggers, zie Hermes Agent Memory System.
Hermes Agent lijst acht externe geheugenproviderplugins op voor persistent, cross-session kennis. Slechts één externe provider kan op hetzelfde moment actief zijn. Het ingebouwde MEMORY.md en USER.md blijven geladen naast deze — additief, niet als vervanging.
Externe afhankelijkheden. Elke externe provider, behalve Holographic, vereist ten minste één externe servicecall — een LLM voor geheugenextractie, een embeddingmodel voor semantische zoekopdrachten, of een database zoals PostgreSQL voor opslag. Deze afhankelijkheden hebben directe implicaties voor privacy, kosten en of uw geheugenstack volledig self-hosted kan draaien. Hindsight en ByteRover bundelen of elimineren de meeste afhankelijkheden; Honcho, Mem0 en Supermemory vereisen de meeste bewegende delen. Waar een provider Ollama of een ander OpenAI-compatibel eindpunt ondersteunt, kunt u LLM- en embeddingcalls doorsturen naar een lokaal model en data volledig buiten servers van derden houden.
Activering met Hermes Agent
hermes memory setup # Interactieve keuzemogelijkheid + configuratie
hermes memory status # Controleren wat actief is
hermes memory off # Externe provider uitschakelen
Of handmatig in ~/.hermes/config.yaml:
memory:
provider: openviking # of honcho, mem0, hindsight, holographic, retaindb, byterover, supermemory
Provider Vergelijking
| Provider | Opslag | Kosten | Externe Afhankelijkheden | Zelf te hosten | Unieke Functie |
|---|---|---|---|---|---|
| Honcho | Cloud/Zelf-hosted | Betaald/Kostenlos | LLM + Embeddingmodel + PostgreSQL/pgvector + Redis | Ja — Docker / K3s / Fly.io | Dialectische gebruikersmodellering + sessie-gebaseerde context |
| OpenViking | Zelf-hosted | Kostenloos | LLM (VLM) + Embeddingmodel | Ja — lokale server; Ollama-native init-wizard | Bestandssysteemhiërarchie + gelaagd laden |
| Mem0 | Cloud/Zelf-hosted | Betaald/Kostenlos OSS | LLM + Embeddingmodel + Vectorstore (Qdrant of pgvector) | Ja — Docker Compose OSS; volledig lokaal mogelijk | Server-side LLM-extractie |
| Hindsight | Cloud/Lokaal | Kostenloos/Betaald | LLM + gebundelde PostgreSQL + ingebouwde embedder + ingebouwde reranker | Ja — Docker of ingebouwde Python; volledig lokaal met Ollama | Kennisgraph + reflect-synthese |
| Holographic | Lokaal | Kostenloos | Geen | Native — geen infrastructuur nodig | HRR-algebra + vertrouwensscore |
| RetainDB | Cloud | $20/maand | Cloud-beheerd (LLM + ophaling op RetainDB-servers) | Nee | Delta-compressie |
| ByteRover | Lokaal/Cloud | Kostenloos/Betaald | Alleen LLM — geen embeddingmodel, geen DB | Ja — standaard lokaal; Ollama ondersteund | Bestand-gebaseerde contextboom; geen embedding-pipeline |
| Supermemory | Cloud | Betaald | LLM + PostgreSQL/pgvector (enterprise Cloudflare-implementatie) | Alleen enterprise-plan | Contextafzetting + sessiegraph-ingest |
Gedetailleerde Uitsplitsing
Honcho
Best voor: multi-agent systemen, cross-session context, gebruikers-agent-uitlijning.
Honcho draait naast bestaand geheugen — USER.md blijft zoals het is, en Honcho voegt een extra laag context toe. Het modelleert conversaties als peers die berichten uitwisselen — één gebruikerspeer plus één AI-peer per Hermes-profiel, allemaal met een gedeelde werkruimte.
Externe afhankelijkheden: Honcho vereist een LLM voor sessiesamenvatting, afleiding van gebruikersrepresentatie en dialectisch redeneren; een embeddingmodel voor semantische zoekopdrachten over observaties; PostgreSQL met de pgvector-extensie voor vectoropslag; en Redis voor caching. De beheerde cloud op api.honcho.dev regelt al dit voor u. Voor zelf-hosted implementaties (Docker, K3s of Fly.io) levert u uw eigen referenties. De LLM-slot accepteert elk OpenAI-compatibel eindpunt, inclusief Ollama en vLLM, zodat inferentie lokaal kan blijven. De embedding-slot default naar openai/text-embedding-3-small maar ondersteunt configureerbare providers via LLM_EMBEDDING_API_KEY en LLM_EMBEDDING_BASE_URL — elk OpenAI-compatibel embeddingserver werkt, inclusief lokale opties zoals vLLM met een BGE-model.
Tools: honcho_profile (peerkaart lezen/bijwerken), honcho_search (semantische zoekopdracht), honcho_context (sessiecontext — samenvatting, representatie, kaart, berichten), honcho_reasoning (door LLM gesynthetiseerd), honcho_conclude (conclusies maken/verwijderen).
Belangrijkste configuratieknoppen:
contextCadence(standaard 1): Minimale aantal beurten tussen base-laagverversingdialecticCadence(standaard 2): Minimale aantal beurten tussenpeer.chat()LLM-calls (1-5 aanbevolen)dialecticDepth(standaard 1):.chat()-passes per aanroep (begrensd 1-3)recallMode(standaard ‘hybrid’):hybrid(auto+tools),context(alleen injecteren),tools(alleen tools)writeFrequency(standaard ‘async’): Flushtiming:async,turn,session, of integer NobservationMode(standaard ‘directional’):directional(alles aan) ofunified(gedeelde pool)
Architectuur: Tweelaagse contextinjectie — basalaag (sessiesamenvatting + representatie + peerkaart) + dialectisch supplement (LLM-redeneren). Selecteert automatisch cold-start vs. warm prompts.
Multi-peer mapping: Werkruimte is een gedeelde omgeving over profielen heen. Gebruikerspeer (peerName) is een globale menselijke identiteit. AI-peer (aiPeer) is er één per Hermes-profiel (hermes als standaard, hermes.<profiel> voor anderen).
Installatie:
hermes memory setup # selecteer "honcho"
# of legacy: hermes honcho setup
Config: $HERMES_HOME/honcho.json (profiel-lokaal) of ~/.honcho/config.json (globaal).
Profielbeheer:
hermes profile create coder --clone # Maakt hermes.coder met gedeelde werkruimte
hermes honcho sync # Vult AI-peers in voor bestaande profielen
OpenViking
Best voor: zelf-hosted kennisbeheer met gestructureerd browsen.
OpenViking biedt een bestandssysteemhiërarchie met gelaagd laden. Het is gratis, zelf-hosted, en geeft u volledige controle over uw geheugenopslag.
Externe afhankelijkheden: OpenViking vereist een VLM (vision-taalmodel) voor semantische verwerking en geheugenextractie, en een embeddingmodel voor vectorzoekopdrachten — beide zijn verplicht. Ondersteunde VLM-providers zijn OpenAI, Anthropic, DeepSeek, Gemini, Moonshot en vLLM (voor lokale implementatie). Voor embeddings zijn ondersteunde providers OpenAI, Volcengine (Doubao), Jina, Voyage en — via Ollama — elk lokaal geserveerd embeddingmodel. De openviking-server init-interactieve wizard kan beschikbare RAM detecteren en geschikte Ollama-modellen aanbevelen (bijv. Qwen3-Embedding 8B voor embeddings, Gemma 4 27B voor VLM) en alles automatisch configureren voor een volledig lokale, zero-API-key-opstelling. Er is geen externe database nodig; OpenViking slaat geheugen op in het bestandssysteem.
Tools: viking_search, viking_read (gelaagd), viking_browse, viking_remember, viking_add_resource.
Installatie:
pip install openviking
openviking-server init # interactieve wizard (beveelt Ollama-modellen aan voor lokale opstelling)
openviking-server
hermes memory setup # selecteer "openviking"
echo "OPENVIKING_ENDPOINT=http://localhost:1933" >> ~/.hermes/.env
Mem0
Best voor: hands-free geheugenbeheer met automatische extractie.
Mem0 behandelt geheugenextractie server-side via een LLM-call bij elke add-operatie — het leest het gesprek, extrahert discrete feiten, dedupliceert en slaat ze op. De beheerde cloud-API regelt alle infrastructuur. De open-source-bibliotheek en zelf-hosted server geven u volledige controle.
Externe afhankelijkheden: Mem0 vereist een LLM voor geheugenextractie (standaard: OpenAI gpt-4.1-nano; 20 providers ondersteund, inclusief Ollama, vLLM en LM Studio voor lokale modellen) en een embeddingmodel voor ophaling (standaard: OpenAI text-embedding-3-small; 10 providers ondersteund, inclusief Ollama en HuggingFace voor lokale modellen). Opslag gebruikt Qdrant op /tmp/qdrant in bibliotheekmodus, of PostgreSQL met pgvector in zelf-hosted servermodus — beide kunnen lokaal draaien. Een volledig lokale, zero-cloud Mem0-stack is haalbaar: Ollama voor LLM, Ollama voor embeddings, en een lokale Qdrant-instantie, alles geconfigureerd via Memory.from_config.
Tools: mem0_profile, mem0_search, mem0_conclude.
Installatie:
pip install mem0ai
hermes memory setup # selecteer "mem0"
echo "MEM0_API_KEY=your-key" >> ~/.hermes/.env
Config: $HERMES_HOME/mem0.json (user_id: hermes-user, agent_id: hermes).
Hindsight
Best voor: recall op basis van kennisgrafieken met entiteitsrelaties.
Hindsight bouwt een kennisgrafiek van uw geheugen, met extractie van entiteiten en relaties. Zijn unieke reflect-tool voert cross-geheugensynthese uit — het combineren van meerdere herinneringen tot nieuwe inzichten. Recall voert vier ophalingstrategieën parallel uit (semantisch, trefwoord/BM25, grafiektraversie, temporeel), en mergeert en herordent de resultaten vervolgens met behulp van reciprocal rank fusion.
Externe afhankelijkheden: Hindsight vereist een LLM voor feiten- en entiteitsextractie bij retain-calls, en voor synthese bij reflect-calls (standaard: OpenAI; ondersteunde providers zijn Anthropic, Gemini, Groq, Ollama, LM Studio en elk OpenAI-compatibel eindpunt). Het embeddingmodel en het cross-encoder-rerankingmodel zijn gebundeld in Hindsight zelf — ze draaien lokaal binnen het hindsight-all-pakket en vereisen geen externe API. PostgreSQL is ook gebundeld met de ingebouwde Python-installatie via een beheerde pg0-datamap; u kunt Hindsight alternatief wijzen naar een externe PostgreSQL-instantie. Voor een volledig lokale, zero-cloud-opstelling, stel HINDSIGHT_API_LLM_PROVIDER=ollama in en wijs het naar een lokaal Ollama-model — retain en recall werken volledig; reflect vereist een model met tool-calling-capaciteit (bijv. qwen3:8b).
Tools: hindsight_retain, hindsight_recall, hindsight_reflect (unieke cross-geheugensynthese).
Installatie:
hermes memory setup # selecteer "hindsight"
echo "HINDSIGHT_API_KEY=your-key" >> ~/.hermes/.env
Installeert automatisch hindsight-client (cloud) of hindsight-all (lokaal). Vereist >= 0.4.22.
Config: $HERMES_HOME/hindsight/config.json
mode:cloudoflocalrecall_budget:low/mid/highmemory_mode:hybrid/context/toolsauto_retain/auto_recall:true(standaard)
Lokale UI: hindsight-embed -p hermes ui start
Holographic
Best voor: privacy-gerichte opstellingen met alleen lokale opslag.
Holographic gebruikt HRR (Holographic Reduced Representation) algebra voor geheugenencodering, met vertrouwensscores voor geheugenbetrouwbaarheid. Geen cloud-afhankelijkheid — alles draait lokaal op uw eigen hardware.
Externe afhankelijkheden: Geen. Holographic vereist geen LLM, geen embeddingmodel, geen database en geen netwerkverbinding. Geheugenencodering wordt volledig uitgevoerd via HRR-algebra in-process. Dit maakt het uniek onder alle acht providers — het is de enige die werkt met zero externe calls. De afweging is dat de ophalingskwaliteit lager is dan embedding-gebaseerde semantische zoekopdrachten, en er is geen cross-geheugensynthese zoals Hindsight’s reflect. Voor gebruikers waar privacy en zero-afhankelijkheid-operatie ononderhandelbaar zijn, is Holographic de enige optie die dit onvoorwaardelijk levert.
Tools: 2 tools voor geheugenoperaties via HRR-algebra.
Installatie:
hermes memory setup # selecteer "holographic"
RetainDB
Best voor: hoge frequentie updates met delta-compressie.
RetainDB gebruikt delta-compressie om geheugenupdates efficiënt op te slaan en hybride ophaling (vector + BM25 + reranking) om relevante context naar boven te halen. Het is cloud-gebaseerd met een kosten van $20/maand, waarbij alle geheugenverwerking server-side wordt afgehandeld.
Externe afhankelijkheden: RetainDB’s LLM-calls, embeddingpipeline en reranking draaien allemaal op RetainDB’s eigen cloudinfrastructuur — u levert alleen een RETAINDB_KEY. Geheugenextractie gebruikt Claude Sonnet server-side. Er is geen optie voor self-hosting en geen lokale modus. Alle conversatiedata wordt naar RetainDB-servers gestuurd voor verwerking en opslag. Als datasoevereiniteit of offline-operatie belangrijk is voor uw gebruikscase, is deze provider niet geschikt.
Tools: retaindb_profile (gebruikersprofiel), retaindb_search (semantische zoekopdracht), retaindb_context (taakgerelateerde context), retaindb_remember (opslaan met type + belangrijkheid), retaindb_forget (herinneringen verwijderen).
Installatie:
hermes memory setup # selecteer "retaindb"
ByteRover
Best voor: lokaal-first geheugen met mens-leesbare, auditeerbare opslag.
ByteRover slaat geheugen op als een gestructureerde markdown-contextboom — een hiërarchie van domein-, topic- en subtopic-bestanden — in plaats van embeddingvectors of een database. Een LLM leest broninhoud, redeneert hierover en plaatst geëxtraheerde kennis op de juiste locatie in de hiërarchie. Ophaling is MiniSearch full-text search met gelaagde fallback naar LLM-gekrachtigde zoekopdrachten, zonder dat een vectordatabase nodig is.
Externe afhankelijkheden: ByteRover vereist een LLM voor geheugencuratie en zoekopdrachten (18 providers ondersteund, inclusief Anthropic, OpenAI, Google, Ollama en elk OpenAI-compatibel eindpunt via de openai-compatible-providerslot). Het vereist geen embeddingmodel en geen database — de contextboom is een lokale map van platte markdown-bestanden. Cloud-sync is optioneel en wordt alleen gebruikt voor teamcollaboratie; alles werkt standaard volledig offline. Voor een volledig zelfstandige lokale opstelling, verbindt u Ollama als provider (brv providers connect openai-compatible --base-url http://localhost:11434/v1) en verlaat geen data uw machine.
Tools: 3 tools voor geheugenoperaties.
Installatie:
hermes memory setup # selecteer "byterover"
Supermemory
Best voor: enterprise-workflows met contextafzetting en sessiegraph-ingest.
Supermemory biedt contextafzetting (isolatie van geheugen per context) en sessiegraph-ingest (importeren van volledige conversatiegeschiedenissen). Het extrahert automatisch herinneringen, bouwt gebruikersprofielen op en voert hybride ophaling uit door semantische en trefwoordzoekopdrachten te combineren. De beheerde cloud-API is het primaire implementatiedoel.
Externe afhankelijkheden: Supermemory’s cloudservice handelt alle LLM-inferentie en embedding af server-side — u levert alleen een Supermemory API-sleutel. Self-hosting is beschikbaar uitsluitend als enterprise-plan-add-on en wordt geïmplementeerd op Cloudflare Workers; het vereist dat u PostgreSQL met de pgvector-extensie (voor vectoropslag) en een OpenAI API-sleutel (verplicht, met Anthropic en Gemini als optionele toevoegingen) levert. Er is geen Docker-gebaseerde of lokale self-hosting-optie — de architectuur is strak gekoppeld aan Cloudflare Workers edge-computing. Voor gebruikers die volledige datasoevereiniteit nodig hebben zonder een enterprise-contract, is deze provider niet de juiste keuze.
Tools: 4 tools voor geheugenoperaties.
Installatie:
hermes memory setup # selecteer "supermemory"
Hoe te kiezen
- Multi-agent ondersteuning nodig? Honcho
- Zelf-hosted en gratis willen? OpenViking of Holographic
- Zero-config willen? Mem0
- Kennisgrafieken willen? Hindsight
- Delta-compressie willen? RetainDB
- Bandbreedte-efficiëntie willen? ByteRover
- Enterprise-functies willen? Supermemory
- Privacy (alleen lokaal) willen? Holographic
- Volledig lokaal met zero externe services willen? Holographic (geen afhankelijkheden überhaupt) of Hindsight/Mem0/ByteRover met Ollama
- Mens-leesbaar, auditeerbaar geheugen zonder embeddingpipeline willen? ByteRover
Voor volledige profiel-per-profiel providerconfiguraties en real-world workflowpatronen, zie Hermes Agent production setup.
Gerelateerde gidsen
- AI Systems Memory hub — scope van deze subcluster en links naar Cognee-gidsen
- Hermes Agent Memory System — kern twee-bestanden geheugen voordat plugins
- Hermes Agent production setup — profiel-wiring voor providers in de praktijk