AI-systemen: zelfgehoste assistenten, RAG en lokale infrastructuur
De meeste lokale AI-opstellingen beginnen met een model en een runtime.
Je downloadt een gekwantiseerd model, start het via Ollama of een andere runtime en begint met het invoeren van prompts. Voor experimenteel gebruik is dit meer dan genoeg. Maar zodra je verder gaat dan nieuwsgierigheid — zodra je aandacht hebt voor geheugen, de kwaliteit van ophaling (retrieval), routeringsbeslissingen of kostenbewustzijn — begint de eenvoud zijn beperkingen te tonen.
Deze cluster verkent een andere aanpak: de AI-assistent behandelen niet als een enkele modelaanroep, maar als een gecoördineerd systeem.
Dat onderscheid lijkt op het eerste gezicht subtiel, maar het verandert hoe je volledig denkt over lokale AI.

Wat is een AI-systeem?
Een AI-systeem is meer dan een model. Het is een orkestratieniveau dat inferentie, ophaling, geheugen en uitvoering verbindt tot iets dat zich gedraagt als een coherente assistent.
Lokaal een model draaien is infrastructuurwerk. Een assistent ontwerpen rondom dat model is systeemwerk.
Als je onze bredere gidsen over de volgende onderwerpen hebt bekeken:
- LLM-hosting in 2026: Lokale, zelfgehoste en cloud-infrastructuur vergeleken
- Retrieval-Augmented Generation (RAG) handleiding: Architectuur, implementatie en productiegids
- LLM-prestaties in 2026: Benchmarks, bottlenecks en optimalisatie
- Observabiliteit voor AI-systemen
dan weet je al dat inferentie slechts één laag van de stack is.
De AI-systemencluster rust bovenop die lagen. Het vervangt ze niet — het combineert ze.
OpenClaw: Een zelfgehost AI-assistentsysteem
OpenClaw is een open-source, zelfgehoste AI-assistent die is ontworpen om te opereren over verschillende messagingplatforms terwijl hij draait op lokale infrastructuur.
Op praktisch niveau:
- Gebruikt lokale LLM-runtimes zoals Ollama of vLLM
- Integreert ophaling van geïndexeerde documenten
- Behoudt geheugen buiten een enkele sessie om
- Voert tools en automatiseringstaken uit
- Kan worden instrumenteerd en gemonitord
- Werkt binnen hardwarebeperkingen
Het is niet slechts een wrapper rondom een model. Het is een orkestratieniveau dat inferentie, ophaling, geheugen en uitvoering verbindt tot iets dat zich gedraagt als een coherente assistent.
Aan de slag en architectuur:
- OpenClaw quickstart gids — Docker-gebaseerde installatie met behulp van een lokaal Ollama-model of een cloudgebaseerde Claude-configuratie
- OpenClaw systeemoverzicht — architectuurverkenning van hoe OpenClaw verschilt van eenvoudigere lokale opstellingen
- NemoClaw gids voor veilige OpenClaw-operaties — beveiligingsgerichte OpenClaw-pad met OpenShell-sandboxing, beleidsniveaus, gerouteerde inferentie en dag-twee operaties
Context en analyse:
- OpenClaw rise and fall-tijdlijn — de economie achter het virale piekmoment, het abonnementsstopzetting in april 2026 en wat de ineenstorting onthult over AI-hypecycli
OpenClaw uitbreiden en configureren:
Plugins breiden de OpenClaw-runtime uit — door geheugenbackends, modelproviders, communicatiekanalen, webtools en observabiliteit toe te voegen. Skills breiden agentgedrag uit — door te definiëren hoe en wanneer de agent die capaciteiten gebruikt. Productieconfiguratie betekent beide combineren, vormgegeven rondom wie het systeem daadwerkelijk gebruikt.
- OpenClaw Plugins — Ecosysteemgids en praktische keuzes — inheemse plugintypen, CLI-lifecycle, veiligheidsrails en concrete keuzes voor geheugen, kanalen, tools en observabiliteit
- OpenClaw Skills Ecosysteem en praktische productiekeuzes — ClawHub-ontdekking, installatie- en verwijderingsstromen, per rol stacks, en de skills die in 2026 de moeite waard zijn om te behouden
- OpenClaw Productie Setup Patterns met Plugins en Skills — complete plugin- en skill-configuraties per usertype: ontwikkelaar, automatisering, onderzoek, support en groei — elk met gecombineerde installatiescripts
Hermes: Een persistente agent met skills en tool-sandboxing
Hermes Agent is een zelfgehoste, modelagnostische assistent die zich richt op persistente operatie: het kan draaien als een langlopend proces, tools uitvoeren via configureerbare backends en workflows verbeteren door middel van geheugen en herbruikbare skills.
Op praktisch niveau is Hermes nuttig wanneer je wilt:
- Een terminal-first assistent die ook kan bruggen naar messagingapps
- Providerflexibiliteit via OpenAI-compatibele eindpunten en modelwisseling
- Tool-uitvoeringsgrenzen via lokale en gesandboxde backends
- Dag-twee operaties met diagnostiek, logs en config-hygiëne
Hermes-profielen zijn volledig geïsoleerde omgevingen — elk met zijn eigen config, secrets, geheugens, sessies, skills en staat — waardoor profielen de echte eenheid van productiebeheer zijn, niet de individuele skill.
- Hermes AI-assistent - Installatie, Setup, Workflow en Probleemoplossing — installatie, provider setup, workflowpatronen en probleemoplossing
- Hermes Agent geheugensysteem: Hoe persistent AI-geheugen echt werkt — diepgaande technische gids voor het twee-bestand core-geheugen, frozen snapshot-patroon, alle 8 externe providers en de filosofie van gebonden geheugen
- Hermes AI-assistent Skills voor echte productiesetups — profiel-gerichte skill-architectuur voor engineers, onderzoekers, operators en executive workflows
Persistent kennis en geheugen
Sommige problemen worden niet opgelost door alleen maar een grotere contextwindow — ze hebben persistent kennis (grafieken, ingestiepipelines) en agent-geheugenplugins (Honcho, Mem0, Hindsight en vergelijkbare backends) nodig die zijn aangesloten op assistants zoals Hermes of OpenClaw.
- AI-systemen Geheugen hub — reikwijdte van de geheugen-subcluster plus links naar Cognee-gidsen en stack-context
- Agent-geheugenproviders vergeleken — volledige vergelijking van Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover en Supermemory voor Hermes-stijl integraties
Wat maakt AI-systemen anders
Enkele kenmerken maken AI-systemen de moeite waard om nader te bestuderen.
Modelrouting als een ontwerpkeuze
De meeste lokale opstellingen defaulten naar één model. AI-systemen ondersteunen het intentionele selecteren van modellen.
Dat introduceert vragen:
- Moeten kleine verzoeken kleinere modellen gebruiken?
- Wanneer rechtvaardigt redeneren een grotere contextwindow?
- Wat is het kostenverschil per 1.000 tokens?
Deze vragen sluiten direct aan bij de prestatieafwegingen die worden besproken in de LLM-prestatiegids en de infrastructuurbeslissingen die worden schetst in de LLM-hosting gids.
AI-systemen brengen die beslissingen naar de oppervlakte in plaats van ze te verbergen.
Ophaling wordt behandeld als een evoluerend component
AI-systemen integreren documentophaling, maar niet als een simplistische “embed en zoek”-stap.
Ze erkennen:
- Chunk-grootte beïnvloedt recall en kosten
- Hybride zoekopdracht (BM25 + vector) kan presteren beter dan puur dense ophaling
- Reranking verbetert relevantie ten koste van latentie
- Indexeringsstrategie beïnvloedt geheugengebruik
Deze thema’s sluiten aan bij de diepere architectuur-overwegingen die worden besproken in de RAG-handleiding.
Het verschil is dat AI-systemen ophaling integreren in een levende assistent in plaats van het te presenteren als een geïsoleerde demo.
Geheugen als infrastructuur
Stateless LLM’s vergeten alles tussen sessies door.
AI-systemen introduceren persistente geheugenniveaus. Dat roept onmiddellijk ontwerp-vragen op:
- Wat moet op lange termijn worden opgeslagen?
- Wanneer moet context worden samengevat?
- Hoe voorkom je token-explosie?
- Hoe indexeer je geheugen efficiënt?
Die vragen snijden direct door bij data-laag overwegingen uit de data-infrastructuur gids. Voor Hermes Agent specifiek — gebonden twee-bestand geheugen, prefix caching, externe plugins — begin met Hermes Agent Geheugensysteem en de cross-framework vergelijking Agent-geheugenproviders vergeleken. De AI-systemen Geheugen hub lijst gerelateerde Cognee- en kennislaag-gidsen.
Geheugen stopt met het zijn van een feature en wordt een opslagprobleem.
Observabiliteit is geen optie
De meeste lokale AI-experimenten stoppen bij “het reageert”.
AI-systemen maken het mogelijk om te observeren:
- Token-gebruik
- Latentie
- Hardwarebenutting
- Throughput-patronen
Dit sluit natuurlijk aan bij de monitoringsprincipes die worden beschreven in de observabiliteitsgids.
Als AI draait op hardware, dan moet het meetbaar zijn als elke andere workload.
Hoe het voelt om te gebruiken
Van buitenaf kan een AI-systeem er nog steeds uitzien als een chat-interface.
Onder de oppervlakte gebeurt er meer.
Als je het vraagt om een technisch rapport dat lokaal is opgeslagen samen te vatten:
- Het haalt relevante documentsegmenten op.
- Het selecteert een geschikt model.
- Het genereert een antwoord.
- Het registreert token-gebruik en latentie.
- Het update persistent geheugen indien nodig.
De zichtbare interactie blijft eenvoudig. Het systeemgedrag is gelaagd.
Dat gelaagde gedrag is wat een systeem onderscheidt van een demo.
Waar AI-systemen passen in de stack
De AI-systemencluster bevindt zich op het snijpunt van verschillende infrastructuurlagen:
- LLM Hosting: De rutilaag waar modellen worden uitgevoerd (Ollama, vLLM, llama.cpp)
- RAG: De ophalingslaag die context en grounding biedt
- Prestaties: De meetlaag die latentie en throughput bijhoudt
- Observabiliteit: De monitoringslaag die metrics en kostentracking biedt
- Data-infrastructuur: De opslaglaag die geheugen en indexering afhandelt
Het begrijpen van dat onderscheid is nuttig. Het zelf draaien maakt het verschil duidelijker.
Voor een minimale lokale installatie met OpenClaw, zie de OpenClaw quickstart gids, die doorloopt een Docker-gebaseerde setup met behulp van een lokaal Ollama-model of een cloudgebaseerde Claude-configuratie.
Als je opstelling afhankelijk is van Claude, dit beleidswijziging voor agent tools verduidelijkt waarom API-facturatie nu vereist is voor third-party OpenClaw-workflows.
Gerelateerde bronnen
AI-assistent gidsen:
- OpenClaw systeemoverzicht
- OpenClaw rise and fall-tijdlijn
- OpenClaw quickstart gids
- OpenClaw Plugins — Ecosysteemgids en praktische keuzes
- OpenClaw Skills Ecosysteem en praktische productiekeuzes
- OpenClaw Productie Setup Patterns met Plugins en Skills
- Hermes AI-assistent - Installatie, Setup, Workflow en Probleemoplossing
- Hermes Agent geheugensysteem: Hoe persistent AI-geheugen echt werkt
- AI-systemen Geheugen hub
- Agent-geheugenproviders vergeleken
- Hermes AI-assistent Skills voor echte productiesetups
Infrastructuurlagen:
- LLM-hosting in 2026: Lokale, zelfgehoste en cloud-infrastructuur vergeleken
- Retrieval-Augmented Generation (RAG) handleiding: Architectuur, implementatie en productiegids
- LLM-prestaties in 2026: Benchmarks, bottlenecks en optimalisatie
- Observabiliteit voor AI-systemen
- Data-infrastructuur voor AI-systemen