AI-systemen: zelfgehoste assistenten, RAG en lokale infrastructuur

Inhoud

De meeste lokale AI-opstellingen beginnen met een model en een runtime.

Je downloadt een gekwantiseerd model, start het via Ollama of een andere runtime en begint met het invoeren van prompts. Voor experimenteel gebruik is dit meer dan genoeg. Maar zodra je verder gaat dan nieuwsgierigheid — zodra je aandacht hebt voor geheugen, de kwaliteit van ophaling (retrieval), routeringsbeslissingen of kostenbewustzijn — begint de eenvoud zijn beperkingen te tonen.

Deze cluster verkent een andere aanpak: de AI-assistent behandelen niet als een enkele modelaanroep, maar als een gecoördineerd systeem.

Dat onderscheid lijkt op het eerste gezicht subtiel, maar het verandert hoe je volledig denkt over lokale AI.

Orkestratie van AI-systemen met lokale LLM’s, RAG en geheugenniveaus

Wat is een AI-systeem?

Een AI-systeem is meer dan een model. Het is een orkestratieniveau dat inferentie, ophaling, geheugen en uitvoering verbindt tot iets dat zich gedraagt als een coherente assistent.

Lokaal een model draaien is infrastructuurwerk. Een assistent ontwerpen rondom dat model is systeemwerk.

Als je onze bredere gidsen over de volgende onderwerpen hebt bekeken:

dan weet je al dat inferentie slechts één laag van de stack is.

De AI-systemencluster rust bovenop die lagen. Het vervangt ze niet — het combineert ze.

OpenClaw: Een zelfgehost AI-assistentsysteem

OpenClaw is een open-source, zelfgehoste AI-assistent die is ontworpen om te opereren over verschillende messagingplatforms terwijl hij draait op lokale infrastructuur.

Op praktisch niveau:

Gebruikt lokale LLM-runtimes zoals Ollama of vLLM
Integreert ophaling van geïndexeerde documenten
Behoudt geheugen buiten een enkele sessie om
Voert tools en automatiseringstaken uit
Kan worden instrumenteerd en gemonitord
Werkt binnen hardwarebeperkingen

Het is niet slechts een wrapper rondom een model. Het is een orkestratieniveau dat inferentie, ophaling, geheugen en uitvoering verbindt tot iets dat zich gedraagt als een coherente assistent.

Aan de slag en architectuur:

OpenClaw quickstart gids — Docker-gebaseerde installatie met behulp van een lokaal Ollama-model of een cloudgebaseerde Claude-configuratie
OpenClaw systeemoverzicht — architectuurverkenning van hoe OpenClaw verschilt van eenvoudigere lokale opstellingen
NemoClaw gids voor veilige OpenClaw-operaties — beveiligingsgerichte OpenClaw-pad met OpenShell-sandboxing, beleidsniveaus, gerouteerde inferentie en dag-twee operaties

Context en analyse:

OpenClaw rise and fall-tijdlijn — de economie achter het virale piekmoment, het abonnementsstopzetting in april 2026 en wat de ineenstorting onthult over AI-hypecycli

OpenClaw uitbreiden en configureren:

Plugins breiden de OpenClaw-runtime uit — door geheugenbackends, modelproviders, communicatiekanalen, webtools en observabiliteit toe te voegen. Skills breiden agentgedrag uit — door te definiëren hoe en wanneer de agent die capaciteiten gebruikt. Productieconfiguratie betekent beide combineren, vormgegeven rondom wie het systeem daadwerkelijk gebruikt.

OpenClaw Plugins — Ecosysteemgids en praktische keuzes — inheemse plugintypen, CLI-lifecycle, veiligheidsrails en concrete keuzes voor geheugen, kanalen, tools en observabiliteit
OpenClaw Skills Ecosysteem en praktische productiekeuzes — ClawHub-ontdekking, installatie- en verwijderingsstromen, per rol stacks, en de skills die in 2026 de moeite waard zijn om te behouden
OpenClaw Productie Setup Patterns met Plugins en Skills — complete plugin- en skill-configuraties per usertype: ontwikkelaar, automatisering, onderzoek, support en groei — elk met gecombineerde installatiescripts

Hermes: Een persistente agent met skills en tool-sandboxing

Hermes Agent is een zelfgehoste, modelagnostische assistent die zich richt op persistente operatie: het kan draaien als een langlopend proces, tools uitvoeren via configureerbare backends en workflows verbeteren door middel van geheugen en herbruikbare skills.

Op praktisch niveau is Hermes nuttig wanneer je wilt:

Een terminal-first assistent die ook kan bruggen naar messagingapps
Providerflexibiliteit via OpenAI-compatibele eindpunten en modelwisseling
Tool-uitvoeringsgrenzen via lokale en gesandboxde backends
Dag-twee operaties met diagnostiek, logs en config-hygiëne

Hermes-profielen zijn volledig geïsoleerde omgevingen — elk met zijn eigen config, secrets, geheugens, sessies, skills en staat — waardoor profielen de echte eenheid van productiebeheer zijn, niet de individuele skill.

Hermes AI-assistent - Installatie, Setup, Workflow en Probleemoplossing — installatie, provider setup, workflowpatronen en probleemoplossing
Hermes Agent geheugensysteem: Hoe persistent AI-geheugen echt werkt — diepgaande technische gids voor het twee-bestand core-geheugen, frozen snapshot-patroon, alle 8 externe providers en de filosofie van gebonden geheugen
Hermes AI-assistent Skills voor echte productiesetups — profiel-gerichte skill-architectuur voor engineers, onderzoekers, operators en executive workflows

Persistent kennis en geheugen

Sommige problemen worden niet opgelost door alleen maar een grotere contextwindow — ze hebben persistent kennis (grafieken, ingestiepipelines) en agent-geheugenplugins (Honcho, Mem0, Hindsight en vergelijkbare backends) nodig die zijn aangesloten op assistants zoals Hermes of OpenClaw.

AI-systemen Geheugen hub — reikwijdte van de geheugen-subcluster plus links naar Cognee-gidsen en stack-context
Agent-geheugenproviders vergeleken — volledige vergelijking van Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover en Supermemory voor Hermes-stijl integraties

Wat maakt AI-systemen anders

Enkele kenmerken maken AI-systemen de moeite waard om nader te bestuderen.

Modelrouting als een ontwerpkeuze

De meeste lokale opstellingen defaulten naar één model. AI-systemen ondersteunen het intentionele selecteren van modellen.

Dat introduceert vragen:

Moeten kleine verzoeken kleinere modellen gebruiken?
Wanneer rechtvaardigt redeneren een grotere contextwindow?
Wat is het kostenverschil per 1.000 tokens?

Deze vragen sluiten direct aan bij de prestatieafwegingen die worden besproken in de LLM-prestatiegids en de infrastructuurbeslissingen die worden schetst in de LLM-hosting gids.

AI-systemen brengen die beslissingen naar de oppervlakte in plaats van ze te verbergen.

Ophaling wordt behandeld als een evoluerend component

AI-systemen integreren documentophaling, maar niet als een simplistische “embed en zoek”-stap.

Ze erkennen:

Chunk-grootte beïnvloedt recall en kosten
Hybride zoekopdracht (BM25 + vector) kan presteren beter dan puur dense ophaling
Reranking verbetert relevantie ten koste van latentie
Indexeringsstrategie beïnvloedt geheugengebruik

Deze thema’s sluiten aan bij de diepere architectuur-overwegingen die worden besproken in de RAG-handleiding.

Het verschil is dat AI-systemen ophaling integreren in een levende assistent in plaats van het te presenteren als een geïsoleerde demo.

Geheugen als infrastructuur

Stateless LLM’s vergeten alles tussen sessies door.

AI-systemen introduceren persistente geheugenniveaus. Dat roept onmiddellijk ontwerp-vragen op:

Wat moet op lange termijn worden opgeslagen?
Wanneer moet context worden samengevat?
Hoe voorkom je token-explosie?
Hoe indexeer je geheugen efficiënt?

Die vragen snijden direct door bij data-laag overwegingen uit de data-infrastructuur gids. Voor Hermes Agent specifiek — gebonden twee-bestand geheugen, prefix caching, externe plugins — begin met Hermes Agent Geheugensysteem en de cross-framework vergelijking Agent-geheugenproviders vergeleken. De AI-systemen Geheugen hub lijst gerelateerde Cognee- en kennislaag-gidsen.

Geheugen stopt met het zijn van een feature en wordt een opslagprobleem.

Observabiliteit is geen optie

De meeste lokale AI-experimenten stoppen bij “het reageert”.

AI-systemen maken het mogelijk om te observeren:

Token-gebruik
Latentie
Hardwarebenutting
Throughput-patronen

Dit sluit natuurlijk aan bij de monitoringsprincipes die worden beschreven in de observabiliteitsgids.

Als AI draait op hardware, dan moet het meetbaar zijn als elke andere workload.

Hoe het voelt om te gebruiken

Van buitenaf kan een AI-systeem er nog steeds uitzien als een chat-interface.

Onder de oppervlakte gebeurt er meer.

Als je het vraagt om een technisch rapport dat lokaal is opgeslagen samen te vatten:

Het haalt relevante documentsegmenten op.
Het selecteert een geschikt model.
Het genereert een antwoord.
Het registreert token-gebruik en latentie.
Het update persistent geheugen indien nodig.

De zichtbare interactie blijft eenvoudig. Het systeemgedrag is gelaagd.

Dat gelaagde gedrag is wat een systeem onderscheidt van een demo.

Waar AI-systemen passen in de stack

De AI-systemencluster bevindt zich op het snijpunt van verschillende infrastructuurlagen:

LLM Hosting: De rutilaag waar modellen worden uitgevoerd (Ollama, vLLM, llama.cpp)
RAG: De ophalingslaag die context en grounding biedt
Prestaties: De meetlaag die latentie en throughput bijhoudt
Observabiliteit: De monitoringslaag die metrics en kostentracking biedt
Data-infrastructuur: De opslaglaag die geheugen en indexering afhandelt

Het begrijpen van dat onderscheid is nuttig. Het zelf draaien maakt het verschil duidelijker.

Voor een minimale lokale installatie met OpenClaw, zie de OpenClaw quickstart gids, die doorloopt een Docker-gebaseerde setup met behulp van een lokaal Ollama-model of een cloudgebaseerde Claude-configuratie.

Als je opstelling afhankelijk is van Claude, dit beleidswijziging voor agent tools verduidelijkt waarom API-facturatie nu vereist is voor third-party OpenClaw-workflows.

Gerelateerde bronnen

AI-assistent gidsen:

Infrastructuurlagen: