AI-systemen: zelfgehoste assistenten, RAG en lokale infrastructuur
De meeste lokale AI-opstellingen beginnen met een model en een runtime.
U downloadt een gekwantiseerd model, start het op via Ollama of een andere runtime en begint met prompten. Voor experimenten is dit meer dan voldoende. Maar zodra u verder gaat dan nieuwsgierigheid — zodra u zich zorgen maakt over geheugen, de kwaliteit van ophalen, routeringsbeslissingen of kostenbewustzijn — begint de eenvoud zijn beperkingen te tonen.
Deze cluster verkent een andere aanpak: het behandelen van de AI-assistent niet als een enkele modelaanroep, maar als een gecoördineerd systeem.
Dat onderscheid lijkt op het eerste gezicht misschien subtiel, maar het verandert de manier waarop u over lokale AI denkt.

Wat is een AI-systeem?
Een AI-systeem is meer dan een model. Het is een orkestratielaag die inferentie, ophalen, geheugen en uitvoering verbindt tot iets dat zich gedraagt als een samenhangende assistent.
Lokaal een model draaien is infrastructuurwerk. Het ontwerpen van een assistent rondom dat model is systeemwerk.
Als u onze bredere gidsen heeft verkend over:
- LLM Hosting in 2026: Lokaal, zelf-gehoste en cloudinfrastructuur vergeleken
- Retrieval-Augmented Generation (RAG) Tutorial: Architectuur, implementatie en productiegids
- LLM Prestaties in 2026: Benchmarks, bottlenecks en optimalisatie
- Observability voor AI-systemen
dan weet u al dat inferentie slechts één laag van de stack is.
De AI-systemen-cluster zit bovenop die lagen. Het vervangt ze niet — het combineert ze.
OpenClaw: Een zelf-gehoste AI-assistentsysteem
OpenClaw is een open-source, zelf-gehoste AI-assistent die is ontworpen om te opereren over messaging-platforms terwijl het draait op lokale infrastructuur.
Op een praktisch niveau:
- Gebruikt lokale LLM-runtimes zoals Ollama of vLLM
- Integreert ophalen over geïndexeerde documenten
- Behoudt geheugen buiten een enkele sessie om
- Voert tools en automatiseringstaken uit
- Kan worden instrumenteerd en geobserveerd
- Werkt binnen hardwarebeperkingen
Het is niet alleen een wrapper om een model. Het is een orkestratielaag die inferentie, ophalen, geheugen en uitvoering verbindt tot iets dat zich gedraagt als een samenhangende assistent.
Aan de slag en architectuur:
- OpenClaw quickstart gids — Docker-gebaseerde installatie met behulp van een lokaal Ollama-model of een cloud-gebaseerde Claude-configuratie
- OpenClaw systeemoverzicht — architecturale verkenning van hoe OpenClaw verschilt van eenvoudigere lokale opstellingen
Uitbreiden en configureren van OpenClaw:
Plugins breiden de OpenClaw-runtime uit — door geheugens backends, modelproviders, communicatiekanalen, webtools en observability toe te voegen. Skills breiden het agent-gedrag uit — door te definiëren hoe en wanneer de agent die mogelijkheden gebruikt. Productieconfiguratie betekent beide combineren, gevormd rondom wie het systeem daadwerkelijk gebruikt.
- OpenClaw Plugins — Ecosystem gids en praktische keuzes — inheemse plugintypes, CLI levenscyclus, veiligheidsrails en concrete keuzes voor geheugen, kanalen, tools en observability
- OpenClaw Skills Ecosystem en praktische productiekeuzes — ClawHub ontdekking, installatie- en verwijderingsstromen, stacks per rol en de skills die het waard zijn om in 2026 te behouden
- OpenClaw productie-opzetpatronen met Plugins en Skills — volledige plugin- en skill-configuraties per usertype: ontwikkelaar, automatisering, onderzoek, ondersteuning en groei — elk met gecombineerde installatiescripts
Hermes: Een persistente agent met Skills en Tool Sandboxing
Hermes Agent is een zelf-gehoste, model-agnostische assistent die zich richt op persistentie: het kan draaien als een langlevend proces, tools uitvoeren via configureerbare backends en workflows in de tijd verbeteren via geheugen en herbruikbare skills.
Op een praktisch niveau is Hermes nuttig wanneer u wilt:
- Een terminal-first assistent die ook kan bruggen naar messaging-apps
- Providerflexibiliteit via OpenAI-compatibele endpoints en modelwisseling
- Tool-executiegrenzen via lokale en sandboxed backends
- Dag-twee operaties met diagnostiek, logs en config-hygiëne
Hermes-profielen zijn volledig geïsoleerde omgevingen — elk met zijn eigen config, geheimen, geheugens, sessies, skills en toestand — waardoor profielen de echte eenheid van productiebezit zijn, niet de individuele skill.
- Hermes AI Assistant - Installatie, Opzet, Workflow en Probleemoplossing — installatie, provideropzet, workflowpatronen en probleemoplossing
- Hermes AI Assistant Skills voor echte productie-opstellingen — profiel-eerste skillarchitectuur voor engineers, onderzoekers, operators en executive workflows
Wat maakt AI-systemen anders
Meerdere kenmerken maken AI-systemen het waard om nader te bekijken.
Model Routing als een ontwerpkieze
De meeste lokale opstellingen standaardiseren op één model. AI-systemen ondersteunen het intentioneel selecteren van modellen.
Dat introduceert vragen:
- Moeten kleine verzoeken kleinere modellen gebruiken?
- Wanneer rechtvaardigt redenering een groter contextvenster?
- Wat is het kostverschil per 1.000 tokens?
Deze vragen sluiten direct aan bij de prestatie-afwegingen besproken in de LLM-prestatiegids en de infrastructuurbeslissingen beschreven in de LLM-hostinggids.
AI-systemen brengen die beslissingen aan de oppervlakte in plaats van ze te verbergen.
Ophalen wordt behandeld als een evoluerend component
AI-systemen integreren documentophalen, maar niet als een simplistische “embed en zoek”-stap.
Ze erkennen:
- Chunk-omvang beïnvloedt recall en kosten
- Hybrid search (BM25 + vector) kan beter presteren dan pure dense retrieval
- Reranking verbetert relevantie ten koste van latentie
- Indexeringsstrategie beïnvloedt geheugengebruik
Deze thema’s sluiten aan bij de diepere architecturale overwegingen besproken in de RAG-tutorial.
Het verschil is dat AI-systemen ophalen integreren in een levende assistent in plaats van het te presenteren als een geïsoleerde demo.
Geheugen als Infrastructuur
Stateless LLM’s vergeten alles tussen sessies.
AI-systemen introduceren persistente geheugenvlakken. Dat roept direct ontwerpvragen op:
- Wat moet er op lange termijn worden opgeslagen?
- Wanneer moet context worden samengevat?
- Hoe voorkomt u token-explosie?
- Hoe indexeert u geheugen efficiënt?
Die vragen snijden direct door de datalaagoverwegingen uit de data-infrastructuurgids.
Geheugen stopt met het zijn van een functie en wordt een opslagprobleem.
Observability is niet optioneel
De meeste lokale AI-experimenten stoppen bij “het reageert”.
AI-systemen maken het mogelijk om te observeren:
- Tokengebruik
- Latentie
- Hardwaregebruik
- Doorvoertpatronen
Dit sluit natuurlijk aan bij de monitoringprincipes beschreven in de observability-gids.
Als AI draait op hardware, moet het meetbaar zijn als elke andere workload.
Hoe het voelt om het te gebruiken
Van buitenaf kan een AI-systeem nog steeds lijken op een chat-interface.
Onder het oppervlak gebeurt er meer.
Als u het vraegt om een lokaal opgeslagen technisch rapport samen te vatten:
- Het haalt relevante documentsegmenten op.
- Het selecteert een geschikt model.
- Het genereert een antwoord.
- Het registreert tokengebruik en latentie.
- Het werkt persistent geheugen bij indien nodig.
De zichtbare interactie blijft eenvoudig. Het systeemgedrag is gelaagd.
Dat gelaagde gedrag is wat een systeem onderscheidt van een demo.
Waar AI-systemen in de stack passen
De AI-systemen-cluster zit op het snijpunt van meerdere infrastructuurlagen:
- LLM Hosting: De runtime-laag waar modellen worden uitgevoerd (Ollama, vLLM, llama.cpp)
- RAG: De ophaal-laag die context en grondslag biedt
- Prestaties: De meetlaag die latentie en doorvoer bijhoudt
- Observability: De monitoringlaag die metrieken en kostenbijhouding biedt
- Data Infrastructuur: De opslaglaag die geheugen en indexering verwerkt
Dit onderscheid begrijpen is nuttig. Het zelf draaien maakt het verschil duidelijker.
Voor een minimale lokale installatie met OpenClaw, zie de OpenClaw quickstart gids, die leidt door een Docker-gebaseerde opzet met behulp van een lokaal Ollama-model of een cloud-gebaseerde Claude-configuratie.
Als uw opstelling afhankelijk is van Claude, dit beleidsverandering voor agent tools verduidelijkt waarom API-facturatie nu vereist is voor third-party OpenClaw-workflows.
Gerelateerde bronnen
AI-assistent gidsen:
- OpenClaw systeemoverzicht
- OpenClaw quickstart gids
- OpenClaw Plugins — Ecosystem gids en praktische keuzes
- OpenClaw Skills Ecosystem en praktische productiekeuzes
- OpenClaw productie-opzetpatronen met Plugins en Skills
- Hermes AI Assistant - Installatie, Opzet, Workflow en Probleemoplossing
- Hermes AI Assistant Skills voor echte productie-opstellingen
Infrastructuurlagen:
- LLM Hosting in 2026: Lokaal, zelf-gehoste en cloudinfrastructuur vergeleken
- Retrieval-Augmented Generation (RAG) Tutorial: Architectuur, implementatie en productiegids
- LLM Prestaties in 2026: Benchmarks, bottlenecks en optimalisatie
- Observability voor AI-systemen
- Data Infrastructuur voor AI-systemen