AI-systemen: zelf gehoste assistenten, RAG en lokale infrastructuur

Inhoud

De meeste lokale AI-opstellingen beginnen met een model en een runtime.

Je downloadt een gekwantiseerd model, start het via Ollama of een andere runtime en begint met prompten. Voor experimentele doeleinden is dit meer dan voldoende. Maar zodra je verder gaat dan nieuwsgierigheid – zodra je je zorgen maakt over geheugen, de kwaliteit van ophalen, routeringsbeslissingen of kostenbewustzijn – begint de eenvoud zijn beperkingen te tonen.

Deze cluster onderzoekt een andere benadering: het behandelen van de AI-assistent niet als een enkele modelaanroep, maar als een gecoördineerd systeem.

Dat onderscheid lijkt op het eerste gezicht subtiel, maar het verandert de manier waarop je over lokale AI denkt volledig.

AI-systemen-orchestratie met lokale LLM’s, RAG en geheugenvlakken


Wat is een AI-systeem?

Een AI-systeem is meer dan alleen een model. Het is een orchestratielaag die inferentie, ophalen, geheugen en uitvoering met elkaar verbindt tot iets dat zich gedraagt als een samenhangende assistent.

Lokaal draaien van een model is infrastructuurwerk. Het ontwerpen van een assistent rondom dat model is systeemwerk.

Als je onze bredere gidsen hebt verkend over:

dan weet je al dat inferentie slechts één laag is van de stack.

De AI-systemen-cluster zit bovenop deze lagen. Het vervangt ze niet – het combineert ze.


OpenClaw: Een Self-Hosted AI-assistentsysteem

OpenClaw is een open-source, self-hosted AI-assistent die is ontworpen om te opereren over verschillende messaging-platforms terwijl het draait op lokale infrastructuur.

Op praktisch niveau:

  • Gebruikt lokale LLM-runtimes zoals Ollama of vLLM
  • Integreert ophalen over geïndexeerde documenten
  • Behoudt geheugen buiten een enkele sessie om
  • Voert tools en automatiseringstaken uit
  • Kan worden instrumenteerd en gemonitord
  • Werkt binnen hardwarebeperkingen

Het is niet slechts een wrapper rondom een model. Het is een orchestratielaag die inferentie, ophalen, geheugen en uitvoering met elkaar verbindt tot iets dat zich gedraagt als een samenhangende assistent.

Om het lokaal te draaien en de opstelling zelf te verkennen, zie de OpenClaw quickstart-gids, die stap voor stap een op Docker gebaseerde installatie doorloopt met behulp van ofwel een lokaal Ollama-model of een cloud-gebaseerde Claude-configuratie.

Voor een dieper architecturaal verkennen van hoe OpenClaw verschilt van eenvoudigere lokale opstellingen, lees de OpenClaw systeemoverzicht.


Wat maakt AI-systemen anders

Enkele kenmerken maken AI-systemen de moeite waard om nader te bestuderen.

Model Routing als Ontwerppeiling

De meeste lokale opstellingen standaardiseren op één model. AI-systemen ondersteunen het intentionele selecteren van modellen.

Dit roept vragen op:

  • Moeten kleine verzoeken kleinere modellen gebruiken?
  • Wanneer rechtvaardigt redenering een groter contextvenster?
  • Wat is het kostenverschil per 1.000 tokens?

Deze vragen sluiten direct aan bij de prestatie-overwegingen die besproken worden in de LLM-prestatiegids en de infrastructuurbeslissingen die worden toegelicht in de LLM-hostinggids.

AI-systemen brengen deze beslissingen naar boven in plaats van ze te verbergen.

Ophalen wordt behandeld als een Evoluerend Component

AI-systemen integreren documentophalen, maar niet als een simplistische stap van “embedden en zoeken”.

Ze erkennen:

  • Chunk-omvang beïnvloedt recall en kosten
  • Hybride zoekopdracht (BM25 + vector) kan beter presteren dan puur dense ophalen
  • Reranking verbetert relevantie ten koste van latentie
  • Indexeerstrategie heeft impact op geheugengebruik

Deze thema’s sluiten aan bij de diepere architecturale overwegingen die worden besproken in de RAG-tutorial.

Het verschil is dat AI-systemen ophalen integreren in een levende assistent in plaats van het te presenteren als een geïsoleerde demo.

Geheugen als Infrastructuur

Stateless LLM’s vergeten alles tussen sessies.

AI-systemen introduceren persistente geheugenvlakken. Dit roept direct ontwerpvragen op:

  • Wat moet op lange termijn worden opgeslagen?
  • Wanneer moet context worden samengevat?
  • Hoe voorkom je token-explosie?
  • Hoe indexeer je geheugen efficiënt?

Deze vragen snijden direct door de datalaag-overwegingen uit de data-infrastructuurgids.

Geheugen stopt met het zijn van een functie en wordt een opslagprobleem.

Observabiliteit is niet optioneel

De meeste lokale AI-experimenten stoppen bij “het reageert”.

AI-systemen maken het mogelijk om te observeren:

  • Token-gebruik
  • Latentie
  • Hardware-utilisatie
  • Doorvoerpatronen

Dit sluit natuurlijk aan bij de monitoringprincipes die worden beschreven in de observabiliteitsgids.

Als AI draait op hardware, moet het meetbaar zijn als elke andere workload.


Hoe het voelt om te gebruiken

Van buitenaf kan een AI-systeem er nog steeds uitzien als een chat-interface.

Onder het oppervlakte gebeurt er meer.

Als je het vraegt om een technisch rapport dat lokaal is opgeslagen samen te vatten:

  1. Het haalt relevante documentsegmenten op.
  2. Het selecteert een geschikt model.
  3. Het genereert een antwoord.
  4. Het registreert token-gebruik en latentie.
  5. Het update het persistente geheugen indien nodig.

De zichtbare interactie blijft eenvoudig. Het systeemgedrag is gelagen.

Dat gelagen gedrag is wat een systeem onderscheidt van een demo.


Waar AI-systemen in de Stack passen

De AI-systemen-cluster bevindt zich op het snijpunt van verschillende infrastructuurlagen:

  • LLM Hosting: De runtime-laag waar modellen worden uitgevoerd (Ollama, vLLM, llama.cpp)
  • RAG: De ophaallaag die context en grondslag biedt
  • Prestatie: De meetlaag die latentie en doorvoer bijhoudt
  • Observabiliteit: De monitoringlaag die metingen en kostenbijhouding biedt
  • Data-infrastructuur: De opslaglaag die geheugen en indexering behandelt

Begrip van dat onderscheid is nuttig. Het zelf draaien maakt het verschil duidelijker.

Voor een minimale lokale installatie met OpenClaw, zie de OpenClaw quickstart-gids, die stap voor stap een op Docker gebaseerde opstelling doorloopt met behulp van ofwel een lokaal Ollama-model of een cloud-gebaseerde Claude-configuratie.


Gerelateerde Bronnen