LLM-architectuur: systeemontwerp voor productieve AI

Inhoud

Het draaien van een model is een infrastructureel probleem. Waarde halen uit een model is een architectuurprobleem.

De infrastructuurlaag — runtimes, hardware, API-eindpunten — bepaalt wat mogelijk is. De architectuurlaag bepaalt wat er daadwerkelijk gebeurt met een verzoek: welk model het afhandelt, hoeveel het kost, wat het valideert en hoe fouten worden opgevangen.

De meeste systemen beginnen met één model en helemaal geen architectuur. Dat is correct voor prototyping. In productie wordt het een risico.

LLM-architectuur omvat de ontwerppraktijken die “een model dat ik kan aanroepen” transformeren tot “een systeem waar ik op kan vertrouwen”.

LLM-architectuur als middelste laag tussen modelhosting en AI-toepassingen

Waar LLM-architectuur in de stack past

LLM-architectuur bevindt zich in het midden van een model met drie lagen:

Laag	Wat het dekt	Gerelateerd gebied
Modellen	Runtimes, serving, GPU-opstelling	LLM Hosting · LLM Prestatie
Architectuur	Routing, kosten, guardrails, orkestratie	U bent hier
Toepassingen	AI-assistenten, RAG-pipelines, agents	AI-systemen · RAG

De architectuurlaag wordt vaak in het begin overgeslagen. Het wordt essentieel wanneer je meer dan één model hebt, meer dan één type taak of meer dan één gebruiker. Elk architectuurpatroon in deze cluster bestaat omdat “één model voor alles” niet meer werkte.

Clusterkaart

De vijf onderwerpen in deze cluster bouwen voort op elkaar. Lees ze in deze volgorde voor de meest logische weg:

U bent hier — deze pijler: wat LLM-architectuur is, hoe de onderdelen samenpassen
Prompts — Effectieve Prompts schrijven voor LLM’s — de basis: het vormen van wat het model ontvangt
Routing — Model Routing Strategies — de dispatcher: welk model handelt wat af
Kosten — Cost Optimization for LLM Systems — tokenbudgettering, caching, lokale versus API-economie
Veiligheid — LLM Guardrails in Practice — inputvalidatie, outputfiltering, compliance
Orkestratie — Multi-Model System Design — sequentiële, parallelle, hiërarchische en ensemble patronen

Als je maar tijd hebt voor één, begin dan met routing. Het is het beslissingspunt waar architectuur begint.

Prompt Engineering

Prompt engineering is de laag die het dichtst bij het model ligt. Voor routing, voor caching, voor guardrails — daar is de prompt. Wat je naar het model stuurt, bepaalt wat je terugkrijgt.

De praktische technieken die er toe doen:

Duidelijkheid en structuur — duidelijke instructies presteren beter dan slimme framing
Specifieke voorbeelden — few-shot voorbeelden ankeren het modelgedrag
Roltoewijzing — rolgebaseerde prompts scherpen toon en beperkingen aan
Verschillende benaderingen — verschillende formaten tonen waar het model op reageert
Contextbeheer — wat je opneemt, bepaalt wat het model weegt

Prompt engineering is geen eenmalige taak. Het is een voortdurende kalibratie tussen je taakvereisten en het gedrag van het model.

Diepere duik:

Writing Effective Prompts for LLMs — praktische technieken voor taalmodelprestaties

Model Routing

Een routinglaag beslist welk model welk verzoek afhandelt. Zonder deze gaat elk verzoek naar hetzelfde model — vaak te groot voor simpele taken, te klein voor complexe.

Vier routingstrategieën dekken de meeste productiecijfers:

Strategie	Optimaliseren voor	Beste wanneer
Capaciteit-gebaseerd	Taakkwaliteit	Werklasten met gemengde complexiteit
Kostenbewust	Tokenverbruik	Budgetbeperkte systemen
Latency-bewust	Antwoordtijd	Interactieve tools en realtime chat
Hybride	Alle drie	Productiesystemen met echte beperkingen

Een fallback-keten vangt fouten op: rangschik modellen van beste naar meest betrouwbaar, eindigend met een lokaal model dat niet rate-limited kan worden of uitgeschakeld door een API-uitval.

Diepere duik:

Model Routing Strategies: Local vs API, Cost-Aware, Latency-Aware — capaciteitsgebaseerde, kostenbewuste en latency-bewuste routing met Python-code

Kostenoptimalisatie

LLM-kosten schalen lineair met gebruik. De strategieën die de rekening daadwerkelijk verlagen:

Tokenbudgettering stelt per-sessie, per-taak of adaptieve limieten in. Adaptieve budgetten houden het werkelijke gebruik bij en verstrengen toewijzingen na verloop van tijd.

Lokale inferentie verandert de kostenstructuur volledig. Na hardwareamortisatie draaien lokale modellen tegen elektriciteitskosten. Een GPU met matig gebruik verdient zichzelf binnen maanden terug.

Caching is de meest onderschatte optimalisatie. Exact-match caching vangt herhaalde prompts op. Semantische caching vangt prompts op die hetzelfde betekenen. Voor systemen met veel verkeer elimineert semantische caching een groot deel van API-aanroepen voordat ze plaatsvinden.

Fallback-ketens verlagen de gemiddelde kosten per verzoek: geef de voorkeur aan dure modellen wanneer het budget het toelaat, val terug op goedkopere of lokale modellen naarmate de sessie vordert.

Diepere duik:

Cost Optimization for LLM Systems: Token Budgeting, Fallback Models, Caching — echte hardwaarengetallen, break-even tabellen en werkende Python-patronen

Guardrails

LLM’s zijn van nature onvoorspelbaar. Guardrails beperken wat erin gaat en wat eruit komt — zonder modelcapaciteit te verwijderen.

Drie guardrail-lagen zijn in de praktijk belangrijk:

Inputvalidatie stopt problemen voordat ze het model bereiken. Prompt-sanitisering vangt injectatiepogingen op. Lengtelimieten voorkomen tokenverspilling. Contentfilters blokkeren policyviolations voordat inference überhaupt kosten met zich meebrengt.

Outputfiltering vangt problemen op na generatie. Structurele validatie zorgt voor verwachte antwoordformaten. Contentchecks blokkeren schadelijke outputs. Factchecking (voor kritieke domeinen) valideert beweringen tegen een kennisbank.

Veiligheidsmechanismen beschermen het systeem op de lange termijn: rate limiting voorkomt misbruik, tokenbudgetten beperken de kosten per verzoek, contextwindow-beheer voorkomt overloop en datalekken tussen turns.

Voor compliance-zware systemen (GDPR, HIPAA, SOC 2) voeg je audit logging toe met gestructureerde, alleen-toevoegbare entries en data-residentiecontroles.

Guardrails regelen het modelgesprek, maar zodra agents tools aanroepen en werk delegeren aan andere agents, wordt een tweede beveiligingslaag noodzakelijk: wie mag handelen, namens wie, en met welke audit trail. Dat is protocolbeveiliging in plaats van model I/O-filtering.

Diepere duiken:

LLM Guardrails in Practice: Input Validation, Output Filtering, Safety — praktische guardrail-patronen en compliance-opmerkingen
A2A and MCP Agent Security: Identity, Delegation, and Audit Trails — agent protocolbeveiliging voorbij promptveiligheid: identiteit, autorisatie, gateways en delegatiecontroles

Multi-Model Systeemontwerp

Wanneer een enkel model niet voldoende is, is de architectuurvraag: hoe orkestreer je meerdere modellen zonder complexiteit te creëren die meer kost dan het bespaart?

Vijf patronen dekken het spectrum:

Patroon	Latency	Kosten	Kwaliteit	Gebruik wanneer
Enkel Model	Laagst	Laagst	Variabel	Prototyping, uniforme werklasten
Sequentieel (Pipeline)	Hoog	Midden	Hoog	Multi-step workflows met specialisatie
Parallel (Fan-Out)	Laag	Hoog	Hoog	Onafhankelijke taken, A/B-testen
Hiërarchisch (Planner-Executor)	Hoog	Hoog	Hoogst	Complex redeneren met gespecialiseerde uitvoering
Ensemble	Midden	Hoogst	Hoogst	Kritieke beslissingen die consensus vereisen

De vuistregel: begin met het eenvoudigste patroon dat je werkelijke beperkingen aankan. De meeste productiesystemen bereiken pas parallel of hiërarchisch nadat capaciteitsgebaseerde routing alleen niet meer voldoende is.

Diepere duik:

Multi-Model System Design: When to Use Which Model and Why — alle vijf patronen met werkende Python-code en afwegingstabellen

Architectuurbeslisframework

Gebruik dit als een snelle triage voor wat je moet toevoegen en wanneer:

Probleem	Oplossing	Wanneer toe te voegen
Rekening is te hoog	Kostenbewuste routing, caching, lokale inferentie	Wanneer API-kosten een echte budgetpost worden
Latency is te hoog	Latency-bewuste routing, kleinere modellen	Wanneer gebruikers trage prestaties opmerken
Kwaliteit is inconsistent	Capaciteitsgebaseerde routing, fallback-keten	Wanneer simpele taken dure modellen krijgen of complexe taken goedkope
Gebruikers misbruiken het systeem	Inputvalidatie, rate limiting	Wanneer je toegang opent voor een team buiten het vertrouwde
Antwoorden zijn onveilig of off-policy	Outputfiltering, content guardrails	Wanneer je algemene gebruikers bedient
Één model doet alles	Multi-modelontwerp	Wanneer werklasten genoeg divergeren om de complexiteit te rechtvaardigen
Prompts werken niet	Prompt engineering iteratie	Altijd — prompts hebben tuning nodig naarmate taken evolueren

Bouw architectuur van onder naar boven. Prompt engineering is altijd in scope. Voeg routing toe wanneer de kosten/kwaliteit afwegingen echt worden. Voeg guardrails toe wanneer je externe gebruikers bedient. Voeg multi-model orkestratie als laatste toe.

Hoe LLM-architectuur gerelateerd is aan andere onderwerpen

LLM-architectuur bevindt zich op het snijpunt van verschillende gerelateerde clusters:

Infrastructuur (onder deze laag):

LLM Hosting in 2026: Local, Self-Hosted and Cloud Infrastructure Compared — runtimes (Ollama, llama.cpp, vLLM), hardware en serving-beslissingen. Architectuurpatronen hangen af van welke infrastructuur beschikbaar is. Kostenbewuste routing heeft alleen zin als je zowel lokale als API-modellen draait.
LLM Performance in 2026: Benchmarks, Bottlenecks and Optimization — latency-cijfers, VRAM-limiten, throughput-metingen. Dit zijn de empirische inputs voor routing- en modelselectiebeslissingen.

Toepassingslagen (boven deze laag):

AI Systems: Self-Hosted Assistants, RAG, and Local Infrastructure — de systemen die routing-, guardrail- en orkestratiebeslissingen consumeren. Multi-model architectuur is een voorwaarde voor productie AI-assistenten.
Retrieval-Augmented Generation (RAG) Tutorial — RAG is zelf een architectuurpatroon: een retrieval-pipeline die context aanlevert aan een LLM. De routing-, kosten- en guardrail-patronen uit deze cluster zijn van toepassing binnen RAG-pipelines ook.

Operationele laag:

Observability: Monitoring, Metrics, Prometheus and Grafana Guide — productie LLM-architectuur heeft observability nodig. Kostentracking, latency-monitoring en guardrail-violation metrics vereisen allemaal instrumentatie op de architectuurlaag, niet alleen op de infrastructuurlaag.

Waar LLM-architectuur in de stack past

Clusterkaart

Prompt Engineering

Model Routing

Kostenoptimalisatie

Guardrails

Multi-Model Systeemontwerp

Architectuurbeslisframework

Hoe LLM-architectuur gerelateerd is aan andere onderwerpen

Abonneren